WO2015088179A1

WO2015088179A1 - 얼굴의 키 포인트들에 대한 포지셔닝 방법 및 장치

Info

Publication number: WO2015088179A1
Application number: PCT/KR2014/011793
Authority: WO
Inventors: 션샤오리오; 왕삐아오; 펑쉬에타오; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2013-12-13
Filing date: 2014-12-04
Publication date: 2015-06-18
Also published as: CN104715227B; US20160283820A1; CN104715227A; US10002308B2; KR102068249B1; KR20160111376A

Abstract

사전에 결정된(predetermined) 복수의 포지셔닝 모델을 이용하여, 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함하는 복수의 포지셔닝 결과를 획득하고, 상기 키 포인트들(key points)의 위치에 대한 평가 모델을 이용하여 복수의 포지셔닝 결과를 평가하며, 복수의 포지셔닝 결과 중 평가 결과에 기초하여 선택된 포지셔닝 결과를 이용하여, 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트하는, 포지셔닝 방법 및 장치를 제공할 수 있다.

Description

얼굴의 키 포인트들에 대한 포지셔닝 방법 및 장치

아래의 실시예들은 얼굴 식별 기술에 관한 것으로, 복수의 포지셔닝 모델(positioning model)을 이용한 얼굴의 키 포인트(key point)들의 포지셔닝 방법 및 장치에 관한 것이다.

얼굴의 키 포인트(key point)에 대한 포지셔닝(positioning) 기술은 입력 이미지로부터 검출된 얼굴의 초기 위치를 기반으로 복수의 키 포인트(예를 들어, 눈가, 입가, 코끝 등)의 기하 위치를 획득하는 것이다. 상기 포지셔닝 기술은 얼굴 식별, 이미지 개선, 얼굴 애니메이션 등 응용에서 직접적인 영향을 준다. 얼굴 이미지는 자세, 표정, 조명, 성별, 나이, 인종 등 다양한 요소들에 의해 변화될 수 있으며, 이러한 변화로 인해 얼굴 인식을 위한 포지셔닝의 안정성에 영향을 받을 수 있다.

일 실시예에 따르면, 포지셔닝 방법은, 사전에 결정된(predetermined) 복수의 포지셔닝 모델(positioning model) 을 이용하여, 입력 영상에 포함된 얼굴 영역의 키 포인트들(key points)의 위치를 포함하는 복수의 포지셔닝(positioning) 결과를 획득하는 단계; 상기 키 포인트들(key points)의 위치에 대한 평가 모델(Evaluation Model)을 이용하여 상기 복수의 포지셔닝 결과를 평가하는 단계; 및 상기 복수의 포지셔닝 결과 중 상기 평가 결과에 기초하여 선택된 포지셔닝 결과 를 이용하여, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계를 포함한다.

상기 복수의 포지셔닝 결과를 획득하는 단계는, 상기 입력 영상을, 상기 포지셔닝 모델 각각에 대응시키는 단계; 및 상기 포지셔닝 모델 각각의 키 포인트들에 대응되는 상기 얼굴 영역의 키 포인트들의 위치를 획득하는 단계를 포함할 수 있다.

상기 복수의 포지셔닝 모델은 얼굴 이미지 샘플들을 포함하는 트레이닝 세트들의 서로 다른 유형 각각에 대응할 수 있다.

얼굴 이미지 샘플들을 포함하는 서로 다른 유형의 트레이닝 세트들 각각을 이용하여 상기 포지셔닝 모델을 트레이닝하는 단계를 더 포함할 수 있다.

상기 사전에 결정된(predetermined) 복수의 포지셔닝 모델은 트레이닝(training)을 통해 획득된 복수의 포지셔닝 모델이고, 상기 포지셔닝 모델을 상기 트레이닝하는 단계는, 상기 서로 다른 유형의 트레이닝 세트들 각각에 포함된 상기 얼굴 이미지 샘플들의 키 포인트의 위치의 평균치를 획득하는 단계; 상기 키 포인트의 위치의 평균치를 상기 얼굴 영역에 대응 시켜 상기 키 포인트의 위치의 평균치에 대한 SIFT(Scale Invariant Feature Transform) 특징을 획득하는 단계; 상기 SIFT 특징을 결합하여 특징 벡터를 획득하는 단계; 및 상기 특징 벡터를 기초로, 상기 포지셔닝 모델을 트레이닝하는 단계를 포함할 수 있다.

상기 복수의 포지셔닝 결과를 획득하는 단계는, 상기 특징 벡터를 기초로, 상기 얼굴 영역의 키 포인트들의 위치를 포함하는 상기 복수의 포지셔닝 결과를 획득하는 단계를 포함할 수 있다.

상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계는, 상기 선택된 포지셔닝 결과를 이용하여 상기 얼굴 영역의 이미지 타입을 분류하는 단계; 및 상기 분류된 이미지 타입의 기초로, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계를 포함할 수 있다.

상기 평가 모델은, 상기 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기를 포함할 수 있다.

상기 복수의 포지셔닝 결과를 평가하는 단계는, 상기 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성하는 단계; 상기 이미지 블록들을, 상기 분류기에 입력하여 평가 점수를 획득하는 단계; 및 상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과를 평가하는 단계를 포함할 수 있다.

상기 이미지 블록들은 상기 이미지 블록의 중심 위치와 상기 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하지 않는 포지티브 샘플 이미지 블록(positive sample image block) 및 상기 이미지 블록의 중심 위치와 상기 키 포인트의 위치 간의 거리가 상기 미리 설정된 거리를 초과하는 네거티브 샘플 이미지 블록(negative sample image block)을 포함할 수 있다.

상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계는, 상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택하는 단계; 상기 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 제1 임계치를 비교하는 단계; 및 상기 비교 결과에 기초하여, 상기 평가 모델 및 상기 포지셔닝 모델 중 적어도 하나를 업데이트하는 단계를 포함할 수 있다.

상기 평가 모델을 업데이트하는 단계는, 상기 선택된 포지셔닝 결과에 대응하는 입력 영상을 트레이닝 세트에 추가하는 단계; 상기 선택된 포지셔닝 결과에 따른 키 포인트의 위치에 기초하여 일정 개수의 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 생성 하는 단계; 및 상기 생성된 포지티브 샘플 및 네거티브 샘플을 사용하여 상기 분류기를 트레이닝하여 상기 평가 모델을 업데이트하는 단계를 포함할 수 있다.

상기 포지셔닝 모델을 업데이트하는 단계는, 상기 선택된 포지셔닝 결과의 평가 점수가 상기 제1 임계치를 초과하는 경우, 상기 선택된 포지셔닝 결과에 대응하는 포지셔닝 모델의 유형을 확인하는 단계를 포함할 수 있다.

상기 포지셔닝 모델을 업데이트하는 단계는, 상기 확인된 유형이 상기 포지셔닝 모델의 유형 중 어느 하나의 유형에 해당하는 경우, 상기 선택된 포지셔닝 결과를 상기 어느 하나의 유형에 대응하는 트레이닝 세트에 추가하는 단계; 및 상기 선택된 포지셔닝 결과가 추가된 트레이닝 세트를 이용하여 상기 포지셔닝 모델을 트레이닝하여 상기 포지셔닝 모델을 업데이트하는 단계를 포함할 수 있다.

상기 포지셔닝 모델을 업데이트하는 단계는, 상기 확인된 유형이 상기 포지셔닝 모델의 유형 중 어느 하나의 유형에 해당하지 않는 경우, 상기 선택된 포지셔닝 결과에 대응하는 새로운 트레이닝 세트를 구성하는 단계를 포함할 수 있다.

상기 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 제2 임계값을 초과하면, 상기 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플에 기초하여 새로운 포지셔닝 모델을 트레이닝하는 단계를 더 포함할 수 있다.

일실시예에 따르면, 포지셔닝 장치는, 입력 영상을 수신하는 통신부; 사전에 결정된(predetermined) 복수의 포지셔닝 모델을 저장하는 메모리; 상기 포지셔닝 모델을 이용하여, 상기 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함하는 복수의 포지셔닝 결과를 획득하고, 상기 복수의 포지셔닝 결과를 상기 키 포인트들(key points)의 위치에 대한 평가 모델을 이용하여 평가한 결과에 기초하여 선택된 포지셔닝 결과를 이용하여, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 프로세서를 포함한다.

상기 프로세서는, 상기 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성하고, 상기 이미지 블록들을, 상기 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기에 입력하여 평가 점수를 획득하며, 상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과를 평가할 수 있다.

상기 프로세서는, 상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택하고, 상기 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 제1 임계치와의 비교 결과에 기초하여, 상기 평가 모델 및 상기 포지셔닝 모델 중 적어도 하나를 업데이트할 수 있다.

도 1은 일실시예에 따른 포지셔닝 방법 및 포지셔닝 방법에서 사용되는 트레이닝 세트(training set)의 분류를 도시한 도면이다.

도 2는 일실시예에 따른 포지셔닝 방법을 나타낸 플로우 차트이다.

도 3은 다른 실시예에 따른 포지셔닝 방법을 나타낸 플로우 차트이다.

도 4는 일실시예에 따른 포지셔닝 방법이 수행되는 과정을 설명하기 위한 도면이다

도 5는 다른 실시예에 따른 포지셔닝 방법이 수행되는 과정을 설명하기 위한 도면이다

도 6은 일실시예에 따라 복수의 포지셔닝 모델(positioning model)을 트레이닝하는 방법을 나타낸 플로우 차트이다.

도 7은 일실시예에 따른 포지셔닝 방법에 사용된 키 포인트의 위치의 평균치의 위치(location) 및 포지셔닝 결과를 도시한 도면이다.

도 8은 일실시예에 따라 복수의 포지셔닝 결과를 평가하는 방법을 나타낸 플로우 차트이다.

도 9는 일실시예에 따른 포지셔닝 방법에서 사용되는 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 도시한 도면이다.

도 10은 일실시예에 따라 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트하는 방법을 나타낸 플로우 차트이다.

도 11은 일실시예에 따라 포지셔닝 모델을 업데이트하는 방법을 나타낸 플로우 차트이다.

도 12는 일실시예에 따라 평가 모델을 업데이트하는 방법을 나타낸 플로우 차트이다.

도 13은 다른 실시예에 따른 포지셔닝 방법을 나타낸 플로우 차트이다.

도 14는 일실시예에 따른 포지셔닝 장치의 블록도이다.

도 15는 다른 실시예에 따른 포지셔닝 장치의 블록도이다.

도 16은 다른 실시예에 따른 포지셔닝 장치의 블록도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1을 참조하면, 입력 영상(110) 및 입력 영상(110)을 분류하기 위한 서로 다른 유형의 다양한 트레이닝 세트들(130, 150, 170)이 도시된다.

상술한 바와 같이, 얼굴 이미지는 다양한 요소들에 의해 변화될 수 있으며, 이러한 변화로 인해 얼굴 인식을 위한 포지셔닝(positioning) 또한 용이하지 않다. 일실시예에서, '포지셔닝(positioning)'은 얼굴을 인식 또는 식별하는 데에 이용되는 키 포인트들(key points) 또는 랜드마크들(landmarks)의 위치를 설정(localization)하는 것으로 이해될 수 있다.

일실시예에서는 다양한 요소들에 의한 변화 가능성을 고려하여, 다양한 모델들(예를 들어, 서로 다른 유형의 트레이닝 세트들에 포함된 얼굴 이미지 샘플들)을 이용하여 입력 영상(110)을 구분함으로써 입력 영상(110)이 누구인지를 식별할 수 있다.

입력 영상(110)은 예를 들어, 스키 안경을 착용한 얼굴 이미지 샘플들을 포함하는 제1 트레이닝 세트(130), 흑인의 얼굴 이미지 샘플들을 포함하는 제2 트레이닝 세트(150) 및 아시아 여성의 얼굴 이미지 샘플을 포함하는 제3 트레이닝 세트(170) 등에 의해 구분될 수 있다.

여기서, 제2 트레이닝 세트(150)는 농구 선수, 복서, 등과 같이 특정 직업에 따라 특정된 유형인 '농구 선수'(160)'로 더 구분될 수도 있다.

포지셔닝 모델(positioning model)은 서로 다른 유형의 트레이닝 세트들(130, 150, 170)에 포함된 얼굴 이미지 샘플들에 따라 트레이닝(training)될 수 있다.

도 2를 참조하면, 일실시예에 따른 포지셔닝 장치는, 사전에 결정된(predetermined) 복수의 포지셔닝 모델을 이용하여, 복수의 포지셔닝 결과를 획득한다(210). 이때, 사전에 결정된 복수의 포지셔닝 모델은 예를 들어, 트레이닝(training)된 모델이거나, 또는 트레이닝(training)이 아닌 통계적으로 결정된 대표적인 얼굴 모델일 수 있다. 복수의 포지셔닝 결과는 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함한다.

포지셔닝 모델은 복수의 얼굴 이미지 샘플을 포함하는 서로 다른 유형의 트레이닝 세트들을 이용하여 트레이닝될 수 있다. 포지셔닝 모델은 얼굴 이미지 샘플들을 포함하는 트레이닝 세트들의 서로 다른 유형 각각에 대응될 수 있다. 포지셔닝 모델은 예를 들어, 트레이닝 세트의 종류가 K개라면, 트레이닝 세트들의 각 유형에 대응되는 포지셔닝 모델들(A₁~A_k)이 있을 수 있다.

포지셔닝 장치가 복수의 포지셔닝 모델을 트레이닝하는 방법은 도 6을 참조하여 설명한다.

단계(210)에서, 포지셔닝 장치는 입력 영상을, 트레이닝된 복수의 포지셔닝 모델 각각에 대응시키고, 포지셔닝 모델 각각의 키 포인트들에 대응되는 얼굴 영역의 키 포인트들의 위치를 복수의 포지셔닝 결과로 획득할 수 있다. 이때, 포지셔닝 장치가 획득하는 포지셔닝 결과는 도 7을 참조하여 설명한다.

포지셔닝 장치는, 키 포인트들(key points)의 위치에 대한 평가 모델을 이용하여 단계(210)에서 획득한 복수의 포지셔닝 결과를 평가한다(230). 평가 모델은 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기(classifier)를 포함할 수 있다. 포지셔닝 장치가 복수의 포지셔닝 결과를 평가하는 방법은 도 8을 참조하여 설명한다.

포지셔닝 장치는, 단계(210)에서 획득한 복수의 포지셔닝 결과 중 단계(230)의 평가 결과에 기초하여 선택한 포지셔닝 결과를 이용하여, 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트한다(250). 포지셔닝 장치가 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트하는 방법은 도 10을 참조하여 설명한다.

도 3을 참조하면, 일실시예에 따른 포지셔닝 장치는, 얼굴 이미지 샘플들을 포함하는 서로 다른 유형의 트레이닝 세트들 각각을 이용하여 복수의 포지셔닝 모델을 트레이닝할 수 있다(310).

포지셔닝 장치는 복수의 포지셔닝 모델을 이용하여, 복수의 포지셔닝 결과를 획득한다(320). 포지셔닝 결과는 각각 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함한다. 키 포인트들의 위치는 예를 들어, 눈가, 눈썹 끝, 입가, 코끝 등을 포함할 수 있다.

일실시예에서, K（K≥1）개의 포지셔닝 모델들(A₁~A_k)을 사용하는 것으로 가정하고, K 개의 포지셔닝 모델들의 집합은 A로 표시할 수 있다.

포지셔닝 장치는 입력 영상을 K 개의 포지셔닝 모델과 대응하여 정렬시키고, 입력 영상에서 포지셔닝 모델 각각의 키 포인트들에 대응하는 픽셀들의 위치를 (x,y)로 표시하여 K 개의 포지셔닝 결과를 획득할 수 있다.

포지셔닝 장치는 K 개의 포지셔닝 결과를 각각 s₁, s₂, …, s_K로 표시할 수 있다. 포지셔닝 결과(s)는 각각 L 개의 얼굴의 키 포인트의 위치를 포함할 수 있다.

포지셔닝 결과(s)는

와 같이 나타낼 수 있다.

일실시예에서, 포지셔닝 장치는 트레이닝 세트 C(C₁~C_K)에 의하여 포지셔닝 모델들(A₁~A_k)을 획득할 수 있다. 여기서, 트레이닝 세트 중 하나인 C_K는 얼굴 이미지 샘플들을 포함하는 집합이고, 트레이닝 세트 C_K에 포함된 각 얼굴 이미지 샘플(Ii)에서 L 개의 키 포인트들의 위치

가 측정될 수 있다.

트레이닝 세트 C(C₁~C_K)에 포함된 얼굴 이미지 샘플들은 예를 들어, 자세, 표정, 연령, 인종, 신분 등 다양한 요소들에 따라 서로 다른 유형으로 분류될 수 있다. 포지셔닝 장치는 서로 다른 유형의 트레이닝 세트들 각각을 이용하여 복수의 포지셔닝 모델들(A₁~A_k)을 획득할 수 있다.

포지셔닝 장치는 키 포인트들(key points)의 위치에 대한 평가 모델(Evaluation Model)을 이용하여 단계(320)에서 획득한 복수의 포지셔닝 결과를 평가한다(330).

포지셔닝 장치는 얼굴의 키 포인트에 대해 트레이닝된 분류기에 의해 복수의 포지셔닝 결과를 평가하여 최적의 포지셔닝 결과를 획득할 수 있다.

포지셔닝 장치는 각 키 포인트에 대해 하나의 부스트 분류기(Boost Classifier)를 트레이닝하여 L개의 분류기(h₁,h₂, , h_L)를 획득할 수 있다. 이때, L개의 분류기는 평가 모델 E를 형성할 수 있다.

포지셔닝 장치는 단계(330)의 평가 결과에 기초하여, 단계(320)에서 획득한 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택할 수 있다(340). 단계(340)에서 선택된 포지셔닝 결과를 '최적의 포지셔닝 결과'라고도 부를 수 있다.

포지셔닝 장치는 단계(340)에서 선택된 포지셔닝 결과를 이용하여 입력 영상의 유형을 분류할 수 있다(350).

포지셔닝 장치는 단계(350)에서 분류된 유형을 기초로, 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트한다(360). 포지셔닝 장치가 분류된 유형을 기초로 포지셔닝 모델을 업데이트하는 방법은 도 11을 참조하여 설명하고, 평가 모델을 업데이트하는 방법은 도 12를 참조하여 설명한다.

도 4는 일실시예에 따른 포지셔닝 방법이 수행되는 과정을 설명하기 위한 도면이다.

도 4를 참조하면, 일실시예에 따른 포지셔닝 장치는 하나의 입력 영상이 입력되면(405), 입력 영상에 대해 모든 포지셔닝 모델들(A₁~A_k)(450)을 대응하여 정렬(Align)할 수 있다(410). 포지셔닝 모델들은 얼굴 이미지 샘플들을 포함하는 트레이닝 세트들의 서로 다른 유형 각각에 대응될 수 있다.

포지셔닝 장치는 입력 영상의 얼굴 영역에서, 포지셔닝 모델들(A₁~A_k) 각각의 키 포인트들에 대응되는 키 포인트들의 위치에 해당하는 복수의 포지셔닝 결과(s₁, s₂, , s_K)를 획득할 수 있다(415).

포지셔닝 장치는 평가 모델(460)을 이용하여 복수의 포지셔닝 결과(s₁, s₂, , s_K)를 평가(Evaluate)하고(420), 복수의 포지셔닝 결과(s₁, s₂, , s_K) 중 최적의 포지셔닝 결과(s*)를 선택할 수 있다(425). 여기서, 최적의 포지셔닝 결과(s*)는 입력 영상의 얼굴 영역에서 최적의 키 포인트들의 위치에 해당할 수 있다.

포지셔닝 장치는 복수의 포지셔닝 결과(s₁, s₂, , s_K)를 기초로, 예를 들어, 얼굴 인식(face recognition) 등과 같은 응용 어플리케이션에서 사용될 수 있는 신뢰 계수(confidence coefficient)를 생성할 수도 있다.

포지셔닝 장치는 최적의 포지셔닝 결과(s*)를 이용하여 입력 영상의 유형(image type)을 분류(Classify)하고(430), 분류된 입력 영상의 유형에 가장 유사한 포지셔닝 모델을 검색할 수 있다(435).

포지셔닝 장치는 분류된 입력 영상의 유형에 기초하여, 포지셔닝 모델들(450) 및 평가 모델(460) 중 적어도 하나를 업데이트(Update)할 수 있다(440).

도 5는 다른 실시예에 따른 포지셔닝 방법이 수행되는 과정을 설명하기 위한 도면이다.

도 5에서 505 내지 525의 동작은 도 4의 405 내지 425의 동작과 동일하므로, 이에 대하여는 도 4의 기재 내용을 참고하기로 한다.

포지셔닝 장치는 선택된 포지셔닝 결과(s*)를 검증(Qualify)할 수 있다(528).

포지셔닝 장치는 단계(528)의 검증 결과가 적절하지 않다면, 복수의 포지셔닝 결과(s₁, s₂, , s_K)를 다시 평가(Evaluate)할 수 있다(520).

포지셔닝 장치는 단계(528)의 검증 결과가 적절하다면, 선택된 포지셔닝 결과(s*)를 이용하여 입력 영상의 유형(image type)을 분류(Classify)할 수 있다(530).

포지셔닝 장치는 단계(530)에서 분류된 입력 영상의 유형에 기초하여, 포지셔닝 모델(560) 및 평가 모델(570) 중 적어도 하나를 업데이트할 수 있다(540).

단계(530)에서 분류된 유형이 원래의 포지셔닝 모델들의 유형 중 어느 하나의 유형(예를 들어, A_k의 유형)에 해당하는 경우, 포지셔닝 장치는 어느 하나의 유형에 대응하는 트레이닝 세트(training set)(C)(540)에 추가할 수 있다. 트레이닝 세트(C)는 서브 트레이닝 세트들(Sub training set)(C₁(541), C₂(542), C_k(543))을 포함할 수 있다.

트레이닝 세트(C)(540)는 사용자에 의해 입력된 모든 입력 영상을 포함할 수 있다.

서브 트레이닝 세트들(C₁(541), C₂(542), C_k(543))은 예를 들어, 포즈, 조명, 인종 등과 같은 서로 다른 유형의 얼굴 이미지 샘플들을 포함할 수 있다.

트레이닝 세트(C)(540) 및 일반 트레이닝 세트(C₀)(556)은 평가 모델(570)을 업데이트하는 데에 사용될 수 있다. 서브 트레이닝 세트들(C₁(541), C₂(542), C_k(543)) 각각과 일반 트레이닝 세트(C₀)(556)는 포지셔닝 모델(560)을 업데이트하는 데에 사용될 수 있다.

일반 트레이닝 세트(C₀)(556)는 포지셔닝 모델(560)을 트레이닝하는 데에 이용되는 일반적인 트레이닝 데이터베이스로서, 메모리 등에 미리 저장될 수 있다. 일반 트레이닝 세트(C₀)(556)는 초기 포지셔닝 모델을 트레이닝하는 데에 이용될 수 있다.

도 6을 참조하면, 일실시예에 따른 포지셔닝 장치는 서로 다른 유형의 트레이닝 세트들 각각에 포함된 얼굴 이미지 샘플들의 키 포인트의 위치의 평균치를 획득할 수 있다(610).

예를 들어, 포지셔닝 모델들(A₁~A_k)을 트레이닝할 때, 포지셔닝 장치는 아래의 <수학식 1>을 이용하여 트레이닝 세트 C에 포함된 전체 얼굴 이미지 샘플들의 키 포인트의 위치의 평균치(S⁰), 다시 말해, 평균 키 포인트의 위치를 구할 수 있다.

여기서,

는 트레이닝 세트 C에 포함된 얼굴 이미지 샘플들의 개수를 의미하고, s _i 는 포지셔닝 결과를 나타낸다.

포지셔닝 장치는, 단계(610)에서 획득한 키 포인트의 위치의 평균치를 얼굴 영역에 대응시켜 평균 키 포인트의 위치에 대한 SIFT(Scale Invariant Feature Transform) 특징을 획득할 수 있다(620). 이때, 포지셔닝 장치는 트레이닝 세트(C)에 포함된 각 얼굴 이미지 샘플에 대하여, 단계(610)에서 획득한 평균 키 포인트의 위치(S⁰)를 입력 영상의 얼굴 영역이 가운데에 배치하여 평균 키 포인트의 위치(S⁰)의 각 위치의 SIFT(Scale Invariant Feature Transform) 특징을 획득할 수 있다.

포지셔닝 장치는, 단계(620)에서 획득한 SIFT 특징을 결합하여 특징 벡터(fi)를 획득할 수 있다(630).

포지셔닝 장치는 특징 벡터(fi)를 기초로, 트레이닝 세트(C)에 포함된 전체 얼굴 이미지 샘플들에 대하여 아래의 <수학식 2>와 같은 회귀 모델(regression model)를 구성할 수 있다.

여기서, A는 트레이닝 세트C에 의하여 획득된 포지셔닝 모델의 집합을 나타낸다.

포지셔닝 장치는, 단계(630)에서 획득한 특징 벡터를 기초로, 복수의 포지셔닝 모델을 트레이닝할 수 있다(640). 이에 따라, 포지셔닝 장치는 아래의 <수학식 3>과 같이 K개의 포지셔닝 결과를 포함하는 포지셔닝 결과 세트(s)를 획득할 수 있다.

상기 방법을 통해, 포지셔닝 장치는 트레이닝된 복수의 포지셔닝 모델로부터, 입력된 이미지의 키 포인트의 위치에 대한 복수의 포지셔닝 결과를 획득할 수 있다.

도 7은 일실시예에 따른 포지셔닝 방법에 사용된 키 포인트의 위치의 평균치의 위치 및 포지셔닝 결과를 도시한 도면이다.

도 7을 참조하면, 트레이닝 세트(C)에 포함된 전체 샘플 이미지의 키 포인트의 위치의 평균치(S⁰)가 도시된 도면(710) 및 포지셔닝 결과를 도시한 도면(730)이 도시된다.

도면(710)에서 'X' 마크는 트레이닝 세트에 포함된 전체 샘플 이미지의 키 포인트의 위치의 평균치, 즉 평균 키 포인트의 위치를 나타낸다.

도면(730)에서 'O' 마크는 키 포인트의 위치의 평균치에 대응되는, 입력 영상의 얼굴 영역의 키 포인트들의 위치를 나타낸다.

포지셔닝 장치는 키 포인트의 위치의 평균치를 입력 영상의 얼굴 영역이 가운데에 배치하여 획득한, 키 포인트의 위치의 평균치의 각 위치의 SIFT 특징을 결합하여 특징 벡터를 획득할 수 있다. 포지셔닝 장치는 획득한 특징 벡터를 기초로 트레이닝한 포지셔닝 모델들에 의해 포지셔닝 결과를 얻을 수 있다.

도 7에서는 키 포인트의 위치의 평균치가 얼굴 영역에서의 키 포인트의 실제 위치와 합치되는 포지셔닝 결과를 볼 수 있다.

도 8을 참조하면, 일실시예에 따른 포지셔닝 장치는 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성할 수 있다(810).

이때, 포지셔닝 장치는 키 포인트들 각각의 위치를 중심으로 예를 들어, 도 9에 도시된 것과 같은 포지티브 샘플 이미지 블록(positive sample image block)들 및 네거티브 샘플 이미지 블록(negative sample image block)들을 구성할 수 있다.

포지티브 샘플 이미지 블록들은 이미지 블록의 중심 위치와 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하지 않는 이미지 블록으로 이해될 수 있다. 네거티브 샘플 이미지 블록은 이미지 블록의 중심 위치와 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하는 이미지 블록으로 이해될 수 있다.

포지셔닝 장치는, 단계(810)에서 구성된 이미지 블록들을, 분류기에 입력하여 평가 점수를 획득할 수 있다(820).

포지셔닝 장치는, 단계(820)에서 획득한 평가 점수를 이용하여 복수의 포지셔닝 결과를 평가할 수 있다(830).

도 9를 참조하면, 포지티브 샘플 이미지 블록들이 도시된 도면(910) 및 네거티브 샘플 이미지 블록들이 도시된 도면(950)이 도시된다.

일실시예에 따른 포지셔닝 장치는 분류기를 트레이닝할 때, 트레이닝 세트에 포함된 얼굴 이미지 샘플들 중에서 키 포인트의 위치에 인접된 이미지 블록을 포지티브 샘플로 설정할 수 있다. 여기서, '키 포인트의 위치에 인접한다'는 것은 이미지 블록의 중심 위치와 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하지 않는 것으로 이해될 수 있다.

포지셔닝 장치는 트레이닝 세트에 포함된 얼굴 이미지 샘플들 중에서 키 포인트의 위치와 거리가 먼 이미지 블록을 네거티브 샘플로 설정할 수 있다. 여기서, '키 포인트의 위치와 거리가 멀다'는 것은 이미지 블록의 중심 위치와 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하는 것으로 이해될 수 있다.

포지셔닝 장치는 포지티브 샘플 이미지 블록들 및 네거티브 샘플 이미지 블록들을 이용하여 분류기를 트레이닝할 수 있다.

예를 들어, 포지셔닝 장치가 왼쪽 눈가의 키 포인트(901)에 대해 분류기를 트레이닝한다고 가정하자.

포지셔닝 장치는, 도면(910)에서 네모 모양으로 표시된 이미지 블록들을 분류기의 포지티브 샘플 이미지 블록으로 설정하고, 도면(950)에서 네모 모양으로 표시된 이미지 블록을 분류기의 네거티브 샘플 이미지 블록으로 설정할 수 있다.

일실시예에서, 분류기(h_j)는 키 포인트들 각각에 대응하여 트레이닝되며, 복수의 셀렉터(selector)(h^sel)들을 포함할 수 있다.

각 셀렉터(h^sel)는 약한(weak) Haar 분류기 h^w를 선택하여 입력된 이미지 블록을 평가할 수 있다. 각 분류기(h_j)의 출력은 아래의 <수학식 4>와 같이 전체 셀렉터(h^sel)들의 가중치 합(weighted sum)일 수 있다.

여기서,

는 가중치를 의미하고, x는 이미지 블록을 의미한다.

포지셔닝 장치는 트레이닝 세트에 포함된 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 이용하여 분류기를 트레이닝 함으로써 각 키 포인트의 위치를 평가할 수 있는 분류기들을 획득할 수 있다.

예를 들어, 도 8에서 키 포인트의 포지셔닝 결과(s_i)를 평가할 때, 포지셔닝 장치는 각 키 포인트의 위치(x_j, y_j)를 중심으로 하는 일정한 크기의 이미지 블록을, 대응하는 키 포인트 분류기(h_j)에 입력하여 하나의 평가 점수h_j(x_j, y_j)를 획득할 수 있다.

전체의 분류기들은 키 포인트의 포지셔닝 결과(s_j)에 대한 평가 점수를 획득할 수 있으며, 아래의 <수학식 5>와 같이 포지셔닝 결과의 평균 점수 또한 획득할 수 있다.

[수학식 5]

여기서, L은 얼굴의 키 포인트들의 개수를 나타낸다.

포지셔닝 장치는 K개의 포지셔닝 결과(s₁, s₂, , s_K)에 포함된 각 포지셔닝 결과의 평가 점수를 획득하고, 최적의 포지셔닝 결과(s^*)를 선택할 수 있다. 포지셔닝 장치는 예를 들어, 평가 점수가 가장 높은 포지셔닝 결과를 선택하여 얼굴 키 포인트의 위치에 대한 최적의 포지셔닝 결과로 설정할 수 있다.

실시예에 따라서, 포지셔닝 장치는 다양한 평가 기술들을 이용하여 포지셔닝 모델에 의하여 획득된 포지셔닝 결과를 평가할 수 있다.

도 10을 참조하면, 일실시예에 따른 포지셔닝 장치는 도 8의 단계(820)에서 획득한 평가 점수를 이용하여 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택할 수 있다(1010).

포지셔닝 장치는, 단계(1010)에서 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 제1 임계치를 비교할 수 있다(1020).

포지셔닝 장치는, 단계(1020)의 비교 결과에 기초하여, 평가 모델 및 포지셔닝 모델 중 적어도 하나를 업데이트할 수 있다(1030). 포지셔닝 장치가 포지셔닝 모델을 업데이트하는 방법은 도 11을 참조하여 설명하고, 평가 모델을 업데이트하는 방법은 도 12를 참조하여 설명한다.

도 11을 참조하면, 일실시예에 따른 포지셔닝 장치는 도 10의 단계(1010)과 같이 어느 하나의 포지셔닝 결과가 선택되면(1105), 선택된 포지셔닝 결과의 평가 점수가 제1 임계치를 초과하는지 여부를 판단할 수 있다(1110). 이때, '포지셔닝 결과의 평가 점수가 제1 임계치를 초과한다'는 것은 새로운 포지셔닝 결과의 존재를 나타낼 수 있으므로 포지셔닝 장치가 이를 판단하는 것이다.

단계(1110)의 판단 결과, 포지셔닝 결과의 평가 점수가 제1 임계치를 초과하지 않는 경우, 포지셔닝 장치는 동작을 종료할 수 있다.

단계(1110)의 판단 결과, 포지셔닝 결과의 평가 점수가 제1 임계치를 초과하는 경우, 포지셔닝 장치는 선택된 포지셔닝 결과, 즉 최적의 포지셔닝 결과(s^*)에 대응하는 포지셔닝 모델의 유형을 확인할 수 있다(1115). 이때, 포지셔닝 장치는 예를 들어, 포지셔닝 결과(s^*)에 대응하는 특징 벡터(f)에 기초하여, 온라인 K 평균값 방법으로 포지셔닝 결과(s^*)가 해당하는 포지셔닝 모델의 유형을 검색할 수 있다.

포지셔닝 장치는, 단계(1115)에서 확인된 포지셔닝 모델의 유형이 원래의 K개의 포지셔닝 모델의 유형 중 어느 하나의 유형(A_k)에 해당하는지 여부를 판단할 수 있다(1120).

단계(1120)의 판단 결과, 확인된 유형이 원래의 포지셔닝 모델의 유형 중 어느 하나의 유형(예를 들어, A_k의 유형)에 해당하는 경우, 포지셔닝 장치는 선택된 포지셔닝 결과(s^*)를 어느 하나의 유형(A_k의 유형)에 대응하는 트레이닝 세트(Ck)에 추가할 수 있다(1125).

포지셔닝 장치는, 선택된 포지셔닝 결과가 추가된 트레이닝 세트(Ck)를 이용하여 포지셔닝 모델(A_k)을 다시 트레이닝할 수 있다(1130).

포지셔닝 장치는, 단계(1130)의 트레이닝 결과를 이용하여 포지셔닝 모델(A_k)을 업데이트할 수 있다(1135).

단계(1120)의 판단 결과, 확인된 유형이 원래의 K개의 포지셔닝 모델의 유형 중 어느 하나에 해당하지 않는 경우, 포지셔닝 장치는 선택된 포지셔닝 결과(s^*)에 대응하는 새로운 트레이닝 세트(C_K+1)를 구성할 수 있다(1140).

포지셔닝 장치는 새로운 트레이닝 세트(C_K+1)에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 제2 임계값을 초과하는지 여부를 판단할 수 있다(1145).

단계(1145)의 판단 결과, 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 제2 임계값을 초과하는 경우, 포지셔닝 장치는 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플에 기초하여 새로운 포지셔닝 모델(A_K+1)을 트레이닝할 수 있다(1150). 이에 따라 원래의 K개의 포지셔닝 모델은 K+1개로 포지셔닝 모델의 개수가 증가하고, 포지셔닝 모델이 증가한 경우, 원래의 K개의 포지셔닝 결과 또한 K+1개로 증가할 수 있다.

단계(1145)의 판단 결과, 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 제2 임계값을 초과하지 않는 경우, 포지셔닝 장치는 새로운 트레이닝 세트를 이용하여 포지셔닝 모델을 트레이닝할 수 있다(1155).

포지셔닝 장치는, 단계(1155)의 트레이닝 결과를 이용하여 새로운 포지셔닝 모델(A_K+1)을 업데이트할 수 있다(1135).

일실시예에서, 원래 트레이닝 세트(C)에 얼굴 이미지 샘플(s^*)이 새로이 추가되어 새로운 트레이닝 세트(C_K+1)가 구성된 경우, 포지셔닝 모델(A)는 다음과 같은 방법으로 업데이트될 수 있다.

업데이트 전의 포지셔닝 모델(A)는 다음의 <수학식 6>과 같이 나타낼 수 있다.

여기서, F는 트레이닝 세트(C)에 포함된 샘플 이미지의 전체 샘플 특징 벡터(f)가 형성된 행렬(matrix)를 의미하고, F의 i 번째 행은 i 번째 샘플의 특징 벡터를 의미한다. S는 트레이닝 세트(C)에 포함된 전체 얼굴 이미지 샘플들을 직접 측정한 키 포인트의 위치가 형성된 행렬을 의미하고, S의 i 번째 행은 i 번째 얼굴 이미지 샘플의 키 포인트의 위치를 의미한다. S⁰는 트레이닝 세트C에 포함된 전체 샘플의 평균 키 포인트의 위치가 형성된 행렬을 의미하고, S⁰의 i 번째 행은 i 번째 샘플의 평균 키 포인트의 위치를 의미한다.

<수학식 6>에 최소 제곱(least square) 방식을 적용하면, 다음의 <수학식 7>과 같이 포지셔닝 모델(A)를 구할 수 있다.

여기서, 공분산 행렬(covariance matrix)은

와 같이 나타낼 수 있다.

공분산 행렬 Cov _xx및 Cov _xy의 m 번째 행 n 번째 열의 요소는 다음의 <수학식 8>과 같이 나타낼 수 있다:

여기서, f _im는 트레이닝 세트에 포함된 i 번째 얼굴 이미지 샘플의 특징 벡터의 m 번째 차원의 값을 의미한다. S _in 는 트레이닝 세트에 포함된 i 번째 샘플의 수동으로 측정된 키 포인트의 위치의 n 번째 차원의 값을 의미하고, S _in ⁰는 트레이닝 세트에 포함된 i 번째 얼굴 이미지 샘플의 평균 키 포인트의 위치의 n 번째 차원의 값을 의미한다.

얼굴 이미지 샘플(s^*)이 새로이 추가될 경우, 공분산 행렬의 요소를 다음의 <수학식 9>에 의해 업데이트될 수 있다.

여기서, f _m ^*는 새로운 샘플의 특징 벡터의 m 번째 차원의 값을 의미하고, S _n ⁰는 새로운 샘플의 수동으로 측정된 키 포인트의 n 번째 차원의 값을 의미하고, S _n ^*0는 새로운 샘플의 평균 키 포인트의 위치의 n 번째 차원의 값을 의미한다.

도 12를 참조하면, 일실시예에 따른 포지셔닝 장치는 예를 들어, 도 10의 단계(1010)에서 선택된, 포지셔닝 결과(s^*)에 대응하는 입력 영상을 트레이닝 세트에 추가할 수 있다(1210).

포지셔닝 장치는, 포지셔닝 결과(s^*)에 따른 키 포인트의 위치에 기초하여, 일정 개수의 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 생성할 수 있다(1220). 여기서, '포지셔닝 결과에 따른 키 포인트의 위치'는 포지셔닝 결과에서의 키 포인트들의 위치로 이해될 수 있다.

포지셔닝 장치는, 포지셔닝 결과에서의 L 개의 키 포인트들의 위치를 기준으로 예를 들어, 각각 10개의 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 생성할 수 있다.

포지셔닝 장치는, 단계(1220)에서 생성된 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 이용하여 L개의 분류기들(h₁,h₂, h_L)을 트레이닝 함으로써 평가 모델을 업데이트할 수 있다(1230). 이때, 포지셔닝 장치는 예를 들어, 온라인 AdaBoost 방법을 이용하여 키 포인트 분류기들을 트레이닝할 수 있다.

도 13을 참조하면, 일실시예에 따른 포지셔닝 장치는 트레이닝된 복수의 포지셔닝 모델을 사용하여, 입력된 얼굴의 이미지로부터 복수의 포지셔닝 결과를 획득할 수 있다(1310).

포지셔닝 장치는, 단계(1310)에서 획득한 복수의 포지셔닝 결과에서 최적의 포지셔닝 결과를 선택할 수 있다(1320). 이때, 포지셔닝 장치는 단계(1310)에서 획득한 복수의 포지셔닝 결과를 평가하여 복수의 포지셔닝 결과 중 최적의 포지셔닝 결과를 선택할 수 있다.

포지셔닝 장치는, 단계(1320)에서 선택된 최적의 포지셔닝 결과의 평가 점수가 미리 설정된 임계값을 초과하는지를 판단할 수 있다(1330).

단계(1330)의 판단 결과, 최적의 포지셔닝 결과의 평가 점수가 미리 설정된 임계값을 초과하는 경우, 포지셔닝 장치는 최적의 포지셔닝 결과를 이용하여 평가 모델 및 포지셔닝 모델 중 적어도 하나를 업데이트할 수 있다(1340).

단계(1330)의 판단 결과, 최적의 포지셔닝 결과의 평가 점수가 미리 설정된 임계값을 초과하지 않는 경우, 포지셔닝 장치는 동작을 종료할 수 있다.

도 14는 일실시예에 따른 포지셔닝 장치의 블록도이다.

도 14를 참조하면, 일실시예에 따른 포지셔닝 장치(1400)는 통신부(1410), 프로세서(1420) 및 메모리(1430)를 포함한다.

통신부(1410)는 입력 영상을 수신한다.

프로세서(1420)는 메모리(1430)에 저장된 포지셔닝 모델을 이용하여, 통신부(1410)를 통해 수신된 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함하는 복수의 포지셔닝 결과를 획득한다.

프로세서(1420)는 복수의 포지셔닝 결과를 평가 모델을 이용하여 평가한 결과에 기초하여 어느 하나의 포지셔닝 결과를 선택하고, 선택된 포지셔닝 결과를 이용하여, 포지셔닝 모델 및 평가 모델 중 적어도 하나를 업데이트한다. 평가 모델은 키 포인트들(key points)의 위치에 대한 것일 수 있다.

메모리(1430)는 사전에 결정된(predetermined) 복수의 포지셔닝 모델을 저장한다. 여기서, 사전에 결정된(predetermined) 복수의 포지셔닝 모델은 예를 들어, 트레이닝(training)된 모델이거나, 또는 트레이닝(training)이 아닌 통계적으로 결정된 대표적인 얼굴 모델일 수 있다.

프로세서(1420)는 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성할 수 있다. 프로세서(1420)는 이미지 블록들을, 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기에 입력하여 평가 점수를 획득할 수 있다. 프로세서(1420)는 평가 점수를 이용하여 복수의 포지셔닝 결과를 평가할 수 있다.

프로세서(1420)는 평가 점수를 이용하여 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택할 수 있다. 프로세서(1420)는 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 임계치(예를 들어, 제1 임계치)와의 비교 결과에 기초하여, 평가 모델 및 포지셔닝 모델 중 적어도 하나를 업데이트할 수 있다.

도 15는 다른 실시예에 따른 포지셔닝 장치의 블록도이다.

도 15를 참조하면, 일실시예에 따른 포지셔닝 장치(1500)는 획득부(1510) 및 평가부(1520)를 포함한다.

획득부(1510)는 복수의 포지셔닝 모델에 의해 입력 영상에 포함된 얼굴 영역을 포지셔닝하여, 각 포지셔닝 모델에 대응하는 복수의 포지셔닝 결과를 획득할 수 있다. 복수의 포지셔닝 모델은 서로 다른 유형의 트레이닝 세트들을 기반으로 트레이닝된 얼굴에 대한 포지셔닝 모델일 수 있다. 복수의 포지셔닝 모델 각각은 서로 다른 유형의 트레이닝 세트에 대응될 수 있다.

평가부(1520)는 트레이닝된 평가 모델을 사용하여, 획득부(1510)에 의하여 획득된 복수의 포지셔닝 결과를 평가하여 최적의 포지셔닝 결과를 선택할 수 있다.

평가부(1520)에서 사용된 평가 모델은, 얼굴 이미지에 포함된 복수의 키 포인트의 위치에 대해 트레이닝된 분류기로 구성되고, 각 분류기는 포지셔닝 결과에 대응하는 키 포인트들의 위치를 평가할 수 있다.

포지셔닝 장치(1500)는 분류기를 트레이닝할 때, 트레이닝 세트에 포함된 얼굴 이미지 샘플들 중에서 키 포인트의 위치에 인접된 이미지 블록을 포지티브 샘플로 설정하고, 키 포인트의 위치와 거리가 먼 이미지 블록을 네거티브 샘플로 설정하여 분류기를 트레이닝할 수 있다.

도 16은 다른 실시예에 따른 포지셔닝 장치의 블록도이다.

도 16을 참조하면, 일실시예에 따른 포지셔닝 장치(1600)는 획득부(1610), 평가부(1620), 및 업데이트부(1630)를 포함한다.

여기서, 획득부(1610), 및 평가부(1620)의 동작은 도 15에 도시된 획득부(1510) 및 평가부(1520)의 동작과 동일하므로, 자세한 설명은 생략한다.

업데이트부(1630)는 평가부(1620)에 의해 선택된 최적의 포지셔닝 결과에 기초하여, 평가부(1620)에 사용된 평가 모델을 업데이트할 수 있다.

보다 구체적으로, 업데이트부(1630)는 평가부(1620)에 의해 선택된 최적의 포지셔닝 결과에 대한 평가 점수가 미리 설정된 임계값을 초과한 것을 확인하면, 최적의 포지셔닝 결과에 기초하여 평가 모델을 업데이트할 수 있다.

평가 모델을 업데이트할 때, 업데이트부(1630)는 최적의 포지셔닝 결과에 대응하는 입력된 이미지를 트레이닝 세트에 추가하고, 최적의 포지셔닝 결과에 대응하는 키 포인트의 위치에 기초하여 일정한 개수의 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 생성할 수 있다. 업데이트부(1630)는 생성된 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 이용하여 평가 모델에 포함된 분류기를 트레이닝하여 평가 모델을 업데이트할 수 있다.

업데이트부(1630)는 평가부(1620)에 의해 선택된 최적의 포지셔닝 결과에 기초하여 획득부(1610)에서 사용된 포지셔닝 모델을 업데이트할 수 있다.

평가 점수가 미리 설정된 임계값을 초과하는 새로운 포지셔닝 결과가 존재한 것을 확인하면, 업데이트부(1630)는 포지셔닝 결과에 대응하는 포지셔닝 모델을 확인할 수 있다.

업데이트부(1630)는 SIFT 특징을 결합한 특징 벡터에 기초하여 예를 들어, 온라인 K 평균값 방법으로 최적의 포지셔닝 결과가 해당하는 유형을 검색할 수 있다.

최적의 포지셔닝 결과가 원래의 K개의 포지셔닝 모델이 속한 어느 하나의 유형(예를 들어, A_k의 유형)에 해당되면, 업데이트부(1630)는 최적의 포지셔닝 결과를 A_k의 유형에 대응하는 트레이닝 세트 Ck에 추가할 수 있다. 업데이트부(1630)는 상술한 포지셔닝 모델을 트레이닝하는 방법으로 포지셔닝 모델A_k을 업데이트할 수 있다.

최적의 포지셔닝 결과가 원래의 K개의 포지셔닝 모델에 포함된 어느 하나의 유형에 해당되지 않으면, 업데이트부(1630)는 최적의 포지셔닝 결과에 대응하는 트레이닝 세트 C_K+1를 새로 구성할 수 있다.

이때, 새로 구성된 트레이닝 세트 C_K+1에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 값(예를 들어, 제2 임계값)을 초과하면, 업데이트부(1630)는 새로운 트레이닝 세트를 사용하여 새로운 포지셔닝 모델 A_K+1를 트레이닝할 수 있다.

일실시예에 따르면, 복수의 포지셔닝 모델들을 이용함으로써 자세, 표정, 빛 등 요소에 의해 영향을 받더라도 안정적인 포지셔닝 결과를 얻을 수 있다.

일실시예에 따르면, 평가 모델을 이용한 평가에 기초하여 복수의 포지셔닝 결과 중 최적의 포지셔닝 결과를 선택하고, 포지셔닝 결과로부터 얻은 평가 점수를 이후의 다양한 후속 과정(예를 들어, 얼굴 식별)에서 이용할 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

사전에 결정된(predetermined) 복수의 포지셔닝 모델(positioning model)을 이용하여, 입력 영상에 포함된 얼굴 영역의 키 포인트들(key points)의 위치를 포함하는 복수의 포지셔닝(positioning) 결과를 획득하는 단계;

상기 키 포인트들(key points)의 위치에 대한 평가 모델(Evaluation Model)을 이용하여 상기 복수의 포지셔닝 결과를 평가하는 단계; 및

상기 복수의 포지셔닝 결과 중 상기 평가 결과에 기초하여 선택된 포지셔닝 결과를 이용하여, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계

를 포함하는, 포지셔닝 방법.
제1항에 있어서,

상기 복수의 포지셔닝 결과를 획득하는 단계는,

상기 입력 영상을, 상기 포지셔닝 모델 각각에 대응시키는 단계; 및

상기 포지셔닝 모델 각각의 키 포인트들에 대응되는 상기 얼굴 영역의 키 포인트들의 위치를 획득하는 단계

를 포함하는, 포지셔닝 방법.
제1항에 있어서,

상기 복수의 포지셔닝 모델은

얼굴 이미지 샘플들을 포함하는 트레이닝 세트들의 서로 다른 유형 각각에 대응하는, 포지셔닝 방법.
제1항에 있어서,

얼굴 이미지 샘플들을 포함하는 서로 다른 유형의 트레이닝 세트들 각각을 이용하여 상기 포지셔닝 모델을 트레이닝하는 단계

를 더 포함하는, 포지션이 방법.
제4항에 있어서,

상기 사전에 결정된(predetermined) 복수의 포지셔닝 모델은 트레이닝(training)을 통해 획득된 복수의 포지셔닝 모델이고,

상기 포지셔닝 모델을 상기 트레이닝하는 단계는,

상기 서로 다른 유형의 트레이닝 세트들 각각에 포함된 상기 얼굴 이미지 샘플들의 키 포인트의 위치의 평균치를 획득하는 단계;

상기 키 포인트의 위치의 평균치를 상기 얼굴 영역에 대응시켜 상기 키 포인트의 위치의 평균치에 대한 SIFT(Scale Invariant Feature Transform) 특징을 획득하는 단계;

상기 SIFT 특징을 결합하여 특징 벡터를 획득하는 단계; 및

상기 특징 벡터를 기초로, 상기 포지셔닝 모델을 트레이닝하는 단계

를 포함하는, 포지셔닝 방법.
제5항에 있어서,

상기 복수의 포지셔닝 결과를 획득하는 단계는,

상기 특징 벡터를 기초로, 상기 얼굴 영역의 키 포인트들의 위치를 포함하는 상기 복수의 포지셔닝 결과를 획득하는 단계

를 포함하는, 포지셔닝 방법.
제1항에 있어서,

상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계는,

상기 선택된 포지셔닝 결과를 이용하여 상기 얼굴 영역의 이미지 타입을 분류하는 단계;

상기 분류된 이미지 타입의 기초로, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계

를 포함하는, 포지셔닝 방법.
제1항에 있어서,

상기 평가 모델은,

상기 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기(clssifier)를 포함하는, 포지셔닝 방법.
제8항에 있어서,

상기 복수의 포지셔닝 결과를 평가하는 단계는,

상기 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성하는 단계;

상기 이미지 블록들을, 상기 분류기에 입력하여 평가 점수를 획득하는 단계; 및

상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과를 평가하는 단계

를 포함하는, 포지셔닝 방법.
제9항에 있어서,

상기 이미지 블록들은

상기 이미지 블록의 중심 위치와 상기 키 포인트의 위치 간의 거리가 미리 설정된 거리를 초과하지 않는 포지티브 샘플 이미지 블록(positive sample image block) 및 상기 이미지 블록의 중심 위치와 상기 키 포인트의 위치 간의 거리가 상기 미리 설정된 거리를 초과하는 네거티브 샘플 이미지 블록(negative sample image block)을 포함하는, 포지셔닝 방법.
제9항에 있어서,

상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 단계는,

상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택하는 단계;

상기 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 제1 임계치를 비교하는 단계; 및

상기 비교 결과에 기초하여, 상기 평가 모델 및 상기 포지셔닝 모델 중 적어도 하나를 업데이트하는 단계

를 포함하는, 포지셔닝 방법.
제11항에 있어서,

상기 평가 모델을 업데이트하는 단계는,

상기 선택된 포지셔닝 결과에 대응하는 입력 영상을 트레이닝 세트에 추가하는 단계;

상기 선택된 포지셔닝 결과에 따른 키 포인트의 위치에 기초하여 일정 개수의 포지티브 샘플 이미지 블록 및 네거티브 샘플 이미지 블록을 생성하는 단계; 및

상기 생성된 포지티브 샘플 및 네거티브 샘플을 사용하여 상기 분류기를 트레이닝하여 상기 평가 모델을 업데이트하는 단계

를 포함하는, 포지셔닝 방법.
제11항에 있어서,

상기 포지셔닝 모델을 업데이트하는 단계는,

상기 선택된 포지셔닝 결과의 평가 점수가 상기 제1 임계치를 초과하는 경우, 상기 선택된 포지셔닝 결과에 대응하는 포지셔닝 모델의 유형을 확인하는 단계

를 포함하는, 포지셔닝 방법.
제13항에 있어서,

상기 포지셔닝 모델을 업데이트하는 단계는,

상기 확인된 유형이 상기 포지셔닝 모델의 유형 중 어느 하나의 유형에 해당하는 경우, 상기 선택된 포지셔닝 결과를 상기 어느 하나의 유형에 대응하는 트레이닝 세트에 추가하는 단계; 및

상기 선택된 포지셔닝 결과가 추가된 트레이닝 세트를 이용하여 상기 포지셔닝 모델을 트레이닝하여 상기 포지셔닝 모델을 업데이트하는 단계

를 포함하는, 포지셔닝 방법.
제13항에 있어서,

상기 포지셔닝 모델을 업데이트하는 단계는,

상기 확인된 유형이 상기 포지셔닝 모델의 유형 중 어느 하나의 유형에 해당하지 않는 경우, 상기 선택된 포지셔닝 결과에 대응하는 새로운 트레이닝 세트를 구성하는 단계

를 포함하는, 포지셔닝 방법.
제15항에 있어서,

상기 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플의 개수가 미리 설정된 제2 임계값을 초과하면, 상기 새로운 트레이닝 세트에 포함된 얼굴 이미지 샘플에 기초하여 새로운 포지셔닝 모델을 트레이닝하는 단계

를 더 포함하는, 포지셔닝 방법.
제1항 내지 제16항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
입력 영상을 수신하는 통신부;

사전에 결정된(predetermined) 복수의 포지셔닝 모델을 저장하는 메모리;

상기 포지셔닝 모델을 이용하여, 상기 입력 영상에 포함된 얼굴 영역의 키 포인트들의 위치를 포함하는 복수의 포지셔닝 결과를 획득하고, 상기 복수의 포지셔닝 결과를 상기 키 포인트들(key points)의 위치에 대한 평가 모델을 이용하여 평가한 결과에 기초하여 선택된 포지셔닝 결과를 이용하여, 상기 포지셔닝 모델 및 상기 평가 모델 중 적어도 하나를 업데이트하는 프로세서

를 포함하는, 포지셔닝 장치.
제18항에 있어서,

상기 프로세서는,

상기 복수의 포지셔닝 결과에 포함된 키 포인트들 각각의 위치를 중심으로 하는 일정 크기의 이미지 블록들을 구성하고, 상기 이미지 블록들을, 상기 키 포인트들 각각에 대응하여 트레이닝된 복수의 분류기에 입력하여 평가 점수를 획득하며, 상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과를 평가하는, 포지셔닝 장치.
제19항에 있어서,

상기 프로세서는,

상기 평가 점수를 이용하여 상기 복수의 포지셔닝 결과 중 어느 하나의 포지셔닝 결과를 선택하고, 상기 선택된 포지셔닝 결과의 평가 점수와 미리 설정된 제1 임계치와의 비교 결과에 기초하여, 상기 평가 모델 및 상기 포지셔닝 모델 중 적어도 하나를 업데이트하는, 포지셔닝 장치.