KR20150089482A

KR20150089482A - 표정 동작사전을 이용한 표정인식 방법 및 장치

Info

Publication number: KR20150089482A
Application number: KR1020140010160A
Authority: KR
Inventors: 이찬수; 장자순
Original assignee: 영남대학교 산학협력단
Priority date: 2014-01-28
Filing date: 2014-01-28
Publication date: 2015-08-05
Also published as: KR101549645B1; WO2015115681A1; US10068131B2; US20160342828A1

Abstract

본 발명의 일 측면에 따르면,
학습용 표정으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 정규화를 수행하고 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 표정 학습용 데이터를 생성하는 학습용 영상 획득부; 표정동작 사전을 초기화한 후, 상기 조밀 움직임의 변화의 집합에 대하여 모션 플로우에 대한 이미지 좌표 공간에서 지역 지원 맵을 이용하여 주어진 제한 조건을 만족하는 사전 학습 방법에 따라 각 표정별 표정 인식을 위한 수치 값을 나타내어 저장하는 표정 동작 사전 학습부; 상기 표정동작 사전에 대한 데이터의 가중치를 바탕으로 각 표정별로 표정분류를 학습하는 표정 분류기 학습부; 인식 대상으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 정규화를 수행하고 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 인식용 데이터를 생성하는 인식용 영상 획득부; 및 인식하고자 하는 데이터에 대한 표정 가중치를 분석하여 상기 표정 분류기 학습부에서 가장 근접한 분류를 판단하여 표정을 인식하는 표정 인식부를 포함하는 표정 동작 사전을 이용한 표정인식장치가 제공된다.

Description

표정 동작사전을 이용한 표정인식 방법 및 장치 {Method and apparatus of recognizing facial expression using motion dictionary}

본 발명은 얼굴에 나타나는 표정변화를 감지하여 이로부터 인간의 표정을 인식할 수 있는 표정 동작사전을 이용한 표정인식방법 및 그 장치에 관한 것이다.

얼굴 표정은 인간의 감정과 의사를 전달하는 가장 자연스러운 의사 소통 방법들 중의 하나이다. 얼굴 표정은 사람들이 말로 나타내거나 심지어 자신의 기분을 실감하는 것보다도 더 빨리 감정을 표현할 수 있다.

예를 들면, 주로 입과 눈과 눈썹의 위치 변화를 사용하여 상이한 감정들이 표현된다.

표정인식은 사람의 감정을 이해하기 위한 방법으로 많은 연구가 진행되고 있으며, 최근에 스마트 폰과 같은 개인화 장치에서 각 사람의 감정에 따라 다른 동작을 구현하고자 하는 연구가 많이 진행되고 있으며, 서비스 로봇을 비롯하여 사람과 로봇의 상호작용에 대한 연구도 활발히 진행되고 있다.

이러한 연구의 일환으로 사람의 감정에 따라 로봇이 다른 반응을 보이도록 하는 연구도 진행되고 있다.

이에 따라 얼굴에 나타나는 표정변화를 정확히 인지하고 감정을 분류를 효과적으로 인식할 수 있는 기술이 요구된다.

이에 대한 종래기술인 대한민국 등록특허공보 10-1084298호에서는 조명의 정규화를 통하여 히스토그램 매칭된 얼굴 영상에 인공 신경망 알고리즘을 적용하여 얼굴 표정을 인식하는 방법이 제공된다.

대한민국 등록특허공보 10-1084298(조명변화에 견고한 얼굴 표정 인식방법)

본 발명의 목적은 획득된 영상으로부터 얼굴에 나타나는 표정변화를 산출하여 자동으로 얼굴의 표정을 분류하여 인식하는 장치 및 방법을 제공한다.

본 발명은 얼굴 표정의 지역적인 움직임을 바탕으로 실시간 표정인식 방법 및 장치를 제공하는 것에 있다.

본 발명의 일 측면에 따르면, 학습용 표정으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제1 정규화를 수행하고 무표정의 기준프레임으로부터 상기 학습용 표정으로부터 조밀 움직임의 변화를 추적하여 표정 학습용 데이터를 생성하는 학습용 영상 획득부; 표정동작 사전을 초기화한 후, 상기 학습용 표정의 조밀 움직임의 변화의 집합에 대하여 모션 플로우에 대한 이미지 좌표 공간에서 지역 지원 맵을 이용하여 주어진 제한 조건을 만족하는 사전 학습 방법에 따라 각 표정별 표정 인식을 위한 수치 값을 나타내어 저장하는 표정 동작 사전 학습부; 상기 표정동작 사전에 대한 데이터의 가중치를 바탕으로 각 표정별로 표정분류를 학습하는 표정 분류기 학습부; 인식 대상으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제 2 정규화를 수행하고 무표정의 기준프레임으로부터 상기 인식 대상의 조밀 움직임의 변화를 추적하여 인식용 데이터를 생성하는 인식용 영상 획득부; 및 인식하고자 하는 데이터에 대한 표정 가중치를 분석하여 상기 표정 분류기 학습부에서 가장 근접한 분류를 판단하여 표정을 인식하는 표정 인식부를 포함하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치가 제공된다.

또한, 상기 제 1 정규화는 검출된 양쪽 눈의 위치를 바탕으로 그 중심이 원점이 되도록 정렬한 후, 눈의 위치를 바탕으로 일정한 비율로 오프셋(offset)을 주어 얼굴 영역에서 표정과 관계없는 주변 영역을 제거하고 특징부의 위치 좌표를 설정하는 것을 특징으로 한다.

또한, 상기 표정 동작 사전 학습부에서 사전 학습 방법에 따라 표정 인식을 위한 수치 값은 다음 식의 목적함수에 대한 최적의 값을 구하는 방법에 의하여 취득하는 것을 특징으로 한다.

(여기서 D는 구하고자 하는 사전의 수치 값이며,

는 i번째 가중치 벡터를 의미하며

는 k번째 사전 열에서 j번째 모션의 차원을 의미한다. K는 설정된 사전의 개수이며, M은 동작 모션의 차원임.

는 i번째 모션 데이터이며, N은 학습에 사용된 모션 데이터의 개수를 의미하고,

는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵임)

또한, 상기 표정 동작 사전 학습부에서 표정 동작 사전의 수치 값(D)이 주어졌을 때 다음 식에 의하여 최적의 가중치 (

)를 구하는 것을 특징으로 한다.

(여기서

는 k번째 사전 열에서 j번째 모션 차원을 의미한다. K는 설정된 사전의 개수이며, M은 모션의 차원임.

는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵임)

또한, 상기 표정 동작 사전 학습부에서, 주어진 가중치 값들의 모음을 A라고 할 때, 다음 식에 의하여 표정 동작 사전 수치 값(D)를 구하는 것을 특징으로 한다.

본 발명의 또 다른 측면에 따르면, 학습용 표정으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제 1 정규화를 수행하고, 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 표정 학습용 데이터를 생성하는 학습용 영상 획득 단계; - 상기 제 1 정규화는 검출된 양쪽 눈의 위치를 바탕으로 그 중심이 원점이 되도록 정렬한 후, 눈의 위치를 바탕으로 일정한 비율로 오프셋(offset)을 주어 얼굴 영역에서 표정과 관계없는 주변 영역을 제거하고 특징부의 위치좌표를 설정하는 것을 특징으로 함- , 표정동작 사전을 초기화한 후, 상기 조밀 움직임의 변화의 집합에 대하여 모션 플로우에 대한 이미지 좌표 공간에서 지역 지원 맵을 이용하여 주어진 제한 조건을 만족하는 사전 학습 방법에 따라 각 표정별 표정 인식을 위한 수치 값을 나타내어 저장하는 표정 동작 사전 학습 단계; 상기 표정동작 사전에 대한 데이터의 가중치를 바탕으로 각 표정별로 표정분류를 학습하는 표정 분류기 학습 단계; 인식 대상으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제2 정규화를 수행하고 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 인식용 데이터를 생성하는 인식용 영상 획득 단계; 및 인식하고자 하는 데이터에 대한 표정 가중치를 분석하여 상기 표정 분류기 학습부에서 가장 근접한 분류를 판단하여 표정을 인식하는 표정 인식 단계를 포함하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식방법이 제공된다.

또한, 상기 표정 동작 사전 학습 단계에서, 상기 표정동작 사전을 초기화한 후, 사전 가중치 추정 단계를 더 포함하며, 상기 사전 가중치 추정 단계는, 재생성 오류 검사를 바탕으로 수행하되, 상기 재생성 오류 검사는 상기 사전 학습을 통하여 얻은 사전 데이터와 주어진 원본 데이터에 대한 사전 데이터의 조합 가중치를 구하여 각 사전 데이터의 요소와 상기 구해진 조합 가중치의 값을 바탕으로 원본 데이터에 대응하는 추정 데이터를 생성한 후, 상기 추정 데이터와 원본 데이터와의 차이를 구한 것을 특징으로 한다.

또한, 상기 표정 동작 사전 학습 단계에서 사전 학습 방법에 따라 표정 인식을 위한 수치 값은 다음 식의 목적함수에 대한 최적의 값을 구하는 방법에 의하여 취득하는 것을 특징으로 한다.

(여기서 D는 구하고자 하는 사전의 수치 값이며,

는 i번째 가중치 벡터를 의미하며

는 k번째 사전 열에서 j번째 동작 차원을 의미한다. K는 설정된 사전의 개수이며, M은 동작 모션의 차원임.

는 i번째 표정 동작 데이터이며, N은 학습에 사용된 모션 데이터의 개수를 의미하고,

는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵임)

본 발명의 일 실시 예에 따르면, 모션 플로우를 사용하여 조명 변화에 견고하고 및 정규화 과정을 통하여 얼굴의 회전, 얼굴의 위치 이동 등에 대응하여 신뢰성 있는 표정인식방법 및 장치를 제공할 수 있다.

또한, 지역화된 움직임에 대한 자동 모델링을 바탕으로 계산 성능에 최적화되고 실시간 표정인식을 제공할 수 있다.

본 발명의 일 실시 예에 의하면, 하나 또는 그 이상의 영상이 주어지는 비디오, 다수의 이미지 등에서 효과적으로 표정을 인식할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 표정 동작사전을 이용한 표정인식장치의 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 지역지원 맵의 예를 도시한 것이다.
도 3은 본 발명의 일 실시 예에 따른 자동으로 생성된 지역지원 맵의 중심 위치의 예를 도시한 것이다.
도 4는 본 발명의 표정 동작 사전 학습 과정에서 표정 동작 사전과 가중치의 합에 의하여 원래의 학습 데이터를 생성하는 단계를 설명하기 위한 도면이다.
도 5는 학습된 지역적인 표정 동작 사전에서 동작의 크기에 따라 표시한 사전의 예를 보여준다.
도 6은 본 발명의 일 실시 예에 따른 영상의 정규화의 예를 도시한 것이다.

본 발명에 따른 표정 동작사전을 이용한 표정인식 방법 및 장치의 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 이하 사용되는 제1, 제2 등과 같은 용어는 동일 또는 상응하는 구성 요소들을 구별하기 위한 식별 기호에 불과하며, 동일 또는 상응하는 구성 요소들이 제1, 제2 등의 용어에 의하여 한정되는 것은 아니다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다.

그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명의 일 실시 예에 따르면, 표정에 따라 얼굴에 나타나는 움직임의 변화를 추출하고, 추출된 움직임을 지역적으로 나타내기 위한 표정 동작 사전을 학습하며 이를 바탕으로 표정을 자동적으로 인식하는 방법을 제시한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시 예에 따른 표정 동작사전을 이용한 표정인식장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 표정 동작사전을 이용한 표정인식장치(1)는 학습용 영상획득부(10), 인식용 영상획득부(20), 표정동작 사전학습부(30), 표정분류기 학습부(40) 및 표정인식부(50)를 포함한다.

학습용 영상획득부(10)에서는 비디오 영상, 또는 다수의 연속된 정지영상으로부터 얼굴 눈의 위치 등이 포함된 영상 데이터를 획득하게 된다.

영상 데이터를 획득하는 단계(101) 이후에, 획득된 영상 데이터로부터 영상에 대한 정규화 단계(102)를 수행한다.

정규화 단계(102)에서는 획득된 영상 데이터로부터 먼저 눈의 위치를 검출하고, 검출된 눈의 위치와 거리가 정규화하려는 이미지의 크기에 따라 정해지는 거리와 동일하게 되도록 획득된 영상 데이터가 기준 영상(또는 초기 영상)과 일정한 거리와 크기가 되도록 정규화한다.

이러한 정규화 단계를 통하여 머리 움직임이나 이동으로 인한 위치 변화에 무관한 정규화된 표정을 얻게 된다.

도 6은 본 발명의 일 실시 예에 따른 영상의 정규화의 예를 도시한 것이다.

도 6을 참조하면, 정규화 과정은 검출된 왼쪽 눈 및 오른 쪽 눈의 위치를 바탕으로 그 중심부(515)를 원점으로 한다.

왼쪽 눈과 오른쪽 눈이 수평이 되도록 회전한 후, 지정된 눈의 X축(520) 위치에 맞추어 왼쪽 눈(501) 및 오른쪽 눈(502)의 거리(d)가 설정된 기준 눈의 거리보다 작은 경우에는 확대하며, 또는 기준 눈의 거리보다 큰 경우에는 축소하여 기준치와 동일한 거리를 가지도록 정규화된다.

즉, 검출된 얼굴 영상이 가까이 있어서 큰 경우에는 눈의 위치 간격이 기준보다 크기 때문에 기준 위치가 되도록 축소를 하게 된다.

또한 정규화 단계에는 기준점(가령 두 눈 중심의 평균)을 기준으로 얼굴의 포함 영역을 설정하기 위하여 offset 값에 따라 얼굴 크기를 정규화하는 offset단계가 포함된다.

offset단계에서는 표정인식과 관계없는 얼굴 및 배경 영역을 제거하게 된다.

얼굴에서 두 눈 사이의 거리(d)를 바탕으로 X축에 대하여는 d/2 + axd 만큼의 offset를 대칭적으로 부여하여 배경을 제거한다.

또한 Y축에 대해서는 눈 위쪽으로 bxd 만큼, 눈 아래쪽으로는 cxd만큼의 offset를 부여하여 배경을 제거한다.

본 발명의 일 실시 예에 따르면, b = 1로 설정할 때, a = 0.25, c = 1.5의 비율로 적용되었다.

또한, 눈 사이의 거리 d = 50이 되도록 하고 왼쪽 눈은 (-25. 00) 오른 쪽 눈은 (25, 0)의 위치 좌표를 갖도록 설정되었다.

offset단계 이후에는 변화 추적 단계(103)가 수행된다.

변화 추적 단계(103)는 정규화된 영상으로부터 움직임의 변화인 모션을 얻기 위해 조밀한(dense) 점들의 움직임에 대한 변화를 취득하게 된다.

조밀 움직임 변화는 시작 프레임(또는 무표정과 같은 다른 기준 프레임)으로부터의 변화를 추적하고 이를 추출하여 표정에 따른 움직임을 인식하기 위한 표정 학습용 데이터를 생성 취득한다.

표정 동작 사전의 학습부(30)에서는 학습을 위하여 획득된 조밀 움직임 변화의 데이터에 대하여, 주어진 제한 조건을 만족하는 사전 학습 방법에 따라서 각 표정의 분류 별로 표정 인식을 위한 표정 동작 사전을 학습한다.

이를 위하여 표정 동작 사전의 초기화 단계(131) 이후에, 표정 동작 사전에 대한 사전 학습 단계(132), 사전 가중치 추정 단계(133)를 재생성 오류 검사(134)를 바탕으로 수행하게 된다.

여기서 재생성 오류 검사(134)는 사전 학습을 통하여 얻은 사전데이터와 주어진 원본 데이터에 대한 사전 데이터의 조합 가중치를 구하여 각 사전 데이터의 요소와 가중치의 값을 바탕으로 원본 데이터에 대응하는 데이터를 생성할 수 있게 된다.

재생성 오류 검사(134)는 이렇게 생성된 데이터와 원본 데이터의 차이를 구한 것이다.

재성성 오류가 작다는 것은 원본 데이터를 사전과 가중치 값에 의하여 정확하게 표현할 수 있음을 의미한다.

본 발명의 일 실시 예에 따른 모션 플로우(motion flow)는 다음과 같은 과정으로 수행된다.

원래의 비디오 시퀀스를

라고 하면,

는 표준화된 얼굴 모션 비디오 시퀀스를 나타낸다.

는 이미지 평면에 있는 점(x, y)의 시간(t)에서의 궤적이 되며, 밝기 불변성을 바탕으로 다음 식을 만족하는 모션 플로우를 추정할 수 있다.

또한, 의도된 대로의 선형 시스템의 해를 구하기 위한 전체 변동의 합(μ)과 L₁의 정규화 과정은 콘벡스 최적화에 의해 산출될 수 있다.

본 발명의 일 실시 예에 따른 사전 학습은,

의 수집의 결과로서 비디오 시퀀스로부터 얼굴 표정의 모션 플로우를 나타낼 수 있다. 이와 같은 모션 플로우의 시퀀스는 조명과 주체의 피부 색깔 변화에 지장을 받지 않게 된다.

이미지의 표준화 플로우의 사이즈가

일 때, 그 프레임 넘버는

수집된 데이터는 텐서(tensor)

로 표현될 수 있다.

여기서 2D 이미지 시퀀스에서 M=2 이다(즉, X 축 모션 성분 및 Y 축 모션 성분을 함유한다).

이 데이터 세트는 매트릭스 X에 의해 표현될 수 있으며, 사이즈는 텐서 전개를 사용하여

로 표현된다.(텐서 전개는 공지된 Lieven De Lathauwer, Bart de Moor, and Joos Vandewalle, "A multilinear singular value decomposiiton," SIAM Journal On Matrix Analysis and Applications, vol. 21, no. 4, pp. 1253~1278, 2000.을 참조할 수 있다.)

본 발명의 일 실시 예에서 제안된 방법은 캡쳐된 모션 플로우 시퀀스를 드문드문(sparse)하고 지역화된 모션 사전 요소로 분해하는 것에 의하여 수행된다.

데이터 매트릭스X를 위한 모션 플로우의 사전 학습은 다음 식(2)에 의해 데이터의 sparse 표현을 나타낼 수 있다.

(식2)

본 발명의 일 실시 예에 따르면, 사전 학습 방식은 추가적인 제약 조건 Dj 추가하여 확장할 수 있다. 여기서 dj는 j번째 사전요소를 말한다

(추가적인 제약조건은 「Francis Bach, Rodolphe Jenatton, Julien Mairal, and Guillaume Obozinski, "Optimization with sparisty-inducing penalities," Foundations and Trends in Machine Learning, vol. 4, no. 1, pp. 1~106, 2012.」을 참조할 수 있음)

(식3)

(식4)

매트릭스 인수 분해는 규정되어진 최소화 문제로서 공식화될 수 있다.

가중치

에 대한 제약 조건은 모션 플로우 구성 요소가 임의의 작은 점으로부터 얻게 되게 되는 점과 너무 큰 것으로부터 얻는 것을 방지하게 위해 필요하다.

본 발명의 일 실시 예에 따르면, 지역화 움직임 구성 요소에 대한 적절한 정규화를 찾기 위한 두 가지 펙터(factors)가 계산된다.

먼저, D의 행은 두 개의 공간 좌표를 형성한다.

(식5)

구성 요소 K에서 각각은 X 축과 Y 축 모션 성분에 상당한다.

그러므로, 이 고유의 그룹 구조를 고려하는 것이 필요하다.

놈(norm)은 그룹 희소성을 나타내는 데 사용될 수 있다.

다음, 얼굴 움직임을 지역적으로 발생하는 모션 플로우 기반을 도출하기 위해, 우리는 지역 영역의 집합을 중심으로 하는 각 모션 플로우 사전을 적용한다.

최종 목적함수는 다음 [식 6]에 따른다.

본 발명의 일 실시 예에 따른 모션 플로우에 대한 사전 학습은 다음의 [식 6]의 목적함수에 대한 최적의 값을 구하는 방법에 의하여 얻을 수 있다.

[식6]

여기서 D는 구하고자 하는 사전의 수치 값이며,

는 i번째 가중치 벡터를 의미하고,

는 k번째 사전에서 j번째 동작 차원을 의미한다.

여기서 사전은 학습데이터를 나타내기 위한 요소(Component)로써, 주성분 요소(principle component) 분석 과 같이 학습 데이터를 효과적으로 나타내기 위한 요소 성분 분석 방법을 나타낼 수 있다..

또한, 사전은 스파스(sparse)하고 지역화된 얼굴 움직임의 기본 요소를 보여준다.

K는 설정된 사전의 개수(여기서 사전의 개수는 학습 데이터를 나타내기 위한 성분 요소의 개수를 의미한다.), M은 동작의 차원으로 2차원 이미지에 대하여 X축 차원과 Y축 차원의 2차원으로 표시할 수 있으며, 이때 M = 2이다.

는 i번째 표정 동작 데이터이며, N은 학습에 사용된 동작 데이터의 개수를 의미한다.

는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵을 나타낸다.

도 2는 본 발명의 일 실시 예에 다른 지역지원 맵을 도시한 것이다.

지역지원 맵은 이미지 공간 좌표에서 주어진 위치에서의 거리를 바탕으로 구성된다.

예를 들면, 분노와 기쁨의 두가지 다른 표정의 경우에, 모든 표정이 들어가 있는 전체 데이터 중에서 분노를 잘 나타내는 동작 표정 사전이 D_a, D_b, D_c라고 하고, 기쁨을 잘 나타내는 동작 표정 사전이 D_i, D_j, D_k라고 하면, 전체 사전 중에서 분노의 표정에 대해서는 D_a, D_b, D_c사전에 해당하는 가중치가 높은 값을 나타내고, 기쁨의 표정에 대한 데이터에 대해서 사전의 가중치를 구해 보면 D_i, D_j, D_k에 해당하는 표정 사전에 높은 가중치를 가지게 된다.

실제 사전 학습에 의해서 분노와 기쁨에 공통적으로 사용되는 사전들이 있을 수 있으며, 이러한 사전들은 제안한 목적함수를 최적화하는 과정에서 자동적으로 생성하게 되며, 실제 인식 단계에서는 고정된 사전에 대하여 가중치만을 구하여, 서로 다른 표정을 인식하게 된다. 가중치 값은 0-1의 값을 가지도록 학습된다.

동작사전 D는 동작사전 요소의 조합에 의하여 원래의 조밀 움직임에 대한 학습 데이터를 나타낼 수 있는 것으로, 동작사전의 차원의 크기와 학습데이터의 차원의 크기는 동일한 크기를 가지게 된다.

도 2는 지역지원 맵의 예를 도시한 것이고, 도 3은 본 발명의 일 실시 예에 따른 자동으로 생성된 지역지원 맵의 중심 위치의 예를 도시한 것이다.

도 2는 지역지원 맵의 예로써, 도 3에서 314를 중심으로 지역 지원 맵을 구성한 예이다. 즉, 도 3의 314의 위치를 중심으로 지역적인 움직임들을 파악하기 위하여, 314 위치에 가까운 301에는 높은 가중치의 값이 주어지고, 302로 멀어질수록 가중치의 값이 줄어들어 303의 경우에는 가중치가 주어지지 않는다.

이에 따라 사전 학습 고장에서는, 도 2에 의하여 지역지원 맵에 대한 제한을 받는 사전 요소는 도 3의 314 위치를 중심으로 한 지역적인 표정 움직임들을 나타내게 되는 요소를 찾게 된다.

초기값은 전체 학습 데이터에 대한 분산을 바탕으로 분산이 큰 값을 중심으로 변화량을 줄이기 위하여 지역 지원 맵을 위한 초기값을 설정하게 되며, 학습을 통하여 최적의 위치값을 구하게 된다.

도 2에 의한 지역지원 맵의 경우에는 도 3에서와 같이 데이터에서 분산을 큰 점을 중심으로 찾아지는 지역 중심점들에 대하여 중심에서는 1의 값을 가지고, 일정한 거리, 가령, md 만큼 떨어진 거리에서는 가중치 값이 0이 되는 임의의 가중치 값 계산 방법을 사용할 수 있다.

본 발명의 일 실시 예에서는 중심에서 ad만큼 떨어진 공간값은 1로 표시하고 그 후에 ad부터 md까지 선형적으로 가중치가 1에서 0으로 줄어드는 지역지원 맵을 구성하여 사용하였다.

지역지원 맵의 형태는 중심이 1, 일정 거리 이상에서는 0을 가지는 임의의 지역지원 맵을 사용할 수 있다.

본 발명의 일 실시 예에 따르면, [식 6]에 대한 최적의 값을 구하기 위하여 반복적인 학습을 수행할 수 있다.

본 발명의 일 실시 예에 따르면, 표정 동작 사전 D가 주어지면, [식 6]은 다음과 같은 [식7]에 대한 최적의

를 구할 수 있다. 이 경우 제한된 선형 최소 자승법에 의하여 구할 수 있다.)

[식 7]

본 발명의 일 실시 예에서는 범위

에 의해 각각의 모션 플로우 구성 요소의 중심에서 지역의 지원의 범위를 정의된다.

본 발명의 일 실시 예에 따르면, 미리 정의된 범위 내에서 공간 지원 영역은 정규화를 위하여 선형적으로 [0, 1] 범위 안에 맵핑된다.

또한, 주어진 가중치 행렬 값들의 모음을 A라고 할 때, 주어진 A에 대하여 사전 수치값인 D를 구하는 것은 [식 3]에 의하여 수행될 수 있다. (이는 콘벡스 최적화(convex optimization) 방법에 의하여 수행될 수 있다)

본 발명의 일 실시 예에 따르면,

norm regularzer를 최적화하기 위하여 Alternative Direction Method of Multipliers (ADMM) [29]이 제공된다.(ADMM은 『Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, and Jonathan Eckstein, "Distributed optimization and statistical learning via the alternating direction method of multipliers," Found. Trends Mach. Learn.』 을 참조할 수 있다.)

본 발명의 일 실시 예에 따르면, 이중 변수

을 도입함으로써, 최적화의 과제는 다음 식과 같은 ADMM의 호환되는 형태로 다시 쓸 수 있다.

[식 8]

여기서 X는 전술한 [식 6]에서 조밀 학습 데이터에 해당하는 x의 집합을 의미한다.

Ω(Z)은,

을 의미하며, 여기서 Z은 최적화 문제를 풀기 위하여 사용되는 추가 변수이다. D-Z=0 가 의미하는 것은 원래의 D를 구하는 문제를 D와 Z로 나누어서 풀고 그것이 동일하도록 하는 최적화 알고리즘이다.

표정 분류기 학습부(40)에서는 학습된 사전을 바탕으로 표정의 종류를 알고 있는 시퀀스에 대하여 학습된 사전에 조합을 나타내는 가중치 값을 추정(141)하여 각 시퀀스에서의 모션을 생성하는 사전의 조합을 얻는다.

즉, 표정 분류기 학습부(40)는 가중치 값에 각 시퀀스에서의 모션을 생성하는 사전의 조합을 바탕으로 표정을 분류하게 된다.

가장 간단한 분류 단계는 임의의 테스트데이터에 대하여 가장 가까운 사전의 조합을 나타내는 프레임을 얻는다. 그 다음, 그 얻은 프레임에 나타내는 표정의 종류를 주어진 프레임의 표정으로 하여 주어진 시퀀스에서 가장 많은 개수가 나오는 표정을 인식하도록 하는 방법이 가장 간단하게 구현할 수 있는 인식 방법이다.

도 4는 본 발명의 표정 동작 사전 학습 과정에서 표정 동작 사전과 가중치의 합에 의하여 원래의 학습 데이터를 생성하는 단계를 설명하기 위한 도면이다.

도 4를 참조하면, 412~414은 표정을 나타내기 위하여 학습된 사전들을 의미하고, 411은 이러한 사전에 곱해질 가중치를 나타낸다.

사전 학습에서 이러한 가중치는 많은 가중치가 0을 가지는 sparse한 값으로 나타내게 된다.

주어진 학습데이터에 대하여 도 4에서 나타나듯이 학습에 의하여 획득된 표정동작 사전과 그 가중치에 의하여 원래의 학습 데이터를 재생성할 수 있다. 사전 학습과정에서 이러한 사전 요소와 가중치를 학습하여 기억하게 된다,

도 5는 학습된 지역적인 표정 동작 사전에서 동작의 크기에 따라 표시한 사전의 예를 보여준다.

도 5를 참조하면 각 그림은 각각의 사전 요소의 지역적 밝기의 자국(spot)을 보여준다.

더 밝은 강도는 강한 움직임 흐름을 의미한다

도 5에서 학습된 사전의 예를 보면 밝은 색이 많은 동작이 있는 부분이고 어두운 부분은 동작이 별로 없는 부분을 나타낸다. 도 5를 참조하면, 많은 동작이 있는 부분이 지역적으로 나타나는 것을 볼 수 있다.

본 발명의 또 다른 실시 예에 따르면, 이를 확장하여 잠재적 학습 기반인 latent SVM(Support Vector Machine)을 통한 시계열 가중치 값을 바탕으로 한 인식장치를 구현할 수 있다.

인식용 영상 획득부(20)는 주어진 영상 시퀀스로부터 표정을 인식하기 위하여, 학습에 사용된 정규화된 데이터를 얻는 방법과 동일한 방법으로 얼굴과 눈의 위치를 가진 인식용 데이터를 획득(121)하게 된다.

인식용 영상 획득부(20)는 획득된 데이터로부터 눈의 위치를 바탕으로 정규화 단계(122)를 수행한다.(인식용 정규화 단계(122)는 학습용 정규화 단계(112)와 처리 과정이 동일하게 수행됨).)

정규화된 이미지에 대하여 이전 이미지 또는 무표정 이미지로부터 조밀 움직임 변화를 추적한다(123).

또한, 표정 인식부(50)에서는 미리 학습된 표정동작 사전을 바탕으로 테스트 데이터에 대한 사전 가중치를 추정한다(151).

사전 가중치는 의사역행렬(pseudo inverse matrix)에 의하여 구할 수도 있다.

본 발명의 일 실시 예에서는 [식 1]에 나타난 조건을 만족하기 위한 최적화 루틴을 통하여 사전 가중치를 산출한다.

다음 표정 인식부(50)에서는 구해진 가중치 값을 표정분류 학습부(40)에서 학습된 학습 분류기(142)를 통하여 표정을 인식하게 된다.

본 발명의 일 실시 예에 따르면, 무표정(neutral expression)에서 시작하여 특정 표정을 지은 후, 무표정으로 돌아오는 것과 같이 시퀀스가 정하여져 있고, 일정한 부분이 중요한 정보가 있다는 것을 알 수 있는 경우, 또는 평균 표정이나 무표정으로부터의 변화량을 기반으로 하여 중요도에 대한 가중치를 두는 것이 가능할 경우에는 이를 바탕으로 시계열데이터에 대한 가중치의 적용이 가능하게 된다.

또한, 이러한 가중치 적용에 의하여 표정의 인식 성능을 향상시킬 수 있다.

또한, 이를 효과적으로 수행하기 위한 방법으로 시계열 데이터의 길이를 바탕으로 [0, 1] 사이의 값으로 시퀀스 인텍스를 정규화 한 후에, Radial Basis Function(RBF)의 커널을 이용하여 원하는 가중치를 적용할 수도 있다.

예를 들면 무표정에서 특정 표정을 지은 후, 무표정으로 되는 경우에는 중심에 있는 시퀀스가 중요한 변수가 된다.

따라서 이러한 시퀀스에서 중심에 큰 가중치를 두는 시퀀스 인덱스 0.5의 위치에 커널을 가지는 RBF커널을 적용하여 데이터에 대한 가중치를 적용할 수 있으며, majority voting에 각 프레임에서 인식된 표정뿐 아니라 그 가중치를 적용함으로써, 표정인식의 성능을 향상시킬 수 있다.

1: 표정인식장치
10: 학습용 영상획득부
20: 인식용 영상획득부
30: 표정동작 사전학습부
40: 표정분류기 학습부
50: 표정인식부

Claims

학습용 표정으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제1 정규화를 수행하고 무표정의 기준프레임으로부터 상기 학습용 표정으로부터 조밀 움직임의 변화를 추적하여 표정 학습용 데이터를 생성하는 학습용 영상 획득부;
표정 동작 사전을 초기화한 후, 상기 학습용 표정의 조밀 움직임의 변화의 집합에 대하여 모션 플로우에 대한 이미지 좌표 공간에서 지역 지원 맵을 이용하여 주어진 제한 조건을 만족하는 사전 학습 방법에 따라 각 표정별 표정 인식을 위한 수치 값을 나타내어 저장하는 표정 동작 사전 학습부;
상기 표정 동작 사전에 대한 데이터의 가중치를 바탕으로 각 표정별로 표정분류를 학습하는 표정 분류기 학습부;
인식 대상으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제 2 정규화를 수행하고 무표정의 기준프레임으로부터 상기 인식 대상의 조밀 움직임의 변화를 추적하여 인식용 데이터를 생성하는 인식용 영상 획득부; 및
인식하고자 하는 데이터에 대한 표정 가중치를 분석하여 상기 표정 분류기 학습부에서 가장 근접한 분류를 판단하여 표정을 인식하는 표정 인식부를 포함하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치
제1항에 있어서,
상기 제1 정규화는 검출된 양쪽 눈의 위치를 바탕으로 그 중심이 원점이 되도록 정렬한 후, 눈의 위치를 바탕으로 일정한 비율로 오프셋(offset)을 주어 얼굴 영역에서 표정과 관계없는 주변 영역을 제거하고 특징부의 위치 좌표를 설정하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치
제1항에 있어서,
상기 표정 동작 사전 학습부에서 사전 학습 방법에 따라 표정 인식을 위한 수치 값은 다음 [식 1]의 목적함수에 대한 최적의 값을 구하는 방법에 의하여 취득하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치
[식 1]

(여기서 D는 구하고자 하는 사전의 수치 값이며,
는 i번째 가중치 벡터를 의미하며
는 k번째 사전 열에서 j번째 모션의 차원을 의미한다. K는 설정된 사전의 개수이며, M은 동작 모션의 차원임.
는 i번째 모션 데이터이며, N은 학습에 사용된 모션 데이터의 개수를 의미하고,
는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵을 의미하는 것임)
제 1항에 있어서,
상기 표정 동작 사전 학습부에서 표정 동작 사전의 수치 값(D)이 주어졌을 때 다음 [식 2]에 의하여 최적의 가중치 (
)를 구하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치
[식2]

(여기서
는 k번째 사전 열에서 j번째 모션 차원을 의미한다. K는 설정된 사전의 개수이며, M은 모션의 차원임.
는 i번째 모션 데이터이며, N은 학습에 사용된 모션 데이터의 개수를 의미하고,
는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵을 의미하는 것임.)
제1항에 있어서,
상기 표정 동작 사전 학습부에서, 주어진 가중치 값들의 모음을 A라고 할 때, 다음 [식 3]에 의하여 표정 동작 사전 수치 값(D)을 구하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식장치
[식 3]
학습용 표정으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제 1 정규화를 수행하고, 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 표정 학습용 데이터를 생성하는 학습용 영상 획득 단계;
- 상기 제 1 정규화는 검출된 양쪽 눈의 위치를 바탕으로 그 중심이 원점이 되도록 정렬한 후, 눈의 위치를 바탕으로 일정한 비율로 오프셋(offset)을 주어 얼굴 영역에서 표정과 관계없는 주변 영역을 제거하고 특징부의 위치좌표를 설정하는 것을 특징으로 함-
표정동작 사전을 초기화한 후, 상기 학습용 표정의 조밀 움직임의 변화의 집합에 대하여 모션 플로우에 대한 이미지 좌표 공간에서 지역 지원 맵을 이용하여 주어진 제한 조건을 만족하는 사전 학습 방법에 따라 각 표정별 표정 인식을 위한 수치 값을 나타내어 저장하는 표정 동작 사전 학습 단계;
상기 표정동작 사전에 대한 데이터의 가중치를 바탕으로 각 표정별로 표정분류를 학습하는 표정 분류기 학습 단계;
인식 대상으로부터 얼굴 및 눈의 위치 데이터를 획득하여 이를 바탕으로 제2 정규화를 수행하고 무표정의 기준프레임으로부터 조밀 움직임의 변화를 추적하여 인식용 데이터를 생성하는 인식용 영상 획득 단계; 및
인식하고자 하는 데이터에 대한 표정 가중치를 분석하여 상기 표정 분류기 학습부에서 가장 근접한 분류를 판단하여 표정을 인식하는 표정 인식 단계를 포함하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식방법
제6항에 있어서,
상기 표정 동작 사전 학습 단계에서, 상기 표정동작 사전을 초기화한 후, 사전 가중치 추정 단계를 더 포함하며,
상기 사전 가중치 추정 단계는, 재생성 오류 검사를 바탕으로 수행하되,
상기 재생성 오류 검사는 상기 사전 학습을 통하여 얻은 사전 데이터와 주어진 원본 데이터에 대한 사전 데이터의 조합 가중치를 구하여 각 사전 데이터의 요소와 상기 구해진 조합 가중치의 값을 바탕으로 원본 데이터에 대응하는 추정 데이터를 생성한 후, 상기 추정 데이터와 원본 데이터와의 차이를 구한 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식방법.
제 6항에 있어서,
상기 표정 동작 사전 학습 단계에서 사전 학습 방법에 따라 표정 인식을 위한 수치 값은 다음 [식 1]의 목적함수에 대한 최적의 값을 구하는 방법에 의하여 취득하는 것을 특징으로 하는 표정 동작 사전을 이용한 표정인식방법
[식 1]

(여기서 D는 구하고자 하는 사전의 수치 값이며,
는 i번째 가중치 벡터를 의미하며
는 k번째 사전 열에서 j번째 동작 차원을 의미한다. K는 설정된 사전의 개수이며, M은 모션의 차원임.
는 i번째 표정 동작 데이터이며, N은 학습에 사용된 모션 데이터의 개수를 의미하고,
는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵을 의미하는 것임)