KR101742797B1 - 표정 latent 동작사전을 이용한 표정인식방법 및 장치 - Google Patents

표정 latent 동작사전을 이용한 표정인식방법 및 장치 Download PDF

Info

Publication number
KR101742797B1
KR101742797B1 KR1020160009567A KR20160009567A KR101742797B1 KR 101742797 B1 KR101742797 B1 KR 101742797B1 KR 1020160009567 A KR1020160009567 A KR 1020160009567A KR 20160009567 A KR20160009567 A KR 20160009567A KR 101742797 B1 KR101742797 B1 KR 101742797B1
Authority
KR
South Korea
Prior art keywords
latent
class
motion
learning
facial
Prior art date
Application number
KR1020160009567A
Other languages
English (en)
Inventor
이찬수
김진철
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020160009567A priority Critical patent/KR101742797B1/ko
Application granted granted Critical
Publication of KR101742797B1 publication Critical patent/KR101742797B1/ko

Links

Images

Classifications

    • G06K9/00255
    • G06K9/00268
    • G06K9/00281
    • G06K9/00302
    • G06K9/627

Landscapes

  • Image Analysis (AREA)

Abstract

본 발명의 일측면에 따른 표정 latent 동작사전을 이용한 표정인식방법은, 학습용 영상을 제1 정규화 과정을 거쳐서 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 단계; 상기 학습용 표정 모션 데이터로부터 표정동작 사전요소로 초기화한 후, 각 표정별 모션플로우에 대한 가중치와 상기 가중치가 각 표정 클래스에 따라 다른 분포를 가지도록 산출된 latent 벡터를 산출하고, 상기 학습용 표정 모션 데이터에 최적화되도록 최적화 과정을 수행하여 각 클래스별 표정 latent 동작사전을 구성하는 latent 사전 학습단계; 인식용 표정 모션 데이터를 생성하는 단계; 상기 인식용 표정 모션 데이터에 상기 학습된 표정 동작사전 요소들로 이루어진 표정동작사전과 상기 학습된 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 단계; 및 상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터를 산출하는 단계; 상기 학습된 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 latent 표정 데이터들과 상기 인식용 latent 표정 데이터를 각각 비교하여 근접 확률이 가장 높은 클래스를 인식용 영상 대한 표정으로 분류하여 인식하는 단계;를 포함한다.

Description

표정 latent 동작사전을 이용한 표정인식방법 및 장치{APPARATUS AND METHOD FOR FACIAL EXPRESSION RECOGNITION METHOD BASED ON LATENT MOTION DICTIONARY}
본 발명은 표정 latent 동작사전을 이용한 표정인식방법 및 장치에 관한 기술이다.
최근 사람과 컴퓨터 사이의 상호작용의 중요성이 부각됨에 따라 인간중심 컴퓨팅(Human-Centered Computing), 감성 컴퓨팅(Affective Computing) 등으로 많은 연구가 진행되고 있다. 사람의 얼굴 표정은 그 사람에 대한 감정뿐만 아니라 마음의 상태, 사회적 상호작용, 생리학적 신호 등과 같이 다양한 정보를 가지고 있기 때문에 이를 분석하는 것이 매우 중요하다. 특히 비전 기반 실시간 얼굴 모션 추적(Motion Tracking) 및 표정 인식(Facial Expression Recognition) 기술은 효과적인 인간과 컴퓨터의 상호작용을 위한 핵심기술로 자리매김하고 있다. 이처럼 얼굴 표정 인식에 관한 연구의 중요성이 부각되는 이유는 앞서 언급한 내용과 함께 얼굴 검출, 얼굴 추적, 얼굴 인식 등의 기술수준이 궤도에 오름과 함께 컴퓨터의 성능 향상에 따라 저렴한 비용으로 빠른 처리가 가능해 짐으로써 실제 산업에서 적용 가능한 분야가 확대되고 있기 때문이다. 실제 적용되는 사례는 운전자 보조 시스템(Driver Assistance System), 휴머노이드 로봇(Humanoid Robot), 거짓말 탐지 장치(Lie Detection Device), 휴대폰 어플리케이션(Mobile Application) 등이 있다.
얼굴 표정을 실시간으로 분석하기 위해서는 얼굴 동작의 시간적 변화를 효과적으로 반영할 수 있는 최적의 특징점 추출이 필요하며 표정 사이의 변화를 능동적으로 설명할 수 있는 표정변화 모델에 기반을 둔 해석 방법이 필요하다. 그러나 얼굴 표정의 변화를 해석하는 데 있어서 얼굴색의 차이, 가려짐, 조명환경과 시점의 변화 등에 대해 특징점 추출이 견고하지 못한 문제점을 가지고 있다.
Dictionary learning은 영상복원, 액션인식, 문자인식, 얼굴검출 등의 분야에서 많은 연구가 되었다. 또한, 최근 국외의 여러 그룹에서 dictionary learning을 이용한 표정인식 연구가 활발하게 이루어지고 있으며 미세한 변화를 가지는 표정의 변화를 표현하는데 적합한 dictionary를 구성하는 방법과 이를 인식에 활용하는 방법에 관한 연구를 주제로 한다.
이러한 dictionary learning을 이용한 표정인식 방법으로 본 발명자가 출원한 특허 10-1549645호에 모션 플로우(motion flow) 데이터를 기반으로 Dictionary Learning에 의한 가중치를 추정하여 표정을 인식하는 방법에 대해 제안한바 있다.
위 특허에 의한 Dictionary learning은 원본 영상을 dictionary와 가중치(weight)의 곱으로 표현하는 방법이며, 표정인식에 적용하게 되면 부분 요소의 결합에 의해 얼굴 표정을 나타내기 때문에 얼굴색의 차이, 가려짐, 조명환경과 시점의 변화에 대해 효과적으로 컴퓨터 연산 처리에 의해 표정 변화를 표현할 수 있다.
모션 플로우는 시퀀스 영상에서의 움직임을 표현하는데 탁월한 성능을 가지고 있다. 정지영상의 경우 표정이 비슷한 서로 다른 감정의 구분이 거의 불가능하기 때문에 특허 10-1549645호에서는 이들을 잘 표현할 수 있는 시퀀스 영상의 모션 플로우를 dictionary learning에 사용하였다. 발명자의 특허 10-1549645호에서 모션 플로우(motion flow) 데이터를 기반으로 학습된 dictionary에 의해 계산된 가중치를 특징벡터로 사용하여 표정인식을 수행한 결과 86.7%의 인식률을 얻을 수 있었다.
본 발명 기술에 대한 배경기술은 대한민국 등록 특허공보 10-1549645호에 게시되어 있다.
대한민국 등록특허공보 제10-1549645호(표정동작사전을 이용한 표정인식방법 및 장치)
본 발명의 목적은 획득된 영상으로부터 얼굴에 나타나는 표정변화의 모션플로우와 latent 벡터의 학습에 의한 각 표정별 표정 latent 동작사전을 이용한 표정인식 방법 및 장치를 제공하는 것이다.
본 발명은 얼굴 표정의 지역적인 움직임을 바탕으로 실시간 표정인식 방법 및 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 획득된 영상으로부터 얼굴에 나타나는 표정변화의 모션플로우와 latent 벡터의 학습에 의하여 인식률을 향상시킬 수 있는 각 표정별 표정 latent 동작사전을 이용한 표정인식 방법 및 장치를 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
본 발명의 일측면에 따르면, 얼굴 및 눈의 위치 등이 포함된 학습용 영상을 제1 정규화 과정을 거쳐서 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 학습용 영상획득부; 얼굴 및 눈의 위치 등이 포함된 인식용 영상을 획득하여 제2 정규화 과정을 거쳐서 인식용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 인식용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 인식용 표정 모션 데이터를 생성하는 인식용 영상획득부; 상기 학습용 표정 모션 데이터로부터 표정 동작사전 요소로 초기화한 후, 각 표정별 모션플로우에 대한 가중치와 상기 가중치가 각 표정 클래스에 따라 다른 분포를 가지는 latent 벡터를 산출하고, 상기 학습용 표정 모션 데이터에 최적화되도록 최적화 학습 과정을 수행하여 각 클래스별 표정 latent 동작 사전을 구성하는 latent 사전 학습 과정에 대한 수단을 포함하는 latent 사전 학습부; 및 상기 인식용 표정 모션 데이터에 상기 latent 사전 학습 단계에서 학습된 표정 동작사전 요소(component)들로 이루어진 표정동작사전과 latent 사전 학습 단계에서 학습된 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 수단, 상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터를 산출하는 수단 및 상기 latent 사전 학습부의 학습된 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 latent 표정 데이터들과 상기 인식용 latent 표정 데이터를 각각 비교하여 각 클래스에 대한 근접확률을 계산하고, 근접확률이 가장 높은 클래스를 가지는 표정을 선택하여 상기 표정 인식용 영상 데이터에 대한 표정으로 분류하여 인식하는 수단을 포함하는 표정인식부를 포함하는 표정 latent 동작사전을 이용한 표정인식장치가 제공된다.
본 발명의 또 다른 측면에 따르면, 얼굴 및 눈의 위치 등이 포함된 학습용 영상을 제1 정규화 과정을 거쳐서 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 단계; 상기 학습용 표정 모션 데이터로부터 표정동작 사전요소로 초기화한 후, 각 표정별 모션플로우에 대한 가중치와 상기 가중치가 각 표정 클래스에 따라 다른 분포를 가지는 latent 벡터를 산출하고, 상기 학습용 표정 모션 데이터에 최적화되도록 최적화 과정을 수행하여 각 클래스별 표정 latent 동작 사전을 구성하는 latent 사전 학습단계; 얼굴 및 눈의 위치 등이 포함된 인식용 영상을 획득하여 제2 정규화 과정을 거쳐서 인식용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 인식용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 인식용 표정 모션 데이터를 생성하는 단계; 상기 인식용 표정 모션 데이터에 상기 latent 사전 학습 단계에서 학습된 표정 동작사전 요소(component)들로 이루어진 표정동작사전과 latent 사전 학습 단계에서 학습된 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 단계; 및 상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터를 산출하는 단계; 상기 latent 사전 학습 단계에서 학습된 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 latent 표정 데이터들과 상기 인식용 latent 표정 데이터를 각각 비교하여 각 클래스에 대한 근접확률을 계산하고, 근접확률이 가장 높은 클래스를 가지는 표정을 선택하여 상기 표정 인식용 영상 데이터에 대한 표정으로 분류하여 인식하는 단계; 를 포함하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법이 제공된다.
또한, 상기 최적화 학습 과정은, 상기 가중치와 latent 벡터를 고정하고 상기 dictionary 데이터(D)의 최적화를 수행하는 것을 특징으로 한다.
또한, 상기 최적화 학습 과정은, 상기 dictionary 데이터와 가중치를 고정하고, 상기 latent 벡터의 최적화를 수행하는 것을 더 포함하는 것을 특징으로 한다.
또한, 상기 최적화 학습 과정은, 상기 dictionary 데이터와 상기 latent vector를 고정하고 상기 가중치를 최적화를 수행하는 것 더 포함하는 것을 특징으로 한다.
또한, 상기 최적화 학습 과정은, reconstruction error가 특정한 값 또는 설정된 값에 수렴할 때까지 반복(iteration)하는 것을 특징으로 한다.
또한, 상기 latent 사전 학습단계에서, 최적화 학습 과정은 다음 목적함수의 최적의 해를 구하는 방법을 수행하는 것을 특징으로 한다.
Figure 112016008678213-pat00001
- 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수, K는 표정 동작사전 요소(component)의 개수, M은 모션 플로우의 차원을 나타내며,
Figure 112016008678213-pat00002
는 k번째 사전 열에서 j번째 모션의 차원을 의미한다.
또한, 상기 latent 사전학습단계의 최적화 학습 과정에서 표정동작 사전요소(D)의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 한다.
Figure 112016008678213-pat00003
Figure 112016008678213-pat00004
Figure 112016008678213-pat00005
- 여기서 D', A, W'는 표정 동작사전 요소(component), 가중치 및 latent 벡터의 전치행렬, X'는 학습용 표정 모션 데이터의 전치행렬을,
Figure 112016008678213-pat00006
i번째 샘플에 대한 k번째 사전에서의 지역지원 맵, d ki
Figure 112016008678213-pat00007
번째 dictionary 데이터의 geodesic distance,
Figure 112016008678213-pat00008
은 선택된 픽셀의 중심을 기준으로 한 local support의 범위를 나타낸다.
또한, 상기 latent 사전 학습단계의 최적화 학습 과정에서 상기 가중치의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 한다.
Figure 112016008678213-pat00009
- 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수를 나타낸다.
또한, 상기 latent 사전학습단계의 최적화 학습 과정에서 상기 latent 벡터의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 한다.
Figure 112016008678213-pat00010
- 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수를 나타낸다.
또한, 상기 Latent 벡터의 각 요소는 0보다 크거나 같은 값을 가지며 각 클래스의 latent 벡터의 합은 1이 되는 것을 특징으로 한다.
본 발명의 일 실시 예에 따르면, Dictionary를 학습하는 과정에서 각 클래스에 연관된 latent 벡터를 함께 학습하는 방법을 채택하여 각각의 클래스가 latent 벡터에 의해서 재구성된 서로 다른 dictionary를 가짐으로써 클래스 사이의 특징벡터의 차이를 극대화시킴으로써 90.22%의 향상된 인식률을 얻을 수 있다
본 발명의 일 실시 예에 따르면, 조명 및 작은 얼굴의 회전, 얼굴의 위치 이동 등에 견고하며, 지역화된 움직임에 대한 자동 모델링을 바탕으로, 계산 성능에 최적화되고 실시간의 표정인식을 제공할 수 있는 효과가 있다.
본 발명의 일 실시 예에 따르면, 하나 또는 그 이상의 영상이 주어지는 비디오, 다수의 이미지 등에서 효과적으로 표정을 인식할 수 있는 방법이 제공될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식장치에서 표정인식방법을 설명하기 위한 도면이다.
도 2는 latent Dictionary 학습부의 latent 벡터와 가중치의 관계를 도시한 것이다.
도 3은 본 발명의 본 발명의 일 실시 예에 따른 실험에서 학습된 dictionary를 도시한 것이다.
도 4는 본 발명의 일 실시 예에 따른 실험에서 각 표정 클래스별 학습된 latent 벡터를 도시한 것이다.
도 5는 본 발명의 일 실시 예에 따른 실험에서 각 표정 클래스별 학습된 가중치를 도시한 것이다.
도 6은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법의 실험에서 최적화의 반복(iteration) 횟수에 따른 reconstruction error 변화를 그래프로 도시한 것이다.
도 7은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법의 실험에서 최적화의 반복(iteration) 횟수에 따른 인식률 변화를 그래프로 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 전체에서, "상에"라 함은 대상 부분의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력 방향을 기준으로 상 측에 위치하는 것을 의미하는 것이 아니다.
또한, 결합이라 함은, 각 구성 요소 간의 접촉 관계에 있어, 각 구성 요소 간에 물리적으로 직접 접촉되는 경우만을 뜻하는 것이 아니라, 다른 구성이 각 구성 요소 사이에 개재되어, 그 다른 구성에 구성 요소가 각각 접촉되어 있는 경우까지 포괄하는 개념으로 사용하도록 한다.
또한, 이하 사용되는 제1, 제2 등과 같은 용어는 동일 또는 상응하는 구성 요소들을 구별하기 위한 식별 기호에 불과하며, 동일 또는 상응하는 구성 요소들이 제1, 제2 등의 용어에 의하여 한정되는 것은 아니다.
도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
이하, 본 발명에 따른 표정 latent 동작사전을 이용한 표정인식 방법 및 장치의 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식장치에서 표정인식방법을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식장치(1)는 학습용 영상획득부(10), 인식용 영상획득부(20), latent Dictionary 학습부(30) 및 표정인식부(50)를 포함한다.
학습용 영상획득부(10)는 비디오 영상, 또는 다수의 연속된 정지된 영상 등에서 취득한 얼굴 및 눈의 위치 등이 포함된 학습용 영상에 대하여 제1 정규화 과정을 수행하여 학습용 표정 영상 데이터를 획득하고, 무표정의 기준프레임(또는 기준 표정 데이터)에서 상기 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 기능을 수행하는 수단을 포함한다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법은 먼저, 학습용 영상획득부(10)에서, 비디오 영상 또는 다수의 연속된 정지된 영상으로부터 취득한 얼굴 및 눈의 위치 등이 포함된 학습용 영상에 대하여 제1 정규화 과정을 수행하여 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터에서 상기 생성된 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 단계가 수행된다.
제1 정규화 과정을 통하여 영상을 처리하는 과정에 대하여는 종래 기술로 제시한 대한민국 등록특허공보 제10-1549645호에 기재된 도 6의 정규화 단계 과정과 동일한 과정으로 수행되므로 자세한 기재는 생략한다.
학습용 영상획득부(10)에서는 획득된 학습용 표정 영상데이터에서, 모션플로우 추산(estimation) 과정을 거쳐서 학습용 표정 모션 데이터를 생성 취득한다 모션플로우 추산(estimation)과정은 시작 프레임(또는 무표정과 같은 다른 기준 프레임)으로부터의 변화를 추적하고 이를 추출하여 표정에 따른 움직임을 인식하기 위한 학습용 표정 모션 데이터를 생성 취득하는 과정이다.
본 발명의 일 실시 예에서 모션플로우 추산(estimation) 과정은 다음과 같이 수행된다.
원래의 표준화된 얼굴의 모션 비디오 시퀀스를
Figure 112016008678213-pat00011
하면, 이미지 평면에 있는 점(x, y)의 시간(t)에서의 궤적
Figure 112016008678213-pat00012
의 모션 플로우는 다음과 같이 표현할 수 있다.
Figure 112016008678213-pat00013
또한, 의도된 대로의 선형 시스템의 해를 구하기 위한 전체 변동의 합(μ)과 L1의 정규화 과정은 콘벡스 최적화에 의해 산출될 수 있다.
본 발명의 일 실시 예에 따른 Dictionary 학습을 위한 학습용 표정 모션 데이터는
Figure 112016008678213-pat00014
의 수집의 결과로서 나타낼 수 있다.
즉, 비디오 시퀀스로부터 얼굴 표정의 학습용 표정 모션 데이터는 위 함수 데이터로 나타낼 수 있다. 이와 같은 학습용 표정 모션 데이터의 모션 플로우의 시퀀스는 조명과 주체의 피부 색깔 변화에 지장을 받지 않게 된다.
추출된 데이터의 차원은 P= width ⅹ height 이며, 수집된 데이터는 차원이
Figure 112016008678213-pat00015
텐서(tensor) 로 표현될 수 있다.
여기서, N은 원본 영상의 개수로서 프레임 넘버를 나타내며, M은 모션 플로우의 차원으로 2D 이미지 시퀀스에서 M=2 이다. 추출된 모션플로우(motion flow)는 X 축 모션 성분(△x)및 Y 축 모션 성분(△y)로 표현된다.
다음은, 영상획득부(10)에서 획득된 학습용 표정 모션 데이터들로부터 표정 동작사전 요소(component; D)로 초기화하는 단계; 를 수행한 후, 각 표정별 모션플로우에 대한 가중치(A)와 상기 가중치가 각 표정 class에 따라 다른 분포를 가지도록 latent 벡터(W)를 산출하고, 각 변수(D, A, W)들이 제공된 학습용 원본 학습용 표정 모션 데이터에 최적화되도록 최적화 학습 과정을 수행하여, 각 클래스별 표정 latent 동작 Dictionary를 구성하는 latent Dictionary 학습단계;가 수행된다.
본 발명의 일 실시 예에 따르면, 표정 동작사전은 상기 latent Dictionary 학습단계에서 최적화된 표정 동작사전 요소(component)들의 집합으로 정의된다.
또한, 표정 latent 동작 Dictionary에는 상기 latent Dictionary 학습단계에서 최적화된 각 클래스별 latent 벡터 및 가중치를 포함한다.
latent Dictionary 학습단계에서는 주어진 학습용 표정 데이터들을 이용하여 가중치 및 숨겨진 latent 벡터요소들을 목적 함수들의 최적의 해를 구하는 최적화 학습하는 과정에서 구할 수 있다.
latent Dictionary 학습부(30)에서는 상기 latent Dictionary 학습단계를 수행하는 수단이 포함된다.
다음은 인식용 영상획득부(20)에서, 비디오 영상 또는 다수의 연속된 정지된 영상으로부터 취득한 얼굴 및 눈의 위치 등이 포함된 인식용 영상을 획득하여 제2 정규화 과정을 수행하여 인식용 표정 영상 데이터를 생성하고, 기준표정 데이터에서 상기 생성된 인식용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 인식용 표정 모션 데이터를 생성하는 단계가 수행된다.
인식용 영상획득부(20)에서는 상기 인식용 표정 모션 데이터를 생성하는 수단을 포함한다.
본 발명의 일 실시 예에서는 상기 인식용 영상획득부(20)는 학습용 영상획득부(10)와 하나의 영상 획득부 장치에서 수행되거나, 각각의 장치에서 별도로 수행될 수 있다.
다음은 표정인식방법이 수행된다.
본 발명의 일 실시 예에 따른 표정인식방법은 표정인식부(50)에서 먼저, 상기 인식용 표정 모션 데이터에 상기 latent 사전(Dictionary) 학습단계에서 학습된 표정 동작사전 요소(component)들로 이루어진 표정동작사전과 latent 사전학습 단계에서 학습된 각 클래스별 latent 벡터(일 실시 예에서는 7개의 표정별 latent 벡터가 학습됨)를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 단계가 수행된다.
다음은, 상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터(Wc A'c)를 산출하는 단계가 수행된다.
예를 들면, 본 발명의 일 실시 예에서는 7개의 표정에 대하여 7개의 클래스 별 가중치(A'1 ~A'7)가 산출되며, 상기 산출된 7개의 클래스 별 가중치(A'1 ~ A'7)에 학습된 클래스별 표정 latent 벡터(W1 ~ W7)를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터 인식용 latent 표정 데이터(W1A'1, W2A'2, W3A'3, W4 A'4, W5A'5, W6A'6, W7A'7,)가 산출된다.
본 발명의 일 실시 예에서 상기 가중치 최적화 단계는 후술하는 수학식 5의 단계로 수행될 수 있다. 마지막으로 표정분류(classification) 단계가 수행된다. 표정분류(classification) 단계에서는 latent Dictionary 학습부(30)의 각 클래스별 표정 latent 벡터와 가중치를 각각 연산하여 산출된 학습단계의 latent 표정데이터(Wc Ac)들과 상기 인식용 latent 표정 데이터(Wc A'c)를 각각 비교하여 각 클래스에 대해 근접 확률을 계산하고, 근접 확률이 가장 높은 클래스를 가지는 표정을 선택하여 상기 표정 인식용 영상 데이터에 대한 표정으로 분류하여 인식하는 단계가 수행된다.
본 발명의 일 실시 예에 따른 표정인식부(50)는 상기 인식용 표정 모션 데이터에 상기 표정동작사전과 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 단계를 거쳐서 각 클래스별 가중치를 산출하는 수단, 상기 추출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터(WcA'c)를 산출하는 수단, 및, latent Dictionary 학습부(30)의 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 학습단계의 latent 표정데이터(WcAc)들과, 상기 인식용 latent 표정 데이터(WcA'c)를 각각 비교하여 각 클래스에 대한 근접확률을 계산하고, 근접 확률이 가장 높은 클래스를 가지는 표정을 선택하여 상기 표정 인식용 영상 데이터에 대한 표정으로 분류하여 인식하는 수단을 포함한다.
도 2는 latent Dictionary 학습부(30)의 latent 벡터와 가중치의 관계를 도시한 것이다.
모든 영상의 공통된 특징이 하나의 공통 dictionary(101)에 표현되고 각각의 클래스가 서로 다른 latent 벡터(111)를 가짐으로써 클래스별로 새로운 dictionary가 구성되고, 각 클래스의 가중치(121)가 서로 다른 분포를 갖게 된다.
본 발명의 일 실시 예에 따르면, 표정인식에 적합한 표정동작사전을 구성하기 위해 Dictionary Learning 단계에서 Latent 벡터를 학습함으로써 클래스 사이의 가중치가 서로 다른 분포를 가지게 된다.
latent Dictionary 학습단계에서, 최적화 학습 과정은 다음 [수학식 2] 목적함수의 최적의 해를 구하는 방법을 수행하는 것을 포함한다.
Figure 112016008678213-pat00016
여기서 D는 구하고자 하는 표정동작 사전요소, Xi
Figure 112016008678213-pat00017
번째 클래스의 표정 모션 데이터, A i
Figure 112016008678213-pat00018
번째 클래스의 가중치, Wi
Figure 112016008678213-pat00019
번째 클래스의 latent 벡터, C는 클래스의 개수, k는 표정동작 사전요소(D)의 개수, M은 모션 플로우의 차원을 나타낸다.
Figure 112016008678213-pat00020
는 k번째 표정동작 사전요소 열에서 j번째 모션의 차원을 의미한다.
Figure 112016008678213-pat00021
수학식 2의 첫 번째 항은 원본 표정 모션 데이터를 표정동작 사전요소(D)와 latent 벡터(W), 가중치(A)의 곱으로 표현된다. 두 번째, 세 번째, 네 번째 항은 각각 표정동작 사전요소(D), 가중치(A), latent 벡터(W)를 update 하는데 사용되는 constraint항을 나타내며, 각각의 최적화 방법을 나타낸다. 구성 요소 K에서 각각은 X 축과 Y 축 모션 성분에 상당한다.
즉, 본 발명의 일 실시 예에 따르면, 수학식 2로 표현되는 목적함수의 최적의 해를 구하는 과정에 의하여 표정동작 사전요소(D), latent 벡터, 가중치(A)의 최적의 값들이 산출될 수 있다.
latent Dictionary 학습단계의 최적화 학습 과정에서 표정동작 사전요소(D)의 최적화 과정은 다음 목적함수 수학식 3의 최적의 해를 구하는 방법에 의하여 수행된다.
Figure 112016008678213-pat00022
Figure 112016008678213-pat00023
Figure 112016008678213-pat00024
여기서 D', A, W'는 표정 동작사전 요소(component), 가중치 및 latent 벡터의 전치행렬, X'는 학습용 표정 모션 데이터의 전치행렬을 의미하며,
Figure 112016008678213-pat00025
는 i번째 샘플에 대한 k번째 사전에서의 지역지원 맵, dki는 k번째 dictionary 데이터의 geodesic distance, r은 선택된 픽셀의 중심을 기준으로 한 local support의 범위를 나타낸다.
여기서 Z은 최적화 문제를 풀기 위하여 사용되는 추가 변수이다. D'-Z=0이 의미하는 것은 원래의 D'를 구하는 문제를 D'와 Z로 나누어서 풀고 그것이 동일하도록 하는 최적화 알고리즘이다.
i번째 클래스에 대해
Figure 112016008678213-pat00026
라고 하면 수학식 4와 같이 표정 동작사전 요소(D)를 최적화할 수 있다. 수학식 3에서 볼 수 있듯이
Figure 112016008678213-pat00027
의 값을 통해 local영역의 특징을 표정 동작사전 요소(D)로 학습할 수 있게 된다.
Figure 112016008678213-pat00028
본 발명의 일 실시 예에서, 가중치 최적화의 경우는 L-1 norm 최적화 툴인 SPAMS matlab toolbox의 mexLosso 함수를 사용하였으며, 가중치(A)의 최적화 과정은 다음 목적함수 수학식 5의 최적의 해를 구하는 방법에 의하여 수행된다.
Figure 112016008678213-pat00029
본 발명의 일 실시 예에 따른 latent Dictionary 학습단계의 최적화 학습 과정에서 에서 Latent 벡터(W)의 최적화 과정은 다음 목적함수 수학식 6의 최적의 해를 구하는 방법에 의하여 수행된다.
Figure 112016008678213-pat00030
본 발명의 일 실시 예에서 Latent 벡터(W)의 각 요소는 0보다 크거나 같은 값을 가지며 각 클래스의 latent 벡터(W)의 합은 1이 된다.
위 수학식 6은 다음 수학식 7로 변형될 수 있다.
Figure 112016008678213-pat00031
여기서, 위 식에서 각각의 변수는
Figure 112016008678213-pat00032
,
Figure 112016008678213-pat00033
Figure 112016008678213-pat00034
Figure 112016008678213-pat00035
이다.
수학식 7을 IPM(Iterative Projection Method)을 이용하여 풀면 다음과 같다.
Figure 112016008678213-pat00036
Figure 112016008678213-pat00037
Figure 112016008678213-pat00038
Figure 112016008678213-pat00039
여기서
Figure 112016008678213-pat00040
Figure 112016008678213-pat00041
번째 클래스의 이전 latent 벡터이고
Figure 112016008678213-pat00042
는 update된 latent 벡터이다.
표 1은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법에 대한 학습 알고리즘의 일 예를 나타낸다.
Figure 112016008678213-pat00043
표 1을 참조하면, 얼굴의 지역적인 변화가 큰 것을 의미하는 모션 플로우의 세기가 큰 영역을 기준으로 local support map을 계산하고 이를 기준으로 표정동작 사전요소(D)와 가중치(A)를 초기화하였으며, 1/D의 값으로 latent vector(W)를 초기화한다. 그리고 각 변수의 최적화 과정이 수행된다.
각 변수의 최적화 과정은, 먼저 가중치(A)와 latent vector(W)를 고정하고 표정동작 사전요소(D)의 최적화를 수행한다. 그리고 표정동작 사전요소(D)와 가중치(A)를 고정하고 latent vector(W)의 최적화를 수행한다. 다음, 표정동작 사전요소(D), latent vector(W)를 고정하고 가중치(A)의 최적화를 수행한다. 이러한 최적화 과정은 reconstruction error가 특정한 값 또는 설정된 값에 수렴할 때까지 반복(iteration)한다.
반복(iteration) 횟수가 많을수록 reconstruction error가 감소될 수 있다.
dictionary learning의 결과는 각 표정동작 사전요소(D), latent vector(W) 및 가중치(A)이다.
이러한 과정을 거쳐서 학습된 가중치(A)와 latent vector(W)의 곱은 표정인식부(50)의 표정분류(classification) 단계에서 표정 분류 데이터로 사용된다.
표 2는 본 발명의 일 실시 예에 따른 표정분류(classification) 단계의 알고리즘의 일 예를 보여준다.
Figure 112016008678213-pat00044
표 2를 참조하면, 앞서 학습된 표정동작 사전요소(D)와 latent 벡터(W)를 사용하여 표정인식용 영상에서 추출된 모션 플로우의 가중치를 계산하고 latent 벡터(W)와 가중치(A)의 곱을 표정 분류 데이터로 사용한다.
본 발명의 일 실시 예에 따르면, Latent 벡터에 의해 새롭게 구성된 7개의 dictionary 데이터를 사용하여 총 7개의 가중치가 계산되었다. 이들의 곱으로 연산된 각각의 인식용 latent 표정 데이터(Wc A'c)를, latent Dictionary 학습부(30)의 각 클래스별 표정 latent 벡터와 가중치를 모두 매칭되도록 연산하여 산출된 학습단계의 latent 표정데이터(Wc Ac)들과 비교하여 그 근접 확률을 SVM을 사용해 계산한 뒤 확률의 값이 가장 큰 클래스를 선택하는 방법으로 표정인식을 수행하였다.
다음은 본 발명의 일 실시 예에 따른 예에 따른 표정 latent 동작사전을 이용한 표정인식방법 및 장치에 의하여 시뮬레이션 예를 설명한다.
본 발명의 일 실시 예에서는 제안한 장치와 방법을 시뮬레이션하기 위해 표정인식 연구에 많이 사용되고 있는 Cohn-Kanada+(CK+) database를 사용하였다. CK+ database는 123명의 593개의 시퀀스로 이루어져 있다.
이를 이용한 7개의 표정(anger, contempt, disgust, fear, happy, sad, surprise)에 대해 실험에 사용되었다.
모션 플로우 추산(estimation) 과정을 수행하기 전 CK+ database에서 제공되는 landmark point를 사용하여 두 눈의 중심이 영상의 중앙에 오도록 하였으며 모든 영상의 크기를 90ⅹ56으로 정규화하여 실험에 사용하였다.
정규화된 영상을 사용하여 모션 플로우 추산(estimation) 과정을 수행하였고 별도의 처리과정 없이 dictionary learning에 표정동작 사전요소(D)로 사용하였다.
latent 사전 학습(latent Dictionary learning)단계에서는 앞에서 서술한 바와 같이 모션 플로우의 세기가 큰 영역을 기준으로 표정 동작사전을 초기화하고 최적화하는 과정을 수행하였다.
도 3은 본 발명의 본 발명의 일 실시 예에 따른 실험에서 학습된 표정동작 사전을 도시한 것이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 실험에서 학습된 표정동작 사전요소(D) 개수를 30으로 하였으며, 각각의 학습된 표정동작 사전요소(D)들은 local한 영역의 특징을 잘 표현하고 있는 것을 알 수 있다.
도 4는 본 발명의 일 실시 예에 따른 실험에서 각 표정 클래스별 학습된 latent 벡터를 도시한 것이다.
도 4에서 4(a)는 anger, 4(b)는 contempt, 4(c)는 disgust, 4(d)는 fear, 4(e)는 happy, 4(f)는 sad, 4(g)는 surprise를 나타낸다.
도 5는 본 발명의 일 실시 예에 따른 실험에서 각 표정 클래스별 학습된 가중치를 도시한 것이다.
도 5에서 5(a)는 anger, 5(b)는 contempt, 5(c)는 disgust, 5(d)는 fear, 5(e)는 happy, 5(f)는 sad, 5(g)는 surprise를 나타낸다.
도 4, 5를 참조하면, 각 표정 클래스의 latent 벡터와 가중치가 서로 다른 형태로 표현되는 것을 확인할 수 있으며, 이는 각 클래스의 특징을 각각의 가중치로 표현하여 표정인식에 적합한 특징벡터로 학습되었음을 보여준다. 또한, 제안한 목적함수가 제대로 구현되었음을 알 수 있다.
도 6은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법의 실험에서 최적화의 반복(iteration) 횟수에 따른 reconstruction error 변화를 그래프로 도시한 것이다.
Reconstruction error는 dictionary learning 알고리즘이 올바르게 구현되었는가를 판단할 수 있는 지표로 이용된다.
도 6을 참조하면, 실험결과 최적화의 반복 횟수가 증가함에 따라 reconstruction error가 감소함을 확인할 수 있다.
도 7은 본 발명의 일 실시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법의 실험에서 최적화의 반복(iteration) 횟수에 따른 인식률 변화를 그래프로 도시한 것이다.
도 7을 참조하면, 인식률의 경우 최적화의 반복 횟수에 관계없이 유사한 값을 보이며 이는 초기화 당시 전체 클래스를 기준으로 표정변화가 큰 부분을 바탕으로 dictionary 데이터를 구성함으로써 인식에 적합한 dictionary가 초기부터 구성되어 있기 때문으로 해석된다.
따라서, 각 클래스별 특징을 이용하여 dictionary 데이터를 초기화함으로써 더 나은 결과를 기대될 수 있을 것으로 예상된다.
표 3은 본 발명의 일 실시 예에 따른 실험에서 표정 latent 동작사전을 이용한 표정인식방법의 표정별 인식률을 도시한 confusion matrix이다.
Figure 112016008678213-pat00045
표 3에서 각 표정별 인식률을 보면 표정의 변화가 두드러지는 Anger, Disgust, Happy, Surprise의 경우에서 높은 인식률을 보인다.
표 4는 CK+ database를 사용한 표정인식 연구의 인식률로서, 본 발명의 일 실시 예에 따른 표정인식률과 종래기술들을 대비한 것이다.
방법 인식률(%)
SDNMF [1] 69.05
NNLS (texture) [2] 59.05
NNLS (motion) [2] 79.39
SLMD 1-NN [3] 86.7
Multi-modal Motion Dictionary Learning (4) 88.33
표정 latent동작사전을 이용한 본원발명의 일 실시 예 90.22
[1] Symeon Nikitidis, Anastasios Tefas, Nikos Nikolaidis, Ioannis Pitas, 「Facial Expresson Recognition using Clustering Discriminant Nonnegative Matrix Factorization」, International Conference on Image Processing, pp. 3001-3004, 2011.
[2] Yifeng Li and Alioune Ngom, 「Classification approach based on non-negative least squares」, Neurocomputing, vol. 118, pp. 41-57, 2013.
[3] Chan-Su Lee, Rama Chellappa, 「Sparse Localized Facial Motion Dictionary Learning for Facial Expression Recognition」, International Conference on Acoustic, Speech and Signal Processing, pp. 3548-3552, 2014.
[4] 김진철 「Dictionary Learning을 이용한 표정인식에 관한 연구」 영남대 석사논문 pp. 28-32, 2015
본 발명의 일 실시 예에서는 표정 인식(test) 단계에서 전체 데이터를 four-fold set으로 생성하여 실험에 사용하였다.
표 4는 CK+ database를 사용하여 표정인식 연구를 수행한 다른 논문의 결과와 비교하여 나타내었으며, 동일한 실험 조건에서 본 발명의 일시 예에 따른 표정 latent 동작사전을 이용한 표정인식방법의 인식률이 90.22%로 가장 높음을 확인할 수 있다.
본 발명의 일 실시 예에 따르면, 모션 플로우 데이터를 dictionary learning 데이터로 사용하고, Dictionary를 학습하는 과정에서 각 클래스에 연관된 latent 벡터를 함께 학습하는 방법을 채택하여 각각의 클래스가 latent 벡터에 의해서 재구성된 서로 다른 dictionary를 가짐으로써 클래스 사이의 특징벡터의 차이를 극대화함으로써 90.22%의 향상된 인식률을 얻을 수 있다
본 발명의 일 실시 예에 따르면, 조명 및 작은 얼굴의 회전, 얼굴의 위치 이동 등에 견고하며, 지역화된 움직임에 대한 자동 모델링을 바탕으로, 계산 성능에 최적화되고 실시간의 표정인식을 제공할 수 있는 효과가 있다.
본 발명의 일 실시 예에 따르면, 하나 또는 그 이상의 영상이 주어지는 비디오, 다수의 이미지 등에서 효과적으로 표정을 인식할 수 있는 방법이 제공될 수 있다.
10: 학습용 영상획득부
20: 인식용 영상획득부
30: latent 사전 학습부
50: 표정인식부
101: 공통 dictionary
111: latent 벡터
121: 가중치

Claims (11)

  1. 얼굴 및 눈의 위치가 포함된 학습용 영상에 대하여 제1 정규화 과정을 거쳐서 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 학습용 영상획득부;
    얼굴 및 눈의 위치가 포함된 인식용 영상에 대하여 제2 정규화 과정을 거쳐서 인식용 표정 영상 데이터를 생성하고, 상기 기준표정 데이터에서 상기 생성된 인식용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 인식용 표정 모션 데이터를 생성하는 인식용 영상획득부;
    상기 학습용 표정 모션 데이터로부터 표정 동작사전 요소로 초기화한 후, 각 표정별 모션플로우에 대한 가중치와 상기 가중치가 각 표정 클래스에 따라 다른 분포를 가지는 latent 벡터를 산출하고, 각 변수들이 상기 학습용 표정 모션 데이터에 최적화되도록 최적화 학습 과정을 수행하여 각 클래스별 표정 latent 동작 사전을 구성하는 latent 사전 학습 과정에 대한 수단을 포함하는 latent 사전 학습부;
    상기 인식용 표정 모션 데이터에 상기 latent 사전 학습 단계에서 학습된 표정 동작사전 요소들로 이루어진 표정동작사전과 상기 latent 사전 학습 단계에서 학습된 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 수단, 상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터를 산출하는 수단 및 상기 latent 사전 학습부의 학습된 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 latent 표정 데이터들과 상기 인식용 latent 표정 데이터를 각각 비교하여 각 클래스에 대한 근접 확률이 가장 높은 클래스를 상기 인식용 영상에 대한 표정으로 분류하여 인식하는 수단을 포함하는 표정인식부를 포함하는 표정 latent 동작사전을 이용한 표정인식장치
  2. 얼굴 및 눈의 위치가 포함된 학습용 영상을 제1 정규화 과정을 거쳐서 학습용 표정 영상 데이터를 생성하고, 기준표정 데이터로부터 상기 생성된 학습용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 학습용 표정 모션 데이터를 생성하는 단계;
    상기 학습용 표정 모션 데이터로부터 표정동작 사전요소로 초기화한 후, 각 표정별 모션플로우에 대한 가중치와 상기 가중치가 각 표정 클래스에 따라 다른 분포를 가지는 latent 벡터를 산출하고, 각 변수들이 상기 학습용 표정 모션 데이터에 최적화되도록 최적화 학습 과정을 수행하여 각 클래스별 표정 latent 동작 사전을 구성하는 latent 사전 학습단계;
    얼굴 및 눈의 위치가 포함된 인식용 영상을 획득하여 제2 정규화 과정을 거쳐서 인식용 표정 영상 데이터를 생성하고, 상기 기준표정 데이터로부터 상기 생성된 인식용 표정 영상 데이터와의 조밀 움직임 변화를 산출하여 모션플로우에 의한 인식용 표정 모션 데이터를 생성하는 단계;
    상기 인식용 표정 모션 데이터에 상기 latent 사전 학습 단계에서 학습된 표정 동작사전 요소들로 이루어진 표정동작사전과 상기 latent 사전 학습 단계에서 학습된 각 클래스별 latent 벡터를 각각 적용하여 가중치 최적화 과정을 거쳐서 각 클래스별 가중치를 산출하는 단계;
    상기 산출된 각 클래스별 가중치에 상기 클래스별 표정 latent 벡터를 모두 매칭되도록 연산하여 각각 클래스별로 인식용 latent 표정 데이터를 산출하는 단계; 및
    상기 latent 사전 학습 단계에서 학습된 각 클래스별 표정 latent 벡터와 가중치를 모두 연산하여 산출된 latent 표정 데이터들과 상기 인식용 latent 표정 데이터를 각각 비교하여 각 클래스에 대한 근접 확률이 가장 높은 클래스를 상기 인식용 영상에 대한 표정으로 분류하여 인식하는 단계;
    를 포함하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
  3. 제2항에 있어서,
    상기 최적화 학습 과정은, 상기 가중치와 latent 벡터를 고정하고 상기 표정동작 사전 요소의 최적화를 수행하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
  4. 제3항에 있어서,
    상기 최적화 학습 과정은, 상기 표정동작 사전 요소와 가중치를 고정하고, 상기 latent 벡터의 최적화를 수행하는 것을 더 포함하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
  5. 제4항에 있어서,
    상기 최적화 학습 과정은, 상기 표정동작 사전 요소와 상기 latent 벡터를 고정하고 상기 가중치를 최적화를 수행하는 것 더 포함하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
  6. 제5항에 있어서,
    상기 최적화 학습 과정은, reconstruction error가 특정한 값 또는 설정된 값에 수렴할 때까지 반복(iteration)하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
  7. 제2항에 있어서,
    상기 latent 사전 학습단계에서 최적화 학습 과정은, 다음 목적함수의 최적의 해를 구하는 방법을 수행하는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법

    Figure 112016008678213-pat00046

    - 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수, K는 표정 동작사전 요소(component)의 개수, M은 모션 플로우의 차원을 나타내며,
    Figure 112016008678213-pat00047
    는 k번째 사전 열에서 j번째 모션의 차원을 의미한다.
  8. 제2항에 있어서,
    상기 latent 사전 학습단계의 최적화 학습 과정에서 상기 표정동작 사전요소의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
    Figure 112016008678213-pat00048

    Figure 112016008678213-pat00049

    Figure 112016008678213-pat00050

    - 여기서 D', A, W'는 표정 동작사전 요소(component), 가중치 및 latent 벡터의 전치행렬, X'는 학습용 표정 모션 데이터의 전치행렬을,
    Figure 112016008678213-pat00051
    i번째 샘플에 대한 k번째 사전에서의 지역지원 맵, dki는 k번째 dictionary 데이터의 geodesic distance, r은 선택된 픽셀의 중심을 기준으로 한 local support의 범위를 나타낸다.
  9. 제2항에 있어서,
    상기 latent 사전 학습단계의 최적화 학습 과정에서 상기 가중치의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
    Figure 112016008678213-pat00052

    - 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수를 나타낸다.
  10. 제2항에 있어서,
    상기 latent 사전 학습단계의 최적화 학습 과정에서 상기 latent 벡터의 최적화 과정은 다음 목적함수의 최적의 해를 구하는 방법에 의하여 수행되는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
    Figure 112016008678213-pat00053

    - 여기서 D는 표정 동작사전 요소(component), Xi는 i 번째 클래스의 학습용 표정 모션 데이터, Ai는 i번째 클래스의 가중치, Wi는 i번째 클래스의 latent 벡터, C는 클래스의 개수를 나타낸다.
  11. 제6항에 있어서,
    상기 최적화 학습 과정에서 각 클래스의 latent 벡터의 합은 1이 되는 것을 특징으로 하는 표정 latent 동작사전을 이용한 표정인식방법
KR1020160009567A 2016-01-26 2016-01-26 표정 latent 동작사전을 이용한 표정인식방법 및 장치 KR101742797B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160009567A KR101742797B1 (ko) 2016-01-26 2016-01-26 표정 latent 동작사전을 이용한 표정인식방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160009567A KR101742797B1 (ko) 2016-01-26 2016-01-26 표정 latent 동작사전을 이용한 표정인식방법 및 장치

Publications (1)

Publication Number Publication Date
KR101742797B1 true KR101742797B1 (ko) 2017-06-02

Family

ID=59222472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160009567A KR101742797B1 (ko) 2016-01-26 2016-01-26 표정 latent 동작사전을 이용한 표정인식방법 및 장치

Country Status (1)

Country Link
KR (1) KR101742797B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110007174A1 (en) 2009-05-20 2011-01-13 Fotonation Ireland Limited Identifying Facial Expressions in Acquired Digital Images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110007174A1 (en) 2009-05-20 2011-01-13 Fotonation Ireland Limited Identifying Facial Expressions in Acquired Digital Images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711283A (zh) * 2018-12-10 2019-05-03 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别算法
CN109711283B (zh) * 2018-12-10 2022-11-15 广东工业大学 一种联合双字典和误差矩阵的遮挡表情识别方法

Similar Documents

Publication Publication Date Title
Chen et al. Convolution neural network for automatic facial expression recognition
Du et al. Hierarchical recurrent neural network for skeleton based action recognition
Ko et al. Development of a Facial Emotion Recognition Method based on combining AAM with DBN
Rioux-Maldague et al. Sign language fingerspelling classification from depth and color images using a deep belief network
Tie et al. A deformable 3-D facial expression model for dynamic human emotional state recognition
KR100421740B1 (ko) 객체 활동 모델링 방법
Shbib et al. Facial expression analysis using active shape model
Khan et al. Facial expression recognition on real world face images using intelligent techniques: A survey
Zhang et al. BoMW: Bag of manifold words for one-shot learning gesture recognition from kinect
Kishore et al. Visual-verbal machine interpreter for sign language recognition under versatile video backgrounds
More et al. Hand gesture recognition system using image processing
CN110458235A (zh) 一种视频中运动姿势相似度比对方法
CN112883896A (zh) 一种基于bert网络的微表情检测方法
Ravi et al. Sign language recognition with multi feature fusion and ANN classifier
More et al. Gait recognition by cross wavelet transform and graph model
John et al. Real-time hand posture and gesture-based touchless automotive user interface using deep learning
Song et al. A design for integrated face and facial expression recognition
Gürel et al. Design of a face recognition system
Saabni Facial expression recognition using multi Radial Bases Function Networks and 2-D Gabor filters
Fakhfakh et al. Gesture recognition system for isolated word sign language based on key-point trajectory matrix
Kalita Designing of facial emotion recognition system based on machine learning
Li et al. A novel art gesture recognition model based on two channel region-based convolution neural network for explainable human-computer interaction understanding
KR101742797B1 (ko) 표정 latent 동작사전을 이용한 표정인식방법 및 장치
Sarma et al. Facial expression based emotion detection-a review
Li Hand shape estimation for south african sign language

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant