KR101893554B1 - 멀티 모달 데이터 기반 표정인식방법 및 장치 - Google Patents

멀티 모달 데이터 기반 표정인식방법 및 장치 Download PDF

Info

Publication number
KR101893554B1
KR101893554B1 KR1020170019996A KR20170019996A KR101893554B1 KR 101893554 B1 KR101893554 B1 KR 101893554B1 KR 1020170019996 A KR1020170019996 A KR 1020170019996A KR 20170019996 A KR20170019996 A KR 20170019996A KR 101893554 B1 KR101893554 B1 KR 101893554B1
Authority
KR
South Korea
Prior art keywords
facial expression
recognition
data
model
image
Prior art date
Application number
KR1020170019996A
Other languages
English (en)
Other versions
KR20180093632A (ko
Inventor
이찬수
김민현
김진철
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020170019996A priority Critical patent/KR101893554B1/ko
Publication of KR20180093632A publication Critical patent/KR20180093632A/ko
Application granted granted Critical
Publication of KR101893554B1 publication Critical patent/KR101893554B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • G06F17/30047
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

CNN 모델을 이용한 학습을 통하여 CNN 모델 표정 데이터베이스를 구축하는 단계; SVM 모델을 이용한 학습을 통하여 SVM 모델 표정 데이터베이스를 구축하는 단계; 인식용 이미지에 대하여 CNN 모델을 이용한 표정데이터 획득단계; 인식용 이미지에 대하여 SVM 모델을 이용한 표정데이터 획득단계; 상기 CNN 모델을 이용한 표정데이터에 대해 상기 CNN 모델 표정 데이터베이스를 검색하여 가장 근접한 CNN 모델 표정 분류 데이터를 추출하고, 상기 추출된 CNN 모델 표정 분류 데이터에 제1 가중치를 가산하여 CNN 모델 가중치 연산 표정데이터를 산출하는 단계; 상기 SVM 모델을 이용한 표정데이터에 대해 상기 SVM 모델 표정 데이터베이스 검색하여 가장 근접한 SVM 모델 표정 분류 데이터 값을 추출하고, 상기 추출된 SVM 모델 표정 분류 데이터에 제2 가중치를 가산하여 SVM 모델 가중치 연산 표정데이터 값을 산출하는 단계; 및 상기 CNN 모델 가중치 연산 표정데이터 값과 SVM 모델 가중치 연산 표정데이터 값을 결합하여 최종 인식용 표정 데이터를 산출하고, 가장 확률이 높은 값을 선택하여 표정을 인식하는 표정인식단계; 를 포함하는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법이 제공된다.

Description

멀티 모달 데이터 기반 표정인식방법 및 장치{Method and apparatus of recognizing facial expression base on multi-modal}
본 발명은 멀티 모달 데이터 기반 표정인식방법 및 장치에 관한 기술이다.
표정 인식은 컴퓨터가 사람의 감정을 이해하는데 핵심이 되는 요소이며 다양한 분야에 적용하기 위해서 연구가 활발하게 진행되고 있다.
컴퓨터비전의 여러 분야 중 표정 인식은 컴퓨터가 사람의 감정을 이해하고 반응하는데 핵심이 되는 요소이며 로봇, 디스플레이, 정보매체 등과의 인터렉션 기술 등에 활용되고 있다.
또한, 병원에서 환자가 고통을 느끼는 표정을 읽어 의사에게 전달하거나, TV 프로그램이나 광고에 대한 시청자의 반응과 매장에서 제품별로 소비자들의 호감도를 파악하는 등, 많은 분야에서 상용화 되고 있다.
얼굴 표정 인식은 인간 중심의 human-machine 인터페이스의 가장 중요한 요소 중 하나이다. 얼굴 표정(Face Expression)은 사람의 감정뿐만 아니라 마음의 상태, 사회적 상호작용, 생리학적 신호 등과 같은 다양한 정보를 반영한다.
최근 컴퓨터 비전, 컴퓨터 그래픽스 분야에서 실시간 얼굴 표정 인식 및 분석 기술이 주요 관심사로 부각되고 있다.
특히 비전 기반 실시간 얼굴 모션 추적 및 표정 인식 기술은 효과적인 인간과 컴퓨터의 상호작용을 위한 매력적인 입력 모드로 관심을 모으고 있다. 이처럼 얼굴 표정인식에 관련된 연구의 중요성이 증대되고 있는 이유는 컴퓨터성능의 향상에 따라 저렴한 비용으로 빠른 처리가 가능할 뿐만 아니라 얼굴 검출, 얼굴 추적, 얼굴 인식 등과 같은 영역에서의 연구와 밀접한 연관성이 존재하여 상호보완적으로 연구 수행을 향상시키기 때문이다.
얼굴 표정 인식 기술은 주로 얼굴 영상을 이용하여 특징을 추출하고 이를 미리 학습시킨 인식 모델을 통하여 각 감정의 범주로 분류한다.
현재 연구되고 있는 얼굴의 특징검출에 관한 기술로는, 에지 정보를 이용한 방법, 휘도(Luminance), 색차(Chrominance), 얼굴의 기하학적인 외형 및 대칭에 기반한 접근법, 주성분 분석법(PCA; Principal Component Analysis), 템플릿 매칭을 이용한 방법, 얼굴의 곡률을 이용하는 접근법, 신경망을 이용하는 방법 등이 있다.
이러한 연속 얼굴 표정인식 방법 중 대표적 모델로는 AAM(Active Appearance Model)이 있다. AAM은 얼굴 형상(model) 벡터와 얼굴 표면 질감(texture) 벡터에 주성분 분석(PCA)을 적용하여 다양한 사람의 얼굴 통계를 이용하여 만들어진 표본 얼굴 모델에 워핑(warping)하여, 표본 얼굴의 데이터와 정규화된 영상(2D)의 얼굴 데이터의 오차 제곱을 최소화시킨다. 이 데이터를 이용하여 얼굴의 특징점을 찾는다. AAM은 속도 계산을 빨리할 수 있고 트레킹(Tracking)이 가능하다는 장점이 있다.
얼굴 표정 인식방법에 대한 종래 기술로는 대한민국 등록 특허공보 10-1549645호에 소개된 바 있다.
그러나 환경에 따른 영상의 밝기변화, 연령, 인종에 따른 차이 등의 많은 변수들에 의해 인식률 향상에 따른 곤란성이 해결 과제로 남아있으며, 인식률 향상을 위한 지속적인 연구가 필요한 실정이다.
대한민국 등록 특허공보 10-1549645호 (표정 동작사전을 이용한 표정인식 방법 및 장치)
본 발명은 서로 다른 표정인식 학습모델을 결합하여 인식률을 향상시킬 수 있는 멀티 모달 데이터 기반 표정인식방법을 제공하는 것이다.
본 발명의 또 다른 목적은 Dense Motion Flow 이미지와 Landmark Flow 데이터를 사용한 두 가지 학습 모델을 결합하여 인식률을 향상시킬 수 있는 멀티 모달 데이터 기반 표정인식방법을 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
본 발명의 일 측면에 따르면, 비디오 영상, 또는 정지영상으로부터 다양한 모양 및 표정의 학습용 영상 데이터를 획득하는 학습용 영상 데이터 획득 단계; 상기 학습용 영상 데이터에 대해 기준 영상에 맞추어 일정 규격으로 정규화시키는 학습이미지 정규화 단계; 상기 정규화 단계를 거친 이미지에 대하여 제1 인식모델을 이용한 학습을 통하여 제1 인식모델 학습용 표정데이터를 획득하여 제1모델 표정 데이터베이스를 구축하는 단계; 상기 정규화 단계를 거친 이미지에 대하여 제2 인식모델을 이용한 학습을 통하여 제2 인식모델 학습용 표정데이터를 획득하여 제2모델 표정 데이터베이스를 구축하는 단계; 비디오 영상, 또는 정지영상으로부터 인식용 영상 데이터를 획득하는 인식용 영상 데이터 획득 단계; 상기 인식용 영상 데이터에 대해 기준 영상에 맞추어 일정 규격으로 정규화시키는 인식 이미지 정규화 단계; 상기 인식 이미지 정규화 단계를 거친 이미지에 대하여 제1 인식모델을 이용한 표정데이터 획득단계; 상기 인식 이미지 정규화 단계를 거친 이미지에 대하여 제2 인식모델을 이용한 표정데이터 획득단계; 상기 제1 인식모델을 이용한 표정데이터에 대해 상기 제1모델 표정 데이터베이스를 검색하여 가장 근접한 제1 인식모델 표정 분류 데이터를 추출하고, 상기 추출된 제1 인식모델 표정 분류 데이터에 제1 가중치를 가산하여 제1 모델 가중치 연산 표정데이터를 산출하는 단계; 상기 제2 인식모델을 이용한 표정데이터에 대해 상기 제2모델 표정 데이터베이스 검색하여 가장 근접한 제2 인식모델 표정 분류 데이터를 추출하고, 상기 추출된 제2 인식모델 표정 분류 데이터에 제2 가중치를 가산하여 제2 모델 가중치 연산 표정데이터를 산출하는 단계; 및 상기 제1 모델 가중치 연산 표정데이터와 상기 제2 모델 가중치 연산 표정데이터를 결합하여 최종 인식용 표정 데이터를 산출하고, 가장 확률이 높은 값을 선택하여 표정을 인식하는 표정인식단계; 를 포함하는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법이 제공된다.
또한, 상기 제1 인식모델 학습용 표정데이터는, 상기 학습 이미지 정규화 단계를 거친 이미지로부터 움직임의 변화인 모션을 얻기 위해 조밀한 점들의 움직임에 대한 모션 플로우를 산출하는 옵티컬 모션 플로우 산출단계; 및 상기 옵티컬 모션 플로우 산출단계에서 산출된 해에 따라 표정에 대한 모션플로우 이미지를 형성하는 RGB시각화 단계; 를 포함하며, 상기 제2 인식모델 학습용 표정데이터는, 상기 학습 이미지 정규화 단계를 거친 이미지로부터 눈, 코, 입, 턱선이 포함된 Landmark 좌표를 산출하는 Landmark 좌표 산출단계; 및 상기 산출된 Landmark 좌표를 하나의 표정영상에 대해 현재 프레임과 이전 프레임의 변화량을 계산하고, 각각의 좌표에 해당하는 변화량의 Intensity 값과 Angle 값에 따른 벡터 데이터를 산출하는 벡터데이터 산출단계; 를 포함하는 것을 특징으로한다.
또한, 상기 제1 인식모델을 이용한 표정데이터 획득단계는, 상기 인식 이미지 정규화 단계를 거친 이미지로부터 움직임의 변화인 모션을 얻기 위해 조밀한 점들의 움직임에 대한 모션 플로우를 산출하는 옵티컬 모션 플로우 산출단계; 및 상기 옵티컬 모션 플로우 산출단계에서 산출된 해에 따라 표정에 대한 모션플로우 이미지를 형성하는 RGB시각화 단계; 를 포함하며, 상기 제2 인식모델을 이용한 표정데이터 획득단계는, 상기 인식 이미지 정규화 단계를 거친 이미지로부터 눈, 코, 입, 턱선이 포함된 Landmark 좌표를 산출하는 Landmark 좌표 산출단계; 및 상기 산출된 Landmark 좌표를 하나의 표정영상에 대해 현재 프레임과 이전 프레임의 변화량을 계산하고, 각각의 좌표에 해당하는 변화량의 Intensity 값과 Angle 값에 따른 벡터 데이터를 산출하는 벡터데이터 산출단계; 를 포함하는 것을 특징으로 한다.
또한, 상기 모션 플로우는 다음 식의 해에 의하여 산출되는 것을 특징으로 ㅎ한다.
Figure 112017015172424-pat00001
여기서,
Figure 112017015172424-pat00002
는 이미지 평면에 있는 점(x, y)의 시간 t에서의 궤적임.
또한, 상기 벡터데이터 산출단계는 다음 식에 의하여 산출되는 것을 특징으로 한다.
Figure 112017015172424-pat00003
Figure 112017015172424-pat00004
여기서,
Figure 112017015172424-pat00005
,
Figure 112017015172424-pat00006
로 표시되며, △X는 t+1프레임에서의 Landmark x 좌표값 빼기 t 프레임에서의 Landmark x 좌표값을 의미하며, △Y는 t+1프레임에서의 Landmark y 좌표값 빼기 t 프레임에서의 Landmark y 좌표값을 의미한다.
또한, 상기 제1 가중치와 제2 가중치는 상기 제1 인식모델을 이용한 표정데이터와 상기 제2 인식모델을 이용한 표정데이터의 실제 표정에 대한 weight 비를 나타내는 것을 특징으로 한다.
또한, 상기 제1 가중치는 0.2~0.4에서 어느 하나의 값을 가지며, 상기 제2 가중치는 0.6~0.8의 범위에서 어느 하나의 값을 가지되 상기 제1 가중치 와 제2 가중치의 합은 1인 것을 특징으로 한다.
또한, 상기 멀티 모달 데이터 기반 표정인식방법에 의한 표정인식의 인식률은 상기 제1 인식모델을 이용한 표정인식방법에 의한 표정인식의 인식률 또는 상기 제2 인식모델을 이용한 표정인식방법에 의한 표정인식의 인식률보다 높은 것을 특징으로 한다.
본 발명의 또 다른 측면에 따르면, 상기 표정인식방법을 수행하는 표정인식장치는, 상기 학습용 영상 데이터를 획득하여 제1 인식모델 및 제2 인식 모델을 이용한 제1, 2 인식모델 학습용 표정데이터를 획득하는 학습용 영상획득부; 상기 학습용 영상획득부에서 획득한 제1, 2 인식모델 학습용 표정데이터를 학습하여 구축하는 제1 모델 표정 데이터베이스 및 제1, 2 모델 표정 데이터베이스를 포함하는 표정학습부; 상기 인식용 영상 데이터를 획득하여 제1 인식모델 및 제2 인식 모델을 이용한 제1, 2 인식모델 인식용 표정데이터를 획득하는 인식용 영상획득부; 및 상기 인식용 영상획득부에서 획득한 제1, 2 인식모델 인식용 표정데이터에 대해 상기 제1 모델 표정 데이터베이스 및 제1, 2 모델 표정 데이터베이스를 이용하여 표정을 인식하는 표정인식부; 를 포함하는 것을 특징으로 한다.
본 발명의 일측면에 따르면, 얼굴 변화를 표현할 수 있는 Dense Motion Flow 이미지와 Landmark Flow 데이터를 사용한 학습 모델을 결합한 표정인식방법에 의하여 인식률을 향상시킬 수 있는 효과를 가진다.
본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식방법은 97.25%의 높은 인식률을 얻을 수 있다.
도 1은 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치의 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치에서의 표정인식방법을 도시한 것이다.
도 3은 표정인식부에서 CNN 모델 인식용 표정데이터 및 SVM 모델 인식용 표정데이터에 대해 가중치를 연산하여 최종 표정인식을 하는 과정의 일 예를 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 전체에서, "상에"라 함은 대상 부분의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력 방향을 기준으로 상 측에 위치하는 것을 의미하는 것이 아니다.
이하 본 발명의 구현에 따른 감광성 수지 조성물의 제조방법에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치의 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치(1)는 학습용 영상획득부(10), 인식용 영상획득부(20), 표정 데이터 학습부(30) 및 표정인식부(50)를 포함한다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치(1)는 학습용 영상획득부(10)에서 취득하여 가공된 각 표정별 제1, 2 인식모델 학습용 표정데이터는 표정학습부(30)의 제1, 2 모델 표정 데이터베이스(31, 32)에 각각 학습되어 저장된다.
그리고 인식용 영상획득부(20)에서 입력하여 가공된 제1, 2 인식용 입력데이터는 표정인식부(50)에서 상기 학습되어 구축된 제1, 2 표정모델 데이터베이스(31, 32)의 검색단계를 거쳐서 가장 근접한 제1, 2 인식데이터를 추출하고 각각에 가중치를 연산한 값으로 결합하여 최종 표정 인식 데이터를 산출하게 된다.
상기 표정인식부(50에서는 상기 산출된 최종 표정 인식 데이터로부터 확률이 높은 표정을 선택하여 표정을 인식하게 된다.
다음은, 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치(1)에서 표정을 인식하는 방법에 대하여 자세히 설명한다.
먼저, 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치(1)에서 학습에 의해 제1, 2 표정모델 데이터베이스(31, 32)를 구축하는 과정은 다음과 같다.
학습용 영상획득부(10)에서는 학습용 영상 데이터 획득 단계(101), 정규화 단계(102)를 거쳐서 제1 인식모델을 이용한 표정데이터 학습단계 및 제2 인식모델을 이용한 표정데이터 학습단계를 거쳐서 표정학습부(30)의 제1 모델 표정 데이터베이스(31)에 제1 학습데이터를 구축하고, 제2 모델 표정 데이터베이스(32)에 제2 학습 모델에 의한 제2 학습데이터를 구축하는 단계가 수행된다.
학습용 영상 데이터 획득 단계(101)에서는 비디오 영상, 또는 다수의 연속된 정지영상으로부터 다양한 모양 및 표정의 얼굴 눈의 위치 등이 포함된 학습용 영상 데이터를 획득하게 된다.
본 발명의 일 실시 예에서는 다양한 모양의 얼굴에 대하여 7개의 표정(Angry, Contempt, Disgust, Fear, Happy, Sadness, Surprise)에 대한 영상데이터가 획득된다.
영상 데이터를 획득하는 단계(101) 이후에, 획득된 학습용 영상 데이터로부터 영상에 대한 학습 이미지 정규화 단계(102)가 수행된다.
학습 이미지 정규화 단계(102)에서는 획득된 학습용 영상 데이터로부터 먼저 눈의 위치를 검출하고, 검출된 눈의 위치와 거리가 정규화하려는 이미지의 크기에 따라 정해지는 거리와 동일하게 되도록 획득된 학습용 영상 데이터가 기준 영상(또는 초기 영상)과 일정한 거리와 크기가 되도록 일정 규격으로 정규화되는 과정이 수행된다.
다음은, 상기 학습 이미지 정규화 단계(102)를 거친 이미지에 대하여 각각 다른 학습 모델에 따라 표정에 대한 학습데이터를 구축하는 단계가 수행된다.
본 발명의 일 실시 예에서는 제1 인식모델을 이용한 표정데이터 학습단계에는 Motion Flow 이미지에 대해 Convolutional Neural Network 인식모델(이하 본 명세서에서는 'CNN 모델'로 정의한다.)을 적용하고, 제2 인식모델을 이용한 표정데이터 학습단계에는 Landmark Flow 데이터를 Support Vector Machine을 사용해 학습하는 Support Vector Machine 인식모델(이하 본 명세서에서는 'SVM 모델'로 정의한다.)을 적용한 것을 특징으로 한다.
CNN 모델에서는 학습 이미지 정규화 단계(102)를 거친 이미지로부터, 모션 플로우 산출단계(103) 및 RGB 시각화 단계(104)를 거쳐서 CNN 모델에 의한 학습데이터가 저장되어 CNN 모델 표정 데이터베이스(31)를 구축하게 된다.
옵티컬 모션 플로우 산출단계(103)에서는 학습 이미지 정규화 단계(102)를 거친 이미지로부터 움직임의 변화인 모션을 얻기 위해 조밀한(dense) 점들의 움직임에 대한 모션 플로우를 산출하는 단계이다.
옵티컬 모션 플로우 산출단계(103)에서는 시작 프레임(또는 무표정과 같은 다른 기준 프레임)으로부터의 변화를 추적하고 이를 추출하여 표정에 따른 움직임을 인식하기 위한 표정 학습용 데이터를 산출하게 된다.
원래의 비디오 시퀀스를
Figure 112017015172424-pat00007
라고 하면,
Figure 112017015172424-pat00008
는 표준화된 얼굴 모션 비디오 시퀀스를 나타낸다.
Figure 112017015172424-pat00009
는 이미지 평면에 있는 점 (x, y)의 시간 t에서의 궤적이 되며, 밝기 불변성을 바탕으로 아래 수식 1을 만족하는 모션동작을 추정하게 된다,
Figure 112017015172424-pat00010
또한, 모션 플로우 산출은 Tv-L1 optical flow estimation 알고리즘(Perez, Javier Saanchez, Enric Meinhardt-Llopis, and Gabriele Facciolo. "TV-L1 optical flow estimation." Image Processing On Line 2013 (2013): 137-150. 참조)을 이용하여 산출될 수 있다.
다음은, RGB시각화 단계(104)가 수행된다.
RGB시각화 단계(104)에서는 상기 옵티컬 모션 플로우 산출단계(103)에서 산출된 해에 따라 표정에 대한 모션플로우 이미지를 형성하는 단계가 수행된다.
또한, 의도된 대로의 선형 시스템의 해를 구하기 위한 전체 변동의 합(μ)과 L1의 정규화 과정은 콘벡스 최적화에 의해 산출될 수 있다.
또한, 상기 RGB시각화는 MATLAB(매트랩) 툴박스를 이용하여 상기 옵티컬 모션 플로우 산출단계(103)에서 산출된 해로부터 RGB시각화에 따른 모션 플로우 이미지가 형성될 수 있다.
또한, 본 발명의 일 실시 예에 따른 모션 플로우 이미지의 CNN 모델 데이터 학습은 다음 수학식 2에 의해 수행될 수 있다.
Figure 112017015172424-pat00011
즉, [수학식 2]의 수집의 결과로서 비디오 시퀀스로부터 얼굴 표정의 모션 플로우를 나타낼 수 있다.
이 모션 플로우의 시퀀스는 조명과 주체의 피부 색깔 변화에 지장을 받지 않는다.
RGB시각화 단계(104)에서 형성된 모션플로우 이미지는 표정 확률에 대한 매트릭스와 함께 CNN 모델 표정 데이터베이스(31)에 저장되어 CNN 모델에 의한 표정 데이터를 구축하게 된다.
SVM 모델 학습단계에서는 학습 이미지 정규화 단계(102)를 거친 이미지로부터, Landmark 좌표 산출단계(113) 및 벡터데이터 산출단계(114)를 거쳐서 SVM 모델 표정 데이터베이스(32)에 저장되어 SVM 모델에 의한 표정데이터를 구축하게 된다.
Landmark 좌표 산출단계(113)에서는 학습 이미지 정규화 단계(102)를 거친 이미지로부터 눈, 코, 입, 턱선 등의 좌표를 산출하는 단계가 수행된다.
본 발명의 일 실시 예에서는 CK+(Cohn-Kanade) DB에서 AAM(Active Appearance Model) 기법으로 Landmark 좌표를 추출하여 DB구축에 사용된다.
CK+ DB는 327개 시퀀스, 7개의 표정(Angry, Contempt, Disgust, Fear, Happy, Sadness, Surprise)으로 이루어져 있다(Lucey, Patrick, et al. "The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression." 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. IEEE, 2010. 참조).
다음은 추출된 Landmark 좌표를 이용하여 벡터데이터 산출단계(114)가 수행된다.
하나의 표정영상에 대해 현재 프레임과 이전 프레임의 변화량을 계산하고, 각각의 좌표에 해당하는 변화량의 Intensity값과 Angle 값을 다음 수학식 3과 같이 연산되어 산출된다.
Figure 112017015172424-pat00012
Figure 112017015172424-pat00013
여기서
Figure 112017015172424-pat00014
,
Figure 112017015172424-pat00015
로 표시되며, △X는 t+1프레임에서의 Landmark x 좌표값 빼기 t 프레임에서의 Landmark x 좌표값을 의미하며, △Y는 t+1프레임에서의 Landmark y 좌표값 빼기 t 프레임에서의 Landmark y 좌표값을 의미한다.
상기 산출된 Landmark 좌표에 대한 Intensity와 Angle 데이터는 다음 수식 4 같이 표현되며, 표정 확률에 대한 매트릭스와 함께 SVM 모델 표정 데이터베이스(32)에 SVM 모델 학습에 의한 표정데이터가 저장된다.
이에 따라 SVM 모델 표정 데이터베이스(32)에는 각 얼굴 및 표정에 대한 SVM 모델의 학습에서 산출된 벡터데이터가 입력 데이터로서 입력된다.
Figure 112017015172424-pat00016
다음은 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치(1)에서 학습에 의해 구축된 제1, 2 모델 표정 데이터베이스(31, 32)에 의해 표정을 인식하는 방법은 다음과 같다.
도 2는 본 발명의 일 실시 예에 따른 멀티 모달 데이터 기반 표정인식장치에서의 표정인식방법을 도시한 것이다.
도 1, 2를 참조하면, 인식용 영상 획득부(20)는 인식하고자 하는 영상 시퀀스로부터 표정을 인식하기 위하여, 학습에 사용된 학습 이미지 정규화 단계(102)에서 정규화된 데이터를 얻는 방법과 동일한 방법으로 인식 이미지 정규화 단계(122)를 거쳐서 제1 인식모델을 이용한 표정데이터 획득단계(123, 124) 및 제2 인식모델을 이용한 표정데이터 취득단계(133, 134)를 거쳐서 제1, 2 인식용 입력 데이터를 형성시킨다.
인식용 영상 취득부에서 생성된 제1, 2 인식용 입력 데이터는 표정인식부(50)에서 상기 표정학습부(10)에서 학습에 의해 구축된 CNN 모델 표정 데이터베이스(31) 및 SVM 모델 표정 데이터베이스(32)를 검색하여 가장 근접한 표정 분류 데이터를 추출하고(142, 152단계), 추출된 데이터에 각각의 가중치로 연산된 값을 결합하는 단계(144, 154)를 거쳐서 산출된 데이터에 의해 표정을 인식하게 된다.
이를 다시 설명하면, 도 1에서, 인식용 영상 데이터 획득 단계(101)에서는 비디오 영상, 또는 다수의 연속된 정지영상으로부터 인식이 요구되는 얼굴 눈의 위치 등이 포함된 영상 데이터를 획득하게 된다
인식용 영상 데이터를 획득하는 단계(121) 이후에, 획득된 인식용 영상에 대한 정규화 단계(122)가 수행된다.
정규화 단계(122)의 정규화 과정은 학습용 정규화 단계(102)와 동일한 방법으로 수행된다.
정규화 단계(122) 이후에는 제1 인식모델을 이용한 표정데이터 획득단계(123, 124) 및 제2 인식모델을 이용한 표정데이터 취득단계(133, 134)를 수행하게 된다.
상기 제1 인식모델을 이용한 표정데이터 획득단계(123, 124)는 학습용 영상획득부(10)에서 수행된 CNN 모델을 이용한 표정데이터 학습단계에서와 동일한 방법으로 옵티컬 모션 플로우 산출단계(123) 및 RGB 시각화 단계(14)를 거쳐서 인식용 CNN 모델의 모션플로우 이미지를 형성한다.
또한, 상기 제2 인식모델을 이용한 표정데이터 획득단계(133, 134)는 학습용 영상획득부(10)에서 수행된 SVM 모델을 이용한 표정데이터 학습단계에서와 동일한 방법으로 Landmark 좌표 산출단계(113) 및 벡터데이터 산출단계(114)를 거쳐서 옵티컬 모션 플로우 산출단계(123) 및 RGB 시각화 단계(14)를 거쳐서 인식용 SVM 모델의 벡터데이터를 산출한다.
다음, 표정인식부(50)에서 상기 인식용 CNN 모델 모션플로우 이미지와 인식용 SVM 모델의 벡터데이터를 이용하여 표정을 인식하는 방법은 다음과 같다.
CNN 모델 인식단계(142)에서는 상기 인식용 영상획득부에서 가공된 상기 인식용 모션플로우 이미지에 대해 상기 CNN 모델 표정 데이터베이스(31)를 검색하여 가장 근접한 CNN 모델의 표정 분류 데이터를 추출한다.
다음은 CNN 모델 가중치 연산 표정데이터를 산출하는 단계(144)가 수행된다.
본 발명의 일 실시 예에 따른 CNN 모델 가중치 연산 표정데이터를 산출하는 단계(144)에서는 실제 표정이미지에 대한 SVM 모델 표정 데이터 값과의 weight 대비를 반복하는 과정을 통하여 최적의 CNN 모델 가중치 값을 선택할 수 있다.
CNN 모델 가중치 연산 표정데이터를 산출하는 단계(144)에서는 상기 추출된 CNN 모델 표정 분류 데이터에 제2 가중치를 가산하여 CNN 모델 가중치 연산 표정데이터 값을 산출한다.
SVM 모델 인식단계(152)에서는 상기 인식용 영상획득부에서 산출된 상기 인식용 SVM 모델의 벡터데이터에 대해 상기 SVM 모델 표정 데이터베이스(32)를 검색하여 가장 근접한 SVM 모델의 표정 분류 데이터를 추출한다.
다음은 SVM 모델 가중치 연산 표정데이터를 산출하는 단계(154)가 수행된다.
본 발명의 일 실시 예에 따른 SVM 모델 가중치 연산 표정데이터를 산출하는 단계(154)에서는 실제 이미지 표정에 대한 CNN 모델의 표정 데이터 값과의 weight 대비를 반복하는 과정을 통하여 최적의 SVM 모델의 가중치 값을 선택할 수 있다.
SVM 모델 가중치 연산 표정데이터를 산출하는 단계(154)에서는 상기 추출된 SVM 모델 표정 분류 데이터에 제2 가중치를 가산하여 SVM 모델 가중치 연산 표정데이터를 산출한다.
다음은 상기 CNN 모델 가중치 연산 표정데이터와 상기 SVM 모델 가중치 연산 표정데이터를 합산하여 최종 인식용 표정 데이터를 산출하는 단계(155)가 수행된다.
최종 인식용 표정 데이터를 산출하는 단계(155)에서 각 클래스에 대한 최종 확률값은 다음 수식 5와 같이 표현된다.
Figure 112017015172424-pat00017
다음은 상기 최종 인식용 표정 데이터로부터 가장 확률이 높은 값을 선택하여 표정을 인식하는 표정인식단계(160)가 수행된다.
최종 확률 값을 사용해 다음 수식 6에 표현된 방법으로 표정인식을 수행한다.
Figure 112017015172424-pat00018
본 발명의 일 실시 예에 따르면, 표정 시퀀스의 Flow 이미지와 Landmark Flow를 추출하여 각각 CNN 모델과 SVM 모델 방법으로 확률 값을 추출했으며, Weighted Sum으로 계산된 최종 확률 값을 사용해 표정인식을 수행하였다.
다음 표 1은 표정인식부에서 인식용 영상에 대하여 11개의 샘플 프레임에 대해 추출한 CNN 모델의 인식 표정 데이터의 일 실시 예를 나타낸 것이다.
  Angry Contempt Disgust Fear Happy Sadness Surprise
1 1 0 0 0 0 0 0
2 1 0 0 0 0 0 0
3 1 0 0 0 0 0 0
4 1 0 0 0 0 0 0
5 1 0 0 0 0 0 0
6 1 0 0 0 0 0 0
7 1 0 0 0 0 0 0
8 0.9998 0.0001 0 0 0 0 0
9 1 0 0 0 0 0 0
10 1 0 0 0 0 0 0
11 1 0 0 0 0 0 0
다음 표 2는 표정인식부에서 인식용 영상에 대하여 11개의 샘플 프레임에 대해 추출한 SVM 모델의 인식 표정 데이터의 일 실시 예를 나타낸 것이다.
  Angry Contempt Disgust Fear Happy Sadness Surprise
1 0.447987 0.034954 0.030249 0.101526 0.21543 0.04335 0.126503
2 0.907923 0.001709 0.009203 0.036994 0.033188 0.001178 0.009805
3 0.480157 0.008195 0.028314 0.185512 0.179041 0.025588 0.093192
4 0.546353 0.006193 0.017627 0.16215 0.135443 0.023413 0.108821
5 0.719429 0.003412 0.025808 0.064519 0.086014 0.050772 0.050046
6 0.685523 0.003875 0.097085 0.123675 0.031021 0.005389 0.053432
7 0.780216 0.001551 0.132951 0.043444 0.020123 0.001734 0.019982
8 0.934266 0.000285 0.041379 0.013434 0.004837 0.000476 0.005323
9 0.973185 0.000268 0.00141 0.000506 0.002361 0.013262 0.009008
10 0.950704 0.0000548 0.004149 0.004528 0.025594 0.005316 0.009654
11 0.993378 0.000342 0.000208 0.0000619 0.000347 0.004162 0.001502
다음 표 3은 표정인식부에서 표1, 2의 CNN 모델 표정데이터와 SVM 모델 표정데이터의 weighted sum 계산을 수행하여 합산하여 최종 인식용 표정 데이터의 일 실시 예를 나타낸 것이다.
  Angry Contempt Disgust Fear Happy Sadness Surprise
1 0.613591 0.024468 0.021175 0.071068 0.150801 0.030345 0.088552
2 0.935546 0.001196 0.006442 0.025896 0.023231 0.000825 0.006864
3 0.63611 0.005736 0.01982 0.129859 0.125329 0.017912 0.065235
4 0.682447 0.004335 0.012339 0.113505 0.09481 0.016389 0.076175
5 0.8036 0.002388 0.018065 0.045164 0.06021 0.035541 0.035032
6 0.779866 0.002713 0.067959 0.086572 0.021714 0.003772 0.037403
7 0.846151 0.001086 0.093066 0.030411 0.014086 0.001214 0.013987
8 0.953926 0.00023 0.028966 0.009404 0.003386 0.000333 0.003726
9 0.98123 0.000188 0.000987 0.000354 0.001653 0.009284 0.006305
10 0.965493 3.83E-05 0.002904 0.00317 0.017916 0.003721 0.006758
11 0.995364 0.00024 0.000146 0.0000433 0.000243 0.002913 0.001051
도 3은 상기 도 1, 2의 샘플 프레임 11에 대하여 표정인식부에서 CNN 모델 인식용 표정데이터 및 SVM 모델 인식용 표정데이터에 대해 가중치를 연산하여 최종 표정인식을 하는 과정의 예를 도시한 것이다.
도 3을 참조하면, CNN 모델 가중치 연산 표정데이터 값과 SVM 모델 가중치 연산 표정데이터 값을 합산하여 최종 인식용 표정 데이터에서 가장 확률이 높은 값은 0.995364415169312를 나타낸다.
이에 따라 표정인식부에서는 인식용 영상 데이터에 대해 dangly 표정으로 출력된다.
표 1 내지 3 및 도 3에서 바람직한 실시 예에 따른 가중치 WOF, WLM는 실험적으로 실제 angry 이미지 표정에 대한 CNN 표정 데이터 값과의 SVM 표정 데이터 값의 weight 대비를 반복하는 과정을 통하여 각각 0.3, 0.7로 선정하였다.
가중치WOF와 WLM는 CNN 표정 데이터 값과 SVM 표정 데이터 값의 실제 표정에 대한 weight 비를 나타낸다.
본 발명의 또 다른 실시 예에서는, 상기 CNN 가중치 값은 0.2~0.4에서 어느 하나의 값을 가지며, 상기 SVM 가중치 값은 0.6~0.8의 범위에서 어느 하나의 값을 가지되 상기 CNN 가중치 값과 SVM 가중치 값의 합은 1인 것을 특징으로 한다.
또한, 상기 CNN 가중치 값 및 SVM 가중치 값은 0.2~0.4: 0.6~0.8 범위에서 각 모델별 또는 class에 따라 선택적으로 적용될 수 있다.
표 4는 본 발명의 일 실시 예에 따른 CNN 모델 가중치 연산 표정데이터와 상기 SVM 가중치 연산 표정데이터를 합산하여 최종 인식용 표정 데이터에 의한 인식률 결과의 Confusion Matrix를 나타낸 것이다.
Angry Contempt Disgust Fear Happy Sad Surprise
An. 0.98 0 0 0 0.02 0 0
Co. 0 0.89 0 0 0.11 0 0
Di. 0.02 0 0.98 0 0 0 0
Fe. 0.04 0 0 0.84 0.04 0 0.08
Ha. 0 0 0 0 1 0 0
Sad 0.04 0 0 0 0 0.96 0
Su. 0 0 0 0 0 0 1
표 4를 참조하면, 본 발명의 일 실시 예에 따라 따른 Motion Flow 이미지기반 CNN 모델 인식방법 및 Landmark Flow기반 SVM 모델 인식방법을 결합하여 표정인식에 사용함으로써 97.25%의 높은 인식률을 얻을 수 있었다.
표 5는 CNN 모델을 이용한 인식방법과 SVM 모델을 이용한 인식방법의 각각으로 수행한 표정인식에 대한 인식률과 본 발명의 일 실시 예에 따른 CNN 모델 가중치 연산 표정데이터와 SVM 모델 가중치 연산 표정데이터를 결합하여 최종 인식용 표정 데이터에 의한 인식률 결과를 나타낸 것이다.
실험방법 인식률(%)
Motion Flow + CNN 81.04
Landmark Flow + SVM 94.80
Optical Flow + Landmark Flow 97.25
표 5를 참조하면, 각각의 방법에 대해 표정인식을 수행한 결과 Motion Flow 이미지기반 CNN 모델 인식방법은 81.04%의 비교적 낮은 인식률을 보였다. Landmark Flow기반 SVM 모델 인식방법의 경우, Motion Flow 이미지기반 CNN 모델 인식방법에 비해 상대적으로 높은 인식률을 보였으며 이는 지역적 특징의 시간에 따른 흐름이 표정을 잘 표현할 수 있음을 보여주는 결과로 분석된다.
또한, 본 발명의 일 실시 예에 따라 따른 Motion Flow 이미지기반 CNN 모델 인식방법 및 Landmark Flow기반 SVM 모델 인식방법을 결합하여 표정인식에 사용함으로써 각각의 방법 대비 16.21%, 2.45%의 인식률이 향상됨을 확인할 수 있었다.
이는 각각의 모델이 학습되는 형태가 다르기 때문에 상호 보완의 역할을 할 수 있음을 보여주는 결과로 분석된다.
1: 표정인식장치
10: 학습용 영상획득부
20: 인식용 영상획득부
30: 표정 데이터 학습부
50: 표정인식부
31: CNN 모델 표정 데이터베이스
32: SVM 모델 표정 데이터베이스

Claims (10)

  1. 비디오 영상, 또는 정지영상으로부터 다양한 모양 및 표정의 학습용 영상 데이터를 획득하는 학습용 영상 데이터 획득 단계;
    상기 학습용 영상 데이터에 대해 기준 영상에 맞추어 일정 규격으로 정규화시키는 학습이미지 정규화 단계;
    상기 정규화 단계를 거친 이미지에 대하여 제1 인식모델을 이용한 학습을 통하여 제1 인식모델 학습용 표정데이터를 획득하여 제1모델 표정 데이터베이스를 구축하는 단계;
    상기 정규화 단계를 거친 이미지에 대하여 제2 인식모델을 이용한 학습을 통하여 제2 인식모델 학습용 표정데이터를 획득하여 제2모델 표정 데이터베이스를 구축하는 단계;
    비디오 영상, 또는 정지영상으로부터 인식용 영상 데이터를 획득하는 인식용 영상 데이터 획득 단계;
    상기 인식용 영상 데이터에 대해 기준 영상에 맞추어 일정 규격으로 정규화시키는 인식 이미지 정규화 단계;
    상기 인식 이미지 정규화 단계를 거친 이미지에 대하여 제1 인식모델을 이용한 표정데이터 획득단계;
    상기 인식 이미지 정규화 단계를 거친 이미지에 대하여 제2 인식모델을 이용한 표정데이터 획득단계;
    상기 제1 인식모델을 이용한 표정데이터에 대해 상기 제1모델 표정 데이터베이스를 검색하여 가장 근접한 제1 인식모델 표정 분류 데이터를 추출하고, 상기 추출된 제1 인식모델 표정 분류 데이터에 제1 가중치를 가산하여 제1 모델 가중치 연산 표정데이터를 산출하는 단계;
    상기 제2 인식모델을 이용한 표정데이터에 대해 상기 제2모델 표정 데이터베이스 검색하여 가장 근접한 제2 인식모델 표정 분류 데이터를 추출하고, 상기 추출된 제2 인식모델 표정 분류 데이터에 제2 가중치를 가산하여 제2 모델 가중치 연산 표정데이터를 산출하는 단계; 및
    상기 제1 모델 가중치 연산 표정데이터와 상기 제2 모델 가중치 연산 표정데이터를 결합하여 최종 인식용 표정 데이터를 산출하고, 가장 확률이 높은 값을 선택하여 표정을 인식하는 표정인식단계; 를 포함하는 것을 특징으로 하되,
    상기 제1 가중치와 제2 가중치는 상기 제1 인식모델을 이용한 표정데이터와 상기 제2 인식모델을 이용한 표정데이터의 실제 표정에 대한 weight 비를 나타내는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  2. 제1항에 있어서,
    상기 제1 인식모델 학습용 표정데이터는,
    상기 학습 이미지 정규화 단계를 거친 이미지로부터 움직임의 변화인 모션을 얻기 위해 조밀한 점들의 움직임에 대한 모션 플로우를 산출하는 옵티컬 모션 플로우 산출단계; 및
    상기 옵티컬 모션 플로우 산출단계에서 산출된 해에 따라 표정에 대한 모션플로우 이미지를 형성하는 RGB시각화 단계; 를 포함하며,
    상기 제2 인식모델 학습용 표정데이터는,
    상기 학습 이미지 정규화 단계를 거친 이미지로부터 눈, 코, 입, 턱선이 포함된 Landmark 좌표를 산출하는 Landmark 좌표 산출단계; 및
    상기 산출된 Landmark 좌표를 하나의 표정영상에 대해 현재 프레임과 이전 프레임의 변화량을 계산하고, 각각의 좌표에 해당하는 변화량의 Intensity값과 Angle 값에 따른 벡터 데이터를 산출하는 벡터데이터 산출단계; 를 포함하는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  3. 제2항에 있어서,
    상기 제1 인식모델을 이용한 표정데이터 획득단계는
    상기 인식 이미지 정규화 단계를 거친 이미지로부터 움직임의 변화인 모션을 얻기 위해 조밀한 점들의 움직임에 대한 모션 플로우를 산출하는 옵티컬 모션 플로우 산출단계; 및
    상기 옵티컬 모션 플로우 산출단계에서 산출된 해에 따라 표정에 대한 모션플로우 이미지를 형성하는 RGB시각화 단계; 를 포함하며,
    상기 제2 인식모델을 이용한 표정데이터 획득단계는,
    상기 인식 이미지 정규화 단계를 거친 이미지로부터 눈, 코, 입, 턱선이 포함된 Landmark 좌표를 산출하는 Landmark 좌표 산출단계; 및
    상기 산출된 Landmark 좌표를 하나의 표정영상에 대해 현재 프레임과 이전 프레임의 변화량을 계산하고, 각각의 좌표에 해당하는 변화량의 Intensity값과 Angle 값에 따른 벡터 데이터를 산출하는 벡터데이터 산출단계; 를 포함하는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  4. 제3항에 있어서,
    상기 모션 플로우는 다음 식의 해에 의하여 산출되는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
    Figure 112017015172424-pat00019

    여기서,
    Figure 112017015172424-pat00020
    는 이미지 평면에 있는 점(x, y)의 시간 t에서의 궤적임.
  5. 제3항에 있어서,
    상기 벡터데이터 산출단계는 다음 식에 의하여 산출되는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
    Figure 112017015172424-pat00021

    Figure 112017015172424-pat00022


    여기서,
    Figure 112017015172424-pat00023
    ,
    Figure 112017015172424-pat00024
    로 표시되며, △X는 t+1프레임에서의 Landmark x 좌표값 빼기 t 프레임에서의 Landmark x 좌표값을 의미하며, △Y는 t+1프레임에서의 Landmark y 좌표값 빼기 t 프레임에서의 Landmark y 좌표값을 의미한다.
  6. 삭제
  7. 제3항에 있어서,
    상기 제1 가중치는 0.2~0.4에서 어느 하나의 값을 가지며, 상기 제2 가중치는 0.6~0.8의 범위에서 어느 하나의 값을 가지되, 상기 제1 가중치 와 제2 가중치의 합은 1인 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  8. 제3항에 있어서,
    상기 제1 가중치는 0.3이며, 제2 가중치는 0.7인 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  9. 제1항에 있어서,
    상기 멀티 모달 데이터 기반 표정인식방법에 의한 표정인식의 인식률은 상기 제1 인식모델을 이용한 표정인식방법에 의한 표정인식의 인식률 또는 상기 제2 인식모델을 이용한 표정인식방법에 의한 표정인식의 인식률보다 높은 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식방법.
  10. 제1항의 표정인식방법을 수행하는 표정인식장치는,
    상기 학습용 영상 데이터를 획득하여 제1 인식모델 및 제2 인식 모델을 이용한 제1, 2 인식모델 학습용 표정데이터를 획득하는 학습용 영상획득부;
    상기 학습용 영상획득부에서 획득한 제1, 2 인식모델 학습용 표정데이터를 학습하여 구축하는 상기 제1 모델 표정 데이터베이스 및 상기 제2 모델 표정 데이터베이스를 포함하는 표정학습부;
    상기 인식용 영상 데이터를 획득하여 상기 제1 인식모델 및 제2 인식 모델을 이용한 제1, 2 인식모델 인식용 표정데이터를 획득하는 인식용 영상획득부; 및
    상기 인식용 영상획득부에서 획득한 제1, 2 인식모델 인식용 표정데이터에 대해 상기 제1 모델 표정 데이터베이스 및 제1, 2 모델 표정 데이터베이스를 이용하여 표정을 인식하는 표정인식부; 를 포함하는 것을 특징으로 하는 멀티 모달 데이터 기반 표정인식장치.
KR1020170019996A 2017-02-14 2017-02-14 멀티 모달 데이터 기반 표정인식방법 및 장치 KR101893554B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170019996A KR101893554B1 (ko) 2017-02-14 2017-02-14 멀티 모달 데이터 기반 표정인식방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170019996A KR101893554B1 (ko) 2017-02-14 2017-02-14 멀티 모달 데이터 기반 표정인식방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180093632A KR20180093632A (ko) 2018-08-22
KR101893554B1 true KR101893554B1 (ko) 2018-08-30

Family

ID=63453200

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170019996A KR101893554B1 (ko) 2017-02-14 2017-02-14 멀티 모달 데이터 기반 표정인식방법 및 장치

Country Status (1)

Country Link
KR (1) KR101893554B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079474A (zh) 2018-10-19 2020-04-28 上海商汤智能科技有限公司 乘客状态分析方法和装置、车辆、电子设备、存储介质
KR102174175B1 (ko) * 2018-11-06 2020-11-06 숙명여자대학교산학협력단 감정을 식별하기 위한 얼굴 감정 인식 장치 및 그 방법
CN109542233B (zh) * 2018-11-30 2020-04-10 哈尔滨拓博科技有限公司 一种基于动态手势和人脸识别的灯具控制系统
CN109657582B (zh) * 2018-12-10 2023-10-31 平安科技(深圳)有限公司 人脸情绪的识别方法、装置、计算机设备及存储介质
CN110046279B (zh) * 2019-04-18 2022-02-25 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110163171B (zh) * 2019-05-27 2020-07-31 北京字节跳动网络技术有限公司 用于识别人脸属性的方法和装置
KR20210095429A (ko) * 2020-01-23 2021-08-02 삼성전자주식회사 사용자의 개인 모델을 학습하는 전자 장치 및 그 동작 방법
WO2022000334A1 (zh) * 2020-06-30 2022-01-06 北京小米移动软件有限公司 生物特征识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101549645B1 (ko) * 2014-01-28 2015-09-03 영남대학교 산학협력단 표정 동작사전을 이용한 표정인식 방법 및 장치
KR101697476B1 (ko) * 2016-09-23 2017-01-19 경북대학교 산학협력단 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문:PATRICK LUCEY ET AL.,*

Also Published As

Publication number Publication date
KR20180093632A (ko) 2018-08-22

Similar Documents

Publication Publication Date Title
KR101893554B1 (ko) 멀티 모달 데이터 기반 표정인식방법 및 장치
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
Jiang et al. A dynamic appearance descriptor approach to facial actions temporal modeling
Murtaza et al. Analysis of face recognition under varying facial expression: a survey.
Kumano et al. Pose-invariant facial expression recognition using variable-intensity templates
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
Huang et al. Emotion recognition based on a novel triangular facial feature extraction method
Cornejo et al. Facial expression recognition with occlusions based on geometric representation
KR100988323B1 (ko) 표정 증폭을 이용한 미세 표정인식 방법 및 장치
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
CN114973383A (zh) 一种微表情识别方法、装置、电子设备及存储介质
Sarma et al. Hand gesture recognition using deep network through trajectory-to-contour based images
Upadhyay et al. Facial expression recognition: A review
da Cunha Santiago et al. Facial expression recognition based on motion estimation
Sawardekar et al. Facial expression recognition using efficient LBP and CNN
Adithya et al. An efficient method for hand posture recognition using spatial histogram coding of nct coefficients
Azam et al. Feature extraction trends for intelligent facial expression recognition: A survey
CN111597864A (zh) 基于累积光流加权特征的微表情识别方法
Sharrma et al. Vision based static hand gesture recognition techniques
Lee et al. Classification of facial expression using svm for emotion care service system
CN114998966A (zh) 基于特征融合的人脸表情识别方法
Tarannum et al. Human expression recognition based on facial features
Wei et al. 3D facial expression recognition based on Kinect
Apte et al. Efficient facial expression ecognition and classification system based on morphological processing of frontal face images
Ptucha et al. Fusion of static and temporal predictors for unconstrained facial expression recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right