KR101794399B1 - 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템 - Google Patents

사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템 Download PDF

Info

Publication number
KR101794399B1
KR101794399B1 KR1020150017072A KR20150017072A KR101794399B1 KR 101794399 B1 KR101794399 B1 KR 101794399B1 KR 1020150017072 A KR1020150017072 A KR 1020150017072A KR 20150017072 A KR20150017072 A KR 20150017072A KR 101794399 B1 KR101794399 B1 KR 101794399B1
Authority
KR
South Korea
Prior art keywords
emotion
user
face
mesh
unit
Prior art date
Application number
KR1020150017072A
Other languages
English (en)
Other versions
KR20160095735A (ko
Inventor
김영섭
이용환
한우리
Original Assignee
단국대학교 천안캠퍼스 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 천안캠퍼스 산학협력단 filed Critical 단국대학교 천안캠퍼스 산학협력단
Priority to KR1020150017072A priority Critical patent/KR101794399B1/ko
Publication of KR20160095735A publication Critical patent/KR20160095735A/ko
Application granted granted Critical
Publication of KR101794399B1 publication Critical patent/KR101794399B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06K9/00221
    • G06K9/00268

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템이 제공된다. 복합 다중 감정 인식 방법은 입력 영상에서 사용자의 얼굴 영역을 탐색하는 단계, 평균 형상 모델을 생성하는 단계, 평균 형상 모델을 사용자의 얼굴에 피팅하는 단계, 미리 설정된 기준점을 토대로 메쉬를 구하는 단계, 메쉬로 한정된 관심 영역에서의 객체 변화량을 구하는 단계, 객체 변화량을 토대로 유사도를 측정하는 단계, 및 유사도에 따른 데이터베이스 내의 미리 설정된 감정 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정하는 단계를 포함한다.

Description

사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템{METHOD AND SYSTEM FOR COMPLEX AND MULTIPLEX EMOTION RECOGNITION OF USER FACE}
본 발명의 실시예들은 사용자 얼굴의 감정 인식 방법에 관한 것으로, 더욱 상세하게는 사용자 얼굴의 다중의 감정들을 복합적으로 인식하여 표현할 수 있는 방법 및 시스템에 관한 것이다.
일반적으로 종래의 멀티 모달리티 감정 인식 방법은 생체 신호, 얼굴 표정, 얼굴 표면 온도 등의 여러 가지 데이터의 조합으로 감정을 인식한다. 즉, 이러한 종래의 멀티 모달리티 감정 인식 방법은 사용자로부터의 데이터를 토대로 정량화된 감정이나 미리 정의된 감정을 표현한다. 따라서 종래의 멀티 모달리티 감정 인식 방법은 사용자의 여러 감정들이 혼합된 복합 감정이나 여러 감정들에 의한 복합적이고 다중적인 애매한 감정을 인식할 수 없다.
또한, 사용자의 얼굴 표정을 인식하기 위하여 일부 종래 기술에서는 조명이나 얼굴 방향 등을 추가로 고려하는 방안을 제시하지만, 그러한 종래 기술도 여전히 기쁨, 놀람, 슬픔, 무표정 등의 단일 감정만을 인식할 수 있으므로, 복수 감정들이 조합되는 복합적이고 애매한 인간의 감정을 인식하는 데에는 한계가 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은, 인간의 애매하고 복합적인 얼굴 감정을 인식할 수 있는 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템을 제공하는데 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위하여 본 발명의 다른 목적은, 사용자 얼굴의 복합 다중 감정을 인식하여 복수 감정의 강도를 수치적으로 표현하거나 애니메이션 혹은 아바타를 통해 표현할 수 있는 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템을 제공하는데 있다.
상기의 목적을 달성하기 위하여 본 발명의 일 측면에서는, 입력 영상에서 사용자의 얼굴 영역을 탐색하는 단계, 평균 형상 모델을 생성하는 단계, 평균 형상 모델을 사용자의 얼굴에 피팅하는 단계, 미리 설정된 기준점을 토대로 메쉬를 구하는 단계, 메쉬로 한정된 관심 영역에서의 객체 변화량을 구하는 단계, 객체 변화량을 토대로 유사도를 측정하는 단계, 및 유사도에 따른 데이터베이스 내의 미리 설정된 감정 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법을 제공한다.
상기의 목적을 달성하기 위하여 본 발명의 다른 측면에서는, 전술한 사용자 얼굴의 복합 다중 감정 인식 방법을 수행하는 위한 프로그램을 기록한 컴퓨터 판독 가능 매체를 제공한다.
상기의 목적을 달성하기 위하여 본 발명의 또 다른 측면에서는, 입력 영상에서 사용자의 얼굴 영역을 탐색하는 탐색부, 평균 형상 모델을 생성하는 모델 생성부, 평균 형상 모델을 사용자의 얼굴에 피팅하는 피팅부, 미리 설정된 기준점을 토대로 메쉬를 구하는 메쉬 생성부, 메쉬로 한정된 관심 영역에서의 객체 변화량을 구하는 변화량 산출부, 객체 변화량을 토대로 유사도를 측정하는 유사도 측정부, 및 유사도에 따른 데이터베이스 내의 미리 설정된 감정 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정하는 감정강도 결정부를 포함하는 사용자 얼굴의 복합 다중 감정 인식 시스템을 제공한다.
여기에서, 모델 생성부는, 미리 훈련된 액티브 외관 모델(Active Appearance Model, AAM)의 파라미터들을 이용하여 복수의 랜드마크로 이루어진 모델을 생성할 수 있다.
여기에서, 피팅부는, 평균 형상 모델을 사용자의 얼굴에 실시간 피팅할 수 있다.
여기에서, 메쉬 생성부는, 사용자의 미간점, 눈, 눈썹 양끝, 입, 입술 또는 이들의 조합을 포함하는 기준점을 토대로 메쉬를 생성할 수 있다.
여기에서, 변화량 산출부는, 사용자의 눈, 눈썹, 입, 입술, 입꼬리, 입모양, 얼굴 구조 또는 이들의 조합을 포함하는 객체에 대한 메쉬 변화량을 산출할 수 있다.
여기에서, 사용자 얼굴의 복합 다중 감정 인식 시스템은, 메쉬 변화량을 갖는 데이터베이스 내의 표정 데이터를 K-근접이웃(K-Nearest Neighbor, K-NN) 기반으로 분류하는 분류부를 더 포함할 수 있다.
여기에서, 분류부는, 표정 데이터의 마할라노비스 거리(Mahalanobis distance)를 구하고 마할라노비스 거리를 토대로 표정 데이터들을 비교할 수 있다.
여기에서, 감정 강도 결정부는, 마할라노비스 거리에 따른 유사도를 측정하여 제1 감정을 결정하는 제1 감정 강도 결정부, 사용자의 표정 변화에 따른 표정 데이터의 마할라노비스 거리의 비교 결과를 토대로 제2 감정을 결정하는 제2 감정 강도 결정부, 및 제1 감정과 제2 감정의 빈도수에 따라 각 감정의 강도를 결정하는 복합 감정 강도 결정부를 포함할 수 있다.
여기에서, 사용자 얼굴의 복합 다중 감정 인식 시스템은, 복수 감정들의 강도를 토대로 사용자의 복합 감정 인식에 대한 결과를 출력하는 출력부를 더 포함할 수 있다.
여기에서, 사용자 얼굴의 복합 다중 감정 인식 시스템은, 탐색부, 모델 생성부, 피팅부, 메쉬 생성부, 변화량 산출부, 분류부, 유사도 측정부, 감정강도 결정부 또는 이들 조합의 동작을 위한 프로그램을 저장하는 메모리 시스템, 및 메모리 시스템에 연결되어 프로그램을 수행하는 프로세서를 포함할 수 있다.
상기와 같은 본 발명에 따른 사용자 얼굴의 복합 다중 감정 인식 방법이나 시스템을 이용할 경우에는 사용자의 얼굴 표정 변화에 따른 얼굴의 기하학적 변화를 분류 기준에 따라 표정의 변화량으로 산출하고, k-NN(Nearest Neighbors) 알고리즘을 변형하여 복수 감정의 조합으로 사용자의 애매하고 복합적인 감정을 인식하고, 인식된 감정을 출력할 수 있다.
또한, 얼굴 표정에서 인식한 복합 다중 감정과 이들의 강도를 수치적으로 표현할 수 있으며, 그에 의해 모바일 장치 등의 감정 효과 애니메이션이나 얼굴 감정 아바타 등에서 애매하거나 복합적인 감정을 포함한 매우 다양한 감정을 매우 효과적으로 표현할 수 있는 장점이 있다.
또한, 기본 감정뿐만 아니라 복합적이고 애매한 감정을 인식할 수 있으므로, 좁게는 채팅, 화상통화, UI(User Interface)/(User eXperience), 모바일 분야에 접목하여 자신이나 상대방의 다양한 얼굴 감정 표현에 이용할 수 있으며, 더욱이 애매하고 복합적인 얼굴 감정을 인식하는 기능을 탑재하고자 하는 분야 예컨대, 로보틱스, 바이오, 심리, 의료 등의 다양한 분야의 장치나 시스템에 효율적으로 응용될 수 있다.
도 1은 본 발명의 일실시예에 따른 사용자 얼굴의 복합 다중 감정 인식 방법(이하, 간략히 "복합 감정 인식 방법"이라 함)에 대한 흐름도이다.
도 2는 도 1의 복합 감정 인식 방법에 입력되는 사용자 얼굴을 포함한 영상의 예시도이다.
도 3은 도 1의 복합 감정 인식 방법에 있어서 도 2의 영상에서 탐색한 사용자 얼굴을 토대로 생성한 AAM(Active Appearance Model)의 예시도이다.
도 4는 도 1의 복합 감정 인식 방법에 있어서 얼굴 감정의 분류에 사용된 주요 각도와 연결 포인트들에 대한 예시도이다.
도 5는 도 1의 복합 감정 인식 방법에 있어서 5개의 기본 감정에 대한 전형적인 차이를 이용하여 얼굴 표정을 분석한 결과를 보여주는 예시도이다.
도 6a 내지 도 6l은 도 1의 복합 감정 인식 방법에 따른 복합 감정 인식 결과에 대한 예시도들이다.
도 7은 본 발명의 다른 실시예에 따른 사용자 얼굴의 복합 다중 감정 인식 시스템(이하, 간략히 "복합 감정 인식 시스템"이라 함)에 대한 블록도이다.
도 8은 본 발명의 또 다른 실시예에 따른 복합 감정 인식 시스템에 대한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 아니하는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 명세서 전체에서 단말(terminal)은 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet) PC, 무선전화기(wireless phone), 모바일폰(mobile phone), 스마트폰(smart phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 오디오 레코더/플레이어(digital audio recorder/player), 디지털 비디오 레코더/플레이어(digital video recorder/player) 등의 형태를 가질 수 있다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
도 1은 본 발명의 일실시예에 따른 사용자 얼굴의 복합 다중 감정 인식 방법(이하, 간략히 "복합 감정 인식 방법"이라 함)에 대한 흐름도이다. 도 2는 도 1의 복합 감정 인식 방법에 입력되는 사용자 얼굴을 포함한 영상의 예시도이다. 도 3은 도 1의 복합 감정 인식 방법에서 도 2의 영상에서 탐색한 사용자 얼굴상에 생성한 AAM(Active Appearance Model)의 예시도이다. 도 4는 도 1의 복합 감정 인식 방법에 있어서 얼굴 감정의 분류에 사용된 주요 각도와 연결 포인트들에 대한 예시도이다. 그리고, 도 5는 도 1의 복합 감정 인식 방법에 있어서 5개의 기본 감정 즉, 기쁜(happy), 슬픔(sad), 화남(angry), 놀람(surprise) 및 보통(normal 또는 neutral)에 대한 전형적인 차이를 이용하여 얼굴 표정을 분석한 결과를 보여주는 예시도이다.
본 실시예에 따른 복합 감정 인식 방법은, 인간 얼굴 표정에 대한 특징 랜드마크들 혹은 랜드마크 포인트들의 모든 변화와 움직임을 효과적으로 추출하고 이를 바탕으로 애매하고 복합한 얼굴 감정을 인식하도록 구성된다. 이를 위해 복합 감정 인식 방법을 수행하는 시스템 혹은 장치는 두 개의 주요 작업을 수행할 수 있다. 첫 번째 주요 작업은 초기 입력(입력 영상)으로부터 얼굴 영역을 검출하고 특징점을 추출하는 것이며, 두 번째 주요 작업은 감정을 표현하는데 특징적으로 관련된 얼굴의 특징을 분류하고 검증하는 것이다.
즉, 첫 번째 주요 작업은 최적화된 AAM을 이용하여 얼굴 영역을 검출하고 특징점을 추출하도록 구현될 수 있으며, 두 번째 주요 작업은 k-NN(k-Nearest Neighbors) 분류기를 통해 분류된 표정 데이터에서 공헌도(Contribution Level)를 측정하고 이러한 얼굴 감정을 연속적으로 인식하여 복합 다중 감정을 표현하도록 구현될 수 있다.
도 1을 참조하여 좀더 구체적으로 설명하면, 복합 다중 감정 인식 방법을 구현하는 시스템은 입력 영상에서 얼굴 영역을 탐색한다(S11). 입력 영상은 이미지 혹은 사진이거나 동영상에 포함된 어느 하나의 이미지일 수 있다.
일례로, 입력 영상에서 탐색된 얼굴 영역에는 도 2에 도시한 바와 같이 눈썹(4), 눈, 코, 귀, 입술(6), 얼굴 구조(8) 등을 포함하는 얼굴 이미지(2)가 포함될 수 있다. 도 2에서 R1은 두 눈썹 사이의 미간을, R2와 R3은 각 눈썹의 바깥쪽 끝 부분을 각각 지칭한다.
얼굴 영역의 탐색 후에 시스템은 얼굴 탐색 결과에 얼굴이 존재하는지를 판단할 수 있다(S12). 판단 결과, 얼굴이 존재하지 않으면 얼굴 영역 탐색 단계(S11)로 되돌아갈 수 있다.
한편, 얼굴 탐색 결과, 얼굴 영역이 존재하면, 시스템은 탐색된 얼굴 영역에 대하여 AAM(Active Appearance Model)을 생성한다(S13).
여기서, 액티브 외관 모델(Active Appearance Model, AAM)은 통계 모델에 매칭되는 템플릿을 이용하는 컴퓨터 비전 알고리즘의 일종이다. 통계 모델에 매칭되는 템플릿은 이미지 내 객체의 형상과 외관을 정의하는 랜드마크 포인트들을 자동 배치함으로써 얼굴 특징의 형상과 외관을 작성한 것을 지칭한다. AAM은 특징점 위치 정보를 모델링한 형상과 픽셀 정보를 모델링한 텍스처로 구성되므로, 이미지 텍스처의 매칭 성능을 높일 수 있고, 얼굴 움직임을 추적하는데 있어서 선택적 액티브 형상 모델(Active Shape Model, ASM)보다 더 강인한 방안이 될 수 있다.
본 실시예에서 액티브 외관 모델(Active Appearance Model)은 좁은 의미에서 AAM 기반의 컴퓨터 비전 알고리즘 자체를 지칭하나, 넓은 의미에서는 AAM 기반의 컴퓨터 비전 알고리즘에 따라 이미지를 획득하거나 처리하거나 분석하거나 이해하는 작업, 작업영역(field) 혹은 이 작업에 의한 결과물을 지칭할 수 있다.
일례로, AAM 생성에 의하면, 도 3에 도시한 바와 같이 얼굴 이미지(2)에 대한 들로니 삼각분할 메쉬(Delaunay triangulation Mesh)(9)를 생성할 수 있다. 들로니 삼각분할 메쉬(9)는 65개 혹은 66개의 랜드마크 포인트들(9a)을 가진 평균 형상 모델에 대응할 수 있다. 각 랜드마크 포인트(9a)는 대응하는 위치에 일련번호로 표시될 수 있다.
생성된 AAM을 A(x)라 할 때, A(x)의 텍스처 벡터들에 PCA(Principal Components Analysis)를 적용하면 다음의 [수학식 1]과 같다.
Figure 112015011810258-pat00001
여기서, A0는 평균 외관 벡터를 나타내고, λi는 외관 파라미터이며, Ai(x)는 아핀 워핑(affine warping)을 통해 통합된 외관 벡터이다. 아핀(affine) 변환은 한 벡터 공간에서 다른 벡터공간으로 대응시키는 변환을 지칭하고, 워핑(warping) 변환은 영상을 특정 규칙에 따라 입력하거나, 변형하거나, 복원 영상을 재추출하는 과정을 포함하는 것으로 뒤틀린 얼굴 영상을 바로 펴는 변환을 지칭할 수 있다.
형상 모델과 통계 모델을 이용한 전술한 PCA 적용 과정을 좀더 상세히 설명하면 다음과 같다.
형상 모델(Shape Model)은 기하학적 정보의 한 형태로서 이미지 클래스 전체에서 안정적이다. 수학적으로 k 차원의 공간에서 n개의 랜드마크 포인트들에 의해 정의되는 형상은, nk 벡터들에 의해 표현된다. 2차원 이미지에서, n개의 랜드마크들은 2n개의 벡터들을 정의하며, 이를 나타내면 다음의 [수학식 2]와 같다.
Figure 112015011810258-pat00002
통계적 타당성을 얻기 위해, 모든 형상은 동일한 참조 공간에서 표현되는 것이 중요하다. 위치, 스케일 및 회전의 영향을 생략함으로써, 일반적 프로크루스테스 분석(generalized procrustes analysis, GPA)을 수행하여 공통 프레임 내에 모든 형상을 배치할 수 있다. GPA는 평균 모양을 이용하여 순차적으로 정렬되는 모양들의 쌍들로 구성되며, 이것은 반복되는 동안에 평균 모양에 더 이상의 큰 변화가 없을 때까지 반복 수행된다. 그런 다음, 정렬된 형상은 하기의 [수학식 3]을 이용하여 다시 계산된다.
Figure 112015011810258-pat00003
다음, PCA(Principal Components Analysis)를 통해 최대 분산을 가진 데이터의 방향을 검색하고 그 방향으로 데이터를 투영하여 데이터의 차원을 감소시킨다. 이렇게 데이터 차원이 감소된 데이터가 표정 데이터의 기초로서 제공되면, 시스템은 평균값과 직교 선형 변환 값과의 합으로서 각 포인트 xi를 계산할 수 있다. 이를 나타내면 하기의 [수학식 4]와 같다.
Figure 112015011810258-pat00004
여기에서,
Figure 112015011810258-pat00005
는 평균 형상 벡터이고, φi는 형상 파라미터를 나타낸다.
각 포인트 xi의 계산을 위해, 시스템은 복수의 랜드마크 포인트들을 이용할 수 있다(도 3 참조).
다시 도 1을 참조하면, 시스템은 생성된 모델(AAM)을 사용자의 얼굴에 피팅(fitting)한다(S14). 피팅 단계는 실시간 수행될 수 있으며, 구현에 따라서 사용자 얼굴의 미간과 눈썹 양끝(도 2의 R1 내지 R3 참조)을 기준으로 수행될 수 있다.
또한, AAM 피팅(Fitting) 과정에 있어서, 생성 모델의 파라미터들은 모델을 타겟 이미지에 일치시키기 위한 추정에 이용될 수 있다. 피팅 과정은 외관 모델과 타겟 이미지 사이의 모든 에러 측정값을 최소화하도록 수행될 수 있다. 그리고, 시스템은 모든 위치들의 오차제곱합(Sum of Squared Error, SSE) a를 최소화하는 파라미터 p를 찾는 방식으로 AAM 피팅을 수행할 수 있다. 파라미터 p를 찾는 수식을 예를 들어 나타내면 하기의 [수학식 5]와 같다.
Figure 112015011810258-pat00006
여기서, A0의 원소인 위치 x에서의 오차 e는 하기의 [수학식 6]과 같이 계산될 수 있다.
Figure 112015011810258-pat00007
여기에서, W(x,p)는 비선형 워핑 함수(non-linear warping function)이고, αλ는 텍스처의 변화를 나타낸다.
AAM 피팅을 반복 수행하는 반복 스타일은 파라미터 p를 추정하는데 사용될 수 있다. 즉, 현재 추정된 파라미터가 p라고 가정하면, 증가형의 업데이트된 파라미터는 각각의 반복에서 Δp로 나타낼 수 있다. 업데이트는 이전 추정치를 갖고 계산될 수 있으며, 간단히 p ← p+Δp로 표현할 수 있다.
하기의 [수학식 7]은 Δp에 대한 최소화를 나타낸다. 그리고, 오차가 미리 지정된 값보다 작거나 더 이상의 변화가 없을 때, 시스템은 AAM 피팅 과정의 반복을 중단할 수 있다.
Figure 112015011810258-pat00008
다시 도 1을 참조하면, 모델 피팅 후에 시스템은 사용자 얼굴에 표정 변화가 있는지를 판단한다(S15). 표정 변화가 없으면, 시스템은 모델 피팅 단계(S14)로 되돌아갈 수 있다.
표정 변화의 인식을 위해 시스템은 미리 설정된 얼굴 영상 인식 주기에 있어서 현재의 사용자 얼굴 영상과 현재시간의 바로 전에 획득한 사용자 얼굴 영상에 대한 들로니 삼각분할 메쉬(이하, 간략히 메쉬라 함) 상에서의 변화나 차이를 토대로 사용자 얼굴에 대한 표정 변화를 판단할 수 있다.
한편, 사용자 얼굴에 표정 변화가 있으면, 시스템은 표정 데이터를 분류(감정 분류)하고, 분류 기준에 따른 메쉬 변화량을 계산한다(S16).
감정 분류(Emotion Classification) 과정에서는 얼굴 감정의 식별을 위해 미리 추정된 랜드마크 위치들과 비디오 프레임에 할당된 직교좌표 상의 랜드마크 포인트들의 모든 변화 정보가 요구된다. 랜드마크 위치들은 AAM에 의해 제공될 수 있다.
그리고, 랜드마크 포인트들의 모든 변화 정보를 용이하게 획득하기 위해 본 실시예에서는 얼굴 감정을 5개의 기본 형태 즉, 기쁨(happy), 슬픔(sad), 놀람(surprise), 화남(angry) 및 보통(neutral)으로 분류한다. 통상 특정 감정과 연관된 얼굴 표정은 얼굴 특징에서의 서로 다른 특징들과 변화들에 의해 나타난다. 또한, 본 실시예에서는 감정을 표현하는데 공통적으로 나타나는 하나 이상의 특징들에서의 변화의 조합을 토대로 감정들의 타입을 구별하도록 구현된다. 하나 이상의 특징들은 눈, 눈썹, 미간(center of eyebrows), 입, 입술 등을 포함할 수 있다. 이러한 키 영역들에는 가장 높은 가중치가 할당될 수 있다.
본 실시예에 따른 복합 다중 감정 인식 방법은 입력 영상 중 현재의 프레임과 이전의 프레임 사이에 발생하는 랜드마크들의 변화뿐 아니라 다양한 랜드마크 포인트들 사이의 연관성 혹은 상관관계를 이용한다. 분류 기준의 성립을 위해 시스템은 여러 가지 변화들, 예컨대 두 랜드마크들 사이의 거리, 세 특징점들 간의 각도 및 메쉬 내 삼각형들의 면적을 계산할 수 있다.
감정들의 각 특징은 감정에 대한 소정 규칙을 가진다. 기쁨 감정은 사용자들에 공통적으로 눈썹에서 작은 변화를 갖고 입의 코너들이 올라가며 입술이 펴지는 형태를 가진다. 화남 감정은 입 모양의 변화가 사람마다 다르지만, 사용자들에 공통적으로 얼굴을 찌푸리는 것과 같은 소정의 특징들을 가진다. 슬픔 감정은 화남 감정과 유사하나, 사용자들에 공통적으로 화난 것보다 찌푸림이 작고, 입의 코너가 내려간다. 놀람 감정은 사용자들에 공통적으로 얼굴 영역에서 변화가 가장 크며 눈썹이 올라가고 게다가 입이 열린다.
이러한 감정의 기준 성립을 위해 본 실시예에서는 감정 분류에 대한 적절한 규칙을 정의하고, 얼굴 감정의 변화에 의한 특징점들의 변화와 움직임을 평가한다. 아래의 표 1은 얼굴 감정들에 대한 랜드마크 포인트들의 변화와 움직임의 기준의 일례를 보여준다.
Figure 112015011810258-pat00009
얼굴 자세의 변화에 의한 각 랜드마크의 차이에 따른 에러를 최소화하기 위하여 모든 포인트는 코의 중앙을 향하도록 재배열될 수 있다. 단, 얼굴 표정은 변하지 않도록 표시된다. 추정된 랜드마크들의 위치와 구성은 사용자에 따라 차이가 있으므로, 시스템은 카메라 뷰나 입력 영상으로부터 보통 표정을 먼저 입력받고 보통 표정에서 초기 특징점을 추출할 수 있다.
그런 다음, 시스템은 보통 감정에서의 얼굴 표정(즉, 초기 추정 포인트들)의 변화를 모든 프레임의 얼굴에서 측정할 수 있다. 즉 시스템은 모든 프레임의 얼굴에서 분류 기준에 따른 메쉬 변화량을 계산할 수 있다(S16).
참조를 위해, 전술한 5개의 기본 감정에 대한 전형적인 차이를 이용하여 얼굴 표정을 분석한 결과를 나타내면 도 5와 같다. 다중 감정 인식에서의 중요한 역할을 담당하는 독립적인 특징은 앞서 제안한 얼굴 표정의 변화량 즉, 메쉬 변화량에 의해 구성될 수 있다.
도 5에서 ∠p31,p4,p48과, ∠p66,p21,p22와, ∠p31,p63,p8은 각각 세 점이 이루는 각도를 나타내고, p64.y-p61.y)는 두 점 간의 거리를 나타낸다.
전술한 메쉬 변화량의 계산은 퍼지 k-NN(Nearest Neighbor)에 기초한 분류기를 이용하여 수행될 수 있다. k-NN 알고리즘은 특징 공간에서 k개의 가장 가까운 훈련 데이터를 토대로 객체의 값이나 클래스 회원(class memberships)을 예상하는 분류와 회귀(regression)에 대한 비 모수적 방법(non-parametric method)이다. 퍼지 k-NN 분류기는 NN 분류기가 라벨 샘플들의 사전 처리를 요구함에도 불구하고 샘플 벡터를 특정 클래스에 할당하기보다는 오히려 클래스 회원을 샘플 벡터에 할당할 수 있다.
다시 도 1을 참조하면, 분류 기준에 따른 메쉬 변화량을 계산한 후, 시스템은 마할라노비스 거리 표정 데이터를 비교한다(S17).
본 실시예에서는 5개의 기본 감정들의 조합으로 표현되는 애매한 감정을 인식하는 개량된 k-NN 분류를 제공한다. 개량된 k-NN 분류기는 각 감정 데이터와 입력 데이터 사이의 공헌도(혹은 상관 관계)를 측정할 수 있다. 이를 토대로 시스템은, 각 클래스의 공헌도를 결정하기 위하여, k 영역의 범위에서 공헌도에 따라 마할라노비스 거리로 표현되는 각 이웃들의 공헌에 대하여 가중치가 적용된 거리를 계산할 수 있다. 인식된 감정은 제1, 제2 및 제3 레벨로 분류될 수 있다. 그리고, 시스템은 앞서 분류된 포인트들로부터 이들 상호 간의 거리에 의해 각각의 이웃하는 포인트의 가중치가 부여된 공헌 값을 계산할 수 있다. 이를 나타내면, 하기의 수학식 8과 같다.
Figure 112015011810258-pat00010
여기서, n은 클래스들의 개수이고, ∑c는 c번째 클래스의 공분산 매트릭스이고, mc는 c번째 클래스의 평균 벡터이다.
다시 도 1을 참조하면, 전술한 공헌 값의 계산 후에, 시스템은 감정 결정을 수행한다(S18). 감정 결정은 가중치가 부여된 공헌 값을 최대 3개까지 조합된 감정들로 출력하는 것을 포함할 수 있다. 물론, 각 감정의 조합 레벨의 각 감정은 공헌 값의 백분율로 표시될 수 있다.
전술한 감정 결정에 있어서, 시스템은 단일 감정인지를 판단할 수 있다(S19). 그리고, 시스템은 단일 감정이면 해당 감정의 공헌 값을 그대로 해당 감정의 강도로 결정하고(S21), 감정 인식 결과를 표현할 수 있다(S23).
한편, 상기 단계(S19)에서의 판단 결과, 단일 감정이 아니면, 시스템은 복합 감정으로 인식하고 각 감정의 공헌 값을 조합한 복합 감정 강도를 결정하고(S22), 감정 인식 결과를 표현할 수 있다(S23).
본 실시예의 복합 감정 인식 방법은 모바일 비디오 장면(sequence)을 입력 영상으로 하여 감정 인식 및 감정 표현을 수행될 수 있다. 즉, 복합 감정 인식 방법은 아이폰 5 등의 모바일 장치에서 수행될 수 있다. 아이폰 5에서의 실험 예를 간략히 설명하면 다음과 같다.
본 실시예에 따른 복합 다중 감정 인식 방법의 성능 실험에서는 C 프로그래밍 언어에 스몰토크 스타일의 메시지 구문을 추가한 객체 지향 언어인 오브젝티브-C와 통합 개발 환경 혹은 개발 툴의 일종인 Xcode를 이용하였다. 복합 다중 감정 인식 방법의 성능 평가는 5가지 타입의 얼굴 감정 즉, 기쁨, 슬픔, 화남, 놀람 및 보통에 대하여 수행되었다. 실험의 편의를 위해 얼굴 표정은 카메라 뷰의 정면으로만 제한하였다.
실험은 전술한 오브젝티브-C와 Xcode로 구동되는 시스템에서 다음의 단계들을 수행하여 진행되었다. 첫째, 현재의 AAM 피팅 상의 표정 형상 벡터들을 이전 프레임의 AAM 피팅 상의 표정 형상 벡터들과 비교하였다. 표정 형상 벡터들은 두 눈과 눈썹 위의 특징점들이나 입 또는 입술 위의 특징점들이나 이들 모두를 기준으로 설정될 수 있다. 그런 다음, 랜드마크 포인트들의 움직임을 프로크루스테스 얼라인먼트로 분석하여 추정하였다. 얼굴 특징의 변화를 측정한 후에, 시스템은 각각의 얼굴 감정들에 대하여 평균 형상 벡터들을 계산하였다. 그 후에, 시스템은 각 얼굴 감정에 가중치가 부여된 공헌도(값)를 퍼지 k-NN 분류기를 통해 계산하였다. 그런 다음, 얼굴 감정을 분류하고 가장 가까운 k-노드들을 토대로 얼굴 감정을 인식하였다.
모바일 장치에서 실시한 실험의 감정 인식률을 나타내면 다음의 표 2와 같다.
Figure 112015011810258-pat00011
표 2에 나타낸 바와 같이, 기쁨, 놀람, 슬픔 또는 화남과 같은 특징을 포함하는 감정들이 상대적으로 높은 인식률을 보여준다. 다만, 슬픔은 기본 감정 중에서 70%의 가장 낮은 인식률을 보인다. 복잡한 감정의 인식률은 평균 약 45%를 보여준다. 이와 같이, 기쁨과 슬픔(happy-to-sad) 및 놀람과 슬픔(surprise-to sad)과 같은 무관한 감정들은 가장 낮은 인식률을 나타냄을 알 수 있다.
도 6a 내지 도 6l은 도 1의 복합 감정 인식 방법에 따른 복합 감정 인식 결과에 대한 예시도들이다.
도 6a에 도시한 감정 인식 결과는 화남에 대한 공헌 값이 100%인 완전 화난 감정을 나타내고, 도 6b에 도시한 감정 인식 결과는 화남의 공헌 값이 85.0%이고 보통(normal)의 공헌 값이 14.0%이며 5가지 감정 중 나머지 감정들의 공헌 값이 1.0%인 상당히 화난 감정을 나타내고, 도 6c에 도시한 감정 인식 결과는 화남의 공헌 값이 26.0%이고 놀람의 공헌 값이 71.0%이며 나머지 감정들의 공헌 값이 3.0%인 많이 놀라고 약간 화난 감정을 나타낸다.
또한, 도 6d에 도시한 감정 인식 결과는 슬픔에 대한 공헌 값이 100%인 완전 슬픔 감정을 나타내고, 도 6e에 도시한 감정 인식 결과는 슬픔의 공헌 값이 14.0%이고 보통(normal)의 공헌 값이 85.0%이며 나머지 감정들의 공헌 값이 1.0%인 약간 슬픈 보통 감정을 나타내고, 도 6f에 도시한 감정 인식 결과는 슬픔의 공헌 값이 100.0%인 완전 슬픈 보통 감정을 나타낸다.
또한, 도 6g에 도시한 감정 인식 결과는 놀람에 대한 공헌 값이 100%인 완전 놀람 감정을 나타내고, 도 6h에 도시한 감정 인식 결과는 놀람의 공헌 값이 14.0%이고 보통(normal)의 공헌 값이 85.0%이며 나머지 감정들의 공헌 값이 1.0%인 약간 놀란 보통 감정을 나타내고, 도 6i에 도시한 감정 인식 결과는 화남의 공헌 값이 26.0%이고 놀람의 공헌 값이 71.0%이며 나머지 감정들의 공헌 값이 3.0%인 약간 화나고 많이 놀란 감정을 나타낸다.
또한, 도 6j에 도시한 감정 인식 결과는 기쁨에 대한 공헌 값이 100%인 완전 기쁨 감정을 나타내고, 도 6k에 도시한 감정 인식 결과는 기쁨의 공헌 값이 57.0%이고 놀람의 공헌 값이 42.0%이며 나머지 감정들의 공헌 값이 1.0%인 기쁘고 놀란 감정을 나타내며, 도 6l에 도시한 감정 인식 결과는 기쁨의 공헌 값이 14.0%이고 화남의 공헌 값이 85.0%이며 나머지 감정들의 공헌 값이 1.0%인 약간 기쁘지만 많이 화난 감정을 나타낸다.
본 실시예에 의하면, 시스템은 사용자가 다양한 표정과 복합적인 감정을 나타내는 표정을 지었을 때 기본 5가지의 감정들의 조합으로 기본 감정뿐만 아니라 애매하고 복합적인 감정을 인식할 수 있다. 이러한 복합 감정 인식 방법에 의하면, 아바타, 감정 효과 애니메이션, 감정의 강도로 표현되는 시각적인 결과 화면 등에서 사용자의 감정을 쉽고 빠르게 인식하고 인식 결과를 표현할 수 있다.
도 7은 본 발명의 다른 실시예에 따른 사용자 얼굴의 복합 다중 감정 인식 시스템(이하, 간략히 "복합 감정 인식 시스템"이라 함)에 대한 블록도이다.
도 7은 참조하면, 본 실시예에 따른 복합 감정 인식 시스템(10)은 전술한 복합 감정 인식 방법을 수행하는 장치로서, 프로세서(11) 및 메모리 시스템(12)을 포함할 수 있다. 또한, 복합 감정 인식 시스템(10)은 구현에 따라서 네트워크 인터페이스(13)를 포함할 수 있고, 또한 디스플레이 장치(14)(이하, 간략히 디스플레이라 함)와 인터페이스(15)를 더 포함할 수 있다.
프로세서(11)는 메모리 시스템(12)에 연결되어 메모리 시스템(12)에 저장된 프로그램을 수행할 수 있다. 프로그램은 앞서 설명한 본 실시예의 복합 감정 인식 방법을 구현한 것일 수 있다. 즉, 프로세서(11)는 얼굴 인식을 위한 영상 처리를 수행할 수 있는 단말이나 컴퓨터 장치에 탑재되어 입력 영상 내 사용자 얼굴에 대한 감정을 분석하고 인식하도록 동작할 수 있다.
좀더 구체적으로 설명하면, 프로세서(11)는 모바일 장치 등의 시스템(10)에 구비된 카메라(인터페이스에 포함될 수 있음)의 입력 영상에서 사용자의 얼굴 영역을 탐색하고, 사용자 얼굴이 존재하면 미리 훈련된 AAM(Active Appearance Model)의 파라미터들을 이용하여 다수의 랜드마크로 이루어진 평균 형상 모델(Mean Shape Model, MSD)을 생성하고, 생성된 모델을 사용자의 얼굴에 실시간 피팅할 수 있다.
또한 프로세서(11)는 표정 변화에 따른 사용자 얼굴의 기하학적 변화량을 구하기 위해, 표정 변화에도 실질적으로 변화가 없는 미간점과 눈썹 양끝의 메쉬를 생성한 후에 메쉬상에서의 변화에 대응하는 분류 기준에 따른 변화량을 가지고 눈썹의 변화량을 산출하고, 입꼬리, 입모양, 전체 얼굴 구조 등의 변화량으로 k-NN 분류기 내의 데이터베이스의 데이터들과 마할라노비스 거리에 따른 유사도를 측정한 후에 1차적으로 제1 감정을 결정한다.
또한, 프로세서(11)는 데이터와의 유사도에 따른 빈도수를 측정하여 제2 감정과 제3 감정을 차례로 결정할 수 있다. 프로세서(11)는 애매한 표정에서 입력 데이터들을 데이터베이스 내의 유사 표정들 간의 빈도수에 의해 기본 5가지 감정들의 조합으로 나타내고, 각 감정의 상대적인 강도에 의해 조합된 복합 다중 감정을 표현할 수 있다.
전술한 프로세서(11)는 액티브 외관 모델 파라미터 추출 모듈, 평균 형상 모델 생성 모듈, 피팅 모듈, 메쉬 생성 모듈, 변화량 산출 모듈, 분류기 모듈, 유사도 측정 모듈, 그리고 감정과 감정 강도를 결정하는 감정 결정 모듈 등을 포함할 수 있다. 프로세서(11)는 전술한 모듈들이 탑재된 하나 이상의 프로세서를 포함할 수 있다.
또한, 프로세서(11)는 마이크로 프로세서, 마이크로 컨트롤러, 그래픽스 프로세서, 디지털신호처리 프로세서와 같은 임의의 타입의 계산 회로 또는 임의의 다른 타입의 프로세싱 회로를 포함할 수 있다. 또한, 프로세서(11)는 범용 또는 프로그램 가능 논리 소자 또는 어레이, 애플리케이션 특정 집적 회로, 단일 칩 컴퓨터, 스마트 카드 등과 같은 임베디드 컨트롤러를 포함할 수 있다.
프로세서(11)가 마이크로 프로세서, 마이크로 컨트롤러, 그래픽스 프로세서, 또는 디지털신호처리 프로세서인 경우, 프로세서(11)는 계산을 수행하는 연산장치(Arithmetic Logic Unit, ALU), 데이터 및 명령어의 일시적인 저장을 위한 레지스터, 및 미들웨어 간 인터페이스 장치를 제어하거나 관리하기 위한 컨트롤러를 구비할 수 있다.
또한, 전술한 모듈들 중 적어도 어느 하나가 응용프로그램 형태로 프로세서(11)에 탑재되는 경우, 프로세서(11)는 하이레벨 명령어 처리부와 모듈 제어부를 포함할 수 있다. 모듈 제어부는 매핑부와 모듈 인터페이스부를 포함할 수 있고, 모듈 제어부를 통해 각 모듈을 제어할 수 있다. 여기서, 하이레벨 명령어 처리부는 API(Application Programming Interface)를 통해 입력되는 신호 또는 명령어를 변환하여 하이레벨 명령어를 출력하고, 매핑부는 하이레벨 명령어를 각 모듈에서 처리할 수 있는 디바이스 레벨 명령어로 매핑하며, 모듈 인터페이스부는 디바이스 레벨 명령어를 해당 모듈에 전달할 수 있다.
메모리 시스템(12)은 RAM(Random Access Memory)이나 ROM(Read Only Memory) 같은 휘발성 메모리나 비휘발성 메모리 형태의 저장 매체와, 플로피 디스크, 하드 디스크, 테이프, CD-ROM, 플래시 메모리 등의 장기(long-term) 저장 매체를 포함할 수 있다. 또한, 메모리 시스템(12)은 구현에 따라서 본 실시예의 복합 감정 인식 알고리즘을 수행하는 프로그램이나 데이터 혹은 명령어의 집합 등을 저장할 수 있다.
네트워크 인터페이스(13)는 네트워크에 연결되어 네트워크상의 다른 통신 장치와 데이터 통신을 수행할 수 있다. 네트워크 인터페이스(13)를 이용하면, 본 실시예의 복합 감정 인식 시스템(10)은 복합 감정 인식 방법의 단계들을 수행하기 위한 데이터, 명령 혹은 신호를 다운로드 하거나 실시간 수신하여 사용자의 애매하고 복합적인 감정 인식 동작을 수행할 수 있다. 전술한 네트워크 인터페이스(13)는 무선 네트워크, 유선 네트워크, 위성망, 전력선통신 등에서 선택되는 1종 이상의 단일 혹은 조합 네트워크에서 데이터 통신을 수행하기 위한 1개 이상의 통신 프로토콜을 지원하도록 구현될 수 있다.
디스플레이(14)는 프로세서(11)에 연결되어 프로세서(11)의 텍스처 필터링 과정이나 결과 영상을 화면에 표시하는 수단이나 이러한 수단에 상응하는 기능을 수행하는 구성부를 지칭한다. 디스플레이(14)는 프로세서(11)에 직접 연결될 수 있으나, 이에 한정되지 않고, 네트워크 인터페이스(13)를 통해 원격지에 연결될 수 있다. 디스플레이(14)에는 LCD(Liquid crystal display) 장치, OLED(Organic light emitting diode) 표시장치, PDP(Plasma display panel) 장치, 모뎀이 탑재된 브라운관 TV 등이 사용될 수 있다.
인터페이스(15)는 프로세서(11)에 연결되어 복합 감정 인식 시스템(10)과 외부(외부의 사용자 포함) 사이의 의사소통을 위한 수단이나 이러한 수단에 상응하는 기능을 수행하는 장치를 포함할 수 있다. 인터페이스(15)는 사용자 인터페이스를 포함할 수 있다. 예를 들어, 인터페이스(15)는 입력 장치로서 키보드, 마우스, 터치스크린, 터치 패널, 마이크, 카메라 등에서 선택되는 적어도 하나 이상을 포함할 수 있고, 출력 장치로서 스피커, 조명 수단, 표시장치 등에서 선택되는 적어도 하나 이상을 포함할 수 있다.
본 실시예에 의하면, 기존에 존재하는 정의된 감정뿐만 아니라 분류 기준과 k-NN 분류기를 발전시켜 인간이 표현할 수 있는 애매하고 복합적인 감정을 쉽고 빠르게 인식할 수 있는 복합 감정 인식 방법을 제공할 수 있다. 특히, 본 실시예의 복합 감정 인식 방법이나 시스템은 간단한 구성에 의해 모바일 환경에 최적화된 감정 인식 방법으로서 손쉽게 활용될 수 있는 장점이 있다.
도 8은 본 발명의 또 다른 실시예에 따른 복합 감정 인식 시스템에 대한 블록도이다.
도 8을 참조하면, 본 실시예에 따른 복합 감정 인식 시스템(11a)은, 탐색부(111), 모델 생성부(112), 피팅부(113), 메쉬 생성부(114), 변화량 산출부(115), 분류부(116), 유사도 측정부(117) 및 감정 결정부 또는 감정 강도 결정부(118)를 포함할 수 있다. 복합 감정 인식 시스템(11a)은 도 7의 프로세서(11)로 구현될 수 있으며, 그 경우 탐색부(111), 모델 생성부(112), 피팅부(113), 메쉬 생성부(114), 변화량 산출부(115), 분류부(116), 유사도 측정부(117) 및 감정 강도 결정부(118)는 기재된 순서대로 액티브 외관 모델 파라미터 추출 모듈, 평균 형상 모델 생성 모듈, 피팅 모듈, 메쉬 생성 모듈, 변화량 산출 모듈, 분류기 모듈, 유사도 측정 모듈 및 감정 결정 모듈을 각각 포함하거나 각 모듈에 대응될 수 있다.
각 구성요소를 좀더 구체적으로 설명하면, 탐색부(111)는 입력부(110)를 통해 입력되는 입력 영상에서 사용자의 얼굴 영역을 탐색한다. 입력 영상은 이미지이거나 동영상 내 특정 프레임일 수 있다. 입력부(110)는 카메라의 출력단에 연결되는 입력 포트 등의 인터페이스일 수 있다.
모델 생성부(112)는 평균 형상 모델을 생성한다. 모델 생성부(112)는 미리 훈련된 액티브 외관 모델(Active Appearance Model, AAM)의 파라미터들을 이용하여 복수의 랜드마크로 이루어진 모델을 생성할 수 있다.
피팅부(113)는 평균 형상 모델을 사용자의 얼굴에 피팅한다. 피팅부(113)는 평균 형상 모델을 사용자의 얼굴에 실시간 피팅할 수 있다.
메쉬 생성부(114)는 미리 설정된 기준점을 토대로 얼굴 영역의 적어도 일부에 대한 메쉬를 구한다. 메쉬는 들로니 삼각분할 메쉬를 포함할 수 있다. 또한, 메쉬 생성부(114)는 사용자의 미간점, 눈썹 양끝, 또는 이들 모두를 포함하는 기준점을 토대로 메쉬를 생성하거나, 구현에 따라서 사용자의 양쪽 눈과 눈썹 및 입술에 대한 메쉬를 생성할 수 있다.
변화량 산출부(115)는 메쉬로 한정된 관심 영역에서의 객체 변화량을 산출한다. 관심 영역이나 관심 객체는 사용자의 눈썹, 눈, 입술, 입꼬리, 입모양, 얼굴 구조 또는 이들의 조합을 포함할 수 있다.
분류부(116)는 메쉬 변화량을 갖는 데이터베이스 내의 데이터(표정 데이터)를 K-근접이웃(K-Nearest Neighbor, K-NN) 기반으로 분류한다. 분류부(116)는 메쉬 변화량을 갖는 표정 데이터의 마할라노비스 거리(Mahalanobis distance)를 구하여 표정 데이터들을 비교할 수 있다.
유사도 측정부(117)는 마할라노비스 거리 등을 토대로 유사도를 측정한다.
감정 강도 결정부(118)는 유사도에 따른 데이터베이스 내의 미리 설정된 감성 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정한다. 감정 강도 결정부(118)는 마할라노비스 거리에 따른 유사도를 측정하여 제1 감정을 결정하고, 사용자의 표정 변화에 따른 마할라노비스 거리 표정 데이터를 비교하여 제2 감정을 결정할 수 있다. 그리고, 감정 강도 결정부(118)는 제1 감정과 제2 감정의 빈도수에 따라 각 감정의 강도를 결정할 수 있다.
또한, 본 실시예에 따른 복합 감정 인식 시스템(11a)은 복수 감정들의 강도를 토대로 사용자의 애매하고 복합적인 감정 인식에 대한 결과를 출력하는 출력부(119)를 더 포함할 수 있다. 출력부(119)는 도 7의 인터페이스의 출력장치나 네트워크 인터페이스의 적어도 일부에 대응할 수 있다.
본 실시예에 의하면, 사용자의 얼굴 표정 변화에 따른 얼굴의 기하학적 변화를 기본 5개의 감정으로 분류한 분류 기준에 따라 표정의 변화량으로 산출하고, k-NN 알고리즘을 변형하여 복수 감정의 조합으로 수치화함으로써 사용자의 애매하고 복합적인 감정을 인식하고 인식된 감정을 출력할 수 있다.
한편, 전술한 실시예에 있어서, 복합 감정 인식 시스템(11a)의 구성요소들(111 내지 118 포함)은 모바일 장치나 컴퓨터 장치의 프로세서에 탑재되는 모듈이나 기능부일 수 있으나, 이에 한정되지 않는다. 전술한 구성요소들은 이들이 수행하는 일련의 기능(복합 다중 감정 인식 방법)을 구현하기 위한 소프트웨어 형태로 컴퓨터 판독 가능 매체(기록매체)에 저장되거나 혹은 캐리어 형태로 원격지에 전송되어 다양한 컴퓨터 장치에서 동작하도록 구현될 수 있다. 이 경우, 컴퓨터 판독 가능 매체는 네트워크를 통해 연결되는 복수의 컴퓨터 장치나 클라우드 시스템에 결합할 수 있고, 복수의 컴퓨터 장치나 클라우드 시스템 중 적어도 하나 이상은 메모리 시스템에 본 실시예의 복합 다중 감정 인식 방법을 수행하기 위한 프로그램이나 소스 코드 등을 저장할 수 있다.
즉, 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하는 형태로 구현될 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수 있다.
또한, 컴퓨터 판독 가능 매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 하드웨어 장치는 본 발명의 분산 추정 방법을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 복합 감정 인식 시스템
11: 프로세서
12: 메모리 시스템
13: 네트워크 인터페이스
14: 디스플레이
15: 인터페이스(사용자 인터페이스)

Claims (20)

  1. 입력 영상에서 사용자의 얼굴 영역을 탐색하는 단계;
    평균 형상 모델을 생성하는 단계;
    상기 평균 형상 모델을 사용자의 얼굴에 피팅하는 단계;
    미리 설정된 기준점을 토대로 메쉬를 구하는 단계;
    상기 메쉬로 한정된 관심 영역에서의 객체 변화량을 구하는 단계;
    상기 객체 변화량을 토대로 유사도를 측정하는 단계; 및
    상기 유사도에 따른 데이터베이스 내의 미리 설정된 감정 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정하는 단계를 포함하고,
    상기 평균 형상 모델을 사용자의 얼굴에 피팅하는 단계는,
    비선형 워핑 함수 및 텍스처의 변화로 표현되는 상기 평균 형상 모델과 상기 사용자의 얼굴 간의 오차제곱합을 최소화하는 액티브 외관 모델(Active Appearance Model, AAM)의 파라미터들을 산출하는 단계를 포함하는, 사용자 얼굴의 복합 다중 감정 인식 방법.
  2. 청구항 1에 있어서,
    상기 평균 형상 모델을 생성하는 단계는, 상기 액티브 외관 모델의 파라미터들을 이용하여 복수의 랜드마크로 이루어진 모델을 생성하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  3. 청구항 1에 있어서,
    상기 피팅하는 단계는, 상기 평균 형상 모델을 사용자의 얼굴에 실시간 피팅하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  4. 청구항 1에 있어서,
    상기 메쉬를 구하는 단계는, 상기 사용자의 미간점, 눈썹 양끝, 또는 이들 모두를 포함하는 기준점을 토대로 수행되는 사용자 얼굴의 복합 다중 감정 인식 방법.
  5. 청구항 4에 있어서,
    상기 객체 변화량을 구하는 단계는, 상기 사용자의 눈썹, 입꼬리, 입모양, 얼굴 구조 또는 이들의 조합을 포함하는 객체에 대한 메쉬 변화량을 산출하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  6. 청구항 5에 있어서,
    상기 메쉬 변화량을 갖는 데이터베이스 내의 데이터들을 K-근접이웃(K-Nearest Neighbor, K-NN) 기반으로 분류하는 단계를 더 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  7. 청구항 6에 있어서,
    상기 분류하는 단계는, 상기 메쉬 변화량을 갖는 표정 데이터의 마할라노비스 거리(Mahalanobis distance)를 구하고 상기 마할라노비스 거리를 토대로 상기 표정 데이터들을 비교하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  8. 청구항 7에 있어서,
    상기 복수 감정들의 강도를 결정하는 단계는,
    상기 마할라노비스 거리에 따른 유사도를 측정하여 제1 감정을 결정하는 단계;
    상기 사용자의 표정 변화에 따른 상기 입력 영상의 다른 프레임에서 상기 표정 데이터의 마할라노비스 거리의 비교 결과를 토대로 제2 감정을 결정하는 단계; 및
    상기 제1 감정과 상기 제2 감정의 빈도수를 토대로 복합 감정과 복합 감정의 강도를 결정하는 단계를 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  9. 청구항 1에 있어서,
    상기 복수 감정들의 강도를 토대로 상기 사용자의 복합 감정 인식에 대한 결과를 출력하는 단계를 더 포함하는 사용자 얼굴의 복합 다중 감정 인식 방법.
  10. 청구항 1 내지 9 중 어느 한 항의 사용자 얼굴의 복합 다중 감정 인식 방법을 수행하는 위한 프로그램을 기록한 컴퓨터 판독 가능 매체.
  11. 입력 영상에서 사용자의 얼굴 영역을 탐색하는 탐색부;
    평균 형상 모델을 생성하는 모델 생성부;
    상기 평균 형상 모델을 사용자의 얼굴에 피팅하는 피팅부;
    미리 설정된 기준점을 토대로 메쉬를 구하는 메쉬 생성부;
    상기 메쉬로 한정된 관심 영역에서의 객체 변화량을 구하는 변화량 산출부;
    상기 객체 변화량을 토대로 유사도를 측정하는 유사도 측정부; 및
    상기 유사도에 따른 데이터베이스 내의 미리 설정된 감정 표정들 간의 빈도수에 따라 복수 감정들의 강도를 결정하는 감정강도 결정부를 포함하고,
    상기 피팅부는,
    비선형 워핑 함수 및 텍스처의 변화로 표현되는 상기 평균 형상 모델과 상기 사용자의 얼굴 간의 오차제곱합을 최소화하는 액티브 외관 모델(Active Appearance Model, AAM)의 파라미터들을 산출하는, 사용자 얼굴의 복합 다중 감정 인식 시스템.
  12. 청구항 11에 있어서,
    상기 모델 생성부는, 상기 액티브 외관 모델의 파라미터들을 이용하여 복수의 랜드마크로 이루어진 모델을 생성하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  13. 청구항 11에 있어서,
    상기 피팅부는, 상기 평균 형상 모델을 사용자의 얼굴에 실시간 피팅하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  14. 청구항 11에 있어서,
    상기 메쉬 생성부는, 상기 사용자의 미간점, 눈, 눈썹 양끝, 입, 입술 또는 이들의 조합을 포함하는 기준점을 토대로 메쉬를 생성하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  15. 청구항 14에 있어서,
    상기 변화량 산출부는, 상기 사용자의 눈, 눈썹, 입, 입술, 입꼬리, 입모양, 얼굴 구조 또는 이들의 조합을 포함하는 객체에 대한 메쉬 변화량을 산출하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  16. 청구항 15에 있어서,
    상기 메쉬 변화량을 갖는 데이터베이스 내의 표정 데이터를 K-근접이웃(K-Nearest Neighbor, K-NN) 기반으로 분류하는 분류부를 더 포함하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  17. 청구항 16에 있어서,
    상기 분류부는, 상기 표정 데이터의 마할라노비스 거리(Mahalanobis distance)를 구하고 상기 마할라노비스 거리를 토대로 표정 데이터들을 비교하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  18. 청구항 17에 있어서,
    상기 감정 강도 결정부는,
    상기 마할라노비스 거리에 따른 유사도를 측정하여 제1 감정을 결정하는 제1 감정 강도 결정부;
    상기 사용자의 표정 변화에 따른 상기 표정 데이터의 마할라노비스 거리의 비교 결과를 토대로 제2 감정을 결정하는 제2 감정 강도 결정부; 및
    상기 제1 감정과 상기 제2 감정의 빈도수에 따라 각 감정의 강도를 결정하는 복합 감정 강도 결정부를 포함하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  19. 청구항 11에 있어서,
    상기 복수 감정들의 강도를 토대로 상기 사용자의 복합 감정 인식에 대한 결과를 출력하는 출력부를 더 포함하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
  20. 청구항 11에 있어서,
    상기 탐색부, 상기 모델 생성부, 상기 피팅부, 상기 메쉬 생성부, 상기 변화량 산출부, 상기 유사도 측정부, 상기 감정강도 결정부 또는 이들 조합의 동작을 위한 프로그램을 저장하는 메모리 시스템; 및
    상기 메모리 시스템에 연결되어 상기 프로그램을 수행하는 프로세서
    를 포함하는 사용자 얼굴의 복합 다중 감정 인식 시스템.
KR1020150017072A 2015-02-04 2015-02-04 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템 KR101794399B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150017072A KR101794399B1 (ko) 2015-02-04 2015-02-04 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150017072A KR101794399B1 (ko) 2015-02-04 2015-02-04 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20160095735A KR20160095735A (ko) 2016-08-12
KR101794399B1 true KR101794399B1 (ko) 2017-11-06

Family

ID=56714702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150017072A KR101794399B1 (ko) 2015-02-04 2015-02-04 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101794399B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210075886A (ko) 2019-12-13 2021-06-23 경희대학교 산학협력단 듀얼 딥 네트워크를 이용한 영상기반 얼굴표정 감정인식 시스템 및 그 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102154822B1 (ko) * 2017-07-14 2020-09-10 한국생산기술연구원 안드로이드 로봇의 얼굴 표정 생성 시스템 및 방법
KR102564854B1 (ko) 2017-12-29 2023-08-08 삼성전자주식회사 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
KR102570279B1 (ko) 2018-01-05 2023-08-24 삼성전자주식회사 감정 인식을 위한 학습 방법, 감정을 인식하는 방법 및 장치
WO2021217973A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 情感信息识别方法、装置、存储介质及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한우리 외 3명, 얼굴 인식을 통한 동적 감정 분류, 반도체디스플레이기술학회지 제12권 제3호, 2013. 09

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210075886A (ko) 2019-12-13 2021-06-23 경희대학교 산학협력단 듀얼 딥 네트워크를 이용한 영상기반 얼굴표정 감정인식 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20160095735A (ko) 2016-08-12

Similar Documents

Publication Publication Date Title
US10679046B1 (en) Machine learning systems and methods of estimating body shape from images
US9372546B2 (en) Hand pointing estimation for human computer interaction
US11494915B2 (en) Image processing system, image processing method, and program
Cohen et al. Inference of human postures by classification of 3D human body shape
JP2023036784A (ja) 仮想顔化粧の除去、高速顔検出およびランドマーク追跡
JP4972201B2 (ja) サインに基づくマンマシンインタラクション
US9417700B2 (en) Gesture recognition systems and related methods
KR101794399B1 (ko) 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템
Szwoch et al. Facial emotion recognition using depth data
US20190066311A1 (en) Object tracking
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
Kang et al. Real-time tracking and recognition systems for interactive telemedicine health services
US10713847B2 (en) Method and device for interacting with virtual objects
García et al. Dynamic facial landmarking selection for emotion recognition using Gaussian processes
Li et al. A novel art gesture recognition model based on two channel region-based convolution neural network for explainable human-computer interaction understanding
Lee et al. Robust emotion recognition algorithm for ambiguous facial expression using optimized AAM and k-NN
Thalmann et al. First-person palm pose tracking and gesture recognition in augmented reality
CN111369603A (zh) 点云配准技术的评估方法、装置、电子设备及可读存储介质
Zhao et al. Octree segmentation based calling gesture recognition for elderly care robot
Lee et al. Recognizing multiple emotion from ambiguous facial expressions on mobile platforms
Qammaz et al. A Unified Approach for Occlusion Tolerant 3D Facial Pose Capture and Gaze Estimation Using MocapNETs
CN112711324B (zh) 基于tof相机的手势交互方法及其系统
Khanum et al. Smart Presentation Control by Hand Gestures Using computer vision and Google’s Mediapipe
Fujita et al. 3d pose estimation of a front-pointing hand using a random regression forest
Zhang et al. A new profile shape matching stereovision algorithm for real-time human pose and hand gesture recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right