KR102204743B1 - 시선 움직임 분석에 의한 감정 인식 장치 및 방법 - Google Patents

시선 움직임 분석에 의한 감정 인식 장치 및 방법 Download PDF

Info

Publication number
KR102204743B1
KR102204743B1 KR1020190089540A KR20190089540A KR102204743B1 KR 102204743 B1 KR102204743 B1 KR 102204743B1 KR 1020190089540 A KR1020190089540 A KR 1020190089540A KR 20190089540 A KR20190089540 A KR 20190089540A KR 102204743 B1 KR102204743 B1 KR 102204743B1
Authority
KR
South Korea
Prior art keywords
gaze
user
emotion recognition
emotion
reliability
Prior art date
Application number
KR1020190089540A
Other languages
English (en)
Inventor
김수형
이귀상
양형정
휜반퉁
오아란
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020190089540A priority Critical patent/KR102204743B1/ko
Application granted granted Critical
Publication of KR102204743B1 publication Critical patent/KR102204743B1/ko

Links

Images

Classifications

    • G06K9/00604
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • G06K9/00234
    • G06K9/00268
    • G06K9/0061
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 시선 움직임 분석에 의한 감정 인식 장치 및 방법에 관한 것으로, 상기 장치는 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 사용자 영상 수신부; 상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 영상 프레임 분석부; 상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 특징 집합 생성부; 및 사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 사용자 감정 인식부를 포함한다.

Description

시선 움직임 분석에 의한 감정 인식 장치 및 방법{APPARATUS AND METHOD FOR IDENTIFYING EMOTION BY GAZE MOVEMENT ANALYSIS}
본 발명은 감정 인식 기술에 관한 것으로, 더욱 상세하게는 눈 시선의 움직임으로부터 자동으로 인간의 감정을 인식할 수 있는 시선 움직임 분석에 의한 감정 인식 장치 및 방법에 관한 것이다.
감정 인식은 현대 사회에서의 인간 - 컴퓨터 상호 작용뿐 아니라 인간 생활에서도 중요한 역할을 하기 때문에 심리학, 신경 과학, 컴퓨터 과학의 여러 학문 분야가 관련된 분야이다. 감정은 입술의 움직임, 눈 마주침, 목소리의 감정, 몸짓, 생리적 신호와 같은 표정들을 분석하여 인식할 수 있다. 감정은 분노, 행복, 혐오감 등의 추상적 또는 기본 감정과 연속적인 차원(예: Valence, arousal)의 두 가지 관점으로 분류할 수 있다.
수년 동안, 몇몇 연구자들은 시선(straight), 눈동자 크기, 시선 위치와 같은 감정정보를 포함하는 중요한 눈 특징들을 제안했다. 감정 결정 알고리즘의 경우, Logistic Regression, Random Forest를 사용하여 각 감정 상태의 분포를 생성하기 위해 낮은 수준의 특징을 직접 사용하였다. 또 다른 접근 방식은 통계적 기능을 낮은 수준의 특징에 적용하여 획득한 다음, 이러한 형상은 SVM(support vector machine)과 같이 차별적으로 사용한다.
한국등록특허 제10-1265466(2013.05.10)호는 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체에 관한 것으로, 대상체의 얼굴표정 변화를 감지함으로써 대상체가 느끼는 9가지 감정을 구별할 수 있는 얼굴표정을 이용한 감정인식 기술을 개시하고 있다.
한국등록특허 제10-0745720(2007.07.27)호는 다중 감정 모델을 이용한 감정 처리 장치 및 그 방법에 관한 것으로, 각 이벤트 그룹(event group)에 맞게(센서값에 따른 자극별) 세부화된 감정모델 계층(layer)을 구비하며, 외부로부터 자극을 입력받음에 따라 분석한 후 정서값 변경 테이블에서 해당 자극의 변경값을 검색하여 정서값 저장부에 저장되어 있는 해당 자극의 정서값을 갱신하고, 상기 갱신한 해당 자극의 정서값에 가중치를 부여하여 통합한 후 정서값에 따른 감정표를 이용하여 해당 감정을 결정하는 기술을 개시하고 있다.
한국등록특허 제10-1265466(2013.05.10)호 한국등록특허 제10-0745720(2007.07.27)호
본 발명의 일 실시예는 눈 시선의 움직임으로부터 자동으로 인간의 감정을 인식할 수 있는 시선 움직임 분석에 의한 감정 인식 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 눈 모양, 동공 크기, 시선 탐색을 기반으로 인간의 감정을 신경망으로 분류하는 방법을 제공하는 시선 움직임 분석에 의한 감정 인식 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 인간 의사 결정 처리, 상호 작용 및 인지 프로세스에서 중요한 전제 조건을 제공하여 텍스트와 음성 엔진에서 감정 이입과 감정 표현과 같은 인간과 유사한 기능을 HMI(Human-Machine Interface)에 추가할 수 있고 눈 시선 감정 인식을 사용하여 전체 얼굴 감정 인식 시스템의 성능을 향상시킬 수 있는 시선 움직임 분석에 의한 감정 인식 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 시선 움직임 분석에 의한 감정 인식 장치는 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 사용자 영상 수신부; 상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 영상 프레임 분석부; 상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 특징 집합 생성부; 및 사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 사용자 감정 인식부를 포함한다.
제1항에 있어서, 상기 사용자 영상 수신부는 상기 사용자 영상에서 상기 사용자의 얼굴과 적어도 하나의 눈이 검출되는 영상 프레임을 선별하여 저장할 수 있다.
상기 영상 프레임 분석부는 얼굴 인식 알고리즘을 이용하여 상기 얼굴 표식을 추출하고 동공, 눈 거리, 눈 모양 및 시선 방향 특징을 상기 시선 특징으로서 도출할 수 있다.
상기 특징 집합 생성부는 24차원의 시선 방향 벡터(gaze direction vector), 8차원의 시선각(gaze angle), 28차원의 눈 표식(eye landmark) 및 1차원의 눈 깜박임(blink)을 특징 원소로 구성하여 상기 특징 집합을 생성할 수 있다.
상기 복수의 시선 모델들은 각각이 아담(Adam) 최적화 알고리즘과 ReLU 활성화 함수로 사전 훈련되고, 상기 사전 훈련에서 입력 차원수, 학습 비율의 초기값 및 숨겨진 노드 수가 차별적으로 적용될 수 있다.
상기 사용자 감정 인식부는 상기 복수의 시선 모델들 각각에 대해 상기 특징 집합에 관한 입력 차원 수(Input dimensions)와 특징 유형(Feature types)을 서로 다르게 적용할 수 있다.
상기 사용자 감정 인식부는 화남(angry), 혐오(disgust), 공포(fear), 슬픔(sad), 행복(happy), 중립(neutral) 및 놀람(surprise) 중 어느 하나를 상기 사용자의 감정으로서 결정할 수 있다.
실시예들 중에서, 시선 움직임 분석에 의한 감정 인식 방법은 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 단계; 상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 단계; 상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 단계; 및 사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 단계를 포함한다.
실시예들 중에서, 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치는 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 사용자 영상 수신부; 상기 사용자 영상을 기초로 얼굴 기반의 감정인식 모델의 신뢰도를 제1 신뢰도로서 획득하는 제1 신뢰도 획득부; 상기 사용자 영상을 기초로 시선 움직임 기반의 감정인식 모델의 신뢰도를 제2 신뢰도로서 획득하는 제2 신뢰도 획득부; 및 상기 제1 및 제2 신뢰도들을 융합하여 상기 사용자의 감정을 최종 결정하는 사용자 감정 인식부를 포함한다.
상기 제1 신뢰도 획득부는 상기 얼굴 기반의 감정인식 모델로서 다중 레벨 컨벌루션 신경망(MLCNN)을 적용하여 7차원 벡터로 표현되는 신뢰도를 상기 제1 신뢰도로서 획득할 수 있다.
상기 제2 신뢰도 획득부는 상기 사용자 영상을 수신하는 제1 단계, 상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 제2 단계, 상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 제3 단계 및 사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 제 4단계로 구성된 감정 인식 방법을 상기 시선 움직임 기반의 감정인식 모델로서 적용하여 7차원 벡터로 표현되는 신뢰도를 상기 제2 신뢰도로서 획득할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 시선 움직임 분석에 의한 감정 인식 장치 및 방법은 눈 모양, 동공 크기, 시선 탐색을 기반으로 인간의 감정을 신경망으로 분류하는 방법을 제공할 수 있다.
본 발명의 일 실시예에 따른 시선 움직임 분석에 의한 감정 인식 장치 및 방법은 인간 의사 결정 처리, 상호 작용 및 인지 프로세스에서 중요한 전제 조건을 제공하여 텍스트와 음성 엔진에서 감정 이입과 감정 표현과 같은 인간과 유사한 기능을 HMI(Human-Machine Interface)에 추가할 수 있고 눈 시선 감정 인식을 사용하여 전체 얼굴 감정 인식 시스템의 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 감정 인식 시스템을 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 감정 인식 장치의 기능적 구성을 설명하는 도면이다.
도 3은 도 2의 감정 인식 장치에서 수행되는 감정 인식 과정을 설명하는 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 감정 인식 장치의 기능적 구성을 설명하는 도면이다.
도 5는 도 4에 있는 감정 인식 장치에서 수행되는 감정 인식 과정을 설명하는 순서도이다.
도 6은 본 발명의 일 실시예에 따른 감정 인식 시스템의 구조를 설명하는 도면이다.
도 7은 감정 인식 과정에서 사용되는 특징 집합 F를 설명하는 도면이다.
도 8은 감정 인식 과정에서 사용되는 시선 모델의 특징을 설명하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 감정 인식 방법에 관한 실험 결과를 설명하는 도면이다.
도 10 내지 12는 감정 인식 방법에 따른 혼동 행렬을 설명하는 도면이다.
도 13은 CNN의 계층적 특징을 설명하는 도면이다.
도 14는 Plain 네트워크와 Multi-level 네트워크를 설명하는 도면이다.
도 15는 Plain 네트워크를 통한 얼굴 이미지 시각화와 trivial filter를 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일 실시예에 따른 감정 인식 시스템을 설명하는 도면이다.
도 1을 참조하면, 감정 인식 시스템(100)은 사용자 단말(110), 감정 인식 장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 사용자 영상에 대한 감정 인식 결과를 확인할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 감정 인식 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 감정 인식 장치(130)와 동시에 연결될 수 있다. 사용자 단말(110)은 사용자 영상을 촬영할 수 있는 카메라 모듈을 포함하여 구현될 수 있다.
감정 인식 장치(130)는 사용자 영상을 분석하여 사용자의 시선 움직임을 기초로 사용자의 현재 감정을 인식할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 감정 인식 장치(130)는 사용자 단말(110)과 블루투스, WiFi, 통신망 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 주고받을 수 있다.
일 실시예에서, 감정 인식 장치(130)는 데이터베이스(150)와 연동하여 사용자의 감정 인식에 필요한 정보를 저장할 수 있다. 한편, 감정 인식 장치(130)는 도 1과 달리, 데이터베이스(150)를 내부에 포함하여 구현될 수 있다. 또한, 감정 인식 장치(130)는 프로세서, 메모리, 사용자 입출력부 및 네트워크 입출력부를 포함하여 구현될 수 있으며, 이에 대한 설명은 생략한다.
데이터베이스(150)는 사용자 영상을 분석하여 감정을 인식하는 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 데이터베이스(150)는 사용자 영상을 저장할 수 있고, 영상 분석을 통해 획득한 시선 움직임에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 감정 인식 장치(130)가 시선 움직임을 기초로 사용자의 감정을 인식하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 본 발명의 일 실시예에 따른 감정 인식 장치의 기능적 구성을 설명하는 도면이다.
도 2를 참조하면, 감정 인식 장치(130a)는 사용자 영상 수신부(210), 영상 프레임 분석부(230), 특징 집합 생성부(250), 사용자 감정 인식부(270) 및 제어부(290)를 포함할 수 있다.
사용자 영상 수신부(210)는 사용자의 얼굴을 포함하는 사용자 영상을 수신할 수 있다. 사용자 영상은 사용자의 얼굴을 촬영한 영상에 해당할 수 있고, 사용자의 얼굴이 나타난 2차원 이미지의 집합으로 표현될 수 있다. 사용자 영상 수신부(210)는 네트워크를 통해 사용자 단말(110)로부터 사용자 영상을 수신할 수 있고, 데이터베이스(150)에 저장된 사용자 영상을 로딩함으로써 수신 동작을 수행할 수 있다.
일 실시예에서, 사용자 영상 수신부(210)는 사용자 영상에서 사용자의 얼굴과 적어도 하나의 눈이 검출되는 영상 프레임을 선별하여 저장할 수 있다. 즉, 사용자의 감성 인식을 위해서는 사용자의 얼굴뿐만 아니라 사용자의 눈에 대한 영상이 필요하기 때문에 사용자 영상 수신부(210)는 사용자 영상에서 사용자의 얼굴과 눈이 동시에 나타나는 부분을 프레임 별로 선별할 수 있다. 만약 사전에 선별된 영상을 사용자 영상으로서 수신한 경우 사용자 영상 수신부(210)는 상기 과정을 생략할 수 있다.
영상 프레임 분석부(230)는 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출할 수 있다. 즉, 영상 프레임 분석부(230)는 사용자 영상을 프레임 별로 분석하여 눈 영역과 싯너 방향을 추정할 수 있으며, 이를 위하여 얼굴 인식 기능을 제공하는 라이브러리를 활용할 수 있다.
일 실시예에서, 영상 프레임 분석부(230)는 얼굴 인식 알고리즘을 이용하여 얼굴 표식을 추출하고 동공, 눈 거리, 눈 모양 및 시선 방향 특징을 시선 특징으로서 도출할 수 있다. 예를 들어, 영상 프레임 분석부(230)는 얼굴 인식 알고리즘으로 OpenFace를 활용할 수 있다. 여기에서, OpenFace는 딥러닝 기반의 얼굴 인식 라이브러리에 해당할 수 있고, 얼굴 표식 탐지, 머리 자세 추정, 안면 행동 단위 인식 및 시선 추정에서 최첨단 결과를 제공할 수 있다. 구체적으로, OpenFace는 68개의 얼굴 표식(landmark), 두 눈에 대한 56개의 표식을 추출하고 시선을 추정할 수 있다. 또한, 영상 프레임 분석부(230)는 프레임 분석을 통해 동공, 눈 거리, 눈 모양 및 시선 방향 특징을 시선 특징으로서 도출할 수 있다.
특징 집합 생성부(250)는 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성할 수 있다. 특징 집합 생성부(250)는 영상 프레임 분석부(230)에 의해 추출된 다양한 정보들을 기초로 특징 집합을 생성할 수 있으며, 여기에서 특징 집합은 영상 분석을 통해 획득한 특징 정보에 관한 집합으로서 감정인식 모델의 구축을 위해 학습 데이터로 활용될 수 있고, 감정 인식을 위해 감정인식 모델의 입력 데이터로 활용될 수 있다. 특히, 특징 집합은 감정 인식의 정확도를 향상시키기 위하여 총 61 차원으로 표현될 수 있다.
일 실시예에서, 특징 집합 생성부(250)는 24차원의 시선 방향 벡터(gaze direction vector), 8차원의 시선각(gaze angle), 28차원의 눈 표식(eye landmark) 및 1차원의 눈 깜박임(blink)을 특징 원소로 구성하여 특징 집합을 생성할 수 있다. 이에 대해서는 도 7에서 보다 자세히 설명한다.
사용자 감정 인식부(270)는 사전 훈련된 복수의 시선 모델들에 대해 특징 집합을 적용하여 사용자의 감정을 인식할 수 있다. 사용자 감정 인식부(270)는 다양한 조건으로 학습된 시선 모델들을 통해 감정 분류를 수행함으로써 정확도 높은 감정 인식 결과를 생성할 수 있다.
일 실시예에서, 복수의 시선 모델들은 각각이 아담(Adam) 최적화 알고리즘과 ReLU 활성화 함수로 사전 훈련되고, 사전 훈련에서 입력 차원수, 학습 비율의 초기값 및 숨겨진 노드 수가 차별적으로 적용될 수 있다. 여기에서, 아담(Adam) 최적화 알고리즘과 ReLU 활성화 함수는 널리 알려진 것으로 구체적인 설명은 생략한다. 복수의 시선 모델들은 각각 사전에 학습을 통해 구축될 수 있고, 각각은 입력 차원수, 학습 비율의 초기값과 숨겨진 노드 수가 서로 다르게 적용됨으로써 동일한 입력에 대해 다양한 감정 인식 결과를 제공할 수 있다.
일 실시예에서, 사용자 감정 인식부(270)는 복수의 시선 모델들 각각에 대해 특징 집합에 관한 입력 차원 수(Input dimensions)와 특징 유형(Feature types)을 서로 다르게 적용할 수 있다. 입력 차원 수와 특징 유형은 각 시선 모델들이 구축될 때 사용된 학습 데이터의 차원 수 및 특징 유형과 동일할 수 있다. 이에 대해서는 도 8에서 보다 자세히 설명한다.
일 실시예에서, 사용자 감정 인식부(270)는 화남(angry), 혐오(disgust), 공포(fear), 슬픔(sad), 행복(happy), 중립(neutral) 및 놀람(surprise) 중 어느 하나를 사용자의 감정으로서 결정할 수 있다. 사용자 감정 인식부(270)는 대표적인 감정으로서 상기와 같이 정의하여 감정 인식을 수행할 수 있으나, 반드시 이에 한정되지 않고, 다양한 유형의 감정을 정의하여 감정 분류에 활용할 수 있다.
제어부(290)는 감정 인식 장치(130a)의 전체적인 동작을 제어하고, 사용자 영상 수신부(210), 영상 프레임 분석부(230), 특징 집합 생성부(250) 및 사용자 감정 인식부(270) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 3은 도 2의 감정 인식 장치에서 수행되는 감정 인식 과정을 설명하는 순서도이다.
도 3을 참조하면, 감정 인식 장치(130)는 사용자 영상 수신부(210)를 통해 사용자의 얼굴을 포함하는 사용자 영상을 수신할 수 있다(단계 S310). 감정 인식 장치(130)는 영상 프레임 분석부(230)를 통해 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식과 시선 특징을 도출할 수 있다(단계 S330).
또한, 감정 인식 장치(130)는 특징 집합 생성부(250)를 통해 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성할 수 있다(단계 S350). 감정 인식 장치(130)는 사용자 감정 인식부(270)를 통해 사전 훈련된 복수의 시선 모델들에 대해 특징 집합을 적용하여 사용자의 감정을 인식할 수 있다(단계 S370).
도 4는 본 발명의 다른 실시예에 따른 감정 인식 장치의 기능적 구성을 설명하는 도면이다.
도 4를 참조하면, 감정 인식 장치(130b)는 사용자 영상 수신부(410), 제1 신뢰도 획득부(430), 제2 신뢰도 획득부(450), 사용자 감정 인식부(470) 및 제어부(490)를 포함할 수 있다.
사용자 영상 수신부(410)는 도 2의 사용자 영상 수신부(210)와 동일한 동작을 수행할 수 있으며, 이에 대한 구체적인 설명은 생략한다.
제1 신뢰도 획득부(430)는 사용자 영상을 기초로 얼굴 기반의 감정인식 모델의 신뢰도를 제1 신뢰도로서 획득할 수 있다. 얼굴 기반의 감정인식 모델은 사용자의 얼굴 인식을 기초로 감정 인식을 수행하는 모델에 해당할 수 있고, 기존에 일반적으로 수행되는 방식으로 구현될 수 있다. 즉, 제1 신뢰도 획득부(430)는 종래 방식으로 수행되는 감정 인식의 결과를 제1 신뢰도로서 획득할 수 있다.
일 실시예에서, 제1 신뢰도 획득부(430)는 얼굴 기반의 감정인식 모델로서 다중 레벨 컨벌루션 신경망(MLCNN)을 적용하여 7차원 벡터로 표현되는 신뢰도를 제1 신뢰도로서 획득할 수 있다. 다중 레벨 컨벌루션 신경망(MLCNN)은 많은 양의 얼굴 정보를 생성하기 위해 네트워크의 여러 단계에서 출력되는 중간결과를 연결하는 일반적인 CNN을 포함할 수 있다. 보다 구체적으로, 제1 신뢰도 획득부(430)는 MLCNN을 사용하여 비디오의 각 프레임에 대한 특징을 추출할 수 있고, 3차원 컨볼루션 신경망(3D-CNN)을 사용하여 연속된 비디오 프레임을 분석한 후 스프트맥스(softmax) 분류기로 Pm을 획득할 수 있다. 즉, 제1 신뢰도 획득부(430)는 제1 신뢰도로서 Pm을 획득할 수 있다. MLCNN에 대해서는 도 13 내지 15에서 보다 자세히 설명한다.
제2 신뢰도 획득부(450)는 사용자 영상을 기초로 시선 움직임 기반의 감정인식 모델의 신뢰도를 제2 신뢰도로서 획득할 수 있다. 시선 움직임 기반의 감정인식 모델은 사용자 영상 분석을 통해 추정되는 사용자의 시선을 기초로 감정 인식을 수행하는 모델에 해당할 수 있다.
일 실시예에서, 제2 신뢰도 획득부(450)는 사용자 영상을 수신하는 제1 단계, 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 제2 단계, 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 제3 단계 및 사전 훈련된 복수의 시선 모델들에 대해 특징 집합을 적용하여 사용자의 감정을 인식하는 제 4단계로 구성된 감정 인식 방법을 시선 움직임 기반의 감정인식 모델로서 적용하여 7차원 벡터로 표현되는 신뢰도를 제2 신뢰도로서 획득할 수 있다.
즉, 제2 신뢰도 획득부(450)는 도 2의 감정 인식 장치(130a)에서 수행되는 방법에 의해 감정 인식을 수행할 수 있고, 해당 방법을 통해 구축된 감정인식 모델을 통해 7차원 벡터의 신뢰도를 획득할 수 있다.
사용자 감정 인식부(470)는 제1 및 제2 신뢰도들을 융합하여 사용자의 감정을 최종 결정할 수 있다. 즉, 사용자 감정 인식부(470)는 여러 학습 모델의 예측을 결합하여 예측 정확도를 향상시킬 수 있다.
일 실시예에서, 사용자 감정 인식부(470)는 결정단계융합(Decision Level Fusion, DLF) 및 메타 모델 중 어느 하나를 융합의 과정에 적용할 수 있다. 예를 들어, 사용자 감정 인식부(470)는 결정단계융합 (Decision Level Fusion, DLF)을 사용하여 각 분류기의 분류결과를 결합하고 최종 결정을 획득할 수 있다. DLF는 훈련할 필요가 없다는 단순성 때문에 최대 규칙이나 합계 규칙과 함께 널리 사용되는 방법 중 하나이다. 사용자 감정 인식부(470)는 각각의 분류기로부터 결과가 주어지면, 최대(합)규칙에 의해 모든 분류기의 각 카테고리에 속하는 모든 확률의 최댓값(합)을 계산하고 가장 높은 확률의 부류(class label)를 선택할 수 있다.
또한, 사용자 감정 인식부(470)는 여러 모델의 예측을 입력으로 사용하는 로지스틱 회귀법, 다층 퍼셉트론과 같은 메타 모델 M을 적용하여 제1 및 제2 신뢰도들을 융합할 수 있고, 최종적으로 사용자의 감정을 결정할 수 있다.
예를 들어, pi0, pi1, pi2, ..., pim을 분류기에 의해 제공되는 m개의 감정의 확률이라 가정하면, M에 대한 각 샘플의 입력 수는 n분류기의 결과를 연결하여 생성된 m*n에 해당할 수 있다. 사용자 감정 인식부(470)는 두 개의 메타 학습자를 사용할 수 있으며, 이 경우 하나는 융합형 시선 모델에 해당하고 다른 하나는 융합형 시선 및 얼굴 모델에 해당할 수 있다.
일 실시예에서, 사용자 감정 인식부(470)는 다층 퍼셉트론 신경망을 메타 모델로서 융합의 과정에 적용할 수 있다. 다층 퍼셉트론(Multilayer Perceptron) 신경망은 입력층과 출력층 사이에 하나 이상의 중간층을 두어 비선형적으로 분리되는 데이터에 대해서도 학습이 가능하도록 고안된 신경망에 해당할 수 있다. 여기에서, 입력층과 출력층 사이에 존재하는 중간층은 숨어 있는 층, 즉 은닉층에 해당할 수 있다.
제어부(490)는 감정 인식 장치(130b)의 전체적인 동작을 제어하고, 사용자 영상 수신부(410), 제1 신뢰도 획득부(430), 제2 신뢰도 획득부(450) 및 사용자 감정 인식부(470) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 5는 도 4에 있는 감정 인식 장치에서 수행되는 감정 인식 과정을 설명하는 순서도이다.
도 5를 참조하면, 감정 인식 장치(130b)는 사용자 영상 수신부(410)를 통해 사용자의 얼굴을 포함하는 사용자 영상을 수신할 수 있다(단계 S510). 감정 인식 장치(130b)는 제1 신뢰도 획득부(430)를 통해 사용자 영상을 기초로 얼굴 기반의 감정인식 모델의 신뢰도를 제1 신뢰도로서 획득할 수 있다(단계 S530).
또한, 감정 인식 장치(130b)는 제2 신뢰도 획득부(450)를 통해 사용자 영상을 기초로 시선 움직임 기반의 감정인식 모델의 신뢰도를 제2 신뢰도로서 획득할 수 있다(단계 S550). 감정 인식 장치(130b)는 사용자 감정 인식부(470)를 통해 제1 및 제2 신뢰도들의 융합하여 사용자의 감정을 최종 결정할 수 있다(단계 S570).
도 6은 본 발명의 일 실시예에 따른 감정 인식 시스템의 구조를 설명하는 도면이다.
도 6을 참조하면, 감정 인식 시스템(100)은 인간의 감정을 시선으로 인식하고 전체 얼굴 모델과 융합하여 감정 인식의 성능을 향상시킬 수 있다. 감정 인식 시스템(100)은 다음과 같이 세 단계로 구분될 수 있다.
(1) 얼굴기반 감정인식 모델의 신뢰도 (7차원 벡터)을 얻는다.
(2) 눈 움직임으로 감정인식 신뢰도 (7차원 벡터)를 추출하여 얻는다.
(3) 도 6와 같이 Pm과 Pg을 다중퍼셉트론 신경망을 통하여 융합한다.
즉, 감정 인식 시스템(100)은 사용자 영상(Video)을 기초로 독립된 두개의 절차에 따라 감정 인식을 수행할 수 있고, 각 절차에 의한 감정 인식 결과로서 각각의 신뢰도를 획득할 수 있다. 감정 인식 시스템(100)은 최종 감정을 결정하기 위해서 신뢰도를 다층 퍼셉트론 신경망을 이용하여 융합할 수 있다.
도 7은 감정 인식 과정에서 사용되는 특징 집합 F를 설명하는 도면이다.
도 7을 참조하면, 감정 인식 장치(130)는 특징 집합 생성부(250)를 통해 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성할 수 있다. 보다 구체적으로, 특징 집합 생성부(250)는 시선 방향 벡터에 대해 통계적 특성으로서 최소값(min), 최대값(max), 표준편차(std) 및 평균(mean)을 포함하는 24차원의 특성으로 표현할 수 있고, 시선각(gaze angle)에 대해 통계적 특성으로서 최소값(min), 최대값(max), 표준편차(std) 및 평균(mean)을 포함하는 8차원의 특성으로 표현할 수 있다.
또한, 특징 집합 생성부(250)는 눈 표식(Eye landmark)에 대해 통계적 특성으로서 최소값(min)과 최대값(max)의 비율(ratio) 및 변동 계수(coefficient of variation)를 포함하는 28차원의 특성으로 표현할 수 있고, 눈 깜박임(blink)에 대해 통계적 특성으로서 눈 깜박임 비율(ratio of blink)의 1차원 특성으로 표현할 수 있다.
도 8은 감정 인식 과정에서 사용되는 시선 모델의 특징을 설명하는 도면이다.
도 8을 참조하면, 감정 인식 장치(130)는 최적의 결과를 얻기 위해 아담(Adam) 최적화 알고리즘과 ReLU 활성화 함수로 훈련된 N1, N2, ..., N4 4개의 서로 다른 신경망을 사용할 수 있다. 각 모델은 도 8과 같이 입력과 학습 비율의 초기 값 및 숨겨진 노드 수에 따라 달라질 수 있다. F1을 시선 방향 벡터와 시선각의 최대 및 최솟값의 집합, F2는 동공 크기와 눈 거리 값의 최대와 최솟값 사이의 비율의 집합에 해당할 수 있다.
도 8에서, N1은 40 Input dimensions을 기초로 학습된 결과로서 Feature type은 F-(F1∩F2)에 해당할 수 있고, N2는 45 Input dimensions을 기초로 학습된 결과로서 Feature type은 F-F1에 해당할 수 있고, N3은 51 Input dimensions을 기초로 학습된 결과로서 Feature type은 F-F2에 해당할 수 있고, N4은 61 Input dimensions을 기초로 학습된 결과로서 Feature type은 F에 해당할 수 있다.
도 9는 본 발명의 일 실시예에 따른 감정 인식 방법에 관한 실험 결과를 설명하는 도면이다.
도 9의 그림 (a)는 AFEW 데이터베이스의 훈련 집합 및 검증 집합에 대한 데이터 분포를 나타낸 것이고, 그림 (b)는 검증 집합에 대한 정확성을 나타낸 것이다.
도 9를 참조하면, 본 발명의 감정 인식 방법에 대해 잘 알려진 공개 데이터 집합인 AFEW(Acted Facial Expressions in the Wild)으로 실험을 수행한 결과를 확인할 수 있다. AFEW는 키워드 검색을 사용하여 영화와 TV 시리즈에서 수집한 300 ~ 5400 밀리초 분량의 비디오를 포함하고 있다. AFEW 데이터베이스는 일곱 가지 보편적인 정서적 감정 표현(화남, 혐오, 공포, 슬픔, 행복, 중립 및 놀람)으로 구성될 수 있다. 이 데이터 집합은 훈련 및 검증을 위해 각각 773 및 383 개의 샘플로 구성될 수 있다. 훈련 및 검증 집합에서 샘플의 분포는 그림 (a)와 같다.
본 실험에서는 파이썬 3.5.5를 신경망을 지원하는 scikit-learn과 함께 사용하여 훈련 집합에서 3배 교차 유효성 검증으로 모델을 훈련하고 미세 조정을 수행하였다. 그림 (b)는 N5가 4개의 시선 모델 N1, N2, ..., N4를 융합시키는 메타학습기인 검증 집합에 대한 실험의 결과를 나타내고 있다.
도 10 내지 12는 감정 인식 방법에 따른 혼동 행렬을 설명하는 도면이다.
도 10 내지 12를 참조하면, 눈 시선 모델, MLCNN 및 시선과 MLCNN이 융합된 경우 각각의 혼동 행렬(confusion matrix)을 확인할 수 있다. 도 11은 데이터 집합의 불균형과 얼굴 표현의 불균형으로 인해 혐오 감정에 대한 얼굴 모델의 약점을 보여준다. 시선의 방향뿐만 아니라 눈의 영역을 고려함으로써 얼굴의 작은 부분에서 표현을 인식할 수 있는 더 많은 정보를 확보하고 약간의 정보 손실을 피했지만, 작은 부분에서만 고려할 때 어느 정도 bias를 가지고 있다.
도 10에서, 시선은 눈에 뚜렷이 표현되기 때문에 혐오와 공포에 대해 MLCNN보다 더 잘 인식할 수 있다. 혐오의 경우에는 눈이 좁아지고 표적에 초점을 맞출 수 있다. 다른 한편으로는 공포는 눈동자를 더 크게 하고 빠르게 움직이게 하면서 불안정한 시선을 유도할 수 있다. 시선이 눈에 뚜렷이 표현되지 않으면, 슬픔과 놀라움은 눈뿐 아니라 입, 뺨, 코 등 얼굴의 다른 부분에서도 그 표정이 나타나기 때문에 더욱 추측하기 어려워지고 행복이나 중립적인 감정과 혼동될 수 있다. MLCNN의 경우, 더 많은 정보를 얻을 수 있는 얼굴 전체를 고려할 수 있다. 일부 감정이 얼굴의 일부 영역에서 표현되기 때문에 이점이 있지만 실수를 유발할 수 있다. 각각의 모델은 몇 가지 강점과 약점을 가질 수 있고, 이것은 시선모델과 MLCNN을 융합하기 위해 메타 학습기를 사용한 이유가 될 수 있다.
도 13은 CNN의 계층적 특징을 설명하는 도면이고, 도 14는 Plain 네트워크와 Multi-level 네트워크를 설명하는 도면이며, 도 15는 Plain 네트워크를 통한 얼굴 이미지 시각화와 trivial filter를 설명하는 도면이다.
도 14의 그림 (a)는 Plain network에 해당하고, 그림 (b)는 Multi-level network에 해당한다. 도 15의 그림 (a)는 Face image에 해당하고, 그림 (b)는 Grad-CAM by the 1st block에 해당하며, 그림 (c)는 Grad-CAM by the 3rd block에 해당하고, 그림 (d)는 The 2nd filter에 해당하며, 그림 (e)는 The 8th filter에 해당하며, 그림 (f)는 The 22nd filter에 해당한다.
이하, 도 13 내지 15를 통해 MLCNN에 대해 자세히 설명한다.
- Plain Networks
컨벌루션 레이어 스택(a stack of convolutional layers)을 가진 네트워크는 시각적 분류 문제에 있어서 잘 알려져 있다. 공개 데이터의 접근성(accessibility) 및 고성능 시스템으로 인해 분류 성능과 네트워크 깊이 사이의 관계에 관한 많은 연구가 진행되었다. 컨벌루션 레이어의 수가 증가함에 따라 네트워크는 하이 레벨 피처(high-level feature)로 불리는 카테고리 식별을 위한 더 나은 정보를 캡처(capture)할 수 있다.
이 정보를 얻기 위해서, 네트워크는 도 13에서 보듯이 중간 컨벌루션 레이어로부터 얻을 수 있는 로우 레벨(low-level)과 미드 레벨(mid-level) 피처들을 결합할 수 있다. 일반적으로 히든 레이어(hidden layer)를 가진 분류기는 하이 레벨 피처만을 고려할 수 있다. 이 유형의 네트워크의 대표적 예는 VGG 네트워크에 해당할 수 있다. 이 모델은 여러 블록의 컨벌루션 레이어로 구성되며 마지막 블록에는 분류를 위한 완전 연결 레이어(fully connected layers)가 이어질 수 있다.
도 14의 그림 (a)는 표정 인식을 위해 제안된 아키텍처 중 하나인 18 개의 가중치 계층이 5 개의 블록으로 구성된 VGG 네트워크로부터 도출되는 심플한 CNN에 해당할 수 있다. 각 블록은 2, 3 또는 4 개의 컨볼루션 레이어를 포함하고 맥스풀링(max-pooling)이 이어질 수 있다.
네트워크의 입력은 48 * 48 그레이 스케일 이미지이고 병목 레이어(bottleneck layer)의 출력은 512 1 * 1 필터에 해당할 수 있다. 즉, 완전 연결 레이어는 7웨이(7-way) softmax 분류기만을 포함할 수 있다. 병목 레이어는 네트워크의 최종 출력 레이어 바로 앞에 있는 레이어에 해당할 수 있다. softmax 분류기 이전에 완전 연결 레이어를 사용하지 않기 때문에 필터가 최종 분류에 어떻게 기여하는지 분석하는 것이 합리적일 수 있다.
주어진 네트워크에서 Selvaraju 등은 분류에 유용한 입력 영역을 시각화하기 위해 Gradient-weighted Class Activation Mapping (Grad-CAM)이라는 기술을 제안하였다. 도 15의 그림 (c)는 일반 아키텍처의 세 번째 블록에서 24 번째 필터에 의해 생성된 Grad-CAM에 해당할 수 있다. 이 수준에서 네트워크는 어떻게든 얼굴 표정 인식에 중요한 역할을 하는 눈, 입에 초점을 맞출 수 있다. 한편, 첫 번째 블록에서 네트워크는 도 15의 그림 (b)와 같이 배경 및 기타 의미없는 영역에 초점을 맞출 수 있다.
또한, 도 15의 그림 (d) 내지 (f)는 세 번째 블록에서 생성된 다른 Grad-CAM 시각화에 해당할 수 있다. 이러한 필터는 하이 레벨 피처들을 구성하는데 매우 유용하지만 모든 요소가 표정 인식에 직접적으로 기여하지 않을 수 있다. 네트워크의 미드 레벨에서의 여러 필터들만 분류에 있어 중요할 수 있다.
- 다중 레벨 컨볼루션 신경망(Multi-level Convolutional Neural Networks)
본 모델의 백본은 VGG 네트워크에서 영감을 얻은 18 레이어 CNN에 해당할 수 있다. 그러나, 본 모델은 분류를 위해 하이 레벨 피처를 사용할 뿐만 아니라 도 14의 그림(b)에서 설명한 것처럼 미드 레벨 피처를 고려할 수 있다. 이러한 피처맵(feature map)은 네트워크의 두 번째, 세 번째 및 네 번째 블록에서 추출될 수 있다. 첫 번째 블록의 정보는 표정 인식을 위한 진부한 (trivial) 필터들을 포함하고 있기 때문에 직접적으로 사용하지 않을 수 있다.
도 15의 그림 (b)에서, 이 레벨의 네트워크는 배경, 모발 등과 같은 무의미한 영역에만 초점을 맞출 수 있다. 이것은 Wang의 접근 방식에 비해 다중 레벨 컨벌루션 뉴럴 네트워크 (MLCNN)의 개선점 중 하나에 해당할 수 있다. 또한, 미드 레벨 피처에 대한 관찰 결과 로우 및 미드 레벨의 레이어에서의 필터의 수가 하이 레벨의 레이어보다 더 많음에도 불구하고 같은 블록에서 얼굴 특징 추출(도 15의 그림 (d) 내지 (f) 참조)을 위해 중요하지 않은 필터들이 존재할 수 있다. 따라서, 256개의 유닛들(units)로 구성된 완전 연결 레이어를 삽입하여 유용한 필터를 예약하고 중요하지 않은 필터를 제거할 수 있다. 네트워크 연결은 다음의 수학식을 통해 정의된 벡터 연결 연산자에 해당할 수 있다.
[수학식]
Figure 112019076036860-pat00001
여기에서,
Figure 112019076036860-pat00002
Figure 112019076036860-pat00003
는 서로 다른 네트워크 레벨들로부터의 특징 벡터들에 해당할 수 있다. 입력이 컨벌루션 레이어의 출력인 경우 이 연산자를 적용하기 전에 벡터화할 필요가 있다.
딥러닝(deep learning) 연구에 있어 또 다른 문제는 네트워크의 깊이를 결정하는 것에 해당할 수 있다. 일반적인 경우 실험을 기반으로 결정할 수 있다. 다중 레벨 아키텍처는 분류를 위한 각 레벨에서 중요한 피처들을 스스로 선택할 수 있다. 즉, 기본 모델이 주어지면 네트워크는 필터들의 기여를 기초로 깊이를 결정할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 감정 인식 시스템
110: 사용자 단말 130, 130a, 130b: 감정 인식 장치
150: 데이터베이스
210, 410: 사용자 영상 수신부 230: 영상 프레임 분석부
250: 특징 집합 생성부 270, 470: 사용자 감정 인식부
290, 490: 제어부
430: 제1 신뢰도 획득부 450: 제2 신뢰도 획득부

Claims (13)

  1. 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 사용자 영상 수신부;
    상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 영상 프레임 분석부;
    상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 특징 집합 생성부; 및
    사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 사용자 감정 인식부를 포함하는 시선 움직임 분석에 의한 감정 인식 장치.
  2. 제1항에 있어서, 상기 사용자 영상 수신부는
    상기 사용자 영상에서 상기 사용자의 얼굴과 적어도 하나의 눈이 검출되는 영상 프레임을 선별하여 저장하는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  3. 제1항에 있어서, 상기 영상 프레임 분석부는
    얼굴 인식 알고리즘을 이용하여 상기 얼굴 표식을 추출하고 동공, 눈 거리, 눈 모양 및 시선 방향 특징을 상기 시선 특징으로서 도출하는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  4. 제1항에 있어서, 상기 특징 집합 생성부는
    24차원의 시선 방향 벡터(gaze direction vector), 8차원의 시선각(gaze angle), 28차원의 눈 표식(eye landmark) 및 1차원의 눈 깜박임(blink)을 특징 원소로 구성하여 상기 특징 집합을 생성하는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  5. 제1항에 있어서, 상기 복수의 시선 모델들은
    각각이 아담(Adam) 최적화 알고리즘과 ReLU 활성화 함수로 사전 훈련되고, 상기 사전 훈련에서 입력 차원수, 학습 비율의 초기값 및 숨겨진 노드 수가 차별적으로 적용되는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  6. 제5항에 있어서, 상기 사용자 감정 인식부는
    상기 복수의 시선 모델들 각각에 대해 상기 특징 집합에 관한 입력 차원 수(Input dimensions)와 특징 유형(Feature types)을 서로 다르게 적용하는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  7. 제1항에 있어서, 상기 사용자 감정 인식부는
    화남(angry), 혐오(disgust), 공포(fear), 슬픔(sad), 행복(happy), 중립(neutral) 및 놀람(surprise) 중 어느 하나를 상기 사용자의 감정으로서 결정하는 것을 특징으로 하는 시선 움직임 분석에 의한 감정 인식 장치.
  8. 감정 인식 장치에서 수행되는 방법에 있어서,
    사용자의 얼굴을 포함하는 사용자 영상을 수신하는 단계;
    상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 단계;
    상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 단계; 및
    사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 단계를 포함하는 시선 움직임 분석에 의한 감정 인식 방법.
  9. 사용자의 얼굴을 포함하는 사용자 영상을 수신하는 사용자 영상 수신부;
    상기 사용자 영상을 기초로 얼굴 기반의 감정인식 모델의 신뢰도를 제1 신뢰도로서 획득하는 제1 신뢰도 획득부;
    상기 사용자 영상을 기초로 시선 움직임 기반의 감정인식 모델의 신뢰도를 제2 신뢰도로서 획득하는 제2 신뢰도 획득부; 및
    상기 제1 및 제2 신뢰도들을 융합하여 상기 사용자의 감정을 최종 결정하는 사용자 감정 인식부를 포함하는 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치.
  10. 제9항에 있어서, 상기 제1 신뢰도 획득부는
    상기 얼굴 기반의 감정인식 모델로서 다중 레벨 컨벌루션 신경망(MLCNN)을 적용하여 7차원 벡터로 표현되는 신뢰도를 상기 제1 신뢰도로서 획득하는 것을 특징으로 하는 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치.
  11. 제9항에 있어서, 상기 제2 신뢰도 획득부는
    상기 사용자 영상을 수신하는 제1 단계, 상기 사용자 영상을 구성하는 복수의 영상 프레임들 각각에 대해 얼굴 표식(landmark)과 시선 특징을 도출하는 제2 단계, 상기 얼굴 표식과 시선 특징을 기초로 61차원으로 표현되는 특징 집합을 생성하는 제3 단계 및 사전 훈련된 복수의 시선 모델들에 대해 상기 특징 집합을 적용하여 상기 사용자의 감정을 인식하는 제 4단계로 구성된 감정 인식 방법을 상기 시선 움직임 기반의 감정인식 모델로서 적용하여 7차원 벡터로 표현되는 신뢰도를 상기 제2 신뢰도로서 획득하는 것을 특징으로 하는 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치.
  12. 제9항에 있어서, 상기 사용자 감정 인식부는
    결정단계융합(Decision Level Fusion, DLF) 및 메타 모델 중 어느 하나를 상기 융합의 과정에 적용하는 것을 특징으로 하는 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치.
  13. 제12항에 있어서, 상기 사용자 감정 인식부는
    다층 퍼셉트론 신경망을 상기 메타 모델로서 상기 융합의 과정에 적용하는 것을 특징으로 하는 시선 움직임 기반의 감정 인식이 적용된 감정 인식 장치.

KR1020190089540A 2019-07-24 2019-07-24 시선 움직임 분석에 의한 감정 인식 장치 및 방법 KR102204743B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190089540A KR102204743B1 (ko) 2019-07-24 2019-07-24 시선 움직임 분석에 의한 감정 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190089540A KR102204743B1 (ko) 2019-07-24 2019-07-24 시선 움직임 분석에 의한 감정 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102204743B1 true KR102204743B1 (ko) 2021-01-19

Family

ID=74237142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190089540A KR102204743B1 (ko) 2019-07-24 2019-07-24 시선 움직임 분석에 의한 감정 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102204743B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100745720B1 (ko) 2005-11-30 2007-08-03 한국전자통신연구원 다중 감정 모델을 이용한 감정 처리 장치 및 그 방법
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
KR101265466B1 (ko) 2011-08-05 2013-05-16 충남대학교산학협력단 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체
KR20150064977A (ko) * 2013-12-04 2015-06-12 건국대학교 산학협력단 얼굴정보 기반의 비디오 분석 및 시각화 시스템
JP2018005892A (ja) * 2016-06-23 2018-01-11 株式会社ガイア・システム・ソリューション エンゲージメント値処理システム及びエンゲージメント値処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100745720B1 (ko) 2005-11-30 2007-08-03 한국전자통신연구원 다중 감정 모델을 이용한 감정 처리 장치 및 그 방법
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
KR101265466B1 (ko) 2011-08-05 2013-05-16 충남대학교산학협력단 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체
KR20150064977A (ko) * 2013-12-04 2015-06-12 건국대학교 산학협력단 얼굴정보 기반의 비디오 분석 및 시각화 시스템
JP2018005892A (ja) * 2016-06-23 2018-01-11 株式会社ガイア・システム・ソリューション エンゲージメント値処理システム及びエンゲージメント値処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Byoung Chul Ko,‘A Brief Review of Facial Emotion Recognition Based on Visual Information’Sensors 2018, 18, 401 (2018.01.30.) *
C. Aracena et al., ‘Neural Networks for Emotion Recognition Based on Eye Tracking Data’2015 IEEE International Conference on Systems, Man, and Cybernetics, Kowloon, 2015, pp.2632-2637 (2015.10.09.) *

Similar Documents

Publication Publication Date Title
Siqueira et al. Efficient facial feature learning with wide ensemble-based convolutional neural networks
CN110569795B (zh) 一种图像识别方法、装置以及相关设备
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
Littlewort et al. Dynamics of facial expression extracted automatically from video
Salmam et al. Emotion recognition from facial expression based on fiducial points detection and using neural network
Wang et al. Towards realistic predictors
CN111758116A (zh) 脸部图像识别系统、识别器生成装置、识别装置、图像识别系统以及识别系统
US20210124929A1 (en) Device and method for auto audio and video focusing
KR20190123371A (ko) 안면이미지를 기반한 감정 인식 방법 및 인공지능 학습 방법
CN112800998A (zh) 融合注意力机制和dmcca的多模态情感识别方法及系统
CN112699774A (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
KR20190099153A (ko) 전자 장치
CN113947702A (zh) 一种基于情境感知的多模态情感识别方法和系统
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Rwelli et al. Gesture based Arabic sign language recognition for impaired people based on convolution neural network
US10917721B1 (en) Device and method of performing automatic audio focusing on multiple objects
Capozzi et al. Toward vehicle occupant-invariant models for activity characterization
KR102204743B1 (ko) 시선 움직임 분석에 의한 감정 인식 장치 및 방법
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
Hou Deep Learning-Based Human Emotion Detection Framework Using Facial Expressions
Kumar et al. Facial emotion recognition and detection using cnn
Karacı et al. Real-Time Turkish Sign Language Recognition Using Cascade Voting Approach with Handcrafted Features
Selvaraj et al. Bimodal recognition of affective states with the features inspired from human visual and auditory perception system
Dudekula et al. Linear fusion approach to convolutional neural networks for facial emotion recognition
Siyli et al. Unsupervised key hand shape discovery of sign language videos with correspondence sparse autoencoders

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant