KR20220052789A - 감정 기반의 얼굴 영상 생성 시스템 및 방법 - Google Patents

감정 기반의 얼굴 영상 생성 시스템 및 방법 Download PDF

Info

Publication number
KR20220052789A
KR20220052789A KR1020200137135A KR20200137135A KR20220052789A KR 20220052789 A KR20220052789 A KR 20220052789A KR 1020200137135 A KR1020200137135 A KR 1020200137135A KR 20200137135 A KR20200137135 A KR 20200137135A KR 20220052789 A KR20220052789 A KR 20220052789A
Authority
KR
South Korea
Prior art keywords
image
emotion
input
valence
arousal
Prior art date
Application number
KR1020200137135A
Other languages
English (en)
Other versions
KR102472110B1 (ko
Inventor
장주용
박민성
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Priority to KR1020200137135A priority Critical patent/KR102472110B1/ko
Publication of KR20220052789A publication Critical patent/KR20220052789A/ko
Application granted granted Critical
Publication of KR102472110B1 publication Critical patent/KR102472110B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

감정 기반의 얼굴 영상 생성 시스템 및 방법이 개시된다. 감정 기반의 얼굴 영상 생성 시스템은 입력 얼굴 영상
Figure pat00222
을 입력받고 두 스칼라 변수
Figure pat00223
,
Figure pat00224
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상
Figure pat00225
에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00226
,
Figure pat00227
과 함께 얼굴 영상 생성부로 입력하는 얼굴 특징 추출부; 및 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
Figure pat00228
,
Figure pat00229
를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
Figure pat00230
의 사람이 입력 감정 정보(
Figure pat00231
,
Figure pat00232
)와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부를 포함한다.
감정 기반의 얼굴 영상 생성 시스템은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하고, 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 입력 감정 상태(V/A)에 맞게끔 변형하여 출력한다.

Description

감정 기반의 얼굴 영상 생성 시스템 및 방법 {Face image generation system and method based on emotion}
본 발명은 감정 기반의 얼굴 영상 생성 시스템에 관한 것으로, 보다 상세하게는 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하여 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 감정 상태에 맞게끔 변형하여 출력하는, 감정 기반의 얼굴 영상 생성 시스템 및 방법에 관한 것이다.
얼굴인식(Face Recognition) 기술은 1990년대 초기에 소개된 형상 기반 매칭 방법(appearance based matching method), 및 특징(faeture) 기반의 얼굴 인식이 주로 사용된다. 그러나, 얼굴인식은 카메라의 촬영 각도, 조명의 방향, 자세, 표정의 변화 및 시간에 따른 얼굴의 변화에 따라 다르게 인식된다.
특징(faeture) 기반의 얼굴 인식은 디지털 카메라, IoT 디바이스의 카메라 또는 스마트폰의 카메라로 촬영된 영상 데이터를 haar-like feature를 이용한 검출 방법과 MCT(Modified Census Transform) 영상을 이용한 검출 방법이 사용된다. 스마트폰의 카메라의 입력 영상에서 Haar-like feature로 학습된 얼굴 및 눈 검출기를 사용하여
얼굴의 윤곽선과 이마/눈/코/입을 검출하고, 원형의 눈동자를 검출하기 위해 관심 영역(Region of Interest, ROI)으로 설정된 눈 영역을 grayscale로 변환하며, 눈 영역에서 눈동자와 눈의 외곽선 영역이 추출되는 실험에 의한 ostu 알고리즘의 0~255 범위의 임계값(threshold)을 사용하여 눈 이미지의 histogram[x축 각 픽셀의 화소값, y축 해당 화소 값의 갯수]을 구하고 눈의 이미지를 이진화(binarization)한 후, 히스토그램 평활화(histogram equalization)를 통해 눈 영역의 사진의 전처리를 수행하며, 얼굴 영역에서 눈썹과 눈, 코, 입, 턱의 특징 데이터를 검출하고, 텍스처 특징(texture features)과 형상 특징(shape features)을 추출하여 얼굴 인식 DB에 저장된 얼굴 사진의 특징점들과 유사도(simularity)를 비교하여 얼굴이 인식된다.
이와 관련된 선행 기술1로써, 특허 등록번호 10-2147052에서는 " 얼굴 영상 기반의 감정 인식 시스템 및 방법"이 등록되어 있다.
도 1은 감정 인식 시스템의 개념도이다.
도 2는 기존 감정 인식 시스템의 블록도이다.
얼굴 인식을 위한 개인별 얼굴 사진과 기계 학습(machine learning)에 의해 개인별 얼굴 사진의 감정 상태에 따른 얼굴의 윤곽선, 눈썹과 눈, 코와 입, 턱을 포함하는 얼굴의 특징점들과 그 얼굴 사진과 관련된 감정 상태에 따른 영상 패치 기반 데이터를 저장하는 저장된 얼굴 인식 DB와 얼굴 인식 시스템; 및
상기 얼굴 인식DB와 연동되며, 대상 사람의 얼굴 영상
Figure pat00001
를 입력받아 N개의 얼굴 특징점들(얼굴 윤곽선, 눈, 코, 입)을 추출하고, 특징점 기반 감정 인식 결과
Figure pat00002
와 그 특징점들 근처의 영상 패치로부터 영상 기반의 감정인식 결과
Figure pat00003
를 제공하여 대상 사람의 얼굴의 최종 감정 인식 결과를 출력하는 감정 인식 시스템을 포함한다.
감정 인식 시스템(700)은 얼굴 특징점 추출부(710), 특징점 기반 감정 인식부(720), 영상 패치 추출부(730), 영상 패치 기반 감정 인식부(740), 및 감정 인식 결과 융합부(770)으로 구성된다.
상기 감정 인식 시스템(700)은
얼굴 영상
Figure pat00004
를 입력받아 N개의 얼굴 특징점에 대한 좌표
Figure pat00005
를 출력하는 얼굴 특징점 추출부(710); 얼굴 인식DB에 통계적으로 감정상태에 따른 얼굴 표정의 특징점 데이터가 저장되며, 상기 N개의 얼굴 특징점들에 대한 좌표
Figure pat00006
를 입력받아 상기 감정상태에 따른 얼굴 표정의 특징점 데이터와 비교하여 특징점 기반 감정 인식 결과를 제공하는 특징점 기반 감정 인식부(720); 입력 얼굴 영상과 상기 N개의 얼굴 특징점 좌표들을 입력받아 얼굴 특징점 좌표를 중심으로 가로, 세로가 W 픽셀의 길이를 가지는 정사각형 패치를 얼굴 영상으로부터 추출하여 결과적으로 총 N개의 영상 패치
Figure pat00007
를 제공하는 영상 패치 추출부(730); 상기 영상 패치 추출부(730)로부터 상기 총 N개의 영상 패치
Figure pat00008
를 입력받고, 영상 패치 기반 감정 인식 결과
Figure pat00009
를 제공하는 영상 패치 기반 감정 인식부(740); 및 상기 특징점 기반 감정 인식부 및 상기 영상 패치 기반 감정 인식부로부터 각각 특징점 기반 감정 인식 결과
Figure pat00010
와 영상 패치 기반 감정 인식 결과
Figure pat00011
를 입력받아 최종 감정 인식 결과
Figure pat00012
를 출력하는 감정 인식 결과 융합부(770)를 포함한다.
상기 감정 인식 결과 융합부(770)는
Figure pat00013
Figure pat00014
는 모두 M 차원의 벡터로 M개의 감정 카테고리에 대한 확률 분포를 나타내며, 그렇게 추정된 두 개의 감정 인식 결과 벡터는 상기 감정 인식 결과 융합부로 입력되고, 최종 감정 인식 결과
Figure pat00015
가 계산되고,
이는
Figure pat00016
의 관계식을 통해 특징점 기반 감정 인식 결과 벡터와 영상 패치 기반 감정 인식 결과 벡터의 가중치 평균으로 계산될 수 있으며, 여기서 α는 특징점 기반 감정 인식 결과에 대한 가중치를 나타내며,
인식된 감정의 카테고리
Figure pat00017
는 가장 높은 확률을 가지는 감정의 인덱스
Figure pat00018
로 계산되어 감정 인식 시스템의 최종 감정 인식 결과가 출력된다.
특허 등록번호 10-2147052 (등록일자 2020년 08월 17일), " 얼굴 영상 기반의 감정 인식 시스템 및 방법", 광운대학교 산학협력단, 장주용
상기 문제점을 해결하기 위한 본 발명의 목적은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하여 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 감정 상태에 맞게끔 변형하여 출력하는, 감정 기반의 얼굴 영상 생성 시스템을 제공한다.
본 발명의 다른 목적은 감정 기반의 얼굴 영상 생성 방법을 제공한다.
본 발명의 목적을 달성하기 위해, 감정 기반의 얼굴 영상 생성 시스템은 입력 얼굴 영상
Figure pat00019
을 입력받고 두 스칼라 변수
Figure pat00020
,
Figure pat00021
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상
Figure pat00022
에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00023
,
Figure pat00024
과 함께 얼굴 영상 생성부에 입력하는 얼굴 특징 추출부; 및 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
Figure pat00025
,
Figure pat00026
를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
Figure pat00027
의 사람이 입력 감정 정보(
Figure pat00028
,
Figure pat00029
)와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부를 포함한다.
본 발명의 다른 목적을 달성하기 위해, 감정 기반의 얼굴 영상 생성 방법은 (a) 입력 얼굴 영상
Figure pat00030
을 입력받고 두 스칼라 변수
Figure pat00031
,
Figure pat00032
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 얼굴 특징 추출부가 상기 입력 얼굴 영상
Figure pat00033
에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00034
,
Figure pat00035
과 함께 얼굴 영상 생성부로 입력하는 단계; 및 (b) 상기 얼굴 영상 생성부가 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
Figure pat00036
,
Figure pat00037
를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
Figure pat00038
의 사람이 입력 감정 정보(
Figure pat00039
,
Figure pat00040
)와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 단계를 포함한다.
본 발명의 감정 기반의 얼굴 영상 생성 시스템 및 방법은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하여 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 감정 상태에 맞게끔 변형하여 출력하는 효과가 있다.
인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 우리가 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되었음을 검증하였다.
도 1은 감정 인식 시스템의 개념도이다.
도 2는 기존 감정 인식 시스템의 블록도이다.
도 3은 감정 표현을 위한 Valence/Arousal 모델의 예를 나타낸다.
도 4는 본 발명에서 제안하는 감정 기반 얼굴 영상 생성 시스템의 개념도이다.
도 5는 본 발명에 따른 감정 기반 얼굴 영상 생성 시스템의 블록도이다.
도 6은 본 발명에서 제안하는 감정 기반 얼굴 영상 생성 방법을 나타낸 그림이다.
도 7은 감정 기반 얼굴 영상 생성 시스템의 인코더-디코더 학습 방법을 나타낸 그림이다.
도 8은 ResNet34를 이용한 감정 인식 모델을 보인 그림이다.
도 9는 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (1), (2) 화면이다.
도 10은 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (3), (4) 화면이다.
도 11은 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (5), (6) 화면이다.
도 12는 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (7), (8) 화면이다.
도 13은 AffectNet 데이터 분포를 히스토그램으로 표현한 것이다.
도 14a, 14b는 제안하는 방법을 이용하여 학습된 모델을 가지고 AffectNet 데이터셋의 validation 데이터에 대하여 감정 인식 결과를 보여준다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 발명의 구성 및 동작을 상세하게 설명한다. 본 발명의 설명에 있어서 관련된 공지의 기술 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 자세한 설명을 생략한다. 또한, 첨부된 도면 번호는 동일한 구성을 표기할 때에 다른 도면에서 동일한 도면번호를 부여한다.
본 발명의 감정 기반의 얼굴 영상 생성 시스템 및 방법은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하여 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 감정 상태에 맞게끔 변형하여 출력한다.
실시예에서는 대상 사람의 얼굴 영상과 감정 상태를 입력으로 받고 대상 사람의 얼굴 영상을 입력으로 주어진 감정 상태에 맞게끔 변형하여 출력하는 감정 기반의 얼굴 영상 생성 시스템을 제안한다. 사람의 감정을 표현하는 방법은 대표적인 것으로 Valence/Arousal 모델이 사용된다. 이는 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합하여 사람의 감정을 표현하는 모델이다. Valence/Arousal 모델이 표현할 수 있는 다양한 감정들을 도식화하여 도 3에 나타냈다.
도 3은 감정 표현을 위한 Valence/Arousal 모델의 예를 나타낸다.
도 4는 본 발명에서 제안하는 감정 기반 얼굴 영상 생성 시스템의 개념도이다. 감정 기반 얼굴 영상 생성 시스템의 개요는 도 4에 나타나 있다. 제안된 시스템은 얼굴 영상과 감정을 나타내는 Target Valence 및 Target Arousal 값을 입력으로 받는다. 입력 얼굴 영상은 인공 신경망(Artificial Neural Network)로 구성된 Encoder에 입력되어 세 가지 은닉 변수(Latent Variables)를 출력한다. 첫번째는 입력 얼굴 영상에서 감정을 제외한 나머지 특징을 포함하는 Appearance 변수이며, 두번째와 세번째는 각각 입력 얼굴 영상의 감정을 나타내는 Source Valence 변수와 Source Arousal 변수이다. 이제, Encoder가 출력한 Appearance 변수와 제안된 시스템의 또 다른 입력인 Target Valence 및 Target Arousal 변수는 인공 신경망으로 구성된 Decoder에 입력된다. Decoder는 Appearance 변수가 표현하는 입력 영상 속의 사람 얼굴이 Target Valence 및 Target Arousal이 표현하는 감정 상태에 맞게끔 변형하여 출력하는 역할을 수행한다.
도 5는 본 발명에 따른 감정 기반 얼굴 영상 생성 시스템의 블록도이다.
감정 기반 얼굴 영상 생성 시스템의 구체적인 절차는 다음과 같다.
감정 기반의 얼굴 영상 생성 시스템은
입력 얼굴 영상
Figure pat00041
을 입력받고 두 스칼라 변수
Figure pat00042
,
Figure pat00043
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상
Figure pat00044
에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00045
,
Figure pat00046
과 함께 얼굴 영상 생성부로 입력하는 얼굴 특징 추출부(100); 및
상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
Figure pat00047
,
Figure pat00048
를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
Figure pat00049
의 사람이 입력 감정 정보(
Figure pat00050
,
Figure pat00051
)와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부(200)를 포함한다.
본 발명의 감정 기반의 얼굴 영상 생성 방법은
(a) 입력 얼굴 영상
Figure pat00052
을 입력받고 두 스칼라 변수
Figure pat00053
,
Figure pat00054
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 얼굴 특징 추출부가 상기 입력 얼굴 영상
Figure pat00055
에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00056
,
Figure pat00057
과 함께 얼굴 영상 생성부로 입력하는 단계; 및
(b) 상기 얼굴 영상 생성부가 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
Figure pat00058
,
Figure pat00059
를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
Figure pat00060
의 사람이 입력 감정 정보(
Figure pat00061
,
Figure pat00062
)와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 단계를 포함한다.
상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고,
상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용한다.
먼저, 입력 얼굴 영상
Figure pat00063
는 얼굴 특징 추출부로 입력되어 얼굴의 Appearance 정보를 포함하는 32차원의 벡터
Figure pat00064
와 감정 정보를 포함하는 두 스칼라 변수
Figure pat00065
,
Figure pat00066
을 출력한다.
감정 기반 얼굴 영상 생성 시스템의 목표는 입력 얼굴 영상
Figure pat00067
을 두 스칼라 변수
Figure pat00068
,
Figure pat00069
로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력한다. 이를 위해 입력 얼굴 영상에서 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
Figure pat00070
,
Figure pat00071
과 함께 얼굴 영상 생성부로 입력한다.
얼굴 영상 생성부는 입력 얼굴 영상의 사람이 입력 감정 정보와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 반환한다.
I. 감정 기반 얼굴 영상 생성 시스템
1.1. 감정 기반 얼굴 영상 생성 시스템의 개요
Dimensional Model 기반으로 딥러닝을 이용한 감정 인식을 수행하려고 할 때, 사용할 수 있는 대부분의 데이터셋은 데이터 불균형 문제가 존재한다. 따라서, 우리는 감정 인식 모델을 학습하기 전에, 인코더-디코더를 통해 불균일한 분포를 가지는 데이터셋(dataset)의 데이터 분포를 균일하게 만들려고 하였다.
도 6은 본 발명에서 제안하는 감정 기반 얼굴 영상 생성 방법을 나타낸 그림이다.
인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력한다. 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함한다.
인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있다. 균일한 데이터셋을 만들기 위해, 우리는 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성한다. 새로운 valence와 arousal의 값은
Figure pat00072
의 범위에서 uniform sampling을 통해 얻어진다. 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성한다. 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용된다.
앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력으로 받아 그 영상에 대응하는 valence와 arousal의 값을 출력한다.
1.2. 인코더-디코더 구조
도 7은 감정 기반 얼굴 영상 생성 시스템의 인코더-디코더 학습 방법을 나타낸 그림이다.
제안하는 인코더-디코더 네트워크의 목표는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는 것이다. 인코더-디코더 네트워크의 전체적인 구조는 도 7과 같다. 인코더는 3 x 64 x 64 영상 I을 입력으로 받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력한다. 디코더는 32차원의 latent vector를 입력으로 받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지
Figure pat00073
을 출력한다.
그러나, 인코더를 통해 출력되는 latent vector는 우리가 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타낸다고 보장할 수 없다. 따라서 이를 보장하도록 학습하는 것이 필요하다. 인코더-디코더의 전체적인 학습 방법은 도 7과 같다. 먼저 동일한 사람의 이미지 두 장을 가져온다.
Figure pat00074
는 각각 동일한 사람에 대한
Figure pat00075
번째 이미지이다.
Figure pat00076
번째 이미지를 인코더에 통과시켜서 우리는 appearance feature와 valence 값
Figure pat00077
, arousal 값
Figure pat00078
를 얻는다. 예측된
Figure pat00079
Figure pat00080
는 각각 i번째 이미지에 대응하는 실제 valence 값
Figure pat00081
와 arousal 값
Figure pat00082
와 같아야 한다. 이를 위해 다음의 식 (1)과 같이 loss를 정의한다.
Figure pat00083
(1)
그리고
Figure pat00084
번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와
Figure pat00085
번째 이미지
Figure pat00086
에 해당하는 실제 valence 값
Figure pat00087
, 실제 arousal 값
Figure pat00088
로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는
Figure pat00089
번째 이미지를 생성해야 한다. 왜냐하면 그 두 영상은 동일한 사람의 얼굴 영상이기 때문이다. 즉, 디코더를 통해 생성된 이미지
Figure pat00090
는 실제
Figure pat00091
번째 이미지
Figure pat00092
와 같아야 한다. 이를 위해 다음의 식 (2)와 같이 loss를 정의한다. 여기서
Figure pat00093
는 각각 영상의 채널의 수, 가로, 세로를 의미한다.
Figure pat00094
(2)
이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같다. 여기서
Figure pat00095
Figure pat00096
는 각각
Figure pat00097
Figure pat00098
의 세기를 조절하기 위해 사용되는 가중치이다.
Figure pat00099
(3)
1.3. 감정 인식을 위한 모델
감정 인식을 위한 모델은 컴퓨터 비전에서 널리 사용되고 있는 ResNet34를 사용하였다. 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였다. 감정 인식을 위해 변형된 ResNet34 구조는 도 8과 같다.
도 8은 ResNet34를 이용한 감정 인식 모델을 보인 그림이다.
감정 인식을 수행하고자 하는 얼굴 이미지를224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 되어야 한다.
감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같다. 여기서 V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고,
Figure pat00100
Figure pat00101
는 감정 인식 모델이 예측한 valence와 arousal 값이다.
Figure pat00102
(4)
2. 실험
2.1. 구현 세부사항
인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였다. 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있다. AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델[5]을 사용하였다. 우리는 학습 알고리즘으로 Adam을 사용하였고, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하였다.
Figure pat00103
Figure pat00104
는 각각 0.5로 설정하였다.
ResNet34를 학습하기 위한 데이터셋으로는 AffectNet을 사용하였다. 학습 데이터와 테스트 데이터는 각각 320,730장과 4,500장의 이미지로 구성되어 있다. AffectNet은 얼굴 영역의 bounding box 정보를 포함하고 있기 때문에, 우리는 AffectNet의 bounding box 정보를 그대로 사용하였다. 우리는 학습 알고리즘으로 Adam을 사용하였고, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하였다.
2.2. 인코더-디코더 이미지 생성 결과
도 9 내지 도 12는 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과를 보여준다. 가로는 -0.4에서 0.4까지의 범위에서 0.1의 간격을 기준으로 sampling 된 valence 값이고, 세로는 -0.3에서 0.3까지의 범위에서 0.1의 간격을 기준으로 sampling 된 arousal 값이다. 우리가 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되었음을 알 수 있다.
도 9는 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (1), (2) 화면이다.
도 10은 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (3), (4) 화면이다.
도 11은 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (5), (6) 화면이다.
도 12는 인코더-디코더가 입력 이미지와 valence, arousal 값에 대응한 새로운 이미지를 생성한 결과 (7), (8) 화면이다.
2.3. 감정 인식 모델 성능 비교
본 연구에서는 감정 인식 모델의 성능을 정량적으로 평가하기 위한 evaluation metric으로 RMSE(Root Mean Square Error), CORR(Correlation Coefficient), CCC(Concordance Correlation Coefficient), SAGR(Sign Agreement Metric)를 사용하였다. RMSE, CORR, CCC, SAGR의 식은 각각 식 (5), (6), (7), (8)과 같다. 여기서
Figure pat00105
는 각각 실제값과 예측값,
Figure pat00106
은 데이터 수,
Figure pat00107
는 평균,
Figure pat00108
는 표준편차,
Figure pat00109
은 부호를 의미한다. RMSE는 실제값과 예측값의 차이를 제곱하고 그 값에 제곱근을 설정한 값이다. RMSE는 값이 작을수록 실제값과 예측값 차이가 적어 더 좋은 성능을 의미한다. CORR은 피어슨 상관계수이고, CCC는 피어슨 상관계수를 변형하여 만들어진 일치 상관계수이다. CORR과 CCC는 값이 클수록 실제값과 예측값의 유사도가 크기 때문에 더 좋은 성능을 의미한다. SAGR은 실제값과 예측값의 부호가 얼마나 동일한지 알려주는 metric이다. SAGR은 값이 클수록 더 좋은 성능을 의미한다.
RMSE
Figure pat00110
(5)
CORR
Figure pat00111
(6)
CCC
Figure pat00112
(7)
SAGR
Figure pat00113
(8)
표 1은 ResNet34와 제안하는 방법의 성능을 비교한 표이다.
Figure pat00114
표 1은 제안하는 모델 ResNet34를 불균일한 분포를 가지는 데이터셋을 사용하여 학습한 결과와 인코더-디코더를 사용하여 학습한 결과의 성능을 보여준다. 제안하는 방법은 총 4번이 실험되었다. 4번의 실험의 valence에 대한 평균 RMSE, CORR, CCC, SAGR은 각각 0.400, 0.614, 0.575, 0.746으로서 불균일한 분포를 가지는 데이터로 학습된 ResNet34보다 좋은 결과를 보였다. 또한, arousal에 대한 평균 RMSE, CORR, CCC, SAGR은 각각 0.355, 0.538, 0.502, 0.755로서 마찬가지로 불균일한 분포를 가진 데이터셋을 사용하여 학습된 ResNet34보다 좋은 결과를 보였다.
표 2는 제안하는 방법과 under-sampling방법의 성능을 비교한 표이다.
Figure pat00115
Figure pat00116
표 2와 표 3은 각각 데이터 불균형 문제를 해결하기 위해 기존에 제안된 Under-sampling, Over-sampling 방법과 본 발명에서 제안된 방법의 정량적인 비교를 보여준다. Under-sampling과 Over-sampling은 모두 Random Under-sampler, Random Over-sampler를 이용하였고, Over-sampler에서 데이터를 생성할 때, 기존에 있는 데이터셋의 데이터를 복제하는 방법을 사용했다.
도 13은 AffectNet 데이터 분포를 히스토그램으로 표현한 것이다.
표 2에서 boundary가 100인 Under-sampling은 만약 히스토그램의 bin에 속한 데이터가 100개 이상이면, bin에서 랜덤으로 100개만 선택하여 모델을 학습하는데 사용되는 방법이다. 마찬가지로 boundary가 500, 1,000인 Under-sampling은 히스토그램의 bin에 속한 데이터가 500, 1,000개 이상이면, bin에서 랜덤으로 500, 1,000개만 선택하여 모델을 학습하는데 사용되는 방법이다. Boundary가 100인 Over-sampling은 히스토그램의 bin에 속한 데이터가 100개 이하일 경우, bin에 속한 데이터를 100개가 될 때까지 복제하여 모델을 학습하는데 사용되는 방법이다. Boundary가 500, 1,000개인 Over-sampling은 히스토그램 bin에 속한 데이터가 500, 1,000개 이하일 경우, bin에 속한 데이터를 500, 1,000개가 될 때까지 복제하여 모델을 학습하는데 사용되는 방법이다. Under-sampling, Over-sampling에서 사용한 감정 인식 모델은 ResNet34이다. 총 4번의 실험을 진행하였고, 결과적으로 표 2와 표 3에서 본 발명에서 제안한 인코더-디코더 구조를 이용한 감정 인식 모델 학습 방법은 Under-sampling과 Over-sampling을 이용한 방법보다 더 좋은 성능을 보인다.
Figure pat00117
표 4는 제안하는 방법과 AffectNet[20] 논문의 모델과의 성능을 비교한 표이다. AffectNet[20]에서는 valence와 arousal 값을 예측하도록 만들기 위해 AlexNet과 SVR 모델의 softmax layer를 제거하고, linear layer를 추가하였다. 제안하는 방법은 valence와 arousal를 예측에 있어서 SVR에 비해 좋은 성능을 가진다. 그러나, AlexNet에 비해 제안하는 방법은 arousal 예측 성능은 좋지만, valence 예측 성능은 다소 떨어짐을 알 수 있다.
도 14a, 14b는 제안하는 방법을 이용하여 학습된 모델을 가지고 AffectNet 데이터셋의 validation 데이터에 대하여 감정 인식 결과를 보여준다. 여기서
Figure pat00118
는 각각 데이터의 실제 valence, arosual 값을 의미하고,
Figure pat00119
는 각각 모델이 예측한 valence와 arosual 값을 의미한다.
Figure pat00120
는 실제 valence 값과
Figure pat00121
와 모델이 예측한 값
Figure pat00122
과의 차이를,
Figure pat00123
는 실제 arousal 값
Figure pat00124
와 모델이 예측한 값
Figure pat00125
과의 차이를의미한다. 그림을 참조하면 대체적으로 제안하는 방법이 실제 valence와 arousal의 값과 유사한 값을 예측한다. 그러나, 대부분의 얼굴의 회전 이미지에 대해서는 제안하는 방법의 성능이 저하되어 실제값과 예측값 사이의 큰 오차가 발생하였다.
감정 기반의 얼굴 영상 생성 시스템은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하여 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 입력 감정 상태(V/A)에 맞게끔 변형하여 출력하게 되었다.
인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 우리가 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되었음을 검증하였다.
본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되고 컴퓨터 판독 가능 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조를 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 기록 매체는 스토리지, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 저장 매체에 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예는 컴파일러에 의해 만들어지는 것과, 기계어 코드뿐만 아니라 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로써 작동하도록 구성될 수 있다.
이상에서 설명한 바와 같이, 본 발명의 방법은 프로그램으로 구현되어 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 형태로 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 저장될 수 있다.
본 발명의 구체적인 실시예를 참조하여 설명하였지만, 본 발명은 상기와 같이 기술적 사상을 예시하기 위해 구체적인 실시 예와 동일한 구성 및 작용에만 한정되지 않고, 본 발명의 기술적 사상과 범위를 벗어나지 않는 한도 내에서 다양하게 변형하여 실시될 수 있다. 따라서, 그와 같은 변형도 본 발명의 범위에 속하는 것으로 간주해야 하며, 본 발명의 범위는 후술하는 특허청구범위에 의해 결정되어야 한다.
100: 얼굴 특징 추출부
200: 얼굴 영상 생성부

Claims (14)

  1. 입력 얼굴 영상
    Figure pat00126
    을 입력받고 두 스칼라 변수
    Figure pat00127
    ,
    Figure pat00128
    로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상
    Figure pat00129
    에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
    Figure pat00130
    ,
    Figure pat00131
    과 함께 얼굴 영상 생성부에 입력하는 얼굴 특징 추출부; 및
    상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
    Figure pat00132
    ,
    Figure pat00133
    를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
    Figure pat00134
    의 사람이 입력 감정 정보(
    Figure pat00135
    ,
    Figure pat00136
    )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부;
    를 포함하는 감정 기반의 얼굴 영상 생성 시스템.
  2. 제1항에 있어서,
    상기 입력 얼굴 영상
    Figure pat00137
    는 상기 얼굴 특징 추출부로 입력되고 얼굴의 Appearance 정보를 포함하는 32차원의 벡터
    Figure pat00138
    와 감정 정보를 포함하는 두 스칼라 변수
    Figure pat00139
    ,
    Figure pat00140
    을 출력하는, 감정 기반의 얼굴 영상 생성 시스템.
  3. 제1항에 있어서,
    상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고,
    상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 시스템.
  4. 제1항에 있어서,
    인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,
    상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은
    Figure pat00141
    의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며,
    앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며,
    즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 시스템.
  5. 제4항에 있어서,
    인코더-디코더 네트워크의 전체적인 구조에서,
    인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지
    Figure pat00142
    을 출력하며,
    상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며,
    인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며,
    Figure pat00143
    는 각각 동일한 사람에 대한
    Figure pat00144
    번째 이미지이고,
    Figure pat00145
    번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값
    Figure pat00146
    , arousal 값
    Figure pat00147
    를 얻으며, 예측된
    Figure pat00148
    Figure pat00149
    는 각각 i번째 이미지에 대응하는 실제 valence 값
    Figure pat00150
    와 arousal 값
    Figure pat00151
    와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고,
    Figure pat00152
    (1)
    그리고
    Figure pat00153
    번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와
    Figure pat00154
    번째 이미지
    Figure pat00155
    에 해당하는 실제 valence 값
    Figure pat00156
    , 실제 arousal 값
    Figure pat00157
    로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는
    Figure pat00158
    번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지
    Figure pat00159
    는 실제
    Figure pat00160
    번째 이미지
    Figure pat00161
    와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고,
    Figure pat00162
    (2)
    여기서
    Figure pat00163
    는 각각 영상의 채널의 수, 가로, 세로를 의미하며,
    이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고,
    Figure pat00164
    (3)
    여기서
    Figure pat00165
    Figure pat00166
    는 각각
    Figure pat00167
    Figure pat00168
    의 세기를 조절하기 위해 사용되는 가중치이며,
    감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며,
    감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며
    감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며,
    Figure pat00169
    (4)
    여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고,
    Figure pat00170
    Figure pat00171
    는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 시스템.
  6. 제1항에 있어서,
    상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하고,
    Figure pat00172
    Figure pat00173
    는 각각 0.5로 설정하였으며,
    ResNet34를 학습하기 위한 데이터셋은 AffectNet을 사용하였고, 학습 데이터와 테스트 데이터는 각각 320,730장과 4,500장의 이미지로 구성되어 있고, AffectNet은 얼굴 영역의 bounding box 정보를 포함하고 있기 때문에, AffectNet의 bounding box 정보를 그대로 사용하였으며, 학습 알고리즘으로 Adam을 사용하였고, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하여 인코더-디코더 이미지 생성 결과를 제공하는, 감정 기반의 얼굴 영상 생성 시스템.
  7. 제1항에 있어서,
    인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 시스템.
  8. (a) 입력 얼굴 영상
    Figure pat00174
    을 입력받고 두 스칼라 변수
    Figure pat00175
    ,
    Figure pat00176
    로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 얼굴 특징 추출부가 상기 입력 얼굴 영상
    Figure pat00177
    에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보
    Figure pat00178
    ,
    Figure pat00179
    과 함께 얼굴 영상 생성부로 입력하는 단계; 및
    (b) 상기 얼굴 영상 생성부가 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보
    Figure pat00180
    ,
    Figure pat00181
    를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상
    Figure pat00182
    의 사람이 입력 감정 정보(
    Figure pat00183
    ,
    Figure pat00184
    )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 단계;
    를 포함하는 감정 기반의 얼굴 영상 생성 방법.
  9. 제8항에 있어서,
    상기 입력 얼굴 영상
    Figure pat00185
    는 상기 얼굴 특징 추출부로 입력되어 얼굴의 Appearance 정보를 포함하는 32차원의 벡터
    Figure pat00186
    와 감정 정보를 포함하는 두 스칼라 변수
    Figure pat00187
    ,
    Figure pat00188
    을 출력하는, 감정 기반의 얼굴 영상 생성 방법.
  10. 제8항에 있어서,
    상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고, 상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 방법.
  11. 제8항에 있어서,
    인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,
    상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은
    Figure pat00189
    의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며,
    앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며,
    즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 방법.
  12. 제11항에 있어서,
    인코더-디코더 네트워크의 전체적인 구조에서,
    인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지
    Figure pat00190
    을 출력하며,
    상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며,
    인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며,
    Figure pat00191
    는 각각 동일한 사람에 대한
    Figure pat00192
    번째 이미지이고,
    Figure pat00193
    번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값
    Figure pat00194
    , arousal 값
    Figure pat00195
    를 얻으며, 예측된
    Figure pat00196
    Figure pat00197
    는 각각 i번째 이미지에 대응하는 실제 valence 값
    Figure pat00198
    와 arousal 값
    Figure pat00199
    와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고,
    Figure pat00200
    (1)
    그리고
    Figure pat00201
    번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와
    Figure pat00202
    번째 이미지
    Figure pat00203
    에 해당하는 실제 valence 값
    Figure pat00204
    , 실제 arousal 값
    Figure pat00205
    로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는
    Figure pat00206
    번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지
    Figure pat00207
    는 실제
    Figure pat00208
    번째 이미지
    Figure pat00209
    와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고,
    Figure pat00210
    (2)
    여기서
    Figure pat00211
    는 각각 영상의 채널의 수, 가로, 세로를 의미하며,
    이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고,
    Figure pat00212
    (3)
    여기서
    Figure pat00213
    Figure pat00214
    는 각각
    Figure pat00215
    Figure pat00216
    의 세기를 조절하기 위해 사용되는 가중치이며,
    감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며,
    감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며
    감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며,
    Figure pat00217
    (4)
    여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고,
    Figure pat00218
    Figure pat00219
    는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 방법.
  13. 제8항에 있어서,
    상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하고,
    Figure pat00220
    Figure pat00221
    는 각각 0.5로 설정하였으며,
    ResNet34를 학습하기 위한 데이터셋은 AffectNet을 사용하였고, 학습 데이터와 테스트 데이터는 각각 320,730장과 4,500장의 이미지로 구성되어 있고, AffectNet은 얼굴 영역의 bounding box 정보를 포함하고 있기 때문에, AffectNet의 bounding box 정보를 그대로 사용하였으며, 학습 알고리즘으로 Adam을 사용하였고, learning rate, batch size, number of epoch를 각각 0.0001, 64, 50으로 설정하여 인코더-디코더 이미지 생성 결과를 제공하는, 감정 기반의 얼굴 영상 생성 방법.
  14. 제8항에 있어서,
    상기 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 방법.
KR1020200137135A 2020-10-21 2020-10-21 감정 기반의 얼굴 영상 생성 시스템 및 방법 KR102472110B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200137135A KR102472110B1 (ko) 2020-10-21 2020-10-21 감정 기반의 얼굴 영상 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200137135A KR102472110B1 (ko) 2020-10-21 2020-10-21 감정 기반의 얼굴 영상 생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220052789A true KR20220052789A (ko) 2022-04-28
KR102472110B1 KR102472110B1 (ko) 2022-11-28

Family

ID=81446804

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200137135A KR102472110B1 (ko) 2020-10-21 2020-10-21 감정 기반의 얼굴 영상 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102472110B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240062218A (ko) 2022-10-28 2024-05-09 삼성에스디에스 주식회사 온라인 커뮤니케이션 서비스에서의 프로필 이미지 보정 방법 및 그 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170043256A (ko) * 2015-10-13 2017-04-21 재단법인대구경북과학기술원 영상 분석 방법 및 장치
KR20170079680A (ko) * 2015-12-30 2017-07-10 단국대학교 산학협력단 가중치 보간 맵을 이용한 표정 합성 장치 및 방법
KR20180070170A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 표정 생성 방법, 표정 생성 장치 및 표정 생성을 위한 학습 방법
KR102147052B1 (ko) 2018-11-16 2020-08-21 광운대학교 산학협력단 얼굴 영상 기반의 감정 인식 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170043256A (ko) * 2015-10-13 2017-04-21 재단법인대구경북과학기술원 영상 분석 방법 및 장치
KR20170079680A (ko) * 2015-12-30 2017-07-10 단국대학교 산학협력단 가중치 보간 맵을 이용한 표정 합성 장치 및 방법
KR20180070170A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 표정 생성 방법, 표정 생성 장치 및 표정 생성을 위한 학습 방법
KR102147052B1 (ko) 2018-11-16 2020-08-21 광운대학교 산학협력단 얼굴 영상 기반의 감정 인식 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240062218A (ko) 2022-10-28 2024-05-09 삼성에스디에스 주식회사 온라인 커뮤니케이션 서비스에서의 프로필 이미지 보정 방법 및 그 장치

Also Published As

Publication number Publication date
KR102472110B1 (ko) 2022-11-28

Similar Documents

Publication Publication Date Title
Zahara et al. The facial emotion recognition (FER-2013) dataset for prediction system of micro-expressions face using the convolutional neural network (CNN) algorithm based Raspberry Pi
KR102147052B1 (ko) 얼굴 영상 기반의 감정 인식 시스템 및 방법
EP3885965B1 (en) Image recognition method based on micro facial expressions, apparatus and related device
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
US8837786B2 (en) Face recognition apparatus and method
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
Tian et al. Ear recognition based on deep convolutional network
CN103605972A (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN107832740B (zh) 一种远程教学的教学质量评估方法及系统
KR20090065965A (ko) 3차원 영상 모델 생성 방법 및 장치, 이를 이용한 영상인식 방법 및 장치 그리고 상기 방법들을 수행하는프로그램이 기록된 기록 매체
AbdelRaouf et al. Handwritten signature verification using haar cascade classifier approach
Tin Perceived gender classification from face images
KR102472110B1 (ko) 감정 기반의 얼굴 영상 생성 시스템 및 방법
Jatain et al. Automatic human face detection and recognition based on facial features using deep learning approach
Vyas et al. Face recognition using feature extraction and neuro-fuzzy techniques
Scherhag Face Morphing and Morphing Attack Detection
CN113205044B (zh) 一种基于表征对比预测学习的深度伪造视频检测方法
CN111428670B (zh) 人脸检测方法、装置、存储介质及设备
Dong 3D face recognition neural network for digital human resource management
Abdulabas et al. Face information forensics analysis based on facial aging: A Survey
Sharma et al. Study and implementation of face detection algorithm using Matlab
Singh et al. DLDFD: Recurrence Free 2D Convolution Approach for Deep Fake Detection.
Una et al. Classification technique for face-spoof detection in artificial neural networks using concepts of machine learning
Nourmohammadi Face manipulation detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant