KR20190081243A - 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법 - Google Patents

정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법 Download PDF

Info

Publication number
KR20190081243A
KR20190081243A KR1020170183638A KR20170183638A KR20190081243A KR 20190081243 A KR20190081243 A KR 20190081243A KR 1020170183638 A KR1020170183638 A KR 1020170183638A KR 20170183638 A KR20170183638 A KR 20170183638A KR 20190081243 A KR20190081243 A KR 20190081243A
Authority
KR
South Korea
Prior art keywords
expression
input image
power
neural network
expressive power
Prior art date
Application number
KR1020170183638A
Other languages
English (en)
Other versions
KR102564854B1 (ko
Inventor
김영성
최창규
유병인
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170183638A priority Critical patent/KR102564854B1/ko
Priority to US16/168,177 priority patent/US10891468B2/en
Publication of KR20190081243A publication Critical patent/KR20190081243A/ko
Application granted granted Critical
Publication of KR102564854B1 publication Critical patent/KR102564854B1/ko

Links

Images

Classifications

    • G06K9/00302
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

일 실시예에 따른 표정 인식 방법, 및 표정 인식 장치는 사용자의 얼굴을 포함하는 입력 영상으로부터 추출된 특징에 기초하여 입력 영상의 표정 및 표정의 표현 강도에 대응하는 입력 영상의 표현력을 추정하고, 입력 영상의 표현력을 정규화한 전역적 표현력에 기초하여 표정을 인식한다.

Description

정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법{METHOD AND APPARATUS OF RECOGNIZING FACIAL EXPRESSION BASED ON NORMALIZED EXPRESSIVENESS AND LEARNING METHOD OF RECOGNIZING FACIAL EXPRESSION}
아래 실시예들은 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법에 관한 것이다.
표정은 신경 자극에 의해 유발되는 얼굴 근육들의 활동에 의해 형성된다. 얼굴 표정은 입력 영상으로부터 추출된 시각적 단서들에 대한 이미지 처리에 의해 인식될 수 있다.
개인마다의 표현력 또는 표정 변화는 서로 상이하므로 동일 표정이라 하더라도 최대 표현력의 크기에는 차이가 발생할 수 있다. 이러한 개인 별 최대 표현력의 상대적 차이를 고려하지 않는 경우, 표정의 표현력을 감정 인식을 위한 지표로 사용하는 데에 큰 어려움이 발생할 수 있다.
일 측에 따르면, 표정 인식 방법은 사용자의 얼굴을 포함하는 입력 영상을 획득하는 단계; 상기 입력 영상으로부터 특징(feature)을 추출하는 단계; 상기 특징에 기초하여 상기 입력 영상의 표정(expression) 및 상기 표정의 표현 강도에 대응하는 상기 입력 영상의 표현력(expressiveness)을 추정하는 단계; 상기 입력 영상의 표현력을 전역적 표현력(global expressiveness)으로 정규화(normalize)하는 단계; 및 상기 전역적 표현력에 기초하여 상기 표정을 인식하는 단계를 포함한다.
상기 입력 영상은 단일 프레임을 포함하는 단일 영상, 및 복수의 프레임들을 포함하는 연속 영상 중 어느 하나를 포함할 수 있다.
상기 특징을 추출하는 단계는 서로 다른 표현력을 갖는 표정이 학습된 레이어들(layers)을 포함하는 제1 신경망을 이용하여 상기 입력 영상의 표정에 대한 특징을 추출하는 단계를 포함할 수 있다.
상기 입력 영상의 표정 및 상기 입력 영상의 표현력을 추정하는 단계는 상기 입력 영상의 표정을 분류하도록 학습된 분류기(classifier)에 상기 특징을 인가하여 상기 입력 영상의 표정을 추정하는 단계; 및 상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망에 상기 특징을 인가하여 상기 입력 영상의 표현력을 추정하는 단계 중 어느 하나 또는 이들의 조합을 포함할 수 있다.
상기 정규화하는 단계는 상기 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에, 상기 입력 영상의 표현력을 인가하여 상기 입력 영상의 표현력을 전역적으로 순위화하는 단계; 및 미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 입력 영상의 표현력을 상기 전역적 표현력으로 정규화하는 단계를 포함할 수 있다.
상기 정규화 함수는 상기 입력 영상의 표현력의 최대값 및 상기 입력 영상의 표현력의 최소값에 기초할 수 있다.
상기 특징을 추출하는 단계는 서로 다른 표현력을 갖는 표정이 학습된 레이어들을 포함하는 제1 신경망들을 이용하여 상기 입력 영상의 복수의 프레임들 각각의 표정에 대한 특징들을 추출하는 단계를 포함할 수 있다.
상기 입력 영상의 표정 및 상기 입력 영상의 표현력을 추정하는 단계는 상기 입력 영상의 표정을 분류하도록 학습된 분류기들에 상기 특징들을 인가함으로써 상기 복수의 프레임들 각각의 표정을 추정하는 단계; 및 상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망들에 상기 특징들을 인가함으로써 상기 복수의 프레임들 각각의 표현력을 추정하는 단계 중 어느 하나 또는 이들의 조합을 포함할 수 있다.
상기 정규화하는 단계는 상기 복수의 프레임들 각각의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에, 상기 복수의 프레임들 각각의 표현력을 인가하여 상기 복수의 프레임들 각각의 표현력을 전역적으로 순위화하는 단계; 및 미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 복수의 프레임들 각각의 표현력을 상기 전역적 표현력으로 정규화하는 단계를 포함할 수 있다.
상기 표정 인식 방법은 상기 입력 영상에, 상기 입력 영상에 대응하는 전역적 표현력을 레이블링(labeling)하는 단계를 더 포함할 수 있다.
일 측에 따르면, 표정 인식을 위한 학습 방법은 서로 다른 표정 및 상기 서로 다른 표정의 표현력들에 대응하는 트레이닝 영상들을 획득하는 단계; 제1 신경망을 이용하여 상기 트레이닝 영상들 각각의 표정에 대한 특징을 추출하는 단계; 상기 특징에 기초하여 상기 트레이닝 영상들 각각의 표정을 분류하는 단계; 상기 특징에 기초하여 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 제2 신경망을 학습하는 단계; 및 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하는 제3 신경망을 학습하는 단계를 포함한다.
상기 표정 인식을 위한 학습 방법은 얼굴 영상의 표정에 대한 특징을 추출하는 공유된 컨볼루션 레이어들(shared convolution layers)을 포함하는 상기 제1 신경망에 상기 트레이닝 영상들을 인가함으로써 상기 제1 신경망을 학습하는 단계를 더 포함할 수 있다.
상기 제2 신경망은 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 리커런트 레이어들(recurrent layers)을 포함하고, 상기 제2 신경망을 학습하는 단계는 상기 제2 신경망에, 상기 특징을 인가함으로써 상기 제2 신경망을 학습하는 단계를 포함할 수 있다.
상기 제2 신경망을 학습하는 단계는 상기 트레이닝 영상들 각각의 표정의 표현력을 사용자마다에 대하여 개별적으로 순위화 함으로써 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하도록 상기 제2 신경망을 학습하는 단계를 포함할 수 있다.
상기 제3 신경망은 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하는 리커런트 레이어들을 포함하고, 상기 제3 신경망을 학습하는 단계는 상기 제3 신경망에, 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 인가함으로써 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하도록 상기 제3 신경망을 학습하는 단계를 포함할 수 있다.
일 측에 따르면, 표정 인식 장치는 사용자의 얼굴을 포함하는 입력 영상을 획득하는 입력 인터페이스; 및 상기 입력 영상으로부터 특징을 추출하고, 상기 특징에 기초하여 상기 입력 영상의 표정 및 상기 표정의 표현력에 대응하는 상기 입력 영상의 표현력을 추정하고, 상기 입력 영상의 표현력을 전역적 표현력으로 정규화하며, 상기 전역적 표현력에 기초하여 상기 표정을 인식하는 프로세서를 포함한다.
상기 프로세서는 서로 다른 표현력을 갖는 표정이 학습된 레이어들을 포함하는 제1 신경망을 이용하여 상기 입력 영상의 표정에 대한 특징을 추출할 수 있다.
상기 프로세서는 상기 입력 영상의 표정을 분류하도록 학습된 분류기에 상기 특징을 인가함으로써 상기 입력 영상의 표정을 추정하는 동작, 및 상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망에 상기 특징을 인가함으로써 상기 입력 영상의 표현력을 추정하는 동작 중 어느 하나 또는 이들의 조합을 수행할 수 있다.
상기 프로세서는 상기 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에 상기 입력 영상의 표현력을 인가하여 상기 입력 영상의 표현력을 전역적으로 순위화하고, 미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 입력 영상의 표현력을 정규화할 수 있다.
도 1은 일 실시예에 따라 동일 표정에 대한 사용자마다의 상이한 표현력을 설명하기 위한 도면.
도 2는 일 실시예에 따른 사용자들마다의 개별 표현력과 전역적 표현력 간의 관계를 설명하기 위한 도면.
도 3은 일 실시예에 따른 표정 인식 방법을 나타낸 흐름도.
도 4내지 도 5는 실시예들에 따른 표정 인식 장치의 구조 및 동작을 설명하기 위한 도면.
도 6은 일 실시예에 따른 표정의 표현력을 긍/부정도(Valence)와 각성도(Arousal)의 2차원 튜플(tuple)로 나타낸 도면.도 7은 일 실시예에 따른 표정 인식을 위한 학습 방법을 나타낸 흐름도.
도 8 내지 도 10은 실시예들에 따른 표정 인식을 위한 학습 장치의 구조 및 동작을 설명하기 위한 도면.
도 11은 다른 실시예에 따른 표정 인식 방법을 나타낸 흐름도.
도 12는 일 실시예에 따라 인식된 표정에 기반하여 기능을 실행하는 방법을 나타낸 흐름도.
도 13은 일 실시예에 따른 표정 인식 장치의 블록도.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
하기에서 설명될 실시예들은 스마트 폰 등과 같은 다양한 장치들에서 얼굴 표정에 기반하여 사용자의 감정을 인식하는 데에 이용될 수 있다. 또한, 실시예들은 홈 로봇, 지능형 비서 로봇, 청중 측정(Audience Measurement), 스마트 폰, 증강 현실/가상 현실 기기 등에서 사용자의 표정 및/또는 감정을 인식하는 데에 이용될 수 있다. 실시예들은 칩(chip) 형태로 구현되어 전술한 장치들에 탑재될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따라 동일 표정에 대한 사용자마다의 상이한 표현력을 설명하기 위한 도면이다. 도 1의 (a)를 참조하면, 동일한 표정에 대한 사용자들(110, 120, 130) 별 표정 시퀀스가 도시된다. 이때, 표정 시퀀스 내에서의 동일 표정에 대한 표현력은 도 1의 (b)에 도시된 것과 같이 델타(Δ)만큼의 차이값으로 순차적으로 변화할 수 있다. 또한, 표현력은 델타의 차이값에 따라 순위화될 수 있다.
예를 들어, 도 1의 (a)에서 사용자 A(110), 사용자 B(120), 사용자 C(130)가 무표정한 중립 표정(neural expression)에서 순차적으로 자신이 최대(peak)로 표현할 수 있는 행복한 표정을 나타냈다고 하자.
이때, 사용자의 표정은 아래의 [수학식 1]과 같이 표현될 수 있다.
Figure pat00001
여기서
Figure pat00002
는 기준 표정(중립 표정)을 나타내고,
Figure pat00003
는 변화된 표정(예를 들어, 슬픔, 기쁨, 행복, 놀람 등의 표정)을 나타낸다.
Figure pat00004
은 기준 표정과 변화된 표정 간의 차이(표정 변화량)를 나타낸다.
변화된 표정은 표정 변화량(
Figure pat00005
)이라는 내제 요소(latent factor)에 의해 기준 표정으로부터 변화된 상태에 해당할 수 있다. 전술한 델타(Δ)와 마찬가지로 연속된 표정 변화량
Figure pat00006
의 가감으로 표현력이 변화되고, 변화된 표현력이 표정을 형성할 수 있다.
다만, 동일한 표정이라 하더라도 사용자들마다 표현력이 상이하므로 최대(peak) 표현력의 크기 또한 사용자마다 상이할 수 있다.
예를 들어, 사용자 A(110)와 사용자 B(120)는 표정 변화가 크지 않은 사용자이고, 사용자 C(130)는 표정 변화가 큰 사용자라고 하자. 이 경우, 사용자 A(110), 사용자 B(120) 및 사용자 C(130)가 모두 최대(peak)로 표현할 수 있는 행복한 표정을 짓고 있다고 하더라도 각 사용자의 표현력을 전역적(절대적)으로 평가하는 경우, 도 1의 (c)에 도시된 것과 같이 전역적 표현력에 차이가 발생할 수 있다.
중립 표정의 표현력을 '0'으로, 최대(peak)로 표현할 수 있는 행복한 표정의 표현력을 '1'이라고 하면, 사용자 A(110), 사용자 B(120), 및 사용자 C(130) 중 표정 변화가 가장 큰 사용자 C(130)가 최대로 표현한 행복한 표정의 표현력이 '1'로 결정될 수 있다. 또한, 표정의 변화가 크지 않은 사용자 A(110), 및 사용자 B(120)의 행복한 표정의 표현력은 사용자 C(130)의 최대 표현력을 '1'로 볼 때의 상대적인 값으로 결정될 수 있다.
다시 말해, 사용자 A(110)가 최대로 표현한 행복한 표정(살짝 미소짓는 표정)은 사용자 C(130)의 중간 정도(0.5)의 행복한 표정(이를 드러내고 웃는 표정)보다 표정 변화량이 작다. 이 경우, 사용자 A(110)가 최대로 표현한 행복한 표정(살짝 미소짓는 표정)의 표현력은 예를 들어, 0.45로 결정될 수 있다. 또한, 사용자 B(120)가 최대로 표현한 행복한 표정(이를 드러나고 살짝 웃는 표정)은 사용자 C(130)의 중간 정도(0.5)의 행복한 표정(이를 드러내고 웃는 표정)보다 표정 변화량이 크다. 이 경우, 사용자 B(120)의 최대로 행복한 표정(이를 드러나고 살짝 웃는 표정)의 표현력은 예를 들어, 0.6으로 결정될 수 있다.
일 실시예에서는 이와 같이 동일한 표정에 대한 각 사용자 별 표현력의 상대적 차이를 고려하여 개별 사용자의 표현력을 전역적 표현력으로 정규화함으로써 표정의 표현력 및/또는 감정 표현에 대한 객관화된 지표를 제공할 수 있다. 또한, 일 실시예에 따르면, 사용자의 표현력 범위를 파악하여 감정 상태를 파악하는 한편, 사용자의 감정 이외의 정서적인 추론(Affective inference)을 위한 지표를 제공할 수 있다. 일 실시예에 따르면, 예를 들어, 다양한 감정마다에 대한 전역적 표현력을 통해 각 사용자의 성격을 유추할 수도 있다.
도 2는 일 실시예에 따른 사용자들마다의 개별 표현력과 전역적 표현력 간의 관계를 설명하기 위한 도면이다. 도 2를 참조하면, 일정 표정들에 대한 복수의 사용자 각각의 개별 표현력을 나타낸 그래프들(210,220,230) 및 일정 표정들에 대한 복수의 사용자 전체의 전역적 표현력을 나타낸 그래프(250)가 도시된다. 이때, 그래프들(210,220,230)에서 일정 표정들에 대한 복수의 사용자 각각의 개별 표현력은 예를 들어, 점선들, 2점 쇄선들, 및 가는 실선들로 표현될 수 있다. 또한, 그래프(250)에서 일정 표정들에 대한 복수의 사용자 전체의 전역적 표현력은 예를 들어, 굵은 실선들로 표현될 수 있다.
일 실시예에서는 표정마다에 대하여 복수의 사용자 별로 순위화한 표현력을 기초로, 표정마다에 대한 복수의 사용자 전체의 순위화된 표현력을 결정할 수 있다. 이때, 사용자의 개별 표현력이 새로이 추가되는 경우, 복수의 사용자 전체의 표정마다에 대한 순위화된 표현력 또한 새로이 추가된 개별 표현력을 반영하여 갱신(또는 수정)될 수 있다.
일 실시예에서 복수의 사용자 각각의 개별 표현력을 복수의 사용자 전체에 대한 전역적 표현력으로 표현하는 방법은 이하에서 구체적으로 설명하기로 한다.
도 3은 일 실시예에 따른 표정 인식 방법을 나타낸 흐름도이다. 도 3을 참조하면, 일 실시예에 따른 표정 인식 장치는 사용자의 얼굴을 포함하는 입력 영상을 획득한다(310). 입력 영상은 예를 들어, 단일 프레임을 포함하는 단일 영상, 및 복수의 프레임들을 포함하는 연속 영상(동영상) 등을 포함할 수 있다. 입력 영상을 예를 들어, 입력 인터페이스(도 13의 1310 참조)를 통해 입력되거나, 또는 센서(도 13의 1340 참조)를 통해 캡쳐(capture) 또는 촬영된 것일 수 있다.
표정 인식 장치는 입력 영상으로부터 특징(feature)을 추출한다(320). 표정 인식 장치는 예를 들어, 서로 다른 표현 강도(표현력) 또는 서로 다른 표정 변화량을 갖는 표정이 학습된 레이어들(layers)을 포함하는 제1 신경망을 이용하여 입력 영상의 표정에 대한 특징을 추출할 수 있다. 여기서, 특징은 얼굴 표정의 특징을 나타내는 특징 벡터에 해당할 수 있다. 제1 신경망은 예를 들어, 서로 다른 표현 강도를 갖는 표정이 학습된 공유된 컨볼루션 레이어들(Shared convolution layers)을 포함할 수 있다.
표정 인식 장치는 단계(320)에서 추출한 특징에 기초하여 입력 영상의 표정(expression) 및 입력 영상의 표현력(expressiveness)을 추정한다(330). 이때, 입력 영상의 표현력은 입력 영상에 나타난 표정의 표현 강도에 대응하는 값으로서 예를 들어, 0.2 또는 0.8과 같은 0부터 1 이내의 값으로 나타낼 수 있다.
표정 인식 장치는 예를 들어, 입력 영상의 표정을 분류하도록 학습된 분류기(classifier)에 단계(320)에서 추출한 특징을 인가하여 입력 영상의 표정을 추정할 수 있다. 입력 영상의 표정은 예를 들어, 중립, 놀람, 화남, 행복함, 기쁨, 슬픔 등으로 추정될 수 있다. 또는, 표정 인식 장치는 예를 들어, 입력 영상의 표현력을 사용자마다에 대하여 개별적으로 순위화하도록 학습된 제2 신경망에 단계(320)에서 추출한 특징을 인가하여 입력 영상의 표현력을 추정할 수 있다. 제2 신경망은 예를 들어, 입력 영상의 표정의 표현력을 사용자마다에 대하여 개별적으로 순위화 함으로써 입력 영상의 표현력을 추정하도록 학습된 레이어들을 포함할 수 있다.
표정 인식 장치는 단계(330)에서 추정한 입력 영상의 표현력을 전역적 표현력(global expressiveness)으로 정규화(normalize)한다(340). 표정 인식 장치는 단계(330)에서 추정한 입력 영상의 표현력을 제3 신경망에 인가하여 입력 영상의 표현력을 전역적으로 순위화할 수 있다. 제3 신경망은 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 레이어들을 포함할 수 있다.
실시예에 따라서, 표정 인식 장치는 기 입력된 영상의 추정 표현력을 입력 영상의 표현력과 비교하여 전역적으로 순위화할 수도 있다. 여기서, 기 입력된 영상은 입력 영상과 다른 영상으로, 기 입력된 영상의 추정 표현력은 기 입력된 영상에 기초하여 표정 인식 장치에 의하여 추정된 표현력일 수 있다.
단계(340)에서, 표정 인식 장치는 미리 정의된 정규화 함수에 기초하여 전역적으로 순위화된 입력 영상의 표현력을 전역적 표현력으로 정규화할 수 있다. 정규화 함수는 사용자의 얼굴 표정을 포함하는 입력 영상에 대하여 정규화된 전역적 표현력 수치를 출력하는 함수에 해당할 수 있다.
정규화 함수(E')는 예를 들어, 아래의 [수학식 2]와 같이, 입력 영상의 표현력의 최대값(E max ) 및 입력 영상의 표현력의 최소값(E min )에 기초할 수 있다.
Figure pat00007
여기서, E' 은 정규화된 입력 영상의 표현력, 다시 말해 전역적 표현력을 나타내고, E 는 입력 영상의 표현력을 나타낸다. E max 는 입력 영상의 표현력의 최대값을 나타내고, E min 는 입력 영상의 표현력의 최소값을 나타낸다.
이때, 입력 영상의 표현력의 최대값 및 최소값은 입력 영상의 표현력을 전역적으로 순위화하는 과정에서 결정된 순위에 의해 결정될 수 있다. 예를 들어, 입력 영상의 표현력의 최대값은 전역적으로 순위화된 입력 영상의 표현력 중 최고 순위에 해당하는 표현력일 수 있다. 또한, 입력 영상의 표현력의 최소값은 전역적으로 순위화된 입력 영상의 표현력 중 최하 순위에 해당하는 표현력일 수 있다.
제3 신경망은 예를 들어, 순차적인 학습(Sequential learning)을 통하여 변환 길이(variable-length)의 표정 시퀀스를 전역적으로 순위화하도록 학습된 것일 수 있다. 표정 인식 장치가 입력 영상의 표현력을 전역적 표현력으로 정규화하는 방법은 도 4를 참조하여 구체적으로 설명한다.
표정 인식 장치는 단계(340)에서 정규화된 전역적 표현력에 기초하여 표정을 인식한다(350).
실시예에 따라서, 표정 인식 장치는 입력 영상에, 단계(340)에서 정규화된 입력 영상에 대응하는 전역적 표현력을 레이블링(labeling)하여 입력 영상에 대한 객관화된 표현력 지표를 제공할 수 있다.
도 4는 실시예들에 따른 표정 인식 장치의 동작을 설명하기 위한 도면이다. 도 4를 참조하면, 일 실시예에 따른 표정 인식 장치는 사용자의 얼굴 표정을 포함하는 입력 영상(405)으로부터 표정에 대한 특징을 추출할 수 있다(410). 이때, 입력 영상(405)은 예를 들어, 도 4에 도시된 것과 같이 단일 프레임(single frame)이거나, 복수의 프레임들을 포함하는 단일 시퀀스(single sequence) 영상일 수 있다. 이하, 입력 영상이 복수의 프레임들을 포함하는 시퀀스 영상인 실시예를 설명한다. 단계(410)에서, 예를 들어, 시퀀스 내 프레임이 표정 인식 장치로 입력되면, 컨볼루션 레이어들로 구성된 제1 신경망은 해당 프레임에 대응하는 표정에 대한 특징 벡터를 출력할 수 있다.
표정 인식 장치는 단계(410)에서 추출한 특징을, 입력 영상의 표정을 분류하도록 학습된 분류기에 인가하여 입력 영상의 표정을 추정할 수 있다(420). 이때, 추정된 입력 영상의 표정은 예를 들어, 표(460)의 표정 필드에 기재된 것과 같이 중립(neutral) 표정 또는 놀람(surprise) 표정일 수 있다.
표정 인식 장치는 단계(410)에서 추출한 특징에 기초하여 입력 영상의 표정의 표현력을 추정할 수 있다(430). 표정 인식 장치는 예를 들어, 단계(410)에서 추출한 특징을, 입력 영상의 표정의 표현력을 추정하도록 학습된 제2 신경망에 인가함으로써 입력 영상의 표현력을 추정할 수 있다. 제2 신경망은 복수의 프레임들에 대응하는 표정에 대한 특징 벡터들이 입력되면, 사용자마다의 개별적인 표현력으로 순위화함으로써 입력 영상의 표현력을 추정할 수 있다. 다시 말해, 제2 신경망에서 추정되는 표현력은 사용자마다의 개별적인 표현력에 해당할 수 있다. 사용자마다의 개별적인 표현력은 예를 들어, 표(460)의 표현력 필드에 기재된 것과 같이, 중립 표정에 대하여 '0'의 값을 가지거나 또는 놀람 표정에 대하여 '1'의 값을 가질 수 있다.
아래에서 상세하게 설명하겠으나, 제2 신경망의 학습 방식에 따라, 사용자마다의 개별적인 표현력은 '1차적으로 전역화된 표현력'이라고도 부를 수 있다. 단계(430)에서 제2 신경망을 통해 출력되는 표현력은 1차적으로 전역화된 표현력일 수 있으며, 이와 관련된 동작은 도 8의 단계(870)을 통하여 구체적으로 후술한다.
표정 인식 장치는 단계(430)에서 추정한 입력 영상의 표현력(다시 말해 1차적으로 전역화된 표현력)이 입력되면, 제3 신경망을 통해 입력 영상의 표현력을 전역적으로 순위화할 수 있다(440). 이때, 3 신경망에는 시퀀스 내 프레임들에 대응하는 출력들(1차적으로 전역화된 표현력)이 순차적으로 입력될 수 있다. 제3 신경망의 입력 레이어에 입력되는 입력 영상의 표현력 및 제3 신경망에서 출력되는 전역적으로 순위화된 입력 영상의 표현력은 예를 들어, [0, 1]의 값을 가질 수 있다.
아래에서 상세하게 설명하겠으나, 제3 신경망의 학습 방식에 따라, 제3 신경망에서 출력되는 전역적으로 순위화된 표현력은 '2차적으로 전역화된 표현력'이라고도 부를 수 있다. 단계(440)에서 출력되는 2차적으로 전역화된 값(표현력)과 관련된 동작은 도 8의 손실(860)을 통하여 후술한다.
표정 인식 장치는 전역적으로 순위화된 입력 영상의 표현력을 전역적 표현력으로 정규화할 수 있다(450). 단계(450)를 통해 정규화된 표현력(Normalized Expressiveness)은 예를 들어, 표(460)의 정규화된 표현력 필드에 기재된 것과 같이, 중립 표정에 대하여는 0.05의 값을 가지고, 놀람 표정에 대하여는 0.9의 값을 가질 수 있다.
아래에서 상세하게 설명하겠으나, 제3 신경망은 정규화된 표현력을 출력하도록 학습되므로, 단계(450)은 설계에 따라 포함될 수도 있고, 포함되지 않을 수도 있다. 단계(450)이 포함되는 경우, 표정 인식 장치는 미리 정해진 정규화 함수(예를 들어, 수학식 2)에 기초하여 최종 표현력을 출력할 수 있다. 단계(450)이 포함되지 않는 경우, 표정 인식 장치는 단계(440)에 의하여 출력되는 2차적으로 전역화가 반영된 출력을 최종 표현력으로 사용할 수 있다.
도 5는 다른 실시예에 따른 표정 인식 장치의 구조 및 동작을 설명하기 위한 도면이다. 도 5를 참조하면, 일 실시예에 따른 2차원 튜플{표정, 표현력}의 정규화된 출력을 산출하는 딥 네트워크를 포함하는 표정 인식 장치(500)가 도시된다. 도 5에서 입력 영상은 복수의 프레임들을 포함하는 복수의 시퀀스들을 포함할 수 있다.
표정 인식 장치(500)는 예를 들어, 제1 신경망들(510), 제2 신경망들(530), 및 제3 신경망(550) 및 정규화 레이어(570)로 구성된 딥 네트워크(Deep Network)를 포함할 수 있다. 제1 신경망들(510), 제2 신경망들(530), 및 제3 신경망들(550)은 리커런트 레이어(recurrent layer)의 구조를 가짐으로써, 입력 영상에 포함된 프레임들의 수에 관계없이 입력 영상을 처리할 수 있다.
표정 인식 장치(500)는 딥 네트워크를 통해 연속된 표정 시퀀스로부터 각 프레임에 대한 표현력을 추정(결정)하고, 각 표정 시퀀스에 대한 표현력을 정규화된 형태로 산출할 수 있다.
보다 구체적으로, 제1 신경망들(510)은 서로 다른 표현 강도를 갖는 표정이 학습된 공유된 컨볼루션 레이어들(Shared convolution layers)을 통해 입력 영상의 복수의 프레임들 각각의 표정에 대한 특징을 추출할 수 있다. 제1 신경망들(510)은 사용자의 얼굴 표정을 포함하는 입력 영상을 다른 차원의 정보(예를 들어, 특징 벡터)로 변환할 수 있다.
제2 신경망들(530)은 입력 영상의 표현력을 추정하도록 학습된 신경망일 수 있다. 표정 인식 장치는 제1 신경망들(510)에서 추출된 특징들을 제2 신경망들(530)에 인가함으로써 복수의 프레임들 각각의 표현력을 추정할 수 있다. 제2 신경망들(530)에는 제1 신경망들(510)로부터 출력되는 프레임들이 순차적으로 입력될 수 있다. 예를 들어, 제1 시퀀스 내 프레임들에 대응하는 특징들이 순차적으로 입력된 이후, 제2 시퀀스 내 프레임들에 대응하는 특징들이 순차적으로 입력될 수 있다. 이때, 복수의 프레임들 각각의 표현력은 사용자마다의 개별적인 표현력에 해당할 수 있다.
제2 신경망들(530)에서 추정된 복수의 프레임들 각각의 표현력은 이후 제3 신경망(550)에서 표정 시퀀스 별 통계를 통한 순위화 과정을 거친 후, 정규화 레이어(570)에서 정규화된 전역적 표현력으로 출력될 수 있다. 이때, 제3 신경망은 복수의 프레임들 각각의 표현력이 제3 신경망(550)에 입력되는 순서에 따라 해당하는 프레임의 정규화된 전역적 표현력을 순차적으로 출력할 수 있다. 도 9에서 상세하게 설명하겠으나, 실시예에 따라 제3 신경망(550)은 복수의 프레임들 각각의 표현력에 대한 전역적 순위를 더 출력할 수도 있다.
실시예에 따라서, 표정 인식 장치(500)는 입력 영상의 표정을 분류하도록 학습된 분류기들(미도시)을 더 포함할 수도 있다. 이 경우, 표정 인식 장치(500)는 제1 신경망들(510)에서 추출된 특징들을 분류기들에 인가함으로써 복수의 프레임들 각각의 표정을 추정할 수 있다.
제3 신경망(550)은 복수의 프레임들 각각의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 신경망일 수 있다. 표정 인식 장치(500)는 복수의 프레임들 각각의 표현력을 제3 신경망(550)에 인가하여 복수의 프레임들 각각의 표현력을 전역적으로 순위화할 수 있다.
정규화 레이어(570)는 미리 정의된 정규화 함수에 기초하여, 전역적으로 순위화된 복수의 프레임들 각각의 표현력을 전역적 표현력으로 정규화할 수 있다.
일 실시예에서 복수의 프레임들을 포함하는 표정 시퀀스들에 대한 순위화는 프레임들 간의 비교를 통해 단일 프레임 기반의 순위화에 비해 보다 정확한 표현력을 산출할 수 있다.
도 6은 일 실시예에 따른 표정의 표현력을 긍/부정도(Valence)와 각성도(Arousal)의 2차원 튜플(tuple)로 나타낸 도면이다. 도 6의 그래프에서, X축은 예를 들어, 화남, 슬픔 등과 같은 부정적인 감정부터 기쁨, 행복 등과 같은 긍정적인 감정까지의 감정의 방향, 다시 말해 감정의 긍/부정도를 나타내고, Y 축은 각성도의 강도를 나타낸다.
일 실시예에 따르면, 사용자의 감정 및 감정의 표현력은 {표정, 표현력}의 2차원 튜플을 대신하여, 예를 들어, {(x,y): 긍/부정도(Valence), 각성도(Arousal)}의 2차원 튜플로도 표현될 수 있다. 여기서, 긍/부정도(Valence)는 감정의 방향으로서 전술한 감정과 유사하게 정의되고, 각성도(Arousal)는 신체적 반응의 양으로서 전술한 감정의 표현력과 유사하게 정의될 수 있다.
도 7은 일 실시예에 따른 표정 인식을 위한 학습 방법을 나타낸 흐름도이다. 도 7을 참조하면, 일 실시예에 따른 표정 인식을 위한 학습 장치(이하, '학습 장치')는 서로 다른 표정 및 서로 다른 표정의 표현력들에 대응하는 트레이닝 영상들을 획득한다(710).
학습 장치는 제1 신경망을 이용하여 트레이닝 영상들 각각의 표정에 대한 특징을 추출한다(720). 학습 장치는 얼굴 영상의 표정에 대한 특징을 추출하는 공유된 컨볼루션 레이어들(shared convolution layers)을 포함하는 제1 신경망에 트레이닝 영상들을 인가함으로써 제1 신경망을 학습할 수 있다.
학습 장치는 단계(720)에서 추출한 특징에 기초하여 트레이닝 영상들 각각의 표정을 분류한다(730).
학습 장치는 단계(720)에서 분류한 특징에 기초하여 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 제2 신경망을 학습한다(740). 제2 신경망은 예를 들어, 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 리커런트 레이어들을 포함할 수 있다. 학습 장치는 제2 신경망에, 단계(720)에서 추출한 특징을 인가함으로써 제2 신경망을 학습할 수 있다. 학습 장치는 트레이닝 영상들 각각의 표정의 표현력을 사용자마다에 대하여 개별적으로 순위화 함으로써 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하도록 상기 제2 신경망을 학습할 수 있다.
학습 장치는 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하는 제3 신경망을 학습한다(750). 제3 신경망은 예를 들어, 트레이닝 영상들 각각에 대응하는 표정의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하는 리커런트 레이어들을 포함할 수 있다. 학습 장치는 제3 신경망에, 트레이닝 영상들 각각에 대응하는 표정의 표현력을 인가함으로써 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하도록 제3 신경망을 학습할 수 있다.
도 8은 일 실시예에 따른 표정 인식을 위한 학습 장치의 구성 및 동작을 설명하기 위한 도면이다. 도 8을 참조하면, 일 실시예에 따른 표정 인식을 위한 학습 장치(이하, 학습 장치)(800)는 서로 다른 표정 및 서로 다른 표정의 표현력들에 대응하는 트레이닝 영상들 각각의 표정에 대한 특징을 추출하는 제1 신경망을 학습할 수 있다(810). 학습 장치는 얼굴 영상의 표정에 대한 특징을 추출하는 공유된 컨볼루션 레이어들(shared convolution layers)을 포함하는 제1 신경망에 트레이닝 영상들을 인가함으로써 제1 신경망을 학습할 수 있다. 예를 들어, 트레이닝 영상들의 시퀀스 내 프레임이 학습 장치로 입력되면, 컨볼루션 레이어들로 구성된 제1 신경망은 해당 프레임에 대응하는 표정에 대한 특징 벡터를 출력할 수 있다.
학습 장치(800)는 제1 신경망에서 추출된 특징에 기초하여 트레이닝 영상들 각각의 표정을 분류하는 분류기를 학습할 수 있다(820). 학습 장치(800)는 제1 신경망에서 추출된 특징을, 트레이닝 영상의 표정을 분류하도록 학습된 분류기에 인가하여 트레이닝 영상의 표정을 추정할 수 있다.
학습 장치는 제1 신경망에서 추출된 특징에 기초하여 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하도록 하는 제2 신경망을 학습할 수 있다(830). 제2 신경망은 트레이닝 영상들 각각에 대응하는 표정에 대한 특징 벡터들이 입력되면, 사용자마다의 개별적인 표현력으로 순위화함으로써 트레이닝 영상들의 표현력을 추정할 수 있다. 전술한 바와 같이, 사용자마다의 개별적인 표현력은 '1차적으로 전역화된 표현력'이라고도 부를 수 있다.
단계(830)에서 제2 신경망은 손실(Loss)(870)에 의하여 트레이닝 영상들의 표현력이 1차적으로 전역화된 표현력을 반영하도록 학습될 수 있다.
또한, 실시예에 따라 제2 신경망은 손실(870) 대신에 트레이닝 데이터의 레이블(label)에 기초하여 1차적으로 전역화된 표현력을 반영하도록 학습될 수도 있다. 일 예로, 제1 신경망과 제2 신경망은 트레이닝 데이터와 해당하는 트레이닝 데이터의 레이블에 기초하여, 선 학습(pre-training)될 수 있다. 이 때, 트레이닝 데이터의 레이블은 전역화된 표현력을 지시할 수 있다.
학습 장치는 단계(830)에서 추정한 트레이닝 영상들 각각의 표현력을 제3 신경망에 인가함으로써 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하도록 제3 신경망을 학습할 수 있다(840). 제3 신경망은 트레이닝 영상들 각각에 대응하는 표정의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 레이어들을 포함할 수 있다. 제3 신경망에서 출력되는 전역적으로 순위화된 표현력은 '2차적으로 전역화된 표현력'이라고도 부를 수 있다. 단계(840)에서 제3 신경망은 손실(860)에 의하여 트레이닝 영상들 각각의 표현력이 2차적으로 전역화된 표현력을 반영하도록 학습될 수 있다. 손실(860)은 단계(850)에서의 정규화 결과를 출력하도록 제3 신경망을 학습하기 위한 손실에 해당할 수 있다.
학습 장치는 미리 정의된 정규화 함수(예를 들어, 수학식 2)에 기초하여 전역적으로 순위화된 표정의 표현력을 전역적 표현력으로 정규화하는 정규화 레이어들을 학습할 수 있다(850).
도 9는 다른 실시예에 따른 표정 인식을 위한 학습 장치의 구성 및 동작을 설명하기 위한 도면이다. 도 9를 참조하면, 일 실시예에 따른 학습 장치(900)는 예를 들어, 제1 신경망들(910), 제2 신경망들(930), 및 제3 신경망(950) 및 정규화 레이어(970)를 포함하는 딥 네트워크를 포함할 수 있다.
학습 장치(900)는 딥 네트워크를 통해 연속된 표정 시퀀스(트레이닝 시퀀스)로부터 각 프레임에 대한 표현력을 정의하고, 각 표정 시퀀스에 대한 표현력을 정규화된 형태로 계산하여 출력하도록 학습될 수 있다.
보다 구체적으로, 제1 신경망들(910)은 서로 다른 표현 강도를 갖는 표정이 학습된 공유된 컨볼루션 레이어들을 통해 트레이닝 시퀀스들에 포함된 복수의 프레임들 각각의 표정에 대한 특징을 추출할 수 있다. 제1 신경망들(910)은 사용자의 얼굴 표정을 포함하는 트레이닝 시퀀스들을 다른 차원으로 변환할 수 있다.
제2 신경망들(930)은 트레이닝 시퀀스들에 포함된 복수의 프레임들 각각의 표현력을 추정하도록 학습될 수 있다. 학습 장치(900)는 제1 신경망들(910)에서 추출된 특징들을 제2 신경망들(930)에 인가함으로써 복수의 프레임들 각각의 표현력을 추정할 수 있다. 이때, 제2 신경망들(930)에서는 프레임들에 대한 순위화 손실(Ranking loss(frames)) 및/또는 프레임들에 대한 메트릭 손실(Metric loss(frames))이 발생할 수 있다. 프레임들에 대한 메트릭 손실은 각 프레임들을 메트릭으로 변환하는 과정에서 발생하는 손실로서, 도 8의 손실(870)에 대응될 수 있다. 프레임들에 대한 순위화 손실은 각 프레임들의 순위화 과정에서 발생하는 손실에 해당할 수 있다. 예를 들어, 단일 프레임의 경우, 회귀(regression) 과정에서의 거리 최소화 손실과 같은 포인트 와이즈 순위화 손실(point wise ranking loss)이 발생할 수 있다. 또한, 복수의 프레임의 경우, 페어(pair)의 대소를 결정하는 과정에서 페어 와이즈 순위화 손실(pair wise ranking loss)이 발생할 수 있다.
실시예에 따라, 제2 신경망들(930)을 학습하는 데 프레임들에 대한 순위화 손실을 더 이용할 수 있다. 이 경우, 제2 신경망들(930)은 한 시퀀스 내 프레임들의 순위(ranking)을 더 출력할 수 있다. 프레임들의 순위는 표현력에 따라 정렬된 순서일 수 있으며, 순위화 손실은 제2 신경망들(930)에서 출력되는 순위가 실제 순위에 부합되도록 제2 신경망들(930)이 학습되도록 할 수 있다. 제2 신경망들(930)에서 추정된 복수의 프레임들 각각의 표현력은 이후 제3 신경망(950)에서 트레이닝 시퀀스 별 통계에 의한 순위화 과정을 거친 후, 정규화 레이어(970)를 통해 정규화된 전역적 표현력으로 출력될 수 있다.
실시예에 따라서, 학습 장치(900)는 입력 영상의 표정을 분류하는 분류기들을 더 포함할 수도 있다. 이 경우, 학습 장치(900)는 제1 신경망들(910)에서 추출된 특징들을 분류기들에 인가함으로써 복수의 프레임들 각각의 표정을 학습할 수 있다.
제3 신경망(950)은 복수의 프레임들 각각의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습될 수 있다. 학습 장치(900)는 복수의 프레임들 각각의 표현력을 제3 신경망(950)에 인가하여 복수의 프레임들 각각의 표현력을 전역적으로 순위화할 수 있다. 이때, 제3 신경망(950)에서는 시퀀스들의 순위화 과정에서 발생하는 시퀀스들에 대한 순위화 손실(Ranking loss(sequences)) 및/또는 시퀀스들을 메트릭으로 변환하는 과정에서 발생하는 시퀀스들에 대한 메트릭 손실(Metric loss(sequence))이 발생할 수 있다. 시퀀스들에 대한 메트릭 손실은 도 8의 손실(860)에 대응될 수 있다.
실시예에 따라, 제3 신경망(950)을 학습하는 데 시퀀스들에 대한 순위화 손실을 더 이용할 수 있다. 이 경우, 제3 신경망(950)은 여러 시퀀스 내 프레임들의 순위를 더 출력할 수 있다. 프레임들의 순위는 표현력에 따라 정렬된 순서일 수 있으며, 시퀀스들에 대한 순위화 손실은 제3 신경망(950)에서 출력되는 순위가 실제 순위에 부합되도록 제3 신경망(950)이 학습되도록 할 수 있다.
정규화 레이어(970)는 미리 정의된 정규화 함수에 기초하여, 전역적으로 순위화된 복수의 프레임들 각각의 표현력을 전역적 표현력으로 정규화하도록 학습될 수 있다. 이때, 정규화된 전역적 표현력은 학습 장치(900)에서 시퀀스 별 통계를 통해 사용자마다의 개별적인 순위화를 수행하는 신경망(예를 들어, 제2 신경망)과 복수의 프레임들 각각의 표현력을 전역적으로 순위화하는 신경망(예를 들어, 제3 신경망)에 회귀적으로 인가됨으로써 학습 장치(900)에서의 표현력의 자가 학습 및 표현력의 갱신이 가능하도록 할 수 있다.
도 10은 다른 실시예에 따른 표정 인식을 위한 학습 장치의 동작을 구성 및 동작을 설명하기 위한 도면이다. 도 10을 참조하면, 일 실시예에 따른 학습 장치 (1000)가 미리 정의된 네트워크(Pre-defined Network)(1010)를 통한 준-지도 학습(semi-supervised learning)에 의해 복수의 입력 시퀀스들의 표현력을 정규화하는 학습 과정이 도시된다.
학습 장치(1000)는 복수의 입력 시퀀스들의 표현력 정규화를 위한 신경망들을 포함할 수 있다. 학습 장치(1000)는 초기 표현력을 출력하기 위해 미리 정의된 네트워크(Pre-defined Network)(1010), 복수의 입력 시퀀스들로부터 특징을 추출하는 컨볼루션 레이어들로 구성된 제1 신경망(1020), 순차적 학습을 위한 LSTM(Long-Short Term Memory) 방식의 순환 레이어들로 구성된 제2 신경망(1030), 전역적 순차화를 위한 랭크 레이어들(Rank Layers)로 구성된 제3 신경망(1040) 및 최종 정규화된 표현력 출력을 위한 정규화 레이어들을 포함하는 정규화기(Normalizer)(1050)를 포함할 수 있다.
보다 구체적으로, 미리 정의된 네트워크(Pre-defined Network)(1010)는 복수의 입력 시퀀스들의 표현력을 정규화하기 이전의 초기 표정 및 표현력을 결정하기 위한 것으로서, 기존 분류에 기반하여 학습된 표정 인식 네트워크에 해당할 수 있다. 이때, 표현력은 미리 정의된 각 표정의 종류에 따라 달리 나타날 수 있다.
제1 신경망(1020), 제2 신경망(1030), 제3 신경망(1040) 및 정규화기(1050)의 동작은 도 9를 통해 전술한 제1 신경망(910), 제2 신경망(930), 제3 신경망(950) 및 정규화 레이어(970)의 동작과 동일하므로 해당 부분의 설명을 참고하기로 한다. 이때, 제3 신경망(1040)에서 발생하는 제1 손실(1045)는 도 8의 손실(860)에 대응될 수 있다. 또한, 정규화기(1050)에 의해 발생한 제2 손실(1055)는 도 8의 손실(870)에 대응될 수 있다.
도 11은 다른 실시예에 따른 표정 인식 방법을 나타낸 흐름도이다. 도 11을 참조하면, 일 실시예에 따른 표정 인식 장치는 입력 영상을 획득할 수 있다(1110). 이때, 입력 영상은 사용자의 일정 표정(예를 들어, 웃는 표정)을 포함하는 복수의 프레임들을 포함할 수 있다. 표정 인식 장치는 예를 들어, 표정 인식 장치에 포함된 센서를 통해 입력 영상을 획득하거나, 또는 표정 인식 장치의 인터페이스 등을 통해 표정 인식 장치의 외부에서 캡쳐 또는 촬영된 입력 영상을 획득할 수 있다.
표정 인식 장치는 입력 영상에 포함된 복수의 프레임들의 표현력을 순위화할 수 있다(1120). 표정 인식 장치는 입력 영상으로부터 추출된 특징에 기초하여 복수의 프레임들의 표현력을 추정하고, 복수의 프레임들 간의 표현력을 순위화할 수 있다. 예를 들어, 입력 영상이 제1 프레임부터 제5 프레임까지 웃는 표정을 나타내는 5개의 프레임들을 포함하고, 제1 프레임의 표현력이 0.2, 제2 프레임의 표현력이 0.38, 제3 프레임에 대한 표현력이 0.8, 제4 프레임의 표현력이 0.1, 제5 프레임의 표현력이 0.5라고 하자. 표정 인식 장치는 복수의 프레임들 간의 표현력을 제4 프레임(0.1), 제1 프레임(0.2), 제2 프레임(0.38), 제5 프레임(0.5), 및 제3 프레임(0.8) 순으로 순위화할 수 있다.
표정 인식 장치는 순위화된 표현력을 전역적 표현력으로 정규화할 수 있다(1130). 표정 인식 장치는 미리 정의된 정규화 함수에 기초하여 전역적으로 순위화된 (복수의 프레임들의) 표현력을 전역적 표현력으로 정규화할 수 있다.
표정 인식 장치는 단계(1130)에서 정규화된 전역적 표현력에 의해 입력 영상에 포함된 사용자의 표정을 인식할 수 있다(1140).
도 12는 일 실시예에 따라 인식된 표정에 기반하여 기능을 실행하는 방법을 나타낸 흐름도이다. 도 12를 참조하면, 표정에 기반한 감정 인식을 통해 감정에 맞는 다양한 기능을 수행하도록 하는 과정이 도시된다.
일 실시예에 따른 장치는 사용자가 얼굴 인식을 통한 잠금 해제(Face Unlock) 시도를 감지할 수 있다(1210). 장치는 예를 들어, 터치 스크린에서의 터치 입력, 이미지 센서의 입력, 또는 그 밖의 입력 인터페이스를 통하여 얼굴 인식을 통한 잠금 해제 시도를 감지할 수 있다.
잠금 해제 시도가 감지되면, 장치는 사용자의 표정에 기반하여 감정 인식을 수행할 수 있다(1220). 이때, 장치는 도 1 내지 도 11을 통해 전술한 표정 인식 방법을 이용하여 사용자의 표정을 인식하고, 인식된 표정에 기반하여 감정 인식을 수행할 수 있다. 예를 들어, 사용자의 인식된 표정이 행복한 표정에 대하여 0.9의 전역적 표현력을 가지는 것으로 인식되었다고 하자. 장치는 인식된 표정에 기반하여 사용자의 감정이 매우 기쁜(또는 매우 행복한) 상태임을 인식할 수 있다.
장치는 단계(1220)에서 인식된 감정에 맞는 기능을 실행할 수 있다(1230). 장치는 예를 들어, 밝은 배경 이미지를 제공하거나, 또는 경쾌한 음악을 제공하는 등과 같이 사용자의 감정 상태(예를 들어, 매우 기쁜 상태)에 맞는 기능을 실행할 수 있다.
도 13은 일 실시예에 따른 표정 인식 장치의 블록도이다. 도 13을 참조하면, 일 실시예에 따른 표정 인식 장치(1300)는 입력 인터페이스(1310) 및 프로세서(1320)를 포함한다. 표정 인식 장치(1300)는 메모리(1330) 및 센서(1340)를 더 포함할 수 있다. 입력 인터페이스(1310) 프로세서(1320), 메모리(1330) 및 센서(1340)는 통신 버스(1305)를 통해 서로 통신할 수 있다.
입력 인터페이스(1310)는 사용자의 얼굴을 포함하는 입력 영상을 획득한다.
프로세서(1320)는 입력 영상으로부터 특징을 추출한다. 프로세서(1320)는 특징에 기초하여 입력 영상의 표정 및 표정의 표현 강도에 대응하는 입력 영상의 표현력을 추정한다. 프로세서(1320)는 입력 영상의 표현력을 전역적 표현력으로 정규화하고, 전역적 표현력에 기초하여 표정을 인식한다.
프로세서(1320)는 서로 다른 표현력을 갖는 표정이 학습된 레이어들을 포함하는 제1 신경망을 이용하여 입력 영상의 표정에 대한 특징을 추출할 수 있다. 이때, 제1 신경망은 예를 들어, 공유된 컨볼루션 레이어들을 포함할 수 있다. 프로세서(1320)는 입력 영상의 표정을 분류하도록 학습된 분류기에 특징을 인가함으로써 입력 영상의 표정을 추정하거나, 및/또는 입력 영상의 표현력을 추정하도록 학습된 제2 신경망에 특징을 인가함으로써 입력 영상의 표현력을 추정할 수 있다.
프로세서(1320)는 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에 입력 영상의 표현력을 인가할 수 있다. 프로세서(1320)는 미리 정의된 정규화 함수에 기초하여 전역적으로 순위화된 입력 영상의 표현력을 정규화할 수 있다. 이 밖에도, 프로세서(1320)는 도 1 내지 도 12를 통하여 전술한 적어도 하나의 방법을 수행할 수 있다.
메모리(1330)는 컴퓨터에서 읽을 수 있는 명령어들을 저장할 수 있다. 메모리(1330)에 저장된 명령어들이 프로세서(1320)에서 실행되면, 프로세서(1320)는 상술한 표정 인식과 관련된 동작을 처리할 수 있다. 또한, 메모리(1330)는 입력 영상, 입력 영상의 표정, 입력 영상의 표현력 및/또는 입력 영상의 표현력이 정규화된 전역적 표현력을 저장할 수 있다. 예를 들어, 메모리(1330)는 복수의 분류기들, 복수의 신경망들에 대한 파라미터를 저장할 수 있다.
센서(1340)는 입력 영상을 촬영하기 위한 이미지 센서, 근접 센서 및 적외선 센서 중 적어도 하나를 포함할 수 있다. 센서(1340)는 잘 알려진 방식(예를 들어, 광학 이미지를 전기 신호로 변환하는 방식 등)으로 입력 영상을 촬영할 수 있다. 센서(1340)는 촬영된 컬러 영상, 깊이 영상 및 적외선 영상 중 적어도 하나를 프로세서(1320) 및 메모리(1330) 중 적어도 하나로 전달할 수 있다.
프로세서(1320)는 명령어들이나 프로그램들을 실행하거나, 표정 인식 장치(1300)를 제어할 수 있다. 표정 인식 장치(1300)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 표정 인식 장치(1300)는 이동 전화, 스마트 폰, PDA, 태블릿 컴퓨터, 랩톱 컴퓨터 등 모바일 장치, 퍼스널 컴퓨터, 넷북 등 컴퓨팅 장치, 또는 텔레비전, 스마트 텔레비전 등 전자 제품 등의 적어도 일부로 구현될 수 있다. 그 밖에, 표정 인식 장치(1300)에 관해서는 상술된 내용이 적용될 수 있으며, 보다 상세한 설명은 생략한다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 사용자의 얼굴을 포함하는 입력 영상을 획득하는 단계;
    상기 입력 영상으로부터 특징(feature)을 추출하는 단계;
    상기 특징에 기초하여 상기 입력 영상의 표정(expression) 및 상기 표정의 표현 강도에 대응하는 상기 입력 영상의 표현력(expressiveness)을 추정하는 단계;
    상기 입력 영상의 표현력을 전역적 표현력(global expressiveness)으로 정규화(normalize)하는 단계; 및
    상기 전역적 표현력에 기초하여 상기 표정을 인식하는 단계
    를 포함하는, 표정 인식 방법.
  2. 제1항에 있어서,
    상기 입력 영상은
    단일 프레임을 포함하는 단일 영상, 및 복수의 프레임들을 포함하는 연속 영상 중 어느 하나를 포함하는, 표정 인식 방법.
  3. 제1항에 있어서,
    상기 특징을 추출하는 단계는
    서로 다른 표현력을 갖는 표정이 학습된 레이어들(layers)을 포함하는 제1 신경망을 이용하여 상기 입력 영상의 표정에 대한 특징을 추출하는 단계
    를 포함하는, 표정 인식 방법.
  4. 제1항에 있어서,
    상기 입력 영상의 표정 및 상기 입력 영상의 표현력을 추정하는 단계는
    상기 입력 영상의 표정을 분류하도록 학습된 분류기(classifier)에 상기 특징을 인가하여 상기 입력 영상의 표정을 추정하는 단계; 및
    상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망에 상기 특징을 인가하여 상기 입력 영상의 표현력을 추정하는 단계
    중 어느 하나 또는 이들의 조합을 포함하는, 표정 인식 방법.
  5. 제1항에 있어서,
    상기 정규화하는 단계는
    상기 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에, 상기 입력 영상의 표현력을 인가하여 상기 입력 영상의 표현력을 전역적으로 순위화하는 단계; 및
    미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 입력 영상의 표현력을 상기 전역적 표현력으로 정규화하는 단계
    를 포함하는, 표정 인식 방법.
  6. 제5항에 있어서,
    상기 정규화 함수는
    상기 입력 영상의 표현력의 최대값 및 상기 입력 영상의 표현력의 최소값에 기초하는, 표정 인식 방법.
  7. 제1항에 있어서,
    상기 특징을 추출하는 단계는
    서로 다른 표현력을 갖는 표정이 학습된 레이어들을 포함하는 제1 신경망들을 이용하여 상기 입력 영상의 복수의 프레임들 각각의 표정에 대한 특징들을 추출하는 단계
    를 포함하는, 표정 인식 방법.
  8. 제7항에 있어서,
    상기 입력 영상의 표정 및 상기 입력 영상의 표현력을 추정하는 단계는
    상기 입력 영상의 표정을 분류하도록 학습된 분류기들에 상기 특징들을 인가함으로써 상기 복수의 프레임들 각각의 표정을 추정하는 단계; 및
    상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망들에 상기 특징들을 인가함으로써 상기 복수의 프레임들 각각의 표현력을 추정하는 단계
    중 어느 하나 또는 이들의 조합을 포함하는, 표정 인식 방법.
  9. 제8항에 있어서,
    상기 정규화하는 단계는
    상기 복수의 프레임들 각각의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에, 상기 복수의 프레임들 각각의 표현력을 인가하여 상기 복수의 프레임들 각각의 표현력을 전역적으로 순위화하는 단계; 및
    미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 복수의 프레임들 각각의 표현력을 상기 전역적 표현력으로 정규화하는 단계
    를 포함하는, 표정 인식 방법.
  10. 제1항에 있어서,
    상기 입력 영상에, 상기 입력 영상에 대응하는 전역적 표현력을 레이블링(labeling)하는 단계
    를 더 포함하는, 표정 인식 방법.
  11. 서로 다른 표정 및 상기 서로 다른 표정의 표현력들에 대응하는 트레이닝 영상들을 획득하는 단계;
    제1 신경망을 이용하여 상기 트레이닝 영상들 각각의 표정에 대한 특징을 추출하는 단계;
    상기 특징에 기초하여 상기 트레이닝 영상들 각각의 표정을 분류하는 단계;
    상기 특징에 기초하여 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 제2 신경망을 학습하는 단계; 및
    상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하는 제3 신경망을 학습하는 단계
    를 포함하는, 표정 인식을 위한 학습 방법.
  12. 제11항에 있어서,
    얼굴 영상의 표정에 대한 특징을 추출하는 공유된 컨볼루션 레이어들(shared convolution layers)을 포함하는 상기 제1 신경망에 상기 트레이닝 영상들을 인가함으로써 상기 제1 신경망을 학습하는 단계
    를 더 포함하는, 표정 인식을 위한 학습 방법.
  13. 제11항에 있어서,
    상기 제2 신경망은
    상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하는 리커런트 레이어들(recurrent layers)을 포함하고,
    상기 제2 신경망을 학습하는 단계는
    상기 제2 신경망에 상기 특징을 인가함으로써 상기 제2 신경망을 학습하는 단계
    를 포함하는, 표정 인식을 위한 학습 방법.
  14. 제13항에 있어서,
    상기 제2 신경망을 학습하는 단계는
    상기 트레이닝 영상들 각각의 표정의 표현력을 사용자마다에 대하여 개별적으로 순위화 함으로써 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 추정하도록 상기 제2 신경망을 학습하는 단계
    를 포함하는, 표정 인식을 위한 학습 방법.
  15. 제11항에 있어서,
    상기 제3 신경망은
    상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하는 리커런트 레이어들을 포함하고,
    상기 제3 신경망을 학습하는 단계는
    상기 제3 신경망에, 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 인가함으로써 상기 트레이닝 영상들 각각에 대응하는 표정의 표현력을 전역적으로 순위화하도록 상기 제3 신경망을 학습하는 단계
    를 포함하는, 표정 인식을 위한 학습 방법.
  16. 하드웨어와 결합되어 제1항 내지 제15항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  17. 사용자의 얼굴을 포함하는 입력 영상을 획득하는 입력 인터페이스; 및
    상기 입력 영상으로부터 특징을 추출하고, 상기 특징에 기초하여 상기 입력 영상의 표정 및 상기 표정의 표현력에 대응하는 상기 입력 영상의 표현력을 추정하고, 상기 입력 영상의 표현력을 전역적 표현력으로 정규화하며, 상기 전역적 표현력에 기초하여 상기 표정을 인식하는 프로세서
    를 포함하는, 표정 인식 장치.
  18. 제17항에 있어서,
    상기 프로세서는
    서로 다른 표현력을 갖는 표정이 학습된 레이어들을 포함하는 제1 신경망을 이용하여 상기 입력 영상의 표정에 대한 특징을 추출하는, 표정 인식 장치.
  19. 제17항에 있어서,
    상기 프로세서는
    상기 입력 영상의 표정을 분류하도록 학습된 분류기에 상기 특징을 인가함으로써 상기 입력 영상의 표정을 추정하는 동작, 및 상기 입력 영상의 표현력을 추정하도록 학습된 제2 신경망에 상기 특징을 인가함으로써 상기 입력 영상의 표현력을 추정하는 동작 중 어느 하나 또는 이들의 조합을 수행하는, 표정 인식 장치.
  20. 제17항에 있어서,
    상기 프로세서는
    상기 입력 영상의 표현력을 기 학습된 영상의 표현력과 비교하여 전역적으로 순위화하도록 학습된 제3 신경망에 상기 입력 영상의 표현력을 인가하여 상기 입력 영상의 표현력을 전역적으로 순위화하고, 미리 정의된 정규화 함수에 기초하여 상기 전역적으로 순위화된 입력 영상의 표현력을 정규화하는, 표정 인식 장치.
KR1020170183638A 2017-12-29 2017-12-29 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법 KR102564854B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170183638A KR102564854B1 (ko) 2017-12-29 2017-12-29 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
US16/168,177 US10891468B2 (en) 2017-12-29 2018-10-23 Method and apparatus with expression recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170183638A KR102564854B1 (ko) 2017-12-29 2017-12-29 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법

Publications (2)

Publication Number Publication Date
KR20190081243A true KR20190081243A (ko) 2019-07-09
KR102564854B1 KR102564854B1 (ko) 2023-08-08

Family

ID=67058342

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170183638A KR102564854B1 (ko) 2017-12-29 2017-12-29 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법

Country Status (2)

Country Link
US (1) US10891468B2 (ko)
KR (1) KR102564854B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220164173A (ko) 2021-06-04 2022-12-13 김종욱 자유 절첩이 가능한 탈부착형 히팅 스크린
KR20230041484A (ko) 2021-09-17 2023-03-24 조선대학교산학협력단 얼굴 표정을 인식하기 위한 랜드마크 기반의 학습 모델 생성 방법 및 생성된 학습 모델을 이용한 얼굴 표정 인식 방법
KR20230072851A (ko) 2021-11-18 2023-05-25 조선대학교산학협력단 표정 분류를 위한 랜드마크 기반의 앙상블 네트워크 생성 방법 및 생성된 앙상블 네트워크를 이용한 표정 분류 방법.
EP4220546A4 (en) * 2020-09-25 2023-10-25 Fujitsu Limited MACHINE LEARNING PROGRAM, MACHINE LEARNING METHOD AND INFERENCE DEVICE

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11194405B2 (en) * 2015-10-08 2021-12-07 Panasonic Intellectual Property Corporation Of America Method for controlling information display apparatus, and information display apparatus
EP3740898A4 (en) * 2018-01-19 2021-10-13 Board of Regents, The University of Texas System SYSTEMS AND PROCEDURES FOR EVALUATING THE ATTENTION AND EMOTIONAL ENGAGEMENT OF AN INDIVIDUAL, GROUP AND CROWD
US10922833B2 (en) * 2018-05-15 2021-02-16 Apical Ltd. Image processing
US20210142047A1 (en) * 2018-09-06 2021-05-13 Every Life Works, LLC Salient feature extraction using neural networks with temporal modeling for real time incorporation (sentri) autism aide
WO2020096621A1 (en) * 2018-11-09 2020-05-14 Hewlett-Packard Development Company, L.P. Classification of subject-independent emotion factors
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
US11163988B2 (en) * 2019-12-02 2021-11-02 International Business Machines Corporation Selective interactive event tracking based on user interest
CN112691029A (zh) * 2020-12-25 2021-04-23 深圳市元征科技股份有限公司 一种经络数据处理方法、装置、设备及存储介质
WO2024085875A1 (en) * 2022-10-20 2024-04-25 Hewlett-Packard Development Company, L.P. Multi-tasking action unit predictions
CN116301473A (zh) * 2023-01-19 2023-06-23 佛山创视嘉科技有限公司 基于虚拟现实的用户行为预测方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2198121A1 (en) * 2007-08-31 2010-06-23 Saudi Arabian Oil Company Artificial neural network models for determining relative permeability of hydrocarbon reservoirs
JP5792320B2 (ja) 2010-12-29 2015-10-07 トムソン ライセンシングThomson Licensing 顔登録の方法
JP5729345B2 (ja) 2012-04-10 2015-06-03 株式会社デンソー 感情モニタリングシステム
TWI582708B (zh) 2012-11-22 2017-05-11 緯創資通股份有限公司 臉部表情控制系統、表情控制之方法及其電腦系統
US9706040B2 (en) 2013-10-31 2017-07-11 Udayakumar Kadirvel System and method for facilitating communication via interaction with an avatar
JP2015176208A (ja) 2014-03-13 2015-10-05 オムロン株式会社 画像登録装置、およびプログラム
US9672416B2 (en) 2014-04-29 2017-06-06 Microsoft Technology Licensing, Llc Facial expression tracking
KR102139795B1 (ko) 2014-12-15 2020-07-31 삼성전자주식회사 생채 특징 패턴을 업데이트하는 방법 및 이를 위한 전자 장치
KR101794399B1 (ko) 2015-02-04 2017-11-06 단국대학교 천안캠퍼스 산학협력단 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템
KR20170001106A (ko) 2015-06-25 2017-01-04 연세대학교 산학협력단 얼굴 영상 기반의 정신건강 관리 장치 및 그 방법
KR102361568B1 (ko) 2015-07-28 2022-02-10 삼성전자주식회사 디스플레이를 제어하는 전자 장치 및 방법
US20180077095A1 (en) * 2015-09-14 2018-03-15 X Development Llc Augmentation of Communications with Emotional Data
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
US10885915B2 (en) * 2016-07-12 2021-01-05 Apple Inc. Intelligent software agent
EP3622434A1 (en) * 2017-05-11 2020-03-18 Kodak Alaris Inc. Method for identifying, ordering, and presenting images according to expressions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dae Hoe Kim 외 3명, "Multi-Objective Based Spatio-Temporal Feature Representation Learning Robust to Expression Intensity Variations for Facial Expression Recognition", IEEE, pp.1-15 (2017.04.18.) 1부.* *
Spiros V.Ioannou 외 5명, "Emotion recognition through facial expression analysis based on a neurofuzzy network", Neural Networks Vol.18, (2005.06.15) 1부.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4220546A4 (en) * 2020-09-25 2023-10-25 Fujitsu Limited MACHINE LEARNING PROGRAM, MACHINE LEARNING METHOD AND INFERENCE DEVICE
KR20220164173A (ko) 2021-06-04 2022-12-13 김종욱 자유 절첩이 가능한 탈부착형 히팅 스크린
KR20230041484A (ko) 2021-09-17 2023-03-24 조선대학교산학협력단 얼굴 표정을 인식하기 위한 랜드마크 기반의 학습 모델 생성 방법 및 생성된 학습 모델을 이용한 얼굴 표정 인식 방법
KR20230072851A (ko) 2021-11-18 2023-05-25 조선대학교산학협력단 표정 분류를 위한 랜드마크 기반의 앙상블 네트워크 생성 방법 및 생성된 앙상블 네트워크를 이용한 표정 분류 방법.

Also Published As

Publication number Publication date
US20190205626A1 (en) 2019-07-04
KR102564854B1 (ko) 2023-08-08
US10891468B2 (en) 2021-01-12

Similar Documents

Publication Publication Date Title
KR102564854B1 (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
US11093734B2 (en) Method and apparatus with emotion recognition
KR20230021043A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
KR102564855B1 (ko) 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
Wöllmer et al. LSTM-modeling of continuous emotions in an audiovisual affect recognition framework
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
Tivatansakul et al. Emotional healthcare system: Emotion detection by facial expressions using Japanese database
Yang et al. Real-time facial expression recognition based on edge computing
CN111183455A (zh) 图像数据处理系统与方法
Raut Facial emotion recognition using machine learning
US20240037187A1 (en) Video domain adaptation via contrastive learning
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
KR20200083119A (ko) 사용자 인증 장치 및 방법
Ponce-López et al. Non-verbal communication analysis in victim–offender mediations
Okokpujie et al. Development of an adaptive trait-aging invariant face recognition system using convolutional neural networks
Chew et al. Facial Expression Recognition Via Enhanced Stress Convolution Neural Network for Stress Detection
Travieso et al. Using a Discrete Hidden Markov Model Kernel for lip-based biometric identification
Gantayat et al. Study of algorithms and methods on emotion detection from facial expressions: a review from past research
Agrawal et al. Age estimation and gender prediction using convolutional neural network
Tivatansakul et al. Healthcare system focusing on emotional aspect using augmented reality: Emotion detection by facial expression
CN111259698A (zh) 用于获取图像的方法及装置
Dubey et al. An accurate recognition of facial expression by extended wavelet deep convolutional neural network
Shetty et al. Real-Time Translation of Sign Language for Speech Impaired
Kartbayev et al. Development of a computer system for identity authentication using artificial neural networks
Xu et al. A high‐performance and lightweight framework for real‐time facial expression recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant