KR102252298B1 - 표정 인식 방법 및 장치 - Google Patents

표정 인식 방법 및 장치 Download PDF

Info

Publication number
KR102252298B1
KR102252298B1 KR1020160137382A KR20160137382A KR102252298B1 KR 102252298 B1 KR102252298 B1 KR 102252298B1 KR 1020160137382 A KR1020160137382 A KR 1020160137382A KR 20160137382 A KR20160137382 A KR 20160137382A KR 102252298 B1 KR102252298 B1 KR 102252298B1
Authority
KR
South Korea
Prior art keywords
image
reference image
feature
facial expression
difference
Prior art date
Application number
KR1020160137382A
Other languages
English (en)
Other versions
KR20180043937A (ko
Inventor
김영성
유병인
곽영준
최창규
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160137382A priority Critical patent/KR102252298B1/ko
Priority to US15/467,396 priority patent/US10387716B2/en
Priority to CN201710397965.2A priority patent/CN107977598B/zh
Priority to EP17194781.5A priority patent/EP3312766A3/en
Publication of KR20180043937A publication Critical patent/KR20180043937A/ko
Application granted granted Critical
Publication of KR102252298B1 publication Critical patent/KR102252298B1/ko

Links

Images

Classifications

    • G06K9/00302
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • G06K9/00281
    • G06K9/00288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

표정 인식 방법 및 장치가 개시된다. 일 실시예에 따른 표정 인식 방법은 입력 영상 및 참조 영상 각각으로부터 특징을 추출하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식하는 단계들을 포함한다.

Description

표정 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING FACIAL EXPRESSION}
아래 실시예들은 표정 인식 방법 및 장치에 관한 것이다.
표정은 신경 자극에 의해 유발되는 얼굴 근육들의 활동에 의해 형성된다. 얼굴 표정은 입력 영상으로부터 추출된 시각적 단서들에 대한 이미지 처리에 의해 인식될 수 있다. 일반적으로, 입력 영상에 나타난 표정에 기반하여 표정 정보가 예측될 수 있다. 표정 정보는 얼굴 근육의 액션 단위들(Action Units; AUs)의 세트를 통해 표정을 나타낼 수 있다. 예를 들어, 새로운 테스트 영상이 입력된 경우, 표정 인식 시스템은 얼굴 근육 형태들의 위치를 알아낸 뒤, 특징 기술자를 사용하여 위치를 알아낸 얼굴 근육 형태들을 표시하며, 해당 표시를 사전에 정의된 AU 모델과 비교할 수 있다.
일 측에 따르면, 표정 인식 방법은 입력 영상으로부터 특징을 추출하는 단계; 참조 영상으로부터 특징을 추출하는 단계; 및 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식하는 단계를 포함한다.
상기 표정 인식 방법은 상기 입력 영상에 기초하여 상기 참조 영상을 생성하는 단계를 더 포함할 수 있다. 상기 표정 인식 방법은 미리 학습된 인코더를 통해 상기 입력 영상을 인코딩하는 단계; 및 미리 학습된 디코더를 통해 상기 인코딩된 입력 영상을 디코딩함으로써, 상기 참조 영상을 생성하는 단계를 더 포함할 수 있다. 상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습될 수 있다. 상기 인코더 및 상기 디코더는 상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다.
상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출될 수 있다. 상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.
상기 추출기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다. 상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다. 상기 추출기들은 파라미터를 공유할 수 있다.
참조 영상으로부터 특징을 추출하는 단계는 제1 참조 영상 및 제2 참조 영상 각각으로부터 특징을 추출하는 단계를 포함할 수 있고, 상기 사용자의 표정을 인식하는 단계는 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는 단계를 포함할 수 있다.
일 측에 따르면, 표정 인식 장치는 프로세서; 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 입력 영상으로부터 특징을 추출하고, 참조 영상으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식한다.
상기 프로세서는 상기 입력 영상에 기초하여 상기 참조 영상을 생성할 수 있다. 상기 프로세서는 미리 학습된 인코더를 통해 상기 입력 영상을 인코딩하고, 미리 학습된 디코더를 통해 상기 인코딩된 입력 영상을 디코딩함으로써, 상기 참조 영상을 생성할 수 있다. 상기 참조 영상은 제1 참조 영상 및 제2 참조 영상을 포함할 수 있고, 상기 프로세서는 상기 제1 참조 영상 및 상기 제2 참조 영상 각각으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식할 수 있다.
도 1은 일 실시예에 따른 표정 인식 과정을 나타낸 도면.
도 2는 일 실시예에 따른 표정들 간의 차이를 나타낸 도면.
도 3은 일 실시예에 따른 다양한 표정의 영상들을 나타낸 도면.
도 4는 일 실시예에 따른 참조 영상을 수신하여 표정을 인식하는 과정을 나타낸 도면.
도 5는 일 실시예에 따른 참조 영상을 생성하여 표정을 인식하는 과정을 나타낸 도면.
도 6은 일 실시예에 따른 복수의 참조 영상들을 통해 표정을 인식하는 과정을 나타낸 도면.
도 7은 일 실시예에 따른 손실 함수를 이용하여 오토 인코더를 학습시키는 과정을 나타낸 도면.
도 8은 일 실시예에 따른 손실 함수를 이용하여 추출기를 학습시키는 과정을 나타낸 도면.
도 9는 일 실시예에 따른 대비 함수를 이용한 학습 과정을 나타낸 도면.
도 10은 일 실시예에 따른 손실 함수 및 대비 함수를 이용한 학습 과정을 나타낸 도면.
도 11은 일 실시예에 따른 복수의 대상 영상을 이용한 학습 과정을 나타낸 도면.
도 12는 일 실시예에 따른 표정 인식 장치를 나타낸 블록도.
도 13은 일 실시예에 따른 표정 인식 방법을 나타낸 동작 흐름도.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 표정 인식 과정을 나타낸 도면이다. 도 1을 참조하면, 표정 인식 장치(110)는 입력 영상을 수신하고, 입력 영상에 나타난 표정의 인식 결과를 출력한다. 표정 인식 장치(110)는 적어도 하나의 소프트웨어 모듈, 적어도 하나의 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.
표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 참조 영상 없이 입력 영상만을 이용하여 표정을 인식할 경우, 미세한 표정 변화가 인식되기 어려울 수 있다. 또한, 이 경우, 입력 영상의 표정이 이와 유사한 다른 표정들로 잘못 인식될 수 있다. 표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식함으로써, 입력 영상에서 표정 변화가 작은 경우, 혹은 입력 영상의 표정과 유사한 다른 표정들이 존재하는 경우에도, 입력 영상으로부터 표정을 정확하게 인식할 수 있다.
표정 인식 장치(110)는 다양한 표정들에 관한 샘플 영상들을 이용하여, 표정들간의 차이를 미리 학습할 수 있다. 예를 들어, 표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이, 또는 미리 학습한 표정들간의 차이를 비교하고, 그 비교 결과에 따라 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 아래에서 상세히 설명되겠지만, 표정 인식 장치(110)는 입력 영상으로부터 참조 영상을 생성하는 오토 인코더, 입력 영상 및 참조 영상으로부터 특징을 추출하는 추출기, 입력 영상의 특징 및 참조 영상의 특징을 비교하는 비교기 및 비교 결과에 기초하여 입력 영상에 포함된 표정을 인식하는 인식기 등을 이용하여 입력 영상으로부터 사용자의 표정을 인식할 수 있다. 오토 인코더는 입력 영상으로부터 참조 영상을 생성하기 위한 특징을 추출하는 인코더 및 인코더에 의하여 추출된 특징을 참조 영상으로 변환하는 디코더를 포함할 수 있다. 이러한 오토 인코더, 추출기, 비교기 및 인식기는 각각 뉴럴 네트워크(neural network)로 구현될 수 있고, 딥 러닝과 같은 기계 학습 기법을 통해 미리 학습될 수 있다.
예를 들어, 오토 인코더는 입력 영상으로부터 참조 영상을 생성하도록 미리 학습될 수 있고, 추출기는 영상으로부터 특징을 추출하도록 미리 학습될 수 있다. 인식기는 특징들 간의 차이에 기초하여 영상의 표정을 인식하도록 미리 학습될 수 있다. 여기서, 뉴럴 네트워크를 학습시킨다는 것은 뉴럴 네트워크의 파라미터들을 학습시킨다는 것을 의미할 수 있다. 아래에서 인코더 및 추출기는 서로 다른 명칭으로 지칭되겠지만, 이는 설명의 편의를 위한 것으로, 이들은 모두 영상을 특징 벡터로 인코딩하는 동작을 수행할 수 있다. 또한, 아래에서 디코더 및 변환기도 서로 다른 명칭으로 지칭되겠지만, 이 역시 설명의 편의를 위한 것으로, 이들은 모두 특징 벡터를 영상으로 디코딩하는 동작을 수행할 수 있다.
일 측에 따르면, 입력 영상과 함께 참조 영상이 표정 인식 장치(110)에 입력될 수 있다. 참조 영상은 표정을 인식할 때마다 촬영되어 입력 영상과 함께 표정 인식 장치(110)에 제공될 수 있다. 예를 들어, 무표정을 나타내는 참조 영상을 획득하기 위해, 사용자에게 무표정을 지을 것을 요구하고, 무표정을 짓는 사용자를 촬영할 수 있다. 혹은, 참조 영상은 미리 촬영되어 메모리에 저장되었다가 표정을 인식할 때 표정 인식 장치(110)에 제공될 수 있다. 참조 영상은 미리 정해진 표정을 나타낼 수 있다. 이 경우, 참조 영상으로부터 추출된 특징 벡터가 메모리에 저장될 수도 있다.
다른 일 측에 따르면, 표정 인식 장치(110)에는 입력 영상만 입력되고, 참조 영상은 표정 인식 장치(110)에 의해 별도로 생성될 수 있다. 예를 들어, 표정 인식 장치(110)는 미리 학습된 오토 인코더를 이용하여 입력 영상으로부터 참조 영상을 생성할 수 있다. 오토 인코더는 미리 정해진 표정의 참조 영상을 생성하도록 학습될 수 있다. 아래에서 상세히 설명되겠지만, 오토 인코더는 입력 영상을 인코딩하는 인코더 및 인코딩된 입력 영상을 디코딩하는 디코더를 포함할 수 있다. 이 경우, 디코더의 출력이 참조 영상이 될 수 있다.
영상들을 픽셀 기반으로 직접 비교하는 것보다, 영상들로부터 추출된 특징들을 비교함으로써, 인식 성능이 향상될 수 있다. 따라서, 표정 인식 장치(110)는 입력 영상과 참조 영상을 직접적으로 비교하지 않고, 입력 영상으로부터 추출된 특징과 참조 영상으로부터 추출된 특징을 비교할 수 있다. 예를 들어, 표정 인식 장치(110)는 미리 학습된 추출기를 이용하여 입력 영상 및 참조 영상 각각으로부터 특징을 추출할 수 있다. 추출된 특징은 벡터 형식으로 표현될 수 있고, 이는 특징 벡터로 지칭될 수 있다.
일 측에 따르면, 표정 인식 장치(110)는 복수의 추출기들을 이용하여 입력 영상 및 참조 영상 각각으로부터 특징을 추출할 수 있다. 예를 들어, 표정 인식 장치(110)는 제1 추출기를 이용하여 입력 영상으로부터 특징을 추출하고, 제2 추출기를 이용하여 입력 영상으로부터 특징을 추출할 수 있다. 이 경우, 제1 추출기 및 제2 추출기는 동일한 파라미터를 가질 수 있다. 추출기들이 동일한 파라미터를 갖는 것은, 추출기들이 파라미터를 공유하는 것으로 표현될 수 있다. 제1 추출기 및 제2 추출기가 파라미터를 공유함에 따라, 동일한 조건 하에 입력 영상 및 참조 영상으로부터 특징이 추출될 수 있다.
추출기에 의해 추출된 입력 영상의 특징 및 참조 영상의 특징은 비교기에 입력될 수 있다. 비교기는 입력 영상의 특징과 참조 영상의 특징을 비교하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이를 비교 결과로 출력할 수 있다.
예를 들어, 비교기는 입력 영상으로부터 추출된 특징 벡터와 참조 영상으로부터 추출된 특징 벡터 사이의 원소 단위(element-wise) 차를 출력할 수 있다. 입력 영상의 특징 벡터의 디멘션(dimension)과 참조 영상의 특징 벡터의 디멘션은 동일하다. 일 예로, 입력 영상의 특징 벡터는 (0.92, 0.13, 0.57, 0.20)이고, 참조 영상의 특징 벡터는 (0.32, 0.73, 0.11, 0.15)일 수 있다. 이 경우, 두 특징 벡터들 사이의 원소 단위 차는 (0.60, -0.60, 0.46, 0.05)일 수 있다. 실시예에 따라, 입력 영상의 특징과 참조 영상의 특징 간의 차이는 원소 단위 차 이외의 다양한 방식으로 정의될 수 있다.
앞서 언급된 것처럼 비교기는 뉴럴 네트워크로 구현될 수 있다. 혹은, 비교기는 입력된 벡터들 간의 차이를 출력하는 함수로 구현될 수 있다. 이 경우, 비교기는 추출기로부터 특징 벡터들을 수신하고, 특징 벡터들 간의 차이를 비교 결과로 출력할 수 있다.
비교기에 의한 비교 결과는 인식기에 입력될 수 있다. 인식기는 비교 결과에 기초하여 인식 결과를 출력할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 지시할 수 있다. 인식기는 일정한 길이의 벡터를 입력 받고, 해당 벡터에 대응하는 인식 결과를 출력하도록 미리 학습될 수 있다. 보다 구체적으로, 인식기는 입력 영상의 특징과 참조 영상의 특징 간의 차이가 입력됨에 따라, 해당 차이에 대응하는 인식 결과를 출력하도록 미리 학습될 수 있다.
실시예에 따라, 표정 인식 장치(110)는 복수의 참조 영상들을 통해 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 예를 들어, 표정 인식 장치(110)는 입력 영상의 특징과 제1 참조 영상의 특징 간의 차이에 기초하여 제1 비교 결과를 구하고, 입력 영상의 특징과 제2 참조 영상의 특징 간의 차에 기초하여 제2 비교 결과를 구할 수 있다. 제1 비교 결과 및 제2 비교 결과는 인식기에 입력될 수 있고, 인식기는 인식 결과를 출력할 수 있다.
오토 인코더, 추출기, 비교기 및 인식기는 손실 함수 및 대비 함수에 기초하여 학습될 수 있다. 손실 함수는 학습 대상의 출력의 지향 기준이 되는 라벨(label)과의 차이가 감소하도록 대상을 학습시킬 수 있고, 대비 함수는 학습 대상의 출력의 지양 기준이 되는 라벨과의 차이가 증가하도록 대상을 학습시킬 수 있다. 예를 들어, 오토 인코더는, 손실 함수에 기초하여, 라벨로 제공되는 대상 영상에 가까운 영상을 출력하도록 학습될 수 있다. 또한, 오토 인코더는, 대비 함수에 기초하여, 라벨로 제공되는 입력 영상에 먼 영상을 출력하도록 학습될 수 있다.
표정 인식 장치(110)는 인식 결과를 이용하여 사용자의 감정을 인식할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 지시할 수 있다. 따라서, 표정 인식 장치(110)는 인식 결과를 통해 사용자의 표정을 알 수 있다. 사용자를 실시간으로 촬영하여 입력 영상을 획득하는 경우, 입력 영상에 따라 사용자의 현재 표정을 알 수 있고, 현재 표정을 통해 사용자의 감정 상태를 추정할 수 있다. 따라서, 표정 인식 장치(110)는 사용자의 감정 인식을 요하는 다양한 장치들에 탑재될 수 있다. 예를 들어, 표정 인식 장치(110)는 홈 로봇, 혹은 청중 평가 기기에 탑재될 수 있다. 표정 인식 장치(110)의 탑재에 따라, 홈 로봇은 사용자의 감정에 대응하는 액션을 취할 수 있고, 청중 평가 기기는 강연에 대한 청중의 반응을 파악할 수 있다.
도 2는 일 실시예에 따른 표정들 간의 차이를 나타낸 도면이다. 도 2를 참조하면, 무표정(210) 및 행복한 표정(220)이 도시되어 있다.
이들 표정들 간에는 ε의 차이가 존재하는 것으로 볼 수 있다. 예를 들어, 무표정(210)에 ε을 더하면 행복한 표정(220)이 되고, 행복한 표정(220)에서 ε을 빼면 무표정(210)이 되는 것으로 볼 수 있다. 따라서, 영상들 간의 관계를 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00001
I1은 제1 표정을 나타내고, I2는 제2 표정을 나타낸다. εt는 제1 표정과 제2 표정의 차이 값이다. 이러한 표정들 간의 차이는 다양한 표정들에 관해 정해질 수 있다. 예를 들어, 무표정과 놀란 표정 간에는 ε2의 차이가 존재하는 것으로 볼 수 있고, 행복한 표정과 놀란 표정 간에는 ε3의 차이가 존재하는 것으로 볼 수 있다. 따라서, 다양한 표정들에 관한 차이 값들을 알 수 있다면, 제2 표정으로부터 제1 표정을 추정할 수 있다. 아래에서 설명될 것처럼, 표정 인식 장치(110)는 다양한 표정의 영상들 간의 차이를 미리 학습하고, 입력 영상과 참조 영상의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식할 수 있다.
도 3은 일 실시예에 따른 다양한 표정의 영상들을 나타낸 도면이다. 도 3을 참조하면, 무표정의 영상(310), 행복한 표정의 영상(320), 놀란 표정의 영상(330), 화난 표정의 영상(340) 및 슬픈 표정의 영상(350)이 도시되어 있다.
실시예들에 따르면, 표정 인식을 위해 미리 정해진 수의 표정들이 이용될 수 있다. 아래에서는 5개의 표정이 이용되는 것을 가정하겠으나, 그 이상 또는 그 이하의 표정들이 표정 인식에 이용될 수 있다. 또한, 입력 영상과 비교하기 위한 적어도 하나의 표정이 지정될 수 있다. 예를 들어, 무표정이 기준으로 정해졌다면, 영상(310)이 참조 영상이 된다. 표정 인식 장치는 영상(310)과 나머지 영상들(320 내지 350) 간의 차이를 학습할 수 있다. 예를 들어, 영상(310)과 영상(320) 간의 차이는 D1이고, 영상(310)과 영상(340) 간의 차이는 D2인 것으로 가정할 수 있다. 표정 인식 장치는 입력 영상과 참조 영상 간의 차이가 D1이라면, 입력 영상이 행복한 표정을 나타내는 것으로 결정할 수 있고, 입력 영상과 참조 영상 간의 차이가 D2라면, 입력 영상이 화난 표정을 나타내는 것으로 결정할 수 있다.
입력 영상과 참조 영상 간의 차이를 결정하기 위해, 표정 인식 장치에 참조 영상이 제공되어야 한다. 상술된 것처럼, 참조 영상은 사용자에 의해 촬영되어 표정 인식 장치에 제공되거나, 표정 인식 장치에 의해 직접 생성될 수 있다. 앞선 예시와 같이 무표정이 기준이 되는 경우, 표정 인식 장치 혹은 표정 인식 장치가 탑재된 기기는, 사용자에게 무표정을 취할 것을 요구할 수 있고, 무표정 상태의 사용자를 촬영하여 참조 영상을 획득할 수 있다. 또는, 표정 인식 장치는 입력 영상에 기초하여 참조 영상을 생성하도록 미리 학습될 수 있다. 이 경우, 표정 인식 장치는 입력 영상을 수신함에 따라 입력 영상에 기초하여 참조 영상을 생성할 수 있다. 기준이 되는 표정이 무표정이 아닌 다른 표정인 경우, 표정 인식 장치는 해당 표정에 대응하는 참조 영상을 촬영하거나 생성할 수 있고, 해당 참조 영상에 따라 입력 영상에 나타난 표정을 인식할 수 있다.
또한, 상술된 것처럼, 복수의 참조 영상들이 이용될 수 있다. 예를 들어, 무표정 및 행복한 표정이 기준으로 정해졌다면, 영상(310)이 제1 참조 영상이 되고, 영상(320)이 제2 참조 영상이 된다. 표정 인식 장치는 영상(310)과 나머지 영상들(320 내지 350) 간의 차이, 및 영상(320)과 나머지 영상들(310, 330 내지 350) 간의 차이를 학습할 수 있다. 예를 들어, 영상(310)과 영상(330) 간의 차이는 D3이고, 영상(320)과 영상(330) 간의 차이는 D4인 것으로 가정할 수 있다. 표정 인식 장치는 입력 영상과 제1 참조 영상 간의 차이가 D3이고, 입력 영상과 제2 참조 영상 간의 차이가 D4라면, 입력 영상이 놀란 표정을 나타내는 것으로 결정할 수 있다.
또는, 표정 인식 장치는 차이 값들의 합을 학습한 수 있다. 이 경우, 입력 영상과 제1 참조 영상 간의 차이 값, 및 입력 영상과 제2 참조 영상 간의 차이 값의 합이 D3 + D4인 것에 따라, 표정 인식 장치는 입력 영상이 놀란 표정을 나타내는 것으로 결정할 수 있다. 복수의 참조 영상들이 이용되는 경우, 표정 인식 장치 혹은 표정 인식 장치가 탑재된 기기는, 복수의 참조 영상들을 촬영하거나 생성하여 입력 영상의 표정을 인식할 수 있다. 또한, 표정 인식 장치는 미리 학습된 복수의 오토 인코더들을 이용하여 복수의 참조 영상들을 생성할 수 있다.
도 4는 일 실시예에 따른 참조 영상을 수신하여 표정을 인식하는 과정을 나타낸 도면이다. 도 4를 참조하면, 추출기(410)는 입력 영상을 수신하고, 추출기(420)는 참조 영상을 수신한다.
참조 영상은 미리 정해진 표정의 사용자가 촬영된 것일 수 있다. 추출기(410)는 입력 영상으로부터 특징을 추출하고, 추출기(420)는 참조 영상으로부터 특징을 추출할 수 있다. 비교기(430)는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 비교 결과를 출력할 수 있다. 인식기(440)는 비교 결과에 기초하여 인식 결과를 출력할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 나타낼 수 있다.
도 5는 일 실시예에 따른 참조 영상을 생성하여 표정을 인식하는 과정을 나타낸 도면이다. 도 5를 참조하면, 오토 인코더(510)는 인코더(511) 및 디코더(513)를 포함한다.
오토 인코더(510)는 입력 영상에 기초하여 참조 영상을 생성할 수 있다. 보다 구체적으로, 인코더(511)는 입력 영상을 인코딩할 수 있고, 디코더(513)는 인코딩된 입력 영상을 디코딩할 수 있다. 여기서, 디코더(513)의 출력이 참조 영상에 해당할 수 있다. 오토 인코더(510)는 입력 영상의 입력에 따라 참조 영상을 생성하도록 미리 학습될 수 있다. 추출기(520)는 입력 영상으로부터 특징을 추출하고, 추출기(530)는 오토 인코더(510)에 의해 생성된 참조 영상으로부터 특징을 추출할 수 있다. 비교기(540)는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 비교 결과를 출력할 수 있다. 인식기(550)는 비교 결과에 기초하여 인식 결과를 출력할 수 있다.
도 6은 일 실시예에 따른 복수의 참조 영상들을 통해 표정을 인식하는 과정을 나타낸 도면이다. 도 6을 참조하면, 입력 영상은 추출기(621), 오토 인코더들(611 내지 615)로 제공된다.
오토 인코더들(611, 613, 615)은 각각 제1 참조 영상, 제2 참조 영상 및 제n 참조 영상을 생성할 수 있다. 추출기들(621 내지 627)은 각각 입력 영상, 제1 참조 영상, 제2 참조 영상 및 제n 참조 영상으로부터 특징을 추출할 수 있다. 비교기(631)는 입력 영상의 특징과 제1 참조 영상의 특징 간의 차이에 기초하여 제1 비교 결과를 출력할 수 있고, 비교기(633)는 입력 영상의 특징과 제2 참조 영상의 특징 간의 차이에 기초하여 제2 비교 결과를 출력할 수 있고, 비교기(635)는 입력 영상의 특징과 제n 참조 영상의 특징 간의 차이에 기초하여 제n 비교 결과를 출력할 수 있다. 인식기(614)는 제1 비교 결과 내지 제n 비교 결과에 기초하여 인식 결과를 출력할 수 있다.
도 7은 일 실시예에 따른 손실 함수를 이용하여 오토 인코더를 학습시키는 과정을 나타낸 도면이다. 도 7을 참조하면, 오토 인코더(710)의 학습을 위한 손실 함수(R1)가 도시되어 있다.
오토 인코더(710)는 인코더(711) 및 디코더(713)를 포함한다. 인코더(711) 및 디코더(713)는 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 참조 영상 간의 차이가 감소하도록 학습될 수 있다. 앞서 언급된 것처럼, 다양한 표정들 중에 적어도 하나의 표정이 기준으로 정해질 수 있고, 대상 영상은 기준이 되는 표정을 나타낼 수 있다. 예를 들어, 무표정이 기준으로 정해졌다면, 무표정을 나타내는 영상이 대상 영상이 될 수 있다. 오토 인코더(710)에 의해 생성된 참조 영상(
Figure 112016102307611-pat00002
)은 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00003
여기서, f0는 인코더(511)의 인코딩 함수를 나타내고, g0는 디코더(513)의 디코딩 함수를 나타내고, I는 입력 영상을 나타내고, I'는 I에 관한 f0의 출력을 나타낸다. 일 측에 따르면, 인코딩 함수(f0) 및 디코딩 함수(g0)는 확률 모델일 수 있다. 예를 들어, 인코딩 함수(f0) 및 디코딩 함수(g0)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00004
여기서, q는 f0의 확률 모델을 나타내고, p는 g0의 확률 모델을 나타내고, I0는 대상 영상을 나타낸다. 오토 인코더(710)는 손실 함수(R1)에 기초하여 학습될 수 있다. 손실 함수(R1)에 기초하여 학습된 파라미터(
Figure 112016102307611-pat00005
)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00006
오토 인코더(710)는 수학식 4에 따라 참조 영상(
Figure 112016102307611-pat00007
)과 대상 영상(I0)의 차이가 최소화되도록 반복적으로 학습될 수 있다. 따라서, 오토 인코더(710)는 입력 영상(I)에 기초하여 대상 영상(I0)에 근접한 참조 영상(
Figure 112016102307611-pat00008
)을 생성할 수 있다.
도 8은 일 실시예에 따른 손실 함수를 이용하여 추출기를 학습시키는 과정을 나타낸 도면이다. 도 8을 참조하면, 변환기들(850, 860)의 학습을 위한 손실 함수들(R2, R3)이 도시되어 있다.
추출기(820)는 입력 영상에서 특징을 추출하고, 추출기(830)는 오토 인코더(810)에 의해 출력된 참조 영상에서 특징을 추출한다. 또한, 변환기(850)는 입력 영상의 특징을 제1 영상으로 변환하고, 변환기(860)는 참조 영상의 특징을 제2 영상으로 변환한다. 손실 함수들(R2, R3)에 기초하여 오토 인코더(810), 추출기들(820, 830) 및 변환기들(850, 860)이 학습될 수 있다. 손실 함수(R2)에 기초하여 학습된 파라미터(
Figure 112016102307611-pat00009
)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00010
여기서, f는 추출기(820)의 인코딩 함수를 나타내고, g1은 변환기(850)의 디코딩 함수를 나타내고, I는 입력 영상을 나타내고,
Figure 112016102307611-pat00011
는 변환기(850)에 의해 변환된 제1 영상을 나타낸다. 변환기(850)는 수학식 5에 따라 입력 영상(I)과 제1 영상(
Figure 112016102307611-pat00012
)의 차이가 최소화되도록 반복적으로 학습될 수 있다. 또한, 손실 함수(R3)에 기초하여 학습된 파라미터(
Figure 112016102307611-pat00013
)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00014
여기서, f는 추출기(830)의 인코딩 함수를 나타내고, g10은 변환기(860)의 디코딩 함수를 나타내고, I0는 대상 영상을 나타내고,
Figure 112016102307611-pat00015
는 변환기(860)에 의해 변환된 제2 영상을 나타낸다. 추출기들(820)이 파라미터를 서로 공유하므로, 추출기들(820)의 인코딩 함수는 동일하게 정의될 수 있다. 변환기(860)는 수학식 6에 따라 대상 영상(I0)과 제2 영상(
Figure 112016102307611-pat00016
)의 차이가 최소화되도록 반복적으로 학습될 수 있다.
변환기들(850, 860)의 학습에 따른 역 전파(back propagation)의 영향으로, 오토 인코더(810) 및 추출기들(820, 830)이 함께 학습될 수 있다. 학습이 진행됨에 따라, 오토 인코더(810) 및 추출기들(820, 830)의 정확도가 향상되므로, 표정 인식 장치의 인식 성능이 향상될 수 있다.
도 9는 일 실시예에 따른 대비 함수를 이용한 학습 과정을 나타낸 도면이다. 도 9를 참조하면, 오토 인코더(910), 추출기들(920, 930) 및 변환기들(950, 960)의 학습을 위한 대비 함수들(S1 내지 S3)이 도시되어 있다.
오토 인코더(910)는 대비 함수(S1)에 기초하여 입력 영상과 참조 영상 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S1)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00017
여기서, I는 입력 영상을 나타내고,
Figure 112016102307611-pat00018
는 참조 영상을 나타내고, m은 임계치를 나타낸다. 오토 인코더(910)는 대비 함수(S1)가 최소화되도록 학습될 수 있다. 따라서, 오토 인코더(910)의 학습에 따라, 입력 영상(I)과 참조 영상(
Figure 112016102307611-pat00019
) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 또한, 추출기들(920, 930)은 대비 함수(S2)에 기초하여 입력 영상(I)의 특징과 참조 영상(
Figure 112016102307611-pat00020
)의 특징 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S2)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00021
여기서, f는 추출기들(920, 930)의 인코딩 함수를 나타내고,
Figure 112016102307611-pat00022
는 입력 영상(I)의 특징을 나타내고,
Figure 112016102307611-pat00023
는 참조 영상(
Figure 112016102307611-pat00024
)의 특징을 나타낸다. 추출기들(920, 930)은 대비 함수(S2)가 최소화되도록 학습될 수 있다. 따라서, 추출기들(920, 930)의 학습에 따라, 입력 영상(I)의 특징(
Figure 112016102307611-pat00025
)과 참조 영상(
Figure 112016102307611-pat00026
)의 특징(
Figure 112016102307611-pat00027
) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 추출기들(920, 930)의 학습에 따른 역 전파의 영향으로, 오토 인코더(910)가 함께 학습될 수 있다.
변환기들(950, 960)은 대비 함수(S3)에 기초하여 변환기(950)에 의해 변환된 제1 영상과 변환기(960)에 의해 변환된 제2 영상 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S3)는 다음과 같이 나타낼 수 있다.
Figure 112016102307611-pat00028
여기서, g1은 변환기(950)의 디코딩 함수를 나타내고, g10은 변환기(960)의 디코딩 함수를 나타내고,
Figure 112016102307611-pat00029
는 변환기(950)에 의해 변환된 제1 영상을 나타내고,
Figure 112016102307611-pat00030
는 변환기(960)에 의해 변환된 제2 영상을 나타낸다. 변환기들(950, 960)은 대비 함수(S3)가 최소화되도록 학습될 수 있다. 따라서, 변환기들(950, 960)의 학습에 따라, 제1 영상(
Figure 112016102307611-pat00031
)과 제2 영상(
Figure 112016102307611-pat00032
) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 변환기들(950, 960)의 학습에 따른 역 전파(back propagation)의 영향으로, 오토 인코더(810) 및 추출기들(820, 830)이 함께 학습될 수 있다. 대비 함수들(S1 내지 S3)에 따라 입력 영상(I)과 참조 영상(
Figure 112016102307611-pat00033
) 간에 최소 거리가 형성되므로, 표정 인식 장치는 인접한 표정들도 비교적 정확하게 검출할 수 있다.
도 10은 일 실시예에 따른 손실 함수 및 대비 함수를 이용한 학습 과정을 나타낸 도면이다. 도 10을 참조하면, 손실 함수들(R1 내지 R3) 및 대비 함수들(S1 내지 S3)이 도시되어 있다.
일 측에 따르면, 표정 인식 장치는 손실 함수들(R1 내지 R3) 및 대비 함수들(S1 내지 S3) 중 적어도 하나에 의해 학습될 수 있다. 보다 구체적으로, 입력 영상의 표정과 대상 영상의 표정의 종류가 다를 경우, 표정 인식 장치는 대비 함수에 기초하여 학습될 수 있다. 혹은, 입력 영상의 표정과 대상 영상의 표정의 종류가 같을 경우, 표정 인식 장치는 대비 함수 대신 손실 함수에 기초하여 학습될 수 있다. 입력 영상의 표정과 대상 영상의 표정 간의 차이는 미리 정해진 임계치에 기초하여 비교될 수 있다. 예를 들어, 입력 영상의 표정과 대상 영상 간의 유사도가 미리 정해진 임계치보다 높은 경우, 표정 인식 장치는 대비 함수들(S1 내지 S3)에 기초하여 학습될 수 있고, 입력 영상의 표정과 대상 영상 간의 유사도가 미리 정해진 임계치보다 낮은 경우, 표정 인식 장치는 손실 함수들(R1 내지 R3)에 기초하여 학습될 수 있다. 다른 일 측에 따르면, 표정 인식 장치는 인식 결과에 기초하여 학습될 수 있다. 예를 들어, 입력 영상은 입력 영상이 나타내는 표정에 관한 라벨과 매핑될 수 있다. 표정 인식 장치는 인식 결과와 입력 영상의 라벨 간의 차이가 감소하도록 학습될 수 있다.
도 11은 일 실시예에 따른 복수의 대상 영상을 이용한 학습 과정을 나타낸 도면이다. 도 11을 참조하면, 오토 인코더들(1111 내지 1115)이 도시되어 있다.
오토 인코더들(1111 내지 1115)은 각각 입력 영상에 기초하여 제1 참조 영상 내지 제n 참조 영상을 생성할 수 있다. 오토 인코더(1111)는 손실 함수(R4)에 기초하여 대상 영상(10)과 제1 참조 영상 간의 차이가 감소하도록 학습될 수 있고, 오토 인코더(1113)는 손실 함수(R5)에 기초하여 대상 영상(20)과 제2 참조 영상 간의 차이가 감소하도록 학습될 수 있고, 오토 인코더(1115)는 손실 함수(R6)에 기초하여 대상 영상(30)과 제3 참조 영상 간의 차이가 감소하도록 학습될 수 있다. 오토 인코더들(1111 내지 1115)은 상술된 수학식 4에 따라 반복적으로 학습될 수 있다. 따라서, 오토 인코더들(1111 내지 1115)은 입력 영상에 기초하여 대상 영상들(20 내지 40)에 근접한 제1 참조 영상 내지 제n 참조 영상을 생성할 수 있다.
도 12는 일 실시예에 따른 표정 인식 장치를 나타낸 블록도이다. 도 12를 참조하면, 표정 인식 장치는 프로세서(1210), 센서(1220) 및 메모리(1230)를 포함한다. 프로세서(1210), 센서(1220) 및 메모리(1230)는 버스(1240)를 통하여 서로 통신할 수 있다.
센서(1220)는 입력 영상 및 참조 영상을 촬영하기 위한 이미지 센서, 근접 센서 및 적외선 센서 중 적어도 하나를 포함할 수 있다 . 센서(1220)는 잘 알려진 방식(예를 들어, 광학 이미지를 전기 신호로 변환하는 방식 등)으로 입력 영상 및 참조 영상을 촬영할 수 있다. 센서(1220)는 촬영된 컬러 영상, 깊이 영상 및 적외선 영상 중 적어도 하나를 프로세서(1210) 및 메모리(1230) 중 적어도 하나로 전달할 수 있다.
프로세서(1210)는 상술한 적어도 하나의 장치들을 포함하거나, 상술한 적어도 하나의 방법을 수행할 수 있다. 예를 들어, 프로세서(1210)는 상술된 표정 인식에 관한 동작을 처리할 수 있다. 보다 구체적으로, 프로세서(1210)는 입력 영상으로부터 특징을 추출하고, 참조 영상으로부터 특징을 추출하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식할 수 있다.
메모리(1230)는 컴퓨터에서 읽을 수 있는 명령어들을 저장할 수 있다. 메모리(1230)에 저장된 명령어들이 프로세서(1210)에서 실행되면, 프로세서(1210)는 상술된 표정 인식에 관한 동작을 처리할 수 있다. 또한, 메모리(1230)는 상술된 표정 인식에 관한 데이터를 저장할 수 있다. 예를 들어, 메모리(1230)는 오토 인코더, 추출기, 비교기 및 인식기에 관한 파라미터를 저장할 수 있다.
프로세서(1210)는 명령어들이나 프로그램들을 실행하거나, 표정 인식 장치를 제어할 수 있다. 표정 인식 장치는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 표정 인식 장치는 이동 전화, 스마트 폰, PDA, 태블릿 컴퓨터, 랩톱 컴퓨터 등 모바일 장치, 퍼스널 컴퓨터, 태블릿 컴퓨터, 넷북 등 컴퓨팅 장치, 또는 텔레비전, 스마트 텔레비전, 게이트 제어를 위한 보안 장치 등 전자 제품 등의 적어도 일부로 구현될 수 있다. 그 밖에, 표정 인식 장치에 관해서는 상술된 내용이 적용될 수 있으며, 보다 상세한 설명은 생략한다.
도 13은 일 실시예에 따른 표정 인식 방법을 나타낸 동작 흐름도이다. 도 13을 참조하면, 단계(1310)에서, 표정 인식 장치는 입력 영상으로부터 특징을 추출한다. 단계(1320)에서, 표정 인식 장치는 참조 영상으로부터 특징을 추출한다. 단계(1330)에서, 표정 인식 장치는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식한다. 그 밖에, 표정 인식 방법에 관해서는 상술된 내용이 적용될 수 있으며, 보다 상세한 설명은 생략한다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (23)

  1. 입력 영상으로부터 상기 입력 영상에 표현된 제1 표정에 대응하는 제1 특징을 추출하는 단계;
    상기 입력 영상에 기초하여 참조 영상을 생성하는 단계;
    상기 참조 영상으로부터 상기 참조 영상에 표현된 제2 표정에 대응하는 제2 특징을 추출하는 단계;
    상기 제1 특징 및 상기 제2 특징에 기초하여 상기 제1 표정과 상기 제2 표정 간의 차이를 결정하는 단계; 및
    상기 결정된 상기 제1 표정과 상기 제2 표정 간의 차이에 기초하여 사용자의 표정을 인식하는 단계
    를 포함하고,
    상기 참조 영상을 생성하는 단계는
    인코더를 통해 상기 입력 영상을 인코딩 특징으로 인코딩하는 단계; 및
    디코더를 통해 상기 인코딩 특징을 디코딩함으로써, 상기 참조 영상을 생성하는 단계
    를 포함하고,
    상기 인코더 및 상기 디코더는
    상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 기계 학습 기반으로 미리 학습되는,
    표정 인식 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출되는, 표정 인식 방법.
  7. 제6항에 있어서,
    상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.
  8. 제7항에 있어서,
    상기 추출기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 방법.
  9. 제6항에 있어서,
    상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 방법.
  10. 제6항에 있어서,
    상기 추출기들은 파라미터를 공유하는, 표정 인식 방법.
  11. 제1항에 있어서,
    상기 참조 영상으로부터 특징을 추출하는 단계는
    제1 참조 영상 및 제2 참조 영상 각각으로부터 특징을 추출하는 단계를 포함하고,
    상기 사용자의 표정을 인식하는 단계는
    상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는 단계를 포함하는,
    표정 인식 방법.
  12. 하드웨어와 결합되어 제1항, 제4항, 및 제6항 내지 제11항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  13. 프로세서; 및
    컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리
    를 포함하고,
    상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 입력 영상으로부터 상기 입력 영상에 표현된 제1 표정에 대응하는 제1 특징을 추출하고, 상기 입력 영상에 기초하여 참조 영상을 생성하고, 상기 참조 영상으로부터 상기 참조 영상에 표현된 제2 표정에 대응하는 제2 특징을 추출하고, 상기 제1 특징 및 상기 제2 특징에 기초하여 상기 제1 표정과 상기 제2 표정 간의 차이를 결정하고, 상기 결정된 상기 제1 표정과 상기 제2 표정 간의 차이에 기초하여 사용자의 표정을 인식하고,
    상기 프로세서는 인코더를 통해 상기 입력 영상을 인코딩 특징으로 인코딩하고, 디코더를 통해 상기 인코딩 특징을 디코딩함으로써, 상기 참조 영상을 생성하고,
    상기 인코더 및 상기 디코더는 상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 기계 학습 기반으로 미리 학습되는, 표정 인식 장치.
  14. 삭제
  15. 삭제
  16. 제13항에 있어서,
    상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 장치.
  17. 삭제
  18. 제13항에 있어서,
    상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출되는, 표정 인식 장치.
  19. 제18항에 있어서,
    상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 장치.
  20. 제19항에 있어서,
    상기 제1 영상과 상기 제2 영상은 미리 학습된 변환기들에 의해 변환되고,
    상기 변환기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 장치.
  21. 제18항에 있어서,
    상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 장치.
  22. 제18항에 있어서,
    상기 추출기들은 파라미터를 공유하는, 표정 인식 장치.
  23. 제13항에 있어서,
    상기 참조 영상은 제1 참조 영상 및 제2 참조 영상을 포함하고,
    상기 프로세서는 상기 제1 참조 영상 및 상기 제2 참조 영상 각각으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는, 표정 인식 장치.
KR1020160137382A 2016-10-21 2016-10-21 표정 인식 방법 및 장치 KR102252298B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160137382A KR102252298B1 (ko) 2016-10-21 2016-10-21 표정 인식 방법 및 장치
US15/467,396 US10387716B2 (en) 2016-10-21 2017-03-23 Method and apparatus for recognizing facial expression
CN201710397965.2A CN107977598B (zh) 2016-10-21 2017-05-31 用于识别面部表情的方法和设备
EP17194781.5A EP3312766A3 (en) 2016-10-21 2017-10-04 Method and apparatus for recognizing facial expression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160137382A KR102252298B1 (ko) 2016-10-21 2016-10-21 표정 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180043937A KR20180043937A (ko) 2018-05-02
KR102252298B1 true KR102252298B1 (ko) 2021-05-14

Family

ID=60051356

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160137382A KR102252298B1 (ko) 2016-10-21 2016-10-21 표정 인식 방법 및 장치

Country Status (4)

Country Link
US (1) US10387716B2 (ko)
EP (1) EP3312766A3 (ko)
KR (1) KR102252298B1 (ko)
CN (1) CN107977598B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263599A (zh) * 2018-03-12 2019-09-20 鸿富锦精密工业(武汉)有限公司 信息传送系统及信息传送方法
JP6760318B2 (ja) * 2018-03-14 2020-09-23 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
US11163981B2 (en) * 2018-09-11 2021-11-02 Apple Inc. Periocular facial recognition switching
CN109190582B (zh) * 2018-09-18 2022-02-08 河南理工大学 一种微表情识别的新方法
US10942637B2 (en) * 2018-10-09 2021-03-09 Midea Group Co., Ltd. Method and system for providing control user interfaces for home appliances
CN111079472A (zh) * 2018-10-19 2020-04-28 北京微播视界科技有限公司 图像对比方法和装置
KR102174175B1 (ko) * 2018-11-06 2020-11-06 숙명여자대학교산학협력단 감정을 식별하기 위한 얼굴 감정 인식 장치 및 그 방법
US11892184B2 (en) * 2018-12-03 2024-02-06 Mitsubishi Electric Corporation Facility apparatus control device and facility apparatus control method
US11222199B2 (en) * 2018-12-05 2022-01-11 International Business Machines Corporation Automatically suggesting behavioral adjustments during video conferences
CN109635813B (zh) * 2018-12-13 2020-12-25 银河水滴科技(北京)有限公司 一种钢轨区域图像分割方法及装置
US11240492B2 (en) * 2019-01-22 2022-02-01 Apple Inc. Neural network based residual coding and prediction for predictive coding
CN111797249A (zh) 2019-04-09 2020-10-20 华为技术有限公司 一种内容推送方法、装置与设备
CN110363099A (zh) * 2019-06-24 2019-10-22 昆明理工大学 一种基于局部并行深度神经网络的表情识别方法
KR20210053427A (ko) 2019-11-02 2021-05-12 이동현 블루라이트 콘택트렌즈
CN111634233A (zh) * 2020-05-25 2020-09-08 杭州鸿泉物联网技术股份有限公司 一种安全驾驶系统和方法
CN111797696B (zh) * 2020-06-10 2022-04-15 武汉大学 一种现场自主学习的人脸识别系统和方法
CN112528835B (zh) * 2020-12-08 2023-07-04 北京百度网讯科技有限公司 表情预测模型的训练方法、识别方法、装置及电子设备
KR102296220B1 (ko) * 2021-03-16 2021-08-31 국방과학연구소 합성개구 레이다 영상의 건물 추출 방법
JPWO2023032014A1 (ko) * 2021-08-30 2023-03-09
CN117540789B (zh) * 2024-01-09 2024-04-26 腾讯科技(深圳)有限公司 模型训练方法、面部表情迁移方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087345A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US8542928B2 (en) * 2005-09-26 2013-09-24 Canon Kabushiki Kaisha Information processing apparatus and control method therefor
WO2007116551A1 (ja) * 2006-03-30 2007-10-18 Kabushiki Kaisha Toshiba 画像符号化装置及び画像符号化方法並びに画像復号化装置及び画像復号化方法
CN101543081B (zh) * 2006-11-30 2012-02-22 株式会社Ntt都科摩 动态图像编码装置、动态图像编码方法、动态图像解码装置、动态图像解码方法
JP5123630B2 (ja) * 2007-09-27 2013-01-23 株式会社ニューフレアテクノロジー パターン検査装置及びパターン検査方法
KR100918862B1 (ko) * 2007-10-19 2009-09-28 광주과학기술원 참조영상을 이용한 깊이영상 생성방법 및 그 장치, 생성된깊이영상을 부호화/복호화하는 방법 및 이를 위한인코더/디코더, 그리고 상기 방법에 따라 생성되는 영상을기록하는 기록매체
US20090232365A1 (en) * 2008-03-11 2009-09-17 Cognimatics Ab Method and device for face recognition
US8208183B2 (en) * 2008-11-19 2012-06-26 Xerox Corporation Detecting image quality defects by measuring images printed on image bearing surfaces of printing devices
KR101708682B1 (ko) * 2010-03-03 2017-02-21 엘지전자 주식회사 영상표시장치 및 그 동작 방법.
JP5234833B2 (ja) 2010-01-19 2013-07-10 日本電信電話株式会社 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム
JP5057184B2 (ja) * 2010-03-31 2012-10-24 アイシン・エィ・ダブリュ株式会社 画像処理システム及び車両制御システム
JP2013003706A (ja) 2011-06-14 2013-01-07 Nippon Telegr & Teleph Corp <Ntt> 表情認識装置、方法、及びプログラム
US9305240B2 (en) * 2011-12-07 2016-04-05 Google Technology Holdings LLC Motion aligned distance calculations for image comparisons
US8971591B2 (en) * 2011-12-09 2015-03-03 Google Technology Holdings LLC 3D image estimation for 2D image recognition
KR101910659B1 (ko) * 2011-12-29 2018-10-24 삼성전자주식회사 디지털 영상장치 및 그 제어방법
TWI479435B (zh) * 2012-04-03 2015-04-01 Univ Chung Hua 人臉辨識方法
US8948465B2 (en) * 2012-04-09 2015-02-03 Accenture Global Services Limited Biometric matching technology
US9165180B2 (en) * 2012-10-12 2015-10-20 Microsoft Technology Licensing, Llc Illumination sensitive face recognition
AU2014214662B2 (en) * 2013-02-08 2019-07-11 Emotient Collection of machine learning training data for expression recognition
US20140293030A1 (en) * 2013-03-26 2014-10-02 Texas Instruments Incorporated Real Time Math Using a Camera
US9697233B2 (en) * 2014-08-12 2017-07-04 Paypal, Inc. Image processing and matching
KR20160053455A (ko) 2014-11-04 2016-05-13 경북대학교 산학협력단 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
US9384385B2 (en) * 2014-11-06 2016-07-05 Intel Corporation Face recognition using gradient based feature analysis
KR20160061856A (ko) * 2014-11-24 2016-06-01 삼성전자주식회사 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
US9547763B1 (en) * 2015-03-31 2017-01-17 EMC IP Holding Company LLC Authentication using facial recognition
US9672632B2 (en) * 2015-10-21 2017-06-06 Disney Enterprises, Inc. Device and method for camera driven background subtraction
DE102016207367A1 (de) * 2016-04-29 2017-11-02 Siemens Healthcare Gmbh Festlegen von Scanparametern einer CT-Bildaufnahme mit Hilfe einer Außenbildaufnahme
US10083347B2 (en) * 2016-07-29 2018-09-25 NTech lab LLC Face identification using artificial neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087345A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体

Also Published As

Publication number Publication date
CN107977598A (zh) 2018-05-01
EP3312766A3 (en) 2018-08-22
EP3312766A2 (en) 2018-04-25
KR20180043937A (ko) 2018-05-02
US10387716B2 (en) 2019-08-20
US20180114057A1 (en) 2018-04-26
CN107977598B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
KR102252298B1 (ko) 표정 인식 방법 및 장치
KR102387570B1 (ko) 표정 생성 방법, 표정 생성 장치 및 표정 생성을 위한 학습 방법
KR102570279B1 (ko) 감정 인식을 위한 학습 방법, 감정을 인식하는 방법 및 장치
KR102564854B1 (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
KR102486699B1 (ko) 영상 인식 방법, 영상 검증 방법, 장치, 및 영상 인식 및 검증에 대한 학습 방법 및 장치
US10346464B2 (en) Cross-modiality image matching method
KR102010378B1 (ko) 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치
Heo et al. Appearance and motion based deep learning architecture for moving object detection in moving camera
US20210183391A1 (en) Method, system, and computer-readable medium for recognizing speech using depth information
KR20220129463A (ko) 얼굴 인식 방법 및 장치
Raheja et al. Android based portable hand sign recognition system
Shah et al. Efficient portable camera based text to speech converter for blind person
KR20200083119A (ko) 사용자 인증 장치 및 방법
CN117058595B (zh) 视频语义特征和可扩展粒度感知时序动作检测方法及装置
CN114140831A (zh) 人体姿态估计方法、装置、电子设备及存储介质
US20170147873A1 (en) Motion recognition method and motion recognition device
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
JP2009134466A (ja) 認識処理装置、方法及びコンピュータプログラム
US20220237884A1 (en) Keypoint based action localization
US11445267B1 (en) Low-latency captioning system
Siby et al. Gesture based real-time sign language recognition system
CN115690438A (zh) 鸟瞰图特征的确定方法、目标检测方法、装置和电子设备
CN112214626B (zh) 图像识别方法、装置、可读存储介质及电子设备
Senanayaka et al. Continuous American Sign Language Recognition Using Computer Vision And Deep Learning Technologies
CN110753239B (zh) 视频预测方法、视频预测装置、电子设备和车辆

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant