KR20190056792A - 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 - Google Patents
딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 Download PDFInfo
- Publication number
- KR20190056792A KR20190056792A KR1020170154097A KR20170154097A KR20190056792A KR 20190056792 A KR20190056792 A KR 20190056792A KR 1020170154097 A KR1020170154097 A KR 1020170154097A KR 20170154097 A KR20170154097 A KR 20170154097A KR 20190056792 A KR20190056792 A KR 20190056792A
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- face
- face detection
- image
- probability
- Prior art date
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008909 emotion recognition Effects 0.000 title claims description 68
- 238000001514 detection method Methods 0.000 title claims description 49
- 230000008451 emotion Effects 0.000 claims abstract description 85
- 230000007704 transition Effects 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000009795 derivation Methods 0.000 claims 1
- 210000000887 face Anatomy 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 10
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 6
- QZAYGJVTTNCVMB-UHFFFAOYSA-N serotonin Chemical compound C1=C(O)C=C2C(CCN)=CNC2=C1 QZAYGJVTTNCVMB-UHFFFAOYSA-N 0.000 description 6
- SFLSHLFXELFNJZ-QMMMGPOBSA-N (-)-norepinephrine Chemical compound NC[C@H](O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-QMMMGPOBSA-N 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 229960003638 dopamine Drugs 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 239000002858 neurotransmitter agent Substances 0.000 description 3
- 229960002748 norepinephrine Drugs 0.000 description 3
- SFLSHLFXELFNJZ-UHFFFAOYSA-N norepinephrine Natural products NCC(O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-UHFFFAOYSA-N 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229940076279 serotonin Drugs 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G06K9/00308—
-
- G06K9/6226—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법에 관한 것으로서, 이 시스템은 복수의 영상을 입력 받아 얼굴을 검출하고 얼굴에 표출된 감정을 인식하는 딥러닝 연산부, 그리고 제1 영상에서 인식된 제1 감정, 제2 영상에서 인식된 제2 감정, 그리고 이전에 도출된 감정과 관련된 결과 값을 대상으로 감정 전이 확률을 기초로 계산하여 현재 감정을 도출하는 확률 연산부를 포함한다.
Description
본 발명은 얼굴 검출 및 감정 인식 시스템 및 방법에 관한 것으로서 더욱 상세하게는 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법에 관한 것이다.
도 1에 도시한 종래의 감정 인식 시스템은 복수의 얼굴이 포함된 입력 영상으로부터 각 얼굴의 개별 감정 상태를 인식할 수 있다. 이 감정 인식 시스템은 입력부(10), 얼굴 특징 추출부(20), 제1 분류기(30), 감정 특징 추출부(50), 그리고 제2 분류기(60)를 포함한다.
입력부(10)는 복수의 얼굴이 포함되어 있는 입력 영상을 받아들이고, 얼굴 특징 추출부(20)는 입력된 영상으로부터 얼굴 특징 값을 생성한다. 제1 분류기(30)는 학습 데이터를 이용하여 입력된 영상으로부터 제1 분류 결과(40), 즉 검출된 얼굴 영상을 출력한다. 한편, 입력 영상에 복수의 얼굴이 존재하여 복수의 얼굴이 검출되면 검출된 얼굴마다 크롭(crop) 영상을 출력한다.
종래에 초기 얼굴 검출에 사용된 특징(feature)은 영상 속 얼굴의 강도(intensity)였다. 그러나 인종, 조명 등에 따라 성능이 좌우됨에 따라 이에 무관한 특징이 필요하게 되었고, 하르 유사 특징(Haar-like feature), Local Binary Pattern(LBP), Modified Census Transform 등의 특징이 제안되었다.
한편, 얼굴 검출을 위한 분류기로 신경망(Neural Network) 기반 분류기, 아다부스트(AdaBoost) 분류기 등을 사용할 수 있다.
감정 특징 추출부(50)는 검출된 얼굴 크롭 영상으로부터 감정 특징 값을 생성한다. 제2 분류기(60)는 학습 데이터를 이용하여 얼굴 크롭 영상으로부터 제2 분류 결과(70), 즉 검출된 각 얼굴의 감정 상태를 출력한다.
감정 인식을 위한 종래 기술로서 눈썹, 눈, 코, 입 등을 특징 요소로 사용하여 아래 표 1과 같이 얼굴의 표정을 구분 지었다. 이러한 얼굴 특징 요소를 이용한 감정 인식 방법으로는 광학적 흐름분석(optical flow analysis)과 홀리스틱 분석(holistic analysis) 등이 있다.
[표 1]
그런데, 종래 기술의 접근 방법은 다음과 같은 측면에서 문제점과 한계를 가진다.
첫째, 분류기 설계자에 의한 주관적인 특징점 선정이다. 분류기는 인식 대상과 주변 환경 등에 영향을 많이 받기 때문에 특징점 선정과 추출은 일반적으로 매우 어려운 문제이고, 특징점 선정 결과에 따라 인식 성능에 큰 영향을 미친다. 또한, 분류기를 위해 선정된 특징점이 최적이라고 판단할 척도가 없다.
둘째, 얼굴 검출 후 감정 인식을 하는 2 단계의 순차적인 과정을 거치기 때문에 2개의 분류기(얼굴 검출 분류기, 감정 인식 분류기)가 필요하다. 이에 따라 학습 데이터, 특징점 선정 및 추출 과정, 학습 과정 모두 두 종류가 필요하게 된다.
셋째, 복수의 얼굴이 검출된 경우 각 얼굴에 대한 감정 인식을 하려면 얼굴 수만큼의 감정 인식 분류기 연산이 필요하다. 따라서 검출된 얼굴 수가 많아질수록 연산 시간이 크게 증가할 수 있다.
넷째, 기존의 감정 인식 기술은 정지 영상을 대상으로 수행하고 있지만 실제 인간의 감정은 시간의 흐름을 고려하여 연속선 상에서 인식할 필요가 있다.
따라서 본 발명이 해결하고자 하는 과제는 종래 기술의 문제점과 한계를 극복하기 위한 것으로서, 1개의 분류기를 포함하는 딥러닝 아키텍처 및 확률 모델을 이용하여 얼굴 검출 및 감정 인식을 동시에 실시간으로 수행할 수 있으며, 감정의 연속성을 고려하여 보다 높은 정확도를 가지는 얼굴 검출 및 감정 인식 시스템 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 복수의 영상을 입력 받아 얼굴을 검출하고 상기 검출된 얼굴에 표출된 감정을 인식하는 딥러닝 연산부, 그리고 상기 딥러닝 연산부에 의하여 제1 영상에서 인식된 제1 감정, 상기 제1 영상의 다음 입력 영상인 제2 영상에서 인식된 제2 감정, 그리고 이전에 도출된 감정과 관련된 결과 값을 대상으로 감정 전이 확률을 기초로 계산하여 현재 감정을 도출하는 확률 연산부를 포함한다.
상기 감정 전이 확률은 3축 감정 모델에서 거리가 가까울수록 높고, 거리가 멀수록 낮을 수 있다.
상기 딥러닝 연산부는 하나의 분류기로 상기 얼굴 검출 및 감정 인식을 수행하기 위하여 그리드 셀마다 상기 얼굴 검출을 위한 적어도 하나의 바운딩 박스의 정보와 상기 적어도 하나의 바운딩 박스 안의 얼굴에 대한 감정 추정치 정보를 가지고 있을 수 있다.
상기 확률 연산부는 다음 수학식
에 따라 상기 현재 감정을 도출할 수 있다.
상기 검출된 얼굴에 대한 신원을 파악하는 제2 딥러닝 연산부를 더 포함할 수 있다.
본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 방법은 복수의 영상을 입력 받는 단계, 상기 영상으로부터 얼굴을 검출하고 상기 검출된 얼굴에 표출된 감정을 인식하는 단계, 그리고 상기 인식 단계에서 제1 영상에서 인식된 제1 감정, 상기 제1 영상의 다음 입력 영상인 제2 영상에서 인식된 제2 감정, 그리고 이전에 도출된 감정과 관련된 결과 값을 대상으로 감정 전이 확률을 기초로 계산하여 현재 감정을 도출하는 단계를 포함한다.
본 발명에 의하면, 딥러닝 아키텍처 및 확률 모델을 이용함으로써 1개의 분류기만으로도 얼굴 검출 및 감정 인식을 동시에 수행할 수 있고, 검출된 얼굴 수에 비례하여 연산 시간이 증가하지 않고 복수의 얼굴에 대하여 동시에 얼굴 검출 및 감정 인식을 수행할 수 있으므로 실시간 연산이 가능하며, 감정의 연속성을 고려하므로 보다 높은 정확도를 가지고 얼굴 검출 및 감정 인식을 수행할 수 있다.
도 1은 종래의 얼굴 검출 및 감정 인식 시스템을 도시한 블록도이다.
도 2는 본 발명의 한 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 도면이다.
도 3은 도 2에 도시한 딥러닝 연산부를 도시한 블록도이다.
도 4는 도 3에 도시한 출력 노드 재구성부에 의하여 재구성된 텐서를 도시한 도면이다.
도 5는 각 그리드 셀별 얼굴 검출 및 감정 인식 결과를 나타낸 도면이다.
도 6은 각 바운딩 박스의 감정 인식 분류 확률을 나타낸 도면이다.
도 7은 3축 감정 모델을 도시한 도면이다.
도 8은 상태 전이 모델을 도시한 도면이다.
도 9는 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 방법을 도시한 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 블록도이다.
도 2는 본 발명의 한 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 도면이다.
도 3은 도 2에 도시한 딥러닝 연산부를 도시한 블록도이다.
도 4는 도 3에 도시한 출력 노드 재구성부에 의하여 재구성된 텐서를 도시한 도면이다.
도 5는 각 그리드 셀별 얼굴 검출 및 감정 인식 결과를 나타낸 도면이다.
도 6은 각 바운딩 박스의 감정 인식 분류 확률을 나타낸 도면이다.
도 7은 3축 감정 모델을 도시한 도면이다.
도 8은 상태 전이 모델을 도시한 도면이다.
도 9는 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 방법을 도시한 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 블록도이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 2는 본 발명의 한 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 도면이다.
도 2를 참고하면, 본 발명의 실시예에 따른 얼굴 검출 및 감정 인식 시스템은 입력부(100), 딥러닝 연산부(200), 확률 연산부(300), 그리고 출력부(400)를 포함한다.
입력부(100)는 복수의 얼굴이 포함되어 있는 입력 영상을 받아들이고, 딥러닝 연산부(200)는 딥러닝을 이용한 객체 인식 기술에 기반하여 실시간으로 입력 영상 내부의 복수의 사람 얼굴을 검출하고 검출된 얼굴의 감정 인식을 동시에 수행하며, 확률 연산부(300)는 딥러닝 연산부(200)에서 수행한 결과로서 검출된 얼굴과 인식된 감정에 대하여 확률 모델을 결합함으로써 시간적으로 연속적인 감정 인식을 수행한다. 출력부(400)는 검출된 얼굴에 대하여 확률 연산부(300)에서 계산된 감정을 다양한 방식으로 표시하거나 내보낸다.
딥러닝 연산부(200)는 Faster RCNN 알고리즘을 이용하여 구현될 수 있다. Faster RCNN 알고리즘은 Convolutional Neural Network(CNN)을 기반으로 한 것이므로 특징점 선정 및 추출 과정이 학습이 가능한 컨볼루션(Convolution) 연산을 통해 이루어지기 때문에 딥러닝 연산부(200)는 종래 기술의 문제였던 설계자에 의한 주관적인 특징점 선정이 필요 없다. 더구나, 인식 에러가 최소가 되도록 컨볼루션(Convolution) 연산 파라미터가 역전파(Backpropagation) 알고리즘을 통해 학습되기 때문에 특징점 선정 및 추출 과정을 최적화할 수 있다.
또한 딥러닝 연산부(200)는 Faster RCNN 알고리즘을 이용함으로써 입력 영상 내 물체가 어디 있는지를 찾는 위치 검출(Localization) 문제와 물체가 무엇인지를 찾는 분류(Classification) 문제를 하나의 회귀 분석 문제(Single Regression Problem)로 재정의 할 수 있다. 따라서 두 종류의 분류기가 필요한 종래 기술과 달리 하나의 분류기를 이용하여 얼굴 검출과 감정 인식을 동시에 수행할 수 있다.
딥러닝 연산부(200)는 입력 영상을 N*N개의 그리드 셀로 나누고 각 셀별로 사전에 정의된 크기와 개수만큼의 바운딩 박스(Bounding Box)를 생성한다. 그리고 검출하고자 하는 물체가 있을만한 바운딩 박스를 다수 선정한 후 각 바운딩 박스 내의 물체가 무엇인지 인식하므로 복수 개의 물체 인식이 가능하다.
따라서 복수의 얼굴이 검출된 경우에도 얼굴 수만큼의 감정 인식 분류기가 추가로 필요 없이 검출된 복수의 얼굴에 대한 바운딩 박스에 대해 각각의 개별 감정 상태 인식이 가능하다. 즉 기존 물체 위치와 물체 인식용 딥러닝 알고리즘을 얼굴 위치와 얼굴 표정 인식용으로 활용할 수 있다.
그러면 도 3 내지 도 6을 참고하여 딥러닝 연산부(200)에 대하여 좀 더 상세하게 설명한다. 도 3은 도 2에 도시한 딥러닝 연산부를 도시한 블록도이고, 도 4는 도 3에 도시한 출력 노드 재구성부에 의하여 재구성된 텐서를 도시한 도면이다. 도 5는 각 그리드 셀별 얼굴 검출 및 감정 인식 결과를 나타낸 도면이고, 도 6은 각 바운딩 박스의 감정 인식 분류 확률을 나타낸 도면이다.
딥러닝 연산부(200)는 영상 조절부(210), 특징 추출부(220), 분류기(230), 출력 노드 재구성부(240), 그리고 결과 연산부(250)를 포함한다.
딥러닝 연산부(200)는 입력 영상에서 얼굴을 검출하고 얼굴에 표출된 7개의 기본 감정(happy, angry, sad, disgusted, neutral, fearful, surprised)을 파악한다.
영상 조절부(210)는 입력 영상의 크기를 조절한다. 본 실시예에서는 입력 영상의 크기를 448*448로 조절한다(=200,704). 영상 조절부(210)는 필요에 따라 영상 보정이나 노이즈 제거 등의 영상 전처리를 수행할 수 있다.
특징 추출부(220)는 크기가 조절된 영상을 입력 받아 24개 콘볼루션 레이어(Convolutional layer)를 거치면서 특징점(feature)을 자동으로 추출한다.
분류기(230)는 3개의 완전 연결 계층(Fully Connected Layer)을 거치며 출력단에 총 833개의 출력 노드 값을 생성한다. 여기서 얼굴 검출 바운딩 박스 관련 노드 수는 490개이고, 감정 인식 결과 관련 노드 수는 343개이다.
출력 노드 재구성부(240)는 도 4에 도시한 바와 같이 833개의 출력 노드를 7*7*17 텐서(tensor)로 재구성한다. 여기서 텐서는 다차원 매트릭스 덩어리를 의미한다. 7*7*17 텐서는 7*7 그리드 셀로 나뉘며 각 그리드 셀은 다음과 같은 17개의 값들로 구성된다.
① 각 그리드 셀마다 얼굴을 포함하는 후보 바운딩 박스 2개를 임의로 생성하며, 17개의 값 중 앞의 5개는 첫 번째 바운딩 박스의 정보를 나타내고, 그 다음 5개는 두 번째 바운딩 박스의 정보를 나타낸다.
② 각 바운딩 박스 정보는 위치(x, y), 크기(w, h), 바운딩 박스 안에 얼굴이 있을 확률(confidence) c의 5개 예측 값으로 이루어진다.
③ 마지막 7개의 값은 바운딩 박스 안의 얼굴에 대한 7개 감정 각각에 대한 추정치(확률 P)를 나타낸다.
따라서 각 그리드셀 별 얼굴 검출 및 감정 인식 결과로서 각 그리드 셀에 대한 17*1*1 텐서는 도 5와 같이 다시 나타낼 수 있다.
결과 연산부(250)는 도 6에 도시한 바와 같이 각 바운딩 박스에 얼굴이 있을 확률 c와 7개 감정 각각에 대한 추정치 P를 곱하여 각 바운딩 박스의 감정 인식 분류 확률을 구한다.
49개의 그리드 셀(=7*7)당 2개의 바운딩 박스가 존재하므로, 총 98개의 바운딩 박스의 감정 인식 분류 확률을 구할 수 있다. 이때, 감정 인식 분류 확률 값이 기준 값(예를 들면, 0.2)보다 작은 것은 0으로 변경한다.
그리고 결과 연산부(250)는 각 감정에 대해 감정 인식 분류 확률을 기준으로 바운딩 박스를 내림차순으로 소팅한다. 각 감정에 대해 겹쳐진 바운딩 박스를 제거하기 위해 감정 인식 분류 확률 값이 가장 큰 값을 기준으로 IoU(Intersection of Union)를 계산하여 기준 값(예를 들면, 0.5)보다 크면 분류 확률 값이 작은 쪽을 0으로 변경한다.
이러한 과정을 거치면 감정 인식 분류 확률이 가장 큰 값을 가지는 감정 클래스가 바로 감정 인식 결과이며 그 값이 속한 바운딩 박스가 얼굴 검출 결과를 나타낸다.
만일 가장 큰 값이 0이라면 해당 그리드 셀에는 얼굴이 없다는 것을 의미하고, 하나의 그리드 셀에서 2개의 감정 클래스가 검출되었다면 얼굴이 겹쳐져 있는 것을 의미한다.
한편, 종래의 감정 인식 기술은 대부분 정지 영상에 대한 감정 인식을 수행하고 있지만 실제 인간의 감정은 시간의 흐름을 고려하여 연속선상에서 인식을 하는 것이 일반적이다. 그리고 시간 축 상에서 어떤 한 상태의 감정에서 다른 감정 상태로의 변화되는 감정 전이 확률은 감정에 따라 다르다.
도 7은 3축 감정 모델을 도시한 도면으로서, 신경 전달 물질인 도파민, 노르아드레날린 및 세로토닌의 특정 조합과 8 가지 기본 감정 사이의 직접적인 관계를 나타낸 3축 감정 모델이다. 즉, 각 축의 신경 전달 물질이 증가할수록 해당 축과 관련된 감정이 커진다. 예를 들어, 도파민이 최대치이고 노르아드레날린과 세로토닌이 0일 때는 공포(fear) 감정이 최대치가 되고, 이와 반대로 도파민이 0이고 노르아드레날린과 세로토닌이 최대치일 때는 놀라움(surprise) 감정이 최대치가 된다.
신경 전달 물질이 인체 내에서 급격하게 변화될 가능성이 낮으므로 이러한 감정 모델에서 거리가 가까울수록 감정 전이 확률이 높고 거리가 멀수록 감정 전이 확률이 낮다.
본 발명의 실시예에 따른 얼굴 검출 및 감정 인식 시스템의 확률 연산부(300)는 7개의 감정을 상태(state)로 하고 있는 도 8의 상태 전이 모델(state transition model)과 다음 [수학식 1]을 이용하여 계산함으로써 현재 감정을 도출해낸다.
[수학식 1]
즉, 확률 연산부(300)는 딥러닝 연산부(200)에 의하여 인식된 프레임별 감정들과 확률 연산부(300)가 이전에 계산하여 도출해낸 이전 감정과 관련된 결과 값을 대상으로 하고 감정 전이 확률을 기초로 계산함으로써 현재 감정을 도출해낸다.
따라서 본 발명의 실시예에 따른 딥러닝 연산부(200)와 확률 연산부(300)에 의하면 시간의 흐름을 고려하여 연속적으로 감정을 인식할 수 있다. 그러므로 동영상과 같이 연속적인 영상을 대상으로 얼굴 검출 및 감정 인식을 수행할 때 딥러닝 연산부(200)에 의하여 부분적인 프레임에 대하여 감정 인식을 잘못 하더라도 확률 연산부(300)에 의하여 올바른 감정 인식으로 수정될 수 있다.
지금까지 설명의 편의를 위하여 7개의 감정에 대하여 감정 인식을 수행하는 것으로 설명하였으나, 8개 이상의 감정이나 6개 이하의 감정에 대하여도 감정 인식을 수행할 수 있다.
이와 같이 딥러닝 기술에 기반을 둔 본 발명의 실시예에 따른 얼굴 검출 및 감정 인식 시스템에 의하면 97% 이상의 높은 인식률을 유지하면서 복수의 얼굴 검출 및 감정 인식에도 연산 시간이 비례해서 증가하지 않아 실시간 연산이 가능하며 상용화 가능성도 높다.
그러면 도 9를 참고하여 본 발명의 실시예에 따른 얼굴 검출 및 감정 인식 방법에 대하여 설명한다. 도 9는 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 방법을 도시한 흐름도이다.
도 9에 도시한 방법은 앞서 도 2 내지 도 8에 도시한 얼굴 검출 및 감정 인식 시스템에서 수행되는 방법으로서, 딥러닝 연산부(200)는 딥러닝 기반 얼굴 검출 및 감정 인식을 수행한다(S810). 그리고 확률 연산부(300)는 연속된 감정 상태를 고려하여 감정 전이 확률을 이용하여 현재 감정을 도출한다(S820).
단계 S810 및 단계 S820에 대하여는 앞선 실시예에서 상세하게 설명하였으므로 본 실시예에서도 그대로 채용하는 것으로 하고, 중복을 피하기 위하여 설명을 생략한다.
그러면 도 10을 참고하여 얼굴 검출 및 감정 인식과 더불어 검출된 얼굴에 대하여 신원을 파악할 수 있는 얼굴 검출 및 감정 인식 시스템에 대하여 설명한다. 도 10은 본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 시스템을 도시한 블록도이다.
본 발명의 다른 실시예에 따른 얼굴 검출 및 감정 인식 시스템은 입력부(910), 제1 딥러닝 연산부(920), 확률 연산부(930), 제2 딥러닝 연산부(940), 그리고 출력부(950)를 포함한다.
본 실시예에 따른 입력부(910), 제1 딥러닝 연산부(920), 확률 연산부(930), 그리고 출력부(950)는 앞선 실시예의 입력부(100), 딥러닝 연산부(200), 확률 연산부(300), 그리고 출력부(400)와 각각 실질적으로 동일하므로 자세한 설명은 생략하고 차이 나는 부분에 대하여만 설명하기로 한다.
제1 딥러닝 연산부(920)는 검출된 얼굴의 크롭 영상 또는 결합 영상을 제2 딥러닝 연산부(940)에 제공한다.
제2 딥러닝 연산부(940)는 제1 딥러닝 연산부(920)와 마찬가지로 Faster RCNN 알고리즘 또는 일반 CNN 알고리즘을 이용하여 검출된 얼굴의 신원을 파악할 수 있다.
따라서 본 실시예의 얼굴 검출 및 감정 인식 시스템은 입력 영상에서 얼굴 인식뿐만 아니라 검출된 복수의 얼굴의 신원 및 개별 감정을 동시에 실시간으로 파악할 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 얼굴 검출 및 감정 인식 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100, 910: 입력부,
200: 딥러닝 연산부,
300, 930: 확률 연산부, 400, 950: 출력부,
920: 제1 딥러닝 연산부, 940: 제2 딥러닝 연산부,
210: 영상 조절부, 220: 특징 추출부,
230: 분류기, 240: 출력 노드 재구성부,
250: 결과 연산부
300, 930: 확률 연산부, 400, 950: 출력부,
920: 제1 딥러닝 연산부, 940: 제2 딥러닝 연산부,
210: 영상 조절부, 220: 특징 추출부,
230: 분류기, 240: 출력 노드 재구성부,
250: 결과 연산부
Claims (10)
- 복수의 영상을 입력 받아 얼굴을 검출하고 상기 검출된 얼굴에 표출된 감정을 인식하는 딥러닝 연산부, 그리고
상기 딥러닝 연산부에 의하여 제1 영상에서 인식된 제1 감정, 상기 제1 영상의 다음 입력 영상인 제2 영상에서 인식된 제2 감정, 그리고 이전에 도출된 감정과 관련된 결과 값을 대상으로 감정 전이 확률을 기초로 계산하여 현재 감정을 도출하는 확률 연산부
를 포함하는 얼굴 검출 및 감정 인식 시스템. - 제1항에서,
상기 감정 전이 확률은 3축 감정 모델에서 거리가 가까울수록 높고, 거리가 멀수록 낮은 얼굴 검출 및 감정 인식 시스템. - 제1항에서,
상기 딥러닝 연산부는 하나의 분류기로 상기 얼굴 검출 및 감정 인식을 수행하기 위하여 그리드 셀마다 상기 얼굴 검출을 위한 적어도 하나의 바운딩 박스의 정보와 상기 적어도 하나의 바운딩 박스 안의 얼굴에 대한 감정 추정치 정보를 가지고 있는 얼굴 검출 및 감정 인식 시스템. - 제1항에서,
상기 검출된 얼굴에 대한 신원을 파악하는 제2 딥러닝 연산부를 더 포함하는 얼굴 검출 및 감정 인식 시스템. - 복수의 영상을 입력 받는 단계,
상기 영상으로부터 얼굴을 검출하고 상기 검출된 얼굴에 표출된 감정을 인식하는 단계, 그리고
상기 인식 단계에서 제1 영상에서 인식된 제1 감정, 상기 제1 영상의 다음 입력 영상인 제2 영상에서 인식된 제2 감정, 그리고 이전에 도출된 감정과 관련된 결과 값을 대상으로 감정 전이 확률을 기초로 계산하여 현재 감정을 도출하는 단계
를 포함하는 얼굴 검출 및 감정 인식 방법. - 제6항에서,
상기 감정 전이 확률은 3축 감정 모델에서 거리가 가까울수록 높고, 거리가 멀수록 낮은 얼굴 검출 및 감정 인식 방법. - 제6항에서,
상기 감정 인식 단계는 하나의 분류기로 상기 얼굴 검출 및 감정 인식을 수행하기 위하여 그리드 셀마다 상기 얼굴 검출을 위한 적어도 하나의 바운딩 박스의 정보와 상기 적어도 하나의 바운딩 박스 안의 얼굴에 대한 감정 추정치 정보를 가지고 있는 얼굴 검출 및 감정 인식 방법. - 제6항에서,
상기 검출된 얼굴에 대한 신원을 파악하는 단계를 더 포함하는 얼굴 검출 및 감정 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170154097A KR102060719B1 (ko) | 2017-11-17 | 2017-11-17 | 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170154097A KR102060719B1 (ko) | 2017-11-17 | 2017-11-17 | 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190056792A true KR20190056792A (ko) | 2019-05-27 |
KR102060719B1 KR102060719B1 (ko) | 2019-12-30 |
Family
ID=66679474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170154097A KR102060719B1 (ko) | 2017-11-17 | 2017-11-17 | 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102060719B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102116396B1 (ko) * | 2019-11-22 | 2020-05-28 | 주식회사 인텔리빅스 | 사회약자 인식장치 및 그 장치의 구동방법 |
KR20210023170A (ko) | 2019-08-22 | 2021-03-04 | 상명대학교 천안산학협력단 | Ppg신호를 이용한 딥러닝 기반의 감정인식 시스템 및 감정인식 방법 |
CN112906555A (zh) * | 2021-02-10 | 2021-06-04 | 华南师范大学 | 因人而异地识别表情的人工智能心理机器人和方法 |
KR20210106140A (ko) * | 2020-02-20 | 2021-08-30 | 홍익대학교 산학협력단 | 단일 단계 cnn 기반 한국 차량 번호판 인식 장치 |
KR20220079722A (ko) * | 2020-12-04 | 2022-06-14 | 동국대학교 산학협력단 | 딥 러닝을 이용한 클래스 분류 장치 및 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220068671A (ko) | 2020-11-19 | 2022-05-26 | 김한길 | 일기장을 통한 심리상태와 희망사항 파악방법 및 시스템 |
KR102546600B1 (ko) | 2020-11-30 | 2023-06-22 | 연세대학교 산학협력단 | 멀티모달 융합 기반 감정 인식 장치 및 방법 |
KR20240092752A (ko) | 2022-12-15 | 2024-06-24 | 한국전자기술연구원 | 스켈레톤 기반 얼굴 객체 추정 및 감정인식 시스템 및 그 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160096460A (ko) | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101715118B1 (ko) * | 2016-10-26 | 2017-03-10 | 가천대학교 산학협력단 | 문서 감정 분류용 딥러닝 인코딩 장치 및 방법. |
-
2017
- 2017-11-17 KR KR1020170154097A patent/KR102060719B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160096460A (ko) | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210023170A (ko) | 2019-08-22 | 2021-03-04 | 상명대학교 천안산학협력단 | Ppg신호를 이용한 딥러닝 기반의 감정인식 시스템 및 감정인식 방법 |
KR102116396B1 (ko) * | 2019-11-22 | 2020-05-28 | 주식회사 인텔리빅스 | 사회약자 인식장치 및 그 장치의 구동방법 |
KR20210106140A (ko) * | 2020-02-20 | 2021-08-30 | 홍익대학교 산학협력단 | 단일 단계 cnn 기반 한국 차량 번호판 인식 장치 |
KR20220079722A (ko) * | 2020-12-04 | 2022-06-14 | 동국대학교 산학협력단 | 딥 러닝을 이용한 클래스 분류 장치 및 방법 |
CN112906555A (zh) * | 2021-02-10 | 2021-06-04 | 华南师范大学 | 因人而异地识别表情的人工智能心理机器人和方法 |
CN112906555B (zh) * | 2021-02-10 | 2022-08-05 | 华南师范大学 | 因人而异地识别表情的人工智能心理机器人和方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102060719B1 (ko) | 2019-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102060719B1 (ko) | 딥러닝 기반 얼굴 검출 및 감정 인식 시스템 및 방법 | |
Abu Farha et al. | When will you do what?-anticipating temporal occurrences of activities | |
CN108805170B (zh) | 形成用于全监督式学习的数据集 | |
Jana et al. | YOLO based Detection and Classification of Objects in video records | |
KR20230021043A (ko) | 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 | |
Wang et al. | Hidden‐Markov‐models‐based dynamic hand gesture recognition | |
Choi et al. | Uncertainty-based object detector for autonomous driving embedded platforms | |
KR102690208B1 (ko) | Ai 기반으로 딥 러닝 네트워크를 학습시키는 방법 및 이를 이용한 학습 장치 | |
KR102252439B1 (ko) | 이미지에서 오브젝트 검출 및 표현 | |
CN111476771B (zh) | 一种基于距离对抗生成网络的领域自适应方法及系统 | |
CN113963026B (zh) | 基于非局部特征融合和在线更新的目标跟踪方法及系统 | |
Danisman et al. | Intelligent pixels of interest selection with application to facial expression recognition using multilayer perceptron | |
Raut | Facial emotion recognition using machine learning | |
KR20190120489A (ko) | 영상 인식 장치 및 방법 | |
KR20190130179A (ko) | 미세한 표정변화 검출을 위한 2차원 랜드마크 기반 특징점 합성 및 표정 세기 검출 방법 | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
Yu | Emotion monitoring for preschool children based on face recognition and emotion recognition algorithms | |
KR20200080419A (ko) | 인공신경망 기반 손동작 인식 방법 및 장치 | |
Verma et al. | Dynamic hand gesture recognition using convolutional neural network with RGB-D fusion | |
Fu et al. | Distractor-aware event-based tracking | |
CN117058736A (zh) | 基于关键点检测的人脸误检识别方法、装置、介质和设备 | |
CN112925822B (zh) | 基于多表征学习的时间序列分类方法、系统、介质及装置 | |
Lim et al. | Fuzzy qualitative approach for micro-expression recognition | |
Jin | [Retracted] Dance‐Specific Action Recognition Method Based on Double‐Stream CNN in Complex Environment | |
Nayak et al. | FACIAL EXPRESSION RECOGNITION BASED ON FEATURE ENHANCEMENT AND IMPROVED ALEXNET. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |