KR20200132138A - Facial expression recognition method and apparatus based on lightweight multilayer random forests - Google Patents

Facial expression recognition method and apparatus based on lightweight multilayer random forests Download PDF

Info

Publication number
KR20200132138A
KR20200132138A KR1020190057107A KR20190057107A KR20200132138A KR 20200132138 A KR20200132138 A KR 20200132138A KR 1020190057107 A KR1020190057107 A KR 1020190057107A KR 20190057107 A KR20190057107 A KR 20190057107A KR 20200132138 A KR20200132138 A KR 20200132138A
Authority
KR
South Korea
Prior art keywords
layer
facial expression
lmrf
random forest
expression recognition
Prior art date
Application number
KR1020190057107A
Other languages
Korean (ko)
Other versions
KR102188970B1 (en
Inventor
고병철
남재열
정미라
Original Assignee
계명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 계명대학교 산학협력단 filed Critical 계명대학교 산학협력단
Priority to KR1020190057107A priority Critical patent/KR102188970B1/en
Publication of KR20200132138A publication Critical patent/KR20200132138A/en
Application granted granted Critical
Publication of KR102188970B1 publication Critical patent/KR102188970B1/en

Links

Images

Classifications

    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • G06K9/481
    • G06K9/6282
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to a method for recognizing a facial expression based on lightweight multilayer random forests comprising the steps of: (1) detecting a facial landmark from an input image; (2) extracting a spatial relationship between landmarks from the facial landmarks as geometric features; (3) learning a lightweight multilayer random forest (LMRF) for facial expression recognition using the extracted geometric features; and (4) recognizing a facial expression using the learned LMRF. Therefore, the facial expression can be accurately and quickly recognized in real-time.

Description

경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치{FACIAL EXPRESSION RECOGNITION METHOD AND APPARATUS BASED ON LIGHTWEIGHT MULTILAYER RANDOM FORESTS}A lightweight multi-layer random forest-based facial expression recognition method and device {FACIAL EXPRESSION RECOGNITION METHOD AND APPARATUS BASED ON LIGHTWEIGHT MULTILAYER RANDOM FORESTS}

본 발명은 얼굴 표정 인식 방법 및 장치에 관한 것으로서, 보다 구체적으로는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for recognizing facial expressions, and more particularly, to a method and apparatus for recognizing facial expressions based on a lightweight multilayer random forest.

얼굴 인식 기술이란, 인체 인식 기술의 하나로서, 얼굴 인식 기술은 촬영한 영상에서 얼굴을 찾아내는 얼굴 검출 기술과, 검출된 얼굴이 등록된 사용자의 얼굴인지 확인하는 인증 기술로 나눌 수 있다. 초기 얼굴 인증 기술에서는 검출된 얼굴을 얼굴의 기하학적 특징으로 구별하는 방법을 사용하였다. 다만, 기존의 방식은 얼굴의 표정, 조명, 각도 등의 주변 환경 요인으로부터 영향을 받게 되어, 얼굴 인식이 어렵게 되는 문제가 있었는바, 이를 해결하기 위하여, 복잡한 얼굴 인증 기술에 대하여 개발이 진행되고 있으며, 홍채, 지문인식뿐만 아니라 얼굴 인식 기술을 이용하는 시스템이 증가하고 있기도 하다.
Face recognition technology is one of the human body recognition technology, and face recognition technology is used to find a face from a captured image. It can be divided into a face detection technology and an authentication technology that checks whether the detected face is a registered user's face. In the early face authentication technology, a method of distinguishing the detected face by the geometrical features of the face was used. However, the existing method has been affected by environmental factors such as facial expressions, lighting, and angles, which makes it difficult to recognize faces. To solve this problem, a complex face authentication technology is being developed. , Iris, fingerprint recognition, as well as systems using facial recognition technology are increasing.

또한, 최근에는 단순히 얼굴을 인식하여 인증하는 것이 아니라, 더 나아가 사용자의 얼굴 표정 인식을 통해 사용자의 감정을 파악하는, 얼굴 표정 인식 기술에 대한 연구가 진행되고 있다. 얼굴 표정 인식 기술은 얼굴 표정을 통해 사용자의 감정을 분석하기 위하여 사용될 수 있으며, 뿐만 아니라, 사용자의 감정을 데이터화하여 분석하는 것을 통하여 상담, 인지 심리, 교육 분야, 사람, 컴퓨터 간 상호작용, 사용성 테스트 및 마켓 리서치 등의 분야에서도 폭넓게 사용될 수 있다.
In addition, in recent years, research on facial expression recognition technology that recognizes a user's emotions through recognition of a user's facial expressions, rather than simply recognizing and authenticating a face, has been conducted. Facial expression recognition technology can be used to analyze the user's emotions through facial expressions. In addition, by analyzing the user's emotions by converting them into data, consultation, cognitive psychology, educational fields, interactions between people and computers, usability tests And it can be widely used in fields such as market research.

일반적으로 얼굴 표정 인식 기술은 사용자의 얼굴 이미지를 영상이나 사진으로 획득하여 표정을 추출한다. 그러나 이러한 얼굴 표정 인식 기술 역시, 조명, 주변 환경 요인의 영향을 받으며, 이로 인하여 사람의 얼굴이 다양하게 비춰질 수 있음은 물론이고, 획득된 영상으로부터 얼굴을 인식하고 표정을 분류하는 과정에서도 변수, 어려움이 많다는 문제점이 있다.
In general, facial expression recognition technology extracts facial expressions by acquiring a user's face image as an image or photo. However, such facial expression recognition technology is also affected by lighting and environmental factors, which not only allows a person's face to be illuminated in various ways, but also variables and difficulties in the process of recognizing faces and classifying facial expressions from acquired images. There are many problems.

상기와 같은 얼굴 영상을 획득하여 그로부터 표정을 추출하는 기술 외에, 얼굴 표정 인식 기술은 얼굴과 그 표정을 인식하기 위해서 얼굴의 기하학적 특징을 이용하거나 템플릿 매칭을 이용하는 방법이 있으며, 최근에는 머신러닝 또는 딥러닝 기술을 이용해 얼굴 표정을 분류 및 인식하는 기술도 등장하고 있다. 관련된 선행기술로는, 등록특허 제10-0983346호(발명의 명칭: IR 조명을 이용한 얼굴인식 시스템 및 방법) 등이 있다.
In addition to the technology of acquiring the above facial image and extracting facial expressions therefrom, facial expression recognition technology includes a method of using geometric features of a face or using template matching to recognize a face and its expression. A technology that classifies and recognizes facial expressions using running technology is also emerging. As related prior art, there is registered patent No. 10-0983346 (name of invention: face recognition system and method using IR illumination).

이 중에서, 딥러닝 기술을 이용해 얼굴 표정을 인식하는 기술은, 정확도가 높기는 하지만 너무 많은 파라미터, 주의 깊은 파라미터 튜닝, 엄청난 양의 교육 데이터, 블랙박스 모델 및 사전 훈련된 아키텍처에 대한 요구 사항이 매우 많다. 특히, 실시간 얼굴 표정 인식을 위해서는 DNN(deep neural network)의 이와 같은 요구 사항이 매우 큰 부담이 된다.
Among them, the technique of recognizing facial expressions using deep learning technology, although with high accuracy, has very high requirements for too many parameters, careful parameter tuning, a huge amount of training data, black box models and pretrained architectures. many. In particular, for real-time facial expression recognition, such a requirement of a deep neural network (DNN) becomes a very heavy burden.

상술한 바와 같은 문제를 개선하기 위하여, 적은 수의 하이퍼 파라미터로도 DNN과 비슷한 성능을 제공하며, 하나의 CPU 사용 시 처리 시간이 더 빨라, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있는 기술의 개발이 필요하다.In order to improve the above-described problem, a technology that provides similar performance to DNN with a small number of hyper parameters, and a faster processing time when using one CPU, can accurately and quickly recognize facial expressions in real time. Need to be developed.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 제공하는 것을 그 목적으로 한다.
The present invention is proposed to solve the above problems of the previously proposed methods, and by learning a lightweight multi-layered random forest including two hierarchical structures and less than a predetermined number of trees per layer to recognize facial expressions. , It provides excellent performance while requiring only a small number of hyper parameters and a small amount of computation, so that facial expressions can be accurately and quickly recognized in real time, and can be applied to applications requiring real-time facial expression recognition. An object of the present invention is to provide a method and apparatus for recognizing facial expressions based on a multi-layered random forest.

또한, 본 발명은, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention extracts geometric features from an input image and learns a lightweight multilayer random forest for facial expression recognition, so that a user's facial expression can be recognized more quickly than when the entire image is used. Another object is to provide a method and apparatus for recognizing facial expressions based on.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법은,A lightweight multi-layer random forest-based facial expression recognition method according to a feature of the present invention for achieving the above object,

얼굴 표정 인식 방법으로서,As a facial expression recognition method,

(1) 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계;(1) detecting a face landmark from the input image;

(2) 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 단계;(2) extracting the spatial relationship between the landmarks from the facial landmarks as geometric features;

(3) 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 단계; 및(3) learning a lightweight multilayer random forest (LMRF) for facial expression recognition by using the extracted geometric features; And

(4) 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
(4) The structural feature includes the step of recognizing facial expressions using the learned LMRF.

바람직하게는, 상기 단계 (2)에서는,Preferably, in step (2),

상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출할 수 있다.
Angle features and distance features between landmarks may be extracted from the facial landmarks as the geometric features.

더욱 바람직하게는, 상기 단계 (3)에서는,More preferably, in the step (3),

(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계;(3-1) configuring the extracted angular features and distance features into angular feature vectors and distance feature vectors, respectively;

(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및(3-2) obtaining a class probability by inputting the configured angular feature vector and distance feature vector to the first layer of the LMRF, respectively; And

(3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 포함할 수 있다.
(3-3) It may include the step of learning by inputting the class probability obtained in the first layer into the next layer of the LMRF.

더더욱 바람직하게는, 상기 단계 (3-2)에서는,Even more preferably, in the step (3-2),

상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다.
The angle feature vector and the distance feature vector may be applied to different sub-layers constituting the first layer, respectively.

더더더욱 바람직하게는, 상기 하위 계층은,Even more preferably, the lower layer,

16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성될 수 있다.
It may consist of 16 random forests (RF) and 16 complete RFs (CRFs), respectively.

바람직하게는, 상기 LMRF는,Preferably, the LMRF,

2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다.
It may be configured to include two hierarchical structures and less than a predetermined number of trees per each layer.

바람직하게는, 상기 LMRF의 계층은,Preferably, the layer of the LMRF,

무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
It can consist of randomly generated heterogeneous RFs.

더욱 바람직하게는, 상기 LMRF의 계층은,More preferably, the layer of the LMRF,

RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다.
It can be composed of two types of RF: RF and Complete-RF (CRF).

바람직하게는, 상기 단계 (4)에서는,Preferably, in step (4),

LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다.
By averaging the output probability of each RF in the last layer of the LMRF, the class having the maximum probability can be recognized as the final facial expression.

바람직하게는, 상기 단계 (4)에서는,Preferably, in step (4),

행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.
Facial expressions can be recognized in one of six categories: happiness, fear, surprise, anger, disgust, and sadness.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치는,A lightweight multilayer random forest based facial expression recognition device according to a feature of the present invention for achieving the above object,

얼굴 표정 인식 장치로서,As a facial expression recognition device,

입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈;A detection module for detecting a face landmark from the input image;

상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈;A feature extraction module for extracting a spatial relationship between landmarks from the facial landmarks as geometric features;

상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈; 및A learning module that learns a lightweight multilayer random forest (LMRF) for facial expression recognition using the extracted geometric features; And

상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
It is characterized in that it comprises a recognition module for recognizing facial expressions using the learned LMRF.

바람직하게는, 상기 특징 추출 모듈은,Preferably, the feature extraction module,

상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출할 수 있다.
Angle features and distance features between landmarks may be extracted from the facial landmarks as the geometric features.

더욱 바람직하게는, 상기 학습 모듈은,More preferably, the learning module,

(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 벡터 단계;(3-1) a vector step of configuring the extracted angular features and distance features into angular feature vectors and distance feature vectors, respectively;

(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및(3-2) obtaining a class probability by inputting the configured angular feature vector and distance feature vector to the first layer of the LMRF, respectively; And

(3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 수행하여 학습할 수 있다.
(3-3) The class probabilities obtained in the first layer may be input to the next layer of the LMRF and learned by performing the step of learning.

더더욱 바람직하게는, 상기 단계 (3-2)에서는,Even more preferably, in the step (3-2),

상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다.
The angle feature vector and the distance feature vector may be applied to different sub-layers constituting the first layer, respectively.

더더더욱 바람직하게는, 상기 하위 계층은,Even more preferably, the lower layer,

16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성될 수 있다.
It may consist of 16 random forests (RF) and 16 complete RFs (CRFs), respectively.

바람직하게는, 상기 LMRF는,Preferably, the LMRF,

2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다.
It may be configured to include two hierarchical structures and less than a predetermined number of trees per each layer.

바람직하게는, 상기 LMRF의 계층은,Preferably, the layer of the LMRF,

무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
It can consist of randomly generated heterogeneous RFs.

더욱 바람직하게는, 상기 LMRF의 계층은,More preferably, the layer of the LMRF,

RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다.
It can be composed of two types of RF: RF and Complete-RF (CRF).

바람직하게는, 상기 인식 모듈은,Preferably, the recognition module,

LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다.
By averaging the output probability of each RF in the last layer of the LMRF, the class having the maximum probability can be recognized as the final facial expression.

바람직하게는, 상기 인식 모듈은,Preferably, the recognition module,

행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.Facial expressions can be recognized in one of six categories: happiness, fear, surprise, anger, disgust, and sadness.

본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있다.
According to the method and apparatus for facial expression recognition based on a lightweight multi-layer random forest proposed in the present invention, by learning a lightweight multi-layered random forest including two hierarchical structures and less than a predetermined number of trees per layer to recognize facial expressions. , It provides excellent performance while requiring only a small number of hyper parameters and a small amount of computation, so that facial expressions can be accurately and quickly recognized in real time, and can be applied to applications that require real-time facial expression recognition.

또한, 본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있다.In addition, according to the method and apparatus for facial expression recognition based on a lightweight multi-layer random forest proposed in the present invention, by extracting geometric features from an input image and learning a lightweight multi-layer random forest for facial expression recognition, compared to the case of using the entire image. The user's facial expression can be recognized more quickly.

도 1은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식(Facial Expression Recognition; FER) 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 전체적인 프로세스를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF 모델의 구조를 예를 들어 도시한 도면.
도 4는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF의 생성 알고리즘을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치의 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, RF의 수를 증가시키면서 트리 수를 균등하게 분배했을 때, FER 정확도를 표시한 도면.
도 8은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, 정확도를 비교하여 표시한 도면.
도 9는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 다른 DRF 기반 방법의 감정 분류 정확도를 비교하여 표시한 도면.
도 10은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 DNN 모델 압축 알고리즘, DRF 기반 알고리즘의 정확도, 파라미터의 수 및 연산의 수를 비교하여 표시한 도면.
도 11은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 사용하여 얼굴 표정을 인식한 결과를 도시한 도면.
1 is a diagram illustrating a flow of a lightweight multi-layer random forest-based Facial Expression Recognition (FER) method according to an embodiment of the present invention.
2 is a diagram illustrating an overall process of a method for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment of the present invention.
3 is a diagram illustrating a structure of an LMRF model as an example in a method for facial expression recognition based on a lightweight multi-layer random forest according to an embodiment of the present invention.
4 is a diagram illustrating a detailed flow of step S300 in a method for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention.
5 is a diagram illustrating an LMRF generation algorithm in a method for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention.
6 is a diagram illustrating a configuration of a facial expression recognition device based on a lightweight multilayer random forest according to an embodiment of the present invention.
7 is a diagram showing FER accuracy when the number of trees is evenly distributed while increasing the number of RFs in a method and apparatus for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention.
FIG. 8 is a diagram showing comparison of accuracy in a method and apparatus for recognizing facial expressions based on a lightweight multi-layer random forest according to an embodiment of the present invention.
FIG. 9 is a diagram showing a comparison of the emotion classification accuracy of a lightweight multilayer random forest-based facial expression recognition method and apparatus with another DRF-based method according to an embodiment of the present invention.
FIG. 10 is a diagram showing a comparison of a method and apparatus for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention with a DNN model compression algorithm, an accuracy of a DRF-based algorithm, a number of parameters, and a number of operations.
11 is a view showing a result of recognizing facial expressions using a method and apparatus for recognizing facial expressions based on a lightweight multi-layer random forest according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
Hereinafter, preferred embodiments will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. However, in describing a preferred embodiment of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. In addition, the same reference numerals are used throughout the drawings for portions having similar functions and functions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 연결 되어 있다고 할 때, 이는 직접적으로 연결 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 간접적으로 연결 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 포함 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
In addition, throughout the specification, when a part is said to be connected to another part, this includes not only the case that it is directly connected, but also the case that it is indirectly connected with another element interposed therebetween. In addition, the inclusion of certain components means that other components may be further included rather than excluding other components unless specifically stated to the contrary.

도 1은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF) 기반의 얼굴 표정 인식(Facial Expression Recognition; FER) 방법의 흐름을 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 전체적인 프로세스를 도시한 도면이다. 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법은, 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계(S100), 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징으로 추출하는 단계(S200), 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(LMRF)를 학습하는 단계(S300) 및 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계(S400)를 포함하여 구성될 수 있다.
1 is a diagram illustrating a flow of a facial expression recognition (FER) method based on a lightweight multilayer random forest (LMRF) according to an embodiment of the present invention, and FIG. A diagram showing an overall process of a method for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment. As shown in FIGS. 1 and 2, the method for recognizing facial expressions based on a lightweight multi-layer random forest according to an embodiment of the present invention includes detecting a facial landmark from an input image (S100), a landmark from the facial landmark. Extracting the spatial relationship between marks as geometric features (S200), learning a lightweight multilayer random forest (LMRF) for facial expression recognition using the extracted geometric features (S300), and facial expressions using the learned LMRF It may be configured to include a step (S400) of recognizing.

단계 S100에서는, 입력 영상으로부터 얼굴 랜드마크를 검출할 수 있다. 보다 구체적으로는, 단계 S100에서는, 얼굴 영역과 회귀 분석에 기반한 랜드마크 검출을 적용하여, 얼굴 영역에서 68(x,y) 좌표의 위치를 예측할 수 있다. 여기서, 입력 영상은 일반적인 이미지, 동영상, IR 영상 등일 수 있으며, 얼굴 영역을 포함하며 얼굴 표정의 인식이 필요한 영상이라면 구체적인 영상 특징이나 촬영 특성과 관계없이 본 발명의 입력 영상으로 사용될 수 있다.
In step S100, a facial landmark may be detected from the input image. More specifically, in step S100, the position of 68(x,y) coordinates in the face area may be predicted by applying the face area and landmark detection based on regression analysis. Here, the input image may be a general image, a moving image, an IR image, and the like, and any image including a face region and requiring facial expression recognition may be used as the input image of the present invention regardless of specific image features or photographing characteristics.

단계 S200에서는, 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출할 수 있다. 보다 구체적으로, 단계 S200에서는, 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징(Angle feature) 및 거리 특징(Distance feature)을 기하학적 특징으로 추출할 수 있다.
In step S200, the spatial relationship between the landmarks from the facial landmark may be extracted as geometric features. More specifically, in step S200, angle features and distance features between landmarks may be extracted as geometric features from facial landmarks.

딥 러닝 알고리즘이 전체 이미지를 사용하는 것과 달리, 본 발명의 단계 S200에서는, 제한된 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 기하학적 특징으로 추출할 수 있다. 즉, 도 2에 도시된 바와 같이, 제한된 랜드마크로부터 거리 비율 및 각도 비율을 획득하고, 이를 특징으로 사용할 수 있다.
Unlike the deep learning algorithm using the entire image, in step S200 of the present invention, angular features and distance features between landmarks may be extracted as geometric features from limited facial landmarks. That is, as shown in FIG. 2, a distance ratio and an angle ratio can be obtained from a restricted landmark and used as a feature.

기하학적 특징은 랜드마크 {i, j}의 쌍의 개별 벡터 vi,j와 {j, k}의 쌍의 벡터 vj,k 사이의 두 벡터를 사용하여 계산될 수 있다. 거리 비율은 얼굴 회전 또는 스케일링의 결과로 변할 수 있는 공간 관계를 보완하기 위해 두 벡터를 사용해 다음 수학식 1에 의해 계산될 수 있다.The geometric feature can be calculated using two vectors between the individual vectors v i,j of the pair of landmarks {i, j} and the vector v j,k of the pair of {j, k}. The distance ratio can be calculated by the following equation (1) using two vectors to compensate for the spatial relationship that may change as a result of face rotation or scaling.

Figure pat00001
Figure pat00001

세 랜드마크 {i, j, k} 사이의 각도 특징은 다음 수학식 2에 의해 모델링될 수 있다.The angular feature between the three landmarks {i, j, k} can be modeled by Equation 2 below.

Figure pat00002
Figure pat00002

vi,j및 vj,k는 각각 랜드마크 i에서 랜드마크 j, 랜드마크 j에서 랜드마크 k를 향하는 벡터이다.
v i, j and v j, k are vectors from landmark i to landmark j and from landmark j to landmark k, respectively.

이와 같이 제한된 랜드마크를 사용하여 특징을 추출하면 두 가지 장점이 있다. 첫째, 특징 추출을 위한 여러 회선(convolution) 프로세스가 필요하지 않기 때문에, 파라미터와 연산 감소를 통해 심층 모델의 계산 속도를 향상시킬 수 있다. 둘째, 기하학적 특징은 랜드마크의 상대적 거리 및 각도를 사용하기 때문에, 얼굴의 큰 회전 또는 크기 변형에 덜 민감하므로, 이를 통해 얼굴 표정 정확도가 향상될 수 있다.
There are two advantages to extracting features using such limited landmarks. First, since multiple convolution processes for feature extraction are not required, the calculation speed of the deep model can be improved by reducing parameters and operations. Second, since the geometrical feature uses the relative distance and angle of the landmark, it is less sensitive to large rotation or size deformation of the face, and thus facial expression accuracy can be improved.

단계 S300에서는, 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)을 학습할 수 있다. LMRF는, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다. 또한, LMRF의 계층은, 무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있으며 특히, LRF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다. LMRF는 2층 구조로 구성될 수 있으며, MRF의 마지막 층의 각 RF(Random Forest)의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 분류할 수 있다. 단계 S300의 세부적인 흐름에 대해서는 추후 도 4를 참조하여 상세히 설명하도록 한다.
In step S300, a lightweight multilayer random forest (LMRF) for facial expression recognition may be learned using the extracted geometric features. The LMRF may include two hierarchical structures and less than a predetermined number of trees per layer. In addition, the layer of the LMRF may be composed of randomly generated heterogeneous RF, and in particular, may be composed of two types of RF: LRF and Complete-RF (CRF). The LMRF may be configured in a two-layer structure, and a class having a maximum probability may be classified as a final facial expression by averaging the output probability of each RF (Random Forest) of the last layer of the MRF. The detailed flow of step S300 will be described in detail later with reference to FIG. 4.

심층 신경망(Deep Neural Network; DNN)을 이용하는 FER 접근법과 달리, 본 발명의 단계 S300에서는, 비신경망 스타일의 심층 모델인 DRF(Deep Random Forest) 구조를 채택하였다. DNN은 분류 및 회귀 문제에 대한 강력한 알고리즘이지만, 너무 많은 파라미터, 파라미터 튜닝의 어려움, 엄청난 양의 교육 데이터 필요, 블랙박스 모델, 사전 학습 구조 등이 문제가 된다. 본 발명에서는, DRF와 같은 비 신경망 스타일을 이용하여, DNN의 이와 같은 한계를 해결하였다.
Unlike the FER approach using a deep neural network (DNN), in step S300 of the present invention, a deep random forest (DRF) structure, which is a non-neural network-style deep model, was adopted. DNN is a powerful algorithm for classification and regression problems, but too many parameters, difficulty tuning parameters, need for a huge amount of training data, black box model, pre-training structure, etc. are problematic. In the present invention, this limitation of DNN is solved by using a non-neural network style such as DRF.

종래의 DF(Deep Forest) 구조는, DNN과 같은 성능을 얻기 위해서는 하나의 RF가 500개의 트리로 구성되어야 하고, 4개의 RF가 하나의 레이어를 형성해야 하며, 각 레이어는 여러 레이어와 연결되어야 하므로 DNN과 비슷한 길이와 파라미터 개수를 갖게 되므로, 실시간 FER에 적합하지 않은 한계가 있다.
In the conventional DF (Deep Forest) structure, in order to obtain the same performance as DNN, one RF must be composed of 500 trees, 4 RFs must form one layer, and each layer must be connected to several layers. Since it has a length and number of parameters similar to that of a DNN, there is a limit that is not suitable for real-time FER.

본 발명에서는, RF의 성격에 따라, 소수의 의사결정트리로 구성된 다층 RF의 성능은 다중 의사결정트리로 구성된 하나의 RF의 성능보다 높다는 점을 이용해, 인식 성능을 유지하면서 얼굴 표정을 빠르게 인식하기 위해 다층 RF와 계층당 적은 수의 트리로 구성된 새로운 LMRF 모델을 제안하였다.
In the present invention, according to the nature of RF, the performance of a multilayer RF composed of a small number of decision trees is higher than that of a single RF composed of multiple decision trees, so that facial expressions can be quickly recognized while maintaining the recognition performance. For this purpose, a new LMRF model consisting of multi-layer RF and a small number of trees per layer is proposed.

도 3은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF 모델의 구조를 예를 들어 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 LMRF 모델은, 계층 구조(layer-to-layer structure)로 구성될 수 있다.
3 is a diagram illustrating a structure of an LMRF model as an example in a method for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention. As shown in FIG. 3, the LMRF model of the facial expression recognition method based on a lightweight multilayer random forest according to an embodiment of the present invention may be configured in a layer-to-layer structure.

첫 번째 계층의 역할은, 개별 기하학적 특징을 클래스 확률로 변환하는 것이며, 이러한 확률 출력은 다음 계층의 새로운 입력에 대한 변환된 단일 특징 벡터로 연결될 수 있다. 모든 각도 특징(Angle feature) 및 거리 특징(Distance feature)은 각각 16개의 RF 및 16개의 완전한 RF(Complete-RF; CRF)로 구성된 서로 다른 하위 계층에 적용될 수 있다.
The role of the first layer is to transform individual geometric features into class probabilities, and these probability outputs can be connected to a transformed single feature vector for the new input of the next layer. All angle features and distance features can be applied to different lower layers consisting of 16 RFs and 16 Complete-RFs (CRFs), respectively.

두 번째 계층에서, 각 계층은 다음 계층에 대한 새로운 특징 벡터를 생성하거나, 최종 계층에서 최종 얼굴 표정 클래스를 예측하는데 사용될 수 있다.
In the second layer, each layer can be used to generate a new feature vector for the next layer or to predict the final facial expression class in the final layer.

본 발명의 LMRF에서는 DNN 계층의 각 뉴런이 RF로 대체되며, 각 계층은 여러 유형의 RF로 구성될 수 있다. LMRF의 계층은, 다양성을 높이고 보편성을 유지하기 위해, 균일한 RF 대신 무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
In the LMRF of the present invention, each neuron in the DNN layer is replaced by RF, and each layer may be composed of several types of RF. The layer of LMRF may consist of randomly generated heterogeneous RFs instead of uniform RFs to increase diversity and maintain universality.

본 발명에서는, 기존의 DF 방법과 달리, 이전 계층에서 생성된 변환된 특징 벡터를 결합하지 않고, 이전 계층의 출력 특징만을 다음 계층의 새로운 입력 특징으로 사용하는 모델을 설계하였다. 따라서 수렴이 빠르게 일어나고, 테스트 중 성능 저하를 막을 수 있다.
In the present invention, unlike the conventional DF method, a model is designed that uses only the output features of the previous layer as new input features of the next layer without combining the transformed feature vectors generated in the previous layer. Therefore, convergence occurs quickly and performance degradation during testing can be prevented.

본 발명의 계층 학습 과정에서는, 20개의 의사결정 트리만을 할당하여 파라미터의 수와 연산 로드를 줄였다. 분류할 클래스가 3개이고 레이어 당 총 8개의 RF가 있는 경우, LMRF의 출력 벡터의 크기는 96(3×32)가 된다. 그러나 DF는 계층(3×8)의 출력과 변환된 특징 벡터(1,806)를 결합하여 1,818차원을 갖게 된다. 본 발명에서는, RF당 트리 수 또는 계층당 트리 수를 늘리는 것보다 RF의 개수를 늘리는 것이 더 좋다는 것을 실험을 통해 증명하였다(추후 상세히 설명할 실험 결과 및 도 7 참조).
In the hierarchical learning process of the present invention, only 20 decision trees are allocated to reduce the number of parameters and computational load. If there are 3 classes to be classified and there are a total of 8 RFs per layer, the size of the output vector of the LMRF is 96 (3×32). However, the DF has 1,818 dimensions by combining the output of the layer (3×8) and the transformed feature vector (1,806). In the present invention, it was proved through an experiment that it is better to increase the number of RFs than to increase the number of trees per RF or the number of trees per layer (see experimental results and Fig. 7 to be described in detail later).

도 3에 도시된 바와 같이, LMRF의 계층은, RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다. 즉, LMRF의 한 계층에서는, 2개의 서로 다른 타입의 RF를 사용할 수 있다. 단일한 RF를 사용할 때보다 RF 및 CRF의 서로 다른 2가지 타입의 RF를 사용할 때에, 성능이 향상될 수 있다.
As shown in FIG. 3, the layer of the LMRF may be composed of two types of RF: RF and Complete-RF (CRF). That is, in one layer of the LMRF, two different types of RF can be used. When using two different types of RF, RF and CRF than when using a single RF, performance can be improved.

도 4는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 단계 S300은, 추출된 각도 및 거리를 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계(S310), 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계(S320) 및 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습하는 단계(S330)를 포함하여 구성될 수 있다.
4 is a diagram illustrating a detailed flow of step S300 in a method for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention. As shown in FIG. 4, step S300 of the method for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment of the present invention includes configuring the extracted angle and distance into an angle feature vector and a distance feature vector ( S310), respectively inputting the configured angular feature vector and distance feature vector to the first layer of the LMRF to obtain class probabilities (S320), and inputting the class probabilities obtained from the first layer to the next layer of the LMRF to learn It may be configured including (S330).

단계 S310에서는, 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성할 수 있다. 즉, 단계 S310에서는, 전체 특징값을 하나의 특징 벡터로 입력하는 것이 아니라, 각도 특징과 거리 특징을 각각 별개의 특징 벡터로 구성할 수 있다.
In step S310, the extracted angular feature and distance feature may be configured as angular feature vectors and distance feature vectors, respectively. That is, in step S310, instead of inputting all the feature values as one feature vector, the angular feature and the distance feature may be configured as separate feature vectors.

단계 S320에서는, 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득할 수 있다. 보다 구체적으로, 단계 S320에서는, 각도 특징 벡터 및 거리 특징 벡터를 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다. 즉, 도 3에 도시된 바와 같이, 각도 특징을 위한 하위 계층과 거리 특징을 위한 하위 계층을 각각 별도로 구성하여, 두 특징 간의 독립성(independence)을 최대한 유지하도록 할 수 있다.
In step S320, the configured angular feature vector and the distance feature vector are respectively input to the first layer of the LMRF to obtain a class probability. More specifically, in step S320, the angle feature vector and the distance feature vector may be applied to different sub-layers constituting the first layer, respectively. That is, as shown in FIG. 3, by separately configuring a lower layer for an angular feature and a lower layer for a distance feature, the independence between the two features can be maintained as much as possible.

여기서, 하위 계층은, 16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성할 수 있다. 단일한 RF를 사용할 때보다 RF 및 CRF의 서로 다른 2가지 타입의 RF를 사용할 때에, 성능이 향상될 수 있고, 추후 상세히 설명할 도 7 및 실험 결과로부터 RF가 32개일 때 성능이 가장 우수하므로, RF와 CRF를 각각 16개로 구성하여 우수한 성능을 갖도록 할 수 있다.
Here, the lower layer may be composed of 16 random forests (RF) and 16 complete RFs (CRFs), respectively. When using two different types of RF, RF and CRF than when using a single RF, performance can be improved, and the performance is best when there are 32 RFs from Fig. 7 and the experimental results which will be described in detail later, RF and CRF can be composed of 16 pieces each to have excellent performance.

단계 S330에서는, 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습할 수 있다. 즉, 도 3에 도시된 바와 같이, 제1 계층의 출력은 다음 계층으로 연결되고, 이전 계층에서 획득된 클래스 확률은 특징 벡터로 변환하여 다음 계층으로 입력될 수 있다.
In step S330, the class probability acquired in the first layer may be input to the next layer of the LMRF to learn. That is, as shown in FIG. 3, the output of the first layer is connected to the next layer, and the class probabilities obtained from the previous layer are converted into feature vectors and input to the next layer.

이와 같이 학습 과정 동안, 한 계층의 출력 벡터는 연속적으로 다음 계층의 입력 벡터가 될 수 있다. 본 발명에서는, 이전 계층에서 생성된 변환된 특징 벡터를 결합하지 않고, 이전 계층의 출력 특징만을 다음 계층의 새로운 입력 특징으로 사용하는 모델을 설계하여 빠른 수렴이 일어나고 우수한 성능이 유지되도록 하였다. LMRF에 새 계층을 추가할지 여부는 유효성 검사 성능이 수렴되는지에 따라 결정될 수 있다.
As described above, during the learning process, an output vector of one layer may be an input vector of a next layer continuously. In the present invention, by designing a model that uses only the output features of the previous layer as new input features of the next layer without combining the transformed feature vectors generated in the previous layer, rapid convergence occurs and excellent performance is maintained. Whether or not to add a new layer to the LMRF can be determined depending on the convergence of validation performance.

도 5는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF의 생성 알고리즘을 도시한 도면이다. 이때, 오버 피팅의 위험을 줄이면서 계층 및 파라미터의 수를 자동으로 결정하기 위해, 5-겹 유효성 검사(five-fold validation)를 사용할 수 있다.
5 is a diagram illustrating an LMRF generation algorithm in a method for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention. At this time, in order to automatically determine the number of layers and parameters while reducing the risk of over-fitting, five-fold validation can be used.

도 5에 도시된 바와 같은 알고리즘 1에서, 임계값 는 LMRF의 계층 수를 제어하는 중요한 파라미터이다. LMRF는 응용 분야에 따라 임계값 를 제어하여 모델의 복잡성을 적응적으로 결정할 수 있다. ML은 LMRF의 계층이 적어도 두 개 이상 생성되도록 하는데 사용되는 최소 계층 수이다.
In Algorithm 1 as shown in Fig. 5, the threshold is an important parameter controlling the number of layers of the LMRF. LMRF can adaptively determine the complexity of the model by controlling the threshold according to the application field. ML is the minimum number of layers used to generate at least two layers of LMRF.

단계 S400에서는, 학습된 LMRF를 이용해 얼굴 표정을 인식할 수 있다. 즉, LMRF의 훈련을 마친 후, 테스트 이미지가 주어지면, 검출된 랜드마크로부터 기하학적인 특징을 추출한 다음, 제1 계층에 입력할 수 있다. 제1 계층의 출력은 다음 계층으로 연결되고, 제1 계층에 의해 생성된 클래스 벡터로 보강된 변환된 특징벡터는 최종 계층에 매핑될 때까지 다음 계층으로 입력될 수 있다.
In step S400, facial expressions may be recognized using the learned LMRF. That is, after completing the training of the LMRF, if a test image is given, a geometric feature may be extracted from the detected landmark and then input to the first layer. The output of the first layer is connected to the next layer, and the transformed feature vector reinforced with the class vector generated by the first layer may be input to the next layer until it is mapped to the final layer.

단계 S400에서는, LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다. 즉, 최종 계층은 각 클래스의 확률값을 평균화하고 가장 높은 확률값을 갖는 클래스를 최종 표정 클래스로 결정할 수 있다. 단계 S400에서는, 행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.
In step S400, the output probability of each RF of the last layer of the LMRF is averaged, and the class having the maximum probability may be recognized as the final facial expression. That is, the final layer may average the probability values of each class and determine the class having the highest probability value as the final expression class. In step S400, a facial expression may be recognized in one of six categories of happiness, fear, surprise, anger, disgust, and sadness.

도 6은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치는, 입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈(100), 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈(200), 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈(300), 및 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈(400)을 포함하여 구성될 수 있다.
6 is a diagram illustrating a configuration of a facial expression recognition device based on a lightweight multilayer random forest according to an embodiment of the present invention. As shown in FIG. 6, the apparatus for recognizing facial expressions based on a lightweight multi-layer random forest according to an embodiment of the present invention includes a detection module 100 for detecting a facial landmark from an input image, and between the facial landmarks and the landmarks. A feature extraction module 200 that extracts the spatial relationship of a geometric feature as geometric features, and a learning module that learns a lightweight multilayer random forest (LMRF) for facial expression recognition using the extracted geometric features ( 300), and a recognition module 400 for recognizing facial expressions using the learned LMRF.

각각의 구성요소들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법과 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.
Details related to each component have been sufficiently described in relation to the method for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment of the present invention, and thus detailed descriptions will be omitted.

실험 결과Experiment result

FER을 평가할 수 있는 많은 벤치마크 데이터베이스가 있다. 본 발명에서는, 계명대학교 운전자 얼굴 표정(KMU-FED)과 CK+ 및 MMI 데이터베이스를 이용해 본 발명의 성능을 평가하였다.
There are many benchmark databases from which FER can be evaluated. In the present invention, the performance of the present invention was evaluated using Keimyung University driver's facial expression (KMU-FED) and CK+ and MMI databases.

CK+는 FER에서 가장 널리 사용되는 데이터베이스이며, 118개의 피사체로부터 327개의 이미지 시퀀스와 얼굴 동작 코딩 시스템을 기반으로 하는 표정 레이블을 포함한다. MMI 데이터베이스는 213개의 영상 시퀀스를 포함한다. 이 실험에서는, 31명의 피험자의 정면 얼굴을 갖는 205개의 시퀀스를 이용하였다. KMU-FED 데이터베이스는 12명의 피험자로부터 55개의 이미지 시퀀스를 포함하는 다양한 운전자 표정으로 구성된다. 머리카락이나 선글라스 때문에 다양한 조명(앞, 왼쪽, 오른쪽, 뒤)과 부분적인 폐색이 변경된다. NIR 카메라는 운전자의 얼굴 인식을 위해 차량의 대시보드 또는 스티어링 휠에 설치되었다. 성능 평가를 위해 CK+에 대한 5-겹 교차 검증(five-fold cross validation)과 MMI 데이터베이스에 대한 개인 독립적 10-겹 교차 검증(person-independent 10-fold cross validation)을 수행하였다. KMU-FED 데이터베이스의 경우 5-겹 교차 검증을 수행하였다.
CK+ is the most widely used database in FER and contains 327 image sequences from 118 subjects and facial expression labels based on a facial motion coding system. The MMI database contains 213 image sequences. In this experiment, 205 sequences with front faces of 31 subjects were used. The KMU-FED database is composed of various driver expressions containing 55 image sequences from 12 subjects. Various lighting (front, left, right, back) and partial occlusion are altered by hair or sunglasses. NIR cameras were installed on the vehicle's dashboard or steering wheel to recognize the driver's face. To evaluate the performance, five-fold cross validation for CK+ and person-independent 10-fold cross validation for the MMI database were performed. In the case of the KMU-FED database, a 5-fold cross validation was performed.

LMRF 학습은 CK+ 데이터베이스를 사용하였으며, 교차 검증은 학습 과정에서 학습 데이터를 5부분으로 나누어 측정하였다. 성능 평가는 CK+ 데이터베이스에서 학습한 LMRF 구조와 파라미터를 각 데이터베이스에 적용하여 수행하였다.
CK+ database was used for LMRF learning, and cross-validation was measured by dividing the learning data into 5 parts in the learning process. Performance evaluation was performed by applying the LMRF structure and parameters learned in the CK+ database to each database.

실험을 위한 시스템 환경에는 Microsoft Windows 10과 8GB RAM이 장착된 Intel Core i7 프로세서가 포함되었다. 본 발명의 LMRF는 CPU를 기반으로 작동하며 비교 실험에 사용된 최신 DNN 기반 알고리즘은 단일 Titan-X GPU를 사용하여 테스트하였다. 성능 평가로서, 조사된 총 사례 수에 대한 참 긍정(true positive)에서 참 부정(true negative)의 비율인 일반적인 정확도(accuracy)를 사용하였다.
The system environment for the experiment included Microsoft Windows 10 and an Intel Core i7 processor with 8GB of RAM. The LMRF of the present invention operates based on the CPU, and the latest DNN-based algorithm used in the comparative experiment was tested using a single Titan-X GPU. As a performance evaluation, we used general accuracy, which is the ratio of true positive to true negative to the total number of cases investigated.

A. 포레스트와 트리 개수 평가A. Forest and tree count evaluation

본 발명에서는, RF당 트리 수 또는 계층당 트리 수를 늘리는 것보다 RF의 개수를 늘리는 것이 더 효과적이라는 것을 실험을 통해 증명하였다.
In the present invention, it was proved through experiment that increasing the number of RFs is more effective than increasing the number of trees per RF or the number of trees per layer.

640개의 트리를 생성하고, 그 수를 증가시키면서 적절한 개수의 RF를 예측하였다. 최대 계층의 수는 2로 하였고, 계층의 수와 한 계층당 트리 수는 실시간 작업을 고려하여 결정된다. 실험은 기본 감정이 6가지인 CK+ 데이터베이스를 사용하여 수행하였다.
640 trees were generated, and an appropriate number of RFs was predicted while increasing the number. The maximum number of layers is set to 2, and the number of layers and the number of trees per layer are determined in consideration of real-time work. The experiment was conducted using a CK+ database with six basic emotions.

도 7은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, RF의 수를 증가시키면서 트리 수를 균등하게 분배했을 때, FER 정확도를 표시한 도면이다. 도 7에 도시된 바와 같이, RF의 수가 증가하고 전체 트리가 여러 RF에 균등하게 분배되면 인식 정확도가 향상된다고 말할 수 있다. 그러나 RF의 수가 너무 많아지면, 각 RF에 할당된 트리가 너무 적기 때문에 인식 정확도가 떨어진다. 따라서 본 발명에서는, 각 RF에 20개의 트리를 할당하여 최상의 성능을 발휘하는 경우(RF32)를 사용하였다.
7 is a diagram showing FER accuracy when the number of trees is equally distributed while increasing the number of RFs in a method and apparatus for facial expression recognition based on a lightweight multilayer random forest according to an embodiment of the present invention. As shown in FIG. 7, it can be said that the recognition accuracy is improved when the number of RFs is increased and the entire tree is evenly distributed to several RFs. However, if the number of RFs is too large, recognition accuracy deteriorates because the tree allocated to each RF is too small. Therefore, in the present invention, a case where 20 trees are allocated to each RF to exhibit the best performance (RF32) was used.

B. 최신 방법들과의 비교B. Comparison with the latest methods

본 발명의 FER 성능 검증을 위해, (1) 기존의 CNN 계층 구조를 사용하는 AlexNets 기반의 FER 접근법, (2) 변형가능 얼굴 동작 부분 제약조건(deformable facial action part constraints)을 갖는 3D CNN 기반 접근법(CDCNN-DAP), (3) 다중 인셉션(Multiple Inception) 층을 사용하는 DNN, (4) LSTM을 갖는 2D Inception-ResNet 모듈, (5) ADML(adaptive deep metric learning)을 사용하는 신원 확인 FER, (6) 빠른 FER을 위해 설계된 계층 가중 RF(hierarchical weighted RF; HWRF), 및 (7) DF(Deep forest), (8) FTDRF(Forward-thinking deep random forest), (9) 2층으로 구성된 본 발명의 LMRF(Proposed LMRF)의 세 가지 DRF 기반 방법을 비교하였다.
To verify the FER performance of the present invention, (1) an AlexNets-based FER approach using an existing CNN hierarchy, (2) a 3D CNN-based approach with deformable facial action part constraints ( CDCNN-DAP), (3) DNN using multiple inception layers, (4) 2D Inception-ResNet module with LSTM, (5) identification FER using adaptive deep metric learning (ADML), (6) hierarchical weighted RF (HWRF) designed for fast FER, and (7) deep forest (DF), (8) forward-thinking deep random forest (FTDRF), and (9) two-layered bone Three DRF-based methods of the present LMRF (Proposed LMRF) were compared.

여기서, DF는 계층당 4개의 포레스트로 구성되며, 각 포레스트는 500개의 트리로 구성된다. 네트워크는 입력 계층을 포함하여 총 5개의 계층으로 구성된다. FTDRF는 2개의 계층과 한 개의 계층으로 구성되며, 2000개의 트리를 포함한다.
Here, DF is composed of 4 forests per layer, and each forest is composed of 500 trees. The network consists of a total of 5 layers including the input layer. FTDRF consists of two layers and one layer, and includes 2000 trees.

도 8은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, 정확도를 비교하여 표시한 도면이다. 도 8에서 확인할 수 있는 바와 같이, 본 발명의 LMRF(Proposed LMRF)는 DNN 기반의 방법 중에서 최상의 성능을 보여주는 Inception 기반 방법들(Multiple Inception 및 Inception-ResNet with LSTM)보다도 0.4% 더 높은 정확도를 제공한다.
FIG. 8 is a diagram showing comparison of accuracy in a method and apparatus for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment of the present invention. As can be seen in FIG. 8, the Proposed LMRF (LMRF) of the present invention provides 0.4% higher accuracy than Inception-based methods (Multiple Inception and Inception-ResNet with LSTM) showing the best performance among DNN-based methods. .

MMI 데이터베이스의 경우, ADML 방법은 DNN 기반 방법들 중에서 78.5%의 가장 좋은 성능을 나타내며, 본 발명보다 약 1.1% 정확도가 높다. 그러나 하이엔드 GPU 대신 CPU에서 실시간으로 실행할 수 있는 경량 알고리즘이 필요하기 때문에, 지능형 차량과 같은 로우엔드 시스템에는 DNN 기반 방법이 적합하지 않은 한계가 있다. 또한, DRF 기반 방법들을 상호 비교할 때, FTDRF는 본 발명보다 1.5% 정도 약간 더 나은 성능을 보여준다. 그러나 본 발명이 FTDRF보다 2,600개 적은 의사결정 트리를 사용한다는 점을 고려할 때, 1.5% 정도의 성능은 트리 또는 계층을 추가함으로써 극복될 수 있다. 따라서 본 발명의 LMRF 모델은 LMRF의 상대적으로 가벼운 구조에도 불구하고, 다른 최첨단 DNN 기반 연구 및 다른 DRF 기반 연구에 비해 높은 성능을 보임을 알 수 있다.
In the case of the MMI database, the ADML method shows the best performance of 78.5% among DNN-based methods, and is about 1.1% more accurate than the present invention. However, since a lightweight algorithm that can be executed in real time on a CPU instead of a high-end GPU is required, the DNN-based method is not suitable for low-end systems such as intelligent vehicles. In addition, when comparing DRF-based methods with each other, FTDRF shows slightly better performance by 1.5% than the present invention. However, considering that the present invention uses 2,600 fewer decision trees than FTDRF, the performance of about 1.5% can be overcome by adding a tree or a hierarchy. Therefore, it can be seen that the LMRF model of the present invention shows higher performance than other state-of-the-art DNN-based studies and other DRF-based studies despite the relatively light structure of the LMRF.

본 발명의 유효성을 검증하기 위해, DF, FTDRF, 및 본 발명을 포함하는 DRF 기반 접근법에 대해 KMU-FED 데이터베이스를 사용하여 6가지 기본 감정의 분류 정확성 비교를 수행하였다. 구체적인 모델 구성은 전술한 실험과 동일하다.
In order to verify the validity of the present invention, classification accuracy comparison of six basic emotions was performed using the KMU-FED database for DF, FTDRF, and DRF-based approaches including the present invention. The specific model configuration is the same as the above experiment.

도 9는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 다른 DRF 기반 방법의 감정 분류 정확도를 비교하여 표시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 LMRF는 DF보다 4.6%, FRDRF보다 1.5% 정확도가 높다. 이 결과는 본 발명이 트리의 수에 의존하기보다는 RF의 수를 증가시킴으로써 분류 결과의 신뢰도를 증가시킨다는 것을 타나낸다.
FIG. 9 is a diagram illustrating a comparison of the emotion classification accuracy of a light-weight multi-layer random forest-based facial expression recognition method and apparatus with another DRF-based method according to an embodiment of the present invention. As shown in Fig. 9, the LMRF of the present invention has an accuracy of 4.6% higher than that of DF and 1.5% of that of FRDRF. This result indicates that the present invention increases the reliability of the classification result by increasing the number of RFs rather than depending on the number of trees.

C. 파라미터의 수 및 연산 비교C. Comparison of number and operation of parameters

운전자의 감정 상태 모니터링과 같은 응용 분야에 적용하기 위해서는, 실시간 처리가 매우 중요하다. 따라서 본 실험에서는 2개의 DNN 모델 압축 알고리즘과 DRF 기반 알고리즘의 작동에 필요한 파라미터와 연산의 수를 비교하였다. CK+ 데이터 세트를 사용하는 인기 있는 모델 압축 방법인 최신의 MobileNet 및 SqueezeNet과 본 발명의 LMRF 모델을 비교하였다. 또한, DRF 기반의 두 가지 방법인 DF와 FRDRF도 비교하였다. 본 발명의 LMRF를 포함하는 DRF 기반의 방법은 CPU에서 작동되었으며, 두 가지 DNN 모델 압축 방법은 GPU 장치에서 작동되었다.
In order to be applied to an application field such as monitoring a driver's emotional state, real-time processing is very important. Therefore, in this experiment, parameters and the number of operations required for operation of two DNN model compression algorithms and DRF-based algorithms were compared. The latest MobileNet and SqueezeNet, popular model compression methods using CK+ data sets, were compared with the LMRF model of the present invention. In addition, two DRF-based methods, DF and FRDRF, were also compared. The DRF-based method including the LMRF of the present invention was operated on the CPU, and the two DNN model compression methods were operated on the GPU device.

도 10은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 DNN 모델 압축 알고리즘, DRF 기반 알고리즘의 정확도, 파라미터의 수 및 연산의 수를 비교하여 표시한 도면이다. 도 10에 도시된 바와 같이, DNN 기반 모델 압축 방법은 3가지 DRF 기반 방법과 비슷한 수의 파라미터를 갖지만, 연산 횟수는 3가지 DRF 기반 방법보다 훨씬 많다. 본 발명의 LMRF는 파라미터 측면에서 MobileNet 및 SqueezeNet과 유사하지만, 정확도 및 연산 수는 우수하다. 따라서 본 발명은 모델 압축 없이 CPU 환경에서 잘 동작할 수 있다. 두 가지 DRF 기반 방법 중 더 우수한 FTDRF는 본 발명의 LMRF보다 약 2.8배의 파라미터 수 및 2배의 연산 횟수가 필요하다. 따라서 정확도, 메모리 및 동작 면에서 본 발명의 LMRF 방법은 지능형 차량과 같은 임베디드 시스템에 최적화될 수 있다.
FIG. 10 is a diagram illustrating a comparison of a method and apparatus for facial expression recognition based on a lightweight multi-layer random forest according to an embodiment of the present invention with a DNN model compression algorithm, an accuracy of a DRF-based algorithm, a number of parameters, and a number of operations. As shown in FIG. 10, the DNN-based model compression method has a similar number of parameters as the three DRF-based methods, but the number of operations is much higher than that of the three DRF-based methods. The LMRF of the present invention is similar to MobileNet and SqueezeNet in terms of parameters, but has excellent accuracy and number of operations. Therefore, the present invention can operate well in a CPU environment without model compression. Among the two DRF-based methods, the superior FTDRF requires about 2.8 times the number of parameters and twice the number of calculations than the LMRF of the present invention. Therefore, in terms of accuracy, memory and operation, the LMRF method of the present invention can be optimized for embedded systems such as intelligent vehicles.

도 11은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 사용하여 얼굴 표정을 인식한 결과를 도시한 도면이다. 여기서, (a) CK+, (b) MMI, (c) KMU-FED 데이터베이스를 각각 나타내며, (d)는 모호한 표정과 빛의 갑작스런 변화로 인한 잘못된 인식 결과를 나타낸다. 도 11의 (a) 및 (b)에서 확인할 수 있는 바와 같이, 공개된 CK+ 또는 MMI 데이터 세트와 같은 비교적 간단한 배경 이미지에서 표정이 올바르게 인식된다. 또한, (c)에서 확인할 수 있는 바와 같이, KMU-FED를 이용한 실험에서, 운전 중에 발생하는 다양한 배경 변화, 조명 변화 및 운전자 움직임에도 불구하고, 본 발명은 운전자의 감정을 상대적으로 정확하게 인식할 수 있다. 그러나 (d)와 같이, 갑작스러운 차량 흔들림, 모호한 표정 및 조명 변화로 인한 잘못된 인식은 해결해야 할 문제이다.
11 is a diagram illustrating a result of recognizing facial expressions using a method and apparatus for recognizing facial expressions based on a lightweight multilayer random forest according to an embodiment of the present invention. Here, (a) CK+, (b) MMI, and (c) KMU-FED databases are shown respectively, and (d) shows false recognition results due to ambiguous facial expressions and sudden changes in light. As can be seen in FIGS. 11A and 11B, facial expressions are correctly recognized in a relatively simple background image such as a published CK+ or MMI data set. In addition, as can be seen in (c), in the experiment using the KMU-FED, despite various background changes, lighting changes, and driver movements occurring during driving, the present invention can relatively accurately recognize the driver's emotions. have. However, as shown in (d), erroneous recognition due to sudden vehicle shaking, ambiguous facial expressions, and lighting changes is a problem to be solved.

본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있다. 또한, 본 발명에 따르면, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있다.
According to the method and apparatus for facial expression recognition based on a lightweight multi-layer random forest proposed in the present invention, by learning a lightweight multi-layered random forest including two hierarchical structures and less than a predetermined number of trees per layer to recognize facial expressions. , It provides excellent performance while requiring only a small number of hyper parameters and a small amount of computation, so that facial expressions can be accurately and quickly recognized in real time, and can be applied to applications that require real-time facial expression recognition. In addition, according to the present invention, by extracting geometric features from an input image and learning a lightweight multi-layered random forest for facial expression recognition, it is possible to recognize a user's facial expression more quickly than when using the entire image.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above can be modified or applied in various ways by those of ordinary skill in the technical field to which the present invention belongs, and the scope of the technical idea according to the present invention should be determined by the following claims.

100: 검출 모듈
200: 특징 추출 모듈
300: 학습 모듈
400: 인식 모듈
S100: 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계
S200: 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징으로 추출하는 단계
S300: 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(LMRF)를 학습하는 단계
S310: 추출된 각도 및 거리를 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계
S320: 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계
S330: 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습하는 단계
S400: 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계
100: detection module
200: feature extraction module
300: learning module
400: recognition module
S100: detecting a face landmark from the input image
S200: Extracting a spatial relationship between landmarks from facial landmarks as geometric features
S300: Learning a lightweight multi-layer random forest (LMRF) for facial expression recognition using the extracted geometric features
S310: Step of configuring the extracted angle and distance into angle feature vectors and distance feature vectors, respectively
S320: Step of obtaining a class probability by inputting the configured angular feature vector and distance feature vector into the first layer of the LMRF, respectively
S330: Step of learning by inputting the class probability acquired in the first layer into the next layer of the LMRF
S400: Recognizing facial expressions using the learned LMRF

Claims (20)

얼굴 표정 인식 방법으로서,
(1) 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계;
(2) 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 단계;
(3) 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 단계; 및
(4) 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계를 포함하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
As a facial expression recognition method,
(1) detecting a face landmark from the input image;
(2) extracting the spatial relationship between the landmarks from the facial landmarks as geometric features;
(3) learning a lightweight multilayer random forest (LMRF) for facial expression recognition by using the extracted geometric features; And
(4) A method for recognizing facial expressions based on a lightweight multi-layer random forest, comprising the step of recognizing facial expressions using the learned LMRF.
제1항에 있어서, 상기 단계 (2)에서는,
상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 1, wherein in the step (2),
The facial expression recognition method based on a lightweight multi-layer random forest, characterized in that extracting angular features and distance features between landmarks as the geometric features from the facial landmarks.
제2항에 있어서, 상기 단계 (3)에서는,
(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계;
(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
(3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 포함하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 2, wherein in the step (3),
(3-1) configuring the extracted angular features and distance features into angular feature vectors and distance feature vectors, respectively;
(3-2) obtaining a class probability by inputting the configured angular feature vector and distance feature vector to the first layer of the LMRF, respectively; And
(3-3) A method for facial expression recognition based on a lightweight multi-layer random forest, comprising the step of learning by inputting the class probability obtained in the first layer into a next layer of the LMRF.
제3항에 있어서, 상기 단계 (3-2)에서는,
상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 3, wherein in the step (3-2),
The angular feature vector and the distance feature vector are applied to different sub-layers constituting the first layer, respectively.
제4항에 있어서, 상기 하위 계층은,
16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 4, wherein the lower layer,
A method for facial expression recognition based on a lightweight multilayer random forest, characterized in that each consists of 16 random forests (RF) and 16 complete-RF (CRFs).
제1항에 있어서, 상기 LMRF는,
2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 1, wherein the LMRF,
A method for facial expression recognition based on a lightweight multi-layer random forest, comprising two hierarchical structures and less than a predetermined number of trees per layer.
제1항에 있어서, 상기 LMRF의 계층은,
무작위로 생성된 이종의(heterogeneous) RF로 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 1, wherein the layer of the LMRF,
A method for facial expression recognition based on a lightweight multi-layer random forest, characterized in that it is composed of randomly generated heterogeneous RF.
제7항에 있어서, 상기 LMRF의 계층은,
RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 7, wherein the layer of the LMRF,
A method for facial expression recognition based on a lightweight multi-layer random forest, characterized in that it is composed of two types of RF: RF and Complete-RF (CRF).
제1항에 있어서, 상기 단계 (4)에서는,
LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 1, wherein in the step (4),
A method for facial expression recognition based on a lightweight multi-layer random forest, characterized in that a class having a maximum probability is recognized as a final facial expression by averaging the output probability of each RF of the last layer of the LMRF.
제1항에 있어서, 상기 단계 (4)에서는,
행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
The method of claim 1, wherein in step (4),
A lightweight multi-layered random forest-based facial expression recognition method characterized by recognizing facial expressions in one of six categories: happiness, fear, surprise, anger, disgust, and sadness.
얼굴 표정 인식 장치로서,
입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈(100);
상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈(200);
상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈(300); 및
상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈(400)을 포함하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
As a facial expression recognition device,
A detection module 100 for detecting a face landmark from the input image;
A feature extraction module 200 for extracting a spatial relationship between landmarks from the facial landmarks as geometric features;
A learning module 300 that learns a lightweight multilayer random forest (LMRF) for facial expression recognition by using the extracted geometric features; And
And a recognition module 400 for recognizing facial expressions using the learned LMRF. A lightweight multi-layer random forest-based facial expression recognition device.
제11항에 있어서, 상기 특징 추출 모듈(200)은,
상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 11, wherein the feature extraction module (200),
A facial expression recognition device based on a lightweight multilayer random forest, characterized in that extracting angular features and distance features between landmarks as the geometric features from the facial landmarks.
제12항에 있어서, 상기 학습 모듈(300)은,
(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 벡터 단계;
(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
(3-3) 상기 제1 계층에서 획득된 클래스 확률을 특징 벡터로 변환하고, 상기 LMRF의 제2 계층에 입력하며, 최종 얼굴 표정 클래스를 예측하는 단계를 수행하여 학습하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 12, wherein the learning module (300),
(3-1) a vector step of configuring the extracted angular features and distance features into angular feature vectors and distance feature vectors, respectively;
(3-2) obtaining a class probability by inputting the configured angular feature vector and distance feature vector to the first layer of the LMRF, respectively; And
(3-3) Transform the class probability obtained in the first layer into a feature vector, input it into the second layer of the LMRF, and learn by performing the step of predicting a final facial expression class. Facial expression recognition device based on multi-layer random forest.
제13항에 있어서, 상기 단계 (3-2)에서는,
상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 13, wherein in step (3-2),
The angular feature vector and the distance feature vector are applied to different sub-layers constituting the first layer, respectively.
제14항에 있어서, 상기 하위 계층은,
16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 14, wherein the lower layer,
A facial expression recognition device based on a lightweight multi-layer random forest, characterized in that each consists of 16 random forests (RF) and 16 complete-RF (CRFs).
제11항에 있어서, 상기 LMRF는,
2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 11, wherein the LMRF,
A facial expression recognition apparatus based on a lightweight multi-layer random forest, comprising two hierarchical structures and less than a predetermined number of trees per layer.
제11항에 있어서, 상기 LMRF의 계층은,
무작위로 생성된 이종의(heterogeneous) RF로 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 11, wherein the layer of the LMRF,
A lightweight multi-layer random forest-based facial expression recognition device, characterized in that it is composed of randomly generated heterogeneous RF.
제17항에 있어서, 상기 LMRF의 계층은,
RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 17, wherein the layer of the LMRF,
A lightweight multi-layer random forest-based facial expression recognition device, characterized in that it is composed of two types of RF: RF and Complete-RF (CRF).
제11항에 있어서, 상기 인식 모듈(400)은,
LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 11, wherein the recognition module 400,
A facial expression recognition device based on a lightweight multi-layer random forest, characterized in that a class having a maximum probability is recognized as a final facial expression by averaging the output probability of each RF of the last layer of the LMRF.
제11항에 있어서, 상기 인식 모듈(400)은,
행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
The method of claim 11, wherein the recognition module 400,
A facial expression recognition device based on a lightweight multi-layer random forest, characterized by recognizing facial expressions in one of six categories of happiness, fear, surprise, anger, disgust, and sadness.
KR1020190057107A 2019-05-15 2019-05-15 Facial expression recognition method and apparatus based on lightweight multilayer random forests KR102188970B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190057107A KR102188970B1 (en) 2019-05-15 2019-05-15 Facial expression recognition method and apparatus based on lightweight multilayer random forests

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190057107A KR102188970B1 (en) 2019-05-15 2019-05-15 Facial expression recognition method and apparatus based on lightweight multilayer random forests

Publications (2)

Publication Number Publication Date
KR20200132138A true KR20200132138A (en) 2020-11-25
KR102188970B1 KR102188970B1 (en) 2020-12-09

Family

ID=73645460

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190057107A KR102188970B1 (en) 2019-05-15 2019-05-15 Facial expression recognition method and apparatus based on lightweight multilayer random forests

Country Status (1)

Country Link
KR (1) KR102188970B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220074750A (en) 2020-11-27 2022-06-03 아우토리브 디벨롭먼트 아베 Side airbag device and method for manufacturing side airbag device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230072851A (en) 2021-11-18 2023-05-25 조선대학교산학협력단 A landmark-based ensemble network creation method for facial expression classification and a facial expression classification method using the generated ensemble network

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101903127B1 (en) * 2017-05-12 2018-10-01 이래에이엠에스 주식회사 Gaze estimation method and apparatus
KR20190038203A (en) * 2017-09-29 2019-04-08 이인규 Facial expression recognition system and method using machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101903127B1 (en) * 2017-05-12 2018-10-01 이래에이엠에스 주식회사 Gaze estimation method and apparatus
KR20190038203A (en) * 2017-09-29 2019-04-08 이인규 Facial expression recognition system and method using machine learning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220074750A (en) 2020-11-27 2022-06-03 아우토리브 디벨롭먼트 아베 Side airbag device and method for manufacturing side airbag device

Also Published As

Publication number Publication date
KR102188970B1 (en) 2020-12-09

Similar Documents

Publication Publication Date Title
Hariri Efficient masked face recognition method during the covid-19 pandemic
Boulahia et al. Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition
Omerustaoglu et al. Distracted driver detection by combining in-vehicle and image data using deep learning
Jeong et al. Lightweight multilayer random forests for monitoring driver emotional status
Palaniswamy A robust pose & illumination invariant emotion recognition from facial images using deep learning for human-machine interface
Dharanya et al. Facial Expression Recognition through person-wise regeneration of expressions using Auxiliary Classifier Generative Adversarial Network (AC-GAN) based model
KR102188970B1 (en) Facial expression recognition method and apparatus based on lightweight multilayer random forests
Chen et al. Fine-grained detection of driver distraction based on neural architecture search
Zhao et al. Driver drowsiness recognition via transferred deep 3D convolutional network and state probability vector
Verma et al. Convolutional neural network based criminal detection
Heidari et al. Progressive spatio-temporal bilinear network with monte carlo dropout for landmark-based facial expression recognition with uncertainty estimation
Kujani et al. Head movements for behavior recognition from real time video based on deep learning ConvNet transfer learning
Pfitscher et al. Activity gesture recognition on kinect sensor using convolutional neural networks and FastDTW for the MSRC-12 dataset
Barve et al. Application of deep learning techniques on sign language recognition—a survey
Andriyanov et al. Eye recognition system to prevent accidents on the road
Zhao et al. A spatio-temporal Siamese neural network for multimodal handwriting abnormality screening of Parkinson’s disease
Sekar et al. Semantic-based visual emotion recognition in videos-a transfer learning approach
Lau et al. Tree structure convolutional neural networks for gait-based gender and age classification
KR102238271B1 (en) Lightweight multilayer random forests classifier for real-time operation under low-specification and classification method using thereof
Bejinariu et al. Deep learning based human locomotion recognition in video sequences
Fataniya et al. Comprehensive analysis of deep learning-based human activity recognition approaches based on accuracy
Kumar et al. An Optimized Approach Using Transfer Learning to Detect Drunk Driving
Patel et al. Deep Leaning Based Static Indian-Gujarati Sign Language Gesture Recognition
Al-Atroshi et al. Improving Facial Expression Recognition Using HOG with SVM and Modified Datasets Classified by Alexnet.
Ouafa et al. Facial Expression Recognition Using Convolution Neural Network Fusion and Texture Descriptors Representation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant