KR102188970B1 - 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치 - Google Patents

경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치 Download PDF

Info

Publication number
KR102188970B1
KR102188970B1 KR1020190057107A KR20190057107A KR102188970B1 KR 102188970 B1 KR102188970 B1 KR 102188970B1 KR 1020190057107 A KR1020190057107 A KR 1020190057107A KR 20190057107 A KR20190057107 A KR 20190057107A KR 102188970 B1 KR102188970 B1 KR 102188970B1
Authority
KR
South Korea
Prior art keywords
layer
facial expression
lmrf
facial
expression recognition
Prior art date
Application number
KR1020190057107A
Other languages
English (en)
Other versions
KR20200132138A (ko
Inventor
고병철
남재열
정미라
Original Assignee
계명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 계명대학교 산학협력단 filed Critical 계명대학교 산학협력단
Priority to KR1020190057107A priority Critical patent/KR102188970B1/ko
Publication of KR20200132138A publication Critical patent/KR20200132138A/ko
Application granted granted Critical
Publication of KR102188970B1 publication Critical patent/KR102188970B1/ko

Links

Images

Classifications

    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • G06K9/481
    • G06K9/6282
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에 관한 것으로서, 보다 구체적으로는 얼굴 표정 인식 방법으로서, (1) 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계; (2) 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 단계; (3) 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 단계; 및 (4) 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치에 관한 것으로서, 보다 구체적으로는 얼굴 표정 인식 장치로서, 입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈; 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈; 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈; 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있다.
또한, 본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있다.

Description

경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치{FACIAL EXPRESSION RECOGNITION METHOD AND APPARATUS BASED ON LIGHTWEIGHT MULTILAYER RANDOM FORESTS}
본 발명은 얼굴 표정 인식 방법 및 장치에 관한 것으로서, 보다 구체적으로는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 관한 것이다.
얼굴 인식 기술이란, 인체 인식 기술의 하나로서, 얼굴 인식 기술은 촬영한 영상에서 얼굴을 찾아내는 얼굴 검출 기술과, 검출된 얼굴이 등록된 사용자의 얼굴인지 확인하는 인증 기술로 나눌 수 있다. 초기 얼굴 인증 기술에서는 검출된 얼굴을 얼굴의 기하학적 특징으로 구별하는 방법을 사용하였다. 다만, 기존의 방식은 얼굴의 표정, 조명, 각도 등의 주변 환경 요인으로부터 영향을 받게 되어, 얼굴 인식이 어렵게 되는 문제가 있었는바, 이를 해결하기 위하여, 복잡한 얼굴 인증 기술에 대하여 개발이 진행되고 있으며, 홍채, 지문인식뿐만 아니라 얼굴 인식 기술을 이용하는 시스템이 증가하고 있기도 하다.
또한, 최근에는 단순히 얼굴을 인식하여 인증하는 것이 아니라, 더 나아가 사용자의 얼굴 표정 인식을 통해 사용자의 감정을 파악하는, 얼굴 표정 인식 기술에 대한 연구가 진행되고 있다. 얼굴 표정 인식 기술은 얼굴 표정을 통해 사용자의 감정을 분석하기 위하여 사용될 수 있으며, 뿐만 아니라, 사용자의 감정을 데이터화하여 분석하는 것을 통하여 상담, 인지 심리, 교육 분야, 사람, 컴퓨터 간 상호작용, 사용성 테스트 및 마켓 리서치 등의 분야에서도 폭넓게 사용될 수 있다.
일반적으로 얼굴 표정 인식 기술은 사용자의 얼굴 이미지를 영상이나 사진으로 획득하여 표정을 추출한다. 그러나 이러한 얼굴 표정 인식 기술 역시, 조명, 주변 환경 요인의 영향을 받으며, 이로 인하여 사람의 얼굴이 다양하게 비춰질 수 있음은 물론이고, 획득된 영상으로부터 얼굴을 인식하고 표정을 분류하는 과정에서도 변수, 어려움이 많다는 문제점이 있다.
상기와 같은 얼굴 영상을 획득하여 그로부터 표정을 추출하는 기술 외에, 얼굴 표정 인식 기술은 얼굴과 그 표정을 인식하기 위해서 얼굴의 기하학적 특징을 이용하거나 템플릿 매칭을 이용하는 방법이 있으며, 최근에는 머신러닝 또는 딥러닝 기술을 이용해 얼굴 표정을 분류 및 인식하는 기술도 등장하고 있다. 관련된 선행기술로는, 등록특허 제10-0983346호(발명의 명칭: IR 조명을 이용한 얼굴인식 시스템 및 방법) 등이 있다.
이 중에서, 딥러닝 기술을 이용해 얼굴 표정을 인식하는 기술은, 정확도가 높기는 하지만 너무 많은 파라미터, 주의 깊은 파라미터 튜닝, 엄청난 양의 교육 데이터, 블랙박스 모델 및 사전 훈련된 아키텍처에 대한 요구 사항이 매우 많다. 특히, 실시간 얼굴 표정 인식을 위해서는 DNN(deep neural network)의 이와 같은 요구 사항이 매우 큰 부담이 된다.
상술한 바와 같은 문제를 개선하기 위하여, 적은 수의 하이퍼 파라미터로도 DNN과 비슷한 성능을 제공하며, 하나의 CPU 사용 시 처리 시간이 더 빨라, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있는 기술의 개발이 필요하다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법은,
얼굴 표정 인식 방법으로서,
(1) 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계;
(2) 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 단계;
(3) 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 단계; 및
(4) 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (2)에서는,
상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출할 수 있다.
더욱 바람직하게는, 상기 단계 (3)에서는,
(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계;
(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
(3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 포함할 수 있다.
더더욱 바람직하게는, 상기 단계 (3-2)에서는,
상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다.
더더더욱 바람직하게는, 상기 하위 계층은,
16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성될 수 있다.
바람직하게는, 상기 LMRF는,
2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다.
바람직하게는, 상기 LMRF의 계층은,
무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
더욱 바람직하게는, 상기 LMRF의 계층은,
RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다.
바람직하게는, 상기 단계 (4)에서는,
LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다.
바람직하게는, 상기 단계 (4)에서는,
행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치는,
얼굴 표정 인식 장치로서,
입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈;
상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈;
상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈; 및
상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 특징 추출 모듈은,
상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출할 수 있다.
더욱 바람직하게는, 상기 학습 모듈은,
(3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 벡터 단계;
(3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
(3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 수행하여 학습할 수 있다.
더더욱 바람직하게는, 상기 단계 (3-2)에서는,
상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다.
더더더욱 바람직하게는, 상기 하위 계층은,
16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성될 수 있다.
바람직하게는, 상기 LMRF는,
2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다.
바람직하게는, 상기 LMRF의 계층은,
무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
더욱 바람직하게는, 상기 LMRF의 계층은,
RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다.
바람직하게는, 상기 인식 모듈은,
LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다.
바람직하게는, 상기 인식 모듈은,
행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.
본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있다.
또한, 본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있다.
도 1은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식(Facial Expression Recognition; FER) 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 전체적인 프로세스를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF 모델의 구조를 예를 들어 도시한 도면.
도 4는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF의 생성 알고리즘을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치의 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, RF의 수를 증가시키면서 트리 수를 균등하게 분배했을 때, FER 정확도를 표시한 도면.
도 8은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, 정확도를 비교하여 표시한 도면.
도 9는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 다른 DRF 기반 방법의 감정 분류 정확도를 비교하여 표시한 도면.
도 10은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 DNN 모델 압축 알고리즘, DRF 기반 알고리즘의 정확도, 파라미터의 수 및 연산의 수를 비교하여 표시한 도면.
도 11은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 사용하여 얼굴 표정을 인식한 결과를 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 연결 되어 있다고 할 때, 이는 직접적으로 연결 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 간접적으로 연결 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 포함 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF) 기반의 얼굴 표정 인식(Facial Expression Recognition; FER) 방법의 흐름을 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 전체적인 프로세스를 도시한 도면이다. 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법은, 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계(S100), 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징으로 추출하는 단계(S200), 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(LMRF)를 학습하는 단계(S300) 및 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계(S400)를 포함하여 구성될 수 있다.
단계 S100에서는, 입력 영상으로부터 얼굴 랜드마크를 검출할 수 있다. 보다 구체적으로는, 단계 S100에서는, 얼굴 영역과 회귀 분석에 기반한 랜드마크 검출을 적용하여, 얼굴 영역에서 68(x,y) 좌표의 위치를 예측할 수 있다. 여기서, 입력 영상은 일반적인 이미지, 동영상, IR 영상 등일 수 있으며, 얼굴 영역을 포함하며 얼굴 표정의 인식이 필요한 영상이라면 구체적인 영상 특징이나 촬영 특성과 관계없이 본 발명의 입력 영상으로 사용될 수 있다.
단계 S200에서는, 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출할 수 있다. 보다 구체적으로, 단계 S200에서는, 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징(Angle feature) 및 거리 특징(Distance feature)을 기하학적 특징으로 추출할 수 있다.
딥 러닝 알고리즘이 전체 이미지를 사용하는 것과 달리, 본 발명의 단계 S200에서는, 제한된 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 기하학적 특징으로 추출할 수 있다. 즉, 도 2에 도시된 바와 같이, 제한된 랜드마크로부터 거리 비율 및 각도 비율을 획득하고, 이를 특징으로 사용할 수 있다.
기하학적 특징은 랜드마크 {i, j}의 쌍의 개별 벡터 vi,j와 {j, k}의 쌍의 벡터 vj,k 사이의 두 벡터를 사용하여 계산될 수 있다. 거리 비율은 얼굴 회전 또는 스케일링의 결과로 변할 수 있는 공간 관계를 보완하기 위해 두 벡터를 사용해 다음 수학식 1에 의해 계산될 수 있다.
Figure 112019049808665-pat00001
세 랜드마크 {i, j, k} 사이의 각도 특징은 다음 수학식 2에 의해 모델링될 수 있다.
Figure 112019049808665-pat00002
vi,j및 vj,k는 각각 랜드마크 i에서 랜드마크 j, 랜드마크 j에서 랜드마크 k를 향하는 벡터이다.
이와 같이 제한된 랜드마크를 사용하여 특징을 추출하면 두 가지 장점이 있다. 첫째, 특징 추출을 위한 여러 회선(convolution) 프로세스가 필요하지 않기 때문에, 파라미터와 연산 감소를 통해 심층 모델의 계산 속도를 향상시킬 수 있다. 둘째, 기하학적 특징은 랜드마크의 상대적 거리 및 각도를 사용하기 때문에, 얼굴의 큰 회전 또는 크기 변형에 덜 민감하므로, 이를 통해 얼굴 표정 정확도가 향상될 수 있다.
단계 S300에서는, 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)을 학습할 수 있다. LMRF는, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성될 수 있다. 또한, LMRF의 계층은, 무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있으며 특히, LRF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다. LMRF는 2층 구조로 구성될 수 있으며, MRF의 마지막 층의 각 RF(Random Forest)의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 분류할 수 있다. 단계 S300의 세부적인 흐름에 대해서는 추후 도 4를 참조하여 상세히 설명하도록 한다.
심층 신경망(Deep Neural Network; DNN)을 이용하는 FER 접근법과 달리, 본 발명의 단계 S300에서는, 비신경망 스타일의 심층 모델인 DRF(Deep Random Forest) 구조를 채택하였다. DNN은 분류 및 회귀 문제에 대한 강력한 알고리즘이지만, 너무 많은 파라미터, 파라미터 튜닝의 어려움, 엄청난 양의 교육 데이터 필요, 블랙박스 모델, 사전 학습 구조 등이 문제가 된다. 본 발명에서는, DRF와 같은 비 신경망 스타일을 이용하여, DNN의 이와 같은 한계를 해결하였다.
종래의 DF(Deep Forest) 구조는, DNN과 같은 성능을 얻기 위해서는 하나의 RF가 500개의 트리로 구성되어야 하고, 4개의 RF가 하나의 레이어를 형성해야 하며, 각 레이어는 여러 레이어와 연결되어야 하므로 DNN과 비슷한 길이와 파라미터 개수를 갖게 되므로, 실시간 FER에 적합하지 않은 한계가 있다.
본 발명에서는, RF의 성격에 따라, 소수의 의사결정트리로 구성된 다층 RF의 성능은 다중 의사결정트리로 구성된 하나의 RF의 성능보다 높다는 점을 이용해, 인식 성능을 유지하면서 얼굴 표정을 빠르게 인식하기 위해 다층 RF와 계층당 적은 수의 트리로 구성된 새로운 LMRF 모델을 제안하였다.
도 3은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF 모델의 구조를 예를 들어 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 LMRF 모델은, 계층 구조(layer-to-layer structure)로 구성될 수 있다.
첫 번째 계층의 역할은, 개별 기하학적 특징을 클래스 확률로 변환하는 것이며, 이러한 확률 출력은 다음 계층의 새로운 입력에 대한 변환된 단일 특징 벡터로 연결될 수 있다. 모든 각도 특징(Angle feature) 및 거리 특징(Distance feature)은 각각 16개의 RF 및 16개의 완전한 RF(Complete-RF; CRF)로 구성된 서로 다른 하위 계층에 적용될 수 있다.
두 번째 계층에서, 각 계층은 다음 계층에 대한 새로운 특징 벡터를 생성하거나, 최종 계층에서 최종 얼굴 표정 클래스를 예측하는데 사용될 수 있다.
본 발명의 LMRF에서는 DNN 계층의 각 뉴런이 RF로 대체되며, 각 계층은 여러 유형의 RF로 구성될 수 있다. LMRF의 계층은, 다양성을 높이고 보편성을 유지하기 위해, 균일한 RF 대신 무작위로 생성된 이종의(heterogeneous) RF로 구성될 수 있다.
본 발명에서는, 기존의 DF 방법과 달리, 이전 계층에서 생성된 변환된 특징 벡터를 결합하지 않고, 이전 계층의 출력 특징만을 다음 계층의 새로운 입력 특징으로 사용하는 모델을 설계하였다. 따라서 수렴이 빠르게 일어나고, 테스트 중 성능 저하를 막을 수 있다.
본 발명의 계층 학습 과정에서는, 20개의 의사결정 트리만을 할당하여 파라미터의 수와 연산 로드를 줄였다. 분류할 클래스가 3개이고 레이어 당 총 8개의 RF가 있는 경우, LMRF의 출력 벡터의 크기는 96(3×32)가 된다. 그러나 DF는 계층(3×8)의 출력과 변환된 특징 벡터(1,806)를 결합하여 1,818차원을 갖게 된다. 본 발명에서는, RF당 트리 수 또는 계층당 트리 수를 늘리는 것보다 RF의 개수를 늘리는 것이 더 좋다는 것을 실험을 통해 증명하였다(추후 상세히 설명할 실험 결과 및 도 7 참조).
도 3에 도시된 바와 같이, LMRF의 계층은, RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성될 수 있다. 즉, LMRF의 한 계층에서는, 2개의 서로 다른 타입의 RF를 사용할 수 있다. 단일한 RF를 사용할 때보다 RF 및 CRF의 서로 다른 2가지 타입의 RF를 사용할 때에, 성능이 향상될 수 있다.
도 4는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법의 단계 S300은, 추출된 각도 및 거리를 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계(S310), 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계(S320) 및 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습하는 단계(S330)를 포함하여 구성될 수 있다.
단계 S310에서는, 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성할 수 있다. 즉, 단계 S310에서는, 전체 특징값을 하나의 특징 벡터로 입력하는 것이 아니라, 각도 특징과 거리 특징을 각각 별개의 특징 벡터로 구성할 수 있다.
단계 S320에서는, 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득할 수 있다. 보다 구체적으로, 단계 S320에서는, 각도 특징 벡터 및 거리 특징 벡터를 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용할 수 있다. 즉, 도 3에 도시된 바와 같이, 각도 특징을 위한 하위 계층과 거리 특징을 위한 하위 계층을 각각 별도로 구성하여, 두 특징 간의 독립성(independence)을 최대한 유지하도록 할 수 있다.
여기서, 하위 계층은, 16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성할 수 있다. 단일한 RF를 사용할 때보다 RF 및 CRF의 서로 다른 2가지 타입의 RF를 사용할 때에, 성능이 향상될 수 있고, 추후 상세히 설명할 도 7 및 실험 결과로부터 RF가 32개일 때 성능이 가장 우수하므로, RF와 CRF를 각각 16개로 구성하여 우수한 성능을 갖도록 할 수 있다.
단계 S330에서는, 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습할 수 있다. 즉, 도 3에 도시된 바와 같이, 제1 계층의 출력은 다음 계층으로 연결되고, 이전 계층에서 획득된 클래스 확률은 특징 벡터로 변환하여 다음 계층으로 입력될 수 있다.
이와 같이 학습 과정 동안, 한 계층의 출력 벡터는 연속적으로 다음 계층의 입력 벡터가 될 수 있다. 본 발명에서는, 이전 계층에서 생성된 변환된 특징 벡터를 결합하지 않고, 이전 계층의 출력 특징만을 다음 계층의 새로운 입력 특징으로 사용하는 모델을 설계하여 빠른 수렴이 일어나고 우수한 성능이 유지되도록 하였다. LMRF에 새 계층을 추가할지 여부는 유효성 검사 성능이 수렴되는지에 따라 결정될 수 있다.
도 5는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법에서, LMRF의 생성 알고리즘을 도시한 도면이다. 이때, 오버 피팅의 위험을 줄이면서 계층 및 파라미터의 수를 자동으로 결정하기 위해, 5-겹 유효성 검사(five-fold validation)를 사용할 수 있다.
도 5에 도시된 바와 같은 알고리즘 1에서, 임계값 는 LMRF의 계층 수를 제어하는 중요한 파라미터이다. LMRF는 응용 분야에 따라 임계값 를 제어하여 모델의 복잡성을 적응적으로 결정할 수 있다. ML은 LMRF의 계층이 적어도 두 개 이상 생성되도록 하는데 사용되는 최소 계층 수이다.
단계 S400에서는, 학습된 LMRF를 이용해 얼굴 표정을 인식할 수 있다. 즉, LMRF의 훈련을 마친 후, 테스트 이미지가 주어지면, 검출된 랜드마크로부터 기하학적인 특징을 추출한 다음, 제1 계층에 입력할 수 있다. 제1 계층의 출력은 다음 계층으로 연결되고, 제1 계층에 의해 생성된 클래스 벡터로 보강된 변환된 특징벡터는 최종 계층에 매핑될 때까지 다음 계층으로 입력될 수 있다.
단계 S400에서는, LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식할 수 있다. 즉, 최종 계층은 각 클래스의 확률값을 평균화하고 가장 높은 확률값을 갖는 클래스를 최종 표정 클래스로 결정할 수 있다. 단계 S400에서는, 행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식할 수 있다.
도 6은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치는, 입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈(100), 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈(200), 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈(300), 및 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈(400)을 포함하여 구성될 수 있다.
각각의 구성요소들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법과 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.
실험 결과
FER을 평가할 수 있는 많은 벤치마크 데이터베이스가 있다. 본 발명에서는, 계명대학교 운전자 얼굴 표정(KMU-FED)과 CK+ 및 MMI 데이터베이스를 이용해 본 발명의 성능을 평가하였다.
CK+는 FER에서 가장 널리 사용되는 데이터베이스이며, 118개의 피사체로부터 327개의 이미지 시퀀스와 얼굴 동작 코딩 시스템을 기반으로 하는 표정 레이블을 포함한다. MMI 데이터베이스는 213개의 영상 시퀀스를 포함한다. 이 실험에서는, 31명의 피험자의 정면 얼굴을 갖는 205개의 시퀀스를 이용하였다. KMU-FED 데이터베이스는 12명의 피험자로부터 55개의 이미지 시퀀스를 포함하는 다양한 운전자 표정으로 구성된다. 머리카락이나 선글라스 때문에 다양한 조명(앞, 왼쪽, 오른쪽, 뒤)과 부분적인 폐색이 변경된다. NIR 카메라는 운전자의 얼굴 인식을 위해 차량의 대시보드 또는 스티어링 휠에 설치되었다. 성능 평가를 위해 CK+에 대한 5-겹 교차 검증(five-fold cross validation)과 MMI 데이터베이스에 대한 개인 독립적 10-겹 교차 검증(person-independent 10-fold cross validation)을 수행하였다. KMU-FED 데이터베이스의 경우 5-겹 교차 검증을 수행하였다.
LMRF 학습은 CK+ 데이터베이스를 사용하였으며, 교차 검증은 학습 과정에서 학습 데이터를 5부분으로 나누어 측정하였다. 성능 평가는 CK+ 데이터베이스에서 학습한 LMRF 구조와 파라미터를 각 데이터베이스에 적용하여 수행하였다.
실험을 위한 시스템 환경에는 Microsoft Windows 10과 8GB RAM이 장착된 Intel Core i7 프로세서가 포함되었다. 본 발명의 LMRF는 CPU를 기반으로 작동하며 비교 실험에 사용된 최신 DNN 기반 알고리즘은 단일 Titan-X GPU를 사용하여 테스트하였다. 성능 평가로서, 조사된 총 사례 수에 대한 참 긍정(true positive)에서 참 부정(true negative)의 비율인 일반적인 정확도(accuracy)를 사용하였다.
A. 포레스트와 트리 개수 평가
본 발명에서는, RF당 트리 수 또는 계층당 트리 수를 늘리는 것보다 RF의 개수를 늘리는 것이 더 효과적이라는 것을 실험을 통해 증명하였다.
640개의 트리를 생성하고, 그 수를 증가시키면서 적절한 개수의 RF를 예측하였다. 최대 계층의 수는 2로 하였고, 계층의 수와 한 계층당 트리 수는 실시간 작업을 고려하여 결정된다. 실험은 기본 감정이 6가지인 CK+ 데이터베이스를 사용하여 수행하였다.
도 7은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, RF의 수를 증가시키면서 트리 수를 균등하게 분배했을 때, FER 정확도를 표시한 도면이다. 도 7에 도시된 바와 같이, RF의 수가 증가하고 전체 트리가 여러 RF에 균등하게 분배되면 인식 정확도가 향상된다고 말할 수 있다. 그러나 RF의 수가 너무 많아지면, 각 RF에 할당된 트리가 너무 적기 때문에 인식 정확도가 떨어진다. 따라서 본 발명에서는, 각 RF에 20개의 트리를 할당하여 최상의 성능을 발휘하는 경우(RF32)를 사용하였다.
B. 최신 방법들과의 비교
본 발명의 FER 성능 검증을 위해, (1) 기존의 CNN 계층 구조를 사용하는 AlexNets 기반의 FER 접근법, (2) 변형가능 얼굴 동작 부분 제약조건(deformable facial action part constraints)을 갖는 3D CNN 기반 접근법(CDCNN-DAP), (3) 다중 인셉션(Multiple Inception) 층을 사용하는 DNN, (4) LSTM을 갖는 2D Inception-ResNet 모듈, (5) ADML(adaptive deep metric learning)을 사용하는 신원 확인 FER, (6) 빠른 FER을 위해 설계된 계층 가중 RF(hierarchical weighted RF; HWRF), 및 (7) DF(Deep forest), (8) FTDRF(Forward-thinking deep random forest), (9) 2층으로 구성된 본 발명의 LMRF(Proposed LMRF)의 세 가지 DRF 기반 방법을 비교하였다.
여기서, DF는 계층당 4개의 포레스트로 구성되며, 각 포레스트는 500개의 트리로 구성된다. 네트워크는 입력 계층을 포함하여 총 5개의 계층으로 구성된다. FTDRF는 2개의 계층과 한 개의 계층으로 구성되며, 2000개의 트리를 포함한다.
도 8은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에서, 정확도를 비교하여 표시한 도면이다. 도 8에서 확인할 수 있는 바와 같이, 본 발명의 LMRF(Proposed LMRF)는 DNN 기반의 방법 중에서 최상의 성능을 보여주는 Inception 기반 방법들(Multiple Inception 및 Inception-ResNet with LSTM)보다도 0.4% 더 높은 정확도를 제공한다.
MMI 데이터베이스의 경우, ADML 방법은 DNN 기반 방법들 중에서 78.5%의 가장 좋은 성능을 나타내며, 본 발명보다 약 1.1% 정확도가 높다. 그러나 하이엔드 GPU 대신 CPU에서 실시간으로 실행할 수 있는 경량 알고리즘이 필요하기 때문에, 지능형 차량과 같은 로우엔드 시스템에는 DNN 기반 방법이 적합하지 않은 한계가 있다. 또한, DRF 기반 방법들을 상호 비교할 때, FTDRF는 본 발명보다 1.5% 정도 약간 더 나은 성능을 보여준다. 그러나 본 발명이 FTDRF보다 2,600개 적은 의사결정 트리를 사용한다는 점을 고려할 때, 1.5% 정도의 성능은 트리 또는 계층을 추가함으로써 극복될 수 있다. 따라서 본 발명의 LMRF 모델은 LMRF의 상대적으로 가벼운 구조에도 불구하고, 다른 최첨단 DNN 기반 연구 및 다른 DRF 기반 연구에 비해 높은 성능을 보임을 알 수 있다.
본 발명의 유효성을 검증하기 위해, DF, FTDRF, 및 본 발명을 포함하는 DRF 기반 접근법에 대해 KMU-FED 데이터베이스를 사용하여 6가지 기본 감정의 분류 정확성 비교를 수행하였다. 구체적인 모델 구성은 전술한 실험과 동일하다.
도 9는 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 다른 DRF 기반 방법의 감정 분류 정확도를 비교하여 표시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 LMRF는 DF보다 4.6%, FRDRF보다 1.5% 정확도가 높다. 이 결과는 본 발명이 트리의 수에 의존하기보다는 RF의 수를 증가시킴으로써 분류 결과의 신뢰도를 증가시킨다는 것을 타나낸다.
C. 파라미터의 수 및 연산 비교
운전자의 감정 상태 모니터링과 같은 응용 분야에 적용하기 위해서는, 실시간 처리가 매우 중요하다. 따라서 본 실험에서는 2개의 DNN 모델 압축 알고리즘과 DRF 기반 알고리즘의 작동에 필요한 파라미터와 연산의 수를 비교하였다. CK+ 데이터 세트를 사용하는 인기 있는 모델 압축 방법인 최신의 MobileNet 및 SqueezeNet과 본 발명의 LMRF 모델을 비교하였다. 또한, DRF 기반의 두 가지 방법인 DF와 FRDRF도 비교하였다. 본 발명의 LMRF를 포함하는 DRF 기반의 방법은 CPU에서 작동되었으며, 두 가지 DNN 모델 압축 방법은 GPU 장치에서 작동되었다.
도 10은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치와 DNN 모델 압축 알고리즘, DRF 기반 알고리즘의 정확도, 파라미터의 수 및 연산의 수를 비교하여 표시한 도면이다. 도 10에 도시된 바와 같이, DNN 기반 모델 압축 방법은 3가지 DRF 기반 방법과 비슷한 수의 파라미터를 갖지만, 연산 횟수는 3가지 DRF 기반 방법보다 훨씬 많다. 본 발명의 LMRF는 파라미터 측면에서 MobileNet 및 SqueezeNet과 유사하지만, 정확도 및 연산 수는 우수하다. 따라서 본 발명은 모델 압축 없이 CPU 환경에서 잘 동작할 수 있다. 두 가지 DRF 기반 방법 중 더 우수한 FTDRF는 본 발명의 LMRF보다 약 2.8배의 파라미터 수 및 2배의 연산 횟수가 필요하다. 따라서 정확도, 메모리 및 동작 면에서 본 발명의 LMRF 방법은 지능형 차량과 같은 임베디드 시스템에 최적화될 수 있다.
도 11은 본 발명의 일실시예에 따른 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치를 사용하여 얼굴 표정을 인식한 결과를 도시한 도면이다. 여기서, (a) CK+, (b) MMI, (c) KMU-FED 데이터베이스를 각각 나타내며, (d)는 모호한 표정과 빛의 갑작스런 변화로 인한 잘못된 인식 결과를 나타낸다. 도 11의 (a) 및 (b)에서 확인할 수 있는 바와 같이, 공개된 CK+ 또는 MMI 데이터 세트와 같은 비교적 간단한 배경 이미지에서 표정이 올바르게 인식된다. 또한, (c)에서 확인할 수 있는 바와 같이, KMU-FED를 이용한 실험에서, 운전 중에 발생하는 다양한 배경 변화, 조명 변화 및 운전자 움직임에도 불구하고, 본 발명은 운전자의 감정을 상대적으로 정확하게 인식할 수 있다. 그러나 (d)와 같이, 갑작스러운 차량 흔들림, 모호한 표정 및 조명 변화로 인한 잘못된 인식은 해결해야 할 문제이다.
본 발명에서 제안하고 있는 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치에 따르면, 2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하는 경량 다층 랜덤 포레스트를 학습하여 얼굴 표정을 인식함으로써, 적은 수의 하이퍼 파라미터 및 적은 양의 연산량만이 필요하면서도 우수한 성능을 제공하여, 정확하고 신속하게 실시간으로 얼굴 표정을 인식할 수 있고, 실시간 얼굴 표정 인식이 필요한 응용 분야에 적용할 수 있다. 또한, 본 발명에 따르면, 입력 영상으로부터 기하학적 특징을 추출하여 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트를 학습시킴으로써, 영상 전체를 사용할 때에 비하여 더욱 신속하게 사용자의 얼굴 표정을 인식할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 검출 모듈
200: 특징 추출 모듈
300: 학습 모듈
400: 인식 모듈
S100: 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계
S200: 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징으로 추출하는 단계
S300: 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(LMRF)를 학습하는 단계
S310: 추출된 각도 및 거리를 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계
S320: 구성된 각도 특징 벡터 및 거리 특징 벡터를 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계
S330: 제1 계층에서 획득된 클래스 확률을 LMRF의 다음 계층에 입력하여 학습하는 단계
S400: 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계

Claims (20)

  1. 얼굴 표정 인식 방법으로서,
    (1) 입력 영상으로부터 얼굴 랜드마크를 검출하는 단계;
    (2) 상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 단계;
    (3) 상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 단계; 및
    (4) 상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 단계를 포함하되,
    상기 LMRF는,
    2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성되며,
    상기 LMRF의 계층은,
    무작위로 생성된 이종의(heterogeneous) RF로 구성되되, RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성되며,
    상기 단계 (2)에서는,
    상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출하고,
    상기 단계 (3)에서는,
    (3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 단계;
    (3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
    (3-3) 상기 제1 계층에서 획득된 클래스 확률을 상기 LMRF의 다음 계층에 입력하여 학습하는 단계를 포함하며,
    상기 단계 (3-2)에서는,
    상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용하고,
    상기 단계 (4)에서는,
    LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 상기 하위 계층은,
    16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제1항에 있어서, 상기 단계 (4)에서는,
    행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법.
  11. 얼굴 표정 인식 장치로서,
    입력 영상으로부터 얼굴 랜드마크를 검출하는 검출 모듈(100);
    상기 얼굴 랜드마크로부터 랜드마크 사이의 공간 관계를 기하학적 특징(geometric features)으로 추출하는 특징 추출 모듈(200);
    상기 추출된 기하학적 특징을 이용해, 얼굴 표정 인식을 위한 경량 다층 랜덤 포레스트(Lightweight multilayer random forest; LMRF)를 학습하는 학습 모듈(300); 및
    상기 학습된 LMRF를 이용해 얼굴 표정을 인식하는 인식 모듈(400)을 포함하되,
    상기 LMRF는,
    2개의 계층 구조 및 각 계층 당 미리 정해진 개수 미만의 트리를 포함하여 구성되며,
    상기 LMRF의 계층은,
    무작위로 생성된 이종의(heterogeneous) RF로 구성되되, RF 및 완전한 RF(Complete-RF; CRF)의 2가지 타입의 RF로 구성되며,
    상기 특징 추출 모듈(200)은,
    상기 얼굴 랜드마크로부터 랜드마크 상호간의 각도 특징 및 거리 특징을 상기 기하학적 특징으로 추출하고,
    상기 학습 모듈(300)은,
    (3-1) 상기 추출된 각도 특징 및 거리 특징을 각도 특징 벡터 및 거리 특징 벡터로 각각 구성하는 벡터 단계;
    (3-2) 상기 구성된 각도 특징 벡터 및 거리 특징 벡터를 상기 LMRF의 제1 계층에 각각 입력하여 클래스 확률을 획득하는 단계; 및
    (3-3) 상기 제1 계층에서 획득된 클래스 확률을 특징 벡터로 변환하고, 상기 LMRF의 제2 계층에 입력하며, 최종 얼굴 표정 클래스를 예측하는 단계를 수행하여 학습하고,
    상기 단계 (3-2)에서는,
    상기 각도 특징 벡터 및 거리 특징 벡터를 상기 제1 계층을 구성하는 서로 다른 하위 계층(sub-layers)에 각각 적용하고,
    상기 인식 모듈(400)은,
    LMRF의 마지막 층의 각 RF의 출력 확률을 평균하여, 최대 확률을 갖는 클래스를 최종 얼굴 표정으로 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 제11항에 있어서, 상기 하위 계층은,
    16개의 RF(Random Forest) 및 16개의 완전한 RF(Complete-RF; CRF)로 각각 구성되는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 제11항에 있어서, 상기 인식 모듈(400)은,
    행복, 두려움, 놀람, 화남, 역겨움, 슬픔의 6가지 분류 중 어느 하나로 얼굴 표정을 인식하는 것을 특징으로 하는, 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 장치.
KR1020190057107A 2019-05-15 2019-05-15 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치 KR102188970B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190057107A KR102188970B1 (ko) 2019-05-15 2019-05-15 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190057107A KR102188970B1 (ko) 2019-05-15 2019-05-15 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200132138A KR20200132138A (ko) 2020-11-25
KR102188970B1 true KR102188970B1 (ko) 2020-12-09

Family

ID=73645460

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190057107A KR102188970B1 (ko) 2019-05-15 2019-05-15 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102188970B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230072851A (ko) 2021-11-18 2023-05-25 조선대학교산학협력단 표정 분류를 위한 랜드마크 기반의 앙상블 네트워크 생성 방법 및 생성된 앙상블 네트워크를 이용한 표정 분류 방법.

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7341116B2 (ja) 2020-11-27 2023-09-08 オートリブ ディベロップメント エービー サイドエアバッグ装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101903127B1 (ko) * 2017-05-12 2018-10-01 이래에이엠에스 주식회사 시선방향 예측 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102005150B1 (ko) * 2017-09-29 2019-10-01 이인규 머신 러닝을 이용한 얼굴 표정 인식 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101903127B1 (ko) * 2017-05-12 2018-10-01 이래에이엠에스 주식회사 시선방향 예측 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230072851A (ko) 2021-11-18 2023-05-25 조선대학교산학협력단 표정 분류를 위한 랜드마크 기반의 앙상블 네트워크 생성 방법 및 생성된 앙상블 네트워크를 이용한 표정 분류 방법.

Also Published As

Publication number Publication date
KR20200132138A (ko) 2020-11-25

Similar Documents

Publication Publication Date Title
Boulahia et al. Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition
Omerustaoglu et al. Distracted driver detection by combining in-vehicle and image data using deep learning
Jeong et al. Lightweight multilayer random forests for monitoring driver emotional status
Palaniswamy A robust pose & illumination invariant emotion recognition from facial images using deep learning for human-machine interface
Dharanya et al. Facial Expression Recognition through person-wise regeneration of expressions using Auxiliary Classifier Generative Adversarial Network (AC-GAN) based model
Chen et al. Fine-grained detection of driver distraction based on neural architecture search
Ping et al. Distracted driving detection based on the fusion of deep learning and causal reasoning
KR102188970B1 (ko) 경량 다층 랜덤 포레스트 기반의 얼굴 표정 인식 방법 및 장치
Zhao et al. Driver drowsiness recognition via transferred deep 3D convolutional network and state probability vector
Verma et al. Convolutional neural network based criminal detection
Heidari et al. Progressive spatio-temporal bilinear network with Monte Carlo dropout for landmark-based facial expression recognition with uncertainty estimation
Kujani et al. Head movements for behavior recognition from real time video based on deep learning ConvNet transfer learning
Andriyanov et al. Eye recognition system to prevent accidents on the road
Zhao et al. A Spatio‐Temporal Siamese Neural Network for Multimodal Handwriting Abnormality Screening of Parkinson’s Disease
Barve et al. Application of deep learning techniques on sign language recognition—a survey
Lau et al. Tree structure convolutional neural networks for gait-based gender and age classification
Sekar et al. Semantic-based visual emotion recognition in videos-a transfer learning approach
Xiao et al. FDAN: Fuzzy deep attention networks for driver behavior recognition
KR102238271B1 (ko) 저사양 실시간 동작을 위한 경량 다층 랜덤 포레스트 분류기 및 이를 이용한 분류 방법
Patel et al. Deep leaning based static Indian-Gujarati Sign language gesture recognition
Kumar et al. An optimized approach using transfer learning to detect drunk driving
Bejinariu et al. Deep learning based human locomotion recognition in video sequences
Fataniya et al. Comprehensive analysis of deep learning-based human activity recognition approaches based on accuracy
Ouafa et al. Facial Expression Recognition Using Convolution Neural Network Fusion and Texture Descriptors Representation
Peng et al. Spontaneous facial expression recognition by heterogeneous convolutional networks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant