KR20190119863A - 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법 - Google Patents

반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법 Download PDF

Info

Publication number
KR20190119863A
KR20190119863A KR1020180043342A KR20180043342A KR20190119863A KR 20190119863 A KR20190119863 A KR 20190119863A KR 1020180043342 A KR1020180043342 A KR 1020180043342A KR 20180043342 A KR20180043342 A KR 20180043342A KR 20190119863 A KR20190119863 A KR 20190119863A
Authority
KR
South Korea
Prior art keywords
video
person
network
emotion
emotion recognition
Prior art date
Application number
KR1020180043342A
Other languages
English (en)
Other versions
KR102090171B1 (ko
Inventor
송병철
김대하
최동윤
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020180043342A priority Critical patent/KR102090171B1/ko
Publication of KR20190119863A publication Critical patent/KR20190119863A/ko
Application granted granted Critical
Publication of KR102090171B1 publication Critical patent/KR102090171B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법이 개시된다. 일 실시예에 따른 비디오 기반 인물 감정 인식 방법은, 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력하는 단계; 및 상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식하는 단계를 포함할 수 있다.

Description

반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법{VIDEO-BASED HUMAN EMOTION RECOGNITION USING SEMI-SUPERVISED LEARNING AND MULTIMODAL NETWORKS}
아래의 설명은 비디오 데이터를 기반으로 딥 러닝 네트워크를 사용하여 감정 인식을 수행하는 기술에 관한 것이다.
오늘날 인물의 감정을 인식하는 분야는 빠르게 발전하고 있고, 다양한 인물의 표정 정보를 획득하는 데 딥 러닝 기법이 사용되면서 보다 효율적으로 인물의 감정을 파악할 수 있게 되었다. 또한, 이미지 시퀀스를 분석할 경우 단일 이미지에서 얻을 수 없었던 해당 인물의 분위기 또한 파악할 수 있고, 표정의 변화 추이를 분석하여 보다 효율적인 감정 인식 과정을 수행할 수 있기 때문에 단일 이미지 기반 감정 인식에서 확장된 비디오 기반(이미지 시퀀스 기반) 감정 인식을 연구하는 추세이다.
최근 감정 인식 분야에서의 챌린지 또한 활발하게 열리고 있다. 도 1을 참고하면, Convolutional 3D Hybrid Network를 설명하기 위한 것이다. 중국의 video streaming 회사인 Iqiyi에서 제안된 알고리즘은 어려운 비디오 클립을 효율적으로 분석하였다. 도1에서 제안된 알고리즘에 따르면, 네트워크의 경우, 이미지 시퀀스 기반, 단일 이미지 기반, 음성 신호 기반 알고리즘을 모두 사용하여 비디오 내 인물의 감정을 분석하였다. 도 1과 같이 비디오에서 인물의 얼굴을 확보한 뒤 전 처리 과정(예를 들어 히스토크램 평활화)을 수행한 뒤 CNN-RNN과 Convolutional 3D 네트워크를 사용하였다.
CNN-RNN 네트워크는 기본적으로 단일 이미지 기반 네트워크이다. 미리 학습이 된 VGG16(Visual Geometry Group 16) 딥 러닝 네트워크를 fine-tuning한 뒤 이후 LSTM 네트워크의 학습을 진행하였다. 다음으로 이미지 시퀀스 정보를 고려하기 위해 Convolutional 3D 네트워크를 사용하였다. 따라서 아래에 소개된 음성 신호 분석을 위한 네트워크와 더불어 총 3개의 네트워크를 학습하여 각각의 네트워크의 정보를 기반으로 앙상블 과정을 수행하였다. 하지만 얼굴 특징점은 사용하지 않았고, 음성 신호의 분석 또한 간단한 SVM with Linear kernel을 사용하였기 때문에 비디오 주변의 배경을 고려하는 데에는 분명 한계가 존재한다.
도 2를 참고하면, Parallel CNN Network을 설명하기 위한 것으로, Parallel CNN Network은 Microsoft에서 제안된 알고리즘은 단일 이미지 정보만을 가지고 최대한 이미지의 특징을 획득하기 위하여 주력하였지만, 이미지 시퀀스 정보와 비디오 내 음성, 그리고 얼굴 특징점 정보를 사용하지 않았다는 점에서 멀티 모달을 사용한 네트워크라고 보기는 힘들며, 그 성능 또한 한계가 존재한다. 또한, 네트워크의 경우 매우 무거운 딥 러닝 네트워크를 사용한다. 아래 네트워크의 경우 2 step으로 네트워크의 감정 인식 과정이 수행된다.
도 2에서 총 3개의 딥 러닝 네트워크(예를 들면, VGG13, VGG16, ResNet91)을 병렬로 학습한 뒤 학습 이후의 특징들을 정규화 과정을 수행한 뒤 특징 벡터를 이어 붙인다. 이어 붙인 네트워크를 소프트맥스(softmax) 분류 함수를 통하여 학습한다. 두 번째 이후 충분히 학습된 네트워크의 fine-tuning 과정을 수행한다. Fine-tuning과정을 통해 softmax 앞 단의 특징 벡터(총 2304 차원)를 획득한다. 이후, 하나의 비디오 시퀀스 내의 모든 프레임의 특징 벡터를 기반으로 통계적인 인코딩 과정 (STAT Encoding)을 수행한다. 이를 통해서 총 9216 차원의 비디오 특징 벡터를 얻어내고 이를 Support Vector Machine(SVM)을 통해서 최종 감정 인식을 수행한다. 하지만, 단일 이미지만을 사용하여 높은 성능을 달성한 점에서는 매우 고무적이지만 인물의 표정 변화가 매우 적은 비디오 클립에서는 감정 인식 성능이 현저히 떨어진다는 단점 또한 존재한다.
효율적이고 세밀한 인물의 표정까지도 분석이 가능한 비디오 기반 인물 감정 인식 방법 및 시스템을 제공할 수 있다.
반 지도 학습과 복수 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 방법 및 시스템을 제공할 수 있다.
비디오 기반 인물 감정 인식 방법은, 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력하는 단계; 및 상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식하는 단계를 포함할 수 있다.
상기 딥 러닝 네트워크에 입력하는 단계는, 상기 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 및 음성 데이터로부터 상기 비디오 내에 존재하는 인물의 감정을 분석하기 위하여 이미지 기반의 네트워크, 얼굴 특징점 기반의 네트워크 및 비디오 음성 신호 기반의 네트워크를 구성하는 단계를 포함할 수 있다.
상기 딥 러닝 네트워크에 입력하는 단계는, S3DAE, C3DA 또는 Parallel CNN 중 적어도 하나의 딥 러닝 네트워크를 사용함에 따라 상기 비디오 내에 존재하는 이미지 데이터로부터 이미지 특징을 획득하고, 상기 획득된 이미지 특징을 SVM 또는 Softmax을 수행하여 인물의 감정을 분류하는 단계를 포함할 수 있다.
상기 딥 러닝 네트워크에 입력하는 단계는, 상기 비디오 내의 연속적인 프레임에서 인물의 얼굴 정보에 대한 각각의 특징점들의 상대적 거리 변화를 기반으로 2차원 특징 벡터를 획득하고, 상기 획득된 2차원 특징 벡터를 CNN-LSTM 네트워크에 입력하여 인물의 감정을 분류하는 단계를 포함할 수 있다.
상기 딥 러닝 네트워크에 입력하는 단계는, 상기 비디오 내의 음성 신호에 NN, CNN, LSTM 중 적어도 하나 이상의 음성 기반 네트워크를 사용하여 비디오 내의 분위기 및 배경 사운드에서 인물의 감정을 분석하는 단계를 포함할 수 있다.
상기 비디오 내의 인물의 감정을 인식하는 단계는, 상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보 중 기 설정된 기준에 기초하여 가중치를 적용하는 단계를 포함할 수 있다.
상기 비디오 내의 인물의 감정을 인식하는 단계는, 상기 비디오 내의 인물의 감정을 화남, 역겨움, 두려움, 행복, 슬픔, 놀라움 및 중립을 포함하는 7가지의 감정으로 분류하고, 상기 분류된 감정을 정량값으로 도출하는 단계를 포함할 수 있다.
비디오 기반 인물 감정 인식 시스템은, 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력하는 입력부; 및 상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식하는 인식부를 포함할 수 있다.
본 발명은 반 지도 학습과 비디오 내에 존재하는 멀티 모달 정보를 최대한 활용하여 비디오 클립 내 인물의 감정을 효율적으로 파악할 수 있다. 구체적으로, 이미지 기반, 얼굴 특징점 기반, 비디오 음성 신호 기반의 네트워크를 구성하여 인물의 표정 변화, 이미지에서 얼굴의 가림 및 어두운 조도에 의하여 얼굴 정보를 획득하기 어려울 경우, 얼굴 특징점을 보조 정보로 활용하여 인물의 감정을 구분할 수 있고, 인물의 표정 변화가 적거나 표정에서 인물의 감정을 획득할 수 없는 경우, 비디오 음성 신호를 사용하여 비디오 배경 소리 및 주변 인물들의 소리를 분석하여 비디오 내 인물의 감정 파악을 수행할 수 있다.
또한, 본 발명은 비디오 내에 존재하는 비디오 데이터의 이미지, 인물의 얼굴 정보 및 비디오 내의 음성 신호를 이용하여 인물의 감정을 파악함으로써 강건한 감정 인식 기술을 구현할 수 있다.
또한, 본 발명은 7개의 네트워크의 정보를 적응적으로 융합하여 비디오 내의 감정을 보다 정확하게 파악할 수 있다.
도 1 및 도 2는 종래의 인물의 감정 인식 기술을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 인물 감정 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 인물 감정 인식 시스템의 세부적인 네트워크의 정보를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 인물 감정 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 6은 일 실시예에 따른 인물 감정 인식 시스템의 인물 감정 인식 방법을 설명하기 위한 도면이다.
도 7내지 도 12는 일 실시예에 따른 인물 감정 인식 시스템의 이미지 기반의 네트워크를 설명하기 위한 예이다.
도 13은 일 실시예에 따른 인물 감정 인식 시스템의 얼굴 특징점 기반의 네트워크를 설명하기 위한 예이다.
도 14는 일 실시예에 따른 인물 감정 인식 시스템의 음성 기반의 네트워크를 설명하기 위한 예이다.
도 15는 일 실시예에 따른 인물 감정 인식 시스템에서 7개의 라벨에 따른 융합 매트릭스(Confusion matrix)를 설명하기 위한 도면이다.
도 16은 일 실시예에 따른 인물 감정 인식 시스템에서 감정 인식 API의 프레임워크를 나타낸 도면이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 3은 일 실시예에 따른 인물 감정 인식 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
인물 감정 인식 시스템은 비디오 데이터를 기반으로 다양한 딥 러닝 네트워크를 사용하여 보다 효과적인 감정 인식을 수행할 수 있다. 인물 감정 인식 시스템은 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 및 음성 데이터로부터 비디오 내에 존재하는 인물의 감정을 분석하기 위하여 이미지 기반의 네트워크, 얼굴 특징점 기반의 네트워크 및 음성 기반의 네트워크를 구성할 수 있다. 인물 감정 인식 시스템은 비디오 내에 존재하는 이미지 데이터, 이미지의 얼굴 특징점 데이터, 음성 데이터 중 적어도 하나 이상의 신호를 딥 러닝 네트워크의 입력으로 사용할 수 있다.
인물 감정 인식 시스템은 비디오 프레임 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력할 수 있다. 구체적으로, 인물 감정 시스템은 이미지 데이터, 얼굴 특징점 및 음성 데이터 각각을 각각의 딥 러닝 네트워크에 입력할 수 있다. 예를 들면, 인물 감정 시스템을 이미지를 이미지 기반의 딥 러닝 네트워크에 입력하고, 얼굴 특징점을 얼굴 특징점 기반의 네트워크에 입력하고, 음성 데이터를 비디오 음성 기반의 네트워크에 입력할 수 있다.
인물 감정 인식 시스템은 이미지 기반의 딥 러닝 네트워크의 경우, 연속된 이미지 시퀀스를 바탕으로 시계열 정보를 고려하는 딥 러닝 네트워크를 구성할 수 있다. 그리고 인물 감정 인식 시스템은 얼굴의 특징점을 1차원 공간이 아닌 2차원 공간으로 확장시켜 감정 변화를 분석할 수 있다. 인물 감정 인식 시스템은 음성 데이터의 잡음 및 대역 폭을 조절하기 위하여 오픈 소스 라이브러리인 Librosa와 OpensMile을 사용하여 Fine-grained 1차원 신호를 추출할 수 있다. 인물 감정 인식 시스템은 추출된 1차원 신호를 기반으로 Neural Network(NN), Convolutional Neural Network(CNN), 그리고 Long Short Term Memory(LSTM)을 각각 사용하여 네트워크를 구성할 수 있다. 인물 감정 인식 시스템은 최종적으로 이미지 데이터, 얼굴 특징점 데이터 및 음성 데이터 총 3개의 신호를 기반으로 구성한 네트워크 각각의 확률 정보를 적응적 융합 과정을 통하여 하나의 비디오 내의 인물의 감정을 최종적으로 판단할 수 있다.
인물 감정 인식 시스템은 이미지 기반의 네트워크를 통해 인물의 표정 변화를 효율적으로 분석할 수 있다. 만약, 비디오 내의 이미지에서 얼굴의 가림 및 어두운 조도에 의해 얼굴 정보를 획득하기 어려울 경우, 얼굴 특징점을 보조 정보로 활용하여 인물의 감정을 구분할 수 있다. 또한 인물의 표정 변화가 적거나 표정에서 해당 인물의 감정을 획득할 수 없는 경우, 비디오 음성 데이터를 사용하여 비디오의 배경 소리 및 주변 인물들의 소리를 분석하여 비디오 내 인물의 감정 파악을 수행할 수 있다.
이미지 기반의 네트워크는 총 3개의 네트워크를 사용한다. 대표적인 시계열 정보 기반 CNN인 Convolutional 3D 네트워크를 사용하여 감정 구분을 수행할 수 있다. 그리고 반 지도 학습 네트워크와 앞선 Convolutional 3D 네트워크를 융합한 네트워크를 사용하여 감정 구분을 수행할 수 있다. 인물 감정 인식 시스템은 네트워크의 정규화 효과를 기대하여 보다 높은 감정 인식 성능을 획득할 수 있다. 마지막으로 시계열 기반이 아닌 단일 이미지 기반 CNN을 구성하여 이미지의 특징을 획득한 뒤 SupportVector Machine(SVM) 과정을 수행하여 감정 분류를 진행하는 Parallel network를 구성할 수 있다. 총 7개의 제안 네트워크 중 유일하게 분류 함수로써 Softmax 함수가 아닌 SVM을 사용한다.
얼굴 특징점 기반의 네트워크는 비디오 내 인물의 얼굴 정보 중 총 64개의 특징점 정보를 기반으로 특징을 획득할 수 있다. 얼굴 특징점 정보는 종래의 1차원 특징과 달리 얼굴 특징점 정보를 2차원 특징 벡터로 확장하여 딥 러닝 네트워크의 입력으로 사용한다. 이후, 획득된 2차원의 얼굴 특징점 특징을 사용하여 CNN-LSTM 네트워크를 사용하여 인물의 감정을 분류한다.
비디오 내의 음성 데이터를 사용하여 비디오 내 감정을 분석할 수 있다. 인물의 표정 정보보다는 주변 배경 소리 정보를 얻는데 초점을 맞춘다. 표정 변화가 적은 비디오 클립의 경우 영상 기반 네트워크로 인물의 감정 정보를 획득할 수 없을 때 음성 기반 네트워크를 사용함으로써 보다 효율적으로 비디오 내 감정을 파악할 수 있다. 음성 데이터를 위하여 사용하는 네트워크는 3개의 네트워크(NN, CNN, LSTM)을 사용할 수 있다.
인물 감정 인식 시스템은 단일 모달(uni-modal) 정보가 아닌 멀티 모달(multi-model) 정보를 다양한 네트워크를 기반으로 효율적으로 분석하여 비디오 내 인물의 감정을 분석할 수 있다. 또한 총 7개의 네트워크의 정보를 적응적으로 융합하여 감정 인식의 성능에 영향을 크게 미치는 네트워크의 확률은 많이 고려하고 영향을 적게 미치는 네트워크의 확률을 적게 고려하는 과정을 수행할 수 있다. 이에 따라, 제안하는 딥 러닝 네트워크는 비디오 내 정보를 효율적으로 사용화여 인물의 감정을 분류하게 된다.
도 4를 참고하면, 인물 감정 인식 시스템의 세부적인 네트워크의 정보를 설명하기 위한 도면이다. 인물 감정 인식 시스템은 이미지 기반의 네트워크(410), 얼굴 특징점 기반의 네트워크(420) 및 비디오 음성 기반의 네트워크(430)를 구성할 수 있다. 인물 감정 인식 시스템은 이미지 기반의 네트워크(410)의 경우, 연속된 이미지 시퀀스를 바탕으로 시계열 정보를 고려하는 딥 러닝 네트워크를 구성할 수 있다. 도 7을 참고하면, 2D Convolution과 3D Convolution를 나타낸 것으로, 이미지 기반의 네트워크를 설명하기 앞서 본 발명에 기반이 되는 네트워크를 우선적으로 설명하기로 한다. Convolutional 3D(C3D)는 기존의 2차원 정보의 컨볼루션(convolution)이 아니라 특정 정보의 깊이(depth)까지 컨볼루션(Convolution) 하는 총 3차원 정보의 컨볼루션 과정을 수행한다. 이를 통하여 시계열 정보를 고려하는 컨볼루션 네트워크를 구성할 수 있게 된다. 인물 감정 인식 시스템은 도 8 내지 도 12에서 설명하는 이미지 기반의 네트워크를 사용할 수 있다.
도 8을 참고하면, NIN의 Global Average Pooling를 나타낸 것으로, 이미지 기반의 네트워크로 Convolutional 3D 네트워크를 사용할 수 있다. 이미지 기반의 네트워크는 Convolutional 3D 구조에서 복수의 파라미터의 수를 가지고 있으며, overfitting phenomenal(과적합 현상)의 원인이 되는 완전 연결 레이어(fully-connectedlayer)를 과감히 제거한다. 그리고 Network In Network(NIN)의 Global Average Pooling을 사용한 뒤 분류 함수로 Softmax를 사용한다.
도 9를 참고하면, 보조 경로를 Convolutional 3D에 추가로 구성한 이미지 기반의 네트워크를 나타낸 것이다. Convolutional 3D의 경우 깊이(depth) 정보까지 convolution 하여 프레임 정보까지 고려하는 딥 러닝 학습을 진행할 수 있지만 커다란 네트워크의 특성 때문에 vanishing gradient 문제의 발생도 농후하다. 이를 해결하기 위하여 도 9는 2015년 구글의 논문 'Going deeper with convolutions'에서 처음 사용한 보조 경로(auxiliary path)를 Convolutional 3D에 추가로 구성한 것을 나타낸 예이다. 보조 경로를 네트워크의 중간에 부가함으로써 네트워크 학습 시 vanishing gradient 문제를 일정 부분 완화시킬 수 있다.
도 10을 참고하면, 인물 감정 인식 시스템은 이미지 기반의 네트워크로 Convolutional 3D with auxiliarynetwork(C3DA)을 구성할 수 있다. 도 10은 이미지 기반의 네트워크인 C3DA의 전체 프레임워크를 나타낸 것이다. 이러한 C3DA는 기존의 C3D에 비해 두 가지 특징을 가진다. 첫 번째, 보조 경로를 사용하여 학습 gradient의 흐름을 원활히 도와주기 때문에 네트워크의 더 나은 최적화(optimization)를 가능하게 한다. 두 번째, Global Pooling을 사용하여 과적합 현상을 완화하였다.
도 11을 참고하면, 인물 감정 인식 시스템은 이미지 기반의 네트워크로 S3DAE를 구성할 수 있다. 도 11은 S3DAE의 전체 프레임워크를 나타낸 것이다. S3DAE는 기존의 Convolutional 3D에 오토인코더(Autoencoder)를 사용하여 반 지도 학습 컨셉으로 네트워크를 구성한 것이다. 오토인코더를 사용한 이유는 기존의 Convolutional 3D에서 도 11의 1110의 컨볼루션의 학습을 돕고자 구성한 것이다. 오토인코더의 손실 함수로는 Binary Crossentropy를 사용할 수 있다.
도 12를 참고하면, Wide ResNet의 기본 모듈을 나타낸 것이다. 이미지 기반 네트워크로 parallel network에서 ResNet-91 대신 더욱 성능이 좋은 Wide Residual Network를 사용할 수 있다.
도 13을 참고하면, 얼굴 특징점 정보를 2차원 특징 벡터로 변환하는 과정을 설명하기 위한 도면이다. 얼굴 특징점 정보를 얼굴 특징점 기반의 네트워크를 통하여 2차원 특징 벡터로 획득할 수 있다. 구체적으로, 인물 감정 인식 시스템은 연속된 프레임 간 얼굴의 랜드마크 정보를 합성함에 따라 얼굴 특징점을 획득할 수 있다. 인물 감정 인식 시스템은 얼굴 특징점 기반의 네트워크를 통하여 기존의 1차원 특징 벡터와 달리 연속적인 프레임에서 각각의 특징점들의 상대적 거리 변화를 기반으로 2차원 특징 벡터를 획득할 수 있다. 인물 감정 인식 시스템은 1차원 얼굴 특징점 특징 벡터보다 2차원 특징 벡터를 이용함으로써 얼굴의 각 요소의 표정 변화를 높은 확률로 분석할 수 있다. 이때, 2차원 특징 벡터를 아래의 수학식 1을 통하여 획득할 수 있다.
수학식 1:
Figure pat00001
인물 감정 인식 시스템은 수학식 1을 통하여 획득한 2차원 특징 벡터를 사용하여 기존의 CNN-LSTM 네트워크에서 감정 분류 과정을 수행할 수 있다.
도 14를 참고하면, 음성 기반 네트워크를 설명하기 위한 도면이다. 예를 들면, 두려움과 슬픔 비디오 클립의 경우 해당 인물의 표정보다는 주변의 분위기 및 배경 사운드에서 인물의 감정 정보를 획득할 수 있다. 이에 따라 다양한 음성 정보 특징 벡터를 획득하기 위해 OpensMile 패키지 툴과 Librosa 파이썬 라이브러리를 사용하여 비디오의 음성 데이터를 획득할 수 있다. 음성 기반의 네트워크로 단순 fully-connectedlayer 기반의 Deep Neural Network(DNN), 1D Convolution을 사용한 1D CNN, 그리고 시계열 정보 분석에 많이 사용되는 Long Short Term Memory(LSTM)을 사용할 수 있다.
도 15를 참고하면, 인물 감정 인식 시스템에서 7개의 라벨에 따른 융합 매트릭스(Confusion matrix)를 설명하기 위한 도면이다. 인물 감정 인식 시스템은 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 비디오 내의 인물의 감정을 인식할 수 있다. 인물 감정 인식 시스템은 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보 중 감정 인식에 영향을 미치는 정도에 따라 네트워크 가중치를 적용할 수 있다. 인물 감정 인식 시스템은 7개의 네트워크에 대한 감정 확률을 일종의 앙상블 기법을 통하여 적응적으로 융합할 수 있다.
Figure pat00002
여기서, W는 가중치, S는 스코어를 의미한다. 네트워크의 가중치(Weight)의 경우, 각각의 네트워크에서의 각 감정 확률 정보를 기반으로 결정할 수 있다. 최종 감정 분석은 각각의 네트워크의 감정 스코어(Score)와 가중치(Weight) 값의 가중치 합산을 통하여 이루어질 수 있다.
인물 감정 인식 시스템은 비디오 내의 인물의 감정을 화남, 역겨움, 두려움, 행복, 슬픔, 놀라움 및 중립을 포함하는 7가지의 감정으로 분류할 수 있다. 구체적으로, 인물 감정 인식 시스템은 분류된 감정에 대하여 정량값으로 도출할 수 있다. 예를 들면, 인물 감정 인식 시스템은 행복 92%, 슬픔 5%, 화남 3% 등과 같이 정량적으로 출력할 수 있다.
인물 감정 인식 시스템은 딥 러닝 네트워크 기반의 end-to-end 네트워크의 학습이 가능하다. 인물 감정 인식 시스템에서 제안하는 딥 러닝 네트워크는 기존 네트워크에 비해서 음성 정보를 잘 활용하여 슬픔과 두려움 감정의 비디오 클립의 감정의 정확도를 향상시킬 수 있다. 또한, 멀티 모달 정보를 최대한 활용하여 비디오 내 인물의 감정을 분석할 수 있다.
도 16은 일 실시예에 따른 인물 감정 인식 시스템에서 감정 인식 API의 프레임워크를 나타낸 도면이다.
인물 감정 인식 시스템은Real-time API of a light emotion recognition algorithm을 제공할 수 있다. 이러한 알고리즘을 토대로 준 실시간성을 갖춘 감정 인식 API를 구현할 수 있다. API의 전체 프레임워크는 준 실시간 감정인식 과정을 수행하기 위해서 multi thread 기법과 Secure Shell(SSH) 통신을 사용할 수 있다.
제안된 API의 기능은 총 3가지로 구성될 수 있다. 입력된 데이터 스트림에 대한 전처리 과정을 수행함에 따라 얼굴을 검출할 수 있다. 검출된 얼굴에 기반하여 해당 인물의 식별 정보(ID)를 식별할 수 있다. 그리고 나서, 주변 환경을 고려하여 해당 인물의 얼굴에 대한 감정을 인식할 수 있다. 예를 들면, '행복'이라는 결과가 출력될 수 있다.
도 5는 일 실시예에 따른 인물 감정 인식 시스템의 구성을 설명하기 위한 블록도이고, 도 6은 일 실시예에 따른 인물 감정 인식 시스템의 감정 인식 방법을 설명하기 위한 도면이다.
인물 감정 인식 시스템(100)은 입력부(510) 및 인식부(520)를 포함할 수 있다. 이러한 구성요소들은 인물 감정 인식 시스템(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 구성요소들은 도 6의 인물 감정 인식 방법이 포함하는 단계들(610 내지 620)을 수행하도록 인물 감정 인식 시스템(100)을 제어할 수 있다. 이때, 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
인물 감정 인식 시스템(100)의 프로세서는 인물 감정 인식 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 인물 감정 인식 시스템(100)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 인물 감정 인식 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 입력부(510) 및 인식부(520) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(610 내지 620)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(610)에서 입력부(510)는 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력할 수 있다. 입력부(510)는 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 및 음성 데이터로부터 비디오 내에 존재하는 인물의 감정을 분석하기 위하여 이미지 기반의 네트워크, 얼굴 특징점 기반의 네트워크 및 비디오 음성 신호 기반의 네트워크를 구성할 수 있다. 입력부(510)는 S3DAE, C3DA 또는 Parallel CNN 중 적어도 하나의 딥 러닝 네트워크를 사용함에 따라 비디오 내에 존재하는 이미지 데이터로부터 이미지 특징을 획득하고, 획득된 이미지 특징을 SVM 또는 Softmax을 수행하여 인물의 감정을 분류할 수 있다. 입력부(510)는 비디오의 연속적인 프레임에서 인물의 얼굴 정보에 대한 각각의 특징점들의 상대적 거리 변화를 기반으로 2차원 특징 벡터를 획득하고, 획득된 2차원 특징 벡터를 CNN-LSTM 네트워크에 입력하여 인물의 감정을 분류할 수 있다. 입력부(510)는 비디오 내의 음성 신호에 NN, CNN, LSTM 중 적어도 하나 이상의 음성 기반 네트워크를 사용하여 비디오 내의 분위기 및 배경 사운드에서 인물의 감정을 분석할 수 있다.
단계(620)에서 인식부(520)는 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식할 수 있다. 인식부(520)는 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보 중 기 설정된 기준에 기초하여 가중치를 적용할 수 있다. 인식부(520)는 비디오 내의 인물의 감정을 화남, 역겨움, 두려움, 행복, 슬픔, 놀라움 및 중립을 포함하는 7가지의 감정으로 분류하고, 분류된 감정을 정량값으로 도출할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (8)

  1. 비디오 기반 인물 감정 인식 방법에 있어서,
    비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력하는 단계; 및
    상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  2. 제1항에 있어서,
    상기 딥 러닝 네트워크에 입력하는 단계는,
    상기 비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 및 음성 데이터로부터 상기 비디오 내에 존재하는 인물의 감정을 분석하기 위하여 이미지 기반의 네트워크, 얼굴 특징점 기반의 네트워크 및 비디오 음성 신호 기반의 네트워크를 구성하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  3. 제1항에 있어서,
    상기 딥 러닝 네트워크에 입력하는 단계는,
    S3DAE, C3DA 또는 Parallel CNN 중 적어도 하나의 딥 러닝 네트워크를 사용함에 따라 상기 비디오 내에 존재하는 이미지 데이터로부터 이미지 특징을 획득하고, 상기 획득된 이미지 특징을 SVM 또는 Softmax을 수행하여 인물의 감정을 분류하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  4. 제1항에 있어서,
    상기 딥 러닝 네트워크에 입력하는 단계는,
    상기 비디오 내의 연속적인 프레임에서 인물의 얼굴 정보에 대한 각각의 특징점들의 상대적 거리 변화를 기반으로 2차원 특징 벡터를 획득하고, 상기 획득된 2차원 특징 벡터를 CNN-LSTM 네트워크에 입력하여 인물의 감정을 분류하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  5. 제1항에 있어서,
    상기 딥 러닝 네트워크에 입력하는 단계는,
    상기 비디오 내의 음성 신호에 NN, CNN, LSTM 중 적어도 하나 이상의 음성 기반 네트워크를 사용하여 비디오 내의 분위기 및 배경 사운드에서 인물의 감정을 분석하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  6. 제1항에 있어서,
    상기 비디오 내의 인물의 감정을 인식하는 단계는,
    상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보 중 기 설정된 기준에 기초하여 가중치를 적용하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  7. 제1항에 있어서,
    상기 비디오 내의 인물의 감정을 인식하는 단계는,
    상기 비디오 내의 인물의 감정을 화남, 역겨움, 두려움, 행복, 슬픔, 놀라움 및 중립을 포함하는 7가지의 감정으로 분류하고, 상기 분류된 감정을 정량값으로 도출하는 단계
    를 포함하는 비디오 기반 인물 감정 인식 방법.
  8. 비디오 기반 인물 감정 인식 시스템에 있어서,
    비디오 내에 존재하는 이미지 데이터, 얼굴 특징점 데이터 또는 음성 데이터 중 적어도 하나 이상의 신호를 인물 감정 인식을 위한 반 지도(Semi-supervised) 학습과 복수 개의 멀티 모달 네트워크에 기반하여 구성된 딥 러닝 네트워크에 입력하는 입력부; 및
    상기 딥 러닝 네트워크에 입력된 적어도 하나 이상의 신호를 분석함에 따라 획득된 각각의 확률 정보를 적응적으로 융합하여 상기 비디오 내의 인물의 감정을 인식하는 인식부
    를 포함하는 비디오 기반 인물 감정 인식 시스템.
KR1020180043342A 2018-04-13 2018-04-13 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법 KR102090171B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180043342A KR102090171B1 (ko) 2018-04-13 2018-04-13 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180043342A KR102090171B1 (ko) 2018-04-13 2018-04-13 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법

Publications (2)

Publication Number Publication Date
KR20190119863A true KR20190119863A (ko) 2019-10-23
KR102090171B1 KR102090171B1 (ko) 2020-03-17

Family

ID=68461027

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180043342A KR102090171B1 (ko) 2018-04-13 2018-04-13 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법

Country Status (1)

Country Link
KR (1) KR102090171B1 (ko)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047553A (zh) * 2019-11-07 2020-04-21 电子科技大学 一种面向非接触式人体参数测量的特征点定位方法
CN112233698A (zh) * 2020-10-09 2021-01-15 中国平安人寿保险股份有限公司 人物情绪识别方法、装置、终端设备及存储介质
KR102217414B1 (ko) * 2019-12-24 2021-02-19 광운대학교 산학협력단 4d 영화 이펙트 자동 생성장치
CN112597841A (zh) * 2020-12-14 2021-04-02 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112733994A (zh) * 2020-12-10 2021-04-30 中国科学院深圳先进技术研究院 机器人的自主情感生成方法、系统及应用
KR20210066697A (ko) * 2019-11-28 2021-06-07 경희대학교 산학협력단 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법
KR20210076528A (ko) * 2019-12-16 2021-06-24 조선대학교산학협력단 감정 인식 방법 및 장치
CN113361304A (zh) * 2020-03-06 2021-09-07 上海卓繁信息技术股份有限公司 一种基于表情识别的服务评价方法,装置及存储设备
KR102337008B1 (ko) * 2021-02-24 2021-12-17 에이아이큐브 주식회사 컨볼루션 뉴럴 네트워크를 이용한 신생아 고통 감지 방법
CN114202647A (zh) * 2022-02-16 2022-03-18 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114582000A (zh) * 2022-03-18 2022-06-03 南京工业大学 基于视频图像面部表情和语音的多模态老人情绪识别融合模型及其建立方法
CN114724222A (zh) * 2022-04-14 2022-07-08 浙江康旭科技有限公司 一种基于多模态的ai数字人情感分析方法
KR20220100206A (ko) * 2021-01-08 2022-07-15 계명대학교 산학협력단 비접촉식 측정 데이터를 통한 감정 예측을 위한 인공지능 기반 감정인식 시스템 및 방법
WO2022158847A1 (ko) * 2021-01-25 2022-07-28 삼성전자 주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
WO2023106726A1 (ko) * 2021-12-07 2023-06-15 계명대학교 산학협력단 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법
CN116543445A (zh) * 2023-06-29 2023-08-04 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、系统、设备及存储介质
WO2023149653A1 (ko) * 2022-02-07 2023-08-10 주식회사 히포티앤씨 다중지표 기반 인공지능을 이용한 자폐증 진단 시스템
CN117218324A (zh) * 2023-10-17 2023-12-12 广东迅扬科技股份有限公司 一种基于人工智能的摄像头调控系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480669B1 (ko) * 2014-03-24 2015-01-26 충남대학교산학협력단 얼굴 표정을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480669B1 (ko) * 2014-03-24 2015-01-26 충남대학교산학협력단 얼굴 표정을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jiquan Ngiam 5명. Multimodal Deep Learning. 2011년 *
Samira Ebrahimi Kahou 외 17명. EmoNets: Multimodal deep learning approaches for emotion recognition in video. 2015.03.30. *
Yein Kim 외 2명. Deep learning for robust feature generation in audiovisual emotion recognition. 2013년 *
김대하 외 2명. 딥 러닝을 이용한 비디오 시퀀스 영상에서의 내면 감정 인식. 2017년 6월 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047553A (zh) * 2019-11-07 2020-04-21 电子科技大学 一种面向非接触式人体参数测量的特征点定位方法
CN111047553B (zh) * 2019-11-07 2023-04-07 电子科技大学 一种面向非接触式人体参数测量的特征点定位方法
KR20210066697A (ko) * 2019-11-28 2021-06-07 경희대학교 산학협력단 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법
KR20210076528A (ko) * 2019-12-16 2021-06-24 조선대학교산학협력단 감정 인식 방법 및 장치
KR102217414B1 (ko) * 2019-12-24 2021-02-19 광운대학교 산학협력단 4d 영화 이펙트 자동 생성장치
CN113361304A (zh) * 2020-03-06 2021-09-07 上海卓繁信息技术股份有限公司 一种基于表情识别的服务评价方法,装置及存储设备
CN112233698B (zh) * 2020-10-09 2023-07-25 中国平安人寿保险股份有限公司 人物情绪识别方法、装置、终端设备及存储介质
CN112233698A (zh) * 2020-10-09 2021-01-15 中国平安人寿保险股份有限公司 人物情绪识别方法、装置、终端设备及存储介质
CN112733994A (zh) * 2020-12-10 2021-04-30 中国科学院深圳先进技术研究院 机器人的自主情感生成方法、系统及应用
CN112597841A (zh) * 2020-12-14 2021-04-02 之江实验室 一种基于门机制多模态融合的情感分析方法
KR20220100206A (ko) * 2021-01-08 2022-07-15 계명대학교 산학협력단 비접촉식 측정 데이터를 통한 감정 예측을 위한 인공지능 기반 감정인식 시스템 및 방법
WO2022158847A1 (ko) * 2021-01-25 2022-07-28 삼성전자 주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
KR102337008B1 (ko) * 2021-02-24 2021-12-17 에이아이큐브 주식회사 컨볼루션 뉴럴 네트워크를 이용한 신생아 고통 감지 방법
WO2023106726A1 (ko) * 2021-12-07 2023-06-15 계명대학교 산학협력단 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법
WO2023149653A1 (ko) * 2022-02-07 2023-08-10 주식회사 히포티앤씨 다중지표 기반 인공지능을 이용한 자폐증 진단 시스템
CN114202647B (zh) * 2022-02-16 2022-07-05 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114202647A (zh) * 2022-02-16 2022-03-18 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114582000A (zh) * 2022-03-18 2022-06-03 南京工业大学 基于视频图像面部表情和语音的多模态老人情绪识别融合模型及其建立方法
CN114724222A (zh) * 2022-04-14 2022-07-08 浙江康旭科技有限公司 一种基于多模态的ai数字人情感分析方法
CN114724222B (zh) * 2022-04-14 2024-04-19 康旭科技有限公司 一种基于多模态的ai数字人情感分析方法
CN116543445A (zh) * 2023-06-29 2023-08-04 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、系统、设备及存储介质
CN116543445B (zh) * 2023-06-29 2023-09-26 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、系统、设备及存储介质
CN117218324A (zh) * 2023-10-17 2023-12-12 广东迅扬科技股份有限公司 一种基于人工智能的摄像头调控系统及方法

Also Published As

Publication number Publication date
KR102090171B1 (ko) 2020-03-17

Similar Documents

Publication Publication Date Title
KR102090171B1 (ko) 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
US9928410B2 (en) Method and apparatus for recognizing object, and method and apparatus for training recognizer
US11093734B2 (en) Method and apparatus with emotion recognition
KR102595399B1 (ko) 미지의 클래스들의 검출 및 미지의 클래스들에 대한 분류기들의 초기화
Basly et al. CNN-SVM learning approach based human activity recognition
US10002290B2 (en) Learning device and learning method for object detection
KR20200000824A (ko) 중심 분산 손실 함수를 활용한 딥 러닝 모델 기반의 얼굴 표정 인식 방법
JP2018538612A (ja) オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
KR20190081243A (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
KR102138809B1 (ko) 미세한 표정변화 검출을 위한 2차원 랜드마크 기반 특징점 합성 및 표정 세기 검출 방법
Sarabu et al. Human action recognition in videos using convolution long short-term memory network with spatio-temporal networks
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
Chalasani et al. Simultaneous segmentation and recognition: Towards more accurate ego gesture recognition
Gurnani et al. Saf-bage: Salient approach for facial soft-biometric classification-age, gender, and facial expression
KR20200110064A (ko) 변환 모델을 이용한 인증 방법 및 장치
Banskota et al. A novel enhanced convolution neural network with extreme learning machine: facial emotional recognition in psychology practices
Chew et al. Facial expression recognition via enhanced stress convolution neural network for stress detection
Putro et al. A dual attention module for real-time facial expression recognition
Sidorov et al. Feature and decision level audio-visual data fusion in emotion recognition problem
Dubey et al. An accurate recognition of facial expression by extended wavelet deep convolutional neural network
Venkata Kranthi et al. Real-time facial recognition using deep learning and local binary patterns
KR20190117841A (ko) 검출 반복성을 최대화 하는 특징점 선별방법
KR102382414B1 (ko) 실시간 감정인식 어플리케이션을 위한 계측 학습 기반 반지도 학습 알고리즘
Vynokurova et al. Hybrid Deep Convolutional Neural Network with Multimodal Fusion

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant