KR20200071807A - Human emotion state recognition method and system using fusion of image and eeg signals - Google Patents

Human emotion state recognition method and system using fusion of image and eeg signals Download PDF

Info

Publication number
KR20200071807A
KR20200071807A KR1020180151892A KR20180151892A KR20200071807A KR 20200071807 A KR20200071807 A KR 20200071807A KR 1020180151892 A KR1020180151892 A KR 1020180151892A KR 20180151892 A KR20180151892 A KR 20180151892A KR 20200071807 A KR20200071807 A KR 20200071807A
Authority
KR
South Korea
Prior art keywords
network
signal
electrical
modality
video signal
Prior art date
Application number
KR1020180151892A
Other languages
Korean (ko)
Other versions
KR102243294B1 (en
Inventor
송병철
최동윤
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020180151892A priority Critical patent/KR102243294B1/en
Publication of KR20200071807A publication Critical patent/KR20200071807A/en
Application granted granted Critical
Publication of KR102243294B1 publication Critical patent/KR102243294B1/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • A61B5/0402
    • G06K9/00268
    • G06K9/00308
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)
  • Social Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Cardiology (AREA)

Abstract

Disclosed are a method and a system for recognizing a human emotional state using image and EEG signal fusion. According to an embodiment of the present invention, the method for recognizing an emotion, performed by the system for recognizing an emotion, comprises the steps of: constructing a fusion network for fusing feature information extracted from a video signal and an electrical bio-signal through a modality network for each of the video signal and the electrical bio-signal; determining each weight for balance data output through the modality network for each of the video signal and the electrical bio-signal on the basis of each reliability recognized by using feature information on each of the video signal and the electrical bio-signal in the constructed fusion network; and outputting a final balance value as output data by reflecting each determined weight to the output balance data. In the method for recognizing an emotion, the modality network for the video signal, the modality network for the electrical bio-signal, and the fusion network can be separately learned.

Description

영상 및 EEG 신호 융합을 이용한 인간 감정상태 인식 방법 및 시스템{HUMAN EMOTION STATE RECOGNITION METHOD AND SYSTEM USING FUSION OF IMAGE AND EEG SIGNALS}HUMAN EMOTION STATE RECOGNITION METHOD AND SYSTEM USING FUSION OF IMAGE AND EEG SIGNALS}

아래의 설명은 감정 인식 기술에 관한 것으로, 영상 신호 및 전기적 생체 신호에 기반한 인간의 감정 상태를 인식하는 방법 및 시스템에 관한 것이다. The following description relates to emotion recognition technology, and relates to a method and system for recognizing a human emotion state based on an image signal and an electrical biosignal.

인간의 감정을 인식하는 기술은 궁극적인 로봇과 인간의 상호작용을 위한 핵심 기술이다. 또한 감정인식은 인공지능 분야에서 최근 많은 관심을 받고 있다. 현재까지 개발된 감정인식 기술들을 살펴보면, 주로 얼굴 이미지(facial image)로부터 얻어진 특징들에 기반하여 표정의 변화를 인지함으로써 감정의 카테고리를 구분하는 방식들이 dominant하다. 최근에는 별도의 특징 추출 과정없이 CNN(convolution neural network)을 이용하여 엔드-투-엔드(end-to-end)로 감정을 분류(classification)하는 mechanism들이 개발되어 높은 성능을 보이고 있다.Technology that recognizes human emotions is the key technology for human interaction with the ultimate robot. In addition, emotion recognition has recently received a lot of attention in the field of artificial intelligence. Looking at the emotion recognition technologies developed to date, methods for classifying emotion categories by recognizing a change in facial expression based on characteristics obtained from a facial image are dominant. Recently, mechanisms for classifying emotions end-to-end using a convolution neural network (CNN) without a separate feature extraction process have been developed to show high performance.

또한, 음성 신호로부터 추출된 일종의 톤(tone) 정보로부터 인간의 감정을 인지하려는 시도들도 있었다. 그러나 음성 정보는 sparse하게 존재하기 때문에 연속적인 감정을 추출하는데 근본적인 한계가 있다. 최근에는 인간의 뇌에서 발생하는 전기적 생체 신호인 EEG(electroencephalogram)을 이용하여 감정 인식을 수행하는 연구들도 진행되고 있다. 예를 들면, power spectral density같은 frequency domain feature를 추출한 후 전형적인 기계학습 알고리즘을 적용하여 감정을 인식할 수 있다. 최근 EEG 신호의 채널 간 asymmetry 특성을 특징(feature)으로 추출하고, 여기에 advanced deep learning 알고리즘을 적용하여 감정인식의 정확도를 향상시킨 사례가 있다. In addition, there have been attempts to recognize human emotions from a kind of tone information extracted from voice signals. However, since voice information exists sparse, there is a fundamental limitation in extracting continuous emotions. Recently, studies have been conducted to perform emotion recognition using EEG (electroencephalogram), an electrical biosignal generated in the human brain. For example, after extracting a frequency domain feature such as power spectral density, emotions can be recognized by applying a typical machine learning algorithm. Recently, there is a case in which the accuracy of emotion recognition is improved by extracting asymmetry characteristics between channels of an EEG signal as a feature and applying an advanced deep learning algorithm.

한편, 영상 신호, 음성 신호, 생체 신호 중 두 개 이상을 동시에 이용하는 소위 멀티-모달(multi-modal) 신호에 기반한 감정인식 기술들이 단일 신호 기반 방식들보다 우수하다는 연구 결과들이 보고되고 있다. 일례로, EEG 신호와 facial landmark로 구성된 멀티 모달 데이터(multi-modal data)에 LSTM(long short-term memory)을 적용한 continuous-time valence domain의 emotion regression 방법이 제안되었다. 그러나 상기 기법들은 입력 data concatenation이나 출력 average등 비교적 단순한 방식의 modality fusion이기 때문에 모달리티 간 상호보완을 효과적으로 이용하지 못하는 단점이 있었다. Meanwhile, research results have been reported that emotion recognition techniques based on so-called multi-modal signals using two or more of a video signal, a voice signal, and a bio signal simultaneously are superior to single signal-based methods. As an example, an emotion regression method of a continuous-time valence domain applying long short-term memory (LSTM) to multi-modal data composed of EEG signals and facial landmarks has been proposed. However, the above techniques have a disadvantage in that they cannot effectively use mutual complementarity between modalities because it is a relatively simple modality fusion such as input data concatenation or output average.

동기화된 비디오 신호와 전기적 생체 신호(EEG 신호) 간 상호보완 작용을 향상시키기 위해 입력 신호에 따라 적응적으로 두 신호를 융합하는 gated fusion network에 기반한 새로운 감정인식 기법을 제안하고자 한다. To improve the complementary action between the synchronized video signal and the electrical bio signal (EEG signal), we propose a new emotion recognition technique based on the gated fusion network that adaptively fuses two signals according to the input signal.

감정 인식 시스템에 의해 수행되는 감정 인식 방법은, 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 추출된 특징 정보를 융합하는 융합 네트워크를 구축하는 단계; 상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 파악된 각 신뢰도에 기초하여 상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 출력된 발란스 데이터들에 대한 각각의 가중치를 결정하는 단계; 및 상기 출력된 발란스 데이터들에 대하여 결정된 각각의 가중치를 반영하여 최종 발란스 값이 출력 데이터로서 출력되는 단계를 포함하고, 상기 감정 인식 방법은, 상기 비디오 신호에 대한 모달리티 네트워크, 상기 전기적 생체 신호에 대한 모달리티 네트워크 및 상기 융합 네트워크가 별도로 학습될 수 있다. The emotion recognition method performed by the emotion recognition system includes: constructing a fusion network that fuses feature information extracted from a video signal and an electric biometric signal through a modality network for each of the video signal and the electric biometric signal; Each weight for the balance data output through the modality network for each of the video signal and the electrical bio-signal based on each reliability determined using the feature information of the video signal and the electrical bio-signal in the constructed converged network. Determining; And outputting a final balance value as output data by reflecting each weight determined for the output balance data, wherein the emotion recognition method includes: a modality network for the video signal, and an electrical biosignal for the signal. The modality network and the convergence network may be separately learned.

상기 감정 인식 방법은, 상기 비디오 신호 및 상기 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계를 더 포함할 수 있다. The emotion recognition method may further include outputting balance data based on a modality network for each of the video signal and the electrical biometric signal from the video signal and the electrical biometric signal.

상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크는, 영상 기반의 모달리티 네트워크 및 전기적 생체 신호 기반의 모달리티 네트워크를 포함하고, 상기 영상 기반의 모달리티 네트워크는, 영상 시퀀스로부터 얼굴 이미지를 획득하고, 상기 획득된 얼굴 이미지를 딥 컨볼루션 인코더(deep convolution encoder)를 이용하여 특징을 추출하고, 추출된 특징을 LSTM을 통해 회귀(regression)를 수행하는 것을 포함하고, 상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는, 상기 획득된 얼굴 이미지를 CNN 기반의 딥 컨볼루션 인코더를 이용하여 이미지 정보를 1차원 특징 벡터로 변환하고, 상기 변환된 1차원 특징 벡터를 LSTM 네트워크를 통과시켜 영상 시퀀스의 발란스 값을 출력하는 단계를 포함할 수 있다. The modality network for each of the video signal and the electrical bio-signal includes an image-based modality network and an electrical bio-signal-based modality network, and the image-based modality network acquires a face image from an image sequence and acquires the Extracting features of the face image using a deep convolution encoder, and performing regression of the extracted features through LSTM, and video signals from the video signals and electrical bio signals The step of outputting the balance data based on the modality network for each electrical biosignal converts the obtained face image into a one-dimensional feature vector using a CNN-based deep convolution encoder, and the converted 1 The step of passing the dimensional feature vector through the LSTM network may include outputting a balance value of the image sequence.

상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는, 상기 변환된 1차원 특징 벡터가 FC(fully connected) layer를 통과하여 특징 벡터의 차원 정보가 조정되고, 상기 차원 정보가 조정된 특징 벡터를 LSTM을 통하여 학습시킴에 따라 출력된 숨은 상태 벡터(hidden state vector)를 FC(fully connected) layer에 재통과시켜 영상 시퀀스의 발란스 값을 출력하는 단계를 포함할 수 있다. The step of outputting the balance data based on the modality network for each of the video signal and the electrical bio-signal from the video signal and the electrical bio-signal is such that the transformed one-dimensional feature vector passes through a fully connected (FC) layer of the feature vector. As the dimension information is adjusted, and the feature vector adjusted with the dimension information is learned through LSTM, a hidden state vector outputted is re-passed to a fully connected (FC) layer to output a balance value of an image sequence. It may include the steps.

상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크는, 영상 기반의 모달리티 네트워크 및 전기적 생체 신호 기반의 모달리티 네트워크를 포함하고, 상기 전기적 생체 신호 기반의 모달리티 네트워크는, 복수 개의 FC layer 구성된 전기적 생체 신호 기반의 모달리티 네트워크에서 하나의 FC layer를 제외한 나머지 FC layer 들 각각이 BN(batch normalization), DO(dropout), ReLU의 순서로 연결되는 것을 포함하고, 상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는, 전기적 생체 신호로부터 구성된 생체 시퀀스로부터 각 주파수 대역 별로 PSD(power spectral density) 분석을 통하여 전기적 생체 신호 특징을 추출하고, 상기 추출된 전기적 생체 신호 특징을 상기 전기적 생체 신호 기반의 모달리티 네트워크에 입력하여 전기적 생체 신호에 대한 발란스 값을 출력하는 단계를 포함할 수 있다. The modality network for each of the video signal and the electrical biosignal includes an image-based modality network and an electrical biosignal-based modality network, and the electrical biosignal-based modality network is based on an electrical biosignal composed of a plurality of FC layers. Each of the remaining FC layers except for one FC layer in the modality network of BN (batch normalization), DO (dropout), and including the connection in the order of ReLU, the video signal and electrical biosignal from the video signal and electrical biosignal The step of outputting the balance data based on the modality network for each signal extracts electrical biosignal characteristics through power spectral density (PSD) analysis for each frequency band from a biosequence constructed from electrical biosignals, and extracts the electrical And inputting a biosignal feature into the electrical biosignal-based modality network to output a balance value for the electrical biosignal.

상기 각각의 가중치를 결정하는 단계는, 상기 비디오 신호에 대한 모달리티 네트워크와 상기 전기적 생체 신호에 대한 모달리티 네트워크를 통하여 출력된 출력 데이터를 기준값과 비교하여 기 설정된 기준 이하의 오차일 경우 가중치를 1, 기 설정된 기준 이상의 오차일 경우 가중치를 0으로 결정하여 학습을 수행하는 단계를 포함할 수 있다. In the determining of the respective weights, the output data output through the modality network for the video signal and the modality network for the electrical bio-signal are compared with a reference value, and the weight is set to 1 when the error is less than a predetermined reference value. If the error is greater than the set reference, it may include the step of performing learning by determining the weight as 0.

상기 각각의 가중치를 결정하는 단계는, 상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 신뢰도를 파악하는 단계를 포함하고, 상이한 구조로 구성된 상기 비디오 신호에 대한 모달리티 네트워크 및 상기 전기적 생체 신호에 대한 모달리티 네트워크의 특징 정보를 상기 구축된 융합 네트워크의 입력으로 사용될 수 있다. Determining the respective weights may include determining reliability using characteristic information of each of the video signal and the electrical bio-signal in the constructed converged network, and the modality network for the video signal composed of different structures and The characteristic information of the modality network for the electrical bio-signal may be used as an input of the constructed fusion network.

감정 인식 시스템은, 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 제1 출력부; 상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 추출된 특징 정보를 융합하는 융합 네트워크를 구축하는 네트워크 구축부; 상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 파악된 각 신뢰도에 기초하여 상기 출력된 발란스 데이터들에 대한 각각의 가중치를 결정하는 가중치 결정부; 및 상기 출력된 발란스 데이터들에 대하여 결정된 각각의 가중치를 반영하여 최종 발란스 값이 출력 데이터로서 출력되는 제2 출력부를 포함하고, 상기 감정 인식 시스템은, 상기 비디오 신호에 대한 모달리티 네트워크, 상기 전기적 생체 신호에 대한 모달리티 네트워크 및 상기 융합 네트워크가 별도로 학습될 수 있다.The emotion recognition system includes: a first output unit to output balance data based on a modality network for each of the video signal and the electrical biosignal from the video signal and the electrical biosignal; A network construction unit for constructing a fusion network that fuses feature information extracted from the video signal and the electrical bio-signal through a modality network for each of the video and electrical bio-signals; A weight determination unit for determining respective weights for the output balance data based on each reliability determined by using feature information of each of the video signal and the electrical biosignal in the constructed convergence network; And a second output unit configured to output a final balance value as output data by reflecting respective weights determined for the output balance data, wherein the emotion recognition system includes a modality network for the video signal and the electrical biosignal. The modality network for and the convergence network may be separately learned.

감정 인식 시스템은 비디오 신호에 대한 모달리티 네트워크와 전기적 생체 신호에 대한 네트워크에 대하여 gated fusion을 기술을 이용하여 융합함으로써 영상 정보 혹은 전기적 생체 신호 정보와 같이 단일 모달리티 보다 감정인식 성능을 개선할 수 있다.The emotion recognition system can improve emotion recognition performance over single modality such as image information or electrical biosignal information by fusing gated fusion technology to the modality network for video signals and the network for electrical biosignals.

감정 인식 시스템은 융합 네트워크를 통하여 비디오 신호에 대한 모달리티 네트워크와 전기적 생체 신호에 대한 네트워크에서 출력되는 중간 정보를 이용하여 감정상태 추정 정확도가 높은 모달리티를 예측하고 모달리티의 결과를 선택하여 출력할 수 있다. 이에 따라 각 모달리티가 감정인식에 유리한 신호에 대해서만 처리된 결과를 선택함으로써 감정인식 성능을 향상시킬 수 있다. The emotion recognition system may predict the modality having high emotional state estimation accuracy using the modality network for the video signal and the intermediate information output from the network for the electrical biosignal through the fusion network, and select and output the modality result. Accordingly, it is possible to improve the performance of the emotion recognition by selecting a result processed only for signals in which each modality is advantageous for the emotion recognition.

감정 인식 시스템은 시퀀스 정보를 이용함으로써 시간에 연속적인 시간에서의 감정인식이 가능하다. The emotion recognition system is capable of recognizing emotions at a continuous time in time by using sequence information.

도 1은 일 실시예에 따른 감정 인식 시스템에서 네트워크의 개괄적인 구조를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 감정 인식 시스템에서 영상 기반의 모달리티 네트워크 구조를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 감정 인식 시스템에서 전기적 생체 신호 기반의 모달리티 네트워크 구조를 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 감정 인식 시스템에서 융합 네트워크의 상세 구조를 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 감정 인식 시스템에서 감정에 대한 표정변화를 나타낸 예이다.
도 6은 일 실시예에 따른 감정 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 7은 일 실시예에 따른 감정 인식 시스템의 감정 인식 방법을 설명하기 위한 흐름도이다.
1 is a view for explaining the general structure of a network in the emotion recognition system according to an embodiment.
2 is a block diagram illustrating an image-based modality network structure in an emotion recognition system according to an embodiment.
3 is a block diagram illustrating a structure of an electrical biosignal-based modality network in an emotion recognition system according to an embodiment.
4 is a block diagram illustrating a detailed structure of a fusion network in an emotion recognition system according to an embodiment.
5 is an example of a facial expression change for emotion in the emotion recognition system according to an embodiment.
6 is a block diagram illustrating the configuration of an emotion recognition system according to an embodiment.
7 is a flowchart illustrating an emotion recognition method of an emotion recognition system according to an embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

Artificial intelligence(AI)시스템과 인간의 상호작용을 위해서 감정인식 기술은 매우 중요하며, 최근 얼굴 이미지뿐만 아니라 electroencephalogram(EEG)을 활용한 방안이 연구되고 있다. 실시예에서는 비디오 신호와 전기적 생체 신호에 대한 멀티 모달(multi-modal)신호를 상호 보완하여 시너지를 발휘하는 gated fusion network을 제안한다. 이하, gated fusion network를 융합 네트워크로 기재하기로 한다. For human interaction with the artificial intelligence (AI) system, emotion recognition technology is very important, and recently, methods using electroencephalogram (EEG) as well as face images have been studied. In an embodiment, a gated fusion network is proposed that exhibits synergy by complementing a multi-modal signal for a video signal and an electrical biosignal. Hereinafter, the gated fusion network will be described as a fusion network.

도 1은 일 실시예에 따른 감정 인식 시스템에서 네트워크의 개괄적인 구조를 설명하기 위한 도면이다. 1 is a view for explaining the general structure of a network in the emotion recognition system according to an embodiment.

감정 인식 시스템은 동기화된 비디오 신호와 전기적 생체 신호(예를 들면, EEG 신호) 간 상호보완 작용을 향상시키기 위해 입력 신호에 따라 적응적으로 두 신호를 융합하는 융합 네트워크(130)에 기반한 새로운 감정인식 기법을 제안한다. 융합 네트워크(130)는 비디오 신호에 대한 모달리티 네트워크와 전기적 생체 신호에 대한 모달리티 네트워크로부터 획득된 복수 개(예를 들면, 2개)의 중간 특징들을 이용하여 모달리티 간 유효성을 판단하고, 유효성을 판단한 판단 결과에 근거하여 싱글 모달리티 네트워크(single modality network)들의 신뢰도를 결정할 수 있다. 각 시점에서 비디오 모달리티와 전기적 생체 신호 모달리티 중 신뢰도가 높은 모달리티의 네트워크의 출력을 선택함으로써 전체적인 감정인식 정확도를 향상시킬 수 있다. The emotion recognition system is a new emotion recognition based on the fusion network 130 that adaptively fuses the two signals according to the input signal to improve the complementary action between the synchronized video signal and the electrical biometric signal (eg, EEG signal). Propose a technique. The convergence network 130 determines validity between modalities by using a plurality of (eg, two) intermediate features obtained from a modality network for a video signal and a modality network for an electrical biometric signal, and judges the validity determination Based on the results, the reliability of single modality networks can be determined. By selecting the output of the network with high reliability among the video modality and the electrical biosignal modality at each time point, it is possible to improve the overall emotion recognition accuracy.

구체적으로, 감정 인식 시스템은 지속 시간 어노테이션(continuous-time annotation)에 대응할 목적으로 현 지점을 기준으로 이전의 특정 시간(예를 들면, 2초) 길이의 데이터를 이용하여 발란스(valence) 값을 회귀(regression)할 수 있다. 감정 인식 시스템은 인간의 감정을 continuous domain에서 긍정과 부정으로 단순화한 레이블(label)인 발란스를 이용할 수 있다. Specifically, the emotion recognition system regresses the balance value using data of a specific time (for example, 2 seconds) length based on the current point for the purpose of responding to continuous-time annotation. (regression). The emotion recognition system can use a balance, a label that simplifies human emotions into positive and negative in a continuous domain.

도 1을 참고하면, 감정 인식 시스템에서 제안하는 네트워크(100)의 구조는 비디오 신호에 대한 모달리티 네트워크(110), 전기적 생체 신호에 대한 모달리티 네트워크(120) 및 융합 네트워크(130)로 구성될 수 있다. 각 싱글 모달리티 네트워크(비디오 신호에 대한 모달리티 네트워크, 전기적 생체 신호에 대한 모달리티 네트워크)는 각각의 발란스 값을 출력할 수 있다. 이때, 예를 들면, 융합 네트워크는 예비 실험 결과에 기반하여 설계될 수 있다. 다시 말해서, 융합 네트워크는 각 모달리티 네트워크의 내부 특징 정보를 이용하여 각각의 모달리티의 신뢰도를 파악하여 발란스들의 가중치들을 결정할 수 있다. 최종적으로 가중치가 반영된 발란스 값이 출력 데이터로서 출력될 수 있다. Referring to FIG. 1, the structure of the network 100 proposed by the emotion recognition system may be composed of a modality network 110 for video signals, a modality network 120 for electrical biometric signals, and a fusion network 130. . Each single modality network (modality network for video signals, modality network for electrical bio signals) may output a respective balance value. At this time, for example, the fusion network may be designed based on the results of preliminary experiments. In other words, the convergence network may determine the weights of the balances by grasping the reliability of each modality using the internal feature information of each modality network. Finally, a balance value reflecting the weight may be output as output data.

감정 인식 시스템은 각 싱글 모달리티의 네트워크(110, 1120)를 별도로 학습하고, 학습한 학습 결과를 융합 네트워크(130)에서 융합하는 방식이기 때문에 멀티 모달 입력을 미리 융합하여 엔드-투-엔드 학습하는 방식보다 오히려 최적화에 유리하다. 또한 감정 인식 시스템은 입력 신호의 특성에 따라 각 모달리티의 가중치를 결정하기 때문에 단순 평균(average)나 fixed weight sum 방법보다 높은 정확도로 출력할 수 있다. Since the emotion recognition system is a method of separately learning the networks 110 and 1120 of each single modality and fusion the learned results in the fusion network 130, a method of end-to-end learning by fusion of multi-modal inputs in advance Rather, it is advantageous for optimization. In addition, since the emotion recognition system determines the weight of each modality according to the characteristics of the input signal, it can output with higher accuracy than a simple average or a fixed weight sum method.

도 4를 참고하면, 융합 네트워크(130)의 상세 구조를 설명하기 위한 블록도이다. 융합 네트워크(130)는 비디오 신호에 대한 모달리티 네트워크(110)와 전기적 생체 신호에 대한 네트워크(120)를 융합할 수 있다. 이때, 각 싱글 모달리티 네트워크(비디오 신호에 대한 모달리티 네트워크(110), 전기적 생체 신호에 대한 네트워크(120)) 및 융합 네트워크(130)는 각각 별도로 학습될 수 있다. 싱글 모달리티 네트워크를 독립적으로 학습하는 것이 최적화 측면에서 joint training 보다 난이도를 줄일 수 있다. 4, it is a block diagram for explaining the detailed structure of the convergence network 130. The fusion network 130 may fuse the modality network 110 for video signals and the network 120 for electrical bio signals. At this time, each single modality network (modality network 110 for video signals, network 120 for electrical bio signals) and fusion network 130 may be separately learned. Independent learning of a single modality network can reduce the difficulty of joint training rather than joint training.

비디오 신호에 대한 모달리티 네트워크(110), 전기적 생체 신호에 대한 네트워크(120) 각각에서 학습이 최적화된 상황이라고 가정하기로 한다. 비디오 신호에 대한 모달리티 네트워크(110), 전기적 생체 신호에 대한 네트워크(120) 내 특징 정보를 융합 네트워크(130)의 입력으로 한다. 융합 네트워크(130)는 각각의 특징 정보들에 기반하여 어떤 모달리티의 출력이 현재 상태에서 유효한 지 판단하고, 가중치를 출력할 수 있다. 이때, 각각의 가중치 W img , W EEG 는 비디오 신호에 대한 모달리티 네트워크(110), 전기적 생체 신호에 대한 네트워크(120) 각각의 출력 데이터와 곱해질 수 있으며, 가중합(weighted sum)을 통하여 최종적인 출력 데이터(fused valence output)이 출력될 수 있다. It is assumed that the learning is optimized in each of the modality network 110 for the video signal and the network 120 for the electrical biosignal. The feature information in the modality network 110 for the video signal and the network 120 for the electrical biosignal is used as an input of the fusion network 130. The convergence network 130 may determine which modality output is valid in the current state based on each feature information and output a weight. At this time, each weight W img , W EEG can be multiplied with the output data of each of the modality network 110 for the video signal and the network 120 for the electrical biosignal, and finally through the weighted sum. Fused valence output may be output.

학습 과정에서 융합 네트워크의 출력인 가중치와 레이블을 결정하는 방법을 설명하기로 한다. 비디오 신호에 대한 모달리티 네트워크(110)와 전기적 생체 신호에 대한 네트워크(120)를 통하여 출력된 출력 데이터를 기준값(예를 들면, target label 값)과 비교하여 기 설정된 기준 이하의 낮은 오차일 경우 가중치를 1, 기 설정된 기준 이상의 높은 오차일 경우 0으로 레이블을 정하여 학습을 수행할 수 있다. 또는, 출력 데이터를 기준값(예를 들면, target label 값)과 비교하여 기 설정된 범위 내에 존재하는 오차일 경우 가중치를 1, 기 설정된 범위를 벗어나는 오차일 경우 0으로 레이블을 정할 수도 있다. A method of determining weights and labels, which are outputs of the convergence network in the learning process, will be described. The output data output through the modality network 110 for the video signal and the network 120 for the electrical bio-signal are compared with a reference value (for example, a target label value), and the weight is applied when the error is lower than a predetermined reference value. 1, in case of a high error above a preset criterion, learning can be performed by labeling 0. Alternatively, the output data may be compared with a reference value (for example, a target label value) to label the weight as 1 in the case of an error within a preset range and 0 as an error in an error outside the preset range.

융합 네트워크(130)로 입력되는 비디오 신호에 대한 모달리티 네트워크(110)의 정보는 LSTM에서 출력되는 최종 프레임의 숨은 상태 벡터(hidden state vector) F img 이다. 이러한 숨은 상태 벡터는 영상 시퀀스를 구성하는 프레임들의 정보를 써머리(summary)한 특징이라고 볼 수 있다. 융합 네트워크(130)는 숨은 상태 벡터를 통하여 비디오 신호에 대한 모달리티 네트워크(110)의 유효성을 판단할 수 있다. 또한, 융합 네트워크(130)는 전기적 생체 신호에 대한 네트워크(120)에서 3번째 FC 레이어를 통과한 후 출력되는 특징 벡터 F EEG 에 기반하여 전기적 생체 신호에 대한 네트워크(120)의 유효성을 판단할 수 있다. The information of the modality network 110 for the video signal input to the convergence network 130 is the hidden state vector F img of the final frame output from the LSTM. This hidden state vector can be regarded as a summary feature of information of frames constituting an image sequence. The fusion network 130 may determine the validity of the modality network 110 for the video signal through the hidden state vector. In addition, the fusion network 130 may determine the validity of the network 120 for the electrical biosignal based on the feature vector F EEG output after passing through the third FC layer in the network 120 for the electrical biosignal. have.

융합 네트워크(130)는 이미지 모달리티 temporal network인 LSTM과 전기적 생체 신호의 non-temporal network인 FC 네트워크를 융합할 수 있다. 융합 네트워크(130)는 비디오 신호에 대한 모달리티 네트워크(110)와 전기적 생체 신호에 대한 네트워크(120)의 구조가 상이한 형태이지만, 비디오 신호에 대한 모달리티 네트워크(110)에서의 LSTM의 경우 숨은 상태 벡터를 이용함으로써 전기적 생체 신호에 대한 네트워크(120)의 특징 정보와 동일한 형태인 1차원 특징을 융합 네트워크의 입력으로 사용할 수 있다. The fusion network 130 may fuse the LSTM, which is an image modality temporal network, and the FC network, which is a non-temporal network of electrical bio signals. The convergence network 130 has a structure in which the modality network 110 for the video signal and the network 120 for the electrical biosignal are different, but in the case of the LSTM in the modality network 110 for the video signal, the hidden state vector is used. By using it, one-dimensional features in the same form as the characteristic information of the network 120 for electrical bio signals can be used as an input of the fusion network.

도 5는 일 실시예에 따른 감정 인식 시스템에서 감정에 대한 표정변화를 나타낸 예이다. 도 5(a)는 긍정/부정 정보(valence)의 출력 결과를 비교한 그래프이고, 도 5(b)는 각 모달리티 간의 가중치를 비교한 그래프이다. 5 is an example of a facial expression change for emotion in the emotion recognition system according to an embodiment. Figure 5 (a) is a graph comparing the output result of the positive / negative information (valence), Figure 5 (b) is a graph comparing the weight between each modality.

감정 인식 시스템은 비디오 신호에 대한 모달리티 네트워크(110)와 전기적 생체 신호에 대한 네트워크(120)에 대하여 gated fusion을 기술을 이용하여 융합함으로써 영상 정보 혹은 전기적 생체 신호 정보 단일 모달리티 대비 개선된 감정인식 성능을 보일 수 있도록 한다. 이때, 융합 네트워크(130)는 비디오 신호에 대한 모달리티 네트워크(110)와 전기적 생체 신호에 대한 네트워크(120)에서 출력되는 중간 정보를 이용하여 감정상태 추정 정확도가 높은 모달리티를 예측하고 해당 모달리티의 결과를 선택하여 출력할 수 있다. 이에 따라 각 모달리티가 감정인식에 유리한 신호에 대해서만 처리된 결과를 선택함으로써 개선된 성능을 보일 수 있다. 또한, 약 기 설정된 시간(예를 들면, 2초) 분량의 짧은 시퀀스 정보를 이용함으로써 시간에 연속적인 시간에서의 감정인식이 가능하다. The emotion recognition system fuses gated fusion to the modality network 110 for the video signal and the network 120 for the electric biosignal using a technique to improve the performance of the emotion recognition compared to the single modality of the image information or the electric biosignal information. Make it visible. At this time, the convergence network 130 predicts the modality having high emotional state estimation accuracy by using the intermediate information output from the modality network 110 for the video signal and the network 120 for the electrical biosignal, and calculates the result of the modality. You can select and print. Accordingly, it is possible to show improved performance by selecting a result processed only for signals in which each modality is advantageous for emotion recognition. In addition, by using short sequence information of a predetermined time (for example, 2 seconds), it is possible to recognize emotion at a continuous time.

도 2는 일 실시예에 따른 감정 인식 시스템에서 영상 기반의 모달리티 네트워크 구조를 설명하기 위한 블록도이다.2 is a block diagram illustrating an image-based modality network structure in an emotion recognition system according to an embodiment.

도 2에서는 비디오 신호에 대한 모달리티 네트워크(110)를 영상 기반의 모달리티 네트워크로 기재하기로 한다. 제안 기법의 서브 모듈(sub module)인 영상 기반의 모달리티 네트워크는 다음과 같이 동작한다. In FIG. 2, the modality network 110 for a video signal will be described as an image-based modality network. The image-based modality network, which is a sub-module of the proposed technique, operates as follows.

먼저, 영상 기반의 모달리티 네트워크는 얼굴 검출 알고리즘을 이용하여 입력 영상 시퀀스에서 크롭(crop)된 얼굴 이미지들을 획득할 수 있다. 획득된 얼굴 이미지들로부터 딥 컨볼루션 인코더(deep convolution encoder)를 이용하여 특징을 추출하고, LSTM을 통해 회귀(regression)를 수행할 수 있다. First, an image-based modality network may acquire face images cropped in an input image sequence using a face detection algorithm. Features may be extracted from the acquired face images using a deep convolution encoder, and regression may be performed through LSTM.

2차원의 얼굴 이미지(2-D facial image) 정보를 LSTM의 입력으로 이용하기에 앞서, CNN 기반의 딥 컨볼루션 인코더를 이용하여 얼굴 이미지 정보를 1차원 특징 벡터(1-D feature vector) 형태로 변환할 수 있다. 예를 들면, CNN기법 중 매우 우수한 성능을 보이는 DenseNet을 기반으로 딥 컨볼루션 인코더가 설계될 수 있다. 예를 들면, 입력 영상의 크기는 224x224 이며, DesneNet의 'fc2 layer'를 통과한 4096길이의 특징 벡터가 출력될 수 있다. 입력 영상 시퀀스 내 각 영상에서 추출된 1차원 특징 벡터들을 이용하여 하나의 발란스 값을 회귀(regression)하기 위하여 temporal network인 LSTM 네트워크를 이용할 수 있다. 딥 컨볼루셔널 특징(Deep convolutional feature)들이 LSTM으로 처리되기 전, FC 레이어(fully connected layer)를 통과하여 특징 벡터의 차원이 조정되고, LSTM에서 출력되는 숨은 상태 벡터(hidden state vector)는 한번 더 FC 레이어를 통과하여 해당 시퀀스의 발란스 레이블(valence label)값을 출력할 수 있다. Before using 2-D facial image information as the input of LSTM, the face image information is converted into a 1-D feature vector using a CNN-based deep convolution encoder. Can be converted. For example, a deep convolutional encoder can be designed based on DenseNet, which shows very good performance among CNN techniques. For example, the size of the input image is 224x224, and a feature vector of length 4096 that has passed through the'fc2 layer' of DesneNet may be output. An LSTM network, which is a temporal network, may be used to regress one balance value using one-dimensional feature vectors extracted from each image in the input image sequence. Before deep convolutional features are processed by the LSTM, the dimension of the feature vector is adjusted through the fully connected layer, and the hidden state vector output from the LSTM is once again. It is possible to output a balance label value of the corresponding sequence through the FC layer.

다시 말해서, 입력 영상 시퀀스에서 획득된 얼굴 이미지를 CNN 기반의 딥 컨볼루션 인코더를 이용하여 이미지 정보를 1차원 특징 벡터로 변환하고, 변환된 1차원 특징 벡터를 LSTM 네트워크를 통과시켜 영상 시퀀스의 발란스 값을 출력할 수 있다. 이때, 변환된 1차원 특징 벡터가 FC(fully connected) layer를 통과하여 특징 벡터의 차원 정보가 조정되고, 차원 정보가 조정된 특징 벡터를 LSTM을 통하여 학습시킴에 따라 출력된 숨은 상태 벡터(hidden state vector)를 FC(fully connected) layer에 재통과시켜 영상 시퀀스의 발란스 값을 출력할 수 있다. In other words, the face image obtained from the input image sequence is converted into image information using a CNN-based deep convolution encoder into a one-dimensional feature vector, and the converted one-dimensional feature vector is passed through the LSTM network to balance the image sequence. Can output At this time, the transformed one-dimensional feature vector passes through a fully connected (FC) layer, the dimension information of the feature vector is adjusted, and the hidden state vector (hidden state) output as the dimension information adjusted feature vector is learned through LSTM. vector) may be re-passed through a fully connected (FC) layer to output a balance value of an image sequence.

도 3은 일 실시예에 따른 감정 인식 시스템에서 전기적 생체 신호 기반의 모달리티 네트워크 구조를 설명하기 위한 블록도이다.3 is a block diagram illustrating a structure of an electrical biosignal-based modality network in an emotion recognition system according to an embodiment.

도 3에서는 전기적 생체 신호에 대한 모달리티 네트워크(120)를 전기적 생체 신호 기반의 모달리티 네트워크로 기재하기로 한다. In FIG. 3, the modality network 120 for an electrical biosignal will be described as an electrical biosignal-based modality network.

power spectral density(PSD) 분석을 통해 전기적 생체 신호(예를 들면, EEG signal)로부터 1차원 생체 신호 특징을 추출할 수 있다. 추출된 1차원 생체 신호 특징을 복수 개(예를 들면, 4단계)의 FC 레이어들로 구성된 전기적 생체 신호 기반의 모달리티 네트워크를 이용하여 회귀(regression)를 수행할 수 있다. Through the power spectral density (PSD) analysis, a one-dimensional biosignal characteristic can be extracted from an electrical biosignal (eg, an EEG signal). Regression may be performed using an electrical biosignal based modality network composed of a plurality of (for example, four steps) FC layers of the extracted one-dimensional biosignal feature.

구체적으로, 전기적 생체 신호는 기 설정된 시간 단위(예를 들면, 2초)로 단위 시퀀스(unit sequence)가 구성될 수 있으며, 각 주파수 대역 별로 PSD가 측정될 수 있다. 이때, 피험자의 작은 움직임이나 땀, 체온, 긴장감 등의 다양한 요소가 전기적 생체 신호 입장에서는 잡음으로 작용될 수 있다. 이에 따라 취득 장비에서 노치 필터(notch filter)를 사용하여 기 설정된 기준 이하의 주파수 대역(아주 낮은 주파수 대역)과 기 설정된 기준 이상의 주파수 대역(50Hz 이상의 주파수 대역)을 제거할 수 있다. 생체 신호 특징은 Alpha(8-13Hz), Beta(13-30Hz), Gamma(30-45Hz)의 3개의 주파수 대역에서 추출될 수 있으며, 각 대역에서 Max, Mean, Integral, Variance 등 네 가지의 특징을 추출할 수 있다. 최종적으로 특징 벡터의 차원은 전기적 생체 신호의 채널(EEG 채널)의 수와 주파수(Freq.) 밴드 및 특징 개수의 곱으로 획득될 수 있다. Specifically, the electrical biosignal may be configured with a unit sequence in a preset time unit (for example, 2 seconds), and the PSD may be measured for each frequency band. At this time, various factors such as the subject's small movement, sweat, body temperature, and tension may act as noise in the electrical biosignal position. Accordingly, a frequency band below a predetermined reference (very low frequency band) and a frequency band above a predetermined reference (a frequency band above 50 Hz) can be removed by using a notch filter in the acquisition equipment. Bio-signal features can be extracted from three frequency bands: Alpha (8-13 Hz), Beta (13-30 Hz), and Gamma (30-45 Hz), and there are four characteristics: Max, Mean, Integral, and Variance in each band. Can be extracted. Finally, the dimension of the feature vector can be obtained by multiplying the number of the frequency (Freq.) band and the number of features by the number of channels (EEG channels) of the electrical biosignal.

기 설정된 시간(예를 들면, 2초) 단위의 생체 신호 특징(예를 들면, EEG PSD feature)들은 전기적 생체 신호 기반의 모달리티 네트워크에 입력될 수 있다. 전기적 생체 신호 기반의 모달리티 네트워크는 복수 개(예를 들면, 4단계)의 FC 레이어들로 구성될 수 있으며, 최종 레이어를 제외하고 나머지 레이어들은 FC 레이어와 batch normalization, dropout, ReLU의 순서로 연결될 수 있다. 최종 출력은 전기적 생체 신호로부터 획득된 발란스 값이다. Biosignal features (eg, EEG PSD features) in a predetermined time (eg, 2 seconds) unit may be input to a modality network based on an electrical biosignal. The electrical biosignal-based modality network may be composed of a plurality of FC layers (for example, 4 steps), and the rest of the layers except the final layer may be connected to the FC layer in the order of batch normalization, dropout, and ReLU. have. The final output is the balance value obtained from the electrical biosignal.

다시 말해서, 전기적 생체 신호로부터 구성된 생체 시퀀스로부터 각 주파수 대역 별로 PSD(power spectral density) 분석을 통하여 전기적 생체 신호 특징을 추출하고, 추출된 전기적 생체 신호 특징을 상기 전기적 생체 신호 기반의 모달리티 네트워크에 입력하여 전기적 생체 신호에 대한 발란스 값을 출력할 수 있다.In other words, an electrical biosignal characteristic is extracted through a power spectral density (PSD) analysis for each frequency band from a biosequence constructed from electrical biosignals, and the extracted electrical biosignal characteristics are input to the modality network based on the electrical biosignal. A balance value for an electrical biosignal can be output.

도 6은 일 실시예에 따른 감정 인식 시스템의 구성을 설명하기 위한 블록도이고, 도 7은 일 실시예에 따른 감정 인식 시스템의 감정 인식 방법을 설명하기 위한 흐름도이다.6 is a block diagram illustrating a configuration of an emotion recognition system according to an embodiment, and FIG. 7 is a flowchart illustrating an emotion recognition method of the emotion recognition system according to an embodiment.

감정 인식 시스템(600)의 프로세서는 제1 출력부(610), 네트워크 구축부(620), 가중치 결정부(630) 및 제2 출력부(640)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 감정 인식 시스템(600)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 7의 감정 인식 방법이 포함하는 단계들(710 내지 740)을 수행하도록 감정 인식 시스템(600)을 제어할 수 있다. 이때, 프로세서및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. The processor of the emotion recognition system 600 may include a first output unit 610, a network construction unit 620, a weight determination unit 630, and a second output unit 640. The components of the processor may be expressions of different functions performed by the processor according to a control command provided by the program code stored in the emotion recognition system 600. The processor and the components of the processor may control the emotion recognition system 600 to perform steps 710 to 740 included in the emotion recognition method of FIG. 7. In this case, the processor and components of the processor may be implemented to execute instructions according to the code of the operating system included in the memory and the code of at least one program.

프로세서는 감정 인식 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 감정 인식 시스템(600)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 감정 인식 시스템(600)을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 제1 출력부(610), 네트워크 구축부(620), 가중치 결정부(630) 및 제2 출력부(640) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(710 내지 740)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다. The processor may load the program code stored in the program file for the emotion recognition method into memory. For example, when a program is executed in the emotion recognition system 600, the processor may control the emotion recognition system 600 to load the program code from the file of the program into the memory under the control of the operating system. At this time, each of the first output unit 610, the network construction unit 620, the weight determination unit 630, and the second output unit 640 included in the processor and the processor is a corresponding part of the program code loaded in the memory. It may be different functional representations of the processor for executing the instructions to execute subsequent steps 710 to 740.

단계(710)에서 제1 출력부(610)는 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력할 수 있다. 이때, 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크는 영상 기반의 모달리티 네트워크 및 전기적 생체 신호 기반의 모달리티 네트워크를 포함할 수 있다. 영상 기반의 모달리티 네트워크는, 영상 시퀀스로부터 얼굴 이미지를 획득하고, 상기 획득된 얼굴 이미지를 딥 컨볼루션 인코더(deep convolution encoder)를 이용하여 특징을 추출하고, 추출된 특징을 LSTM을 통해 회귀(regression)를 수행할 수 있다. 제1 출력부(610)는 획득된 얼굴 이미지를 CNN 기반의 딥 컨볼루션 인코더를 이용하여 이미지 정보를 1차원 특징 벡터로 변환하고, 변환된 1차원 특징 벡터를 LSTM 네트워크를 통과시켜 영상 시퀀스의 발란스 값을 출력할 수 있다. 제1 출력부(610)는 변환된 1차원 특징 벡터가 FC(fully connected) layer를 통과하여 특징 벡터의 차원 정보가 조정되고, 차원 정보가 조정된 특징 벡터를 LSTM을 통하여 학습시킴에 따라 출력된 숨은 상태 벡터(hidden state vector)를 FC(fully connected) layer에 재통과시켜 영상 시퀀스의 발란스 값을 출력할 수 있다. 또한, 전기적 생체 신호 기반의 모달리티 네트워크는, 복수 개의 FC layer 구성된 전기적 생체 신호 기반의 모달리티 네트워크에서 하나의 FC layer를 제외한 나머지 FC layer 들 각각이 BN(batch normalization), DO(dropout), ReLU의 순서로 연결될 수 있다. 제1 출력부(610)는 전기적 생체 신호로부터 구성된 생체 시퀀스로부터 각 주파수 대역 별로 PSD(power spectral density) 분석을 통하여 전기적 생체 신호 특징을 추출하고, 추출된 전기적 생체 신호 특징을 전기적 생체 신호 기반의 모달리티 네트워크에 입력하여 전기적 생체 신호에 대한 발란스 값을 출력할 수 있다.In operation 710, the first output unit 610 may output balance data based on a modality network for each of the video signal and the electrical biosignal from the video signal and the electrical biosignal. In this case, the modality network for each of the video signal and the electrical biosignal from the video signal and the electrical biosignal may include an image-based modality network and an electrical biosignal-based modality network. The image-based modality network acquires a face image from an image sequence, extracts the obtained face image using a deep convolution encoder, and regresses the extracted feature through LSTM. You can do The first output unit 610 converts the image information into a one-dimensional feature vector using a CNN-based deep convolution encoder, and balances the image sequence by passing the transformed one-dimensional feature vector through the LSTM network. You can print the value. The first output unit 610 is output as the transformed one-dimensional feature vector passes through a fully connected (FC) layer, the dimension information of the feature vector is adjusted, and the feature vector whose dimension information is adjusted is learned through LSTM. The hidden state vector may be re-passed to the fully connected (FC) layer to output a balance value of the image sequence. In addition, in the electrical biosignal-based modality network, each of the remaining FC layers except one FC layer in the electrical biosignal-based modality network composed of a plurality of FC layers is in the order of BN (batch normalization), DO (dropout), and ReLU. Can be connected to. The first output unit 610 extracts an electrical biosignal characteristic through a power spectral density (PSD) analysis for each frequency band from a biosequence constructed from the electrical biosignal, and modality based on the electrical biosignal based on the extracted electrical biosignal characteristic The balance value for the electrical bio-signal may be output by inputting it to a network.

단계(720)에서 네트워크 구축부(620)는 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 추출된 특징 정보를 융합하는 융합 네트워크를 구축할 수 있다.In operation 720, the network construction unit 620 may construct a convergence network that fuses feature information extracted from a video signal and an electrical biosignal through a modality network for each of the video signal and the electrical biosignal.

단계(730)에서 가중치 결정부(630)는 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 파악된 각 신뢰도에 기초하여 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 출력된 발란스 데이터들에 대한 각각의 가중치를 결정할 수 있다. 가중치 결정부(630)는 비디오 신호에 대한 모달리티 네트워크와 전기적 생체 신호에 대한 모달리티 네트워크를 통하여 출력된 출력 데이터를 기준값과 비교하여 기 설정된 오차 범위에 존재할 경우 가중치를 1, 기 설정된 오차 범위를 벗어날 경우 가중치를 0으로 결정하여 학습을 수행할 수 있다. 가중치 결정부(630)는 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 신뢰도를 파악할 수 있다. 이때, 상이한 구조로 구성된 비디오 신호에 대한 모달리티 네트워크 및 전기적 생체 신호에 대한 모달리티 네트워크의 특징 정보를 융합 네트워크의 입력으로 사용될 수 있다. In step 730, the weight determination unit 630 is based on each reliability determined by using the characteristic information of each of the video signal and the electrical biosignal in the constructed fusion network, through the modality network for each of the video signal and the electrical biosignal. Each weight for the output balance data may be determined. The weight determining unit 630 compares the output data output through the modality network for the video signal and the modality network for the electrical biosignal to the reference value, and if the weight is 1, the weight is out of the preset error range. Learning can be performed by determining the weight as 0. The weight determining unit 630 may grasp the reliability using the feature information of each of the video signal and the electrical bio signal in the constructed fusion network. At this time, the feature information of the modality network for the video signal composed of different structures and the modality network for the electrical bio-signals may be used as an input of the fusion network.

단계(740)에서 제2 출력부(640)는 출력된 발란스 데이터들에 대하여 결정된 각각의 가중치를 반영하여 최종 발란스 값이 출력 데이터로서 출력될 수 있다. In operation 740, the second output unit 640 may output the final balance value as output data by reflecting each weight determined for the output balance data.

일 실시예에 따른 감정 인식 시스템에서 제안하는 융합 네트워크는 비디오 모달리티(video modality)의 temporal network와 EEG modality non-temporal network를 융합하여 최적화된 각각의 단일 모달리티(single modality)의 네트워크를 효과적으로 융합할 수 있다. 실시예에서 제안한 기법은 time domain에서 continuous annotation을 레이블(label)로 이용하고 system의 causality를 보전하면서 실시간으로 valence 값을 출력하도록 함으로써 인간의 실제 감정반응을 모니터링한 MAHNOB-HCI dataset에서 제안하는 융합 방법은 통하여 단일 모달리티 대비 성능을 향상시킬 수 있다. The convergence network proposed by the emotion recognition system according to an embodiment can effectively fuse the optimized single modality network by fusing the temporal network of video modality and the non-temporal network of EEG modality. have. The proposed method in the embodiment uses the continuous annotation as a label in the time domain and outputs the valence value in real time while preserving the causality of the system. Can improve the performance compared to a single modality.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented with hardware components, software components, and/or combinations of hardware components and software components. For example, the devices and components described in the embodiments include, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors (micro signal processors), microcomputers, field programmable gate arrays (FPGAs). , A programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions, may be implemented using one or more general purpose computers or special purpose computers. The processing device may run an operating system (OS) and one or more software applications running on the operating system. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of understanding, a processing device may be described as one being used, but a person having ordinary skill in the art, the processing device may include a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include. For example, the processing device may include a plurality of processors or a processor and a controller. In addition, other processing configurations, such as parallel processors, are possible.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instruction, or a combination of one or more of these, and configure the processing device to operate as desired, or process independently or collectively You can command the device. Software and/or data may be interpreted by a processing device, or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodied in The software may be distributed over networked computer systems, and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination. The program instructions recorded in the medium may be specially designed and configured for the embodiments or may be known and usable by those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, and magnetic media such as floptical disks. -Hardware devices specifically configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, etc., as well as machine language codes produced by a compiler.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described by a limited embodiment and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques are performed in a different order than the described method, and/or the components of the described system, structure, device, circuit, etc. are combined or combined in a different form from the described method, or other components Alternatively, even if replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (8)

감정 인식 시스템에 의해 수행되는 감정 인식 방법에 있어서,
비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 추출된 특징 정보를 융합하는 융합 네트워크를 구축하는 단계;
상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 파악된 각 신뢰도에 기초하여 상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 출력된 발란스 데이터들에 대한 각각의 가중치를 결정하는 단계; 및
상기 출력된 발란스 데이터들에 대하여 결정된 각각의 가중치를 반영하여 최종 발란스 값이 출력 데이터로서 출력되는 단계
를 포함하고,
상기 감정 인식 방법은,
상기 비디오 신호에 대한 모달리티 네트워크, 상기 전기적 생체 신호에 대한 모달리티 네트워크 및 상기 융합 네트워크가 별도로 학습되는
감정 인식 방법.
In the emotion recognition method performed by the emotion recognition system,
Constructing a fusion network that fuses feature information extracted from the video signal and the electrical bio-signal through a modality network for each of the video and electrical bio-signals;
Each weight for the balance data output through the modality network for each of the video signal and the electrical bio-signal based on each reliability determined using the feature information of the video signal and the electrical bio-signal in the constructed converged network. Determining; And
The step of outputting the final balance value as output data by reflecting each weight determined for the output balance data.
Including,
The emotion recognition method,
The modality network for the video signal, the modality network for the electrical biosignal and the fusion network are separately learned.
How to recognize emotions.
제1항에 있어서,
상기 비디오 신호 및 상기 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계
를 더 포함하는 감정 인식 방법.
According to claim 1,
Outputting balance data based on a modality network for each of the video signal and the electrical bio-signal from the video signal and the electrical bio-signal.
Emotion recognition method further comprising.
제2항에 있어서,
상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크는,
영상 기반의 모달리티 네트워크 및 전기적 생체 신호 기반의 모달리티 네트워크를 포함하고,
상기 영상 기반의 모달리티 네트워크는,
영상 시퀀스로부터 얼굴 이미지를 획득하고, 상기 획득된 얼굴 이미지를 딥 컨볼루션 인코더(deep convolution encoder)를 이용하여 특징을 추출하고, 추출된 특징을 LSTM을 통해 회귀(regression)를 수행하는
것을 포함하고,
상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는,
상기 획득된 얼굴 이미지를 CNN 기반의 딥 컨볼루션 인코더를 이용하여 이미지 정보를 1차원 특징 벡터로 변환하고, 상기 변환된 1차원 특징 벡터를 LSTM 네트워크를 통과시켜 영상 시퀀스의 발란스 값을 출력하는 단계
를 포함하는 감정 인식 방법.
According to claim 2,
The modality network for each of the video signal and the electrical bio-signal,
Includes an image-based modality network and an electrical biosignal-based modality network,
The video-based modality network,
Acquiring a facial image from an image sequence, extracting the acquired facial image using a deep convolution encoder, and performing regression on the extracted feature through LSTM
Including
The step of outputting the balance data based on the modality network for each of the video signal and the electrical bio-signal from the video signal and the electrical bio-signal,
Converting the acquired face image into a one-dimensional feature vector using a CNN-based deep convolutional encoder, and outputting a balanced value of an image sequence by passing the converted one-dimensional feature vector through an LSTM network.
Emotion recognition method comprising a.
제3항에 있어서,
상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는,
상기 변환된 1차원 특징 벡터가 FC(fully connected) layer를 통과하여 특징 벡터의 차원 정보가 조정되고, 상기 차원 정보가 조정된 특징 벡터를 LSTM을 통하여 학습시킴에 따라 출력된 숨은 상태 벡터(hidden state vector)를 FC(fully connected) layer에 재통과시켜 영상 시퀀스의 발란스 값을 출력하는 단계
를 포함하는 감정 인식 방법.
According to claim 3,
The step of outputting the balance data based on the modality network for each of the video signal and the electrical bio-signal from the video signal and the electrical bio-signal,
As the transformed one-dimensional feature vector passes through a fully connected (FC) layer, the dimension information of the feature vector is adjusted, and the hidden state vector (hidden state) output as the dimension information adjusted feature vector is learned through LSTM. re-passing the vector) to the fully connected (FC) layer to output the balance value of the video sequence.
Emotion recognition method comprising a.
제2항에 있어서,
상기 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크는,
영상 기반의 모달리티 네트워크 및 전기적 생체 신호 기반의 모달리티 네트워크를 포함하고,
상기 전기적 생체 신호 기반의 모달리티 네트워크는,
복수 개의 FC layer 구성된 전기적 생체 신호 기반의 모달리티 네트워크에서 하나의 FC layer를 제외한 나머지 FC layer 들 각각이 BN(batch normalization), DO(dropout), ReLU의 순서로 연결되는 것을 포함하고,
상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 단계는,
전기적 생체 신호로부터 구성된 생체 시퀀스로부터 각 주파수 대역 별로 PSD(power spectral density) 분석을 통하여 전기적 생체 신호 특징을 추출하고, 상기 추출된 전기적 생체 신호 특징을 상기 전기적 생체 신호 기반의 모달리티 네트워크에 입력하여 전기적 생체 신호에 대한 발란스 값을 출력하는 단계
를 포함하는 감정 인식 방법.
According to claim 2,
The modality network for each of the video signal and the electrical bio-signal,
Includes an image-based modality network and an electrical biosignal-based modality network,
The electrical bio-signal-based modality network,
In a modality network based on an electrical bio-signal composed of a plurality of FC layers, each of the remaining FC layers except one FC layer is connected in the order of BN (batch normalization), DO (dropout), and ReLU,
The step of outputting the balance data based on the modality network for each of the video signal and the electrical bio-signal from the video signal and the electrical bio-signal,
An electrical biosignal feature is extracted from a biosequence composed of electrical biosignals through power spectral density (PSD) analysis for each frequency band, and the extracted electrical biosignal features are input to the electrical biosignal-based modality network to perform electrical biomarkers Outputting a balance value for the signal
Emotion recognition method comprising a.
제1항에 있어서,
상기 각각의 가중치를 결정하는 단계는,
상기 비디오 신호에 대한 모달리티 네트워크와 상기 전기적 생체 신호에 대한 모달리티 네트워크를 통하여 출력된 출력 데이터를 기준값과 비교하여 기 설정된 기준 이하의 오차일 경우 가중치를 1, 기 설정된 기준 이상의 오차일 경우 가중치를 0으로 결정하여 학습을 수행하는 단계
를 포함하는 감정 인식 방법.
According to claim 1,
Determining each of the weights,
The output data output through the modality network for the video signal and the modality network for the electrical bio-signal are compared with a reference value, and a weight is set to 1 for errors below a predetermined reference and a weight is set to 0 for errors above a predetermined reference. Determining and performing learning
Emotion recognition method comprising a.
제1항에 있어서,
상기 각각의 가중치를 결정하는 단계는,
상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 신뢰도를 파악하는 단계
를 포함하고,
상이한 구조로 구성된 상기 비디오 신호에 대한 모달리티 네트워크 및 상기 전기적 생체 신호에 대한 모달리티 네트워크의 특징 정보를 상기 구축된 융합 네트워크의 입력으로 사용되는
감정 인식 방법.
According to claim 1,
Determining each of the weights,
Grasping the reliability by using feature information of each of the video signal and the electrical bio-signal in the constructed convergence network.
Including,
The modality network for the video signal composed of different structures and the characteristic information of the modality network for the electrical bio-signals are used as inputs to the constructed convergence network.
How to recognize emotions.
감정 인식 시스템에 있어서,
비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크에 기반하여 발란스 데이터들을 출력하는 제1 출력부;
상기 비디오 신호 및 전기적 생체 신호로부터 비디오 신호 및 전기적 생체 신호 각각에 대한 모달리티 네트워크를 통하여 추출된 특징 정보를 융합하는 융합 네트워크를 구축하는 네트워크 구축부;
상기 구축된 융합 네트워크에서 비디오 신호와 전기적 생체 신호 각각의 특징 정보를 이용하여 파악된 각 신뢰도에 기초하여 상기 출력된 발란스 데이터들에 대한 각각의 가중치를 결정하는 가중치 결정부; 및
상기 출력된 발란스 데이터들에 대하여 결정된 각각의 가중치를 반영하여 최종 발란스 값이 출력 데이터로서 출력되는 제2 출력부
를 포함하고,
상기 감정 인식 시스템은,
상기 비디오 신호에 대한 모달리티 네트워크, 상기 전기적 생체 신호에 대한 모달리티 네트워크 및 상기 융합 네트워크가 별도로 학습되는
감정 인식 시스템.
In the emotion recognition system,
A first output unit outputting balance data based on a modality network for each of the video signal and the electrical biosignal from the video signal and the electrical biosignal;
A network construction unit for constructing a fusion network that fuses feature information extracted from the video signal and the electrical bio-signal through a modality network for each of the video and electrical bio-signals;
A weight determination unit for determining respective weights for the output balance data based on each reliability determined by using feature information of each of the video signal and the electrical biosignal in the constructed convergence network; And
A second output unit that outputs the final balance value as output data by reflecting each weight determined for the output balance data
Including,
The emotion recognition system,
The modality network for the video signal, the modality network for the electrical biosignal and the fusion network are separately learned.
Emotion recognition system.
KR1020180151892A 2018-11-30 2018-11-30 Human emotion state recognition method and system using fusion of image and eeg signals KR102243294B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180151892A KR102243294B1 (en) 2018-11-30 2018-11-30 Human emotion state recognition method and system using fusion of image and eeg signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180151892A KR102243294B1 (en) 2018-11-30 2018-11-30 Human emotion state recognition method and system using fusion of image and eeg signals

Publications (2)

Publication Number Publication Date
KR20200071807A true KR20200071807A (en) 2020-06-22
KR102243294B1 KR102243294B1 (en) 2021-04-22

Family

ID=71142437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180151892A KR102243294B1 (en) 2018-11-30 2018-11-30 Human emotion state recognition method and system using fusion of image and eeg signals

Country Status (1)

Country Link
KR (1) KR102243294B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111134692A (en) * 2019-11-15 2020-05-12 北方工业大学 Method for generating electroencephalogram signal multi-dimensional characteristic picture sequence
CN113128552A (en) * 2021-03-02 2021-07-16 杭州电子科技大学 Electroencephalogram emotion recognition method based on depth separable causal graph convolution network
KR20220060976A (en) * 2020-11-05 2022-05-12 인하대학교 산학협력단 Deep Learning Method and Apparatus for Emotion Recognition based on Efficient Multimodal Feature Groups and Model Selection
CN114504317A (en) * 2022-01-05 2022-05-17 电子科技大学 Real-time emotion monitoring system based on electroencephalogram network
KR102466731B1 (en) * 2022-04-05 2022-11-14 (주)비알프레임 Apparatus and method for predicting mental illness using multimodal artificial neural network
CN116369950A (en) * 2023-05-25 2023-07-04 武汉理工大学 Target detection method based on electroencephalogram tracing and multi-feature extraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629242B2 (en) * 1997-04-11 2003-09-30 Yamaha Hatsudoki Kabushiki Kaisha Environment adaptive control of pseudo-emotion generating machine by repeatedly updating and adjusting at least either of emotion generation and behavior decision algorithms
KR20120092846A (en) * 2011-02-14 2012-08-22 충남대학교산학협력단 System and method for multi-modality emotion recognition and recording medium thereof
CN107463874A (en) * 2017-07-03 2017-12-12 华南师范大学 The intelligent safeguard system of Emotion identification method and system and application this method
KR20180119913A (en) * 2017-04-26 2018-11-05 클라트 주식회사 Apparatus and computer readable recorder medium stored program for recognizing emotion using biometric data
KR20190130808A (en) * 2018-05-15 2019-11-25 연세대학교 산학협력단 Emotion Classification Device and Method using Convergence of Features of EEG and Face

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629242B2 (en) * 1997-04-11 2003-09-30 Yamaha Hatsudoki Kabushiki Kaisha Environment adaptive control of pseudo-emotion generating machine by repeatedly updating and adjusting at least either of emotion generation and behavior decision algorithms
KR20120092846A (en) * 2011-02-14 2012-08-22 충남대학교산학협력단 System and method for multi-modality emotion recognition and recording medium thereof
KR20180119913A (en) * 2017-04-26 2018-11-05 클라트 주식회사 Apparatus and computer readable recorder medium stored program for recognizing emotion using biometric data
CN107463874A (en) * 2017-07-03 2017-12-12 华南师范大学 The intelligent safeguard system of Emotion identification method and system and application this method
KR20190130808A (en) * 2018-05-15 2019-11-25 연세대학교 산학협력단 Emotion Classification Device and Method using Convergence of Features of EEG and Face

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111134692A (en) * 2019-11-15 2020-05-12 北方工业大学 Method for generating electroencephalogram signal multi-dimensional characteristic picture sequence
KR20220060976A (en) * 2020-11-05 2022-05-12 인하대학교 산학협력단 Deep Learning Method and Apparatus for Emotion Recognition based on Efficient Multimodal Feature Groups and Model Selection
CN113128552A (en) * 2021-03-02 2021-07-16 杭州电子科技大学 Electroencephalogram emotion recognition method based on depth separable causal graph convolution network
CN113128552B (en) * 2021-03-02 2024-02-02 杭州电子科技大学 Electroencephalogram emotion recognition method based on depth separable causal graph convolution network
CN114504317A (en) * 2022-01-05 2022-05-17 电子科技大学 Real-time emotion monitoring system based on electroencephalogram network
CN114504317B (en) * 2022-01-05 2023-04-18 电子科技大学 Real-time emotion monitoring system based on electroencephalogram network
KR102466731B1 (en) * 2022-04-05 2022-11-14 (주)비알프레임 Apparatus and method for predicting mental illness using multimodal artificial neural network
KR102548241B1 (en) * 2022-04-05 2023-06-28 (주)비알프레임 Apparatus and method for predicting mental illness via reinforcement learning using multimodal artificial neural network
CN116369950A (en) * 2023-05-25 2023-07-04 武汉理工大学 Target detection method based on electroencephalogram tracing and multi-feature extraction
CN116369950B (en) * 2023-05-25 2024-01-26 武汉理工大学 Target detection method based on electroencephalogram tracing and multi-feature extraction

Also Published As

Publication number Publication date
KR102243294B1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
KR102243294B1 (en) Human emotion state recognition method and system using fusion of image and eeg signals
Tiwari et al. Cnn based multiclass brain tumor detection using medical imaging
KR102275436B1 (en) Fusion technology of image and eeg signal for real-time emotion recognition
KR20230021043A (en) Method and apparatus for recognizing object, and method and apparatus for learning recognizer
KR102486699B1 (en) Method and apparatus for recognizing and verifying image, and method and apparatus for learning image recognizing and verifying
KR102090171B1 (en) Video-based human emotion recognition using semi-supervised learning and multimodal networks
US11093734B2 (en) Method and apparatus with emotion recognition
KR102564854B1 (en) Method and apparatus of recognizing facial expression based on normalized expressiveness and learning method of recognizing facial expression
KR20160061856A (en) Method and apparatus for recognizing object, and method and apparatus for learning recognizer
Lozano-Monasor et al. Facial expression recognition in ageing adults: from lab to ambient assisted living
KR102036955B1 (en) Method for recognizing subtle facial expression using deep learning based analysis of micro facial dynamics and apparatus therefor
US11948091B2 (en) Image identification apparatus, image identification method, training apparatus, and neural network having sub-neural networks respectively inputted with mutually different data
KR20160091786A (en) Method and apparatus for managing user
Farhoudi et al. Fusion of deep learning features with mixture of brain emotional learning for audio-visual emotion recognition
KR20190128978A (en) Method for estimating human emotions using deep psychological affect network and system therefor
KR20160035740A (en) Device and method to extract feature of image including object
Uddin et al. Deep multi-modal network based automated depression severity estimation
Asali et al. Deepmsrf: A novel deep multimodal speaker recognition framework with feature selection
KR20190130179A (en) 2d landmark feature synthesis and facial expression strength determination for micro-facial expression detection
Akamatsu et al. Brain decoding of viewed image categories via semi-supervised multi-view Bayesian generative model
Vazquez-Rodriguez et al. Emotion recognition with pre-trained transformers using multimodal signals
Meena et al. Seq2Dense U-Net: Analysing Sequential Inertial Sensor data for Human Activity Recognition using Dense Segmentation Model
Gantayat et al. Study of algorithms and methods on emotion detection from facial expressions: a review from past research
Kan et al. Enhancing multi-channel eeg classification with gramian temporal generative adversarial networks
Bhowmik et al. Classification of log-polar-visual eigenfaces using multilayer perceptron

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right