KR102564570B1 - System and method for analyzing multimodal emotion - Google Patents

System and method for analyzing multimodal emotion Download PDF

Info

Publication number
KR102564570B1
KR102564570B1 KR1020200148920A KR20200148920A KR102564570B1 KR 102564570 B1 KR102564570 B1 KR 102564570B1 KR 1020200148920 A KR1020200148920 A KR 1020200148920A KR 20200148920 A KR20200148920 A KR 20200148920A KR 102564570 B1 KR102564570 B1 KR 102564570B1
Authority
KR
South Korea
Prior art keywords
emotion
analysis
voice
unit
image
Prior art date
Application number
KR1020200148920A
Other languages
Korean (ko)
Other versions
KR20220063816A (en
Inventor
이혜영
Original Assignee
주식회사 스피랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스피랩 filed Critical 주식회사 스피랩
Priority to KR1020200148920A priority Critical patent/KR102564570B1/en
Publication of KR20220063816A publication Critical patent/KR20220063816A/en
Application granted granted Critical
Publication of KR102564570B1 publication Critical patent/KR102564570B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 본 발명에 따른 멀티모달 감성 분석 시스템은 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징 및 상기 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 것을 특징으로 한다.
이에 따라, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능하다.
The present invention relates to a multimodal emotion analysis system and method, and the multimodal emotion analysis system according to the present invention includes a video input unit for receiving a user video; an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video; a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video; a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and an ensemble emotion analysis unit that analyzes a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics.
Accordingly, it is possible to accurately analyze emotions in consideration of emotions of face images, voices, and texts.

Description

멀티모달 감성 분석 시스템 및 방법{System and method for analyzing multimodal emotion}Multimodal emotion analysis system and method {System and method for analyzing multimodal emotion}

본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 보다 상세하게는 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법에 관한 것이다.The present invention relates to a multimodal emotion analysis system and method, and more particularly, to a multimodal emotion analysis system and method capable of accurately analyzing emotions in consideration of emotions of facial images, voices, and texts.

장수(長壽)는 인간의 소망이기도 하지만, 질병, 빈곤, 고독 등은 장수의 일면이기도 하다.Longevity is a human wish, but disease, poverty, and loneliness are also aspects of longevity.

이러한 문제의 해결을 위해서는 문제를 파악하는 과정이 우선되어야 하는데, 질병, 빈곤은 정량적인 방식을 통해 비교적 쉽게 파악이 가능하였지만 고독과 같이 감정과 관련된 문제는 정량적인 방식으로 파악하는 것이 쉽지 않았다.In order to solve these problems, the process of identifying the problem should be prioritized. Disease and poverty could be identified relatively easily through a quantitative method, but it was not easy to identify problems related to emotions such as loneliness in a quantitative way.

그러나 최근에 들어서는 인공지능을 통해 인간의 감정·감성을 파악하는 방법이 많이 개발되고 있다.However, in recent years, many methods have been developed to understand human emotions and emotions through artificial intelligence.

인간은 표정, 행동, 말 등을 통해 감정을 표현하며, 따라서 인공지능을 통해 인간의 감정을 파악할 때에는 표정, 행동, 말 등을 분석한다.Humans express emotions through facial expressions, actions, and words, and therefore, when artificial intelligence identifies human emotions, facial expressions, actions, and words are analyzed.

그런데 사람은 표정, 행동, 말 각각에서 명시적으로는 서로 상반된 감정 등을 표현하기도 하므로, 어느 하나의 감정 표현 수단만을 분석하면 감정 파악의 정확성이 떨어질 수 있다.However, since a person explicitly expresses conflicting emotions in each of facial expressions, actions, and words, the accuracy of emotion identification may be reduced if only one means of expressing emotions is analyzed.

KRKR 10-2018-005797010-2018-0057970 AA

따라서, 본 발명의 목적은 이와 같은 종래의 문제점을 해결하기 위한 것으로서, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법을 제공함에 있다.Accordingly, an object of the present invention is to solve such conventional problems, and to provide a multimodal emotion analysis system and method capable of accurately analyzing emotions in consideration of emotions of face images, voices, and texts.

본 발명이 해결하고자 하는 과제는 위에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problem to be solved by the present invention is not limited to the above-mentioned problem, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.

상기 목적은, 본 발명에 따라, 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 멀티모달 감성 분석 시스템에 의해 달성된다.The above object, according to the present invention, a video input unit for receiving a user video input; an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video; a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video; a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and an ensemble emotion analysis unit analyzing a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics calculated by the text emotion analysis unit. It is achieved by a multimodal emotion analysis system comprising a.

상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고, 상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며, 상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비할 수 있다.The image emotion analysis unit includes a plurality of sub-image emotion analysis units to which different image analysis models are applied and an image emotion feature combining unit combining sub-image emotion characteristics calculated in each of the sub-image emotion analysis units, and the voice emotion analysis unit The unit includes a plurality of sub-voice emotion analysis units to which different voice analysis models are applied and a voice emotion feature combining unit for combining the sub-voice emotion characteristics calculated in each of the sub-voice emotion analysis units. A plurality of sub-text sentiment analysis units to which the text analysis model is applied and a text sentiment feature combining unit combining the sub-text sentiment characteristics calculated by each of the sub-text sentiment analysis units may be provided.

상기 이미지 분석 모델은, VGG, ResNet, 및 Inception일 수 있다.The image analysis model may be VGG, ResNet, and Inception.

상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델일 수 있다.The voice analysis model may be an SVM or a combination model of CNN and RNN.

본 발명에 의한 멀티모달 감성 분석 시스템은, 이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부, 음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부, 및 텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비할 수 있다.In the multimodal emotion analysis system according to the present invention, the image emotion modeling unit stores the characteristics of each emotion of the image and provides the analysis standard in the image emotion analysis unit, and the voice emotion analysis unit stores the characteristics of each emotion of the voice. It may further include a voice emotion model unit providing analysis criteria of the text emotion model unit and a text emotion model unit storing characteristics for each emotion of the text and providing analysis criteria in the text emotion analysis unit.

본 발명에 의한 멀티모달 감성 분석 시스템은, 감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비할 수 있다.The multimodal emotion analysis system according to the present invention may further include an ensemble emotion model unit for storing combination characteristics for each emotion and providing analysis criteria in the ensemble emotion analyzer.

상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석할 수 있다.The ensemble sentiment analyzer may analyze combination characteristics using LSTM.

본 발명의 또 다른 실시예에 의하면, 사용자 동영상을 입력받는 동영상 입력단계; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석하는 감성 분석단계; 및 상기 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석단계;를 포함하는 멀티모달 감성 분석 방법이 제공된다.According to another embodiment of the present invention, the video input step of receiving a user video input; Sentiment analysis step of analyzing each emotion of the user face image, user voice and text extracted from the user video; and an ensemble emotion analysis step of analyzing a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics calculated in the emotion analysis step.

상기 감성 분석단계는, 상기 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 상기 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 상기 텍스트 각각을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출하는 서브 감성 분석단계; 및 상기 서브 감성 분석단계에서 산출된 상기 서브 이미지 감성 특징, 상기 서브 음성 감성 특징 및 상기 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합하는 감성 특징 조합단계;를 포함할 수 있다.In the emotion analysis step, the user's face image is analyzed through a plurality of different analysis models to calculate a plurality of sub-image emotion characteristics, and the user's voice is analyzed through a plurality of different analysis models to obtain a plurality of sub-voice emotions. a sub-sentiment analysis step of calculating characteristics and calculating a plurality of sub-text sentiment characteristics by analyzing each of the texts through a plurality of different analysis models; and an emotion feature combining step of combining the sub image emotion feature, the sub voice emotion feature, and the text emotion feature calculated in the sub emotion analysis step for each user face image, user voice, and text.

본 발명에 의한 멀티모달 감성 분석 시스템에 의하면, 사용자의 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 사용자의 감성 상태를 정확하게 파악하는 것이 가능하다.According to the multimodal emotion analysis system according to the present invention, it is possible to accurately grasp the user's emotional state by considering the user's face, voice, and text together in the user's video.

그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석의 결과의 정확성을 보다 높여줄 수 있다.In addition, since a combination feature combining image emotion characteristics, voice emotion characteristics, and text emotion characteristics is analyzed, the accuracy of the result of emotion analysis can be further increased.

사용자 얼굴 이미지, 사용자 음성 및 텍스트의 감성 각각을 서로 다른 다수의 분석 모델을 통해 분석한 후 산출된 서브 감성 특징들을 조합하여 분석함으로써, 이미지 감성, 음성 감성 및 텍스트 각각의 감성 분석 결과를 정확하게 할 수 있다.After analyzing each of the emotions of the user's face image, voice, and text through a number of different analysis models, combining and analyzing the calculated sub-emotional features, it is possible to accurately analyze the emotion analysis results of each image emotion, voice emotion, and text. there is.

도 1은 본 발명에 의한 멀티모달 감성 분석 시스템의 개략적인 구성도,
도 2는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 모델부에 관한 설명도,
도 3은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 모델부에 관한 설명도,
도 4는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 모델부에 관한 설명도,
도 5는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 모델부에 관한 설명도,
도 6은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 분석부에 관한 설명도,
도 7은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 분석부에 관한 설명도,
도 8은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 분석부에 관한 설명도,
도 9는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 분석부에 관한 설명도,
도 10은 본 발명에 의한 멀티모달 감성 분석 방법의 순서도이다.
1 is a schematic configuration diagram of a multimodal emotion analysis system according to the present invention;
2 is an explanatory diagram of an image emotion model unit constituting a multimodal emotion analysis system according to the present invention;
3 is an explanatory diagram of a voice emotion model unit constituting a multimodal emotion analysis system according to the present invention;
4 is an explanatory diagram of a text emotion model unit constituting a multimodal emotion analysis system according to the present invention;
5 is an explanatory diagram of an ensemble emotion model unit constituting a multimodal emotion analysis system according to the present invention;
6 is an explanatory diagram of an image emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
7 is an explanatory diagram of a voice emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
8 is an explanatory diagram of a text sentiment analysis unit constituting a multimodal sentiment analysis system according to the present invention;
9 is an explanatory diagram of an ensemble emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
10 is a flowchart of a multimodal emotion analysis method according to the present invention.

이하에서는 본 발명의 구체적인 실시예에 대하여 도면을 참고하여 자세하게 설명하도록 한다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings.

도 1에는 본 발명에 의한 멀티모달 감성 분석 시스템(1)의 개략적인 구성도가 도시되어 있다.1 shows a schematic configuration diagram of a multimodal emotion analysis system 1 according to the present invention.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 동영상 입력부(10), 이미지 감성 분석부(20), 음성 감성 분석부(30), 텍스트 감성 분석부(40) 및 앙상블 감성 분석부(50)를 포함하여 이루어진다.The multimodal emotion analysis system 1 according to the present invention includes a video input unit 10, an image emotion analyzer 20, a voice emotion analyzer 30, a text emotion analyzer 40, and an ensemble emotion analyzer 50. made including

동영상 입력부(10)에서는 사용자의 휴대폰이나 컴퓨터 등에서 사용자의 얼굴 이미지와 음성이 포함된 사용자 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 추출된다. 텍스트는 사용자 음성에 STT(Speech to text) 알고리즘을 적용하여 추출할 수 있다.The video input unit 10 receives a user video including the user's face image and voice from the user's mobile phone or computer. The user's face image, user's voice, and text are extracted from the user's video. Text can be extracted by applying a speech to text (STT) algorithm to a user's voice.

이미지 감성 분석부(20)에서는 사용자 얼굴 이미지의 감성을 분석한다. 이미지 감성 분석부(20)에서는 예를 들어, 눈의 깜빡임, 입 모양 및 얼굴 길이 등의 특징을 통해 사용자 얼굴 이미지의 감성을 분석할 수 있다.The image emotion analyzer 20 analyzes the emotion of the user's face image. The image emotion analysis unit 20 may analyze the emotion of the user's face image through characteristics such as eye blinking, mouth shape, and face length, for example.

음성 감성 분석부(30)에서는 사용자 음성의 감성을 분석한다. 음성 감성 분석부(30)에서는 예를 들어, 사용자 음성의 피치, 에너지, 에너지의 엔트로피(entropy of energy), 제로 크로싱 율(zero crossing rate), 스펙트로그램(spectrogram), 로그-멜-스펙트로그램(log-mel-spectrogram) 및 주파수 등의 음향적 특성을 통해 사용자 음성의 감성을 분석할 수 있다.The voice emotion analysis unit 30 analyzes the emotion of the user's voice. In the voice emotion analysis unit 30, for example, pitch, energy, entropy of energy, zero crossing rate, spectrogram, log-mel-spectrogram ( The emotion of the user's voice can be analyzed through acoustic characteristics such as log-mel-spectrogram) and frequency.

텍스트 감성 분석부(40)에서는 텍스트의 의미적 특징을 통해 사용자 텍스트의 감성을 분석한다.The text emotion analysis unit 40 analyzes the emotion of the user's text through the semantic characteristics of the text.

앙상블 감성 분석부(50)에서는 이미지 감성 분석부(20)에서 산출된 이미지 감성 특징, 음성 감성 분석부(30)에서 산출된 음성 감성 특징, 및 텍스트 감성 분석부(40)에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석한다.In the ensemble emotion analyzer 50, the image emotion characteristics calculated by the image emotion analyzer 20, the voice emotion characteristics calculated by the voice emotion analyzer 30, and the text emotion characteristics calculated by the text emotion analyzer 40 Analyze the combination characteristics of the combination.

조합 특징은 예를 들어, 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징에서 산출된 감성의 확률을 감성별로 평균하는 방법으로 분석될 수도 있고, 각 감성 특징의 감성 결과들 중 과반을 넘은 감성 결과를 산출하는 방법 등으로 분석될 수도 있다.The combination feature may be analyzed, for example, by averaging the probability of emotion calculated from the image emotion feature, the voice emotion feature, and the text emotion feature for each emotion. It can also be analyzed by calculation method, etc.

이러한 본 발명에 의한 멀티모달 감성 분석 시스템(1)에 의하면, 사용자 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 감성 상태를 정확하게 파악하는 것이 가능하다.According to the multimodal emotion analysis system 1 according to the present invention, it is possible to accurately grasp the emotional state by considering the user's face, voice, and text together in the user's video.

그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석 결과의 정확성을 보다 높여줄 수 있다.In addition, since a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics is analyzed, the accuracy of the emotion analysis result can be further improved.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 이미지 감성 모델부(60), 음성 감성 모델부(70) 및 텍스트 감성 모델부(80)를 포함할 수 있다.The multimodal emotion analysis system 1 according to the present invention may include an image emotion model unit 60, a voice emotion model unit 70, and a text emotion model unit 80.

이미지 감성 모델부(60)는 이미지의 감성별 특징이 저장되어 이미지 감성 분석부(20)에서의 분석 기준을 제공할 수 있다. 즉, 이미지 감성 분석부(20)는 이미지의 특징이 이미지 감성 모델부(60)에서 어느 감성에 대응되는지 찾음으로써 이미지 감성 결과를 도출할 수 있다.The image emotion model unit 60 may store characteristics for each emotion of the image and provide analysis criteria in the image emotion analyzer 20 . That is, the image emotion analysis unit 20 may derive an image emotion result by finding which emotion the feature of the image corresponds to in the image emotion model unit 60 .

도 2에 도시되어 있는 바와 같이, 이미지 감성 모델부(60)는 이미지 데이터부(61), 이미지 감성 모델 학습부(63) 및 이미지 감성 모델 저장부(64)를 포함할 수 있다.As shown in FIG. 2 , the image sensibility model unit 60 may include an image data unit 61 , an image sensibility model learning unit 63 , and an image sensibility model storage unit 64 .

이미지 데이터부(61)에는 감성이 라벨링된 다수의 이미지가 저장된다. 이미지 데이터는 드라마, 영화, 사용자가 촬영한 정지 영상 또는 동영상 파일로부터 얻어질 수 있으며, 해당 이미지 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.The image data unit 61 stores a plurality of images labeled with emotions. The image data may be obtained from a drama, movie, still image or moving picture file taken by a user, and includes information about what emotion the corresponding image data is related to.

이미지 감성 모델 학습부(63)는 인공지능 알고리즘을 이용하여 이미지 데이터를 학습한다. 이에 따라, 이미지 데이터들이 감성별로 분류된다. 이미지 감성 모델 학습부(63)에서는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 어느 하나의 인공지능 알고리즘을 이용하여 이미지 데이터를 학습할 수 있다.The image emotion model learning unit 63 learns image data using an artificial intelligence algorithm. Accordingly, image data is classified according to emotion. The image sensitivity model learning unit 63 may learn image data using, for example, at least one artificial intelligence algorithm of VGG, ResNet, and Inception.

이미지 데이터는 이미지 감성 모델 학습부(63)로 전송되기 전 이미지 전처리부(62)를 거칠 수 있다. 이미지 전처리부(62)에서는 예를 들어, 동영상에서의 정지 이미지 추출, 이미지에서 얼굴 부분 추출 및 이미지의 밝기 조절 등의 작업을 수행할 수 있다.The image data may go through the image pre-processing unit 62 before being transmitted to the image sensitivity model learning unit 63 . The image pre-processing unit 62 may perform tasks such as extracting a still image from a video, extracting a face part from an image, and adjusting the brightness of an image.

이미지 감성 모델 저장부(64)에는 이미지 감성 모델 학습부(63)에서 도출된 이미지 감성 모델이 저장된다. 이미지 감성 분석부(20)는 이미지 감성 모델 저장부(64)에 저장된 이미지 감성 모델을 참조하여 사용자 얼굴 이미지의 감성이 어떤 감성의 이미지와 유사한지 확인함으로써 이미지의 감성을 분석할 수 있다.The image sensitivity model derived from the image sensitivity model learning unit 63 is stored in the image sensitivity model storage unit 64 . The image emotion analysis unit 20 may analyze the emotion of the image by referring to the image emotion model stored in the image emotion model storage unit 64 and confirming which emotion image of the user's face image is similar to.

음성 감성 모델부(70)에는 음성의 감성별 특징이 저장되어 음성 감성 분석부(30)에서의 분석 기준을 제공한다. 즉, 음성 감성 분석부(30)는 음성의 음향적 특성이 음성 감성 모델부(70)에서 어느 감성에 대응되는지 찾음으로써 음성 감성 결과를 도출할 수 있다.The voice emotion model unit 70 stores characteristics for each emotion of the voice and provides analysis criteria in the voice emotion analyzer 30 . That is, the voice emotion analysis unit 30 may derive a voice emotion result by finding which emotion the acoustic characteristics of the voice correspond to in the voice emotion model unit 70 .

음성 감성 모델부(70)는 도 3에 도시되어 있는 바와 같이, 음성 데이터부(71), 음성 특징 벡터 추출부(73), 음성 감성 모델 학습부(74) 및 음성 감성 모델 저장부(75)를 포함하여 이루어질 수 있다.As shown in FIG. 3, the voice emotion model unit 70 includes a voice data unit 71, a voice feature vector extractor 73, a voice emotion model learning unit 74, and a voice emotion model storage unit 75. It can be made including.

음성 데이터부(71)에는 감성이 라벨링된 다수의 음성 데이터가 저장된다. 음성 데이터는 드라마, 영화 또는 사용자가 녹음한 음성 파일 등으로부터 얻어질 수 있으며, 해당 음성 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.The voice data unit 71 stores a plurality of voice data labeled with emotions. The voice data may be obtained from a drama, movie, or a voice file recorded by a user, and includes information about what emotion the corresponding voice data is related to.

음성 특징 벡터 추출부(73)는 음성 데이터의 음성 특징 벡터를 추출한다. 음성 특징 벡터 추출부(73)에서 추출되는 음성 특징 벡터에는 피치, 에너지, 에너지의 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등이 있을 수 있다. 음성 특징 벡터 추출부(73)는 예를 들어, MFCC(Mel Frequency Cpstral Coeffiecient)를 통해 음성 특징 벡터를 추출할 수 있다.The speech feature vector extraction unit 73 extracts speech feature vectors of speech data. The voice feature vectors extracted by the voice feature vector extractor 73 may include pitch, energy, entropy of energy, zero crossing rate, spectrogram, log-mel-spectrogram, and frequency. The speech feature vector extractor 73 may extract speech feature vectors through MFCC (Mel Frequency Cpstral Coeffiecient), for example.

음성 데이터부(71)의 음성 데이터는 음성 전처리부(72)를 거친 후에 음성 특징 벡터 추출부(73)로 전송될 수 있다.The voice data of the voice data unit 71 may be transmitted to the voice feature vector extractor 73 after passing through the voice pre-processor 72 .

음성 전처리부(72)는 프리-엠퍼시스(pre-emphasis) 처리부, 프레이밍(framing) 처리부 및 해밍 윈도우(hamming window) 처리부를 구비할 수 있다. 프리-엠퍼시스 처리부에서는 프리-엠퍼시스 필터를 사용하여 음성 신호의 고역 주파수 성분을 강조하고, 프레이밍 처리부에서는 음성 신호를 일정한 간격으로 분할한다. 그리고 해밍 윈도우 처리부에서는 프레이밍 처리부에서 분할되어 형성된 음성 신호의 각 프레임에 해밍 윈도우 함수를 곱하여 각 프레임의 경계에서 불연속성을 최소화한다.The voice pre-processing unit 72 may include a pre-emphasis processing unit, a framing processing unit, and a hamming window processing unit. The pre-emphasis processor uses a pre-emphasis filter to emphasize high-frequency components of the audio signal, and the framing processor divides the audio signal into regular intervals. The Hamming window processing unit minimizes discontinuity at the boundary of each frame by multiplying each frame of the speech signal divided and formed in the framing processing unit by the Hamming window function.

음성 감성 모델 학습부(74)에서는 인공지능 알고리즘을 이용하여 음성 특징 벡터 추출부(73)에서 추출된 음성 특징 벡터를 학습한다. 이에 따라, 음성 특징 벡터들이 감성별로 분류된다. 음성 감성 모델 학습부(74)는 예를 들어, SVM(Support Vector Machine) 모델, 및 CNN(Convolution Neural Network)과 RNN(Recurrent Neural Network)의 결합 모델 중 적어도 어느 하나를 통해 음성 특징 벡터를 학습할 수 있다.The voice emotion model learning unit 74 learns the voice feature vector extracted by the voice feature vector extractor 73 using an artificial intelligence algorithm. Accordingly, voice feature vectors are classified according to emotion. The speech emotion model learning unit 74 may learn a speech feature vector through at least one of, for example, a support vector machine (SVM) model and a combination model of a convolution neural network (CNN) and a recurrent neural network (RNN). can

음성 감성 모델 저장부(75)에는 음성 감성 모델 학습부(74)에서 도출된 음성 감성 모델이 저장된다. 음성 감성 분석부(30)는 음성 감성 모델 저장부(75)에 저장된 음성 감성 모델을 참조하여 사용자 음성의 감성이 어떤 감성의 음성 특징 벡터와 유사한지 확인함으로써 사용자 음성의 감성을 분석할 수 있다.The voice emotion model derived from the voice emotion model learning unit 74 is stored in the voice emotion model storage unit 75 . The voice emotion analysis unit 30 may analyze the emotion of the user's voice by referring to the voice emotion model stored in the voice emotion model storage unit 75 and checking which emotion of the user's voice is similar to a voice feature vector.

텍스트 감성 모델부(80)에는 텍스트의 감성별 특징이 저장되어 텍스트 감성 분석부(40)에서의 분석 기준을 제공한다. 즉, 텍스트 감성 분석부(40)는 텍스트의 특성이 텍스트 감성 모델부(80)에서 어느 감성에 대응되는지 찾음으로써 텍스트 감성 결과를 도출할 수 있다.In the text emotion model unit 80, characteristics for each emotion of the text are stored to provide analysis criteria in the text emotion analyzer 40. That is, the text emotion analysis unit 40 may derive a text emotion result by finding which emotion the text characteristic corresponds to in the text emotion model unit 80 .

텍스트 감성 모델부(80)는 보다 구체적으로, 텍스트 데이터부(81), 텍스트 감성 모델 학습부(82) 및 텍스트 감성 모델 저장부(83)를 포함할 수 있다. 도 4에는 이러한 텍스트 감성 모델부(80)의 개략적인 구성도가 도시되어 있다.More specifically, the text sentiment model unit 80 may include a text data unit 81 , a text sentiment model learning unit 82 , and a text sentiment model storage unit 83 . 4 shows a schematic configuration diagram of the text emotion model unit 80 .

텍스트 데이터부(81)에는 감성이 라벨링된 텍스트 데이터가 저장된다. 이러한 텍스트 데이터에는 NRC 감성 사전, KNU 한국어 감성사전 등의 데이터가 포함될 수 있다. 예를 들어, 텍스트 데이터부(81)에서 어휘들은 5가지 감성에 따라 구분될 수 있다.The text data unit 81 stores text data labeled with emotions. Such text data may include data such as the NRC Sentimental Dictionary and the KNU Korean Sentimental Dictionary. For example, in the text data unit 81, vocabularies may be classified according to five emotions.

텍스트 감성 모델 학습부(82)에서는 인공지능 알고리즘을 통해 텍스트 데이터부(81)의 감성별 텍스트 데이터를 학습한다. 이에 따라, 텍스트의 특징들이 감성별로 분로된다. 텍스트 감성 모델 학습부(82)는 예를 들어, BERT 또는 KoBERT를 통해 텍스트를 학습할 수 있다.The text emotion model learning unit 82 learns text data for each emotion of the text data unit 81 through an artificial intelligence algorithm. Accordingly, the characteristics of the text are shunted by emotion. The text emotion model learning unit 82 may learn text through BERT or KoBERT, for example.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 앙상블 감성 모델부(90)를 더 구비할 수 있다. 도 5에는 이러한 앙상블 감성 모델부(90)에 관한 설명도가 도시되어 있다.The multimodal emotion analysis system 1 according to the present invention may further include an ensemble emotion model unit 90 . 5 shows an explanatory diagram of the ensemble emotion model unit 90.

앙상블 감성 모델부(90)는 감성별 조합 특징이 저장되어 앙상블 감성 분석부(50)에서의 분석 기준을 제공하는 것으로서, 이미지 감성 모델부(60)의 이미지 감성 모델, 음성 감성 모델부(70)의 음성 감성 모델 및 텍스트 감성 모델부(80)의 텍스트 감성 모델을 조합하여 만들어질 수 있다.The ensemble emotion modeling unit 90 stores the combination characteristics for each emotion and provides analysis criteria in the ensemble emotion analysis unit 50. The image emotion model of the image emotion model unit 60 and the voice emotion model unit 70 It can be created by combining the voice emotion model of and the text emotion model of the text emotion model unit 80.

이미지 감성 분석부(20)는 도 6에 도시되어 있는 바와 같이, 다수 개의 서브 이미지 감성 분석부(21)와 이미지 감성 특징 조합부(22)를 구비할 수 있다.As shown in FIG. 6 , the image emotion analyzer 20 may include a plurality of sub-image emotion analyzers 21 and an image emotion feature combiner 22 .

서브 이미지 감성 분석부(21) 각각은 서로 다른 이미지 분석 모델이 적용되어 사용자 얼굴 이미지를 분석한다. Each of the sub-image emotion analysis units 21 analyzes the user's face image by applying different image analysis models.

이미지 분석 모델로는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 2개가 사용될 수 있다. VGG는 3×3 필터를 사용하여 파라미터의 수는 줄일 수 있으면서도, 5×5 또는 7×7 필터를 사용하는 경우보다 우수한 성능을 발휘할 수 있다. ResNet은 스킵 컨넥션(skip connection) 부분을 추가하여, 기울기 소실(vanishing gradient) 문제를 해결할 수 있다. 그리고 Inception은 합성곱 신경망 사용시 어떠한 크기의 필터를 적용할지 또는 풀링(pooling)을 적용할지 선택하지 않고, 모두 적용하여 분석의 성능을 향상시킬 수 있다.As the image analysis model, for example, at least two of VGG, ResNet, and Inception may be used. In VGG, the number of parameters can be reduced by using a 3×3 filter, but it can exhibit superior performance compared to the case of using a 5×5 or 7×7 filter. ResNet can solve the vanishing gradient problem by adding a skip connection part. In addition, when using a convolutional neural network, Inception can improve analysis performance by applying all of them without selecting which size filter or pooling to apply.

이미지 감성 특징 조합부(22)는 서브 이미지 감성 분석부(21) 각각에서 산출된 서브 이미지 감성 특징을 조합한다.The image sensibility feature combining unit 22 combines the sub-image sensibility characteristics calculated in each sub-image sensibility analysis unit 21 .

이렇게 여러 서브 이미지 감성 특징이 조합되어 만들어진 이미지 감성 특징은 여러 이미지 분석 모델의 장점을 가질 수 있기 때문에 이미지 감성 분석의 정확성을 높일 수 있다.Since the image emotion feature created by combining several sub-image emotion features can have advantages of various image analysis models, the accuracy of image emotion analysis can be increased.

음성 감성 분석부(30)는 도 7에 도시되어 있는 바와 같이, 서브 음성 감성 분석부(31)와 음성 감성 특징 조합부(32)를 구비할 수 있다.As shown in FIG. 7 , the voice emotion analysis unit 30 may include a sub voice emotion analysis unit 31 and a voice emotion feature combination unit 32 .

서브 음성 감성 분석부(31) 각각은 서로 다른 음성 분석 모델이 적용되어 사용자 음성을 분석한다.Each of the sub voice emotion analysis units 31 analyzes the user's voice by applying different voice analysis models.

음성 분석 모델로는 예를 들어, SVM, 및 CNN과 RNN의 결합 모델이 사용될 수 있다. SVM 모델을 사용하는 경우, 사용자 음성에서 깊은 감성까지 분석하는 것이 가능하다. CNN과 RNN의 결합 모델을 사용하면 사용자 음성의 전처리 과정이 거의 필요하지 않다.As the voice analysis model, for example, SVM and a combined model of CNN and RNN may be used. In the case of using the SVM model, it is possible to analyze the user's voice to deep emotions. Using the combined model of CNN and RNN, almost no pre-processing of the user's voice is required.

음성 감성 특징 조합부(32)는 서브 음성 감성 분석부(31) 각각에서 산출된 서브 음성 감성 특징을 조합한다.The voice emotion feature combining unit 32 combines the sub voice emotion characteristics calculated in each of the sub voice emotion analysis units 31 .

이렇게 여러 서브 음성 감성 특징이 조합되어 만들어진 음성 감성 특징은 여러 음성 분석 모델의 장점을 가질 수 있기 때문에 음성 감성 분석의 정확성을 높일 수 있다.Since the voice emotion feature created by combining several sub voice emotion features can have advantages of several voice analysis models, the accuracy of voice emotion analysis can be increased.

텍스트 감성 분석부(40)는 도 8에 도시되어 있는 바와 같이, 서브 텍스트 감성 분석부(41)와 텍스트 감성 특징 조합부(42)를 구비할 수 있다.As shown in FIG. 8 , the text sentiment analysis unit 40 may include a sub-text sentiment analysis unit 41 and a text sentiment feature combination unit 42 .

서브 텍스트 감성 분석부(41) 각각은 서로 다른 텍스트 감성 분석 모델이 적용되어 텍스트의 감성을 분석한다.Each of the sub-text sentiment analysis units 41 analyzes the sentiment of the text by applying different text sentiment analysis models.

텍스트 감성 분석 모델로는 예를 들어, BERT, KoBERT가 사용될 수 있다. BERT는 언어에 대한 많은 정보를 담고 있기 때문에 텍스트 분석 결과가 정확하고, KoBERT는 BERT의 한국어 성능 한계를 극복하였기 때문에 특히 한국어로 이루어진 텍스트 분석의 결과가 정확하다.For example, BERT and KoBERT may be used as a text sentiment analysis model. Because BERT contains a lot of information about the language, the text analysis result is accurate, and KoBERT overcomes the Korean performance limitation of BERT, so the text analysis result made in Korean is especially accurate.

참고로, KoBERT는 엠베딩은 BERT를 기반으로 하고 분류는 CNN을 기반으로 한다.For reference, KoBERT is based on BERT for embedding and CNN for classification.

텍스트 감성 특징 조합부(42)는 서브 텍스트 감성 분석부(41) 각각에서 산출된 서브 텍스트 감성 특징을 조합한다.The text sentiment feature combining unit 42 combines the sub-text sentiment characteristics calculated in each of the sub-text sentiment analysis units 41 .

이렇게 여러 서브 텍스트 감성 특징이 조합되어 만들어진 텍스트 감성 특징은 여러 텍스트 분석 모델의 장점을 가질 수 있기 때문에 텍스트 감성 분석의 정확성을 높일 수 있다.Since the text sentiment features created by combining several sub-text sentiment features can have the advantages of various text analysis models, the accuracy of text sentiment analysis can be increased.

앙상블 감성 분석부(50)는 LSTM(Long-Short Term Memory)을 이용하여 조합 특징을 분석한다.The ensemble emotion analysis unit 50 analyzes the combination characteristics using long-short term memory (LSTM).

LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고 기억해야할 것들을 정할 수 있어, 긴 시퀀스의 입력을 처리하는 데 유용하다.LSTM is useful for processing long sequences of inputs because it can erase unnecessary memories and set things to remember by adding input gates, forget gates, and output gates to memory cells in the hidden layer.

따라서, 동영상에서 추출되어 여러 구간으로 이루어지는 사용자 얼굴 이미지, 사용자 음성 및 텍스트의 분석 성능을 높일 수 있다.Therefore, it is possible to improve the analysis performance of the user's face image, the user's voice, and the text extracted from the video and composed of several sections.

앙상블 감성 분석부(50)는 결과 확인부(51)와 조정부(52)를 구비할 수 있다. 도 9에는 이러한 앙상블 감성 분석부(50)에 관한 설명도가 도시되어 있다.The ensemble emotion analysis unit 50 may include a result confirmation unit 51 and an adjustment unit 52 . FIG. 9 shows an explanatory diagram of the ensemble emotion analysis unit 50 .

결과 확인부(51)는 조합 특징의 분석 결과가 예를 들어, 우세한 확률을 가지는 감성 결과가 도출되었는지의 여부를 확인한다. 그리고 우세한 확률을 가지는 감성 결과가 도출된 경우에는 그대로 최종 결과를 출력하고, 그렇지 않은 경우에는 조정부(52)가 동작하도록 한다.The result checking unit 51 checks whether the analysis result of the combination feature, for example, a sentiment result having a superior probability is derived. And, if the emotional result having a superior probability is derived, the final result is output as it is, and if not, the adjustment unit 52 operates.

조정부(52)는 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우에 사용자의 감성을 도출하는 역할을 한다. 예를 들어, 조정부(52)는 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 원 데이터의 분석 결과에 대한 이미지, 음성, 텍스트 각각의 영향도를 분석하고 영향도에 따라 각 감성 분석 모델에 상대적인 가중치를 부과할 수 있다. 그리고 가중치를 적용하였을 때 가장 높은 확률로 도출된 감성을 감성 분석의 최종 결과로서 출력할 수 있다. 의사결정 나무 알고리즘의 분리 기준에는 예를 들어, 음성 주파수의 크기, 음절의 길이 등이 포함될 수 있다.The adjustment unit 52 serves to derive the user's emotion when the emotion result having a superior probability is not derived. For example, the adjustment unit 52 analyzes the raw data of the user's video through a decision tree algorithm, then analyzes the degree of influence of each image, voice, and text on the analysis result of the raw data, and each emotion according to the degree of influence. Relative weights can be assigned to the analysis model. In addition, when the weight is applied, the emotion derived with the highest probability can be output as the final result of the emotion analysis. Separation criteria of the decision tree algorithm may include, for example, the size of voice frequencies and the length of syllables.

이하에서는 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하도록 한다. 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하면서, 멀티 모달 분석 시스템(1)의 설명시 언급한 부분에 대해서는 자세한 설명을 생략할 수 있다.Hereinafter, a multimodal emotion analysis method according to the present invention will be described. While explaining the multimodal emotion analysis method according to the present invention, detailed descriptions of the parts mentioned in the description of the multimodal analysis system 1 may be omitted.

도 10에는 본 발명에 의한 멀티모달 감성 분석 방법의 순서도가 도시되어 있다.10 is a flowchart of a multimodal emotion analysis method according to the present invention.

본 발명에 의한 멀티모달 감성 분석 방법은 동영상 입력단계(S10), 감성 분석단계(S20) 및 앙상블 감성 분석단계(S30)를 포함한다.The multimodal emotion analysis method according to the present invention includes a video input step (S10), a emotion analysis step (S20), and an ensemble emotion analysis step (S30).

동영상 입력단계(S10)에서는 사용자의 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 별도로 추출될 수 있다.In the video input step (S10), a user's video is input. A user's face image, user's voice, and text may be separately extracted from the user's video.

감성 분석단계(S20)에서는 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석한다. 사용자 얼굴 이미지에서는 예를 들어 눈의 깜빡임, 입 모양 및 얼굴 길이 등을 감지함으로써 감성을 분석할 수 있고, 사용자 음성에서는 예를 들어 음성의 피치, 에너지, 에너지 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등의 음향적 특성을 통해 감성을 분석할 수 있다. 그리고 텍스트는 의미를 파악함으로써 감성 분석이 진행될 수 있다.In the emotion analysis step (S20), the emotion of each of the user face image, user voice and text extracted from the user video is analyzed. In the user's face image, for example, emotion can be analyzed by detecting eye blinking, mouth shape and face length, etc., and in the user's voice, for example, voice pitch, energy, energy entropy, zero crossing rate, spectrogram, log -Sentiment can be analyzed through acoustic characteristics such as Mel-Spectrogram and frequency. In addition, sentiment analysis can be performed by grasping the meaning of the text.

앙상블 감성 분석단계(S30)에서는, 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석함으로써 최종적인 감성 분석의 결과를 도출한다.In the ensemble emotion analysis step ( S30 ), a final emotion analysis result is derived by analyzing a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics calculated in the emotion analysis step.

조합 특징에는 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징이 모두 포함되어 있기 때문에, 이를 분석하면 보다 정확한 감성 분석의 결과를 얻을 수 있다.Since the combined features include all of the image sensibility features, voice sensibility features, and text sensibility features, a more accurate sentiment analysis result can be obtained by analyzing them.

감성 분석단계(S20)는 서브 감성 분석 단계와 감성 특징 조합단계(S22)를 포함할 수 있다.The emotion analysis step (S20) may include a sub emotion analysis step and an emotion feature combination step (S22).

서브 감성 분석단계(S21)에서는 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 텍스트를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출한다.In the sub-sentiment analysis step (S21), a number of sub-image emotion characteristics are calculated by analyzing the user's face image through a number of different analysis models, and a number of sub-voice emotions are analyzed by analyzing the user's voice through a number of different analysis models. The feature is calculated, and the text is analyzed through a number of different analysis models to calculate a number of sub-text emotional characteristics.

그리고 감성 특징 조합단계(S22)에서는, 서브 감성 분석 단계에서 산출된 서브 이미지 감성 특징, 서브 음성 감성 특징 및 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합한다.In the emotion feature combining step S22, the sub image emotion characteristics, sub voice emotion features, and text emotion features calculated in the sub emotion analysis step are combined for each user face image, user voice, and text.

각각의 서브 감성 특징이 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합되어 만들어진 감성 특징은 여러 분석 모델의 장점을 가질 수 있기 때문에 감성 분석의 정확성을 높여줄 수 있다.Emotional features created by combining each sub-emotional feature for each user's face image, user's voice, and text can have advantages of various analysis models, so that the accuracy of emotion analysis can be increased.

본 발명에 의한 멀티모달 감성 분석 시스템(1) 및 방법은 하나 또는 다수의 하드웨어를 통해 구현되거나, 하나 또는 다수의 소프트웨어를 통해 구현될 수 있다. 또는 하드웨어와 소프트웨어를 통해 구현될 수도 있다.The multimodal emotion analysis system 1 and method according to the present invention may be implemented through one or more hardware or one or more software. Alternatively, it may be implemented through hardware and software.

본 발명의 권리범위는 상술한 실시예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.The scope of the present invention is not limited to the above-described embodiments, but may be implemented in various forms of embodiments within the scope of the appended claims. Anyone with ordinary knowledge in the art to which the invention pertains without departing from the subject matter of the invention claimed in the claims is considered to be within the scope of the claims of the present invention to various extents that can be modified.

1 : 멀티모달 감성 분석 시스템
10 : 동영상 입력부 21 : 서브 이미지 감성 분석부
22 : 이미지 감성 특징 조합부 30 : 음성 감성 분석부
31 : 서브 음성 감성 분석부 32 : 음성 감성 특징 조합부
40 : 텍스트 감성 분석부 41 : 서브 텍스트 감성 분석부
42 : 텍스트 감성 특징 조합부 50 : 앙상블 감성 분석부
60 : 이미지 감성 모델부 70 : 음성 감성 모델부
80 : 텍스트 감성 모델부 90 : 앙상블 감성 모델부
1: Multimodal Sentiment Analysis System
10: video input unit 21: sub image emotion analysis unit
22: image emotion feature combination unit 30: voice emotion analysis unit
31: sub voice emotion analysis unit 32: voice emotion feature combination unit
40: text sentiment analysis unit 41: subtext sentiment analysis unit
42: text emotion feature combination unit 50: ensemble emotion analysis unit
60: image emotion model unit 70: voice emotion model unit
80: text emotion model unit 90: ensemble emotion model unit

Claims (9)

사용자 동영상을 입력받는 동영상 입력부;
상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부;
상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부;
상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및
상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하며,
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고,
상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며,
상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비하고,
상기 앙상블 감성 분석부는,
조합 특징의 분석 결과에서 우세한 확률을 가지는 감성 결과가 도출되었는지 확인하여 우세한 확률을 가지는 감성 결과가 도출된 경우 그대로 감성 결과를 최종 결과로 출력하는 결과 확인부, 및
상기 결과 확인부에서 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우 최종 결과를 출력하는 조정부를 구비하며,
상기 조정부는,
상기 동영상 입력부에서 입력받은 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 사용자 동영상의 원 데이터의 분석 결과에 대한 이미지, 음성 및 텍스트 각각의 영향도를 분석하고 영향도에 따라 이미지, 음성 및 텍스트에 가중치를 부여하며, 가중치 적용시 가장 높은 확률로 도출된 감성 결과를 최종 결과로 출력하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
a video input unit that receives a user video;
an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video;
a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video;
a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and
an ensemble emotion analysis unit that analyzes a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics calculated by the text emotion analysis unit; contains,
The image emotion analyzer includes a plurality of sub-image emotion analyzers to which different image analysis models are applied and an image emotion feature combination unit for combining sub-image emotion features calculated in each of the sub-image emotion analyzers;
The voice emotion analysis unit includes a plurality of sub voice emotion analysis units to which different voice analysis models are applied and a voice emotion feature combining unit that combines the sub voice emotion characteristics calculated by each of the sub voice emotion analysis units;
The text sentiment analysis unit includes a plurality of sub-text sentiment analysis units to which different text analysis models are applied and a text sentiment feature combining unit combining sub-text sentiment characteristics calculated in each of the sub-text sentiment analysis units;
The ensemble emotion analysis unit,
A result confirmation unit that checks whether a sentiment result having a superior probability has been derived from the analysis result of the combination feature, and outputs the sentiment result as a final result as it is when a sentiment result having a superior probability is derived; and
And an adjustment unit that outputs a final result when an emotional result having a superior probability is not derived from the result confirmation unit,
The adjustment unit,
After analyzing the raw data of the user video input from the video input unit through a decision tree algorithm, the degree of influence of each image, voice, and text on the analysis result of the raw data of the user video is analyzed, and according to the degree of influence, the image, A multimodal emotion analysis system, characterized in that it assigns weights to voice and text and outputs the emotion result derived with the highest probability when the weight is applied as the final result.
삭제delete 제1항에 있어서,
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The image analysis model is a multimodal emotion analysis system, characterized in that VGG, ResNet, and Inception.
제1항에 있어서,
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The speech analysis model is a multimodal emotion analysis system, characterized in that SVM, and a combined model of CNN and RNN.
제1항에 있어서,
이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부,
음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부 및
텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
An image emotion model unit for storing characteristics of each emotion of the image and providing an analysis criterion in the image emotion analyzer;
A voice emotion model unit for storing characteristics of each emotion of voice and providing analysis criteria in the voice emotion analyzer; and
The multimodal emotion analysis system further comprises a text emotion model unit for storing characteristics of each emotion of the text and providing an analysis criterion in the text emotion analyzer.
제1항에 있어서,
감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The multimodal emotion analysis system further comprising an ensemble emotion model unit storing combination characteristics for each emotion and providing an analysis criterion in the ensemble emotion analyzer.
제1항에 있어서,
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The ensemble emotion analysis unit is a multimodal emotion analysis system, characterized in that for analyzing combination characteristics using LSTM.
삭제delete 삭제delete
KR1020200148920A 2020-11-09 2020-11-09 System and method for analyzing multimodal emotion KR102564570B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200148920A KR102564570B1 (en) 2020-11-09 2020-11-09 System and method for analyzing multimodal emotion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200148920A KR102564570B1 (en) 2020-11-09 2020-11-09 System and method for analyzing multimodal emotion

Publications (2)

Publication Number Publication Date
KR20220063816A KR20220063816A (en) 2022-05-18
KR102564570B1 true KR102564570B1 (en) 2023-08-07

Family

ID=81800581

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200148920A KR102564570B1 (en) 2020-11-09 2020-11-09 System and method for analyzing multimodal emotion

Country Status (1)

Country Link
KR (1) KR102564570B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282824A (en) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc Emotion estimation system and program
JP2019133447A (en) 2018-01-31 2019-08-08 大日本印刷株式会社 Emotion estimation device, computer program, and emotion estimation method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607373B1 (en) 2016-11-23 2023-12-05 한국전자통신연구원 Apparatus and method for recognizing emotion in speech
KR102133728B1 (en) * 2017-11-24 2020-07-21 주식회사 제네시스랩 Device, method and readable media for multimodal recognizing emotion based on artificial intelligence
KR20190140801A (en) * 2018-05-23 2019-12-20 한국과학기술원 A multimodal system for simultaneous emotion, age and gender recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282824A (en) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc Emotion estimation system and program
JP2019133447A (en) 2018-01-31 2019-08-08 大日本印刷株式会社 Emotion estimation device, computer program, and emotion estimation method

Also Published As

Publication number Publication date
KR20220063816A (en) 2022-05-18

Similar Documents

Publication Publication Date Title
CN110728997B (en) Multi-modal depression detection system based on context awareness
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN114694076A (en) Multi-modal emotion analysis method based on multi-task learning and stacked cross-modal fusion
CN111564164A (en) Multi-mode emotion recognition method and device
CN112329438B (en) Automatic lie detection method and system based on domain countermeasure training
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN112017633B (en) Speech recognition method, device, storage medium and electronic equipment
CN115376559A (en) Emotion recognition method, device and equipment based on audio and video
CN114898779A (en) Multi-mode fused speech emotion recognition method and system
CN114661951A (en) Video processing method and device, computer equipment and storage medium
Shrivastava et al. Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis
CN116758451A (en) Audio-visual emotion recognition method and system based on multi-scale and global cross attention
Nanduri et al. A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data
KR102429365B1 (en) System and method for analyzing emotion of speech
KR102564570B1 (en) System and method for analyzing multimodal emotion
CN117312548A (en) Multi-source heterogeneous disaster situation data fusion understanding method
KR20230120790A (en) Speech Recognition Healthcare Service Using Variable Language Model
CN114170997A (en) Pronunciation skill detection method, pronunciation skill detection device, storage medium and electronic equipment
CN114492579A (en) Emotion recognition method, camera device, emotion recognition device and storage device
Jothimani et al. A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition
KR102480722B1 (en) Apparatus for recognizing emotion aware in edge computer environment and method thereof
Cano Montes et al. Audio-visual emotion recognition system for variable length spatio-temporal samples using deep transfer-learning
CN116935889B (en) Audio category determining method and device, electronic equipment and storage medium
Chowdhury et al. Text Extraction through Video Lip Reading Using Deep Learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant