KR102564570B1 - System and method for analyzing multimodal emotion - Google Patents
System and method for analyzing multimodal emotion Download PDFInfo
- Publication number
- KR102564570B1 KR102564570B1 KR1020200148920A KR20200148920A KR102564570B1 KR 102564570 B1 KR102564570 B1 KR 102564570B1 KR 1020200148920 A KR1020200148920 A KR 1020200148920A KR 20200148920 A KR20200148920 A KR 20200148920A KR 102564570 B1 KR102564570 B1 KR 102564570B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- analysis
- voice
- unit
- image
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 320
- 238000000034 method Methods 0.000 title abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 170
- 238000010191 image analysis Methods 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004397 blinking Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 본 발명에 따른 멀티모달 감성 분석 시스템은 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징 및 상기 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 것을 특징으로 한다.
이에 따라, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능하다.The present invention relates to a multimodal emotion analysis system and method, and the multimodal emotion analysis system according to the present invention includes a video input unit for receiving a user video; an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video; a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video; a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and an ensemble emotion analysis unit that analyzes a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics.
Accordingly, it is possible to accurately analyze emotions in consideration of emotions of face images, voices, and texts.
Description
본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 보다 상세하게는 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법에 관한 것이다.The present invention relates to a multimodal emotion analysis system and method, and more particularly, to a multimodal emotion analysis system and method capable of accurately analyzing emotions in consideration of emotions of facial images, voices, and texts.
장수(長壽)는 인간의 소망이기도 하지만, 질병, 빈곤, 고독 등은 장수의 일면이기도 하다.Longevity is a human wish, but disease, poverty, and loneliness are also aspects of longevity.
이러한 문제의 해결을 위해서는 문제를 파악하는 과정이 우선되어야 하는데, 질병, 빈곤은 정량적인 방식을 통해 비교적 쉽게 파악이 가능하였지만 고독과 같이 감정과 관련된 문제는 정량적인 방식으로 파악하는 것이 쉽지 않았다.In order to solve these problems, the process of identifying the problem should be prioritized. Disease and poverty could be identified relatively easily through a quantitative method, but it was not easy to identify problems related to emotions such as loneliness in a quantitative way.
그러나 최근에 들어서는 인공지능을 통해 인간의 감정·감성을 파악하는 방법이 많이 개발되고 있다.However, in recent years, many methods have been developed to understand human emotions and emotions through artificial intelligence.
인간은 표정, 행동, 말 등을 통해 감정을 표현하며, 따라서 인공지능을 통해 인간의 감정을 파악할 때에는 표정, 행동, 말 등을 분석한다.Humans express emotions through facial expressions, actions, and words, and therefore, when artificial intelligence identifies human emotions, facial expressions, actions, and words are analyzed.
그런데 사람은 표정, 행동, 말 각각에서 명시적으로는 서로 상반된 감정 등을 표현하기도 하므로, 어느 하나의 감정 표현 수단만을 분석하면 감정 파악의 정확성이 떨어질 수 있다.However, since a person explicitly expresses conflicting emotions in each of facial expressions, actions, and words, the accuracy of emotion identification may be reduced if only one means of expressing emotions is analyzed.
따라서, 본 발명의 목적은 이와 같은 종래의 문제점을 해결하기 위한 것으로서, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법을 제공함에 있다.Accordingly, an object of the present invention is to solve such conventional problems, and to provide a multimodal emotion analysis system and method capable of accurately analyzing emotions in consideration of emotions of face images, voices, and texts.
본 발명이 해결하고자 하는 과제는 위에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problem to be solved by the present invention is not limited to the above-mentioned problem, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.
상기 목적은, 본 발명에 따라, 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 멀티모달 감성 분석 시스템에 의해 달성된다.The above object, according to the present invention, a video input unit for receiving a user video input; an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video; a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video; a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and an ensemble emotion analysis unit analyzing a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics calculated by the text emotion analysis unit. It is achieved by a multimodal emotion analysis system comprising a.
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고, 상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며, 상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비할 수 있다.The image emotion analysis unit includes a plurality of sub-image emotion analysis units to which different image analysis models are applied and an image emotion feature combining unit combining sub-image emotion characteristics calculated in each of the sub-image emotion analysis units, and the voice emotion analysis unit The unit includes a plurality of sub-voice emotion analysis units to which different voice analysis models are applied and a voice emotion feature combining unit for combining the sub-voice emotion characteristics calculated in each of the sub-voice emotion analysis units. A plurality of sub-text sentiment analysis units to which the text analysis model is applied and a text sentiment feature combining unit combining the sub-text sentiment characteristics calculated by each of the sub-text sentiment analysis units may be provided.
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception일 수 있다.The image analysis model may be VGG, ResNet, and Inception.
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델일 수 있다.The voice analysis model may be an SVM or a combination model of CNN and RNN.
본 발명에 의한 멀티모달 감성 분석 시스템은, 이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부, 음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부, 및 텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비할 수 있다.In the multimodal emotion analysis system according to the present invention, the image emotion modeling unit stores the characteristics of each emotion of the image and provides the analysis standard in the image emotion analysis unit, and the voice emotion analysis unit stores the characteristics of each emotion of the voice. It may further include a voice emotion model unit providing analysis criteria of the text emotion model unit and a text emotion model unit storing characteristics for each emotion of the text and providing analysis criteria in the text emotion analysis unit.
본 발명에 의한 멀티모달 감성 분석 시스템은, 감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비할 수 있다.The multimodal emotion analysis system according to the present invention may further include an ensemble emotion model unit for storing combination characteristics for each emotion and providing analysis criteria in the ensemble emotion analyzer.
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석할 수 있다.The ensemble sentiment analyzer may analyze combination characteristics using LSTM.
본 발명의 또 다른 실시예에 의하면, 사용자 동영상을 입력받는 동영상 입력단계; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석하는 감성 분석단계; 및 상기 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석단계;를 포함하는 멀티모달 감성 분석 방법이 제공된다.According to another embodiment of the present invention, the video input step of receiving a user video input; Sentiment analysis step of analyzing each emotion of the user face image, user voice and text extracted from the user video; and an ensemble emotion analysis step of analyzing a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics calculated in the emotion analysis step.
상기 감성 분석단계는, 상기 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 상기 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 상기 텍스트 각각을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출하는 서브 감성 분석단계; 및 상기 서브 감성 분석단계에서 산출된 상기 서브 이미지 감성 특징, 상기 서브 음성 감성 특징 및 상기 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합하는 감성 특징 조합단계;를 포함할 수 있다.In the emotion analysis step, the user's face image is analyzed through a plurality of different analysis models to calculate a plurality of sub-image emotion characteristics, and the user's voice is analyzed through a plurality of different analysis models to obtain a plurality of sub-voice emotions. a sub-sentiment analysis step of calculating characteristics and calculating a plurality of sub-text sentiment characteristics by analyzing each of the texts through a plurality of different analysis models; and an emotion feature combining step of combining the sub image emotion feature, the sub voice emotion feature, and the text emotion feature calculated in the sub emotion analysis step for each user face image, user voice, and text.
본 발명에 의한 멀티모달 감성 분석 시스템에 의하면, 사용자의 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 사용자의 감성 상태를 정확하게 파악하는 것이 가능하다.According to the multimodal emotion analysis system according to the present invention, it is possible to accurately grasp the user's emotional state by considering the user's face, voice, and text together in the user's video.
그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석의 결과의 정확성을 보다 높여줄 수 있다.In addition, since a combination feature combining image emotion characteristics, voice emotion characteristics, and text emotion characteristics is analyzed, the accuracy of the result of emotion analysis can be further increased.
사용자 얼굴 이미지, 사용자 음성 및 텍스트의 감성 각각을 서로 다른 다수의 분석 모델을 통해 분석한 후 산출된 서브 감성 특징들을 조합하여 분석함으로써, 이미지 감성, 음성 감성 및 텍스트 각각의 감성 분석 결과를 정확하게 할 수 있다.After analyzing each of the emotions of the user's face image, voice, and text through a number of different analysis models, combining and analyzing the calculated sub-emotional features, it is possible to accurately analyze the emotion analysis results of each image emotion, voice emotion, and text. there is.
도 1은 본 발명에 의한 멀티모달 감성 분석 시스템의 개략적인 구성도,
도 2는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 모델부에 관한 설명도,
도 3은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 모델부에 관한 설명도,
도 4는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 모델부에 관한 설명도,
도 5는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 모델부에 관한 설명도,
도 6은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 분석부에 관한 설명도,
도 7은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 분석부에 관한 설명도,
도 8은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 분석부에 관한 설명도,
도 9는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 분석부에 관한 설명도,
도 10은 본 발명에 의한 멀티모달 감성 분석 방법의 순서도이다.1 is a schematic configuration diagram of a multimodal emotion analysis system according to the present invention;
2 is an explanatory diagram of an image emotion model unit constituting a multimodal emotion analysis system according to the present invention;
3 is an explanatory diagram of a voice emotion model unit constituting a multimodal emotion analysis system according to the present invention;
4 is an explanatory diagram of a text emotion model unit constituting a multimodal emotion analysis system according to the present invention;
5 is an explanatory diagram of an ensemble emotion model unit constituting a multimodal emotion analysis system according to the present invention;
6 is an explanatory diagram of an image emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
7 is an explanatory diagram of a voice emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
8 is an explanatory diagram of a text sentiment analysis unit constituting a multimodal sentiment analysis system according to the present invention;
9 is an explanatory diagram of an ensemble emotion analysis unit constituting a multimodal emotion analysis system according to the present invention;
10 is a flowchart of a multimodal emotion analysis method according to the present invention.
이하에서는 본 발명의 구체적인 실시예에 대하여 도면을 참고하여 자세하게 설명하도록 한다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings.
도 1에는 본 발명에 의한 멀티모달 감성 분석 시스템(1)의 개략적인 구성도가 도시되어 있다.1 shows a schematic configuration diagram of a multimodal
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 동영상 입력부(10), 이미지 감성 분석부(20), 음성 감성 분석부(30), 텍스트 감성 분석부(40) 및 앙상블 감성 분석부(50)를 포함하여 이루어진다.The multimodal
동영상 입력부(10)에서는 사용자의 휴대폰이나 컴퓨터 등에서 사용자의 얼굴 이미지와 음성이 포함된 사용자 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 추출된다. 텍스트는 사용자 음성에 STT(Speech to text) 알고리즘을 적용하여 추출할 수 있다.The
이미지 감성 분석부(20)에서는 사용자 얼굴 이미지의 감성을 분석한다. 이미지 감성 분석부(20)에서는 예를 들어, 눈의 깜빡임, 입 모양 및 얼굴 길이 등의 특징을 통해 사용자 얼굴 이미지의 감성을 분석할 수 있다.The
음성 감성 분석부(30)에서는 사용자 음성의 감성을 분석한다. 음성 감성 분석부(30)에서는 예를 들어, 사용자 음성의 피치, 에너지, 에너지의 엔트로피(entropy of energy), 제로 크로싱 율(zero crossing rate), 스펙트로그램(spectrogram), 로그-멜-스펙트로그램(log-mel-spectrogram) 및 주파수 등의 음향적 특성을 통해 사용자 음성의 감성을 분석할 수 있다.The voice
텍스트 감성 분석부(40)에서는 텍스트의 의미적 특징을 통해 사용자 텍스트의 감성을 분석한다.The text
앙상블 감성 분석부(50)에서는 이미지 감성 분석부(20)에서 산출된 이미지 감성 특징, 음성 감성 분석부(30)에서 산출된 음성 감성 특징, 및 텍스트 감성 분석부(40)에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석한다.In the
조합 특징은 예를 들어, 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징에서 산출된 감성의 확률을 감성별로 평균하는 방법으로 분석될 수도 있고, 각 감성 특징의 감성 결과들 중 과반을 넘은 감성 결과를 산출하는 방법 등으로 분석될 수도 있다.The combination feature may be analyzed, for example, by averaging the probability of emotion calculated from the image emotion feature, the voice emotion feature, and the text emotion feature for each emotion. It can also be analyzed by calculation method, etc.
이러한 본 발명에 의한 멀티모달 감성 분석 시스템(1)에 의하면, 사용자 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 감성 상태를 정확하게 파악하는 것이 가능하다.According to the multimodal
그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석 결과의 정확성을 보다 높여줄 수 있다.In addition, since a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics is analyzed, the accuracy of the emotion analysis result can be further improved.
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 이미지 감성 모델부(60), 음성 감성 모델부(70) 및 텍스트 감성 모델부(80)를 포함할 수 있다.The multimodal
이미지 감성 모델부(60)는 이미지의 감성별 특징이 저장되어 이미지 감성 분석부(20)에서의 분석 기준을 제공할 수 있다. 즉, 이미지 감성 분석부(20)는 이미지의 특징이 이미지 감성 모델부(60)에서 어느 감성에 대응되는지 찾음으로써 이미지 감성 결과를 도출할 수 있다.The image
도 2에 도시되어 있는 바와 같이, 이미지 감성 모델부(60)는 이미지 데이터부(61), 이미지 감성 모델 학습부(63) 및 이미지 감성 모델 저장부(64)를 포함할 수 있다.As shown in FIG. 2 , the image
이미지 데이터부(61)에는 감성이 라벨링된 다수의 이미지가 저장된다. 이미지 데이터는 드라마, 영화, 사용자가 촬영한 정지 영상 또는 동영상 파일로부터 얻어질 수 있으며, 해당 이미지 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.The
이미지 감성 모델 학습부(63)는 인공지능 알고리즘을 이용하여 이미지 데이터를 학습한다. 이에 따라, 이미지 데이터들이 감성별로 분류된다. 이미지 감성 모델 학습부(63)에서는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 어느 하나의 인공지능 알고리즘을 이용하여 이미지 데이터를 학습할 수 있다.The image emotion
이미지 데이터는 이미지 감성 모델 학습부(63)로 전송되기 전 이미지 전처리부(62)를 거칠 수 있다. 이미지 전처리부(62)에서는 예를 들어, 동영상에서의 정지 이미지 추출, 이미지에서 얼굴 부분 추출 및 이미지의 밝기 조절 등의 작업을 수행할 수 있다.The image data may go through the image pre-processing
이미지 감성 모델 저장부(64)에는 이미지 감성 모델 학습부(63)에서 도출된 이미지 감성 모델이 저장된다. 이미지 감성 분석부(20)는 이미지 감성 모델 저장부(64)에 저장된 이미지 감성 모델을 참조하여 사용자 얼굴 이미지의 감성이 어떤 감성의 이미지와 유사한지 확인함으로써 이미지의 감성을 분석할 수 있다.The image sensitivity model derived from the image sensitivity
음성 감성 모델부(70)에는 음성의 감성별 특징이 저장되어 음성 감성 분석부(30)에서의 분석 기준을 제공한다. 즉, 음성 감성 분석부(30)는 음성의 음향적 특성이 음성 감성 모델부(70)에서 어느 감성에 대응되는지 찾음으로써 음성 감성 결과를 도출할 수 있다.The voice
음성 감성 모델부(70)는 도 3에 도시되어 있는 바와 같이, 음성 데이터부(71), 음성 특징 벡터 추출부(73), 음성 감성 모델 학습부(74) 및 음성 감성 모델 저장부(75)를 포함하여 이루어질 수 있다.As shown in FIG. 3, the voice
음성 데이터부(71)에는 감성이 라벨링된 다수의 음성 데이터가 저장된다. 음성 데이터는 드라마, 영화 또는 사용자가 녹음한 음성 파일 등으로부터 얻어질 수 있으며, 해당 음성 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.The
음성 특징 벡터 추출부(73)는 음성 데이터의 음성 특징 벡터를 추출한다. 음성 특징 벡터 추출부(73)에서 추출되는 음성 특징 벡터에는 피치, 에너지, 에너지의 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등이 있을 수 있다. 음성 특징 벡터 추출부(73)는 예를 들어, MFCC(Mel Frequency Cpstral Coeffiecient)를 통해 음성 특징 벡터를 추출할 수 있다.The speech feature
음성 데이터부(71)의 음성 데이터는 음성 전처리부(72)를 거친 후에 음성 특징 벡터 추출부(73)로 전송될 수 있다.The voice data of the
음성 전처리부(72)는 프리-엠퍼시스(pre-emphasis) 처리부, 프레이밍(framing) 처리부 및 해밍 윈도우(hamming window) 처리부를 구비할 수 있다. 프리-엠퍼시스 처리부에서는 프리-엠퍼시스 필터를 사용하여 음성 신호의 고역 주파수 성분을 강조하고, 프레이밍 처리부에서는 음성 신호를 일정한 간격으로 분할한다. 그리고 해밍 윈도우 처리부에서는 프레이밍 처리부에서 분할되어 형성된 음성 신호의 각 프레임에 해밍 윈도우 함수를 곱하여 각 프레임의 경계에서 불연속성을 최소화한다.The
음성 감성 모델 학습부(74)에서는 인공지능 알고리즘을 이용하여 음성 특징 벡터 추출부(73)에서 추출된 음성 특징 벡터를 학습한다. 이에 따라, 음성 특징 벡터들이 감성별로 분류된다. 음성 감성 모델 학습부(74)는 예를 들어, SVM(Support Vector Machine) 모델, 및 CNN(Convolution Neural Network)과 RNN(Recurrent Neural Network)의 결합 모델 중 적어도 어느 하나를 통해 음성 특징 벡터를 학습할 수 있다.The voice emotion
음성 감성 모델 저장부(75)에는 음성 감성 모델 학습부(74)에서 도출된 음성 감성 모델이 저장된다. 음성 감성 분석부(30)는 음성 감성 모델 저장부(75)에 저장된 음성 감성 모델을 참조하여 사용자 음성의 감성이 어떤 감성의 음성 특징 벡터와 유사한지 확인함으로써 사용자 음성의 감성을 분석할 수 있다.The voice emotion model derived from the voice emotion
텍스트 감성 모델부(80)에는 텍스트의 감성별 특징이 저장되어 텍스트 감성 분석부(40)에서의 분석 기준을 제공한다. 즉, 텍스트 감성 분석부(40)는 텍스트의 특성이 텍스트 감성 모델부(80)에서 어느 감성에 대응되는지 찾음으로써 텍스트 감성 결과를 도출할 수 있다.In the text
텍스트 감성 모델부(80)는 보다 구체적으로, 텍스트 데이터부(81), 텍스트 감성 모델 학습부(82) 및 텍스트 감성 모델 저장부(83)를 포함할 수 있다. 도 4에는 이러한 텍스트 감성 모델부(80)의 개략적인 구성도가 도시되어 있다.More specifically, the text
텍스트 데이터부(81)에는 감성이 라벨링된 텍스트 데이터가 저장된다. 이러한 텍스트 데이터에는 NRC 감성 사전, KNU 한국어 감성사전 등의 데이터가 포함될 수 있다. 예를 들어, 텍스트 데이터부(81)에서 어휘들은 5가지 감성에 따라 구분될 수 있다.The
텍스트 감성 모델 학습부(82)에서는 인공지능 알고리즘을 통해 텍스트 데이터부(81)의 감성별 텍스트 데이터를 학습한다. 이에 따라, 텍스트의 특징들이 감성별로 분로된다. 텍스트 감성 모델 학습부(82)는 예를 들어, BERT 또는 KoBERT를 통해 텍스트를 학습할 수 있다.The text emotion
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 앙상블 감성 모델부(90)를 더 구비할 수 있다. 도 5에는 이러한 앙상블 감성 모델부(90)에 관한 설명도가 도시되어 있다.The multimodal
앙상블 감성 모델부(90)는 감성별 조합 특징이 저장되어 앙상블 감성 분석부(50)에서의 분석 기준을 제공하는 것으로서, 이미지 감성 모델부(60)의 이미지 감성 모델, 음성 감성 모델부(70)의 음성 감성 모델 및 텍스트 감성 모델부(80)의 텍스트 감성 모델을 조합하여 만들어질 수 있다.The ensemble
이미지 감성 분석부(20)는 도 6에 도시되어 있는 바와 같이, 다수 개의 서브 이미지 감성 분석부(21)와 이미지 감성 특징 조합부(22)를 구비할 수 있다.As shown in FIG. 6 , the
서브 이미지 감성 분석부(21) 각각은 서로 다른 이미지 분석 모델이 적용되어 사용자 얼굴 이미지를 분석한다. Each of the sub-image
이미지 분석 모델로는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 2개가 사용될 수 있다. VGG는 3×3 필터를 사용하여 파라미터의 수는 줄일 수 있으면서도, 5×5 또는 7×7 필터를 사용하는 경우보다 우수한 성능을 발휘할 수 있다. ResNet은 스킵 컨넥션(skip connection) 부분을 추가하여, 기울기 소실(vanishing gradient) 문제를 해결할 수 있다. 그리고 Inception은 합성곱 신경망 사용시 어떠한 크기의 필터를 적용할지 또는 풀링(pooling)을 적용할지 선택하지 않고, 모두 적용하여 분석의 성능을 향상시킬 수 있다.As the image analysis model, for example, at least two of VGG, ResNet, and Inception may be used. In VGG, the number of parameters can be reduced by using a 3×3 filter, but it can exhibit superior performance compared to the case of using a 5×5 or 7×7 filter. ResNet can solve the vanishing gradient problem by adding a skip connection part. In addition, when using a convolutional neural network, Inception can improve analysis performance by applying all of them without selecting which size filter or pooling to apply.
이미지 감성 특징 조합부(22)는 서브 이미지 감성 분석부(21) 각각에서 산출된 서브 이미지 감성 특징을 조합한다.The image sensibility
이렇게 여러 서브 이미지 감성 특징이 조합되어 만들어진 이미지 감성 특징은 여러 이미지 분석 모델의 장점을 가질 수 있기 때문에 이미지 감성 분석의 정확성을 높일 수 있다.Since the image emotion feature created by combining several sub-image emotion features can have advantages of various image analysis models, the accuracy of image emotion analysis can be increased.
음성 감성 분석부(30)는 도 7에 도시되어 있는 바와 같이, 서브 음성 감성 분석부(31)와 음성 감성 특징 조합부(32)를 구비할 수 있다.As shown in FIG. 7 , the voice
서브 음성 감성 분석부(31) 각각은 서로 다른 음성 분석 모델이 적용되어 사용자 음성을 분석한다.Each of the sub voice
음성 분석 모델로는 예를 들어, SVM, 및 CNN과 RNN의 결합 모델이 사용될 수 있다. SVM 모델을 사용하는 경우, 사용자 음성에서 깊은 감성까지 분석하는 것이 가능하다. CNN과 RNN의 결합 모델을 사용하면 사용자 음성의 전처리 과정이 거의 필요하지 않다.As the voice analysis model, for example, SVM and a combined model of CNN and RNN may be used. In the case of using the SVM model, it is possible to analyze the user's voice to deep emotions. Using the combined model of CNN and RNN, almost no pre-processing of the user's voice is required.
음성 감성 특징 조합부(32)는 서브 음성 감성 분석부(31) 각각에서 산출된 서브 음성 감성 특징을 조합한다.The voice emotion
이렇게 여러 서브 음성 감성 특징이 조합되어 만들어진 음성 감성 특징은 여러 음성 분석 모델의 장점을 가질 수 있기 때문에 음성 감성 분석의 정확성을 높일 수 있다.Since the voice emotion feature created by combining several sub voice emotion features can have advantages of several voice analysis models, the accuracy of voice emotion analysis can be increased.
텍스트 감성 분석부(40)는 도 8에 도시되어 있는 바와 같이, 서브 텍스트 감성 분석부(41)와 텍스트 감성 특징 조합부(42)를 구비할 수 있다.As shown in FIG. 8 , the text
서브 텍스트 감성 분석부(41) 각각은 서로 다른 텍스트 감성 분석 모델이 적용되어 텍스트의 감성을 분석한다.Each of the sub-text
텍스트 감성 분석 모델로는 예를 들어, BERT, KoBERT가 사용될 수 있다. BERT는 언어에 대한 많은 정보를 담고 있기 때문에 텍스트 분석 결과가 정확하고, KoBERT는 BERT의 한국어 성능 한계를 극복하였기 때문에 특히 한국어로 이루어진 텍스트 분석의 결과가 정확하다.For example, BERT and KoBERT may be used as a text sentiment analysis model. Because BERT contains a lot of information about the language, the text analysis result is accurate, and KoBERT overcomes the Korean performance limitation of BERT, so the text analysis result made in Korean is especially accurate.
참고로, KoBERT는 엠베딩은 BERT를 기반으로 하고 분류는 CNN을 기반으로 한다.For reference, KoBERT is based on BERT for embedding and CNN for classification.
텍스트 감성 특징 조합부(42)는 서브 텍스트 감성 분석부(41) 각각에서 산출된 서브 텍스트 감성 특징을 조합한다.The text sentiment
이렇게 여러 서브 텍스트 감성 특징이 조합되어 만들어진 텍스트 감성 특징은 여러 텍스트 분석 모델의 장점을 가질 수 있기 때문에 텍스트 감성 분석의 정확성을 높일 수 있다.Since the text sentiment features created by combining several sub-text sentiment features can have the advantages of various text analysis models, the accuracy of text sentiment analysis can be increased.
앙상블 감성 분석부(50)는 LSTM(Long-Short Term Memory)을 이용하여 조합 특징을 분석한다.The ensemble
LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고 기억해야할 것들을 정할 수 있어, 긴 시퀀스의 입력을 처리하는 데 유용하다.LSTM is useful for processing long sequences of inputs because it can erase unnecessary memories and set things to remember by adding input gates, forget gates, and output gates to memory cells in the hidden layer.
따라서, 동영상에서 추출되어 여러 구간으로 이루어지는 사용자 얼굴 이미지, 사용자 음성 및 텍스트의 분석 성능을 높일 수 있다.Therefore, it is possible to improve the analysis performance of the user's face image, the user's voice, and the text extracted from the video and composed of several sections.
앙상블 감성 분석부(50)는 결과 확인부(51)와 조정부(52)를 구비할 수 있다. 도 9에는 이러한 앙상블 감성 분석부(50)에 관한 설명도가 도시되어 있다.The ensemble
결과 확인부(51)는 조합 특징의 분석 결과가 예를 들어, 우세한 확률을 가지는 감성 결과가 도출되었는지의 여부를 확인한다. 그리고 우세한 확률을 가지는 감성 결과가 도출된 경우에는 그대로 최종 결과를 출력하고, 그렇지 않은 경우에는 조정부(52)가 동작하도록 한다.The
조정부(52)는 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우에 사용자의 감성을 도출하는 역할을 한다. 예를 들어, 조정부(52)는 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 원 데이터의 분석 결과에 대한 이미지, 음성, 텍스트 각각의 영향도를 분석하고 영향도에 따라 각 감성 분석 모델에 상대적인 가중치를 부과할 수 있다. 그리고 가중치를 적용하였을 때 가장 높은 확률로 도출된 감성을 감성 분석의 최종 결과로서 출력할 수 있다. 의사결정 나무 알고리즘의 분리 기준에는 예를 들어, 음성 주파수의 크기, 음절의 길이 등이 포함될 수 있다.The
이하에서는 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하도록 한다. 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하면서, 멀티 모달 분석 시스템(1)의 설명시 언급한 부분에 대해서는 자세한 설명을 생략할 수 있다.Hereinafter, a multimodal emotion analysis method according to the present invention will be described. While explaining the multimodal emotion analysis method according to the present invention, detailed descriptions of the parts mentioned in the description of the
도 10에는 본 발명에 의한 멀티모달 감성 분석 방법의 순서도가 도시되어 있다.10 is a flowchart of a multimodal emotion analysis method according to the present invention.
본 발명에 의한 멀티모달 감성 분석 방법은 동영상 입력단계(S10), 감성 분석단계(S20) 및 앙상블 감성 분석단계(S30)를 포함한다.The multimodal emotion analysis method according to the present invention includes a video input step (S10), a emotion analysis step (S20), and an ensemble emotion analysis step (S30).
동영상 입력단계(S10)에서는 사용자의 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 별도로 추출될 수 있다.In the video input step (S10), a user's video is input. A user's face image, user's voice, and text may be separately extracted from the user's video.
감성 분석단계(S20)에서는 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석한다. 사용자 얼굴 이미지에서는 예를 들어 눈의 깜빡임, 입 모양 및 얼굴 길이 등을 감지함으로써 감성을 분석할 수 있고, 사용자 음성에서는 예를 들어 음성의 피치, 에너지, 에너지 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등의 음향적 특성을 통해 감성을 분석할 수 있다. 그리고 텍스트는 의미를 파악함으로써 감성 분석이 진행될 수 있다.In the emotion analysis step (S20), the emotion of each of the user face image, user voice and text extracted from the user video is analyzed. In the user's face image, for example, emotion can be analyzed by detecting eye blinking, mouth shape and face length, etc., and in the user's voice, for example, voice pitch, energy, energy entropy, zero crossing rate, spectrogram, log -Sentiment can be analyzed through acoustic characteristics such as Mel-Spectrogram and frequency. In addition, sentiment analysis can be performed by grasping the meaning of the text.
앙상블 감성 분석단계(S30)에서는, 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석함으로써 최종적인 감성 분석의 결과를 도출한다.In the ensemble emotion analysis step ( S30 ), a final emotion analysis result is derived by analyzing a combination of image emotion characteristics, voice emotion characteristics, and text emotion characteristics calculated in the emotion analysis step.
조합 특징에는 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징이 모두 포함되어 있기 때문에, 이를 분석하면 보다 정확한 감성 분석의 결과를 얻을 수 있다.Since the combined features include all of the image sensibility features, voice sensibility features, and text sensibility features, a more accurate sentiment analysis result can be obtained by analyzing them.
감성 분석단계(S20)는 서브 감성 분석 단계와 감성 특징 조합단계(S22)를 포함할 수 있다.The emotion analysis step (S20) may include a sub emotion analysis step and an emotion feature combination step (S22).
서브 감성 분석단계(S21)에서는 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 텍스트를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출한다.In the sub-sentiment analysis step (S21), a number of sub-image emotion characteristics are calculated by analyzing the user's face image through a number of different analysis models, and a number of sub-voice emotions are analyzed by analyzing the user's voice through a number of different analysis models. The feature is calculated, and the text is analyzed through a number of different analysis models to calculate a number of sub-text emotional characteristics.
그리고 감성 특징 조합단계(S22)에서는, 서브 감성 분석 단계에서 산출된 서브 이미지 감성 특징, 서브 음성 감성 특징 및 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합한다.In the emotion feature combining step S22, the sub image emotion characteristics, sub voice emotion features, and text emotion features calculated in the sub emotion analysis step are combined for each user face image, user voice, and text.
각각의 서브 감성 특징이 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합되어 만들어진 감성 특징은 여러 분석 모델의 장점을 가질 수 있기 때문에 감성 분석의 정확성을 높여줄 수 있다.Emotional features created by combining each sub-emotional feature for each user's face image, user's voice, and text can have advantages of various analysis models, so that the accuracy of emotion analysis can be increased.
본 발명에 의한 멀티모달 감성 분석 시스템(1) 및 방법은 하나 또는 다수의 하드웨어를 통해 구현되거나, 하나 또는 다수의 소프트웨어를 통해 구현될 수 있다. 또는 하드웨어와 소프트웨어를 통해 구현될 수도 있다.The multimodal
본 발명의 권리범위는 상술한 실시예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.The scope of the present invention is not limited to the above-described embodiments, but may be implemented in various forms of embodiments within the scope of the appended claims. Anyone with ordinary knowledge in the art to which the invention pertains without departing from the subject matter of the invention claimed in the claims is considered to be within the scope of the claims of the present invention to various extents that can be modified.
1 : 멀티모달 감성 분석 시스템
10 : 동영상 입력부 21 : 서브 이미지 감성 분석부
22 : 이미지 감성 특징 조합부 30 : 음성 감성 분석부
31 : 서브 음성 감성 분석부 32 : 음성 감성 특징 조합부
40 : 텍스트 감성 분석부 41 : 서브 텍스트 감성 분석부
42 : 텍스트 감성 특징 조합부 50 : 앙상블 감성 분석부
60 : 이미지 감성 모델부 70 : 음성 감성 모델부
80 : 텍스트 감성 모델부 90 : 앙상블 감성 모델부1: Multimodal Sentiment Analysis System
10: video input unit 21: sub image emotion analysis unit
22: image emotion feature combination unit 30: voice emotion analysis unit
31: sub voice emotion analysis unit 32: voice emotion feature combination unit
40: text sentiment analysis unit 41: subtext sentiment analysis unit
42: text emotion feature combination unit 50: ensemble emotion analysis unit
60: image emotion model unit 70: voice emotion model unit
80: text emotion model unit 90: ensemble emotion model unit
Claims (9)
상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부;
상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부;
상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및
상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하며,
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고,
상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며,
상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비하고,
상기 앙상블 감성 분석부는,
조합 특징의 분석 결과에서 우세한 확률을 가지는 감성 결과가 도출되었는지 확인하여 우세한 확률을 가지는 감성 결과가 도출된 경우 그대로 감성 결과를 최종 결과로 출력하는 결과 확인부, 및
상기 결과 확인부에서 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우 최종 결과를 출력하는 조정부를 구비하며,
상기 조정부는,
상기 동영상 입력부에서 입력받은 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 사용자 동영상의 원 데이터의 분석 결과에 대한 이미지, 음성 및 텍스트 각각의 영향도를 분석하고 영향도에 따라 이미지, 음성 및 텍스트에 가중치를 부여하며, 가중치 적용시 가장 높은 확률로 도출된 감성 결과를 최종 결과로 출력하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
a video input unit that receives a user video;
an image emotion analysis unit that analyzes emotion of the user's face image extracted from the user's video;
a voice emotion analyzer for analyzing the emotion of the user's voice extracted from the user's video;
a text emotion analyzer for analyzing the emotion of the text extracted from the user's video; and
an ensemble emotion analysis unit that analyzes a combination of the image emotion characteristics calculated by the image emotion analysis unit, the voice emotion characteristics calculated by the voice emotion analysis unit, and the text emotion characteristics calculated by the text emotion analysis unit; contains,
The image emotion analyzer includes a plurality of sub-image emotion analyzers to which different image analysis models are applied and an image emotion feature combination unit for combining sub-image emotion features calculated in each of the sub-image emotion analyzers;
The voice emotion analysis unit includes a plurality of sub voice emotion analysis units to which different voice analysis models are applied and a voice emotion feature combining unit that combines the sub voice emotion characteristics calculated by each of the sub voice emotion analysis units;
The text sentiment analysis unit includes a plurality of sub-text sentiment analysis units to which different text analysis models are applied and a text sentiment feature combining unit combining sub-text sentiment characteristics calculated in each of the sub-text sentiment analysis units;
The ensemble emotion analysis unit,
A result confirmation unit that checks whether a sentiment result having a superior probability has been derived from the analysis result of the combination feature, and outputs the sentiment result as a final result as it is when a sentiment result having a superior probability is derived; and
And an adjustment unit that outputs a final result when an emotional result having a superior probability is not derived from the result confirmation unit,
The adjustment unit,
After analyzing the raw data of the user video input from the video input unit through a decision tree algorithm, the degree of influence of each image, voice, and text on the analysis result of the raw data of the user video is analyzed, and according to the degree of influence, the image, A multimodal emotion analysis system, characterized in that it assigns weights to voice and text and outputs the emotion result derived with the highest probability when the weight is applied as the final result.
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The image analysis model is a multimodal emotion analysis system, characterized in that VGG, ResNet, and Inception.
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The speech analysis model is a multimodal emotion analysis system, characterized in that SVM, and a combined model of CNN and RNN.
이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부,
음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부 및
텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
An image emotion model unit for storing characteristics of each emotion of the image and providing an analysis criterion in the image emotion analyzer;
A voice emotion model unit for storing characteristics of each emotion of voice and providing analysis criteria in the voice emotion analyzer; and
The multimodal emotion analysis system further comprises a text emotion model unit for storing characteristics of each emotion of the text and providing an analysis criterion in the text emotion analyzer.
감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The multimodal emotion analysis system further comprising an ensemble emotion model unit storing combination characteristics for each emotion and providing an analysis criterion in the ensemble emotion analyzer.
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
According to claim 1,
The ensemble emotion analysis unit is a multimodal emotion analysis system, characterized in that for analyzing combination characteristics using LSTM.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148920A KR102564570B1 (en) | 2020-11-09 | 2020-11-09 | System and method for analyzing multimodal emotion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148920A KR102564570B1 (en) | 2020-11-09 | 2020-11-09 | System and method for analyzing multimodal emotion |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220063816A KR20220063816A (en) | 2022-05-18 |
KR102564570B1 true KR102564570B1 (en) | 2023-08-07 |
Family
ID=81800581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200148920A KR102564570B1 (en) | 2020-11-09 | 2020-11-09 | System and method for analyzing multimodal emotion |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102564570B1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282824A (en) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | Emotion estimation system and program |
JP2019133447A (en) | 2018-01-31 | 2019-08-08 | 大日本印刷株式会社 | Emotion estimation device, computer program, and emotion estimation method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102607373B1 (en) | 2016-11-23 | 2023-12-05 | 한국전자통신연구원 | Apparatus and method for recognizing emotion in speech |
KR102133728B1 (en) * | 2017-11-24 | 2020-07-21 | 주식회사 제네시스랩 | Device, method and readable media for multimodal recognizing emotion based on artificial intelligence |
KR20190140801A (en) * | 2018-05-23 | 2019-12-20 | 한국과학기술원 | A multimodal system for simultaneous emotion, age and gender recognition |
-
2020
- 2020-11-09 KR KR1020200148920A patent/KR102564570B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282824A (en) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | Emotion estimation system and program |
JP2019133447A (en) | 2018-01-31 | 2019-08-08 | 大日本印刷株式会社 | Emotion estimation device, computer program, and emotion estimation method |
Also Published As
Publication number | Publication date |
---|---|
KR20220063816A (en) | 2022-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (en) | Multi-modal depression detection system based on context awareness | |
Makino et al. | Recurrent neural network transducer for audio-visual speech recognition | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN114694076A (en) | Multi-modal emotion analysis method based on multi-task learning and stacked cross-modal fusion | |
CN111564164A (en) | Multi-mode emotion recognition method and device | |
CN112329438B (en) | Automatic lie detection method and system based on domain countermeasure training | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN112017633B (en) | Speech recognition method, device, storage medium and electronic equipment | |
CN115376559A (en) | Emotion recognition method, device and equipment based on audio and video | |
CN114898779A (en) | Multi-mode fused speech emotion recognition method and system | |
CN114661951A (en) | Video processing method and device, computer equipment and storage medium | |
Shrivastava et al. | Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis | |
CN116758451A (en) | Audio-visual emotion recognition method and system based on multi-scale and global cross attention | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
KR102429365B1 (en) | System and method for analyzing emotion of speech | |
KR102564570B1 (en) | System and method for analyzing multimodal emotion | |
CN117312548A (en) | Multi-source heterogeneous disaster situation data fusion understanding method | |
KR20230120790A (en) | Speech Recognition Healthcare Service Using Variable Language Model | |
CN114170997A (en) | Pronunciation skill detection method, pronunciation skill detection device, storage medium and electronic equipment | |
CN114492579A (en) | Emotion recognition method, camera device, emotion recognition device and storage device | |
Jothimani et al. | A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition | |
KR102480722B1 (en) | Apparatus for recognizing emotion aware in edge computer environment and method thereof | |
Cano Montes et al. | Audio-visual emotion recognition system for variable length spatio-temporal samples using deep transfer-learning | |
CN116935889B (en) | Audio category determining method and device, electronic equipment and storage medium | |
Chowdhury et al. | Text Extraction through Video Lip Reading Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |