KR20230128812A - Cross-modal learning-based emotion inference system and method - Google Patents

Cross-modal learning-based emotion inference system and method Download PDF

Info

Publication number
KR20230128812A
KR20230128812A KR1020220026168A KR20220026168A KR20230128812A KR 20230128812 A KR20230128812 A KR 20230128812A KR 1020220026168 A KR1020220026168 A KR 1020220026168A KR 20220026168 A KR20220026168 A KR 20220026168A KR 20230128812 A KR20230128812 A KR 20230128812A
Authority
KR
South Korea
Prior art keywords
data
information
fusion
cross
intersection
Prior art date
Application number
KR1020220026168A
Other languages
Korean (ko)
Inventor
양형정
티 둥 트란
이귀상
김수형
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020220026168A priority Critical patent/KR20230128812A/en
Publication of KR20230128812A publication Critical patent/KR20230128812A/en

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/12Healthy persons not otherwise provided for, e.g. subjects of a marketing survey

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Psychiatry (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Educational Technology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Developmental Disabilities (AREA)
  • Primary Health Care (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Child & Adolescent Psychology (AREA)
  • Multimedia (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 교차 모달 학습 기반의 감정 추론 시스템 및 방법에 관한 것으로,
싱글 교차 융합부가 수신된 멀티모달 정보로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터를 각 정보별로 도출하고, 멀티 교차 융합부가 상기 각 정보별로 도출된 융합 데이터로 서로 다른 융합 데이터가 융합된 교차 데이터를 각 융합 데이터별로 도출하며, 감정 추론부가 상기 생성된 교차 데이터에 대응하는 감정 정보를 매칭하여 각 세그먼트별 대상인물의 감정을 도출하는 구성으로 인간과 기계의 언어적 의사소통의 효율성을 개선하여 다양한 고객 관리 서비스를 제공하고, 강의를 시청하는 학습자의 감정 및 심리 건강 관리의 효율성을 향상시킬 수 있다.
The present invention relates to a system and method for emotion inference based on cross-modal learning,
A single cross-fusion unit derives fusion data in which different information is fused for each of image information, sound information, and text information with the received multimodal information, for each information, and a multi-intersection fusion unit derives fusion data derived for each information. It is a configuration in which intersection data in which different convergence data are fused is derived for each convergence data, and the emotion reasoning unit matches emotion information corresponding to the generated intersection data to derive the emotions of the target person for each segment. By improving the efficiency of direct communication, various customer management services can be provided, and the efficiency of emotional and psychological health management of learners watching lectures can be improved.

Description

교차 모달 학습 기반의 감정 추론 시스템 및 방법{CROSS-MODAL LEARNING-BASED EMOTION INFERENCE SYSTEM AND METHOD}Emotion inference system and method based on cross-modal learning {CROSS-MODAL LEARNING-BASED EMOTION INFERENCE SYSTEM AND METHOD}

본 발명은 교차 모달 학습 기반의 감정 추론 시스템 및 방법에 관한 것으로, 영상의 다중 모달리티 정보를 이용하여 대상인물의 감정을 추론할 수 있도록 한 기술에 관한 것이다.The present invention relates to a cross-modal learning-based emotion inference system and method, and relates to a technology enabling inference of a target person's emotion using multi-modality information of an image.

딥러닝 기술이 도입되면서 딥러닝을 이용한 데이터 표현을 자동으로 캡쳐하여 인간의 감정을 추론하기 위한 알고리즘 개발이 연구원들의 관심을 받고 있다. With the introduction of deep learning technology, researchers are interested in developing algorithms to infer human emotions by automatically capturing data representations using deep learning.

감정 추론은 대상자의 주변으로부터 감정을 예측하는 것이다. 정보는 상황 맥락, 감정 전파 또는 외부 지식이 될 수 있다. Emotion inference is the prediction of emotions from the surroundings of a subject. Information can be situational context, emotional transmission, or external knowledge.

감정은 개인이 말 이외의 방식으로 의사 소통을 할 수 있게 해주기 때문에 인간 대 인간의 의사 소통 및 연결에서 중요한 역할을 한다. 또한, 인간의 감정을 이해하도록 컴퓨터를 훈련시키는 것은 인간-기계 상호작용, 로봇, 및 엔터테인먼트와 관련된 애플리케이션에 필수적이다.Emotions play an important role in human-to-human communication and connection because they allow individuals to communicate in ways other than words. Additionally, training computers to understand human emotions is essential for applications related to human-machine interaction, robotics, and entertainment.

그러나, 실제 시나리오에서 화자가 아닌 대상에 대해 비디오, 오디오, 및 텍스트 정보가 수집되지 않아 대상의 감정을 추론하지 못하는 문제가 발생하며, 대상으로부터 수집된 모달 데이터가 부족하여 감정 추론에는 한계가 존재한다.However, in a real scenario, video, audio, and text information about a subject other than a speaker is not collected, resulting in a problem of not being able to infer the emotion of the subject, and there is a limit to inferring emotion due to the lack of modal data collected from the subject. .

따라서, 대상 및 대상 주변의 정보를 이용하여 다양한 신호 및 상황에서 비화자의 감정을 추론함에 따라 감정을 도출하는 기술의 개발이 필요하다.Therefore, it is necessary to develop a technique for deriving emotions by inferring non-speakers' emotions in various signals and situations using the target and surrounding information.

대한민국 등록특허 제10-2279797호(2021.07.21)Republic of Korea Patent Registration No. 10-2279797 (2021.07.21)

본 발명은, 시각, 청각, 텍스트, 및 성격 간의 관계를 활용하여 결측치를 처리하면서 인간의 감정을 예측할 수 있는 교차 모달 학습 기반의 감정 추론 시스템 및 방법을 제공할 수 있다.The present invention can provide an emotion inference system and method based on cross-modal learning capable of predicting human emotions while processing missing values by utilizing relationships among visual, auditory, text, and personalities.

본 발명의 일 측면에 따른 교차 모달 학습 기반의 감정 추론 시스템은 수신된 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터를 각 정보별로 도출하는 싱글 교차 융합부; 상기 각 정보별로 도출된 융합 데이터로 서로 다른 융합 데이터가 융합된 교차 데이터를 각 융합 데이터별로 도출하는 멀티 교차 융합부; 및 상기 생성된 교차 데이터에 대응하는 감정 정보를 매칭하여 각 세그먼트별 대상인물의 감정을 도출하는 감정 추론부를 포함할 수 있다.An emotion inference system based on cross-modal learning according to an aspect of the present invention includes a single cross-fusion unit for deriving fusion data in which different information is fused for each of received image information, sound information, and text information for each information; a multi-intersection fusion unit for deriving intersection data in which different fusion data are fused with the fusion data derived for each information, for each fusion data; and an emotion inference unit for deriving emotions of the target person for each segment by matching emotion information corresponding to the generated intersection data.

바람직하게는, 상기 싱글 교차 융합부는 이미지 정보, 음향 정보, 및 텍스트 정보의 싱크를 정규화할 수 있다.Preferably, the single cross-fusion unit normalizes sync of image information, sound information, and text information.

바람직하게는, 상기 멀티 교차 융합부는 상기 융합 데이터의 누락에 따른 데이터 손실을 최소화할 수 있다.Preferably, the multi-intersection fusion unit can minimize data loss due to omission of the fusion data.

바람직하게는, 상기 융합 데이터 및 교차 데이터는 행렬벡터일 수 있다.Preferably, the fusion data and intersection data may be matrix vectors.

바람직하게는, 상기 싱글 교차 융합부는 상기 각 정보에 대한 메인 융합 데이터 및 다수개의 부가 융합 데이터를 생성하는 제1 데이터 생성 모듈; 및 생성된 적어도 두 개 이상의 상기 부가 융합 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제1 결과 데이터를 도출한 다음 도출된 제1 결과 데이터와 상기 부가 융합 데이터를 벡터내적으로 연산하여 제2 결과 데이터를 도출하는 제1 연산 모듈을 포함할 수 있다.Preferably, the single cross-fusion unit includes a first data generation module generating main fusion data and a plurality of additional fusion data for each information; and performing an intra-vector operation on the generated at least two pieces of additional fusion data, scaling the calculated data values to remove values that are too large or too small, and calculating the scaled data with a softmax function to derive first result data. Next, it may include a first calculation module for deriving second result data by performing an intra-vector operation on the derived first result data and the additional fusion data.

바람직하게는, 상기 멀티 교차 융합부는 상기 각 융합 데이터에 대한 메인 교차 데이터 및 다수개의 부가 교차 데이터를 생성하는 제2 데이터 생성 모듈; 및 생성된 적어도 두 개 이상의 상기 부가 교차 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제3 결과 데이터를 도출한 다음 도출된 제3 결과 데이터와 상기 부가 교차 데이터를 벡터내적으로 연산하여 제4 결과 데이터를 도출하는 제2 연산 모듈을 포함할 수 있다.Preferably, the multi-intersection fusion unit includes a second data generation module generating main intersection data and a plurality of additional intersection data for each of the fusion data; and performing an intra-vector operation on the generated at least two additional intersection data, scaling the calculated data to remove values that are too large or too small, and calculating the scaled data with a softmax function to derive third result data. Next, it may include a second calculation module for deriving fourth result data by performing an intra-vector operation on the derived third result data and the additional intersection data.

본 발명의 다른 측면에 따른 교차 모달 학습 기반의 감정 추론 방법은 수신된 멀티모달 정보로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터가 각 정보별로 도출되는 싱글 교차 융합 단계; 상기 각 정보별로 도출된 융합 데이터로 서로 다른 융합 데이터가 융합된 교차 데이터가 각 융합 데이터별로 도출되는 멀티 교차 융합 단계; 및 상기 생성된 교차 데이터에 대응하는 감정 정보가 매칭되어 각 세그먼트별 대상인물의 감정이 도출되는 감정 추론 단계를 포함할 수 있다.In a cross-modal learning-based emotion inference method according to another aspect of the present invention, single cross-modal fusion data in which different information is fused with respect to image information, sound information, and text information as received multimodal information is derived for each information. fusion step; a multi-intersection fusion step of deriving intersection data for each fusion data in which different fusion data are fused with the fusion data derived for each information; and an emotion inference step in which emotion information corresponding to the generated intersection data is matched to derive emotion of a target person for each segment.

본 발명에 따르면, 인간과 기계의 언어적 의사소통의 효율성을 개선하여 다양한 고객 관리 서비스를 제공하고, 강의를 시청하는 학습자의 감정 및 심리 건강 관리의 효율성을 향상시킬 수 있다.According to the present invention, it is possible to provide various customer management services by improving the efficiency of verbal communication between humans and machines, and improve the efficiency of emotional and mental health management of learners watching lectures.

도 1은 일 실시예에 따른 감정 추론 시스템의 구성도이다.
도 2는 일 실시예에 따른 싱글 교차 융합부의 구성도이다.
도 3은 일 실시예에 따른 멀티 교차 융합부의 구성도이다.
도 4는 일 실시예에 따른 감정 추론 알고리즘을 계략적으로 나타낸 모식도이다.
도 5는 일 실시예에 따른 싱글 교차 융합부의 데이터 처리 순서를 나타낸 모식도이다.
도 6은 일 실시예에 따른 멀티 교차 융합부의 데이터 처리 순서를 나타낸 모식도이다.
도 7은 일 실시예에 따른 감정 추론 방법을 나타낸 순서도이다.
1 is a block diagram of an emotion inference system according to an embodiment.
2 is a configuration diagram of a single cross-fusion unit according to an embodiment.
3 is a configuration diagram of a multi-intersection fusion unit according to an embodiment.
4 is a schematic diagram schematically illustrating an emotion inference algorithm according to an embodiment.
5 is a schematic diagram illustrating a data processing sequence of a single cross-fusion unit according to an exemplary embodiment.
6 is a schematic diagram illustrating a data processing sequence of a multi-intersection fusion unit according to an embodiment.
7 is a flowchart illustrating an emotion inference method according to an exemplary embodiment.

이하에서는 본 발명에 따른 교차 모달 학습 기반의 감정 추론 시스템 및 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Hereinafter, a cross-modal learning-based emotion inference system and method according to the present invention will be described in detail with reference to the accompanying drawings. In this process, the thickness of lines or the size of components shown in the drawings may be exaggerated for clarity and convenience of description. In addition, terms to be described later are terms defined in consideration of functions in the present invention, which may vary according to an operator's intention or practice. Therefore, definitions of these terms will have to be made based on the content throughout this specification.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.The objects and effects of the present invention can be naturally understood or more clearly understood by the following description, and the objects and effects of the present invention are not limited only by the following description. In addition, in describing the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted.

도 1은 일 실시예에 따른 감정 추론 시스템의 구성도이다.1 is a block diagram of an emotion inference system according to an embodiment.

도 1에서 나타낸 바와 같이, 일 실시예에 따른 감정 추론 시스템은 싱글 교차 융합부(100), 멀티 교차 융합부(300), 및 감정 추론부(500)를 포함하며, 수신된 적어도 하나의 세그먼트로부터 이미지 정보, 음향 정보, 및 텍스트 정보 중 적어도 두 개 이상의 정보와 관련된 멀티모달 정보(10)를 이용하여 대상인물의 감정을 도출할 수 있다.As shown in FIG. 1, the emotion inference system according to an embodiment includes a single cross-fusion unit 100, a multi-intersection fusion unit 300, and an emotion inference unit 500, from at least one received segment. Emotions of the target person may be derived using the multimodal information 10 related to at least two of image information, sound information, and text information.

싱글 교차 융합부(100)는 수신된 멀티모달 정보(10)로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터(20)를 각 정보별로 도출할 수 있다.The single cross-fusion unit 100 may derive fusion data 20 in which different information is fused with respect to image information, sound information, and text information, for each information, with the received multimodal information 10 .

여기서, 싱글 교차 융합부(100)는 이미지 정보, 음향 정보, 및 텍스트 정보의 싱크를 정규화할 수 있다.Here, the single cross-fusion unit 100 may normalize the sync of image information, sound information, and text information.

멀티 교차 융합부(300)는 상기 각 정보별로 도출된 융합 데이터(20)로 서로 다른 융합 데이터(20)가 융합된 교차 데이터(30)를 각 융합 데이터(20)별로 도출할 수 있다.The multi-intersection fusion unit 300 may derive intersection data 30 in which different fusion data 20 are fused with the fusion data 20 derived for each information, for each fusion data 20 .

여기서, 상기 멀티 교차 융합부(300)는 상기 융합 데이터(20)의 누락에 따른 데이터 손실을 최소화할 수 있다.Here, the multi-intersection fusion unit 300 can minimize data loss due to omission of the fusion data 20 .

이때, 상기 융합 데이터(20) 및 교차 데이터(30)는 행렬벡터이다.At this time, the fusion data 20 and intersection data 30 are matrix vectors.

감정 추론부(500)는 상기 생성된 교차 데이터(30)에 대응하는 감정 정보를 매칭하여 각 세그먼트별 대상인물의 감정을 도출할 수 있다.The emotion inference unit 500 may derive the emotion of the target person for each segment by matching the emotion information corresponding to the generated intersection data 30 .

도 2는 일 실시예에 따른 싱글 교차 융합부의 구성도이다.2 is a configuration diagram of a single cross-fusion unit according to an embodiment.

도 2에서 나타낸 바와 같이, 일 실시예에 따른 싱글 교차 융합부(100)는 제1 데이터 생성 모듈(110) 및 제1 연산 모듈(130)을 포함할 수 있다.As shown in FIG. 2 , the single cross-fusion unit 100 according to an embodiment may include a first data generating module 110 and a first calculation module 130 .

제1 데이터 생성 모듈(110)은 상기 각 정보에 대한 메인 융합 데이터 및 다수개의 부가 융합 데이터를 생성할 수 있다.The first data generation module 110 may generate main fusion data and a plurality of additional fusion data for each information.

제1 연산 모듈(130)은 생성된 적어도 두 개 이상의 상기 부가 융합 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제1 결과 데이터를 도출한 다음 도출된 제1 결과 데이터와 상기 부가 융합 데이터를 벡터내적으로 연산하여 제2 결과 데이터를 도출할 수 있다.The first calculation module 130 performs an intra-vector operation on the generated at least two additional fusion data, scales the calculated data to remove values that are too large or too small, and calculates the scaled data with a softmax function, After the first result data is derived, the second result data may be derived by performing an intra-vector operation on the derived first result data and the additional fusion data.

여기서, 도출된 제2 결과 데이터와 메인 융합 데이터가 벡터내적으로 연산되어 각 정보에 대한 싱크가 정규화될 수 있다.Here, the derived second result data and the main fusion data may be computed intra-vector to normalize sync for each piece of information.

도 3은 일 실시예에 따른 멀티 교차 융합부의 구성도이다.3 is a configuration diagram of a multi-intersection fusion unit according to an embodiment.

도 3에서 나타낸 바와 같이, 일 실시예에 따른 멀티 교차 융합부(300)는 제2 데이터 생성 모듈(310) 및 제2 연산 모듈(330)을 포함할 수 있다.As shown in FIG. 3 , the multi-intersection fusion unit 300 according to an embodiment may include a second data generation module 310 and a second calculation module 330 .

제2 데이터 생성 모듈(310)은 상기 각 융합 데이터(20)에 대한 메인 교차 데이터 및 다수개의 부가 교차 데이터를 생성할 수 있다.The second data generation module 310 may generate main intersection data and a plurality of additional intersection data for each of the fusion data 20 .

제2 연산 모듈(330)은 생성된 적어도 두 개 이상의 부가 교차 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제3 결과데이터를 도출한 다음 도출된 제3 결과 데이터와 상기 부가 교차 데이터를 벡터내적으로 연산하여 제4 결과 데이터를 도출할 수 있다.The second calculation module 330 performs an intra-vector operation on the generated at least two additional intersection data, scales the calculated data to remove values that are too large or too small, and calculates the scaled data with a softmax function to obtain After deriving 3 result data, fourth result data may be derived by performing an intra-vector operation between the derived third result data and the additional intersection data.

여기서, 도출된 제4 결과 데이터와 메인 교차 데이터가 벡터내적으로 연산되어 각 정보별 융합 데이터(20)에 대한 싱크가 정규화될 수 있다.Here, the derived fourth result data and the main intersection data may be computed intra-vector to normalize the sync for the fusion data 20 for each piece of information.

도 4는 일 실시예에 따른 감정 추론 알고리즘을 계략적으로 나타낸 모식도이다.4 is a schematic diagram schematically illustrating an emotion inference algorithm according to an embodiment.

도 4에서 나타낸 바와 같이, 일 실시예에 따른 감정 추론 알고리즘은 Scaled Dot-Product Attention을 이용하여 영상 속 인간의 감정을 추론하여 모달 특징들 간의 자기 주의(Self-attention)와 교차 주의(Cross-attention)를 만드는 교차 모달 학습 알고리즘이며, 비디오에 화자가 아닌 대상에 대해 모달 중 하나 또는 다수의 모달이 누락됨에 따라 데이터 손실이 발생하여도 감정 추론에 미치는 악영향을 최소화할 수 있다.As shown in FIG. 4, the emotion inference algorithm according to an embodiment infers human emotion in an image using Scaled Dot-Product Attention, and self-attention and cross-attention between modal features ), and can minimize the adverse effect on emotion inference even if data loss occurs due to missing one or multiple modals for a subject other than a speaker in the video.

먼저, 영상으로부터 다수개의 세그먼트를 수신하고, 수신된 각각의 세그먼트에서 적어도 하나의 캐릭터에 대한 감정을 도출하기 위해 이미지 정보, 음향 정보, 텍스트 정보, 및 감정 정보가 포함된 멀티모달 정보(10)를 싱글 교차 융합부(100)로 입력하여 각각의 정보를 융합할 수 있다.First, a plurality of segments are received from an image, and multimodal information 10 including image information, sound information, text information, and emotion information is used to derive emotions for at least one character from each of the received segments. Each information may be fused by inputting it to the single cross-fusion unit 100 .

싱글 교차 융합부(100)는 인터 캐릭터(Inter-character) 모듈로서 동일한 세그먼트 내에 존재하는 정보 간의 관계를 이해하도록 이미지 정보, 음향 정보, 및 텍스트 정보의 각 모달 특징에 대하여 자기 주의 및 교차 주의를 적용할 수 있다. The single cross-fusion unit 100 applies self-attention and cross-attention to each modal feature of image information, sound information, and text information to understand the relationship between information existing in the same segment as an inter-character module. can do.

동일한 세그먼트 내에서 각 정보에 대하여 자기 주의 및 교차 주의가 적용된 융합 데이터(20)는 각 정보가 융합되어 이미지 정보에 음향 정보가 융합된 이미지-음향 데이터(f(va)), 이미지 정보에 텍스트 정보가 융합된 이미지-텍스트 데이터(f(vt)), 음향 정보에 이미지 정보가 융합된 음향-이미지 데이터(f(av)), 음향 정보에 텍스트 정보가 융합된 음향-텍스트 데이터(f(at)), 텍스트 정보에 이미지 정보가 융합된 텍스트-이미지 데이터(f(tv)), 텍스트 정보에 음향 정보가 융합된 텍스트-음향 데이터(f(ta))일 수 있다.Convergence data 20 to which self-attention and cross-attention are applied to each piece of information within the same segment is image-sound data (f (va) ) in which each information is fused and audio information is fused with image information, and text information is added to image information. is fused image-text data (f (vt) ), audio-image data in which image information is fused with audio information (f (av) ), audio-text data in which text information is fused with audio information (f (at) ), text-image data (f (tv) ) in which image information is fused with text information, and text-sound data (f (ta) ) in which audio information is fused with text information.

각각의 융합 데이터(20)들은 이미지 정보, 음향 정보, 및 텍스트 정보 중 어느 하나의 정보를 기초으로 하여 서로 다른 정보가 융합되어 총 6개의 융합 데이터(20)로 도출될 수 있으나, 여기에 한정되는 것은 아니며, 입력되는 정보의 개수가 증가하면 도출되는 융합 데이터(20)의 개수도 증가할 수 있다. Each of the fusion data 20 may be derived as a total of six fusion data 20 by fusion of different information based on any one of image information, sound information, and text information, but limited thereto This is not the case, and if the number of input information increases, the number of derived fusion data 20 may also increase.

도 5는 일 실시예에 따른 싱글 교차 융합부의 데이터 처리 순서를 나타낸 모식도이다.5 is a schematic diagram illustrating a data processing sequence of a single cross-fusion unit according to an exemplary embodiment.

도 5에서 나타낸 바와 같이, 일 실시예에 따른 싱글 교차 융합부(100)의 데이터 처리 순서는 영상의 다중 모달리티 정보인 이미지 정보(f(v)), 음향 정보(f(a)), 및 텍스트 정보(f(t))와 모든 대상인물의 성격 정보(f(p))를 인코딩 한 후, 각 모달리티의 특징 정보를 연결하고 각 정보를 이미지 마스크(maskv), 음향 마스크(maska), 및 텍스트 마스크(maskt)와 대상인물의 성격 정보를 사용하여 f'(v), f'(a), 및 f'(t)의 세 가지 새로운 특징 정보를 도출할 수 있다. 이때, 자기 주의를 적용한 각 대상인물 간의 각 정보의 가중 상관 관계가 있는 맵을 구할 수 있으며, 자기 주의 출력은 시각 정보, 음향 정보, 및 텍스트 정보에 대하여 각각 로 나타낼 수 있다. 자기 주의에 따른 각 모달리티 정보는 다음 수학식으로 표현될 수 있다.As shown in FIG. 5 , the data processing sequence of the single cross-fusion unit 100 according to an embodiment includes image information (f (v) ), sound information (f (a) ), and text, which are multi-modality information of an image. After encoding information (f (t) ) and personality information (f (p) ) of all subjects, the characteristic information of each modality is connected, and each information is divided into an image mask (mask v ), a sound mask (mask a ), And, three new feature information of f' (v) , f' (a) , and f' (t) can be derived using the text mask (mask t ) and the personality information of the target person. At this time, a map having a weighted correlation of each information between each target person to which self-attention is applied can be obtained, and the output of self-attention is each for visual information, sound information, and text information. can be expressed as Each modality information according to self-attention can be expressed by the following equation.

[수학식 1][Equation 1]

수학식 1에서, 이다. 여기서, 자기 주의로부터 도출된 각 모달리티 정보로 교차 주의를 수행하여 융합 데이터(20)를 도출할 수 있으며, 교차 주의에 따른 각 모달리티 정보는 다음 수학식으로 표현될 수 있다.In Equation 1, am. Here, the fusion data 20 may be derived by performing cross attention with each modality information derived from self attention, and each modality information according to the cross attention may be expressed by the following equation.

[수학식 2][Equation 2]

수학식 2에서, 이고, 이다. In Equation 2, ego, am.

멀티 교차 융합부(300)는 인트라 캐릭터(Intra character) 모듈로서 영상에 등장하는 대상인물의 모달리티 정보별로 융합된 융합 데이터(20)에 대하여 자기주의 및 교차주의를 수행하며, 대상인물의 감정 도출을 위한 데이터 누락으로 인한 오류를 최소화할 수 있다.The multi-intersection convergence unit 300, as an intra-character module, performs self-attention and intersectional attention on the fusion data 20 fused for each modality information of the target person appearing in the video, and derives the target character's emotions. Errors due to missing data can be minimized.

멀티 교차 융합부(300)에서 각 융합 데이터(20)별로 융합된 교차 데이터(30)는 이미지-텍스트 데이터(f(vt))에 이미지-음향 데이터(f(va))가 융합된 이미지-텍스트 기반 이미지-음향 데이터(f(vt,va)), 이미지-음향 데이터(f(va))에 이미지-텍스트 데이터(f(vt))가 융합된 이미지 음향 데이터 기반 이미지-텍스트 데이터(f(va,vt)), 음향-이미지 데이터(f(av))에 음향-텍스트 데이터(f(at))가 융합된 음향-이미지 데이터 기반 음향-텍스트 데이터(f(av,at)), 음향-텍스트 데이터(f(at))에 음향-이미지 데이터(f(av))가 융합된 음향-텍스트 데이터 기반 음향-이미지 데이터(f(at,av)), 텍스트-이미지 데이터(f(tv))에 텍스트-음향 데이터(f(ta))가 융합된 텍스트-이미지 데이터 기반 텍스트-음향 데이터(f(tv,ta)), 텍스트-음향 데이터(f(ta))에 텍스트-이미지 데이터(f(tv))가 융합된 텍스트-음향 데이터 기반 텍스트-이미지 데이터(f(ta,tv))일 수 있다.The intersection data 30 fused for each fusion data 20 in the multi-intersection fusion unit 300 is image-text data fused with image-sound data f (va) in image-text data f (vt). Based image-sound data (f (vt,va) ), image-sound data (f (va) ) and image-text data (f (vt) ) fused image-acoustic data-based image-text data (f (va) ,vt) ), audio-text data (f (av,at) ) based on audio-image data in which audio-text data (f (at) ) is fused with audio-image data (f (av) ), audio-text Acoustic-text data-based audio-image data (f (at ,av) ) in which audio-image data (f ( av ) ) is fused with data (f (at) ) and text-image data (f (tv) ) Text-image data (f (tv,ta) ) based on text-image data in which text-sound data (f (ta ) ) is fused, and text-image data (f (tv ) ) may be fused text-image data based on text-sound data (f (ta,tv) ).

각각의 교차 데이터(30)들은 도출된 융합 데이터(20)들 중 어느 하나의 데이터를 기초으로 하여 서로 다른 융합 데이터(20)가 융합된 것으로 총 6개의 교차 데이터(30)가 도출될 수 있으나, 여기에 한정되는 것은 아니며, 입력되는 융합 데이터(20)의 개수가 증가하면 도출되는 교차 데이터(30)의 개수도 증가할 수 있다. Each intersection data 30 is a fusion of different fusion data 20 based on any one of the derived fusion data 20, and a total of six intersection data 30 can be derived. It is not limited thereto, and if the number of input fusion data 20 increases, the number of intersection data 30 derived may also increase.

도 6은 일 실시예에 따른 멀티 교차 융합부의 데이터 처리 순서를 나타낸 모식도이다.6 is a schematic diagram illustrating a data processing sequence of a multi-intersection fusion unit according to an embodiment.

도 6에서 나타낸 바와 같이, 일 실시예에 따른 멀티 교차 융합부(300)의 데이터 처리 순서는 싱글 교차부로부터 도출된 융합 데이터(20)를 자기 주의로 입력하여 각 정보가 융합된 융합 데이터(20) , , , ,, 특징에 대하여 가중 상관 관계 및 가중 상관 관계에 따라 각 세트먼트의 융합 데이터(20)를 융합할 수 있으며, 자기 주의에 따른 각 모달리티 정보는 다음 수학식으로 표현될 수 있다.As shown in FIG. 6, in the data processing sequence of the multi-intersection fusion unit 300 according to an embodiment, the fusion data 20 derived from the single intersection unit is input to the fusion data 20 in which each information is fused. ) , , , , , The fusion data 20 of each segment may be fused according to the weighted correlation and the weighted correlation for features, and each modality information according to self attention may be expressed by the following equation.

[수학식 3][Equation 3]

수학식 1에서, 이고, 이다. 여기서, 멀티 교차 융합부(300)에서 자기 주의로부터 도출된 각 모달리티 정보로 교차 주의를 수행하여 교차 데이터(30)를 도출할 수 있으며, 교차 주의에 따른 교차 데이터(30)는 다음 수학식으로 표현될 수 있다.In Equation 1, ego, am. Here, intersection data 30 may be derived by performing intersection attention with each modality information derived from self-attention in the multi-intersection fusion unit 300, and intersection data 30 according to intersection attention is expressed by the following equation. It can be.

[수학식 4][Equation 4]

수학식 4에서, 이고, 이다.In Equation 4, ego, am.

감정 도출부는 분류 모듈(Classification) 모듈로서 멀티 교차 융합부(300)로부터 도출된 교차 데이터(30)들과 세그먼트 내의 대상인물에 대한 성격 정보를 매칭할 수 있고, 이는 다음 수학식으로 표현될 수 있다.The emotion derivation unit, as a classification module, may match the intersection data 30 derived from the multi-intersection fusion unit 300 with the personality information of the target person in the segment, which can be expressed by the following equation. .

[수학식 5][Equation 5]

수학식 5에서, 대상인물에 대한 특징 정보를 얻기 위해 MLP(Multi-layer perception)의 한 레이어에 입력될 수 있다. 이때, 대상 세그먼트에서 감정을 도출할 대상인물과 다른 대상인물 간의 상관 관계를 구할 수 있으며, 이는 다음 수학식으로 표현될 수 있다.In Equation 5, it may be input to one layer of multi-layer perception (MLP) to obtain feature information on a target person. At this time, it is possible to obtain a correlation between a target person whose emotions are to be derived from the target segment and another target person, which can be expressed by the following equation.

[수학식 6][Equation 6]

수학식 6에서, 도출된 대상 세그먼트()에서 대상 인물의 대표값을 MLP의 두 계층에 입력되고 로그 소프트맥스(log softmax) 함수로 연산되어 감정 정보를 도출할 수 있다.In Equation 6, the derived target segment ( ), the representative value of the target person is input to the two layers of the MLP and calculated with a log softmax function to derive emotion information.

싱글 교차 융합부(100) 및 멀티 교차 융합부(300)의 자기 주의 및 교차 주의는 입력되는 각 정보 및 데이터로부터 다수개의 입력 데이터가 자기 주의로 융합되고, 입력된 정보 및 데이터를 기반으로 사용될 메인 융합 데이터와 메인 융합 데이터와 융합될 다수개의 부가 융합 데이터를 생성하여 교차 주의로 융합되어 각 정보를 기초로 하는 메인 융합 데이터에 서로 다른 정보의 부가 융합 데이터가 융합될 수 있다. 여기서, 메인 융합 데이터, 및 다수개의 부가 융합 데이터는 자기 주의로 입력될 시 동일한 데이터일 수 있고, 교차 주의로 입력될 시에는 각각의 데이터가 서로 다른 데이터일 수 있다. 또한, 다수개의 입력 데이터는 메인 융합 데이터와 다수개의 부가 융합 데이터(20)일 수 있다.The self-attention and cross-attention of the single cross-fusion unit 100 and the multi-intersection fusion unit 300 fuse a plurality of input data from each input information and data into self-attention, and the main to be used based on the input information and data. A plurality of additional fusion data to be fused with the fusion data and the main fusion data are generated and fused in a cross attention, and additional fusion data of different information may be fused to the main fusion data based on each information. Here, the main fusion data and the plurality of additional fusion data may be the same data when input with self attention, and each data may be different data when input with cross attention. Also, the plurality of input data may be main fusion data and a plurality of additional fusion data 20 .

도 7은 일 실시예에 따른 감정 추론 방법을 나타낸 순서도이다.7 is a flowchart illustrating an emotion inference method according to an exemplary embodiment.

도 7에서 나타낸 바와 같이, 일 실시예에 따른 감정 추론 방법은 싱글 교차 융합 단계(S100), 멀티 교차 융합 단계(S300), 및 감정 추론 단계(S500)를 포함할 수 있다.As shown in FIG. 7 , the emotion inference method according to an embodiment may include a single cross-fusion step (S100), a multiple cross-fusion step (S300), and an emotion inference step (S500).

싱글 교차 융합 단계(S100)는 수신된 멀티모달 정보(10)로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터(20)가 각 정보별로 도출될 수 있다.In the single cross-fusion step (S100), fusion data 20 in which different information is fused with respect to image information, sound information, and text information with the received multimodal information 10 may be derived for each information.

멀티 교차 융합 단계(S300)는 상기 각 정보별로 도출된 융합 데이터(20)로 서로 다른 융합 데이터(20)가 융합된 교차 데이터(30)가 각 융합 데이터(20)별로 도출될 수 있다.In the multi-intersection fusion step (S300), intersection data 30 in which different fusion data 20 are fused with the fusion data 20 derived for each information may be derived for each fusion data 20.

감정 추론 단계(S500)는 상기 생성된 교차 데이터(30)에 대응하는 감정 정보가 매칭되어 각 세그먼트별 대상인물의 감정이 도출될 수 있다.In the emotion inference step (S500), the emotion information corresponding to the generated intersection data 30 may be matched to derive the emotion of the target person for each segment.

이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다. Although the present invention has been described in detail through representative embodiments, those skilled in the art will understand that various modifications are possible to the above-described embodiments without departing from the scope of the present invention. will be. Therefore, the scope of the present invention should not be limited to the described embodiments and should not be defined, and should be defined by all changes or modifications derived from the claims and equivalent concepts as well as the claims to be described later.

100: 싱글 교차 융합부 300: 멀티 교차 융합부
500: 감정 추론부
110: 제1 데이터 생성 모듈 130: 제1 연산 모듈
310: 제2 데이터 생성 모듈 330: 제2 연산 모듈
10: 멀티모달 정보 20: 융합 데이터
30: 교차 데이터
100: single cross fusion part 300: multi cross fusion part
500: emotion reasoning unit
110: first data generation module 130: first calculation module
310: second data generation module 330: second calculation module
10: multimodal information 20: fusion data
30: cross data

Claims (7)

수신된 적어도 하나의 세그먼트로부터 이미지 정보, 음향 정보, 및 텍스트 정보 중 적어도 두 개 이상의 정보와 관련된 멀티모달 정보를 이용하여 대상인물의 감정을 도출하는 교차 모달 학습 기반의 감정 추론 시스템에 있어서,
수신된 멀티모달 정보로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터를 각 정보별로 도출하는 싱글 교차 융합부;
상기 각 정보별로 도출된 융합 데이터로 서로 다른 융합 데이터가 융합된 교차 데이터를 각 융합 데이터별로 도출하는 멀티 교차 융합부; 및
상기 생성된 교차 데이터에 대응하는 감정 정보를 매칭하여 각 세그먼트별 대상인물의 감정을 도출하는 감정 추론부를 포함하는 교차 모달 학습 기반의 감정 추론 시스템.
In a cross-modal learning-based emotion inference system for deriving an emotion of a target person by using multimodal information related to at least two or more of image information, sound information, and text information from at least one received segment,
a single cross-fusion unit for deriving fusion data in which different information is fused for each of image information, sound information, and text information with the received multimodal information;
a multi-intersection fusion unit for deriving intersection data in which different fusion data are fused with the fusion data derived for each information, for each fusion data; and
An emotion inference system based on cross-modal learning comprising an emotion inference unit for deriving emotions of a target person for each segment by matching emotion information corresponding to the generated cross-modal data.
제1항에 있어서,
상기 싱글 교차 융합부는 이미지 정보, 음향 정보, 및 텍스트 정보의 싱크를 정규화하는 것을 특징으로 하는 모달 학습 기반의 감정 추론 시스템.
According to claim 1,
The single cross-fusion unit normalizes the sync of image information, sound information, and text information.
제1항에 있어서,
상기 멀티 교차 융합부는 상기 융합 데이터의 누락에 따른 데이터 손실을 최소화하는 것을 특징으로 하는 모달 학습 기반의 감정 추론 시스템.
According to claim 1,
The multi-intersection fusion unit minimizes data loss due to omission of the fusion data.
제1항에 있어서,
상기 융합 데이터 및 교차 데이터는 행렬벡터인 것을 특징으로 하는 교차 모달 학습 기반의 감정 추론 시스템.
According to claim 1,
Emotion inference system based on cross-modal learning, characterized in that the fusion data and cross data are matrix vectors.
제1항에 있어서,
상기 싱글 교차 융합부는 상기 각 정보에 대한 메인 융합 데이터 및 다수개의 부가 융합 데이터를 생성하는 제1 데이터 생성 모듈; 및
생성된 적어도 두 개 이상의 상기 부가 융합 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제1 결과 데이터를 도출한 다음 도출된 제1 결과 데이터와 상기 부가 융합 데이터를 벡터내적으로 연산하여 제2 결과 데이터를 도출하는 제1 연산 모듈을 포함하는 교차 모달 학습 기반의 감정 추론 시스템.
According to claim 1,
The single cross-fusion unit includes a first data generating module generating main fusion data and a plurality of additional fusion data for each information; and
At least two of the generated additional fusion data are computed intra-vector, scaled to remove values that are too large or too small, and compute the scaled data with a softmax function to derive first result data; A cross-modal learning-based emotion inference system comprising a first calculation module for deriving second result data by performing an intra-vector operation on the derived first result data and the additional fusion data.
제1항에 있어서,
상기 멀티 교차 융합부는 상기 각 융합 데이터에 대한 메인 교차 데이터 및 다수개의 부가 교차 데이터를 생성하는 제2 데이터 생성 모듈; 및
생성된 적어도 두 개 이상의 상기 부가 교차 데이터를 벡터내적으로 연산하여 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링하고 스케일링된 데이터를 소프트맥스 함수로 연산하여 제3 결과 데이터를 도출한 다음 도출된 제3 결과 데이터와 상기 부가 교차 데이터를 벡터내적으로 연산하여 제4 결과 데이터를 도출하는 제2 연산 모듈을 포함하는 교차 모달 학습 기반의 감정 추론 시스템.
According to claim 1,
The multi-intersection fusion unit includes a second data generation module generating main intersection data and a plurality of additional intersection data for each of the fusion data; and
At least two of the additional intersection data generated are computed intra-vector, scaled to remove values that are too large or too small, and compute the scaled data with a softmax function to derive third result data, A cross-modal learning-based emotion inference system comprising a second calculation module that derives fourth result data by performing an intra-vector operation on the derived third result data and the additional intersection data.
제1항의 교차 모달 학습 기반의 감정 추론 시스템에서 수행되는 교차 모달 학습 기반의 감정 추론 방법에 있어서,
수신된 멀티모달 정보로 이미지 정보, 음향 정보, 및 텍스트 정보 각각에 대하여 서로 다른 정보가 융합된 융합 데이터가 각 정보별로 도출되는 싱글 교차 융합 단계;
상기 각 정보별로 도출된 융합 데이터로 서로 다른 융합 데이터가 융합된 교차 데이터가 각 융합 데이터별로 도출되는 멀티 교차 융합 단계; 및
상기 생성된 교차 데이터에 대응하는 감정 정보가 매칭되어 각 세그먼트별 대상인물의 감정이 도출되는 감정 추론 단계를 포함하는 교차 모달 학습 기반의 감정 추론 방법.
In the cross-modal learning-based emotion inference method performed in the cross-modal learning-based emotion inference system of claim 1,
a single cross-fusion step of deriving fusion data in which different information is fused with respect to image information, sound information, and text information with the received multimodal information for each information;
a multi-intersection fusion step of deriving intersection data for each fusion data in which different fusion data are fused with the fusion data derived for each information; and
Emotion inference method based on cross-modal learning comprising an emotion inference step of matching emotion information corresponding to the generated cross-modal data to derive emotion of a target person for each segment.
KR1020220026168A 2022-02-28 2022-02-28 Cross-modal learning-based emotion inference system and method KR20230128812A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220026168A KR20230128812A (en) 2022-02-28 2022-02-28 Cross-modal learning-based emotion inference system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220026168A KR20230128812A (en) 2022-02-28 2022-02-28 Cross-modal learning-based emotion inference system and method

Publications (1)

Publication Number Publication Date
KR20230128812A true KR20230128812A (en) 2023-09-05

Family

ID=87973602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220026168A KR20230128812A (en) 2022-02-28 2022-02-28 Cross-modal learning-based emotion inference system and method

Country Status (1)

Country Link
KR (1) KR20230128812A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (en) * 2023-11-10 2023-12-15 南京信息工程大学 Medical image problem vision solving method based on fine granularity cross attention
CN117592014A (en) * 2024-01-19 2024-02-23 北京科技大学 Multi-modal fusion-based large five personality characteristic prediction method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279797B1 (en) 2021-03-05 2021-07-21 전남대학교산학협력단 Multimodal data fusion system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279797B1 (en) 2021-03-05 2021-07-21 전남대학교산학협력단 Multimodal data fusion system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (en) * 2023-11-10 2023-12-15 南京信息工程大学 Medical image problem vision solving method based on fine granularity cross attention
CN117592014A (en) * 2024-01-19 2024-02-23 北京科技大学 Multi-modal fusion-based large five personality characteristic prediction method

Similar Documents

Publication Publication Date Title
US11263409B2 (en) System and apparatus for non-intrusive word and sentence level sign language translation
Eskimez et al. Speech driven talking face generation from a single image and an emotion condition
CN110866184A (en) Short video data label recommendation method and device, computer equipment and storage medium
KR20230128812A (en) Cross-modal learning-based emotion inference system and method
US20210319897A1 (en) Multimodal analysis combining monitoring modalities to elicit cognitive states and perform screening for mental disorders
US11093734B2 (en) Method and apparatus with emotion recognition
CN108363492B (en) Man-machine interaction method and interaction robot
CN110737801A (en) Content classification method and device, computer equipment and storage medium
CN109508375A (en) A kind of social affective classification method based on multi-modal fusion
WO2022161298A1 (en) Information generation method and apparatus, device, storage medium, and program product
US20200314490A1 (en) Media manipulation using cognitive state metric analysis
US11900518B2 (en) Interactive systems and methods
JP2022505783A (en) Visual recognition of privacy protection through hostile learning
Wu et al. Multimodal large language models: A survey
KR101887637B1 (en) Robot system
US20230082605A1 (en) Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium
KR20190089451A (en) Electronic device for providing image related with text and operation method thereof
CN111695010A (en) System and method for learning sensory media associations without text labels
CN114580425B (en) Named entity recognition method and device, electronic equipment and storage medium
WO2021084810A1 (en) Information processing device, information processing method, and artificial intelligence model manufacturing method
Rastgoo et al. All You Need In Sign Language Production
CN113515188A (en) Apparatus and method for cross-modal conversion of feature vectors to audio for auxiliary devices
Qayyum et al. Spontaneous Facial Behavior Analysis Using Deep Transformer-based Framework for Child–computer Interaction
Mallios Virtual doctor: an intelligent human-computer dialogue system for quick response to people in need
Liang Cross-Modal Information Recovery and Enhancement Using Multiple-Input Multiple-Output Variational Autoencoder