KR20240093516A - 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식 - Google Patents

멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식 Download PDF

Info

Publication number
KR20240093516A
KR20240093516A KR1020247014149A KR20247014149A KR20240093516A KR 20240093516 A KR20240093516 A KR 20240093516A KR 1020247014149 A KR1020247014149 A KR 1020247014149A KR 20247014149 A KR20247014149 A KR 20247014149A KR 20240093516 A KR20240093516 A KR 20240093516A
Authority
KR
South Korea
Prior art keywords
network
input
emotion
multimodal
utterance
Prior art date
Application number
KR1020247014149A
Other languages
English (en)
Inventor
판카즈 와스닉
나오유키 오노에
비샬 추다사마
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20240093516A publication Critical patent/KR20240093516A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 사용하는 랜드마크 검출의 시스템 및 방법이 제공된다. 시스템은, 하나 이상의 피처 추출기, 트랜스포머 인코더들의 네트워크, 융합 어텐션 네트워크, 및 융합 어텐션 네트워크에 커플링되는 출력 네트워크를 포함하는 멀티모달 융합 네트워크를 저장하도록 구성되는 메모리 및 회로부를 포함한다. 시스템은 하나 이상의 피처 추출기에 멀티모달 입력을 입력한다. 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관된다. 시스템은 입력에 대한 하나 이상의 피처 추출기의 출력으로서 입력 임베딩들을 생성하고, 입력 임베딩들에 기초하여 감정 관련 피처들의 세트를 추가로 생성한다. 시스템은 추가로 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하고, 융합된 피처 표현에 기초하여 발화에 대한 감정 레이블을 예측한다.

Description

멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식
관련 출원들에 대한 상호 참조/참조에 의한 포함
본 출원은, 2021년 11월 12일자로 출원된 미국 가특허 출원 제63/263,961호에 대한 우선권을 주장하는, 2022년 9월 9일자로 미국 특허청에 출원된 미국 출원 일련 번호 제17/941,787호의 우선권 이익을 주장하고, 그의 전체 내용이 이로써 본 명세서에 참조로 포함된다.
분야
본 개시내용의 다양한 실시예들은 뉴럴 네트워크들 및 감정 인식에 관한 것이다. 더 구체적으로는, 본 개시내용의 다양한 실시예들은 멀티모달 융합 기반 딥 뉴럴 네트워크(multi-modal fusion-based deep neural network)를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 시스템 및 방법에 관한 것이다.
컴퓨터 비전 및 인공 지능의 진보들이, 대화들에 있어서의 감정 인식과 같은, 상이한 적용예들에서 사용될 수도 있는 다양한 종류들의 뉴럴 네트워크들(또는 모델들)의 개발로 이어졌다. 전형적으로, 감정 인식은 멀티미디어 비디오들(예를 들어, 영화들, 웹 시리즈, 뉴스, 및 이와 유사한 것)에서 나타낸 대화(들)로부터 화자(speaker)의 감정 상태를 예측하는 데 사용된다. 감정 인식은 공감형 휴먼 머신 시스템(sympathetic human machine system)들의 개발에 중대하다. 대화들의 경우에, 감정 인식을 위한 전통적인 접근법들은 대부분 대화의 텍스트 전사본(text transcript)에 의존한다. 텍스트 전사본의 임의의 부정확성이 예측들(예를 들어, 감정 레이블(emotion label))의 정확성에 영향을 미칠 수도 있다. 감정 인식을 위한 많은 최첨단 기법들은, 대화와 연관된 시각 및 음향 신호들에 존재하는 방대한 양의 정보를 무시한다.
본 출원의 나머지 부분에 그리고 도면들을 참조하여 제시된 바와 같은, 본 개시내용의 일부 양태들과의 설명된 시스템들의 비교를 통해, 종래의 그리고 전통적인 접근법들의 제한들 및 단점들이 본 기술분야의 통상의 기술자에게 명백해질 것이다.
청구범위에서 더 완전하게 제시된 바와 같이, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 시스템 및 방법이, 실질적으로 도면들 중 적어도 하나에 도시되거나 그리고/또는 이와 관련하여 설명된 바와 같이 제공된다.
본 개시내용의 이들 그리고 다른 피처(feature)들 및 이점들은, 유사한 참조 번호들이 전반에 걸쳐 유사한 부분들을 지칭하는 첨부 도면들과 함께, 본 개시내용의 다음의 상세한 설명의 검토로부터 인지될 수도 있다.
도 1은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 네트워크 환경을 예시하는 다이어그램이다.
도 2는 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 예시적인 시스템의 블록 다이어그램이다.
도 3은 본 개시내용의 일 실시예에 따른, 도 1의 멀티모달 융합 네트워크의 예시적인 아키텍처를 예시하는 다이어그램이다.
도 4는 본 개시내용의 일 실시예에 따른, 도 3의 멀티모달 융합 어텐션 네트워크(multimodal fusion attention network)의 예시적인 시각 피처 추출기(visual feature extractor)를 예시하는 다이어그램이다.
도 5는 본 개시내용의 일 실시예에 따른, 도 3의 융합 어텐션 네트워크들의 세트 중 한 융합 어텐션 네트워크의 예시적인 아키텍처를 예시하는 다이어그램이다.
도 6은 본 개시내용의 일 실시예에 따른, 하나 이상의 피처 추출기의 음향-시각 피처 추출기의 예시적인 아키텍처를 예시하는 다이어그램이다.
도 7은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 예시적인 시나리오를 예시하는 다이어그램이다.
도 8은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식의 예시적인 방법을 예시하는 흐름도이다.
다음에 설명되는 구현들은 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 개시된 시스템 및 방법에서 발견될 수도 있다. 시스템은, 하나 이상의 피처 추출기, 하나 이상의 피처 추출기에 커플링되는 트랜스포머 인코더(transformer encoder)들의 네트워크, 트랜스포머 인코더들의 네트워크에 커플링되는 융합 어텐션 네트워크, 및 융합 어텐션 네트워크에 커플링되는 출력 네트워크를 포함하는 멀티모달 융합 네트워크를 저장하도록 구성되는 메모리 및 회로부를 포함한다. 시스템은 하나 이상의 피처 추출기에 멀티모달 입력을 입력할 수도 있다. 멀티모달 입력은, 하나 이상의 비디오(예컨대, 영화)에서 나타낸 발화(utterance)와 연관될 수도 있다. 시스템은 입력에 대한 하나 이상의 피처 추출기의 출력으로서 입력 임베딩(input embedding)들을 생성할 수도 있다. 입력 임베딩들은 멀티모달 입력의 각각의 모달리티(modality)에 대한 임베딩을 포함할 수도 있다. 시스템은 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크의 적용에 기초하여 감정 관련 피처들의 세트를 추가로 생성할 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함한다. 시스템은 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크의 적용에 기초하여 감정 관련 피처들의 세트의 융합된 피처 표현을 추가로 생성할 수도 있다. 융합된 피처 표현에 대한 출력 네트워크의 적용에 기초하여, 시스템은 발화에 대한 감정 레이블(예컨대, 분노, 중립, 행복, 슬픔 등)을 예측할 수도 있다.
감정들은, 대상(사람)의 생각들 및 느낌들에 링크될 수도 있는 보이지 않는 정신 상태들로서 설명될 수 있다. 생리학적 표시들의 부존재 시에, 감정들은 텍스트 발화들, 시각적 제스처들, 및 음향 신호들과 같은 인간 액션들에 의해서만 단지 검출될 수 있다. 대화들에 있어서의 감정 인식은 이들의 텍스트, 시각적, 및 음향 단서들에 따라 대화들에서 대상의 감정들을 인식하려고 한다. 현재, 보존에 있어서의 감정 인식은 멀티미디어 콘텐츠(예컨대, 비디오들) 분석 및 조정(moderation)의 맥락에서 필수적인 태스크가 되어, 사용자들과 콘텐츠 사이의 상호작용의 성질을 이해하는 데 도움이 된다. 대화들에 있어서의 감정 인식은 AI 인터뷰들, 개인화된 다이얼로그 시스템(personalized dialogue system)들, 채팅 이력에 대한 오피니언 마이닝(opinion mining), 및 소셜 미디어 플랫폼들에서의 콘텐츠의 사용자 지각의 이해와 같은 많은 다른 태스크들에서의 다른 중요한 적용예들을 갖는다.
감정 인식을 위한 현재 최첨단 방법들은, 대화들에 있어서의 감정 인식의 태스크가 순전히 텍스트 기반 태스크로서 틀이 잡혀져 있다. 구체적으로, 대화들에 있어서의 감정 인식을 위한 현재 최첨단 방법들은, 대상과 연관된 텍스트 데이터에 기초하여 대상의 감정 상태를 결정한다. 텍스트 데이터는, 대상이 말한 오디오의 전사물(transcription)에 대응할 수도 있다. 그러나, 멀티미디어 콘텐츠의 음향 및 시각 모달리티들에 존재하는 방대한 양의 정보가 대상의 감정 상태의 결정에 있어서 고려되지 않는다.
본 개시내용은 발화들과 연관된 적어도 3개의 상이한 모달리티(음향 모달리티, 텍스트 모달리티, 및 시각 모달리티)를 사용하여 대상의 감정 상태를 검출하는 뉴럴 네트워크 아키텍처를 제공한다. 실험 데이터에 기초하여, 3개의 모달리티의 적절한 융합이 현재 최첨단 시스템들의 품질 및 강건성(robustness)을 개선시킬 수도 있다. 개시된 시스템은, 감정 예측들에 기여하는 각각의 모달리티를 입력으로서 취할 수도 있고 대상의 감정 상태를 검출한다. 개시된 방법은 현재 최첨단 방법들에 비해 더 일반화될 수도 있다.
본 개시내용은, 삼중항 손실 함수(triplet loss function)의 중요성을 활용하기 위해 삼중항 네트워크에 기초하여 설계될 수도 있는 음향-시각 피처 추출기를 또한 제공할 수도 있다. 음향-시각 피처 추출기는, 적응형 마진 삼중항 손실 함수, 공분산 손실 함수(covariance loss function), 및 분산 손실 함수(variance loss function)를 포함하는 삼중 손실 함수에 대해 트레이닝된다.
도 1은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 네트워크 환경을 예시하는 다이어그램이다. 도 1을 참조하면, 네트워크 환경(100)의 다이어그램이 도시되어 있다. 네트워크 환경(100)은 시스템(102)을 포함한다. 시스템(102)은 회로부(104) 및 메모리(106)를 포함한다. 메모리는 멀티모달 융합 네트워크(108)를 포함할 수도 있다. 멀티모달 융합 네트워크(108)는 하나 이상의 피처 추출기(110), 트랜스포머 인코더들의 네트워크(112), 융합 어텐션 네트워크(114), 및 출력 네트워크(116)를 포함할 수도 있다. 도 1을 참조하면, 디스플레이 디바이스(118), 서버(120), 및 통신 네트워크(122)가 추가로 도시되어 있다. 도 1을 참조하면, 디스플레이 디바이스(118) 상에 디스플레이되는 예측된 감정 레이블(126) 및 멀티모달 입력(124)이 또한 도시되어 있다.
회로부(104)는, 시스템(102)에 의해 실행될 상이한 동작들과 연관된 프로그램 명령어들을 실행하도록 구성될 수도 있는 적합한 로직, 회로부, 및 인터페이스들을 포함할 수도 있다. 회로부(104)는 본 기술분야에 알려져 있는 다수의 프로세서 기술들에 기초하여 구현될 수도 있다. 프로세서 기술들의 예들은 중앙 프로세싱 유닛(Central Processing Unit)(CPU), x86 기반 프로세서, 축소 명령 세트 컴퓨팅(Reduced Instruction Set Computing)(RISC) 프로세서, 주문형 집적 회로(Application-Specific Integrated Circuit)(ASIC) 프로세서, 복합 명령 세트 컴퓨팅(Complex Instruction Set Computing)(CISC) 프로세서, 그래픽 프로세싱 유닛(Graphical Processing Unit)(GPU), 코-프로세서(co-processor)(예컨대, 추론 가속기 또는 인공 지능(Artificial Intelligence)(AI) 가속기), 및/또는 이들의 조합을 포함할 수도 있지만, 이에 제한되지 않는다.
메모리(106)는, 회로부(104)에 의해 실행가능한 프로그램 명령어들을 저장하도록 구성될 수도 있는 적합한 로직, 회로부, 및/또는 인터페이스들을 포함할 수도 있다. 메모리(106)는 또한 멀티모달 융합 네트워크(108)를 저장할 수도 있다. 적어도 하나의 실시예에서, 메모리(106)는, 멀티모달 융합 네트워크(108)에 대한 입력 데이터, 멀티모달 입력 임베딩들을 사용하여 획득된 중간 결과들, 멀티모달 융합 네트워크(108)에 의해 예측된 감정 레이블(들)을 또한 저장할 수도 있다. 메모리(106)의 구현의 예들은 랜덤 액세스 메모리(Random Access Memory)(RAM), 판독 전용 메모리(Read Only Memory)(ROM), 전기적 소거가능 프로그래밍가능 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory)(EEPROM), 하드 디스크 드라이브(Hard Disk Drive)(HDD), 솔리드 스테이트 드라이브(Solid-State Drive)(SSD), CPU 캐시, 및/또는 보안 디지털(Secure Digital)(SD) 카드를 포함할 수도 있지만, 이에 제한되지 않는다.
멀티모달 융합 네트워크(108)는, 복수의 계층들에 배열되는 인공 뉴런들의 시스템 또는 컴퓨테이션 네트워크일 수도 있다. 멀티모달 융합 네트워크(108)는, 하나 이상의 비디오에서 나타낸 발화(즉, 대화들에 있어서의 감정 인식)에 대한 감정 레이블(예를 들어, 감정 레이블(126))을 예측하도록 트레이닝될 수도 있다.
멀티모달 융합 네트워크(108)는, 하나 이상의 피처 추출기(110), 하나 이상의 피처 추출기(110)에 커플링되는 트랜스포머 인코더들의 네트워크(112), 트랜스포머 인코더들의 네트워크(112)에 커플링되는 융합 어텐션 네트워크(114), 및 융합 어텐션 네트워크(114)에 커플링되는 출력 네트워크(116)를 포함한다. 멀티모달 융합 네트워크(108)의 동작들이 2개의 스테이지로 분할될 수도 있다. 제1 스테이지(즉, 발화 레벨)에서, 피처들이 발화 레벨에서 독립적으로 추출될 수도 있다. 그 후, 제2 스테이지(즉, 다이얼로그 레벨)에서, 네트워크는 대화로부터의 맥락 정보를 사용함으로써 각각의 발화에 대한 감정 레이블을 예측하는 것을 학습할 수도 있다. 발화는, 다자간 대화에서 당사자들 중 한 사람이 말할 수도 있는 짧은 구두 세그먼트에 대응할 수도 있고, 텍스트 전사본, 비디오 클립, 및 오디오 세그먼트를 가질 수도 있다. 다이얼로그는, 그러한 발화들이 시간에 따라 발생한 순서로 다수의 발화들을 포함할 수도 있다.
하나 이상의 피처 추출기(110) 각각은 멀티모달 입력(예를 들어, 멀티모달 입력(124))의 각각의 모달리티에 대한 입력 임베딩들의 생성을 위한 하나 이상의 동작을 수행하도록 구성될 수도 있다. 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더는 감정 관련 피처들의 세트의 생성을 위한 하나 이상의 동작을 수행하도록 구성될 수도 있다. 융합 어텐션 네트워크(114)는 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 구성될 수도 있다. 구체적으로, 융합 어텐션 네트워크(114)는 감정 관련 피처들의 세트에 대한 하나 이상의 멀티헤드 어텐션 동작(multi-head attention operation)의 적용에 기초하여 융합된 피처 표현을 생성하도록 구성될 수도 있다. 출력 네트워크(116)는, 멀티모달 입력(124)과 연관된 발화에 대한 감정 레이블(126)을 예측하도록 구성될 수도 있다. 출력 네트워크(116)는 융합된 피처 표현에 기초하여 감정 레이블(126)을 예측할 수도 있다. 출력 네트워크(116)는, 감정 레이블(126)을 예측하도록 구성될 수도 있는 완전 연결 계층(fully connected layer)을 포함할 수도 있다. 출력 네트워크(116)에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
하나 이상의 피처 추출기(110) 각각, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는, 복수의 계층들에 배열될 수도 있는 인공 뉴런들의 시스템 또는 뉴럴 네트워크일 수도 있다. 뉴럴 네트워크의 복수의 계층들은 입력 계층, 하나 이상의 히든 계층, 및 출력 계층을 포함할 수도 있다. 복수의 계층들의 각각의 계층은 하나 이상의 노드(즉, 인공 뉴런)를 포함할 수도 있다. 입력 계층에서의 모든 노드들의 출력들은 히든 계층(들)의 적어도 하나의 노드에 커플링될 수도 있다. 유사하게, 각각의 히든 계층의 입력들은 뉴럴 네트워크 모델의 다른 계층들에서의 적어도 하나의 노드의 출력들에 커플링될 수도 있다. 각각의 히든 계층의 출력들은 뉴럴 네트워크의 다른 계층들에서의 적어도 하나의 노드의 입력들에 커플링될 수도 있다. 최종 계층에서의 노드(들)는 적어도 하나의 히든 계층으로부터 입력들을 수신하여 결과를 출력할 수도 있다. 계층들의 수 및 각각의 계층에서의 노드들의 수는 뉴럴 네트워크의 하이퍼-파라미터들로부터 결정될 수도 있다. 그러한 하이퍼-파라미터들은 트레이닝 데이터세트에 대해 뉴럴 네트워크를 트레이닝시키기 전에 또는 그 후에 설정될 수도 있다. 멀티모달 융합 네트워크(108)의 경우, 트레이닝 데이터세트는 멀티모달 입력들의 세트 및 대응하는 감정 레이블들을 지상 검증자료 값(ground truth value)들로서 포함할 수도 있다. 각각의 멀티모달 입력은, 발화의 오디오, 발화를 생성하는 하나 이상의 캐릭터에서의 장면의 하나 이상의 프레임, 및 오디오의 텍스트 전사본 중 적어도 하나를 포함할 수도 있다.
뉴럴 네트워크의 각각의 노드는, 네트워크의 트레이닝 동안 튜닝가능한, 파라미터들의 세트를 갖는 수학적 함수(예를 들어, 시그모이드 함수(sigmoid function) 또는 정류된 선형 유닛(rectified linear unit))에 대응할 수도 있다. 파라미터들의 세트는, 예를 들어, 가중치 파라미터, 정규화 파라미터, 및 이와 유사한 것을 포함할 수도 있다. 각각의 노드는 뉴럴 네트워크의 다른 계층(들)(예를 들어, 이전 계층(들))에서의 노드들로부터의 하나 이상의 입력에 기초하여 출력을 컴퓨팅하기 위해 수학적 함수를 사용할 수도 있다. 뉴럴 네트워크의 노드들 중 전부 또는 일부가, 동일한 또는 상이한 수학적 함수에 대응할 수도 있다.
뉴럴 네트워크의 트레이닝에서, 뉴럴 네트워크의 각각의 노드의 하나 이상의 파라미터는, 뉴럴 네트워크에 대한 손실 함수에 기초하여 (트레이닝 데이터세트로부터의) 주어진 입력에 대한 최종 계층의 출력이 올바른 결과와 매칭되는지 여부에 기초하여 업데이트될 수도 있다. 손실 함수의 최소치에 도달될 수도 있을 때까지 동일한 또는 상이한 입력에 대해 상기의 프로세스가 반복될 수도 있고, 트레이닝 에러가 최소화될 수도 있다. 트레이닝을 위한 몇몇 방법들, 예를 들어, 경사 하강법(gradient descent), 확률적 경사 하강법(stochastic gradient descent), 배치 경사 하강법(batch gradient descent), 경사 부스트(gradient boost), 메타-휴리스틱스(meta-heuristics), 및 이와 유사한 것이 본 기술분야에 알려져 있다.
하나 이상의 피처 추출기(110) 각각, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는, 예를 들어, 시스템(102) 상에서 실행가능한 애플리케이션의 소프트웨어 컴포넌트로서 구현될 수도 있는 전자 데이터를 포함할 수도 있다. 하나 이상의 피처 추출기(110) 각각, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는, 회로부(104)와 같은 프로세싱 디바이스에 의한 실행을 위해 라이브러리들, 외부 스크립트들, 또는 다른 로직/명령어들에 의존할 수도 있다. 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는, 회로부(104)와 같은 컴퓨팅 디바이스가 하나 이상의 동작을 수행하는 것을 가능하게 하도록 구성되는 코드 및 루틴들을 포함할 수도 있다. 예를 들어, 하나 이상의 피처 추출기(110) 각각은, 수신된 멀티모달 입력(124)의 각각의 모달리티에 대한 입력 임베딩들의 생성을 위한 하나 이상의 동작을 수행할 수도 있다. 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더는 감정 관련 피처들의 세트의 생성을 위한 하나 이상의 동작을 수행할 수도 있다. 부가적으로 또는 대안적으로, 하나 이상의 피처 추출기(110) 각각, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는 프로세서, 마이크로프로세서(예를 들어, 하나 이상의 동작을 수행하거나 또는 그의 수행을 제어하기 위함), 텐서 프로세싱 유닛(Tensor Processing Unit)(TPU), 필드 프로그래밍가능 게이트 어레이(field-programmable gate array)(FPGA), 또는 주문형 집적 회로(ASIC)를 포함하는 하드웨어를 사용하여 구현될 수도 있다. 대안적으로, 일부 실시예들에서, 하나 이상의 피처 추출기(110) 각각, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더, 융합 어텐션 네트워크(114), 및 출력 네트워크(116)는 하드웨어와 소프트웨어의 조합을 사용하여 구현될 수도 있다.
일 실시예에서, 트랜스포머 인코더들의 네트워크(112)의 각각의 인코더는 각각의 모달리티에 대한 입력 임베딩들을 입력으로서 병렬로(즉, 동시에) 수신하고 감정 관련 피처들의 세트를 출력으로서 동시에 제공하도록 구성될 수도 있다. 제한이 아닌 예로서, 각각의 인코더는 멀티헤드 어텐션 계층, 및 피드 포워드 뉴럴 네트워크(feed forward neural network)를 포함할 수도 있다.
일 실시예에서, 융합 어텐션 네트워크(114)는, 시각 모달리티 및 음향 모달리티를, 발화와 연관된 텍스트 모달리티와 통합시키는 데 사용될 수도 있다. 융합 어텐션 네트워크(114)는 하나 이상의 멀티헤드 어텐션 계층 및 제1 완전 연결 계층을 포함할 수도 있다. 융합 어텐션 네트워크에 관한 세부사항들이, 예를 들어, 도 5에 제공된다.
디스플레이 디바이스(118)는, 멀티모달 입력(124)과 연관된 발화에 대한 감정 레이블(126)을 디스플레이하도록 구성될 수도 있는 적합한 로직, 회로부, 및 인터페이스들을 포함할 수도 있다. 일 실시예에서, 디스플레이 디바이스(118)는, 멀티모달 입력(124) 및 그 멀티모달 입력(124)의 발화 레벨 부분에 대응하는 감정 레이블(126)을 디스플레이하도록 구성될 수도 있다. 디스플레이 디바이스(118)는 액정 디스플레이(Liquid Crystal Display)(LCD) 디스플레이, 발광 다이오드(Light Emitting Diode)(LED) 디스플레이, 플라즈마 디스플레이, 또는 유기 LED(Organic LED)(OLED) 디스플레이 기술, 또는 다른 디스플레이 디바이스들 중 적어도 하나와 같은 - 그러나 이에 제한되지 않음 - 몇몇 알려진 기술들을 통해 실현될 수도 있다. 일 실시예에 따르면, 디스플레이 디바이스(118)는 헤드 마운티드 디바이스(head mounted device)(HMD)의 디스플레이 스크린, 스마트 글라스 디바이스(smart-glass device), 시스루 디스플레이(see-through display), 프로젝션 기반 디스플레이(projection-based display), 일렉트로크로믹 디스플레이(electro-chromic display), 또는 투명 디스플레이를 지칭할 수도 있다.
다른 실시예에서, 디스플레이 디바이스(118)는, 디스플레이 디바이스(118) 상에서 실행가능한 소프트웨어 프로그램 또는 서비스(예컨대, 애플리케이션 프로그래밍 인터페이스(Application Programming Interface)(API) 기반 서비스)의 일부로서 멀티모달 융합 네트워크(108)를 구현할 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 멀티모달 융합 네트워크(108)는 멀티모달 융합 네트워크(108)의 트레이닝이 시스템(102) 상에서 완료된 후에 디스플레이 디바이스(118) 상에서 구현될 수도 있다. 디스플레이 디바이스(118)의 예들은 컴퓨팅 디바이스, 메인프레임 머신, 서버, 컴퓨터 워크스테이션, 스마트폰, 셀룰러 폰, 모바일 폰, 게이밍 디바이스, 웨어러블 디스플레이, 소비자 가전(consumer electronic)(CE) 디바이스, 및/또는 이미지 프로세싱 능력들을 갖는 임의의 다른 디바이스를 포함할 수도 있지만, 이에 제한되지 않는다.
서버(120)는, 감정 인식 및 다른 동작들, 예컨대 미디어 스트리밍 동작의 목적을 위해 하나 이상의 비디오를 저장하도록 구성될 수도 있는 적합한 로직, 회로부, 및 인터페이스들, 및/또는 코드를 포함할 수도 있다. 서버(120)는, 예측될 수도 있는 감정 레이블(126) 또는 비디오의 발화 레벨 부분을 또한 저장하도록 구성될 수도 있다. 서버(120)는 클라우드 서버로서 구현될 수도 있고, 웹 애플리케이션들, 클라우드 애플리케이션들, HTTP 요청들, 리포지토리 동작들, 파일 전송, 및 이와 유사한 것을 통해 동작들을 실행할 수도 있다. 서버(120)의 다른 예시적인 구현들은 미디어 서버, 데이터베이스 서버, 파일 서버, 웹 서버, 애플리케이션 서버, 메인프레임 서버, 또는 클라우드 컴퓨팅 서버를 포함할 수도 있지만, 이에 제한되지 않는다.
적어도 하나의 실시예에서, 서버(120)는 본 기술분야의 통상의 기술자들에게 잘 알려져 있는 몇몇 기술들의 사용에 의해 복수의 분산된 클라우드 기반 리소스들로서 구현될 수도 있다. 본 기술분야의 통상의 기술자는 본 개시내용의 범주가 2개의 별개의 엔티티로서의 서버(120) 및 시스템(102)의 구현으로 제한되지 않을 수도 있다는 것을 이해할 것이다. 특정 실시예들에서, 서버(120)의 기능성들은 본 개시내용의 범주로부터 벗어남이 없이 전체적으로 또는 적어도 부분적으로 시스템(102)에 포함될 수 있다.
통신 네트워크(122)는, 시스템(102), 디스플레이 디바이스(118), 및 서버(120)가 서로 통신할 수도 있게 하는 통신 매체를 포함할 수도 있다. 통신 네트워크(122)는 유선 커넥션 또는 무선 커넥션 중 하나를 포함할 수도 있다. 통신 네트워크(122)의 예들은 인터넷, 클라우드 네트워크, 셀룰러 또는 무선 모바일 네트워크(예컨대, 롱 텀 에볼루션(Long-Term Evolution) 및 5G 뉴 라디오(New Radio)), 무선 충실도(Wireless Fidelity)(Wi-Fi) 네트워크, 개인 영역 네트워크(Personal Area Network)(PAN), 로컬 영역 네트워크(Local Area Network)(LAN), 또는 도시 영역 네트워크(Metropolitan Area Network)(MAN)를 포함할 수도 있지만, 이에 제한되지 않는다. 네트워크 환경(100)에서의 다양한 디바이스들은 다양한 유선 및 무선 통신 프로토콜들에 따라 통신 네트워크(122)에 연결하도록 구성될 수도 있다. 그러한 유선 및 무선 통신 프로토콜들의 예들은 송신 제어 프로토콜 및 인터넷 프로토콜(Transmission Control Protocol and Internet Protocol)(TCP/IP), 사용자 데이터그램 프로토콜(User Datagram Protocol)(UDP), 하이퍼텍스트 전송 프로토콜(Hypertext Transfer Protocol)(HTTP), 파일 전송 프로토콜(File Transfer Protocol)(FTP), 지그비(Zig Bee), EDGE, IEEE 802.11, Li-Fi(light fidelity), 802.16, IEEE 802.11s, IEEE 802.11g, 멀티-홉 통신, 무선 액세스 포인트(access point)(AP), 디바이스 대 디바이스 통신(device to device communication), 셀룰러 통신 프로토콜들, 및 블루투스(Bluetooth)(BT) 통신 프로토콜들 중 적어도 하나를 포함할 수도 있지만, 이에 제한되지 않는다.
동작 시에, 회로부(104)는 멀티모달 입력(124)을 하나 이상의 피처 추출기(110)에 입력하도록 구성될 수도 있다. 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관될 수도 있다. 예를 들어, 멀티모달 입력은, 발화의 음향들과 연관된 제1 모달리티, 발화의 텍스트 전사본과 연관된 제2 모달리티, 및 발화의 시각적 양태와 연관된 제3 모달리티를 포함할 수도 있다. 일 실시예에서, 멀티모달 입력은, 대응하는 발화와 연관된 대상(즉, 화자)의 하나 이상의 생물학적 파라미터와 연관될 수도 있는 제4 모달리티를 더 포함할 수도 있다.
회로부(104)는 입력에 대한 하나 이상의 피처 추출기(110)의 출력으로서 입력 임베딩들을 생성하도록 구성될 수도 있다. 입력 임베딩들은 멀티모달 입력(124)의 각각의 모달리티에 대한 임베딩을 포함할 수도 있다. 일 실시예에서, 입력 임베딩은 대응하는 모달리티의 피처들에 대응할 수도 있다. 더 구체적으로는, 입력 임베딩은 이산 변수들의 저차원의 학습된 연속 벡터 표현들이라고 지칭될 수도 있다. 입력 임베딩들의 생성에 기초하여, 회로부(104)는 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크(112)의 적용에 기초하여 감정 관련 피처들의 세트를 생성하도록 추가로 구성될 수도 있다. 일 실시예에서, 트랜스포머 인코더들의 네트워크(112)는 입력 임베딩들에 대해 적용되어 각각의 모달리티에 관련하여 대응하는 발화의 맥락을 학습할 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력(124)의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함할 수도 있다. 감정 관련 피처들의 세트에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
각각의 모달리티를 대응하는 텍스트 벡터 공간에 매핑시키기 위해, 회로부는 감정 관련 피처들의 세트에 대해 융합 어텐션 네트워크(114)를 적용하도록 구성될 수도 있다. 다른 실시예에서, 융합 어텐션 네트워크(114)는, 다이얼로그와 연관된 시각 및 음향 정보를 통합시키는 데 사용될 수도 있다. 구체적으로, 회로부(104)는 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크(114)의 적용에 기초하여 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 추가로 구성될 수도 있다. 사용된 피처 표현에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
융합된 피처 표현의 생성 후에, 회로부(104)는, 멀티모달 입력(124)과 연관된 발화에 대한 감정 레이블(126)을 예측하도록 구성될 수도 있다. 감정 레이블(126)은 융합된 피처 표현에 대한 출력 네트워크(116)의 적용에 기초하여 예측될 수도 있다. 일 실시예에서, 회로부(104)는 디스플레이 디바이스(118) 상에 예측된 감정 레이블(126)을 렌더링하도록 디스플레이 디바이스(118)를 제어하도록 추가로 구성될 수도 있다. 감정 레이블(126) 및 그 감정 레이블(126)의 예측에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
도 2는 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 시스템의 예시적인 블록 다이어그램이다. 도 2는 도 1로부터의 요소들과 관련하여 기술된다. 도 2를 참조하면, 도 1의 시스템(102)의 블록 다이어그램(200)이 도시되어 있다. 시스템은, 회로부(104), 메모리(106), 멀티모달 융합 네트워크(108), 입/출력(I/O) 디바이스(202), 네트워크 인터페이스(204), 추론 가속기(206), 번역기 모델(208), 얼굴 검출 모델(210), 장면 검출 모델(212), 및 단일 경계 검출 모델(214)을 포함한다.
I/O 디바이스(202)는, 하나 이상의 사용자 입력을 수신하거나 그리고/또는 시스템(102)에 의해 생성된 정보(예컨대, 예측된 감정 레이블(126))를 렌더링하도록 구성될 수도 있는 적합한 로직, 회로부, 및/또는 인터페이스들을 포함할 수도 있다. I/O 디바이스(202)는, 시스템(102)의 상이한 동작 컴포넌트들과 통신하도록 구성될 수도 있는 다양한 입력 및 출력 디바이스들을 포함할 수도 있다. I/O 디바이스(202)의 예들은 터치 스크린, 키보드, 마우스, 조이스틱, 마이크로폰, 및 디스플레이 디바이스(예컨대, 디스플레이 디바이스(118))를 포함할 수도 있지만, 이에 제한되지 않는다.
네트워크 인터페이스(204)는, 통신 네트워크(122)를 통해, 시스템(102), 디스플레이 디바이스(118), 및 서버(120) 사이의 통신을 확립하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 네트워크 인터페이스(204)는 유선 또는 무선 통신을 지원하기 위해 알려진 기술들을 구현하도록 구성될 수도 있다. 네트워크 인터페이스(204)는 안테나, 라디오 주파수(radio frequency)(RF) 트랜시버, 하나 이상의 증폭기, 튜너, 하나 이상의 오실레이터, 디지털 신호 프로세서, 코더-디코더(coder-decoder)(CODEC) 칩셋, 가입자 식별 모듈(subscriber identity module)(SIM) 카드, 및/또는 로컬 버퍼를 포함할 수도 있지만, 이에 제한되지 않는다.
네트워크 인터페이스(204)는 인터넷, 인트라넷, 및/또는 무선 네트워크, 예컨대 셀룰러 전화 네트워크, 무선 로컬 영역 네트워크(wireless local area network)(WLAN), 개인 영역 네트워크, 및/또는 도시 영역 네트워크(MAN)와 같은 네트워크들과의 오프라인 및 온라인 무선 통신을 통해 통신하도록 구성될 수도 있다. 무선 통신은, 모바일 통신용 글로벌 시스템(Global System for Mobile Communications)(GSM), 향상된 데이터 GSM 환경(Enhanced Data GSM Environment)(EDGE), 광대역 코드 분할 다중 액세스(wideband code division multiple access)(W-CDMA), 코드 분할 다중 액세스(code division multiple access)(CDMA), LTE, 5G 뉴 라디오, 시분할 다중 액세스(time division multiple access)(TDMA), 블루투스, 무선 충실도(Wi-Fi)(예컨대, IEEE 802.11, IEEE 802.11b, IEEE 802.11g, IEEE 802.11n, 및/또는 임의의 다른 IEEE 802.11 프로토콜), 음성 인터넷 프로토콜(voice over Internet Protocol)(VoIP), Wi-MAX, 사물 인터넷(Internet-of-Things)(IoT) 기술, 머신-타입-통신(Machine-Type-Communication)(MTC) 기술, 이메일, 인스턴트 메시징, 및/또는 단문 메시지 서비스(Short Message Service)(SMS)를 위한 프로토콜과 같은 복수의 통신 표준들, 프로토콜들 및 기술들 중 임의의 것을 사용할 수도 있다.
추론 가속기(206)는, 멀티모달 융합 네트워크(108)의 동작들과 연관된 컴퓨테이션들을 가속화하기 위해 회로부(104)에 대한 코-프로세서로서 동작하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 예를 들어, 추론 가속기(206)는, 추론 가속기(206)의 사용 없이 전형적으로 발생되는 것보다 더 짧은 시간에 감정 레이블(126)이 예측되도록 시스템(102) 상의 컴퓨테이션들을 가속화할 수도 있다. 추론 가속기(206)는 하나 이상의 피처 추출기(110), 트랜스포머 인코더들의 네트워크(112), 융합 어텐션 네트워크(114), 및 출력 네트워크(116)의 일부 또는 모든 동작들의 병렬화와 같은 다양한 가속 기법들을 구현할 수도 있다. 추론 가속기(206)는 소프트웨어, 하드웨어, 또는 이들의 조합으로서 구현될 수도 있다. 추론 가속기(206)의 예시적인 구현들은 GPU, 텐서 프로세싱 유닛(TPU), 뉴로모픽 칩(neuromorphic chip), 비전 프로세싱 유닛(Vision Processing Unit)(VPU), 필드 프로그래밍가능 게이트 어레이(FGPA), 축소 명령 세트 컴퓨팅(RISC) 프로세서, 주문형 집적 회로(ASIC) 프로세서, 복합 명령 세트 컴퓨팅(CISC) 프로세서, 마이크로컨트롤러, 및/또는 이들의 조합을 포함할 수도 있지만, 이에 제한되지 않는다.
번역기 모델(208)은, 제2 언어의 음성을 제1 언어로(또는 그 반대로) 번역하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 일 실시예에서, 번역기 모델(208)은 제1 언어의 음성의 전사본을 제2 언어로 번역하도록 구성될 수도 있다. 번역기 모델(208)의 예들은, 인공 뉴럴 네트워크(artificial neural network)(ANN), 딥 뉴럴 네트워크(deep neural network)(DNN), 콘볼루션 뉴럴 네트워크(convolutional neural network)(CNN), 순환 뉴럴 네트워크(recurrent neural network)(RNN), 게이트 순환 유닛(gated recurrent unit)(GRU) 기반 RNN, CNN-순환 뉴럴 네트워크(CNN-RNN), 장단기 메모리(Long Short-Term Memory)(LSTM) 네트워크 기반 RNN, LSTM+ANN 및/또는 그러한 네트워크들의 조합을 포함할 수도 있지만, 이에 제한되지 않는다.
얼굴 검출 모델(210)은, 이미지(또는 프레임)에서 하나 이상의 얼굴을 검출하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 얼굴 검출 모델(210)은 이미지에서 하나 이상의 얼굴을 검출하기 위해 하나 이상의 얼굴 검출 기법을 사용할 수도 있다. 하나 이상의 얼굴 검출 기법의 상세한 구현은 본 기술분야의 통상의 기술자에게 알려져 있을 수도 있고, 그에 따라, 앞서 언급된 하나 이상의 얼굴 검출 기법에 대한 상세한 설명이 간결함을 위해 본 개시내용으로부터 생략되었다. 얼굴 검출 모델(210)의 예들은 콘볼루션 뉴럴 네트워크(CNN), R-CNN, Fast R-CNN, Faster R-CNN, (You Only Look Once) YOLO 네트워크, 및/또는 그러한 네트워크들의 조합을 포함할 수도 있지만, 이에 제한되지 않는다.
장면 검출 모델(212)은, 하나 이상의 비디오로부터 복수의 장면들을 추출하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 일 실시예에서, 배경 픽셀 정보(예를 들어, 배경 픽셀 값들의 변화들)에 기초하여 복수의 장면들이 추출될 수도 있다. 장면 검출 모델(212)의 예들은 콘볼루션 뉴럴 네트워크(CNN), 순환 뉴럴 네트워크(RNN), 인공 뉴럴 네트워크(ANN), 및/또는 그러한 네트워크들의 조합을 포함할 수도 있지만, 이에 제한되지 않는다.
단일 경계 검출 모델(214)은, 장면에서 복수의 발화들을 검출하도록 구성될 수도 있는 적합한 로직, 회로부, 인터페이스들, 및/또는 코드를 포함할 수도 있다. 일 실시예에서, 단일 경계 검출 모델(214)은 VGG-16 콘볼루션 뉴럴 네트워크(CNN)에 뒤이어 다수의 콘볼루션 계층들을 포함할 수도 있다. VGG-16은 피처 추출을 위해 사용될 수도 있고 콘볼루션 계층들은 객체들의 검출을 위해 사용될 수도 있다. 객체들의 검출에 기초하여, 단일 경계 검출 모델(214)은 비디오의 복수의 장면들을 추가로 추출할 수도 있다. 일 실시예에서, 단일 경계 검출 모델(214)은 배경 픽셀 정보(예를 들어, 배경 픽셀 값들의 변화들)에 기초하여 비디오의 복수의 장면들을 추출할 수도 있다.
도 3은 본 개시내용의 일 실시예에 따른, 도 1의 멀티모달 융합 네트워크의 예시적인 아키텍처를 예시하는 다이어그램이다. 도 3은 도 1 및 도 2로부터의 요소들과 관련하여 기술된다. 도 3을 참조하면, 도 1의 멀티모달 융합 네트워크(108)의 예시적인 구현일 수도 있는 멀티모달 융합 네트워크(302)의 다이어그램(300)이 도시되어 있다.
멀티모달 융합 네트워크(302)는 하나 이상의 피처 추출기(304), 트랜스포머 인코더들의 네트워크(306), 융합 어텐션 네트워크들의 세트(308), 및 출력 네트워크(310)를 포함할 수도 있다. 트랜스포머 인코더들의 네트워크(306)는 하나 이상의 피처 추출기(304)에 커플링될 수도 있고, 융합 어텐션 네트워크들의 세트(308) 중 제1 융합 어텐션 네트워크(308A)가 트랜스포머 인코더들의 네트워크(306)에 커플링될 수도 있으며, 출력 네트워크(310)는 융합 어텐션 네트워크들의 세트(308) 중 N번째 융합 어텐션 네트워크(308N)에 커플링될 수도 있다. 일 실시예에 따르면, 출력 네트워크(310) 및 트랜스포머 인코더들의 네트워크(306)에 커플링될 수도 있는 단일 융합 어텐션 네트워크(예를 들어, 제1 융합 어텐션 네트워크(308A))가 있을 수도 있다. 도 3을 참조하면, 한 비디오에서 또는 하나 이상의 비디오에서 나타낸 대화들에 대응하는 복수의 발화들(312)의 블록 스타일 표현이 추가로 도시되어 있다.
임의의 시간 인스턴트에서, 회로부(104)는, 다수의 인간 화자들 또는 캐릭터들 사이의 대화들(예를 들어, 양자적 대화(dyadic conversation))을 나타낼 수도 있는 하나 이상의 비디오를 수신할 수도 있다. 그러한 대화들에서의 각각의 발화에 대해, 감정 레이블이 예측될 필요가 있다. 감정 레이블을 예측하기 위한 동작들이 본 명세서에서 설명된다.
수신 후에, 회로부(104)는 하나 이상의 비디오의 프레임들에 대해 장면 검출 모델(212)을 적용하도록 구성될 수도 있다. 도 2에서 논의된 바와 같이, 장면 검출 모델(212)은 각각의 비디오로부터 복수의 장면들(또는 복수의 다이얼로그들)을 추출하도록 트레이닝될 수도 있다. 발화들의 자동 검출을 위해, 회로부(104)는, 복수의 장면들에 대응하는 비디오의 프레임들을 프로세싱할 수도 있다. 제한이 아닌 예로서, 단일 경계 검출 모델(214)이 프레임들에 대해 적용되어 그러한 프레임들 각각에서 다수의 객체들을 검출할 수도 있다. 검출에 기초하여, 회로부(104)는, 복수의 발화들(312)에 대응하는 프레임들의 서브세트를 추가로 검출할 수도 있다.
회로부(104)는 하나 이상의 비디오로부터 오디오 부분들을 추출할 수도 있다. 그러한 오디오 부분들 각각은, (대화 또는 다이얼로그의 일부로서) 발화에 대응하는 음성 사운드를 포함할 수도 있다. 유사하게, 회로부(104)는 적합한 음성-텍스트(Speech-To-Text)(STT) 기법의 사용에 의해 그러한 오디오 부분들의 텍스트 전사본들을 생성할 수도 있다.
복수의 발화들(312)은 제1 발화(312A), 제2 발화(312B), 제3 발화(312C)..를, 그리고 K번째 발화(312K)까지 포함할 수도 있다. (제1 발화(312A)와 같은) 발화가, 음성 사운드, 이미지(또는 이미지들), 및 음성 사운드의 텍스트 전사본의 조합을 통해 표현될 수 있는 다이얼로그 또는 대화의 일 부분으로서 정의될 수도 있다. 복수의 발화들(312) 각각은, 대응하는 발화의 음향들을 갖는 대응하는 제1 모달리티, 복수의 모달리티들 중 대응하는 발화의 텍스트 전사본과 연관된 제2 모달리티, 및 대응하는 발화의 시각적 양태(예를 들어, 얼굴 표정, 입술 움직임, 및 이와 유사한 것)와 연관된 제3 모달리티를 가질 수도 있다. 예를 들어, 제1 발화(312A)는, 제1 발화(312A)의 음향들과 연관된 제1 모달리티(314A), 제1 발화(312A)의 텍스트 전사본과 연관된 제2 모달리티(314B), 및 제1 발화(312A)의 시각적 양태와 연관된 제3 모달리티(314C)를 포함할 수도 있다. 제1 모달리티(314A), 제2 모달리티(314B), 및 제3 모달리티(314C)는 (멀티모달 입력(124)과 같은) 멀티모달 입력을 함께 형성할 수도 있다.
일 실시예에서, 장면(또는 다이얼로그)은, "k"개의 발화 "U"를, 시간에 관련하여 함께 배열될 수도 있는 이들의 제각기 감정 레이블들 "Y"와 함께 포함할 수도 있다. 각각의 발화에는 대응하는 제1 모달리티(즉, 음성 세그먼트), 제2 모달리티(즉, 텍스트 전사본), 및 제3 모달리티(즉, 비디오 클립)가 수반될 수도 있다. 일 예로서, "k"개의 발화에 대한 장면은, 다음과 같이 주어지는 식 (1)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 i번째 발화를 표현하고,
는 i번째 발화와 연관된 음향들을 표현하고;
는 i번째 발화와 관련된 텍스트 전사본을 표현하고,
는 i번째 발화와 연관된 비디오를 표현하고,
는 i번째 발화에 대한 감정 레이블을 표현한다.
회로부(104)는 멀티모달 입력을 하나 이상의 피처 추출기(304)에 입력하도록 구성될 수도 있다. 예를 들어, 멀티모달 입력은, 수신된 하나 이상의 비디오에서 나타낸 제1 발화(312A)과 연관될 수도 있다.
일 실시예에 따르면, 멀티모달 입력은, 다중 언어 음성(multilingual speech), 및 하나 이상의 피처 추출기(304)와 호환가능할 수도 있는 제1 언어의 다중 언어 음성의 텍스트 전사본을 포함할 수도 있다. 예를 들어, 다중 언어 음성은 "Hello Fred, Genkidesu ka?"라는 발화에 대응할 수도 있다. 그러한 경우에, 다중 언어 음성의 텍스트 전사본은 "Hello Fred, how are you?"일 수도 있다.
다른 실시예에 따르면, 멀티모달 입력은, 하나 이상의 피처 추출기(304)와 호환가능한 제1 언어와는 상이할 수도 있는 제2 언어의 음성을 포함할 수도 있다. 그러한 경우에, 멀티모달 입력은, (하나 이상의 피처 추출기(304)와 호환가능한) 제1 언어의 음성의 텍스트 전사물을 포함할 수도 있다. 그러한 실시예에서, 회로부(104)는 음성을 제2 언어로부터 제1 언어로 번역하기 위해 (제2 언어의) 음성에 대해 번역기 모델(208)을 적용하도록 구성될 수도 있다. 번역은 하나 이상의 피처 추출기(304)에 의한 (제2 언어의) 음성의 언어 호환성 이슈를 극복하기 위해 수행될 수도 있다.
하나 이상의 피처 추출기(304)는 음향 피처 추출기(304B), 텍스트 피처 추출기(304C), 시각 피처 추출기(304D), 및 음향-시각 피처 추출기(304C)를 포함할 수도 있다. 일 실시예에서, 하나 이상의 피처 추출기(304) 각각은, 대응하는 모달리티와 연관된 피처들을 추출하도록 구성될 수도 있는 적어도 하나의 뉴럴 네트워크를 포함할 수도 있다. 예를 들어, 음향 피처 추출기(304B) 및 음향-시각 피처 추출기(304C)는, 제1 발화(312A)의 음향들과 연관된 피처들을 추출하도록 구성될 수도 있다. 유사하게, 텍스트 피처 추출기(304C)는, 제1 발화(312A)의 텍스트 전사본과 연관된 피처들을 추출하도록 구성될 수도 있고, 시각 피처 추출기(304D), 및 음향-시각 피처 추출기(304C)는, 제1 발화(312A)의 시각적 양태들과 연관된 피처들을 추출하도록 구성될 수도 있다. 그러한 피처들이 입력 임베딩들이라고 집합적으로 지칭될 수도 있다.
일 실시예에서, 회로부(104)는 멀티모달 입력에 대한 하나 이상의 피처 추출기(304)의 적용에 기초하여 입력 임베딩들을 생성하도록 구성될 수도 있다. 구체적으로, 회로부(104)는, 멀티모달 입력에 포함된 발화의 음향 정보에 대한 음향-시각 피처 추출기(304C)의 적용에 기초하여 제1 임베딩(FIA)을 생성하도록 구성될 수도 있다. 음향-시각 피처 추출기(304C)는, 음향-시각 피처 추출기(304C)가 3개의 손실 함수의 중요성을 활용하는 것을 가능하게 할 수도 있는 삼중항 네트워크에 기초할 수도 있다. 음향-시각 피처 추출기(304C)는 인코더 네트워크 및 프로젝터 모듈을 포함할 수도 있고, 적응적 마진 삼중항 손실, 공분산 손실, 및 분산 손실과 같은 손실 함수들에 대해 트레이닝될 수도 있다. 음향-시각 피처 추출기(304C)에 관한 세부사항들이, 예를 들어, 도 6에 제공된다.
일 실시예에서, 회로부(104)는 음향 정보가 음향-시각 피처 추출기(304C)에 대한 입력으로서 제공되기 전에 음향 정보에 대해 하나 이상의 동작을 수행하도록 구성될 수도 있다. 회로부(104)는, 음향 정보에 포함된 오디오 부분을 RGB 포맷의 2차원(2D) 멜 스펙트로그램(Mel Spectrogram)으로 변환하도록 구성될 수도 있다. 그러한 RGB 포맷의 2D 멜 스펙트로그램은 음향-시각 피처 추출기(304C)에 대한 입력으로서 제공될 수도 있다. 오디오 부분을 2차원(2D) 멜 스펙트로그램으로 변환하기 위해, 회로부(102)는 시간 워핑(time warping) 및 부가 백색 가우스 잡음(Additive White Gaussian Noise)(AWGN)과 같은 하나 이상의 증강 기법을 통해 오디오 부분의 오디오 신호를 프로세싱하여 증강된 오디오 신호들을 생성하도록 구성될 수도 있다. 그렇게 생성된 증강된 신호들은 멜 스펙트로그램으로 추가로 변환될 수도 있다. 일 실시예에서, 멜 스펙트로그램은, 128개의 멜 필터 뱅크, 및 400개의 샘플의 프레임 길이(25ms) 및 160개의 샘플의 홉 길이(10ms)를 갖는 STFT(Short Time Fourier transform)를 사용함으로써 컴퓨팅될 수도 있다. 회로부는 멜 스펙트로그램의 적용에 기초하여 제1 임베딩(FIA)을 생성하도록 추가로 구성될 수도 있다.
다른 실시예에서, 회로부(104)는, 멀티모달 입력에 포함된 발화의 음향 정보에 대한 음향 피처 추출기(304B)의 적용에 기초하여 제1 임베딩(FIA)을 생성하도록 구성될 수도 있다. 음향 피처 추출기(304B)는, 예를 들어, openSMILE(open-source Speech and Music Interpretation by Large-space Extraction) 모델에 기초할 수도 있다. 일 실시예에서, 음향 피처 추출기(304B)는, 발화 레이블들에 대해 트레이닝될 수도 있는 다층 퍼셉트론(multi-layer perceptron)(MLP) 네트워크를 더 포함할 수도 있다. 회로부(104)는 openSMILE을 사용하여 음향 피처 추출기(304B)에 의해 생성된 출력에 대한 다층 퍼셉트론(MLP) 네트워크의 적용에 기초하여 입력 임베딩들의 임베딩(FIA)을 생성하도록 구성될 수도 있다. 예를 들어, 제1 임베딩은, 다음과 같이 주어지는 식 (2)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 제1 임베딩을 표현하고,
는 음향-비디오 피처 추출기(304C) 또는 음향 피처 추출기(304B)의 동작을 표현하고,
k는 복수의 발화들의 카운트를 표현하고,
는 i번째 발화의 음향들(또는 오디오 성분)을 표현하고,
는 오디오 발화의 임베딩들의 사이즈를 표현한다.
일 실시예에서, 회로부(104)는, 제1 발화(312A)와 연관된 음향 정보의 텍스트 전사본에 대한 텍스트 피처 추출기(304C)의 적용에 기초하여 입력 임베딩들의 제2 임베딩을 생성하도록 구성될 수도 있다. 제2 임베딩은, 시간적으로 제1 발화(302A)에 선행하거나 또는 후행하는 상이한 발화들의 텍스트 전사본들에 대한 텍스트 피처 추출기(304C)의 적용에 기초하여 추가로 생성될 수도 있다. 시간적으로 제1 발화(302A)에 선행하거나 또는 후행하는 상이한 발화들의 텍스트 전사본들은 세퍼레이터 토큰(separator token)(<s>)에 의해 분리될 수도 있다. 예를 들어, 장면의 제4 발화가 "The whole thing! Can we go?"이고, 장면의 제5 발화가 "What about the scene with the Kangaroo"이며, 장면의 제6 발화가 "I was surprised to see a Kangaroo in a world war epic"인 경우, 그러면 제5 발화의 텍스트 전사본은 "The whole thing! Can we go? <s> What about the scene with the Kangaroo <s> I was surprised to see a Kangaroo in a world war epic"일 수도 있다.
일 실시예에서, 텍스트 피처 추출기(304C)는 RoBERTa 모델(Robustly optimized BERT(Bidirectional Encoder Representations from Transformers) 접근법)에 기초하여 구현될 수도 있다. 예를 들어, 제2 임베딩은, 다음과 같이 주어지는 식 (3)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제2 임베딩을 표현하고,
는 텍스트 피처 추출기(304C)(이는 RoBERTa 모델 또는 수정된 RoBERTa 모델일 수도 있다)의 동작을 표현하고;
k는 복수의 발화들의 카운트를 표현하고,
는 i번째 발화의 텍스트 전사본을 표현하고,
는 텍스트 발화의 임베딩들의 사이즈를 표현한다.
일 실시예에서, 회로부(104)는 하나 이상의 비디오의 프레임들에서의 하나 이상의 말하는 캐릭터의 얼굴 정보에 대한 그리고 프레임들과 연관된 장면 정보에 대한 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D) 중 하나의 적용에 기초하여 입력 임베딩들의 제3 임베딩을 생성하도록 구성될 수도 있다. 프레임들은 하나 이상의 비디오에서의 제1 발화(312A)의 지속기간에 대응할 수도 있다. 음향-시각 피처 추출기(304C) 및 시각 피처 추출기(304D) 각각은, 예를 들어, 하나 이상의 말하는 캐릭터의 하나 이상의 얼굴 및 그 하나 이상의 얼굴 각각의 영역을 검출하도록 구성될 수도 있는 듀얼 네트워크일 수도 있다. 일 실시예에서, 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D)는, 하나 이상의 말하는 캐릭터의 검출된 하나 이상의 피처로부터 피처들을 추출하기 위한 제1 네트워크, 및 하나 이상의 말하는 캐릭터를 포함하는 전체 장면으로부터 피처들을 추출하기 위한 제2 네트워크를 포함할 수도 있다. 시각 피처 네트워크는, 검출된 하나 이상의 얼굴을 대응하는 영역에 기초하여 정규화하여 입력 임베딩들의 제3 임베딩을 생성할 수도 있다. 음향-시각 피처 추출기(304C) 및 시각 피처 추출기(304D)에 관한 세부사항들이, 예를 들어, 도 4에 제공된다. 생성된 제3 임베딩은, 다음과 같이 주어지는 식 (4)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제3 임베딩을 표현하고,
는 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D)의 동작을 표현하고;
k는 복수의 발화들의 카운트를 표현하고,
는 i번째 발화와 연관된 비디오를 표현하고,
는 시각적 발화의 임베딩들의 사이즈를 표현한다.
(멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함하는) 생성된 입력 임베딩들은 입력으로서 트랜스포머 인코더들의 네트워크(306)에 공급될 수도 있다. 입력 임베딩은 트랜스포머 인코더들의 네트워크(306)를 통해 전달되어 멀티모달 입력의 각각의 모달리티에 관련하여 상호 발화 맥락을 학습할 수도 있다. 트랜스포머 인코더들의 네트워크(306)는, 멀티모달 입력의 제1 모달리티(314A)에 대한 트랜스포머 인코더들의 제1 스택(316), 멀티모달 입력의 제2 모달리티(314B)에 대한 트랜스포머 인코더들의 제2 스택(318), 및 멀티모달 입력의 제3 모달리티(314C)에 대한 트랜스포머 인코더들의 제3 스택(320)을 포함할 수도 있다. 일 실시예에서, 트랜스포머 인코더들의 제1 스택(316), 트랜스포머 인코더들의 제2 스택(318), 및 트랜스포머 인코더들의 제3 스택(320)은 동일한 수의 트랜스포머 인코더를 포함할 수도 있다. 다른 실시예에서, 트랜스포머 인코더들의 제1 스택(316), 트랜스포머 인코더들의 제2 스택(318), 및 트랜스포머 인코더들의 제3 스택(320)은 상이한 수의 트랜스포머 인코더를 포함할 수도 있다.
트랜스포머 인코더들의 제1 스택(316)은 제1 트랜스포머 인코더(316A)... 그리고 최대 N번째 트랜스포머 인코더(316N)를 포함할 수도 있다. 제1 트랜스포머 인코더(316A)의 출력은 N번째 트랜스포머 인코더(316N)의 입력으로서 제공될 수도 있다. 유사하게, 트랜스포머 인코더들의 제2 스택(318)은 제1 트랜스포머 인코더(318A)... 그리고 최대 N번째 트랜스포머 인코더(318N)를 포함할 수도 있다. 제1 트랜스포머 인코더(318A)의 출력은 N번째 트랜스포머 인코더(318N)의 입력으로서 제공될 수도 있다. 유사하게, 트랜스포머 인코더들의 제3 스택(320)은 제1 트랜스포머 인코더(320A)... 그리고 최대 N번째 트랜스포머 인코더(320N)를 포함할 수도 있다. 제1 트랜스포머 인코더(320A)의 출력은 N번째 트랜스포머 인코더(320N)의 입력으로서 제공될 수도 있다.
입력 임베딩들의 제1 임베딩(FIA)은 트랜스포머 인코더들의 제1 스택(316) 중 제1 트랜스포머 인코더(316A)에 대한 입력으로서 제공될 수도 있다. 입력 임베딩들의 제2 임베딩(FIT)은 트랜스포머 인코더들의 제2 스택(318) 중 제1 트랜스포머 인코더(318A)에 대한 입력으로서 제공될 수도 있다. 유사하게, 입력 임베딩들의 제3 임베딩(FIV)은 트랜스포머 인코더들의 제3 스택(320) 중 제1 트랜스포머 인코더(318A)에 대한 입력으로서 제공될 수도 있다.
트랜스포머 인코더들의 네트워크(306)의 각각의 트랜스포머 인코더는 감정 관련 피처들의 세트를 생성하도록 트레이닝될 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함할 수도 있다. 예를 들어, 제1 모달리티(314A)에 대응하는 하나 이상의 피처는, 다음과 같이 주어지는 식 (5)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제1 임베딩을 표현하고;
는 트랜스포머 인코더의 동작을 표현하고,
은 트랜스포머 인코더들의 제1 스택(316) 중 제1 트랜스포머 인코더(316A)를 표현하고;
는 트랜스포머 인코더들의 제1 스택(316) 중 N번째 트랜스포머 인코더(316N)를 표현하고;
제2 모달리티(314B)에 대응하는 하나 이상의 피처는, 다음과 같이 주어지는 식 (6)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제2 임베딩을 표현하고;
는 트랜스포머 인코더의 동작을 표현하고,
은 트랜스포머 인코더들의 제2 스택(318) 중 제1 트랜스포머 인코더(318A)를 표현하고;
는 트랜스포머 인코더들의 제2 스택(318) 중 N번째 트랜스포머 인코더(318N)를 표현하고;
유사하게, 제3 모달리티(314C)에 대응하는 하나 이상의 피처는, 다음과 같이 주어지는 식 (7)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제3 임베딩을 표현하고;
는 트랜스포머 인코더의 동작을 표현하고,
은 트랜스포머 인코더들의 제3 스택(320) 중 제1 트랜스포머 인코더(320A)를 표현하고;
는 트랜스포머 인코더들의 제3 스택(320) 중 N번째 트랜스포머 인코더(318N)를 표현하고;
일 실시예에서, 멀티모달 융합 네트워크(302)는, 트랜스포머 인코더들의 네트워크(306)에서의 인접한 트랜스포머 인코더들의 각각의 쌍 사이의 스킵 커넥션(322)을 더 포함할 수도 있다. 구체적으로, 스킵 커넥션(322)은 트랜스포머 인코더들의 제1 스택(316), 트랜스포머 인코더들의 제2 스택(318), 및 트랜스포머 인코더들의 제3 스택(320)에서의 인접한 트랜스포머 인코더들의 각각의 쌍 사이에 존재할 수도 있다. 스킵 커넥션(322)은, 멀티모달 융합 네트워크(302)가, 멀티모달 입력의 각각의 모달리티와 연관된 하위 레벨 피처들을 무시하는 것을 방지하기 위해 멀티모달 융합 네트워크(302)에 채용될 수도 있다.
생성된 감정 관련 피처들의 세트는 융합 어텐션 네트워크들의 세트(308) 중 융합 어텐션 네트워크(308)에 대한 입력으로서 제공될 수도 있다. 융합 어텐션 네트워크들의 세트(308)는 트랜스포머 인코더들의 네트워크(306)에 커플링될 수도 있고 적어도 하나의 융합 어텐션 네트워크를 포함할 수도 있다. 일 예로서, 융합 어텐션 네트워크들의 세트(308)는 제1 융합 어텐션 네트워크(308A)... 그리고 최대 N번째 융합 어텐션 네트워크(308N)를 포함할 수도 있지만, 이에 제한되지 않는다. 융합 어텐션 네트워크들의 세트(308)의 각각의 융합 어텐션 네트워크는 하나 이상의 멀티헤드 어텐션 계층 및 제1 완전 연결 계층을 포함할 수도 있다. 일 실시예에서, 제1 완전 연결 계층의 입력은 대응하는 융합 어텐션 네트워크의 하나 이상의 멀티헤드 어텐션 계층의 출력에 커플링될 수도 있다. 융합 어텐션 네트워크들의 세트(308) 각각은 감정 관련 피처들의 세트의 융합된 피처 표현을 출력하도록 구성될 수도 있다. 융합 어텐션 네트워크들의 세트(308) 각각 및 감정 관련 피처들의 세트에 관한 세부사항들이, 예를 들어, 도 5에 제공된다. 제한이 아닌 예로서, 감정 관련 피처들의 세트의 융합된 피처 표현은, 다음과 같이 주어지는 식 (8) 및 식 (9)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
은 제1 융합 어텐션 네트워크(308A)의 출력을 표현하고;
는 하나 이상의 멀티헤드 어텐션 계층 중 한 멀티헤드 어텐션 계층의 동작을 표현하고,
은 N번째 융합 어텐션 네트워크(308N)의 출력(또는 융합 어텐션 네트워크들의 세트(308)의 출력)을 표현하고;
는, 제1 모달리티(314A)에 대응하는 하나 이상의 피처를 표현하고;
는, 제2 모달리티(314B)에 대응하는 하나 이상의 피처를 표현하고;
는, 제3 모달리티(314C)에 대응하는 하나 이상의 피처를 표현하고;
m은 융합 어텐션 네트워크들의 세트(308)에서의 하나 이상의 멀티헤드 어텐션 계층의 카운트를 표현하고;
일 실시예에서, 생성된 융합된 피처 표현은 출력 네트워크(310)에 대한 입력으로서 제공될 수도 있다. 출력 네트워크(310)는, 융합 어텐션 네트워크들의 세트(308)의 출력에 커플링될 수도 있는 제2 완전 연결 계층을 포함할 수도 있다. 출력 네트워크(310)의 제2 완전 연결 계층은 복수의 발화들(312) 중 제1 발화(312A)에 대한 감정 레이블을 예측하도록 구성될 수도 있다. 일 실시예에서, 제2 완전 연결 계층은, 제2 완전 연결 계층의 출력에서 구현되는 SoftMax 함수 또는 교차 엔트로피 함수를 포함할 수도 있다. 예측된 감정 레이블은 행복한 감정 레이블, 슬픈 감정 레이블, 화난 감정 레이블, 차분한 감정 레이블, 두려운 감정 레이블, 중립 감정 레이블, 흥분된 감정 레이블, 혼란스러운 감정 레이블, 스트레스받은 감정 레이블, 혐오스러운 감정 레이블, 놀란 감정 레이블, 흥분 감정 레이블, 또는 무서운 감정 레이블 중 하나일 수도 있지만, 이에 제한되지 않는다.
일 실시예에서, 출력 네트워크(310)는 멀티모달 입력에 대한 기분 레이블을 예측하도록 구성될 수도 있다. 예측된 기분 레이블은, (멀티모달 입력이 멀티모달 융합 네트워크(302)에 대한 입력으로서 제공되는) 발화가 긍정적 기분, 부정적 기분, 또는 중립 기분 중 하나에 대응하는지 여부를 표시할 수도 있다.
일 실시예에서, 출력 네트워크(310)의 출력은, 다음과 같이 주어지는 식 (10) 및 식 (11)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 복수의 발화들(312) 각각에 대한 예측된 감정 레이블을 표현하고;
은 복수의 발화들(312) 중 제1 발화(312A)에 대한 예측된 감정 레이블을 표현하고,
는 복수의 발화들(312) 중 p번째 발화에 대한 예측된 감정 레이블을 표현하고
는 출력 네트워크(310)의 제2 완전 연결 계층의 동작을 표현하고,
은 N번째 융합 어텐션 네트워크(308N)의 출력(또는 융합 어텐션 네트워크들의 세트(308)의 출력)을 표현하고;
일 실시예에서, 멀티모달 융합 네트워크(302)의 동작들은 2개의 레벨, 즉, 발화 레벨 및 다이얼로그 레벨로 분할될 수도 있다. 멀티모달 입력의 각각의 모달리티와 연관된 임베딩들이 독립적으로 생성될 수도 있기 때문에 하나 이상의 피처 추출기(304)는 발화 레벨의 일부로서 간주될 수도 있다. 다이얼로그 레벨에서, 멀티모달 융합 네트워크(302)는 전체로서의 다이얼로그로부터의 맥락 정보를 사용함으로써 각각의 발화에 대한 감정을 예측하는 것을 학습할 수도 있다.
일 실시예에서, 복수의 모달리티들은, 대응하는 발화와 연관된 대상의 하나 이상의 생물학적 파라미터와 연관된 제4 모달리티를 또한 포함할 수도 있다. 예를 들어, 하나 이상의 생물학적 파라미터는 발화의 기록 동안 캡처될 수도 있고, 멀티모달 융합 네트워크(302)에 의한 추가 프로세싱을 위해 시계열 데이터(또는 다차원 공간 데이터)로 컨버팅될 수도 있다. 회로부(104)는 4개의 모달리티 모두, 즉, 제1 모달리티, 제2 모달리티, 제3 모달리티 및 제4 모달리티에 기초하여 대상의 감정 레이블을 예측하도록 구성될 수도 있다. 시스템(102)에 의해 수행되는 동작들에 대한 의사코드(pseudocode)가 다음과 같이 제공된다:
여기서,
MHA는 멀티헤드 어텐션 네트워크 동작(즉, 융합 어텐션 네트워크 동작)에 대응한다
Concat은 연접 동작(Concatenation operation)에 대응한다
FC는 제2 완전 연결 계층 동작에 대응한다
DT는 텍스트의 치수들에 대응한다
도 4는 본 개시내용의 일 실시예에 따른, 도 3의 멀티모달 융합 어텐션 네트워크의 예시적인 시각 피처 추출기를 예시하는 다이어그램이다. 도 4는 도 1, 도 2, 및 도 3으로부터의 요소들과 관련하여 기술된다. 도 4를 참조하면, 시스템(402)을 포함할 수도 있는 다이어그램(400)이 있다. 시스템(402)은 도 1의 시스템(102)의 예시적인 구현일 수도 있다. 시스템(402)은 멀티모달 융합 네트워크(302)를 포함한다. 멀티모달 융합 네트워크(302)는 하나 이상의 피처 추출기(304)를 포함할 수도 있다. 도 4를 참조하면, 복수의 발화들(312) 중 제1 발화(312A)의 지속기간에 대응하는 복수의 프레임들 중 한 프레임(404)이 추가로 도시되어 있다.
시스템(402)은 하나 이상의 비디오의 복수의 프레임들을 시각 피처 추출기(304D)에 입력할 수도 있다. 시각 피처 추출기(304D)는 얼굴 검출 모델(210)을 포함할 수도 있다. 일 실시예에서, 얼굴 검출 모델(210)은 MTCNN(Multi-task Cascaded Convolutional Network)에 대응할 수도 있다. 얼굴 검출 모델(210)은 프레임(414)에 대해 적용되어 수신된 복수의 프레임들 각각에서 하나 이상의 얼굴을 검출할 수도 있다. 일 예로서, 프레임(404)에 대해, 검출된 하나 이상의 얼굴은 제1 얼굴(406) 및 제2 얼굴(408)을 포함할 수도 있다.
시스템(402)은, 검출된 하나 이상의 얼굴을 포함할 수도 있는 하나 이상의 바운딩 박스(bounding box)를 생성하도록 구성될 수도 있다. 생성된 하나 이상의 바운딩 박스는 제1 바운딩 박스(410) 및 제2 바운딩 박스(412)를 포함할 수도 있다. 제1 바운딩 박스(410)는 제1 얼굴(406)을 포함할 수도 있고, 제2 바운딩 박스(412)는 제2 얼굴(408)을 포함할 수도 있다. 일 실시예에서, 하나 이상의 바운딩 박스는 프레임(404)에 대한 얼굴 검출 모델(210)의 적용에 기초하여 생성될 수도 있다. 그 후, 시스템(402)은, 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D) 중 하나의 적용에 기초하여 하나 이상의 바운딩 박스 각각과 연관된 영역을 정규화할 수도 있다. 정규화에 기초하여, 시스템(402)은 입력 임베딩들의 제3 임베딩을 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D)의 출력으로서 생성할 수도 있다.
시스템(402)은 검출된 하나 이상의 얼굴 각각과 연관된 피처들 및 대응하는 정규화된 영역들에 기초하여 가중합(weighted sum)을 결정하도록 구성될 수도 있다. 가중합은, 다음과 같이 주어지는 식 (12)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 입력 임베딩들의 제3 임베딩을 표현하고;
은, 검출된 제1 얼굴(406)과 연관된 피처들을 표현하고,
는, 검출된 제2 얼굴(408)과 연관된 피처들을 표현하고,
은 제1 바운딩 박스(410)의 정규화된 영역을 표현하고;
는 제2 바운딩 박스(412)의 정규화된 영역을 표현한다.
일 실시예에서, 시각 피처 추출기(304D)는, 제1 발화(312A)의 지속기간에 대한 연속 프레임들의 제1 카운트(예를 들어, 음향-시각 피처 추출기(304C)의 경우에는 15 그리고 시각 피처 추출기(304D)의 경우에는 30)에 대해 사용될 수도 있는 시각 트랜스포머(ViT)를 포함할 수도 있다. 시스템(102)은 앞서 언급된 동작들에 기초하여, 제1 카운트에 포함되는 각각의 프레임으로부터 피처들을 추출할 수도 있다. 연속 프레임들의 제1 카운트 각각으로부터의 추출된 피처들은 맥스 풀링되어(max pooled), (식 (7) 및 식 (12)를 사용하여 표현되는) 제3 임베딩을 생성할 수도 있다.
다른 실시예에서, 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D)는 듀얼 네트워크일 수도 있다. 듀얼 네트워크는, 프레임(404)에서의 하나 이상의 얼굴의 검출을 위한 제1 네트워크, 및 전체로서의 프레임(404)에 대해 포커싱하기 위한 제2 네트워크를 포함할 수도 있다. 구체적으로, 제2 네트워크는, 프레임(404)에서 가시적일 수도 있는 하나 이상의 객체 및 다른 시각적 큐(즉, 장면 정보)에 대해 포커싱할 수도 있다. 회로부(104)는 프레임(들)에 대한 제1 네트워크 및 제2 네트워크의 적용에 기초하여, 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D)의 출력으로서 입력 임베딩들의 제3 임베딩을 생성하도록 추가로 구성될 수도 있다.
도 5는 본 개시내용의 일 실시예에 따른, 도 3의 융합 어텐션 네트워크의 예시적인 아키텍처를 예시하는 다이어그램이다. 도 5는 도 1, 도 2, 도 3, 및 도 4로부터의 요소들과 관련하여 기술된다. 도 5를 참조하면, 융합 어텐션 네트워크들의 세트(308) 중 제1 융합 어텐션 네트워크(308A)의 예시적인 실시예일 수도 있는 제1 어텐션 네트워크(502)의 다이어그램(500)이 도시되어 있다.
제1 어텐션 네트워크(502)는, 제1 멀티헤드 어텐션 계층(504A) 및 제2 멀티헤드 어텐션 계층(504B)을 더 포함할 수도 있는 하나 이상의 멀티헤드 어텐션 계층을 포함할 수도 있다. 제1 어텐션 네트워크(502)는 완전 연결 계층(506)(제1 완전 연결 계층이라고도 또한 지칭됨)을 더 포함할 수도 있다. 융합 어텐션 네트워크들의 세트(308)에서의 각각의 융합 어텐션 네트워크의 아키텍처가 다이어그램(500)에 도시된 것과 동일할 수도 있다. 융합 어텐션 네트워크들의 세트(308)는 트랜스포머 인코더들의 네트워크(306) 및 출력 네트워크(310)에 커플링될 수도 있다. 구체적으로, 트랜스포머 인코더들의 네트워크(306)의 출력(즉, 감정 관련 피처들의 세트)은 융합 어텐션 네트워크들의 세트(308)(구체적으로 제1 융합 어텐션 네트워크(308A))에 대한 입력으로서 제공될 수도 있고, 융합 어텐션 네트워크들의 세트(308)의 출력은 출력 네트워크(310)에 대한 입력으로서 제공될 수도 있다.
회로부(104)는 융합 어텐션 네트워크들의 세트(308) 중 제1 어텐션 네트워크(502)에 대한 입력으로서 감정 관련 피처들의 세트를 제공하도록 구성될 수도 있다. 상기에 논의된 바와 같이, 감정 관련 피처들의 세트는, 제1 모달리티와 연관된 하나 이상의 피처(식 (5)에 의해 표현됨), 제2 모달리티와 연관된 하나 이상의 피처(식 (6)에 의해 표현됨), 및 제3 모달리티와 연관된 하나 이상의 피처(식 (7)에 의해 표현됨)를 포함할 수도 있다. 구체적으로, 회로부(104)는 제1 어텐션 네트워크(502)의 하나 이상의 멀티헤드 어텐션 계층에 감정 관련 피처들의 세트를 제공하도록 구성될 수도 있다.
하나 이상의 멀티헤드 어텐션 계층 각각은 쿼리, 키, 및 값을 입력으로서 수락할 수도 있고, 시퀀스 내에서 다양한 범위들(예를 들어, 더 짧은 범위, 및 더 긴 범위)의 종속성들을 캡처하도록 구성될 수도 있다. 일 실시예에서, 제1 멀티헤드 어텐션 계층(504A)에, 제1 모달리티와 연관된 하나 이상의 피처(FA)가 "키(k)"로서 제공될 수도 있고, 제2 모달리티와 연관된 하나 이상의 피처(FT)가 "쿼리(q) 및 값들(v)"로서 제공될 수도 있다. 유사하게, 제2 멀티헤드 어텐션 계층(504B)에, 제3 모달리티와 연관된 하나 이상의 피처(FV)가 "키(k)"로서 제공될 수도 있고, 제3 모달리티와 연관된 하나 이상의 피처(FT)가 "쿼리(q) 및 값들(v)"로서 제공될 수도 있다.
회로부(104)는 감정 관련 피처들의 세트에 대해 하나 이상의 멀티헤드 어텐션 계층을 적용하여 감정 관련 피처들의 세트 내의 피처 간 매핑(inter-feature mapping)을 결정하도록 구성될 수도 있다. 논의된 바와 같이, 하나 이상의 멀티헤드 어텐션 계층 각각은, 제1 모달리티와 연관된 피처(들), 제2 모달리티와 연관된 피처(들), 및 제3 모달리티와 연관된 피처(들) 사이의 종속성들을 캡처할 수도 있다. 매핑을 이용하여, 복수의 모달리티들의 각각의 제각기 모달리티가 텍스트 벡터 공간에 매핑될 수도 있다. 회로부(104)는 피처 간 매핑에 기초하여, 감정 관련 피처들의 세트를 감정 관련 피처들의 세트의 잠재 표현(latent representation)으로 연접하도록 구성될 수도 있다. 연접 후에, 연접된 출력(즉, 감정 관련 피처들의 세트의 잠재 표현)이 완전 연결 계층(506)에 대한 입력으로서 제공될 수도 있다. 완전 연결 계층(506)의 적용에 기초하여, 회로부(104)는 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 구성될 수도 있다. 감정 관련 피처들의 세트의 융합된 피처 표현은, Rk*D T에 속할 수도 있는 벡터일 수도 있고, 식 (8) 및 식 (9)를 사용함으로써 표현될 수도 있다. 구체적으로, 벡터는 치수 K*DT의 실제 좌표 공간에 속할 수도 있다.
일 실시예에 따르면, 회로부(104)는 출력 네트워크(310)의 제2 완전 연결 계층에 대한 입력으로서 감정 관련 피처들의 세트의 융합된 피처 표현을 제공하도록 추가로 구성될 수도 있고, 융합 어텐션 네트워크들의 세트(308)의 출력에 커플링될 수도 있다. 출력 네트워크(310)의 제2 완전 연결 계층의 적용에 기초하여, 회로부(104)는 대응하는 발화에 대한 감정 레이블을 예측하도록 추가로 구성될 수도 있다. 일 실시예에서, 제1 융합 어텐션 네트워크(308A)의 출력은 제2 융합 어텐션 네트워크에 전달될 수도 있다. 이 동일한 프로세스는 n회 반복될 수도 있고, N번째 융합 어텐션 네트워크(308N)의 출력은, 대응하는 발화에 대한 감정 레이블을 예측하도록 구성될 수도 있는 제2 완전 연결 계층(즉, 출력 네트워크(310))에 대한 입력으로서 전달될 수도 있다.
도 6은 본 개시내용의 일 실시예에 따른, 도 3의 하나 이상의 피처 추출기(304)의 음향-시각 피처 추출기의 예시적인 아키텍처를 예시하는 다이어그램이다. 도 6은 도 1, 도 2, 도 3, 도 4, 및 도 5로부터의 요소들과 관련하여 기술된다. 도 6을 참조하면, 하나 이상의 피처 추출기(304)의 음향-시각 피처 추출기(602)의 다이어그램(600)이 도시되어 있다.
음향-시각 피처 추출기(602)는 삼중항 네트워크에 기초할 수도 있다. 삼중항 네트워크에서는, 3개의 입력 샘플이 요구될 수도 있다. 제1 인코더 네트워크(604A), 제2 인코더 네트워크(604B), 및 제3 인코더 네트워크(604C)를 포함할 수도 있는 인코더 네트워크들의 세트(604)가 추가로 도시되어 있다. 음향-시각 피처 추출기(602)는 프로젝터들의 세트(606)를 더 포함할 수도 있다. 프로젝터들의 세트(606)는 제1 프로젝터(606A), 제2 프로젝터(606B), 및 제3 프로젝터(606C)를 포함할 수도 있다.
일 실시예에서, 음향 및 시각 모달리티들과 연관된 입력 샘플들(608)은 포지티브 샘플들의 세트(610A), 앵커 샘플들의 세트(610B), 및 네거티브 샘플들의 세트(610C)로 분할될 수도 있다. 포지티브 샘플들의 세트(610A) 각각은 앵커 샘플들의 세트(610B)와 유사할 수도 있고 포지티브 샘플들의 세트(610A) 각각은 앵커 샘플들의 세트(610B)와 상이할 수도 있다. 포지티브 샘플들의 세트(610A)는 제1 인코더 네트워크(604A)를 통해 공급될 수도 있다. 앵커 샘플들의 세트(610B)는 제2 인코더 네트워크(604B)에 공급될 수도 있다. 유사하게, 네거티브 샘플들의 세트(610C)는 제3 인코더 네트워크(604C)에 공급될 수도 있다. 인코더들의 세트(604)의 각각의 인코더는, 동일한 수의 뉴런 및 연관된 가중치를 갖는 동일한 아키텍처를 가질 수도 있다. 인코더의 일 예는 ResNet-18 네트워크일 수도 있다.
일 실시예에서, 제1 인코더 네트워크(604A)는 제1 출력을 생성할 수도 있다. 제2 인코더 네트워크(604B)는 제2 출력을 생성할 수도 있다. 유사하게, 제3 인코더 네트워크(604C)는 제3 출력을 생성할 수도 있다. 제1 출력은 제1 프로젝터(606A)에 대한 입력으로서 제공될 수도 있고, 제2 출력은 제2 프로젝터(606B)에 대한 입력으로서 제공될 수도 있으며, 제3 출력은 제3 프로젝터(606C)에 대한 입력으로서 제공될 수도 있다. 프로젝터들의 세트(606)의 각각의 프로젝터는, 인코더 네트워크들의 세트(604)의 임베딩을 표현들의 세트(612)에 투영하도록 구성될 수도 있는 완전 선형-완전 연결 계층을 포함할 수도 있다. 구체적으로, 표현들의 세트(612)는 포지티브 샘플들의 세트(610A)의 제1 표현(612A), 앵커 샘플들의 세트(610B)의 제2 표현(612B), 및 네거티브 샘플들의 세트(610C)의 제3 표현(612C)을 포함할 수도 있다. 표현들의 세트(612)는, 다음과 같이 주어지는 식 (13)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 원하는 표현들을 표현하고,
은 표현들의 카운트를 표현하고,
는 각각의 표현의 치수를 표현한다.
음향-시각 피처 추출기(602)는 3개의 손실 함수, 즉, 적응형 마진 삼중항 손실 함수, 공분산 손실 함수, 및 분산 손실 함수의 가중된 조합을 사용하여 트레이닝될 수도 있다. 음향-시각 피처 추출기(602)의 트레이닝의 목적은 포지티브 샘플들의 세트(610A)와 앵커 샘플들의 세트(610B) 사이의 거리를 감소시키고, 앵커 샘플들의 세트(610B)와 네거티브 샘플들의 세트(610C) 사이의 제2 거리를 증가시키는 것일 수도 있다. 3개의 손실 함수의 가중된 조합은, 다음과 같이 주어지는 식 (14)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
은 가중 인자를 표현하고,
는 적응형 마진 삼중항 손실 함수를 표현하고,
는 공분산 손실 함수를 표현하고,
는 분산 손실 함수를 표현하고,
는 삼중항 손실 함수를 표현한다.
전통적으로, 개발자들은, 포지티브 샘플들의 세트(610A), 앵커 샘플들의 세트(610B), 및 네거티브 샘플들의 세트(610C)에 기초하여 얼굴들의 양호한 표현들을 학습하는 데 사용되는 삼중항 손실 함수를 설계하였다. 개발자들은, 삼중항 손실 함수에서 포지티브 샘플과 네거티브 샘플의 표현들을 분리시키는 데 도움이 되는 고정된 마진 값을 사용하는 경향이 있다. 그러나, 포지티브 또는 네거티브 샘플들이 앵커와 동일한 거리를 갖거나 또는 포지티브 샘플이 네거티브 샘플보다 앵커에 단지 조금 더 가까운 경우들에는, 그러한 고정된 값 마진에 대해 계산된 삼중항 손실이 제로일 수도 있고, 심지어 더욱 포지티브 샘플을 더 가까이 당기고 네거티브 샘플을 앵커로부터 멀리 밀어내야 하더라도 어떠한 정정도 없을 수도 있다. 이 이슈를 극복하기 위해, 적응형 마진 값 손실 함수가 삼중항 손실 함수의 계산에 사용될 수도 있다. 이 적응형 마진 값 손실 함수는, 다음과 같이 주어지는 식 (15)를 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 포지티브 샘플들의 세트(610A)와 앵커 샘플들의 세트(610B)의 표현들 사이의 유사성 메트릭에 기초하는 유클리드 거리(Euclidean distance)를 표현하고,
는 앵커 샘플들의 세트(610B)와 네거티브 샘플들의 세트(610C)의 표현들 사이의 유사성 메트릭에 기초하는 유클리드 거리를 표현하고,
는 포지티브 샘플들의 세트(610A)와 네거티브 샘플들의 세트(610C)의 표현들 사이의 유사성 메트릭에 기초하는 유클리드 거리를 표현하고,
은 적응형 마진을 표현한다.
일 실시예에서, 적응형 마진()은 유사성 및 비유사성 척도들에 기초하여 계산될 수도 있고, 다음과 같이 주어지는 식 (16)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
은 유사성 척도를 표현하고 이며,
은 유사성 척도를 표현하고 이다.
일 실시예에서, 삼중 손실 함수는 분산 손실 함수를 또한 포함할 수도 있다. 분산 손실 함수는 음향-시각 피처 추출기(602)가 모드 붕괴 이슈(들)를 해결하는 것을 보조할 수도 있고, 다음과 같이 주어지는 식 (17)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 대응하는 표현들로부터 획득된 분산을 표현하고, 이며,
Zk = ZA, Zp, Zn,
Zp는, 포지티브 샘플들의 세트(610A)에 대응하는 제1 표현을 표현하고,
Za는, 앵커 샘플들의 세트(610B)에 대응하는 제2 표현을 표현하고,
Zn은, 네거티브 샘플들의 세트(610C)에 대응하는 제3 표현을 표현하고,
는 대응하는 표현의 평균을 표현한다.
일 실시예에서, 삼중 손실 함수는 공분산 손실 함수를 또한 포함할 수도 있다. 공분산 손실 함수는 음향-시각 피처 추출기(602)가 표현들의 상이한 치수들을 역상관(decorrelate)시키는 것을 보조할 수도 있고, 다음과 같이 주어지는 식 (18)을 사용하여 수학적으로 표현될 수도 있다:
여기서,
는 대응하는 표현들의 공분산 매트릭스를 표현하고, 이며,
Zk = ZA, Zp, Zn,
Zp는, 포지티브 샘플들의 세트(610A)에 대응하는 제1 표현을 표현하고,
Za는, 앵커 샘플들의 세트(610B)에 대응하는 제2 표현을 표현하고,
Zn은, 네거티브 샘플들의 세트(610C)에 대응하는 제3 표현을 표현하고,
는 대응하는 표현의 평균을 표현한다.
도 7은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 예시적인 시나리오를 예시하는 다이어그램이다. 도 7은 도 1, 도 2, 도 3, 도 4, 도 5, 및 도 6으로부터의 요소들과 관련하여 기술된다. 도 7을 참조하면, 시나리오(700)가 도시되어 있다. 시나리오(700)에는, 도 1의 회로부(104) 및 도 3의 멀티모달 융합 네트워크(108)를 포함하는 시스템(102)이 도시되어 있다. 복수의 멀티모달 입력들(702) 및 복수의 예측된 감정 레이블들(704)이 추가로 도시되어 있다.
복수의 멀티모달 입력들(702)은 제1 멀티모달 입력(702A), 제2 멀티모달 입력(702B), 제3 멀티모달 입력(702C), 및 N번째 멀티모달 입력(702N)을 포함할 수도 있다. 제1 멀티모달 입력(702A)은, 하나 이상의 비디오에서 나타낸 제1 발화와 연관될 수도 있다. 제2 멀티모달 입력(702B)은, 그러한 비디오들에서 나타낸 제2 발화와 연관될 수도 있다. 유사하게, 제3 멀티모달 입력(702C)은, 그러한 비디오들에서 나타낸 제3 발화와 연관될 수도 있고, N번째 멀티모달 입력(702N)은, 그러한 비디오들에서 나타낸 N번째 발화와 연관될 수도 있다. 모든 그러한 발화들이 대화(예를 들어, 양자적 대화)의 일부일 수도 있다. 복수의 멀티모달 입력들(702)과 유사하게, 복수의 예측된 감정 레이블들(704)은 제1 예측된 감정 레이블(704A), 제2 예측된 감정 레이블(704B), 제3 예측된 감정 레이블(704C), 및 N번째 예측된 감정 레이블(704N)을 포함할 수도 있다.
회로부(104)는 제1 멀티모달 입력(702A)을 하나 이상의 피처 추출기(110)에 입력하도록 구성될 수도 있다. 제1 멀티모달 입력(702A)은 제1 발화와 연관될 수도 있고, 제1 발화의 음향들과 연관된 제1 모달리티(706), 제1 발화의 텍스트 전사본과 연관된 제2 모달리티(708), 및 제1 발화의 시각적 양태와 연관된 제3 모달리티(710)를 포함할 수도 있다.
회로부(104)는 입력에 대한 하나 이상의 피처 추출기(110)의 출력으로서 입력 임베딩들을 생성하도록 추가로 구성될 수도 있다. 입력 임베딩들은 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함한다. 입력 임베딩들에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
회로부(104)는 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크의 적용에 기초하여 감정 관련 피처들의 세트를 생성하도록 추가로 구성될 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함할 수도 있다. 감정 관련 피처들의 세트의 생성 후에, 회로부(104)는 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 구성될 수도 있다. 일 실시예에서, 감정 관련 피처들의 세트의 융합된 피처 표현은 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크의 적용에 기초하여 생성될 수도 있다. 회로부(104)는 융합된 피처 표현에 대한 출력 네트워크(116)의 적용에 기초하여, 제1 발화에 대한 제1 예측된 감정 레이블(704A)을 출력하도록 추가로 구성될 수도 있다.
일 실시예에서, 앞서 언급된 동작들은 대응하는 멀티모달 입력에 대한 대응하는 감정 레이블을 예측하기 위해 복수의 멀티모달 입력들(702) 각각에 대해 수행될 수도 있다. 예를 들어, 제1 발화에 대한 제1 예측된 감정 레이블(704A)은 "놀람"일 수도 있다. 제1 예측된 감정 레이블(704A)과 연관된 기분은 "긍정적"일 수도 있다. 제2 발화에 대한 제2 예측된 감정 레이블(704B)은 "기쁨"일 수도 있고 대응하는 기분은 "긍정적"일 수도 있다. 제3 발화에 대한 제3 예측된 감정 레이블(704C)은 "중립"일 수도 있고 대응하는 기분은 "중립"일 수도 있다. 유사하게, N번째 발화에 대한 N번째 예측된 감정 레이블(704N)은 "중립"일 수도 있고 대응하는 기분은 "중립"일 수도 있다.
도 8은 본 개시내용의 일 실시예에 따른, 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식의 예시적인 방법을 예시하는 흐름도이다. 도 8은 도 1, 도 2, 도 3, 도 4, 도 5, 도 6, 및 도 7로부터의 요소들과 관련하여 기술된다. 도 8을 참조하면, 흐름도(800)가 도시되어 있다. 흐름도(800)의 동작들은 802에서 시작될 수도 있고 804로 진행될 수도 있다.
804에서, 멀티모달 입력은 하나 이상의 피처 추출기(110)에 입력될 수도 있고, 여기서 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관될 수도 있다. 적어도 하나의 실시예에서, 회로부(104)는 멀티모달 입력을 하나 이상의 피처 추출기에 입력하도록 구성될 수도 있고, 여기서 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관될 수도 있다. 멀티모달 입력에 관한 세부사항들이, 예를 들어, 도 1, 도 3, 및 도 5에 제공된다.
806에서, 입력 임베딩들이 입력에 대한 하나 이상의 피처 추출기(110)의 출력으로서 생성될 수도 있고, 여기서 입력 임베딩들은 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함할 수도 있다. 적어도 하나의 실시예에서, 회로부(104)는 입력에 대한 하나 이상의 피처 추출기의 출력으로서 입력 임베딩들을 생성하도록 구성될 수도 있고, 여기서 입력 임베딩들은 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함한다. 입력 임베딩들의 생성에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
808에서, 감정 관련 피처들의 세트가 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크의 적용에 기초하여 생성될 수도 있고, 여기서 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함할 수도 있다. 적어도 하나의 실시예에서, 회로부(104)는 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크(112)의 적용에 기초하여 감정 관련 피처들의 세트를 생성하도록 구성될 수도 있고, 여기서 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함할 수도 있다. 감정 관련 피처들의 세트의 생성에 관한 세부사항들이, 예를 들어, 도 3에 제공된다.
810에서, 감정 관련 피처들의 세트의 융합된 피처 표현은 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크의 적용에 기초하여 생성될 수도 있다. 적어도 하나의 실시예에서, 회로부(104)는 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크의 적용에 기초하여 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 구성될 수도 있다. 융합된 피처 표현의 생성에 관한 세부사항들이, 예를 들어, 도 3 및 도 5에 제공된다.
812에서, 발화에 대한 감정 레이블이 융합된 피처 표현에 대한 출력 네트워크(116)의 적용에 기초하여 예측될 수도 있다. 적어도 하나의 실시예에서, 회로부(104)는 융합된 피처 표현에 대한 출력 네트워크의 적용에 기초하여 발화에 대한 감정 레이블을 예측하도록 구성될 수도 있다. 제어권이 끝까지 전달될 수도 있다.
몇몇 실험들을 수행한 후에 획득된 실험 데이터에 기초하여, 개시된 멀티모달 융합 네트워크(302)는 MELD(Multimodal Multi-Party Dataset for Emotion Recognition in Conversation) 데이터세트 및 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터세트와 같은 알려진 데이터세트들에 대해 실행될 때 큰 마진(즉, 가중된 평균 F1 스코어의 관점에서 9% 초과의 범위의 개선)으로 최첨단 방법들을 능가하였다.
본 개시내용의 다양한 실시예들은 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 시스템(예를 들어, 시스템(102))을 동작시키기 위한 머신 또는 회로부에 의해 실행가능한 컴퓨터 실행가능 명령어들이 저장된 비일시적 컴퓨터 판독가능 매체를 제공할 수도 있다. 컴퓨터 실행가능 명령어들은, 머신 및/또는 컴퓨터로 하여금, 멀티모달 입력(예를 들어, 멀티모달 입력(124))을 멀티모달 융합 네트워크(예를 들어, 멀티모달 융합 네트워크(108))의 하나 이상의 피처 추출기(예를 들어, 하나 이상의 피처 추출기(110))에 입력하는 것을 포함하는 동작들을 수행하게 할 수도 있다. 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관될 수도 있다. 동작들은, 입력에 대한 하나 이상의 피처 추출기의 출력으로서 입력 임베딩들을 생성하는 것을 더 포함한다. 입력 임베딩들은 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함할 수도 있다. 동작들은, 입력 임베딩들에 대한 멀티모달 융합 네트워크의 트랜스포머 인코더들의 네트워크(예를 들어, 트랜스포머 인코더들의 네트워크(112))의 적용에 기초하여 감정 관련 피처들의 세트를 생성하는 것을 더 포함할 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함한다. 동작들은, 감정 관련 피처들의 세트에 대한 멀티모달 융합 네트워크의 융합 어텐션 네트워크(예를 들어, 융합 어텐션 네트워크(114))의 적용에 기초하여 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하는 것을 더 포함할 수도 있다. 동작들은, 융합된 피처 표현에 대한 멀티모달 융합 네트워크의 출력 네트워크(예를 들어, 출력 네트워크(116))의 적용에 기초하여 발화에 대한 감정 레이블을 예측하는 것을 더 포함할 수도 있다.
본 개시내용의 특정 실시예들은 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식을 위한 시스템 및 방법에서 발견될 수도 있다. 본 개시내용의 다양한 실시예들은, 하나 이상의 피처 추출기(110), 하나 이상의 피처 추출기(110)에 커플링되는 트랜스포머 인코더들의 네트워크(112), 트랜스포머 인코더들의 네트워크(112)에 커플링되는 융합 어텐션 네트워크(114), 및 융합 어텐션 네트워크(114)에 커플링되는 출력 네트워크(116)를 포함하는 멀티모달 융합 네트워크(108)를 저장하도록 구성되는 메모리(106) 및 회로부(104)를 포함할 수도 있는 시스템(102)을 제공할 수도 있다. 회로부(104)는 멀티모달 입력(124)을 하나 이상의 피처 추출기에 입력하도록 구성될 수도 있다. 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관될 수도 있다. 회로부(104)는 입력에 대한 하나 이상의 피처 추출기(110)의 출력으로서 입력 임베딩들을 생성하도록 추가로 구성될 수도 있다. 입력 임베딩들은 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함할 수도 있다. 회로부(104)는 입력 임베딩들에 대한 트랜스포머 인코더들의 네트워크(112)의 적용에 기초하여 감정 관련 피처들의 세트를 생성하도록 추가로 구성될 수도 있다. 감정 관련 피처들의 세트는, 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함한다. 회로부(104)는 감정 관련 피처들의 세트에 대한 융합 어텐션 네트워크(114)의 적용에 기초하여 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하도록 추가로 구성될 수도 있다. 회로부(104)는 융합된 피처 표현에 대한 출력 네트워크(310)의 적용에 기초하여 발화에 대한 감정 레이블을 예측하도록 추가로 구성될 수도 있다.
일 실시예에 따르면, 멀티모달 입력(124)은, 다중 언어 음성 및 하나 이상의 피처 추출기와 호환가능한 제1 언어의 다중 언어 음성의 텍스트 전사물을 포함한다. 일 실시예에 따르면, 멀티모달 입력은, 하나 이상의 피처 추출기(110)와 호환가능한 제1 언어와는 상이할 수도 있는 제2 언어의 음성을 포함하고, 멀티모달 입력은, 하나 이상의 피처 추출기(110)와 호환가능할 수도 있는 제1 언어의 음성의 텍스트 전사물을 포함한다. 일 실시예에 따르면, 멀티모달 입력은, 발화의 음향들과 연관된 제1 모달리티(314A), 발화의 텍스트 전사본과 연관된 제2 모달리티(314B), 및 발화의 시각적 양태와 연관된 제3 모달리티(314C)를 포함한다.
일 실시예에 따르면, 하나 이상의 피처 추출기는 음향 피처 추출기(304B) 및 음향-시각 피처 추출기(304C)를 포함할 수도 있고, 회로부(104)는 멀티모달 입력(124)에 포함된 발화의 음향 정보에 대한 음향-시각 피처 추출기(304C) 또는 음향 피처 추출기(304B) 중 하나의 적용에 기초하여 입력 임베딩들의 제1 임베딩을 생성하도록 추가로 구성될 수도 있다.
일 실시예에 따르면, 하나 이상의 피처 추출기는 텍스트 피처 추출기(304C)를 포함할 수도 있고, 회로부(104)는 발화와 연관된 음향 정보의 텍스트 전사본 및 시간적으로 발화에 선행하거나 또는 후행할 수도 있는 상이한 발화들의 텍스트 전사본들에 대한 텍스트 피처 추출기(304C)의 적용에 기초하여 입력 임베딩들의 제2 임베딩을 생성하도록 추가로 구성될 수도 있다.
일 실시예에 따르면, 하나 이상의 피처 추출기는 시각 피처 추출기(304D) 및 음향-시각 피처 추출기(304C)를 포함할 수도 있고, 회로부(104)는 하나 이상의 비디오의 프레임들에서의 하나 이상의 말하는 캐릭터의 얼굴 정보 및 프레임들과 연관된 장면 정보에 대한 음향-시각 피처 추출기(304C) 또는 시각 피처 추출기(304D) 중 하나의 적용에 기초하여 입력 임베딩들의 제3 임베딩을 생성하도록 추가로 구성될 수도 있다. 프레임들은 하나 이상의 비디오에서의 발화의 지속기간에 대응할 수도 있다.
일 실시예에 따르면, 회로부(104)는 발화의 지속기간에 대응하는 하나 이상의 비디오의 프레임들을 시각 피처 추출기(304D)에 입력하도록 구성될 수도 있다. 회로부(104)는 수신된 프레임들 각각에 대한 시각 피처 추출기(304D)의 얼굴 검출 모델(210)의 적용에 기초하여 수신된 프레임들 각각에서 하나 이상의 얼굴을 검출하도록 추가로 구성될 수도 있다. 회로부(104)는 검출된 하나 이상의 얼굴을 포함하는 하나 이상의 바운딩 박스를 생성하도록 추가로 구성될 수도 있다. 회로부(104)는 시각 피처 추출기(304D)의 적용에 의해 하나 이상의 바운딩 박스 각각과 연관된 영역을 정규화하도록 추가로 구성될 수도 있다. 회로부(104)는 검출된 하나 이상의 얼굴 및 정규화에 기초하여 시각 피처 추출기(304D)의 출력으로서 입력 임베딩들의 제3 임베딩을 생성하도록 추가로 구성될 수도 있다.
일 실시예에 따르면, 트랜스포머 인코더들의 네트워크(306)는, 멀티모달 입력의 제1 모달리티(314A)에 대한 트랜스포머 인코더들의 제1 스택(316), 멀티모달 입력의 제2 모달리티(314B)에 대한 트랜스포머 인코더들의 제2 스택(318), 및 멀티모달 입력의 제3 모달리티(314C)에 대한 트랜스포머 인코더들의 제3 스택(320)을 포함할 수도 있다.
일 실시예에 따르면, 시스템(102)은, 트랜스포머 인코더들의 네트워크(306)에서의 인접한 트랜스포머 인코더들의 각각의 쌍 사이의 스킵 커넥션(322)을 더 포함할 수도 있다.
일 실시예에 따르면, 회로부(104)는 하나 이상의 비디오를 수신하도록 구성될 수도 있다. 회로부(104)는 수신된 하나 이상의 비디오에 대해 장면 검출 모델(212)을 적용하도록 추가로 구성될 수도 있다. 회로부(104)는 장면 검출 모델의 적용에 기초하여 하나 이상의 비디오로부터 복수의 장면들을 추출하도록 추가로 구성될 수도 있다. 회로부(104)는 추출된 복수의 장면들 각각에 대해 단일 경계 검출 모델(214)을 적용하도록 추가로 구성될 수도 있다. 회로부(104)는 단일 경계 검출 모델(214)의 적용에 기초하여 추출된 복수의 장면들에서 복수의 발화들(312)을 검출하도록 추가로 구성될 수도 있다. 회로부(104)는 검출에 기초하여 멀티모달 입력들의 시퀀스를 준비하도록 추가로 구성될 수도 있다. 하나 이상의 피처 추출기(304)에 입력될 수도 있는 멀티모달 입력은 준비된 멀티모달 입력들의 시퀀스의 일부일 수도 있다.
일 실시예에 따르면, 융합 어텐션 네트워크들의 세트(308) 각각은 하나 이상의 멀티헤드 어텐션 계층 및 제1 완전 연결 계층을 포함할 수도 있다. 제1 완전 연결 계층의 입력은 하나 이상의 멀티헤드 어텐션 계층의 출력에 커플링될 수도 있다.
일 실시예에 따르면, 회로부(104)는 감정 관련 피처들의 세트에 대해 하나 이상의 멀티헤드 어텐션 계층을 적용하여 감정 관련 피처들의 세트 내의 피처 간 매핑을 결정하고 피처 간 매핑에 기초하여 감정 관련 피처들의 세트를 감정 관련 피처들의 세트의 잠재 표현으로 연접하도록 추가로 구성될 수도 있다.
일 실시예에 따르면, 감정 관련 피처들의 세트의 융합된 피처 표현은 잠재 표현에 대한 제1 완전 연결 계층의 적용에 기초하여 추가로 생성될 수도 있다.
일 실시예에 따르면, 출력 네트워크(310)는, 융합 어텐션 네트워크들의 세트(308)의 출력에 커플링되는 제2 완전 연결 계층을 포함할 수도 있다.
본 개시내용은 하드웨어, 또는 하드웨어와 소프트웨어의 조합으로 실현될 수도 있다. 본 개시내용은 적어도 하나의 컴퓨터 시스템에서, 중앙집중화된 방식으로, 또는 상이한 요소들이 몇몇 상호연결된 컴퓨터 시스템들에 걸쳐 확산될 수도 있는 경우, 분산된 방식으로 실현될 수도 있다. 본 명세서에서 설명되는 방법들을 수행하도록 적응되는 컴퓨터 시스템 또는 다른 장치가 적합할 수도 있다. 하드웨어와 소프트웨어의 조합은, 컴퓨터 프로그램을 갖는 범용 컴퓨터 시스템일 수도 있는데, 이 컴퓨터 프로그램은, 로딩 및 실행될 때, 컴퓨터 시스템을 제어하여 그것이 본 명세서에서 설명되는 방법들을 수행하도록 할 수도 있다. 본 개시내용은 다른 기능들을 또한 수행하는 집적 회로의 일 부분을 포함하는 하드웨어로 실현될 수도 있다.
본 개시내용은 또한, 본 명세서에서 설명되는 방법들의 구현을 가능하게 하는 모든 피처들을 포함하고, 컴퓨터 시스템에 로딩될 때, 이들 방법들을 수행하는 것이 가능한 컴퓨터 프로그램 제품에 내장될 수도 있다. 본 맥락에서의 컴퓨터 프로그램은, 정보 프로세싱 능력을 갖는 시스템으로 하여금, 직접적으로, 또는 다음의 것: a) 다른 언어, 코드 또는 표기법으로의 컨버전; b) 상이한 자료 형태의 재생성 중 어느 하나 또는 이들 양측 모두 이후에 특정 기능을 수행하게 하도록 의도되는 명령어들의 세트의, 임의의 언어, 코드 또는 표기법으로의, 임의의 표현을 의미한다.
본 개시내용은 특정 실시예들을 참조하여 설명되었지만, 본 개시내용의 범주로부터 벗어남이 없이 다양한 변경들이 이루어질 수도 있고 등가물들이 대체될 수도 있다는 것이 본 기술분야의 통상의 기술자들에 의해 이해될 것이다. 부가적으로, 본 개시내용의 범주로부터 벗어남이 없이 본 개시내용의 교시에 특정 상황 또는 자료를 적응시키기 위해 많은 수정들이 이루어질 수도 있다. 그에 따라, 본 개시내용은 개시된 특정 실시예로 제한되는 것이 아니라, 본 개시내용은 첨부된 청구범위의 범주 내에 속하는 모든 실시예들을 포함할 것으로 의도된다.

Claims (20)

  1. 시스템으로서,
    하나 이상의 피처 추출기(feature extractor), 상기 하나 이상의 피처 추출기에 커플링되는 트랜스포머 인코더(transformer encoder)들의 네트워크, 상기 트랜스포머 인코더들의 네트워크에 커플링되는 융합 어텐션 네트워크(fusion attention network), 및 상기 융합 어텐션 네트워크에 커플링되는 출력 네트워크를 포함하는 멀티모달 융합 네트워크(multimodal fusion network)를 저장하도록 구성되는 메모리; 및
    회로부
    를 포함하고,
    상기 회로부는:
    상기 하나 이상의 피처 추출기에 멀티모달 입력을 입력하고 - 상기 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화(utterance)와 연관됨 -;
    상기 입력에 대한 상기 하나 이상의 피처 추출기의 출력으로서 입력 임베딩(input embedding)들을 생성하고 - 상기 입력 임베딩들은 상기 멀티모달 입력의 각각의 모달리티(modality)에 대한 임베딩을 포함함 -;
    상기 입력 임베딩들에 대한 상기 트랜스포머 인코더들의 네트워크의 적용에 기초하여 감정 관련 피처들의 세트를 생성하고 - 상기 감정 관련 피처들의 세트는, 상기 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함함 -;
    상기 감정 관련 피처들의 세트에 대한 상기 융합 어텐션 네트워크의 적용에 기초하여, 상기 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하고;
    상기 융합된 피처 표현에 대한 상기 출력 네트워크의 적용에 기초하여, 상기 발화에 대한 감정 레이블(emotion label)을 예측하도록
    구성되는, 시스템.
  2. 제1항에 있어서,
    상기 멀티모달 입력은, 다중 언어 음성(multilingual speech) 및 상기 하나 이상의 피처 추출기와 호환가능한 제1 언어의 상기 다중 언어 음성의 텍스트 전사물(text transcription)을 포함하는, 시스템.
  3. 제1항에 있어서,
    상기 멀티모달 입력은, 상기 하나 이상의 피처 추출기와 호환가능한 제1 언어와는 상이한 제2 언어의 음성을 포함하고, 상기 멀티모달 입력은, 상기 하나 이상의 피처 추출기와 호환가능한 제1 언어의 상기 음성의 텍스트 전사물을 포함하는, 시스템.
  4. 제1항에 있어서,
    상기 멀티모달 입력은, 상기 발화의 음향들과 연관된 제1 모달리티, 상기 발화의 텍스트 전사본(text transcript)과 연관된 제2 모달리티, 및 상기 발화의 시각적 양태와 연관된 제3 모달리티를 포함하는, 시스템.
  5. 제1항에 있어서,
    상기 하나 이상의 피처 추출기는 음향-시각 피처 추출기 및 음향 피처 추출기를 포함하고, 상기 회로부는, 상기 멀티모달 입력에 포함된 상기 발화의 음향 정보에 대한 상기 음향-시각 피처 추출기 또는 상기 음향 피처 추출기 중 하나의 적용에 기초하여 상기 입력 임베딩들의 제1 임베딩을 생성하도록 추가로 구성되는, 시스템.
  6. 제1항에 있어서,
    상기 하나 이상의 피처 추출기는 텍스트 피처 추출기를 포함하고, 상기 회로부는, 상기 발화와 연관된 음향 정보의 텍스트 전사본 및 시간적으로 상기 발화에 선행하거나 또는 후행하는 상이한 발화들의 텍스트 전사본들에 대한 상기 텍스트 피처 추출기의 적용에 기초하여 상기 입력 임베딩들의 제2 임베딩을 생성하도록 추가로 구성되는, 시스템.
  7. 제1항에 있어서,
    상기 하나 이상의 피처 추출기는 음향-시각 피처 추출기 및 시각 피처 추출기를 포함하고, 상기 회로부는, 상기 하나 이상의 비디오의 프레임들에서의 하나 이상의 말하는 캐릭터의 얼굴 정보 및 프레임들과 연관된 장면 정보에 대한 상기 음향-시각 피처 추출기 또는 상기 시각 피처 추출기 중 하나의 적용에 기초하여 상기 입력 임베딩들의 제3 임베딩을 생성하도록 추가로 구성되고,
    상기 프레임들은 상기 하나 이상의 비디오에서의 상기 발화의 지속기간에 대응하는, 시스템.
  8. 제7항에 있어서,
    상기 회로부는 추가로:
    상기 음향-시각 피처 추출기 또는 상기 시각 피처 추출기에 상기 발화의 지속기간에 대응하는 상기 하나 이상의 비디오의 프레임들을 입력하고;
    수신된 프레임들 각각에 대한 상기 시각 피처 추출기 또는 상기 음향-시각 피처 추출기의 얼굴 검출 모델의 적용에 기초하여, 상기 수신된 프레임들 각각에서 하나 이상의 얼굴을 검출하고;
    상기 검출된 하나 이상의 얼굴을 포함하는 하나 이상의 바운딩 박스(bounding box)를 생성하고;
    상기 음향-시각 피처 추출기 또는 상기 시각 피처 추출기 중 하나의 적용에 의해, 상기 하나 이상의 바운딩 박스 각각과 연관된 영역을 정규화하고;
    상기 검출된 하나 이상의 얼굴 및 상기 정규화에 기초하여 상기 음향-시각 피처 추출기 또는 상기 시각 피처 추출기의 출력으로서 상기 입력 임베딩들의 제3 임베딩을 생성하도록
    구성되는, 시스템.
  9. 제1항에 있어서,
    상기 트랜스포머 인코더들의 네트워크는, 상기 멀티모달 입력의 제1 모달리티에 대한 트랜스포머 인코더들의 제1 스택, 상기 멀티모달 입력의 제2 모달리티에 대한 트랜스포머 인코더들의 제2 스택, 및 상기 멀티모달 입력의 제3 모달리티에 대한 트랜스포머 인코더들의 제3 스택을 포함하는, 시스템.
  10. 제1항에 있어서,
    상기 트랜스포머 인코더들의 네트워크에서의 인접한 트랜스포머 인코더들의 각각의 쌍 사이의 스킵 커넥션을 더 포함하는, 시스템.
  11. 제1항에 있어서,
    상기 회로부는 추가로:
    상기 하나 이상의 비디오를 수신하고;
    상기 수신된 하나 이상의 비디오에 대해 장면 검출 모델을 적용하고;
    상기 장면 검출 모델의 적용에 기초하여 상기 하나 이상의 비디오로부터 복수의 장면들을 추출하고;
    상기 추출된 복수의 장면들 각각에 대해 단일 경계 검출 모델을 적용하고;
    상기 단일 경계 검출 모델의 적용에 기초하여, 상기 추출된 복수의 장면들에서 복수의 발화들을 검출하고;
    상기 검출에 기초하여 멀티모달 입력들의 시퀀스를 준비하도록
    구성되고,
    상기 하나 이상의 피처 추출기에 입력되는 멀티모달 입력은 상기 준비된 멀티모달 입력들의 시퀀스의 일부인, 시스템.
  12. 제1항에 있어서,
    상기 융합 어텐션 네트워크는 하나 이상의 멀티헤드 어텐션 계층(multi-head attention layer) 및 제1 완전 연결 계층(first fully connected layer)을 포함하고,
    상기 제1 완전 연결 계층의 입력이 상기 하나 이상의 멀티헤드 어텐션 계층의 출력에 커플링되는, 시스템.
  13. 제12항에 있어서,
    상기 회로부는 추가로, 상기 감정 관련 피처들의 세트에 대해 하나 이상의 멀티헤드 어텐션 계층을 적용하여:
    상기 감정 관련 피처들의 세트 내의 피처 간 매핑(inter-feature mapping)을 결정하고;
    상기 피처 간 매핑에 기초하여, 상기 감정 관련 피처들의 세트를 상기 감정 관련 피처들의 세트의 잠재 표현(latent representation)으로 연접(concatenate)하도록
    구성되는, 시스템.
  14. 제13항에 있어서,
    상기 감정 관련 피처들의 세트의 융합된 피처 표현은 상기 잠재 표현에 대한 상기 제1 완전 연결 계층의 적용에 기초하여 추가로 생성되는, 시스템.
  15. 제1항에 있어서,
    상기 출력 네트워크는, 상기 융합 어텐션 네트워크의 출력에 커플링되는 제2 완전 연결 계층을 포함하는, 시스템.
  16. 방법으로서,
    멀티모달 융합 네트워크를 저장한 메모리를 포함하는 시스템에서:
    상기 멀티모달 융합 네트워크의 하나 이상의 피처 추출기에 멀티모달 입력을 입력하는 단계 - 상기 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관됨 -;
    상기 입력에 대한 상기 하나 이상의 피처 추출기의 출력으로서 입력 임베딩들을 생성하는 단계 - 상기 입력 임베딩들은 상기 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함함 -;
    상기 입력 임베딩들에 대한 상기 멀티모달 융합 네트워크의 트랜스포머 인코더들의 네트워크의 적용에 기초하여 감정 관련 피처들의 세트를 생성하는 단계 - 상기 감정 관련 피처들의 세트는, 상기 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함함 -;
    상기 감정 관련 피처들의 세트에 대한 상기 멀티모달 융합 네트워크의 융합 어텐션 네트워크의 적용에 기초하여, 상기 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하는 단계; 및
    상기 융합된 피처 표현에 대한 상기 멀티모달 융합 네트워크의 출력 네트워크의 적용에 기초하여, 상기 발화에 대한 감정 레이블을 예측하는 단계
    를 포함하는, 방법.
  17. 제16항에 있어서,
    상기 멀티모달 입력은, 상기 발화의 음향들과 연관된 제1 모달리티, 상기 발화의 텍스트 전사본과 연관된 제2 모달리티, 및 상기 발화의 시각적 양태와 연관된 제3 모달리티를 포함하는, 방법.
  18. 제16항에 있어서,
    상기 융합 어텐션 네트워크는 하나 이상의 멀티헤드 어텐션 계층 및 제1 완전 연결 계층을 포함하고,
    상기 제1 완전 연결 계층의 입력이 상기 하나 이상의 멀티헤드 어텐션 계층의 출력에 커플링되는, 방법.
  19. 제18항에 있어서,
    상기 감정 관련 피처들의 세트에 대해 하나 이상의 멀티헤드 어텐션 계층을 적용하여:
    상기 감정 관련 피처들의 세트 내의 피처 간 매핑을 결정하고;
    상기 피처 간 매핑에 기초하여, 상기 감정 관련 피처들의 세트를 상기 감정 관련 피처들의 세트의 잠재 표현으로 연접하는 단계
    를 더 포함하고,
    상기 감정 관련 피처들의 세트의 융합된 피처 표현은 상기 잠재 표현에 대한 상기 제1 완전 연결 계층의 적용에 기초하여 추가로 생성되는, 방법.
  20. 컴퓨터 실행가능 명령어들이 저장된 비일시적 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 실행가능 명령어들은, 시스템의 회로부에 의해 실행될 때, 상기 회로부로 하여금:
    멀티모달 융합 네트워크의 하나 이상의 피처 추출기에 멀티모달 입력을 입력하는 동작 - 상기 멀티모달 입력은, 하나 이상의 비디오에서 나타낸 발화와 연관됨 -;
    상기 입력에 대한 상기 하나 이상의 피처 추출기의 출력으로서 입력 임베딩들을 생성하는 동작 - 상기 입력 임베딩들은 상기 멀티모달 입력의 각각의 모달리티에 대한 임베딩을 포함함 -;
    상기 입력 임베딩들에 대한 상기 멀티모달 융합 네트워크의 트랜스포머 인코더들의 네트워크의 적용에 기초하여 감정 관련 피처들의 세트를 생성하는 동작 - 상기 감정 관련 피처들의 세트는, 상기 멀티모달 입력의 각각의 모달리티에 대응하는 하나 이상의 피처를 포함함 -;
    상기 감정 관련 피처들의 세트에 대한 상기 멀티모달 융합 네트워크의 융합 어텐션 네트워크의 적용에 기초하여, 상기 감정 관련 피처들의 세트의 융합된 피처 표현을 생성하는 동작; 및
    상기 융합된 피처 표현에 대한 상기 멀티모달 융합 네트워크의 출력 네트워크의 적용에 기초하여, 상기 발화에 대한 감정 레이블을 예측하는 동작
    을 포함하는 동작들을 실행하게 하는, 비일시적 컴퓨터 판독가능 매체.
KR1020247014149A 2021-11-12 2022-10-27 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식 KR20240093516A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63/263,961 2021-11-12
US17/941,787 2022-09-09

Publications (1)

Publication Number Publication Date
KR20240093516A true KR20240093516A (ko) 2024-06-24

Family

ID=

Similar Documents

Publication Publication Date Title
JP7490804B2 (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
US9818409B2 (en) Context-dependent modeling of phonemes
US10846522B2 (en) Speaking classification using audio-visual data
US20230154172A1 (en) Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network
WO2021076305A1 (en) Smart cameras enabled by assistant systems
WO2023084348A1 (en) Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network
WO2022121251A1 (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
JP2022006174A (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN113421547B (zh) 一种语音处理方法及相关设备
JP7247442B2 (ja) ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
JP7167106B2 (ja) 口形特徴予測方法、装置及び電子機器
JP2021114284A (ja) 句読点予測方法および装置
CN112989935A (zh) 一种视频生成方法、装置、设备以及存储介质
US20230075893A1 (en) Speech recognition model structure including context-dependent operations independent of future data
WO2023185563A1 (zh) 语音翻译模型的训练方法、语音翻译方法、装置及设备
US11631399B2 (en) Layer trajectory long short-term memory with future context
WO2023172331A1 (en) Code-mixed speech recognition using attention and language-specific joint analysis
KR20240093516A (ko) 멀티모달 융합 기반 딥 뉴럴 네트워크를 사용하는 멀티미디어 비디오들에서의 감정 인식
WO2021244424A1 (zh) 中心词提取方法、装置、设备及存储介质
US20210081164A1 (en) Electronic apparatus and method for providing manual thereof
KR20220069403A (ko) 하이라이팅 기능이 포함된 감정 분석 서비스를 위한 방법 및 장치
US20240163393A1 (en) Predicting video edits from text-based conversations using neural networks
US20240135187A1 (en) Method for Training Large Language Models to Perform Query Intent Classification