WO2020196976A1

WO2020196976A1 - 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치 및 그의 동작 방법

Info

Publication number: WO2020196976A1
Application number: PCT/KR2019/004266
Authority: WO
Inventors: 이수영; 신영훈; 김태호; 최신국; 김태훈
Original assignee: 한국과학기술원
Priority date: 2019-03-22
Filing date: 2019-04-10
Publication date: 2020-10-01
Also published as: KR20200119368A; KR102183280B1

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반으로 하며, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개와 관련되는 멀티모달 데이터를 검출하고, 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하고, 멀티모달 데이터 및 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하고, 및 제 2 주의집중 변수에 기반하여, 결과값을 추론하도록 구성될 수 있다.

Description

멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치 및 그의 동작 방법

다양한 실시예들은 멀티모달 데이터(multimodal data)를 이용한 주의집중(attention)의 순환 신경망(recurrent neural network) 기반 전자 장치 및 그의 동작 방법에 관한 것이다.

최근 시장에 출시되는 인공지능 스피커와 같은 전자 장치의 경우 질의 응답을 하는 수준의 대화만 가능하다. 그러나, 감성대화에 대한 수요가 증가함과 동시에 딥러닝 기술이 발전하면서, 사용자의 영상(얼굴), 음성 또는 텍스트를 기반으로 사용자의 감정을 추정하는 딥러닝 기술이 개발되고 있는 추세다.

그런데, 상기와 같이 단일 입력 값으로 사용자의 감정을 추정하는 전자 장치는 여려 입력 값을 기반으로 사용자의 감정을 추정하는 전자 장치에 비해 그 정확도가 낮다. 이로 인하여, 전자 장치에서 사용자의 감정에 대한 안정적인 추정 결과를 제공하는 데 한계가 있다. 따라서, 전자 장치가 사용자의 감정을 보다 정확하고 안정적으로 추정할 수 있는 방안이 요구된다.

다양한 실시예들에 따른 전자 장치의 동작 방법은 멀티모달 데이터(multimodal data)를 이용한 주의집중(attention)의 순환 신경망(recurrent neural network) 기반으로 수행되며, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개와 관련되는 멀티모달 데이터를 검출하는 동작, 상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하는 동작, 상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하는 동작, 및 상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하는 동작을 포함할 수 있다.

다양한 실시예들에 따른 전자 장치는 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반으로 동작하며, 입력 모듈, 및 상기 입력 모듈과 연결되는 프로세서를 포함할 수 있다. 다양한 실시예들에 따르면, 상기 프로세서는, 상기 입력 모듈을 통하여, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개와 관련되는 멀티모달 데이터를 검출하고, 상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하고, 상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하고, 상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하도록 구성될 수 있다.

다양한 실시예들에 따르면, 전자 장치는 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 두 개 또는 세 개로부터 사용자의 감정을 인식할 수 있다. 이 때 전자 장치는 주의집중의 순환 신경망을 기반으로 특정 동작을 반복 수행함으로써, 사용자의 감정을 인식하는 데 있어서 사용자의 음성, 영상 및 텍스트 각각에 대한 영향력이 고려될 수 있다. 예를 들면, 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나가 수신되지 않거나 노이즈가 심한 경우, 전자 장치가 사용자의 감정을 인식하는 데 있어서 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나의 영향력을 감소시킬 수 있다. 이를 통해, 전자 장치는, 보다 정확하고 안정적으로 사용자의 감정을 인식할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.

도 2는 도 1의 프로세서를 도시하는 도면이다.

도 3은 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.

도 4는 도 3의 제 2 주의집중 변수 계산 동작을 도시하는 도면이다.

도 5는 다양한 실시예들에 따른 전자 장치의 동작 방법을 설명하기 위한 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는 멀티모달 데이터를 이용하여 주의집중(attention)의 순환 신경망(recurrent neural network)을 기반으로 사용자의 감정(emotion)을 인식하기 위한 것으로, 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서는, 전자 장치(100)의 구성 요소들 중 적어도 어느 하나가 생략되거나, 전자 장치(100)에 하나 이상의 다른 구성 요소가 추가될 수 있다.

입력 모듈(110)은 전자 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 전자 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.

출력 모듈(120)은 전자 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.

메모리(130)는 전자 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.

프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여, 사용자의 멀티모달 데이터(multimodal data)를 검출할 수 있다. 멀티모달 데이터는 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 두 개와 관련될 수 있다. 일 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여, 외부 전자 장치(미도시)로부터 사용자와 관련된 영상 데이터로서 멀티모달 데이터를 수신할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 입력 장치를 통하여, 사용자와 관련된 영상 데이터로서 멀티모달 데이터를 수집할 수 있다. 그리고 프로세서(140)는 멀티모달 데이터에 기반하여, 사용자의 감정을 인식할 수 있다. 즉 프로세서(140)는 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 두 개로부터 사용자의 감정을 인식할 수 있다. 이 때 프로세서(140)는 주의집중의 순환 신경망을 기반으로 사용자의 감정을 인식할 수 있다. 이를 통해, 프로세서(140)는, 보다 정확하고 안정적으로 사용자의 감정을 인식할 수 있다. 이 때 프로세서(140)는 사용자의 감정에 대한 인식 결과 또는 그와 관련된 서비스 중 적어도 어느 하나를 제공할 수 있다. 여기서, 프로세서(140)는 출력 모듈(120)을 통하여 인식 결과를 출력할 수 있다.

도 2는 도 1의 프로세서(140)를 도시하는 도면이다.

도 2를 참조하면, 프로세서(140)는 전처리부(210), 싱글모달(singlemodal) 입력부(220), 주의집중부(230), 싱글모달 히든부(240), 싱글모달 출력부(250), 모달 결합부(260), 감정 인식부(270) 또는 베이스부(280) 중 적어도 어느 하나를 포함할 수 있다.

전처리부(210)는 멀티모달 데이터로부터 특징점들을 검출할 수 있다. 전처리부(210)는 오디오 처리부(211), 영상 처리부(213) 및 텍스트 처리부(215)를 포함할 수 있다. 오디오 처리부(211)는 입력 모듈(110)로부터 입력되는 멀티모달 데이터로부터 사용자의 음성과 관련된 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 오디오 처리부(211)는 log mel spectrogram 형태로, 특징점을 검출할 수 있다. 영상 처리부(213)는 멀티모달 데이터로부터 사용자의 영상과 관련된 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 영상 처리부(213)는 사용자의 얼굴 이미지를 크로핑(cropping)할 수 있다. 텍스트 처리부(215)는 멀티모달 데이터로부터 사용자의 텍스트와 관련된 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 텍스트 처리부(215)는 사용자의 음성을 텍스트로 변환하고, sentence embedding vector를 이용하여 텍스트를 벡터로 표현할 수 있다.

싱글모달 입력부(220)는 특징점들을 싱글모달 데이터로 입력할 수 있다. 싱글모달 데이터는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터를 포함할 수 있다. 싱글모달 입력부(220)는 제 1 싱글 입력부(221), 제 2 싱글 입력부(223) 및 제 3 싱글 입력부(225)를 포함할 수 있다. 제 1 싱글 입력부(221)는 사용자의 음성과 관련된 특징점을 제 1 싱글모달 데이터로 획득할 수 있다. 제 2 싱글 입력부(223)는 사용자의 영상과 관련된 특징점을 제 2 싱글모달 데이터로 획득할 수 있다. 제 3 싱글 입력부(225)는 사용자의 텍스트와 관련된 특징점을 제 3 싱글모달 데이터로 획득할 수 있다.

주의집중부(230)는 싱글모달 데이터에 대응하는 주의집중 변수를 계산할 수 있다. 이 때 주의집중부(230)는 싱글모달 데이터를 기반으로, 제 1 주의집중 변수를 계산할 수 있다. 그리고 주의집중부(230)는 싱글모달 데이터와 가중치들을 기반으로, 제 2 주의집중 변수를 계산할 수 있다. 여기서, 주의 집중부(230)는 미리 정해진 횟수 만큼, 제 2 주의집중 변수를 계산할 수 있다. 주의집중부(230)는 제 1 주의집중부(231), 제 2 주의집중부(233) 및 제 3 주의집중부(235)를 포함할 수 있다. 제 1 주의집중부(231)는 제 1 싱글모달 데이터에 대응하여, 제 1 주의집중 변수 또는 제 2 주의집중 변수를 계산할 수 있다. 제 2 주의집중부(233)는 제 2 싱글모달 데이터에 대응하여, 제 1 주의집중 변수 또는 제 2 주의집중 변수를 계산할 수 있다. 제 3 주의집중부(235)는 제 3 싱글모달 데이터에 대응하여, 제 1 주의집중 변수 또는 제 2 주의집중 변수를 계산할 수 있다.

싱글모달 히든부(240)는 순환 신경망의 학습 알고리즘을 통하여, 주의집중 변수를 기반으로, 싱글모달 데이터에 대응하는 감정 추론 값을 획득할 수 있다. 이 때 싱글모달 히든부(240)는 제 1 주의집중 변수를 기반으로, 제 1 감정 추론 값을 획득할 수 있다. 그리고 싱글모달 히든부(240)는 제 2 주의집중 변수를 기반으로, 제 2 감정 추론 값을 획득할 수 있다. 싱글모달 히든부(240)는 제 1 히든부(241), 제 2 히든부(243) 및 제 3 히든부(245)를 포함할 수 있다. 제 1 히든부(241)는 제 1 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 획득할 수 있다. 제 2 히든부(243)는 제 2 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 획득할 수 있다. 제 3 히든부(245)는 제 3 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 획득할 수 있다.

싱글모달 출력부(250)는 싱글모달 데이터에 대응하는 감정 추론 값을 출력할 수 있다. 이 때 싱글모달 출력부(250)는 제 1 감정 추론 값 또는 제 2 감정 추론 값을 출력할 수 있다. 싱글모달 출력부(250)는 제 1 싱글 출력부(251), 제 2 싱글 출력부(253) 및 제 3 싱글 출력부(255)를 포함할 수 있다. 제 1 싱글 출력부(251)는 제 1 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 모달 결합부(260)로 출력할 수 있다. 제 2 싱글 출력부(253)는 제 2 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 모달 결합부(260)로 출력할 수 있다. 제 3 싱글 출력부(255)는 제 3 싱글모달 데이터에 대응하여, 제 1 감정 추론 값 또는 제 2 감정 추론 값을 모달 결합부(260)로 출력할 수 있다.

모달 결합부(260)는 싱글모달 데이터에 대응하는 감정 추론 값을 결합할 수 있다. 이 때 모달 결합부(260)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하는 제 1 감정 추론 값을 결합할 수 있다. 그리고 모달 결합부(260)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하는 제 2 감정 추론 값을 결합할 수 있다.

감정 인식부(270)는 결합된 감정 추론 값에 기반하여, 사용자의 감정을 인식할 수 있다. 이 때 감정 인식부(270)는 결합된 제 1 감정 추론 값을 베이스부(280)에 전달할 수 있다. 그리고 감정 인식부(270)는 결합된 제 2 감정 추론 값을 베이스부(280)에 전달할 수 있다. 여기서, 감정 인식부(270)는 미리 정해진 횟수 만큼, 결합된 제 2 감정 추론 값을 베이스부(280)를 베이스부(280)에 전달할 수 있다.

베이스부(280)는 결합된 감정 추론 값으로부터 싱글모달 데이터에 대응하는 가중치들을 획득할 수 있다. 이 때 베이스부(280)는 결합된 감정 추론 값에 대한 각 싱글모달 데이터의 영향력을 판단하고, 영향력에 따라 각 싱글모달 데이터에 가중치들을 부여할 수 있다. 예를 들면, 영향력이 적을수록, 낮은 가중치를 부여할 수 있다. 즉 베이스부(280)는 결합된 제 1 감정 추론 값으로부터 사용자의 음성, 영상 또는 데이터와 각각 관련되는 가중치들을 획득할 수 있다. 그리고 베이스부(280)는 결합된 제 2 감정 추론 값으로부터 사용자의 음성, 영상 또는 데이터와 각각 관련되는 가중치들을 획득할 수 있다. 이를 통해, 베이스부(280)는 가중치들을 주의집중부(230)에 제공할 수 있다. 베이스부(280)는 제 1 베이스부(281), 제 2 베이스부(283) 및 제 3 베이스부(285)를 포함할 수 있다. 제 1 베이스부(281)는 제 1 싱글모달 데이터에 대응하는 가중치를 제 1 주의집중부(231)에 제공할 수 있다. 제 2 베이스부(283)는 제 2 싱글모달 데이터에 대응하는 가중치를 제 2 주의집중부(233)에 제공할 수 있다. 제 3 베이스부(285)는 제 3 싱글모달 데이터에 대응하는 가중치를 제 3 주의집중부(235)에 제공할 수 있다.

다양한 실시예들에 따른 전자 장치(100)는 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반으로 동작하며, 입력 모듈(110), 및 입력 모듈(110)과 연결되는 프로세서(140)를 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 입력 모듈(110)을 통하여, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개와 관련되는 멀티모달 데이터를 검출하고, 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하고, 감정 추론 값을멀티모달 데이터 및 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하고, 제 2 주의집중 변수에 기반하여, 결과값을 추론하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하고, 멀티모달 데이터 및 제 1 감정 추론 값에 기반하여, 제 2 주의집중 변수를 계산하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는 제 2 주의집중 변수에 기반하여, 결과값으로서 사용자의 감정을 인식하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하고, 멀티모달 데이터 및 제 2 감정 추론 값에 기반하여, 제 2 주의집중 변수를 재차 계산하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 2 주의집중 변수를 재차 계산한 후에, 제 2 감정 추론 값을 획득하도록 복귀할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하고, 제 2 감정 추론 값을 통하여, 감정을 인식하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 멀티모달 데이터를 분석하여, 음성과 관련되는 제 1 싱글모달 데이터, 영상과 관련되는 제 2 싱글모달 데이터 및 텍스트와 관련되는 제 3 싱글모달 데이터를 획득하고, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 1 주의집중 변수를 계산하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 1 감정 추론 값으로부터 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하고, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치들을 기반으로, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수를 계산하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 제 2 감정 추론 값으로부터 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하고, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치들을 기반으로, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수를 재차 계산하도록 구성될 수 있다.

도 3은 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다. 도 5는 다양한 실시예들에 따른 전자 장치의 동작 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 전자 장치(100)는 310 동작에서 멀티모달 데이터(X)를 검출할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여, 사용자의 멀티모달 데이터(X)를 검출할 수 있다. 멀티모달 데이터(X)는 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 두 개와 관련될 수 있다. 일 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여, 외부 전자 장치(미도시)로부터 사용자와 관련된 영상 데이터로서 멀티모달 데이터(X)를 수신할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 입력 장치를 통하여, 사용자와 관련된 영상 데이터로서 멀티모달 데이터(X)를 수집할 수 있다.

전자 장치(100)는 320 동작에서 멀티모달 데이터(X)에 기반하여, 제 1 주의집중 변수(A ₀)를 계산할 수 있다. 프로세서(140)는 멀티모달 데이터(X)를 분석하여, 음성과 관련되는 제 1 싱글모달 데이터, 영상과 관련되는 제 2 싱글모달 데이터 및 텍스트와 관련되는 제 3 싱글모달 데이터를 획득할 수 있다. 그리고 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 1 주의집중 변수(A ₀)를 계산할 수 있다.

전자 장치(100)는 330 동작에서 멀티모달 데이터(X)에 기반하여, 제 2 주의집중 변수(A ₁, …, A _k)를 계산할 수 있다. 프로세서(140)는 정해진 횟수(k) 만큼 제 2 주의집중 변수(A ₁, …, A _k)를 계산할 수 있다. 여기서, 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수(A ₁, …, A _k)를 계산할 수 있다. 이 때 프로세서(140)는 멀티모달 데이터(X)에 기반하여, 제 2 주의집중 변수(A ₁)를 계산할 수 있다. 여기서, 프로세서(140)는 제 1 주의집중 변수(A ₀)에 기반하여, 제 1 감정 추론 값(B ₀-C ₀)를 획득하고, 멀티모달 데이터(X) 및 제 1 감정 추론 값(B ₀-C ₀)에 기반하여, 제 2 주의집중 변수(A ₁)를 계산할 수 있다. 그리고 프로세서(140)는 멀티모달 데이터(X) 및 제 2 주의집중 변수(A ₁)에 기반하여, 제 2 주의집중 변수(A ₂, …, A _k)를 재차 계산할 수 있다. 여기서, 프로세서(140)는 제 2 주의집중 변수(A ₁)에 기반하여, 제 2 감정 추론 값(B ₁-C ₁)를 획득하고, 멀티모달 데이터(X) 및 제 2 감정 추론 값(B ₁-C ₁, …, B _k-C _k)에 기반하여, 제 2 주의집중 변수(A ₂, …, A _k)를 재차 계산할 수 있다. 도 4는 도 3의 제 2 주의집중 변수(A ₁, …, A _k) 계산 동작을 도시하는 도면이다.

도 4를 참조하면, 전자 장치(100)는 410 동작에서 제 1 감정 추론 값(B ₀-C ₀)을 획득할 수 있다. 이 때 프로세서(140)는 제 1 주의집중 변수(A0)에 기반하여, 제 1 감정 추론 값(B ₀-C ₀)을 획득할 수 있다. 여기서, 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하는 제 1 감정 추론 값(B ₀)을 획득할 수 있다. 그리고 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하는 제 1 감정 추론 값(B ₀)를 결합하여, 결합된 제 1 감정 추론 값(C ₀)을 획득할 수 있다.

전자 장치(100)는 420 동작에서 제 2 주의집중 변수(A _n)에 대한 계산 횟수(n)을 1로 설정할 수 있다. 전자 장치(100)는 430 동작에서 멀티모달 데이터(X) 및 제 1 감정 추론 값(B ₀-C ₀)에 기반하여, 제 2 주의집중 변수(A ₁)를 계산할 수 있다. 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수(A1)를 계산할 수 있다. 이를 위해, 프로세서(140)는 제 1 감정 추론 값(B ₀-C ₀)로부터 사용자의 음성, 영상 및 데이터와 관련되는 가중치(D ₀)들을 각각 획득할 수 있다. 여기서, 프로세서(140)는 결합된 제 1 감정 추론 값(C ₀)에 대한 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각의 영향력을 판단하고, 영향력에 따라 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 가중치(D ₀)들을 부여할 수 있다. 그리고 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치(D ₀)들을 각각 대응시켜 곱셈 연산을 수행함으로써, 제 2 주의집중 변수(A ₁)를 계산할 수 있다.

전자 장치(100)는 440 동작에서 제 2 주의집중 변수(A ₁, …, A _k)에 기반하여, 제 2 감정 추론 값(B ₁-C ₁, …, B _k-C _k)을 획득할 수 있다. 여기서, 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하는 제 2 감정 추론 값(B ₁-C ₁, …, B _k-C _k)을 결합할 수 있다.

전자 장치(100)는 450 동작에서 제 2 주의집중 변수(A _n)에 대한 계산 횟수(n)가 정해진 횟수(k)에 도달했는 지의 여부를 판단할 수 있다. 이 때 450 동작에서 제 2 주의집중 변수(A _n)에 대한 계산 횟수(n)가 정해진 횟수(k)에 도달한 것으로 판단되면, 전자 장치(100)는 도 3으로 리턴할 수 있다.

한편, 450 동작에서 제 2 주의집중 변수(A _n)에 대한 계산 횟수(n)가 정해진 횟수(k)에 도달하지 않은 것으로 판단되면, 전자 장치(100)는 460 동작에서 제 2 주의집중 변수(A _n)에 대한 계산 횟수(n)을 1 만큼 증가시킬 수 있다. 전자 장치(100)는 470 동작에서 멀티모달 데이터(X) 및 제 2 감정 추론 값(B ₁-C ₁, …, B _k-1-C _k-1)에 기반하여, 제 2 주의집중 변수(A ₂, …, A _k)를 계산할 수 있다. 프로세서(140)는 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수(A ₂, …, A _k)를 재차 계산할 수 있다. 이를 위해, 프로세서(140)는 제 2 감정 추론 값(B ₁-C ₁, …, B _k-1-C _k-1)으로부터 사용자의 음성, 영상 및 데이터와 관련되는 가중치(D ₁, …, D _k-1)들을 각각 획득할 수 있다. 여기서, 프로세서(140)는 결합된 제 2 감정 추론 값(C ₁, …, C _k-1)에 대한 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각의 영향력을 판단하고, 영향력에 따라 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 가중치(D ₁, …, D _k-1)들을 부여할 수 있다. 그리고 프로세서(140)는 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치들을 각각 대응시켜 곱셈 연산을 수행함으로써, 제 1 싱글모달 데이터, 제 2 주의집중 변수(A ₂, …, A _k)를 재차 계산할 수 있다. 이 후 전자 장치(100)는 440 동작으로 복귀할 수 있다.

전자 장치(100)는 340 동작에서 결론값을 추론할 수 있다. 이 때 전자 장치(100)는 결론값으로서 사용자의 감정을 인식할 수 있다. 전자 장치(100)는 제 2 주의집중 변수(A _k)에 기반하여, 사용자의 감정을 인식할 수 있다. 이 때 프로세서(140)는 최종적으로 계산된 제 1 주의집중 변수(A _k)으로부터 획득된 제 2 감정 추론 값(B _k-C _k)을 통하여, 사용자의 감정을 인식할 수 있다.

다양한 실시예들에 따른 전자 장치(100)의 동작 방법은 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반으로 수행되며, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개와 관련되는 멀티모달 데이터를 검출하는 동작, 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하는 동작, 멀티모달 데이터 및 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하는 동작, 및 제 2 주의집중 변수에 기반하여, 결과값을 추론하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 계산하는 동작은, 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하는 동작, 및 멀티모달 데이터 및 제 1 감정 추론 값에 기반하여, 제 2 주의집중 변수를 계산하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 결과값을 추론하는 동작은, 제 2 주의집중 변수에 기반하여, 사용자의 감정을 인식하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 계산하는 동작은, 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하는 동작, 및 멀티모달 데이터 및 제 2 감정 추론 값에 기반하여, 제 2 주의집중 변수를 재차 계산하는 동작을 더 포함할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 재차 계산하는 동작 후에, 제 2 감정 추론 값을 획득하는 동작으로 복귀할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 재차 계산하는 동작은, 미리 정해진 횟수 만큼 반복될 수 있다.

다양한 실시예들에 따르면, 감정을 인식하는 동작은, 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하는 동작, 및 상기 제 2 감정 추론 값을 통하여, 상기 감정을 인식하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 제 1 주의집중 변수를 계산하는 동작은, 멀티모달 데이터를 분석하여, 음성과 관련되는 제 1 싱글모달 데이터, 영상과 관련되는 제 2 싱글모달 데이터 및 텍스트와 관련되는 제 3 싱글모달 데이터를 획득하는 동작, 및 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 1 주의집중 변수를 계산하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 계산하는 동작은, 제 1 감정 추론 값으로부터 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하는 동작, 및 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치들을 기반으로, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수를 계산하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 제 2 주의집중 변수를 재차 계산하는 동작은, 제 2 감정 추론 값으로부터 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하는 동작, 및 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터와 가중치들을 기반으로, 제 1 싱글모달 데이터, 제 2 싱글모달 데이터 및 제 3 싱글모달 데이터 각각에 대응하여, 제 2 주의집중 변수를 계산하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)는 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 두 개로부터 사용자의 감정을 인식할 수 있다. 이 때 전자 장치(100)는 주의집중의 순환 신경망을 기반으로 특정 동작을 반복 수행함으로써, 사용자의 감정을 인식하는 데 있어서 사용자의 음성, 영상 및 텍스트 각각에 대한 영향력이 고려될 수 있다. 예를 들면, 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나가 수신되지 않거나 노이즈가 심한 경우, 전자 장치가 사용자의 감정을 인식하는 데 있어서 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나의 영향력을 감소시킬 수 있다. 이를 통해, 전자 장치(100)는, 보다 정확하고 안정적으로 사용자의 감정을 인식할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(140))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치의 동작 방법에 있어서,

사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개 또는 세 개와 관련되는 멀티모달 데이터를 검출하는 동작;

상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하는 동작;

상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하는 동작; 및

상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하는 동작을 포함하는 방법.
제 1 항에 있어서, 상기 제 2 주의집중 변수를 계산하는 동작은,

상기 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하는 동작; 및

상기 멀티모달 데이터 및 상기 제 1 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 계산하는 동작을 포함하는 방법.
제 2 항에 있어서, 상기 결과값을 추론하는 동작은,

상기 제 2 주의집중 변수에 기반하여, 상기 사용자의 감정을 인식하는 동작을 포함하는 방법.
제 3 항에 있어서, 상기 제 2 주의집중 변수를 계산하는 동작은,

상기 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하는 동작; 및

상기 멀티모달 데이터 및 상기 제 2 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 재차 계산하는 동작을 더 포함하는 방법.
제 4 항에 있어서,

상기 제 2 주의집중 변수를 재차 계산하는 동작 후에, 상기 제 2 감정 추론 값을 획득하는 동작으로 복귀하는 방법.
제 5 항에 있어서, 상기 제 2 주의집중 변수를 재차 계산하는 동작은,

미리 정해진 횟수 만큼 반복되는 방법.
제 4 항에 있어서, 상기 감정을 인식하는 동작은,

상기 제 2 주의집중 변수에 기반하여, 상기 제 2 감정 추론 값을 획득하는 동작; 및

상기 제 2 감정 추론 값을 통하여, 상기 감정을 인식하는 동작을 포함하는 방법.
제 2 항에 있어서, 상기 제 1 주의집중 변수를 계산하는 동작은,

상기 멀티모달 데이터를 분석하여, 상기 음성과 관련되는 제 1 싱글모달 데이터, 상기 영상과 관련되는 제 2 싱글모달 데이터 및 상기 텍스트와 관련되는 제 3 싱글모달 데이터를 획득하는 동작; 및

상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 1 주의집중 변수를 계산하는 동작을 포함하는 방법.
제 8 항에 있어서, 상기 제 2 주의집중 변수를 계산하는 동작은,

상기 제 1 감정 추론 값으로부터 상기 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하는 동작; 및

상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하는 동작을 포함하는 방법.
제 8 항에 있어서, 상기 제 2 주의집중 변수를 재차 계산하는 동작은,

상기 제 2 감정 추론 값으로부터 상기 음성, 영상 및 데이터와 각각 관련되는 가중치들을 획득하는 동작; 및

상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하는 동작을 포함하는 방법.
멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치에 있어서,

입력 모듈; 및

상기 입력 모듈과 연결되는 프로세서를 포함하며,

상기 프로세서는,

상기 입력 모듈을 통하여, 사용자의 영상, 음성 또는 텍스트 중 적어도 어느 두 개 또는 세 개와 관련되는 멀티모달 데이터를 검출하고,

상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하고,

상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하고,

상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하도록 구성되는 전자 장치.
제 11 항에 있어서, 상기 프로세서는,

상기 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하고,

상기 멀티모달 데이터 및 상기 제 1 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 계산하도록 구성되는 전자 장치.
제 12 항에 있어서, 상기 프로세서는,

상기 제 2 주의집중 변수에 기반하여, 상기 사용자의 감정을 인식하도록 구성되는 전자 장치.
제 13 항에 있어서, 상기 프로세서는,

상기 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하고,

상기 멀티모달 데이터 및 상기 제 2 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 재차 계산하도록 구성되는 전자 장치.
제 14 항에 있어서, 상기 프로세서는,

상기 제 2 주의집중 변수를 재차 계산한 후에, 상기 제 2 감정 추론 값을 획득하도록 복귀하는 전자 장치.
제 14 항에 있어서, 상기 프로세서는,

상기 제 2 주의집중 변수에 기반하여, 상기 제 2 감정 추론 값을 획득하고,

상기 제 2 감정 추론 값을 통하여, 상기 감정을 인식하도록 구성되는 전자 장치.