KR20230106052A

KR20230106052A - 과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법

Info

Publication number: KR20230106052A
Application number: KR1020220024538A
Authority: KR
Inventors: 임세준; 오기성; 정의석
Original assignee: 국민대학교산학협력단
Priority date: 2022-01-05
Filing date: 2022-02-24
Publication date: 2023-07-12

Abstract

본 개시의 일 양상으로, 적어도 하나의 명령어(instruction)를 저장하는 적어도 하나의 메모리(memory); 및 상기 메모리에 연결되는 적어도 하나의 프로세서(processor)를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받고, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키고; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하도록 구성되고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 전자 장치이다.

Description

과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE FOR PREDICTING VA INDEX USING PAST FACIAL IMAGE AND METHOD OF OPERATION THEREOF}

본 개시 (present disclosure)는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법에 관한 것이다.

감정 판단 지표 중 각성도(valence)와 유의성(arousal)은 VA 지표로도 불리우며, 감정을 판단하는데 중요한 지표로서 이를 예측하기 위한 연구가 활발하게 진행되고 있다. 생체 데이터, 체압 센서 등 다양한 방식의 VA 지표 예측 연구가 이뤄지고 있으며 특히 얼굴 이미지를 통한 딥러닝 기반 VA 지표 예측 연구는 높은 활용성과 예측 정확도를 보이며 많은 주목을 받고 있다. 그러나, 딥러닝 모델의 복잡한 구조와 긴 연산 시간으로 인해 실생활 적용에 큰 어려움이 있다는 문제가 있다.

대한민국 등록특허 제10-2277811 대한민국 등록특허 제10-2267741

본 개시의 다양한 예들은 미래 시점의 감정 상태에 대한 VA 지표를 예측할 수 있으며, 딥러닝 모델의 긴 연산 시간을 보상하여 실시간성을 보장할 수 있는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법을 제공하기 위함이다.

본 개시의 다양한 예들에서 이루고자 하는 기술적 과제들은 이상에서 언급한 사항들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 이하 설명할 본 개시의 다양한 예들로부터 당해 기술분야에서 통상의 지식을 가진 자에 의해 고려될 수 있다.

예를 들어, 상기 피쳐 추출 레이어는: 상기 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행하는 입력 CNN 블록; 상기 입력 CNN 블록의 출력에 대하여 풀링(pooling) 연산을 수행하는 풀링 레이어; 및 상기 풀링 레이어의 출력으로부터 상기 피쳐를 추출하는 그룹 레이어를 포함할 수 있다.

예를 들어, 상기 그룹 레이어는 복수의 스테이지를 포함하고, 상기 복수의 스테이지 각각은: 상기 복수의 스테이지 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록; 상기 잔차 CNN 블록의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록; 및 상기 복수의 스테이지 각각의 입력을 상기 잔차 CNN 블록 및 상기 SE 블록의 출력에 더하는 숏컷(shortcut) 블록을 더 포함할 수 있다.

예를 들어, 상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고, 여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기일 수 있다.

예를 들어, 상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링될 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하고; 및 상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키도록 더 구성될 수 있다.

예를 들어, 상기 손실 함수는

으로 정의되고, 여기서

은 상기 손실 함수, n은 상기 훈련 데이터의 개수,

및

는 상기 예측 값,

및

는 상기 라벨, i는 훈련 회차일 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 상기 입력 이미지 시퀀스에서 t - (d + (n + s)/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하도록 더 구성될 수 있다.

예를 들어, 상기 피쳐 추출 레이어는 다른 FC 레이어를 포함하지 않도록 구성될 수 있다.

본 개시의 다른 일 양상으로, 전자 장치에 의해 수행되는 동작 방법으로서, 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 동작 방법이다.

예를 들어, 상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되고, 상기 동작 방법은: 상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하는 단계; 및 상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키는 단계를 더 포함할 수 있다.

예를 들어, 상기 손실 함수는

으로 정의되고, 여기서

은 상기 손실 함수, n은 상기 훈련 데이터의 개수,

및

는 상기 예측 값,

및

는 상기 라벨, i는 훈련 회차일 수 있다.

예를 들어, 상기 동작 방법은: 상기 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함할 수 있다.

본 개시의 다른 일 양상으로, 컴퓨터가 읽을 수 있는 코드로서, 전자 장치의 동작 방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 동작 방법은: 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 기록매체이다.

상술한 본 개시의 다양한 예들은 본 개시의 바람직한 예들 중 일부에 불과하며, 본 개시의 다양한 예들의 기술적 특징들이 반영된 여러 가지 예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 상세한 설명을 기반으로 도출되고 이해될 수 있다.

본 개시의 다양한 예들에 따르면 다음과 같은 효과가 있다.

본 개시의 다양한 예들에 따르면, 미래 시점의 감정 상태에 대한 VA 지표를 예측할 수 있으며, 딥러닝 모델의 긴 연산 시간을 보상하여 실시간성을 보장할 수 있는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법이 제공될 수 있다.

본 개시의 다양한 예들로부터 얻을 수 있는 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 이하의 상세한 설명을 기반으로 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다.

이하에 첨부되는 도면들은 본 개시의 다양한 예들에 관한 이해를 돕기 위한 것으로, 상세한 설명과 함께 본 개시의 다양한 예들을 제공한다. 다만, 본 개시의 다양한 예들의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시예로 구성될 수 있다. 각 도면에서의 참조 번호 (reference numerals) 들은 구조적 구성요소 (structural elements)를 의미한다.
도 1은 본 개시의 일 예에 따른 전자 장치의 블록도이다.
도 2는 본 개시의 일 예에 따른 학습 모델의 구조도이다.
도 3은 예시적인 입력 이미지 시퀀스를 도시한 것이다.
도 4는 본 개시의 일 예에 따른 피쳐 추출 레이어를 도시한 것이다.
도 5는 본 개시의 일 예에 따른 전자 장치의 동작 방법의 순서도이다.
도 6은 본 개시의 일 예에 따른 전자 장치의 학습 동작의 순서도이다.

이하, 본 발명에 따른 구현들을 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 구현을 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 구현 형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나 당업자는 본 개시가 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

본 발명의 개념에 따른 다양한 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 다양한 예들을 도면에 예시하고 본 개시에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 다양한 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

본 개시의 다양한 예에서, “/” 및 “,”는 “및/또는”을 나타내는 것으로 해석되어야 한다. 예를 들어, “A/B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “A, B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “A/B/C”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다. 나아가, “A, B, C”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다.

이하에서는, 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법에 대한 다양한 실시예들에 대하여 설명한다. 본 개시에서, 예측의 대상이 되는 VA 지표는 사람의 감정이나 정서를 나타내기 위한 지표로서, 감정이 어느 정도로 유쾌 또는 불쾌한지를 나타내는 각성도(valence)와 감정으로 인한 신체적 흥분 상태를 나타내는 유의성(arousal)을 포함하는 개념이다. VA 지표는 사람의 얼굴을 포함하는 이미지로부터 예측될 수 있다.

도 1은 본 개시의 일 예에 따른 전자 장치의 블록도이다.

도 1을 참조하면, 본 개시의 일 예에 따른 전자 장치(10)는 적어도 하나의 송수신기(100), 적어도 하나의 메모리(200) 및 적어도 하나의 프로세서(300)를 포함한다.

송수신기(100)는 프로세서(300)와 연결될 수 있고, 유/무선 신호나 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 송수신기(100)는 유/무선 통신망을 통해 사용자 단말 및/또는 서버와 연결될 수 있다.

여기서, 무선 통신망은 이동 통신망, 무선 LAN, 근거리 무선 통신망 등을 포함할 수 있다. 예를 들어, 무선 통신망은 LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 및 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 예를 들어, 무선 통신망은 WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비 (Zigbee), NFC(near field communication), 및 라디오 프리퀀시(RF) 중 적어도 하나를 포함할 수 있다.

여기서, 유선 통신망은 USB(Universal Serial Bus), USART(Universal Synchronous/Asynchronous Receiver Transmitter), 및 이더넷(ethernet) 중 적어도 하나를 포함할 수 있다.

적어도 하나의 송수신기(100) 각각은 상술한 유/무선 통신망에 대응될 수 있다.

송수신기(100)는 송신기 및 수신기를 포함할 수 있다. 송수신기(100)는 RF(radio frequency) 유닛과 혼용될 수 있다. 송수신기(100)는 프로세서(300)의 제어를 통해 사용자 단말 및/또는 서버와 다양한 신호나 데이터를 송수신할 수 있다.

메모리(200)는 프로세서(300)와 연결될 수 있고, 프로세서(300)의 동작과 관련한 다양한 정보를 저장할 수 있다. 예를 들어, 메모리(200)는 프로세서(300)에 의해 제어되는 프로세스들 중 일부 또는 전부를 수행하거나, 본 개시의 설명, 기능, 절차, 제안, 방법 및/또는 동작 순서도들을 수행하기 위한 명령어들(instructions)을 포함하는 소프트웨어 코드를 저장할 수 있다.

프로세서(300)는 송수신기(100) 및/또는 메모리(200)를 제어하며, 메모리(200)에 저장된 명령어를 실행하여 본 개시의 설명, 기능, 절차, 제안, 방법 및/또는 동작 순서도들을 구현하도록 구성될 수 있다. 예를 들어, 프로세서(300)는 송수신기(100)를 통해 신호를 수신하고, 신호에 포함된 정보를 메모리(200)에 저장할 수 있다. 또한, 프로세서(300)는 메모리(200)에 저장된 명령어에 기초하여 VA 지표 예측을 위한 다양한 동작들을 제공할 수 있다. 또한, 프로세서(300)는 메모리(200)에 저장된 정보를 처리하여 신호를 생성한 뒤, 생성한 무선 신호를 송수신기(100)를 통해 전송할 수 있다.

이하에서는, 전자 장치(10)에 대한 다양한 실시예들에 대하여 설명한다. 이하에서 개시되는 전자 장치(10)와 관련된 다양한 실시예들은 프로세서(300)가 상술한 명령어를 실행하는 것에 기초하여 수행될 수 있다.

이하에서 개시되는 전자 장치(10)에 포함되는 기능 단위들은 상술한 송수신기(100), 메모리(200) 및 프로세서(300)를 포함하는 하드웨어나 명령어들을 구현하기 위한 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

전자 장치(10)는, 학습 모델(400)에 기초하여 VA 지표를 예측한다. 구체적으로, 전자 장치(10)는 입력 이미지 시퀀스를 입력받고, 입력 이미지 시퀀스를 학습 모델(400)에 입력하는 것에 기초하여 VA 지표를 예측한다. 입력 이미지 시퀀스는 메모리(120)에 기 저장되어 있을 수 있고, 또는 송수신기(100)를 통해 사용자 단말 및/또는 서버로부터 수신하는 것에 기초하여 입력받을 수 있다. 학습 모델(400)의 출력은 VA 지표이며, 구체적으로 각성도 값과 유의성 값이 출력된다. 각성도 값과 유의성 값은 각각 -1 내지 1의 범위 내 값일 수 있다.

도 2는 본 개시의 일 예에 따른 학습 모델의 구조도이다.

도 2를 참조하면, VA 지표 예측을 위한 학습 모델(400)은 CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 피쳐 추출 레이어(410), LSTM(Long Short-Term Memory) 레이어(420) 및 FC(Fully-Connected) 레이어(430)를 포함한다.

피쳐 추출 레이어(410)는 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출한다. 피쳐 추출 레이어(410)의 입력 데이터인 입력 이미지 시퀀스는 예측 시점 t(여기서, t는 양의 실수임)의 과거 시간대에서 수집된 복수의 이미지일 수 있다. 이때, 본 개시에서, 예측 시점이란 학습 모델(400)에 의해 VA 지표가 예측되는 미래의 시점을 의미하며, 학습 모델(400)의 출력에 대응되는 시점을 의미한다.

도 3은 예시적인 입력 이미지 시퀀스를 도시한 것이다.

도 3을 참조하면, 입력 이미지 시퀀스는 예측 시점, 즉 미래 시점 t로부터 시간 축 상에서 이전에 위치한 기 설정된 시간 범위(즉, 과거 시간대) 내에 위치한다. 다시 말해서, 입력 이미지 시퀀스는 기 설정된 시간 범위 동안 순차적으로 수집된 복수의 이미지이다. 복수의 이미지 각각은 사람의 얼굴을 포함한다.

기 설정된 시간 범위에 대하여 보다 구체적으로 설명하면, 기 설정된 시간 범위는 [t - (d + n/f)]로 정의된다. 여기서, d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 입력 이미지 시퀀스의 프레임, s는 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기이다. 즉, 기 설정된 시간 범위는 n 값을 고려할 때 t - w 내지 t - d에 해당된다.

일부 파라미터에 대하여 구체적으로 설명하면, 예측 소요 시간 d는 기 설정된 시간 범위 내 가장 큰 값인 t - d와 예측 시점 t 사이의 인터벌을 의미하며, s는 CNN의 스트라이드 동작을 위해 설정되는 스트라이드 이미지의 개수, w는 입력 이미지 시퀀스의 범위를 정의하기 위한 기 설정된 윈도우의 크기를 의미한다.

도시된 바와 같이, 기 설정된 시간 범위는 n이 s만큼의 간격을 가지므로, s/f의 간격을 갖는다. 상술한 입력 이미지 시퀀스는 텐서(tensor)의 형태로 피쳐 추출 레이어(410)에 입력된다.

다시 도 2로 돌아와서, LSTM 레이어(420)는 피쳐를 입력받아 히든 스테이트(hidden state)를 출력한다. 구체적으로, LSTM 레이어(420)는 셀 상태(cell state)와 히든 상태를 포함하며, 피쳐를 입력 데이터로 하여 이전 시점의 히든 상태와 셀 상태를 현재 시점에 얼마나 반영할지를 결정하여 현재 시점의 히든 상태를 출력한다. 출력된 히든 상태는 FC 레이어(430)에 입력된다.

FC 레이어(430)는 히든 스테이트를 입력받아 각성도 값 및 유의성 값을 추출한다. FC 레이어(430)는 학습 모델(400)의 설계에 따라 복수 개가 구비될 수도 있다. FC 레이어(430)는 알려진 바와 같이 다양한 활성화 함수에 기초하여 히든 스테이트로부터 -1 내지 1 범위 내의 각성도 값 및 유의성 값을 추출한다.

상술한 도 2의 학습 모델(400)에서, 특히 피쳐 추출 레이어(410)는 CNN 모델을 기반으로 구성됨에도 불구하고 FC 레이어(여기서, 피쳐 추출 레이어(410)와 연관되어 설명되는 FC 레이어는 상술한 FC 레이어(430)와는 별개의 레이어임)를 포함하지 않도록 구성될 수 있다. 다시 말해서, 기존의 CNN 모델의 경우 최종적으로 FC 레이어를 통해 출력 값을 출력하는 구조이나, 본 개시의 피쳐 추출 레이어(410)는 FC 레이어가 생략되어 피쳐를 추출하는 역할을 수행하며, 추출된 피쳐를 기반으로 LSTM 레이어(420)와 FC 레이어(430)가 예측 시점 t의 각성도 값 및 유의성 값을 추출하게 된다.

이하에서는, 피쳐 추출 레이어(410)에 대하여 보다 구체적으로 설명한다.

도 4는 본 개시의 일 예에 따른 피쳐 추출 레이어를 도시한 것이다.

도 4를 참조하면, 본 개시의 일 예에 따른 피쳐 추출 레이어(410)는 입력 CNN 블록(411), 풀링 레이어(412) 및 그룹 레이어(413)를 포함한다.

입력 CNN 블록(411)은 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행한다. 컨볼루션 연산에 따라 입력 이미지 시퀀스는 축소된 차원을 갖는 특성 맵(feature map)으로 변환된다.

풀링 레이어(412)는 입력 CNN 블록(411)의 출력, 즉 특성 맵에 대하여 풀링(pooling) 연산을 수행한다. 풀링 연산에 따라 특성 맵이 다운 샘플링된다.

그룹 레이어(413)는 풀링 레이어(412)의 출력, 즉 다운 샘플링된 특성 맵으로부터 피쳐를 추출한다. 그룹 레이어(413)는 복수의 스테이지(414)를 포함한다.

복수의 스테이지(414) 각각은 복수의 스테이지(414) 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록(415), 잔차 CNN 블록(415)의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록 및 복수의 스테이지(414) 각각의 입력을 잔차 CNN 블록(415) 및 SE 블록(416)의 출력에 더하는 숏컷(shortcut) 블록(417)을 포함한다. 여기서, 숏컷 블록(417)은 잔차 CNN 블록(415)의 입력단과 SE 블록(416)의 출력단에 연결되어 잔차 CNN 블록(415) 및 SE 블록(416)의 출력에 복수의 스테이지(414) 각각의 입력을 더하는 구조를 갖는다. 따라서, 피쳐 추출 레이어(410)는 그룹 스테이지(414) 관점에서 잔차에 해당하는 CNN 블록 및 SE 블록(416)의 출력이 0이 되도록 학습될 수 있다.

또한, 일 실시예에 따르면 피쳐 추출 레이어(410)는 상술한 바와 같이 다른 FC 레이어를 포함하지 않도록 구성됨으로써 피쳐를 추출하여 LSTM 레이어(420)로 입력시키는 역할을 수행한다.

전자 장치(10)는, 상술한 학습 모델(400)을 입력 이미지 시퀀스에 기초하여 학습시킨다.

학습을 위해, 입력 이미지 시퀀스는 훈련 데이터로 사용될 수 있으며 입력 이미지 시퀀스가 학습 모델(400)의 학습을 위한 훈련 데이터인 경우, 각성도 값 및 유의성 값이 라벨로서 페어링된다. 라벨로서 페어링되는 각성도 값과 유의성 값은 참(truth) 값으로 설정된 것일 수 있다.

전자 장치(10)는, 훈련 데이터를 학습 모델(400)에 입력하여 각성도 값 및 유의성 값의 예측 값을 획득한다. 전자 장치(10)는, 획득한 예측 값과 라벨로 정의되는 손실 함수에 기초하여 학습 모델(400)을 학습시킨다.

손실 함수는

으로 정의될 수 있다. 여기서,

은 손실 함수, n은 훈련 데이터의 개수,

및

는 예측 값,

및

는 라벨, i는 훈련 회차일 수 있다.

전자 장치(10)는, 손실 함수

에 기초하여 학습 모델(400)의 손실을 최소화하는 방향으로 학습 모델(400)을 학습시킨다.

전자 장치(10)는, 학습된 학습 모델(400)에 기초하여 예측이 필요한 입력 이미지 시퀀스로부터 사람의 각성도 값 및 유의성 값을 출력한다.

상술한 학습 모델(400)의 학습 동작 또는 각성도 값 및 유의성 값 예측 동작에 있어서, 만약 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, 일 실시예에 따르면 전자 장치(10)는 t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링할 수도 있다.

또는, 일 실시예에 따르면, 전자 장치(10)는 송수신기(100)를 통하여 미리 학습된 학습 모델(400)을 사용자 단말 및/또는 서버로부터 수신하여 메모리(120)에 저장할 수도 있다. 이 경우, 전자 장치(10)는 메모리(120)에 기 저장된 학습 모델(400)에 입력 이미지 시퀀스를 입력하여 각성도 값 및 유의성 값을 출력할 수 있다.

상술한 본 개시의 전자 장치(10)에 따르면, 현재의 이미지 데이터 없이 과거의 이미지 데이터만으로도 미래 시점의 감정 상태에 대한 VA 지표가 예측될 수 있다. 즉, 본 개시의 전자 장치(10)에서는 현재의 이미지 데이터가 사용되지 않으므로 딥러닝 모델의 긴 연산 시간을 보상하고 실시간성을 보장할 수 있다.

이하에서는, 전자 장치(10)의 동작 방법에 대하여 설명한다. 앞서 설명한 부분과 중복되는 부분에 대한 상세한 설명은 생략한다.

도 5는 본 개시의 일 예에 따른 전자 장치의 동작 방법의 순서도이다.

도 5를 참조하면, S110에서, 전자 장치(10)는 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는다. 여기서, 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함한다.

S120에서, 전자 장치(10)는 입력 이미지 시퀀스에 기초하여 학습 모델(400)을 학습시킨다.

S130에서, 전자 장치(10)는 학습 모델(400)로부터 사람의 각성도 값 및 유의성 값을 출력한다.

도 6은 본 개시의 일 예에 따른 전자 장치의 학습 동작의 순서도이다.

도 6을 참조하면, S210에서, 전자 장치(10)는 훈련 데이터를 학습 모델(400)에 입력하여 각성도 값 및 유의성 값의 예측 값을 획득한다.

S220에서, 전자 장치(10)는 예측 값과 라벨로 정의되는 손실 함수에 기초하여 학습 모델(400)을 학습시킨다. 여기서, 손실 함수는 상술한 바와 같이

으로 정의된다.

여기에, 도 5 및 도 6의 동작 방법 및 학습 동작 수행 과정에서 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함할 수도 있다.

상술한 설명에서 제안 방식에 대한 일례들 또한 본 개시의 구현 방법들 중 하나로 포함될 수 있으므로, 일종의 제안 방식들로 간주될 수 있음은 명백한 사실이다. 또한, 상기 설명한 제안 방식들은 독립적으로 구현될 수도 있지만, 일부 제안 방식들의 조합 (혹은 병합) 형태로 구현될 수도 있다.

10: 전자 장치
100: 송수신기 200: 메모리
300: 프로세서
400: 학습 모델
410: 피쳐 추출 레이어 420: LSTM 레이어
430: FC 레이어

Claims

적어도 하나의 명령어(instruction)를 저장하는 적어도 하나의 메모리(memory); 및
상기 메모리에 연결되는 적어도 하나의 프로세서(processor)를 포함하고,
상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받고, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키고; 및
상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하도록 구성되고,
상기 학습 모델은,
CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
전자 장치.
제1항에 있어서,
상기 피쳐 추출 레이어는:
상기 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행하는 입력 CNN 블록;
상기 입력 CNN 블록의 출력에 대하여 풀링(pooling) 연산을 수행하는 풀링 레이어; 및
상기 풀링 레이어의 출력으로부터 상기 피쳐를 추출하는 그룹 레이어를 포함하는,
전자 장치.
제2항에 있어서,
상기 그룹 레이어는 복수의 스테이지를 포함하고,
상기 복수의 스테이지 각각은:
상기 복수의 스테이지 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록;
상기 잔차 CNN 블록의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록; 및
상기 복수의 스테이지 각각의 입력을 상기 잔차 CNN 블록 및 상기 SE 블록의 출력에 더하는 숏컷(shortcut) 블록을 더 포함하는,
전자 장치.
제1항에 있어서,
상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고,
여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기인,
전자 장치.
제1항에 있어서,
상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되는,
전자 장치.
제5항에 있어서,
상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하고; 및
상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키도록 더 구성되는,
전자 장치.
제6항에 있어서,
상기 손실 함수는
으로 정의되고, 여기서
은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
및
는 상기 예측 값,
및
는 상기 라벨, i는 훈련 회차인,
전자 장치.
제4항에 있어서,
상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
상기 입력 이미지 시퀀스에서 t - (d + (n + s)/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하도록 더 구성되는,
전자 장치.
제1항에 있어서,
상기 피쳐 추출 레이어는 다른 FC 레이어를 포함하지 않도록 구성되는,
전자 장치.
전자 장치에 의해 수행되는 동작 방법으로서,
시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및
상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고,
상기 학습 모델은,
CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
동작 방법.
제10항에 있어서,
상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고,
여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기인,
동작 방법.
제10항에 있어서,
상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되고,
상기 동작 방법은:
상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하는 단계; 및
상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키는 단계를 더 포함하는,
동작 방법.
제12항에 있어서,
상기 손실 함수는
으로 정의되고, 여기서
은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
및
는 상기 예측 값,
및
는 상기 라벨, i는 훈련 회차인,
동작 방법.
제11항에 있어서,
상기 동작 방법은:
상기 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함하는,
동작 방법.
컴퓨터가 읽을 수 있는 코드로서, 전자 장치의 동작 방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서,
상기 동작 방법은:
시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및
상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고,
상기 학습 모델은,
CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
기록매체.