KR20230106052A - 과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법 - Google Patents

과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20230106052A
KR20230106052A KR1020220024538A KR20220024538A KR20230106052A KR 20230106052 A KR20230106052 A KR 20230106052A KR 1020220024538 A KR1020220024538 A KR 1020220024538A KR 20220024538 A KR20220024538 A KR 20220024538A KR 20230106052 A KR20230106052 A KR 20230106052A
Authority
KR
South Korea
Prior art keywords
image sequence
input image
value
learning model
electronic device
Prior art date
Application number
KR1020220024538A
Other languages
English (en)
Inventor
임세준
오기성
정의석
Original Assignee
국민대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국민대학교산학협력단 filed Critical 국민대학교산학협력단
Publication of KR20230106052A publication Critical patent/KR20230106052A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 개시의 일 양상으로, 적어도 하나의 명령어(instruction)를 저장하는 적어도 하나의 메모리(memory); 및 상기 메모리에 연결되는 적어도 하나의 프로세서(processor)를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받고, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키고; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하도록 구성되고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 전자 장치이다.

Description

과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE FOR PREDICTING VA INDEX USING PAST FACIAL IMAGE AND METHOD OF OPERATION THEREOF}
본 개시 (present disclosure)는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법에 관한 것이다.
감정 판단 지표 중 각성도(valence)와 유의성(arousal)은 VA 지표로도 불리우며, 감정을 판단하는데 중요한 지표로서 이를 예측하기 위한 연구가 활발하게 진행되고 있다. 생체 데이터, 체압 센서 등 다양한 방식의 VA 지표 예측 연구가 이뤄지고 있으며 특히 얼굴 이미지를 통한 딥러닝 기반 VA 지표 예측 연구는 높은 활용성과 예측 정확도를 보이며 많은 주목을 받고 있다. 그러나, 딥러닝 모델의 복잡한 구조와 긴 연산 시간으로 인해 실생활 적용에 큰 어려움이 있다는 문제가 있다.
대한민국 등록특허 제10-2277811 대한민국 등록특허 제10-2267741
본 개시의 다양한 예들은 미래 시점의 감정 상태에 대한 VA 지표를 예측할 수 있으며, 딥러닝 모델의 긴 연산 시간을 보상하여 실시간성을 보장할 수 있는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법을 제공하기 위함이다.
본 개시의 다양한 예들에서 이루고자 하는 기술적 과제들은 이상에서 언급한 사항들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 이하 설명할 본 개시의 다양한 예들로부터 당해 기술분야에서 통상의 지식을 가진 자에 의해 고려될 수 있다.
본 개시의 일 양상으로, 적어도 하나의 명령어(instruction)를 저장하는 적어도 하나의 메모리(memory); 및 상기 메모리에 연결되는 적어도 하나의 프로세서(processor)를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받고, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키고; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하도록 구성되고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 전자 장치이다.
예를 들어, 상기 피쳐 추출 레이어는: 상기 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행하는 입력 CNN 블록; 상기 입력 CNN 블록의 출력에 대하여 풀링(pooling) 연산을 수행하는 풀링 레이어; 및 상기 풀링 레이어의 출력으로부터 상기 피쳐를 추출하는 그룹 레이어를 포함할 수 있다.
예를 들어, 상기 그룹 레이어는 복수의 스테이지를 포함하고, 상기 복수의 스테이지 각각은: 상기 복수의 스테이지 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록; 상기 잔차 CNN 블록의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록; 및 상기 복수의 스테이지 각각의 입력을 상기 잔차 CNN 블록 및 상기 SE 블록의 출력에 더하는 숏컷(shortcut) 블록을 더 포함할 수 있다.
예를 들어, 상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고, 여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기일 수 있다.
예를 들어, 상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링될 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하고; 및 상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키도록 더 구성될 수 있다.
예를 들어, 상기 손실 함수는
Figure pat00001
으로 정의되고, 여기서
Figure pat00002
은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
Figure pat00003
Figure pat00004
는 상기 예측 값,
Figure pat00005
Figure pat00006
는 상기 라벨, i는 훈련 회차일 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여: 상기 입력 이미지 시퀀스에서 t - (d + (n + s)/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하도록 더 구성될 수 있다.
예를 들어, 상기 피쳐 추출 레이어는 다른 FC 레이어를 포함하지 않도록 구성될 수 있다.
본 개시의 다른 일 양상으로, 전자 장치에 의해 수행되는 동작 방법으로서, 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 동작 방법이다.
예를 들어, 상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고, 여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기일 수 있다.
예를 들어, 상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되고, 상기 동작 방법은: 상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하는 단계; 및 상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키는 단계를 더 포함할 수 있다.
예를 들어, 상기 손실 함수는
Figure pat00007
으로 정의되고, 여기서
Figure pat00008
은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
Figure pat00009
Figure pat00010
는 상기 예측 값,
Figure pat00011
Figure pat00012
는 상기 라벨, i는 훈련 회차일 수 있다.
예를 들어, 상기 동작 방법은: 상기 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함할 수 있다.
본 개시의 다른 일 양상으로, 컴퓨터가 읽을 수 있는 코드로서, 전자 장치의 동작 방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 동작 방법은: 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고; 상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및 상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고, 상기 학습 모델은, CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어; 상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및 상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는, 기록매체이다.
상술한 본 개시의 다양한 예들은 본 개시의 바람직한 예들 중 일부에 불과하며, 본 개시의 다양한 예들의 기술적 특징들이 반영된 여러 가지 예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 상세한 설명을 기반으로 도출되고 이해될 수 있다.
본 개시의 다양한 예들에 따르면 다음과 같은 효과가 있다.
본 개시의 다양한 예들에 따르면, 미래 시점의 감정 상태에 대한 VA 지표를 예측할 수 있으며, 딥러닝 모델의 긴 연산 시간을 보상하여 실시간성을 보장할 수 있는 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법이 제공될 수 있다.
본 개시의 다양한 예들로부터 얻을 수 있는 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 이하의 상세한 설명을 기반으로 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다.
이하에 첨부되는 도면들은 본 개시의 다양한 예들에 관한 이해를 돕기 위한 것으로, 상세한 설명과 함께 본 개시의 다양한 예들을 제공한다. 다만, 본 개시의 다양한 예들의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시예로 구성될 수 있다. 각 도면에서의 참조 번호 (reference numerals) 들은 구조적 구성요소 (structural elements)를 의미한다.
도 1은 본 개시의 일 예에 따른 전자 장치의 블록도이다.
도 2는 본 개시의 일 예에 따른 학습 모델의 구조도이다.
도 3은 예시적인 입력 이미지 시퀀스를 도시한 것이다.
도 4는 본 개시의 일 예에 따른 피쳐 추출 레이어를 도시한 것이다.
도 5는 본 개시의 일 예에 따른 전자 장치의 동작 방법의 순서도이다.
도 6은 본 개시의 일 예에 따른 전자 장치의 학습 동작의 순서도이다.
이하, 본 발명에 따른 구현들을 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 구현을 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 구현 형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나 당업자는 본 개시가 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
본 발명의 개념에 따른 다양한 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 다양한 예들을 도면에 예시하고 본 개시에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 다양한 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
본 개시의 다양한 예에서, “/” 및 “,”는 “및/또는”을 나타내는 것으로 해석되어야 한다. 예를 들어, “A/B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “A, B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “A/B/C”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다. 나아가, “A, B, C”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다.
이하에서는, 과거 얼굴 이미지를 이용한 VA 지표 예측을 위한 전자 장치 및 그 동작 방법에 대한 다양한 실시예들에 대하여 설명한다. 본 개시에서, 예측의 대상이 되는 VA 지표는 사람의 감정이나 정서를 나타내기 위한 지표로서, 감정이 어느 정도로 유쾌 또는 불쾌한지를 나타내는 각성도(valence)와 감정으로 인한 신체적 흥분 상태를 나타내는 유의성(arousal)을 포함하는 개념이다. VA 지표는 사람의 얼굴을 포함하는 이미지로부터 예측될 수 있다.
도 1은 본 개시의 일 예에 따른 전자 장치의 블록도이다.
도 1을 참조하면, 본 개시의 일 예에 따른 전자 장치(10)는 적어도 하나의 송수신기(100), 적어도 하나의 메모리(200) 및 적어도 하나의 프로세서(300)를 포함한다.
송수신기(100)는 프로세서(300)와 연결될 수 있고, 유/무선 신호나 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 송수신기(100)는 유/무선 통신망을 통해 사용자 단말 및/또는 서버와 연결될 수 있다.
여기서, 무선 통신망은 이동 통신망, 무선 LAN, 근거리 무선 통신망 등을 포함할 수 있다. 예를 들어, 무선 통신망은 LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 및 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 예를 들어, 무선 통신망은 WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비 (Zigbee), NFC(near field communication), 및 라디오 프리퀀시(RF) 중 적어도 하나를 포함할 수 있다.
여기서, 유선 통신망은 USB(Universal Serial Bus), USART(Universal Synchronous/Asynchronous Receiver Transmitter), 및 이더넷(ethernet) 중 적어도 하나를 포함할 수 있다.
적어도 하나의 송수신기(100) 각각은 상술한 유/무선 통신망에 대응될 수 있다.
송수신기(100)는 송신기 및 수신기를 포함할 수 있다. 송수신기(100)는 RF(radio frequency) 유닛과 혼용될 수 있다. 송수신기(100)는 프로세서(300)의 제어를 통해 사용자 단말 및/또는 서버와 다양한 신호나 데이터를 송수신할 수 있다.
메모리(200)는 프로세서(300)와 연결될 수 있고, 프로세서(300)의 동작과 관련한 다양한 정보를 저장할 수 있다. 예를 들어, 메모리(200)는 프로세서(300)에 의해 제어되는 프로세스들 중 일부 또는 전부를 수행하거나, 본 개시의 설명, 기능, 절차, 제안, 방법 및/또는 동작 순서도들을 수행하기 위한 명령어들(instructions)을 포함하는 소프트웨어 코드를 저장할 수 있다.
프로세서(300)는 송수신기(100) 및/또는 메모리(200)를 제어하며, 메모리(200)에 저장된 명령어를 실행하여 본 개시의 설명, 기능, 절차, 제안, 방법 및/또는 동작 순서도들을 구현하도록 구성될 수 있다. 예를 들어, 프로세서(300)는 송수신기(100)를 통해 신호를 수신하고, 신호에 포함된 정보를 메모리(200)에 저장할 수 있다. 또한, 프로세서(300)는 메모리(200)에 저장된 명령어에 기초하여 VA 지표 예측을 위한 다양한 동작들을 제공할 수 있다. 또한, 프로세서(300)는 메모리(200)에 저장된 정보를 처리하여 신호를 생성한 뒤, 생성한 무선 신호를 송수신기(100)를 통해 전송할 수 있다.
이하에서는, 전자 장치(10)에 대한 다양한 실시예들에 대하여 설명한다. 이하에서 개시되는 전자 장치(10)와 관련된 다양한 실시예들은 프로세서(300)가 상술한 명령어를 실행하는 것에 기초하여 수행될 수 있다.
이하에서 개시되는 전자 장치(10)에 포함되는 기능 단위들은 상술한 송수신기(100), 메모리(200) 및 프로세서(300)를 포함하는 하드웨어나 명령어들을 구현하기 위한 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
전자 장치(10)는, 학습 모델(400)에 기초하여 VA 지표를 예측한다. 구체적으로, 전자 장치(10)는 입력 이미지 시퀀스를 입력받고, 입력 이미지 시퀀스를 학습 모델(400)에 입력하는 것에 기초하여 VA 지표를 예측한다. 입력 이미지 시퀀스는 메모리(120)에 기 저장되어 있을 수 있고, 또는 송수신기(100)를 통해 사용자 단말 및/또는 서버로부터 수신하는 것에 기초하여 입력받을 수 있다. 학습 모델(400)의 출력은 VA 지표이며, 구체적으로 각성도 값과 유의성 값이 출력된다. 각성도 값과 유의성 값은 각각 -1 내지 1의 범위 내 값일 수 있다.
도 2는 본 개시의 일 예에 따른 학습 모델의 구조도이다.
도 2를 참조하면, VA 지표 예측을 위한 학습 모델(400)은 CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 피쳐 추출 레이어(410), LSTM(Long Short-Term Memory) 레이어(420) 및 FC(Fully-Connected) 레이어(430)를 포함한다.
피쳐 추출 레이어(410)는 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출한다. 피쳐 추출 레이어(410)의 입력 데이터인 입력 이미지 시퀀스는 예측 시점 t(여기서, t는 양의 실수임)의 과거 시간대에서 수집된 복수의 이미지일 수 있다. 이때, 본 개시에서, 예측 시점이란 학습 모델(400)에 의해 VA 지표가 예측되는 미래의 시점을 의미하며, 학습 모델(400)의 출력에 대응되는 시점을 의미한다.
도 3은 예시적인 입력 이미지 시퀀스를 도시한 것이다.
도 3을 참조하면, 입력 이미지 시퀀스는 예측 시점, 즉 미래 시점 t로부터 시간 축 상에서 이전에 위치한 기 설정된 시간 범위(즉, 과거 시간대) 내에 위치한다. 다시 말해서, 입력 이미지 시퀀스는 기 설정된 시간 범위 동안 순차적으로 수집된 복수의 이미지이다. 복수의 이미지 각각은 사람의 얼굴을 포함한다.
기 설정된 시간 범위에 대하여 보다 구체적으로 설명하면, 기 설정된 시간 범위는 [t - (d + n/f)]로 정의된다. 여기서, d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 입력 이미지 시퀀스의 프레임, s는 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기이다. 즉, 기 설정된 시간 범위는 n 값을 고려할 때 t - w 내지 t - d에 해당된다.
일부 파라미터에 대하여 구체적으로 설명하면, 예측 소요 시간 d는 기 설정된 시간 범위 내 가장 큰 값인 t - d와 예측 시점 t 사이의 인터벌을 의미하며, s는 CNN의 스트라이드 동작을 위해 설정되는 스트라이드 이미지의 개수, w는 입력 이미지 시퀀스의 범위를 정의하기 위한 기 설정된 윈도우의 크기를 의미한다.
도시된 바와 같이, 기 설정된 시간 범위는 n이 s만큼의 간격을 가지므로, s/f의 간격을 갖는다. 상술한 입력 이미지 시퀀스는 텐서(tensor)의 형태로 피쳐 추출 레이어(410)에 입력된다.
다시 도 2로 돌아와서, LSTM 레이어(420)는 피쳐를 입력받아 히든 스테이트(hidden state)를 출력한다. 구체적으로, LSTM 레이어(420)는 셀 상태(cell state)와 히든 상태를 포함하며, 피쳐를 입력 데이터로 하여 이전 시점의 히든 상태와 셀 상태를 현재 시점에 얼마나 반영할지를 결정하여 현재 시점의 히든 상태를 출력한다. 출력된 히든 상태는 FC 레이어(430)에 입력된다.
FC 레이어(430)는 히든 스테이트를 입력받아 각성도 값 및 유의성 값을 추출한다. FC 레이어(430)는 학습 모델(400)의 설계에 따라 복수 개가 구비될 수도 있다. FC 레이어(430)는 알려진 바와 같이 다양한 활성화 함수에 기초하여 히든 스테이트로부터 -1 내지 1 범위 내의 각성도 값 및 유의성 값을 추출한다.
상술한 도 2의 학습 모델(400)에서, 특히 피쳐 추출 레이어(410)는 CNN 모델을 기반으로 구성됨에도 불구하고 FC 레이어(여기서, 피쳐 추출 레이어(410)와 연관되어 설명되는 FC 레이어는 상술한 FC 레이어(430)와는 별개의 레이어임)를 포함하지 않도록 구성될 수 있다. 다시 말해서, 기존의 CNN 모델의 경우 최종적으로 FC 레이어를 통해 출력 값을 출력하는 구조이나, 본 개시의 피쳐 추출 레이어(410)는 FC 레이어가 생략되어 피쳐를 추출하는 역할을 수행하며, 추출된 피쳐를 기반으로 LSTM 레이어(420)와 FC 레이어(430)가 예측 시점 t의 각성도 값 및 유의성 값을 추출하게 된다.
이하에서는, 피쳐 추출 레이어(410)에 대하여 보다 구체적으로 설명한다.
도 4는 본 개시의 일 예에 따른 피쳐 추출 레이어를 도시한 것이다.
도 4를 참조하면, 본 개시의 일 예에 따른 피쳐 추출 레이어(410)는 입력 CNN 블록(411), 풀링 레이어(412) 및 그룹 레이어(413)를 포함한다.
입력 CNN 블록(411)은 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행한다. 컨볼루션 연산에 따라 입력 이미지 시퀀스는 축소된 차원을 갖는 특성 맵(feature map)으로 변환된다.
풀링 레이어(412)는 입력 CNN 블록(411)의 출력, 즉 특성 맵에 대하여 풀링(pooling) 연산을 수행한다. 풀링 연산에 따라 특성 맵이 다운 샘플링된다.
그룹 레이어(413)는 풀링 레이어(412)의 출력, 즉 다운 샘플링된 특성 맵으로부터 피쳐를 추출한다. 그룹 레이어(413)는 복수의 스테이지(414)를 포함한다.
복수의 스테이지(414) 각각은 복수의 스테이지(414) 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록(415), 잔차 CNN 블록(415)의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록 및 복수의 스테이지(414) 각각의 입력을 잔차 CNN 블록(415) 및 SE 블록(416)의 출력에 더하는 숏컷(shortcut) 블록(417)을 포함한다. 여기서, 숏컷 블록(417)은 잔차 CNN 블록(415)의 입력단과 SE 블록(416)의 출력단에 연결되어 잔차 CNN 블록(415) 및 SE 블록(416)의 출력에 복수의 스테이지(414) 각각의 입력을 더하는 구조를 갖는다. 따라서, 피쳐 추출 레이어(410)는 그룹 스테이지(414) 관점에서 잔차에 해당하는 CNN 블록 및 SE 블록(416)의 출력이 0이 되도록 학습될 수 있다.
또한, 일 실시예에 따르면 피쳐 추출 레이어(410)는 상술한 바와 같이 다른 FC 레이어를 포함하지 않도록 구성됨으로써 피쳐를 추출하여 LSTM 레이어(420)로 입력시키는 역할을 수행한다.
전자 장치(10)는, 상술한 학습 모델(400)을 입력 이미지 시퀀스에 기초하여 학습시킨다.
학습을 위해, 입력 이미지 시퀀스는 훈련 데이터로 사용될 수 있으며 입력 이미지 시퀀스가 학습 모델(400)의 학습을 위한 훈련 데이터인 경우, 각성도 값 및 유의성 값이 라벨로서 페어링된다. 라벨로서 페어링되는 각성도 값과 유의성 값은 참(truth) 값으로 설정된 것일 수 있다.
전자 장치(10)는, 훈련 데이터를 학습 모델(400)에 입력하여 각성도 값 및 유의성 값의 예측 값을 획득한다. 전자 장치(10)는, 획득한 예측 값과 라벨로 정의되는 손실 함수에 기초하여 학습 모델(400)을 학습시킨다.
손실 함수는
Figure pat00013
으로 정의될 수 있다. 여기서,
Figure pat00014
은 손실 함수, n은 훈련 데이터의 개수,
Figure pat00015
Figure pat00016
는 예측 값,
Figure pat00017
Figure pat00018
는 라벨, i는 훈련 회차일 수 있다.
전자 장치(10)는, 손실 함수
Figure pat00019
에 기초하여 학습 모델(400)의 손실을 최소화하는 방향으로 학습 모델(400)을 학습시킨다.
전자 장치(10)는, 학습된 학습 모델(400)에 기초하여 예측이 필요한 입력 이미지 시퀀스로부터 사람의 각성도 값 및 유의성 값을 출력한다.
상술한 학습 모델(400)의 학습 동작 또는 각성도 값 및 유의성 값 예측 동작에 있어서, 만약 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, 일 실시예에 따르면 전자 장치(10)는 t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링할 수도 있다.
또는, 일 실시예에 따르면, 전자 장치(10)는 송수신기(100)를 통하여 미리 학습된 학습 모델(400)을 사용자 단말 및/또는 서버로부터 수신하여 메모리(120)에 저장할 수도 있다. 이 경우, 전자 장치(10)는 메모리(120)에 기 저장된 학습 모델(400)에 입력 이미지 시퀀스를 입력하여 각성도 값 및 유의성 값을 출력할 수 있다.
상술한 본 개시의 전자 장치(10)에 따르면, 현재의 이미지 데이터 없이 과거의 이미지 데이터만으로도 미래 시점의 감정 상태에 대한 VA 지표가 예측될 수 있다. 즉, 본 개시의 전자 장치(10)에서는 현재의 이미지 데이터가 사용되지 않으므로 딥러닝 모델의 긴 연산 시간을 보상하고 실시간성을 보장할 수 있다.
이하에서는, 전자 장치(10)의 동작 방법에 대하여 설명한다. 앞서 설명한 부분과 중복되는 부분에 대한 상세한 설명은 생략한다.
도 5는 본 개시의 일 예에 따른 전자 장치의 동작 방법의 순서도이다.
도 5를 참조하면, S110에서, 전자 장치(10)는 시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는다. 여기서, 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함한다.
S120에서, 전자 장치(10)는 입력 이미지 시퀀스에 기초하여 학습 모델(400)을 학습시킨다.
S130에서, 전자 장치(10)는 학습 모델(400)로부터 사람의 각성도 값 및 유의성 값을 출력한다.
도 6은 본 개시의 일 예에 따른 전자 장치의 학습 동작의 순서도이다.
도 6을 참조하면, S210에서, 전자 장치(10)는 훈련 데이터를 학습 모델(400)에 입력하여 각성도 값 및 유의성 값의 예측 값을 획득한다.
S220에서, 전자 장치(10)는 예측 값과 라벨로 정의되는 손실 함수에 기초하여 학습 모델(400)을 학습시킨다. 여기서, 손실 함수는 상술한 바와 같이
Figure pat00020
으로 정의된다.
여기에, 도 5 및 도 6의 동작 방법 및 학습 동작 수행 과정에서 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함할 수도 있다.
상술한 설명에서 제안 방식에 대한 일례들 또한 본 개시의 구현 방법들 중 하나로 포함될 수 있으므로, 일종의 제안 방식들로 간주될 수 있음은 명백한 사실이다. 또한, 상기 설명한 제안 방식들은 독립적으로 구현될 수도 있지만, 일부 제안 방식들의 조합 (혹은 병합) 형태로 구현될 수도 있다.
10: 전자 장치
100: 송수신기 200: 메모리
300: 프로세서
400: 학습 모델
410: 피쳐 추출 레이어 420: LSTM 레이어
430: FC 레이어

Claims (15)

  1. 적어도 하나의 명령어(instruction)를 저장하는 적어도 하나의 메모리(memory); 및
    상기 메모리에 연결되는 적어도 하나의 프로세서(processor)를 포함하고,
    상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
    시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받고, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
    상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키고; 및
    상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하도록 구성되고,
    상기 학습 모델은,
    CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
    상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
    상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
    전자 장치.
  2. 제1항에 있어서,
    상기 피쳐 추출 레이어는:
    상기 입력 이미지 시퀀스를 입력받아 컨볼루션(convolution) 연산을 수행하는 입력 CNN 블록;
    상기 입력 CNN 블록의 출력에 대하여 풀링(pooling) 연산을 수행하는 풀링 레이어; 및
    상기 풀링 레이어의 출력으로부터 상기 피쳐를 추출하는 그룹 레이어를 포함하는,
    전자 장치.
  3. 제2항에 있어서,
    상기 그룹 레이어는 복수의 스테이지를 포함하고,
    상기 복수의 스테이지 각각은:
    상기 복수의 스테이지 각각의 입력에 대하여 컨볼루션 연산을 수행하는 잔차 CNN 블록;
    상기 잔차 CNN 블록의 입력에 대하여 추출(squeeze) 및 재조정(excitation) 연산을 수행하는 SE(Squeeze and Excitation) 블록; 및
    상기 복수의 스테이지 각각의 입력을 상기 잔차 CNN 블록 및 상기 SE 블록의 출력에 더하는 숏컷(shortcut) 블록을 더 포함하는,
    전자 장치.
  4. 제1항에 있어서,
    상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고,
    여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기인,
    전자 장치.
  5. 제1항에 있어서,
    상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되는,
    전자 장치.
  6. 제5항에 있어서,
    상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
    상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하고; 및
    상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키도록 더 구성되는,
    전자 장치.
  7. 제6항에 있어서,
    상기 손실 함수는
    Figure pat00021
    으로 정의되고, 여기서
    Figure pat00022
    은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
    Figure pat00023
    Figure pat00024
    는 상기 예측 값,
    Figure pat00025
    Figure pat00026
    는 상기 라벨, i는 훈련 회차인,
    전자 장치.
  8. 제4항에 있어서,
    상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어를 실행하여:
    상기 입력 이미지 시퀀스에서 t - (d + (n + s)/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + n/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하도록 더 구성되는,
    전자 장치.
  9. 제1항에 있어서,
    상기 피쳐 추출 레이어는 다른 FC 레이어를 포함하지 않도록 구성되는,
    전자 장치.
  10. 전자 장치에 의해 수행되는 동작 방법으로서,
    시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
    상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및
    상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고,
    상기 학습 모델은,
    CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
    상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
    상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
    동작 방법.
  11. 제10항에 있어서,
    상기 기 설정된 시간 범위는 [t - (d + n/f)]로 정의되고,
    여기서 d는 예측 소요 시간, n은 s만큼의 간격을 갖는 0 내지 f x (w - d)로 정의되는 범위, f는 상기 입력 이미지 시퀀스의 프레임, s는 상기 입력 이미지 시퀀스의 스트라이드(stride) 이미지의 개수, w는 기 설정된 윈도우 크기인,
    동작 방법.
  12. 제10항에 있어서,
    상기 입력 이미지 시퀀스가 상기 학습 모델의 학습을 위한 훈련 데이터인 경우, 상기 각성도 값 및 상기 유의성 값이 라벨로서 페어링되고,
    상기 동작 방법은:
    상기 훈련 데이터를 상기 학습 모델에 입력하여 상기 각성도 값 및 상기 유의성 값의 예측 값을 획득하는 단계; 및
    상기 예측 값과 상기 라벨로 정의되는 손실 함수에 기초하여 상기 학습 모델을 학습시키는 단계를 더 포함하는,
    동작 방법.
  13. 제12항에 있어서,
    상기 손실 함수는
    Figure pat00027
    으로 정의되고, 여기서
    Figure pat00028
    은 상기 손실 함수, n은 상기 훈련 데이터의 개수,
    Figure pat00029
    Figure pat00030
    는 상기 예측 값,
    Figure pat00031
    Figure pat00032
    는 상기 라벨, i는 훈련 회차인,
    동작 방법.
  14. 제11항에 있어서,
    상기 동작 방법은:
    상기 입력 이미지 시퀀스에서 t - (d + n/f) 시점에 대응되는 이미지가 존재하지 않는 경우, t - (d + (n + s)/f) + 1 시점까지 순차적으로 탐색하면서 다음 이미지를 샘플링하는 단계를 더 포함하는,
    동작 방법.
  15. 컴퓨터가 읽을 수 있는 코드로서, 전자 장치의 동작 방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서,
    상기 동작 방법은:
    시간 축 상에서 예측 시점 t로부터 이전에 위치한 기 설정된 시간 범위 내에 위치하는 입력 이미지 시퀀스를 순차적으로 입력받는 단계, 여기서 상기 입력 이미지 시퀀스는 각각이 사람의 얼굴을 포함하는 복수의 이미지를 포함하고;
    상기 입력 이미지 시퀀스에 기초하여 학습 모델을 학습시키는 단계; 및
    상기 학습 모델로부터 사람의 각성도(valence) 값 및 유의성(arousal) 값을 출력하는 단계를 포함하고,
    상기 학습 모델은,
    CNN(Convolutional Neural Network) 모델을 기반으로 구성되며, 상기 입력 이미지 시퀀스를 입력받아 피쳐(feature)를 추출하는 피쳐 추출 레이어;
    상기 피쳐를 입력받아 히든 스테이트(hidden state)를 출력하는 LSTM(Long Short-Term Memory) 레이어; 및
    상기 히든 스테이트를 입력받아 상기 각성도 값 및 상기 유의성 값을 추출하는 FC(Fully-Connected) 레이어를 포함하는,
    기록매체.
KR1020220024538A 2022-01-05 2022-02-24 과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법 KR20230106052A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220001292 2022-01-05
KR20220001292 2022-01-05

Publications (1)

Publication Number Publication Date
KR20230106052A true KR20230106052A (ko) 2023-07-12

Family

ID=87163495

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220024538A KR20230106052A (ko) 2022-01-05 2022-02-24 과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR20230106052A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102267741B1 (ko) 2019-08-22 2021-06-22 상명대학교 천안산학협력단 Ppg신호를 이용한 딥러닝 기반의 감정인식 시스템 및 감정인식 방법
KR102277811B1 (ko) 2019-03-06 2021-07-15 상명대학교 천안산학협력단 생체신호를 이용한 딥러닝 기반 실시간 감정인식 시스템 및 이를 이용한 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102277811B1 (ko) 2019-03-06 2021-07-15 상명대학교 천안산학협력단 생체신호를 이용한 딥러닝 기반 실시간 감정인식 시스템 및 이를 이용한 방법
KR102267741B1 (ko) 2019-08-22 2021-06-22 상명대학교 천안산학협력단 Ppg신호를 이용한 딥러닝 기반의 감정인식 시스템 및 감정인식 방법

Similar Documents

Publication Publication Date Title
JP7073437B2 (ja) ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体
CN110490213B (zh) 图像识别方法、装置及存储介质
EP3812969A1 (en) Neural network model compression method, corpus translation method and device
US11398223B2 (en) Electronic device for modulating user voice using artificial intelligence model and control method thereof
US20210210102A1 (en) Data processing method based on artificial intelligence
US20210183392A1 (en) Phoneme-based natural language processing
KR20190125463A (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
US20200043478A1 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
US11551662B2 (en) Voice recognition device and method for learning voice data
KR102389996B1 (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN112771544A (zh) 重构人工智能模型的电子装置及其控制方法
US11790893B2 (en) Voice processing method based on artificial intelligence
CN111401388B (zh) 数据挖掘方法、装置、服务器及可读存储介质
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN112989935A (zh) 一种视频生成方法、装置、设备以及存储介质
KR20210044475A (ko) 대명사가 가리키는 객체 판단 방법 및 장치
KR20190104280A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
KR20200126675A (ko) 전자 장치 및 이의 제어 방법
US11817097B2 (en) Electronic apparatus and assistant service providing method thereof
CN109509475A (zh) 语音识别的方法、装置、电子设备及计算机可读存储介质
CN108959421A (zh) 候选回复评价装置和问询回复设备及其方法、存储介质
US20210264905A1 (en) Electronic device and control method therefor
US20210166678A1 (en) Electronic device and controlling the electronic device
US20190163436A1 (en) Electronic device and method for controlling the same
KR20230106052A (ko) 과거 얼굴 이미지를 이용한 va 지표 예측을 위한 전자 장치 및 그 동작 방법