KR20190060630A - 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 - Google Patents

인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 Download PDF

Info

Publication number
KR20190060630A
KR20190060630A KR1020180000136A KR20180000136A KR20190060630A KR 20190060630 A KR20190060630 A KR 20190060630A KR 1020180000136 A KR1020180000136 A KR 1020180000136A KR 20180000136 A KR20180000136 A KR 20180000136A KR 20190060630 A KR20190060630 A KR 20190060630A
Authority
KR
South Korea
Prior art keywords
data
feature
voice
inference
recognition
Prior art date
Application number
KR1020180000136A
Other languages
English (en)
Other versions
KR102133728B1 (ko
Inventor
이영복
유대훈
Original Assignee
주식회사 제네시스랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 제네시스랩 filed Critical 주식회사 제네시스랩
Priority to CN201880075873.5A priority Critical patent/CN111386531A/zh
Priority to EP18881797.7A priority patent/EP3716159A4/en
Priority to PCT/KR2018/014439 priority patent/WO2019103484A1/ko
Priority to US16/200,518 priority patent/US10740598B2/en
Publication of KR20190060630A publication Critical patent/KR20190060630A/ko
Priority to KR1020200081613A priority patent/KR102290186B1/ko
Application granted granted Critical
Publication of KR102133728B1 publication Critical patent/KR102133728B1/ko
Priority to US16/985,094 priority patent/US11475710B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

본 기재의 인공지능을 이용한 멀티모달 감성인식 장치는, 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부, 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부, 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부를 포함한다.

Description

인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체{DEVICE, METHOD AND READABLE MEDIA FOR MULTIMODAL RECOGNIZING EMOTION BASED ON ARTIFICIAL INTELLIGENCE}
본 발명의 실시예들은 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체에 관한 것이다.
종래의 기술에서는 가림(Occlusion)을 인식하여 오류로 처리한다. 손으로 입을 가린다는 것은 중요한 정보로 감정 상태의 세기 정도를 알아낼 수 있다. 단순히 정적 이미지로는 가림(Occlusion) 문제로 인식 정보가 부족할 수가 있다.
또한, 얼굴 표정으로 감정을 인식할 때 대상자가 말을 하면 잘못된 감정 인식 결과를 도출한다. 표정인식을 통한 감정인식은 입모양이 매우 중요한 정보지만 말을 할 때는 입모양이 수시로 변하기 때문에 놀람, 화, 웃음 등과 같은 입모양이 나올 수 있어 잘못된 인식 결과를 초래한다.
이와 같이, 종래의 기술 중에는 얼굴 표정만으로 감정을 인식하는 경우 이를 해결하기 위한 대안은 거의 없으며, 멀티 모달인 경우에는 이러한 노이즈를 최소화하기 위해 얼굴 표정과 음성 정보를 혼용하여 오류를 최소화하는 방법으로 접근하고 있다. 본 특허에서는 얼굴 혹은 입모양을 추적하여 현재 말하는 상태인지 판별한 후, 말하는 상태인 경우에는 입모양 정보를 최소화하고 음성 특징정보의 비중을 확대하는 방법으로 정확한 감정 인식 결과를 도출 할 수 있도록 한다.
본 발명의 실시예들은 손의 움직임 및 식별 정보, 입모양에 대한 정보, 음성 정보, 부분 표정 정보와 더불어 시간적 정보를 이용하여 보다 정확한 감정인식을 수행하는 멀티 모달 감성인식 장치, 방법 및 저장매체를 제공하고자 한다.
본 발명의 실시예의 일 측면에 따른 인공지능을 이용한 멀티 모달 감성인식 장치는, 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부; 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부; 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부; 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부;를 포함한다.
또한, 상기 상황 판단 데이터는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고, 상기 예비 추론부는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나, 상기 예비 추론부는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론부는, 제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론모듈;을 포함할 수 있다.
또한, 상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고, 상기 대화 상태 추론모듈은, 상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론부는, 상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론모듈; 및 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사모듈;을 포함할 수 있다.
또한, 상기 손 검출 추론모듈은, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고, 상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론할 수 있다.
또한, 상기 메인 추론부는, 제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성부;
상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성부; 및 제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론부;를 포함할 수 있다.
또한, 상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며, 상기 멀티 모달 특징맵 생성부는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단 값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 장치.
또한, 상기 음성 전처리부는, 상기 음성 데이터를 보정하는 음성 보정 모듈; 및 상기 음성 보정 모듈을 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 모듈;를 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출기; 상기 인식 대상 영역을 보정하는 이미지 전처리기; 및 상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출기;를 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보를 추출하는 랜드마크 검출모듈;를 더 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정기;를 포함할 수 있다.
또한, 활성화 함수를 이용하여, 상기 감성상태의 결과를 출력하는 출력부;를 더 포함할 수 있다.
본 발명의 실시예의 다른 측면에 따른 인공지능을 이용한 멀티모달 감성 인식방법은, 인공지능을 이용한 멀티 모달 감성인식 방법에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계; 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계;
상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함한다.
또한, 상기 상황 판단 데이터는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고, 상기 예비 추론 단계는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나, 상기 예비 추론 단계는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론 단계는, 제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론 단계;를 포함하고, 상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고, 상기 대화 상태 추론 단계는, 상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론 단계는, 상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론 단계; 및 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사 단계;를 포함할 수 있다.
또한, 상기 손 검출 추론 단계는, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고, 상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론할 수 있다.
또한, 상기 메인 추론 단계는, 제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성 단계; 상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성 단계; 및 제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론 단계;를 포함할 수 있다.
또한, 상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며, 상기 멀티 모달 특징맵 생성 단계는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단값을 적용하여 상기 멀티 모달 특징맵을 생성할 수 있다.
또한, 상기 음성 전처리 단계는, 상기 음성 데이터를 보정하는 음성 보정 단계; 및 상기 음성 보정 단계를 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 단계;를 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계; 상기 인식 대상 영역을 보정하는 이미지 전처리 단계; 및 상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출 단계;를 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출 단계; 를 더 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정 단계;를 포함할 수 있다.
본 발명의 실시예의 또 다른 측면에 따른 인공지능을 이용한 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체는, 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체에 있어서,
상기 인공지능을 이용한 멀티 모달 감성인식 방법은,
사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계;
상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계;
상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및
상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함한다.
상기한 바와 같은 본 발명의 실시예에 따르면, 멀티 모달 감성 인식 장치는 대화하는 경우 및 손에 따른 표정 가림을 하는 경우의 감정 상태를 정확하게 파악할 수 있다.
도 1은 본 발명의 실시예에 따른 멀티모달 감성 인식 장치의 구성을 개략적으로 도시한 도면이다.
도 2는 도 1의 멀티모달 감성 인식 장치 중 데이터 전처리부의 구성을 개략적으로 도시한 도면이다.
도 3는 도 1의 멀티모달 감성 인식 장치 중 예비 추론부의 구성을 개략적으로 도시한 도면이다.
도 4는 도 1의 멀티모달 감성 인식 장치 중 메인 추론부의 구성을 개략적으로 도시한 도면이다.
도 5는 도 1의 멀티모달 감성 인식 장치에 의한 멀티모달 감성 인식 방법을 보여주는 순서도이다.
도 6은 도 5의 멀티모달 감성 인식 방법 중 데이터 전처리 단계를 상세하게 보여주는 순서도이다.
도 7은 도 5의 멀티모달 감성 인식 방법 중 예비 추론 단계를 상세하게 보여주는 순서도이다.
도 8은 도 5의 멀티모달 감성 인식 방법 중 메인 추론 단계를 상세하게 보여주는 순서도이다.
도 9는 도 1의 멀티모달 감성 인식 장치에서 상황 변화 여부에 따른 얼굴 인식 과정을 보여주는 예시적인 도면이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시 할 수 있도록 상세히 설명한다.
본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다. 또한, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
본 발명에 있어서 "~상에"라 함은 대상부재의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력방향을 기준으로 상부에 위치하는 것을 의미하는 것은 아니다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
본 발명은 대상자의 동영상과 음성 데이터를 기반으로 얼굴 표정, 말 상태, 손, 음성을 고려한 인공지능을 이용하여 보다 정확한 감성인식 결과를 도출한다.
도 1은 본 발명의 실시예에 따른 멀티모달 감성 인식 장치의 구성을 개략적으로 도시한 도면이다.
도 1을 참조하면, 멀티 모달 감성 인식 장치(10)는, 데이터 입력부(100), 데이터 전처리부(200), 예비 추론부(300), 메인 추론부(400) 및 출력부(500)를 포함할 수 있다.
데이터 입력부(100)는 사용자의 영상 데이터(DV) 및 음성 데이터(DS)를 입력 받을 수 있다.
데이터 입력부(100)는 사용자의 감성 인식을 하기 위한 영상 데이터(DV)를 수신 받는 영상 입력부(110) 및 사용자의 음성 데이터(DS)를 수신 받는 음성 입력부(120)를 포함할 수 있다.
또한, 데이터 전처리부(200)는 음성 데이터(DS)로부터 음성 특징 데이터(DF2)를 생성하는 음성 전처리부(220), 영상 데이터(DV)로부터 하나 이상의 얼굴 특징 데이터(DF1)를 생성하는 영상 전처리부(210)를 포함할 수 있다.
이 때, 얼굴 특징 데이터(DF1)는 이미지, 위치 정보, 크기 정보, 얼굴 비율 정보, 뎁스 정보(Depth Information) 중 적어도 하나 이상을 포함할 수 있고, 음성 특징 데이터(DF2)는 억양, 음높이 정보, 발성 강도, 발화속도 등 음성의 특징을 나타낼 수 있는 정보를 포함할 수 있다.
영상 전처리부(210)는 영상 데이터(DV)로부터 사용자의 얼굴 특징 데이터(DF1)를 추출하기 위한 영상 전처리를 수행한다.
상기 영상 전처리는, 얼굴 전체 또는 부분 인식, 노이즈 제거, 사용자 얼굴 특징 및 이미지 추출 등 학습 모델을 사용하기 위한 영상 데이터(DV)를 적절한 양태로 변환할 수 있다.
음성 전처리부(220)는 음성 데이터(DS)로부터 사용자의 음성 특징 데이터(DF2)를 추출하기 위한 음성 전처리를 수행한다.
상기 음성 전처리는, 외부 소음 제거, 노이즈 제거, 사용자 음성 특징 추출 등 학습 모델을 사용하기 위한 적절한 양태로 음성 데이터(DS)를 변환할 수 있다.
예비 추론부(300)는, 영상 데이터(DV)에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터(P)를 생성할 수 있다.
이 때, 상황 판단 데이터(P)는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터(P1) 또는 영상 데이터(DV)의 전체 영상 영역 중 일부인 추적 대상 영역(B)과 다른 인식 대상 영역(A)과의 중첩 여부에 대한 중첩 판단 데이터(P2)를 포함할 수 있다.
상세하게는, 예비 추론부(300)는 영상 데이터(DV)에 기반하여 추적 대상 영역(B)의 위치를 추론하기 위한 위치 추론 데이터(DM1)를 생성하고, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여, 추적 대상 영역(B)과 인식 대상 영역(A)의 중첩 여부에 대한 중첩 판단 데이터(P2)를 생성할 수 있다.
또한, 예비 추론부(300)는, 얼굴 특징 데이터(DF1)에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터(P1)를 생성할 수 있다.
메인 추론부(400)는, 음성 특징 데이터(DF2) 또는 얼굴 특징 데이터(DF1)에 기반하여 적어도 하나의 서브 특징맵(FM)을 생성하고, 서브 특징맵(FM) 및 상황 판단 데이터(P)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
상기 감성 상태는 행복, 화, 두려움, 혐오, 슬픔, 놀람 등의 사용자의 감정 상태 정보를 포함할 수 있다.
출력부(500)는 메인 추론부(400)에서 추론된 감성상태의 결과를 출력할 수 있다.
이 때, 출력부(500)는 시그모이드 함수(Sigmoid Function), 단계 함수(Step Function), 소프트맥스 함수(Softmax), ReLU(Rectified Linear Unit)등 활성화 함수를 이용하여 다양한 형태로 출력할 수 있다.
도 2는 도 1의 멀티모달 감성 인식 장치 중 데이터 전처리부의 구성을 개략적으로 도시한 도면이다.
도 2를 참조하면, 데이터 전처리부(200)는 영상 전처리부(210) 및 음성 전처리부(220)를 포함할 수 있다.
영상 전처리부(210)는 얼굴 검출기(211), 이미지 전처리 모듈(212), 랜드 마크 검출모듈(213), 위치 조정모듈(214) 및 얼굴 요소 추출 모듈(215)을 포함 할 수 있다.
얼굴 검출기(211)는 영상 데이터(DV)의 전체 영역에서 사용자의 얼굴에 대응되는 영역인 인식 대상 영역(A)을 검출할 수 있다.
이미지 전처리 모듈(212)은 인식 대상 영역(A)을 보정할 수 있다.
상세하게는, 이미지 전처리 모듈(212)은 이미지의 밝기, 블러(Blur)의 보정, 및 영상 데이터(DV)의 노이즈 제거를 수행할 수 있다.
랜드마크 검출모듈(213)은 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)를 추출할 수 있다.
상세하게는, 인식 대상 영역(A) 중 얼굴, 눈, 입, 코, 이마 등 얼굴 중요 요소의 위치 정보를 파악하여 얼굴 인식이 가능하게 수행할 수 있다.
위치 조정모듈(214)은 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)에 기반하여 위치를 조정할 수 있다.
상세하게는, 위치 조정모듈(214)은 랜드마크 검출모듈(213)로부터 추출된 얼굴 요소 위치 정보(AL)를 기준으로 수평 또는 수직에 맞춰 이미지를 정렬할 수 있다.
얼굴 요소 추출 모듈(215)은 인식 대상 영역(A) 내에 위치하며 인식 대상 영역(A)보다 작은 서브 인식 대상 영역(AA)을 설정하고, 서브 인식 대상 영역(AA)의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
서브 인식 대상 영역(AA)은 얼굴, 눈, 입, 코, 이마 등 적어도 하나 이상의 얼굴 요소가 판별된 복수의 영역 또는 하나의 영역일 수 있다.
예를 들어, 인식 대상 영역(A) 중 얼굴 요소 위치 정보(AL)가 추출된 눈, 코, 입이 추출될 경우, 얼굴 요소 추출 모듈(215)은 서브 인식 대상 영역(AA)인 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 설정 및 상기 설정된 서브 인식 대상 영역(AA)에 대해 적어도 하나 이상의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
또한, 얼굴 요소 추출 모듈(215)은 서브 인식 대상 영역(AA)이 설정되지 않을 경우, 인식 대상 영역(A)을 기반으로 얼굴 특징 데이터(DF1)를 생성할 수 있다.
음성 전처리부(220)는 음성 보정 모듈(221), 음성 특징 데이터 추출 모듈(222)을 포함할 수 있다.
음성 보정 모듈(221)은 음성 데이터(DS)를 보정할 수 있다.
상세하게는, 음성 보정 모듈(221)은 음성 데이터(DS)에 포함된 다양한 노이즈 및 외부 소음 제거, 음량 조절, 주파수 보정 등 다양한 보정 방법을 수행하여, 보정된 음성 데이터를 생성할 수 있다.
음성 특징 데이터 추출 모듈(222)은 음성 보정 모듈(221)을 거친 음성 데이터(DS)의 특징을 추출하여, 음성 특징 데이터(DF2)를 생성할 수 있다.
상세하게는, 음성 특징 데이터 추출 모듈(222)은 MFCC(Mel-frequency Cepstral Coefficients), eGeMAPS(Geneva Minimalistic Acoustic Parameter Set), Logbank 등과 같은 음성 데이터, 주파수 및 스펙트럼 분석 모듈 중 하나 이상의 모듈을 통하여 사용자의 음성 특징 데이터(DF2)를 생성 할 수 있다.
이 때, 음성 특징 데이터 추출 모듈(222)은 상기 보정된 음성 데이터를 사용하거나, 음성 데이터(DS)를 사용할 수도 있다.
도 3은 도 1의 멀티모달 감성 인식 장치 중 예비 추론부의 구성을 개략적으로 도시한 도면이다.
도 3을 참조하면, 예비 추론부(300)는 손 검출 추론모듈(310), 대화 상태 추론모듈(320) 및 얼굴 겹침 검사모듈(330)을 포함할 수 있다.
대화 상태 추론모듈(320)은, 제1 학습 모델(LM1)을 이용하고, 얼굴 특징 데이터(DF1)에 기반하여 대화 판단 데이터(P1)를 생성할 수 있다.
상세하게는, 대화 상태 추론모듈(320)은 사용자의 얼굴 특징 데이터(DF1)의 전체 또는 부분을 사용하여, 사용자가 대화 상태인지를 판별할 수 있는 제1 학습 모델(LM1)을 이용하여, 대화 판단 여부인 대화 판단 데이터(P1)를 생성할 수 있다.
얼굴 특징 데이터(DF1)는, 인식 대상 영역(A) 중 사용자의 입에 대응되는 부분에 대한 영상 데이터(DV)인 입 영상 데이터(DV2)를 포함하고, 제1 학습 모델(LM1)을 이용하여, 입 영상 데이터(DV2)로부터 사용자의 대화 상태 여부에 대한 대화 판단 데이터(P1)를 생성할 수 있다.
제1 학습 모델(LM1)은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등 시간적 특징 또는 공간적 특징을 추론 할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
손 검출 추론모듈(310)은, 영상 데이터(DV)에서 추적 대상 영역(B)에 대한 손 영상 데이터(DV1)를 검출하고, 제2 학습 모델(LM2)을 이용하여 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성할 수 있다.
이 때, 제2 학습 모델(LM2)은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등 시간적 특징 또는 공간적 특징을 추론 할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법이며, 이를 통해 손에 대한 위치 추론 데이터(DM1)를 생성할 수 있다.
또한, 손 검출 추론모듈(310)은, 위치 추론 데이터(DM1)에 대한 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P), 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
이 때, 위치 추론 특징맵(FM1)은 손에 대한 특징 정보, 즉, 손에 대한 제스처 및 손에 대한 위치에 대한 정보 등 손의 움직임의 의미 있는 정보를 포함할 수 있다.
얼굴 겹침 검사모듈(330)은, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 중첩 판단 데이터(P2)를 생성 할 수 있다.
상세하게는, 중첩 판단 데이터(P2)는 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하여, 인식 대상 영역(A)의 해당하는 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)의 중요도 및 사용 여부를 결정하는 하나 이상의 파라미터를 생성할 수 있다.
도 4는 도 1의 멀티모달 감성 인식 장치 중 메인 추론부의 구성을 개략적으로 도시한 도면이다.
도 4를 참조하면, 메인 추론부(400)는, 복수의 서브 특징맵 생성부(410; 411, 412, 413, 414), 멀티 모달 특징맵 생성부(420) 및 감성 인식 추론부(430)를 포함할 수 있다.
복수의 서브 특징맵 생성부(410; 411, 412, 413, 414)는 제3 학습 모델(LM3)을 이용하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 기반하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 대한 복수의 서브 특징맵(FM)을 생성할 수 있다.
상세하게는, 제3 학습 모델(LM3)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등을 적어도 하나 이상의 공간적 특징을 추론할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있고, 제3 학습 모델(LM3)을 이용하여, 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)의 특징이 함축된 복수의 서브 특징맵(FM)을 생성할 수 있다.
멀티 모달 특징맵 생성부(420)는 상황 판단 데이터(P)를 참조하여, 복수의 서브 특징맵(FM)으로부터 멀티 모달 특징맵(M)을 생성할 수 있다.
상황 판단 데이터(P)는, 사용자의 상황에 따라 기설정된 상황 판단값(PV)을 가지며, 멀티 모달 특징맵 생성부(420)는, 복수의 서브 특징맵(FM) 중 적어도 하나의 상황 판단값(PV)을 적용하여 멀티 모달 특징맵(M)을 생성할 수 있다.
상세하게는, 상황 판단값(PV)은 각각의 서브 특징맵(FM)이 가지는 중요도 및 사용여부를 나타내는 파라미터일 수 있다.
상황 판단 데이터(P)와 서브 특징맵(FM)과의 연산을 통하여 상황 판단 데이터(P)의 상황 판단값(PV)이 적용된 서브 특징맵(FM)을 생성하고, 복수의 서브 특징맵(FM)을 통합하여, 멀티 모달 특징맵(M)을 생성할 수 있다.
예를 들면, 사용자의 눈이 가려졌을 경우, 눈에 대한 상황 판단값을 0으로 출력하여, 상기 눈에 대한 상황 판단값과 눈에 대한 서브 특징맵(FM)의 곱연산을 통해 0을 출력하게 되어, 메인 추론부(400)가 상기 눈에 대한 서브 특징맵을 제외한 다른 서브 특징맵을 기준으로 멀티 모달 특징맵(M)을 생성할 수 있다.
또한, 손 검출 추론모듈(320)로부터 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P) 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론하는 멀티 모달 특징맵(M)을 생성할 수 있다.
멀티 모달 특징맵(M)은 Concat, Merge 및 딥 네트워크(Deep Network) 등을 사용하여 서브 특징맵(FM) 및 위치 추론 특징맵(FM1) 적어도 하나 이상을 병합하여 생성될 수 있다.
감성 인식 추론부(430)는 제4 학습 모델(LM4)을 사용하여, 멀티 모달 특징맵(M)에 기반하여 감성상태를 추론할 수 있다.
이 때, 제4 학습 모델(LM4)은, LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있고, 시간적 특징과 공간적 특징을 추론 또는 분석할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
도 5는 도 1의 멀티모달 감성 인식 장치에 의한 멀티모달 감성 인식 방법을 보여주는 순서도이다.
도 5를 참조하면, 사용자의 영상 데이터(DV) 및 음성 데이터(DS)를 입력 받는 데이터 입력 단계(S100)를 수행된다.
그 다음, 음성 데이터(DS)로부터 음성 특징 데이터(DF2)를 생성하는 음성 전처리 단계, 영상 데이터(DV)로부터 하나 이상의 얼굴 특징 데이터(DF1)를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계(S200)가 수행될 수 있다.
이 때, 데이터 전처리 단계(S200)는 학습 모델을 사용하기 위한 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)를 생성할 수 있다.
상기 학습 모델은 인공지능, 머신 러닝 및 딥 러닝 방법이 될 수 있다.
그 다음, 영상 데이터(DV)에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터(P)를 생성하는 예비 추론 단계(S300)가 수행될 수 있다.
이 때, 상기 시간적 순서는 대화상태의 여부가 될 수 있고, 신체부분의 움직임에 대한 특징을 파악하기 위한 데이터일 수 있다.
또한, 상황 판단 데이터(P)는 영상 데이터(DV)로부터 겹칩 여부와 대화 상태의 여부를 판별하여, 하나 이상의 얼굴 특징 데이터(DF1) 또는 음성 특징 데이터(DF2)의 중요도 또는 사용 여부를 나타내는 파라미터를 포함할 수 있다.
또한, 데이터 전처리 단계(S200)에서 생성된 하나 이상의 얼굴 특징 데이터(DF1) 이외의 사용자의 신체 부분에 대한 특징 정보를 추출하여 생성할 수 있다.
그 다음, 음성 특징 데이터(DF2) 또는 얼굴 특징 데이터(DF1)에 기반하여 적어도 하나의 서브 특징맵(FM)을 생성하고, 서브 특징맵(FM) 및 상황 판단 데이터(P)에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계(S400)가 수행될 수 있다.
이 때, 사용자로부터 추출된 특징 정보를 포함한 서브 특징맵(FM)과 특징 정보의 중요도 또는 사용여부에 대한 파라미터를 포함한 상황 판단 데이터(P)를 연산하여, 서브 특징맵(FM)에 중요도 또는 사용여부에 대한 정보를 포함하여, 사용자의 감성 상태를 추론할 수 있다.
그 다음, 메인 추론 단계(S400)에서의 감성 상태의 추론 결과를 출력하는 결과 도출 단계(S500)가 수행된다.
도 6은 도 5의 멀티모달 감성 인식 방법 중 데이터 전처리 단계를 상세하게 보여주는 순서도이다.
도 6을 참조하면, 데이터 전처리 단계(S200)는 영상 전처리 단계(S210)와 음성 전처리 단계(S220)를 포함한다.
영상 전처리 단계(S210)는, 영상 데이터(DV)의 전체 영역에서 인식 대상 영상 영역, 인식 대상 영역(A)은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계가 수행된다.
그 다음, 인식 대상 영역(A)을 보정하는 이미지 전처리 단계가 수행된다.
상세하게는, 상기 이미지 전처리 단계에서 이미지의 밝기, 블러(Blur)의 보정, 및 영상 데이터(DV)의 노이즈 제거가 수행될 수 있다
그 다음, 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)를 추출하는 랜드마크 검출 단계가 수행된다.
상세하게는, 인식 대상 영역(A) 중 얼굴, 눈, 코, 입, 이마 등 얼굴 중요 요소의 위치 정보를 파악하여 얼굴 인식이 가능하게 수행될 수 있다.
그 다음, 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)에 기반하여 위치를 조정하는 위치 조정 단계가 수행될 수 있다.
상세하게는, 랜드마크 검출모듈(213)로부터 추출된 얼굴 요소 위치 정보(AL)를 기준으로 수평 또는 수직에 맞춰 이미지가 정렬될 수 있다.
그 다음, 인식 대상 영역(A)에서 얼굴 요소 위치 정보(AL)에 기반하여 인식 대상 영역(A) 내에 위치하며 인식 대상 영역(A)보다 작은 서브 인식 대상 영역(AA)을 설정하고, 서브 인식 대상 영역(AA)의 얼굴 특징 데이터(DF1)를 생성하는 얼굴 요소 추출 단계가 수행될 수 있다.
이 때, 서브 인식 대상 영역(AA)은 얼굴전체, 눈, 입, 코, 이마 등 적어도 하나 이상의 얼굴 요소가 판별된 복수의 영역 또는 하나의 영역일 수 있다.
예를 들어, 인식 대상 영역(A) 중 얼굴 요소 위치 정보(AL)가 추출된 눈, 코, 입이 추출될 경우, 얼굴 요소 추출 모듈(215)은 서브 인식 대상 영역(AA)인 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 설정 및 상기 설정된 서브 인식 대상 영역(AA)에 대해 적어도 하나 이상의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
또한, 상기 얼굴 요소 추출 단계는 서브 인식 대상 영역(AA)이 설정되지 않을 경우, 인식 대상 영역(A)을 기반으로 얼굴 특징 데이터(DF1)를 생성할 수 있다.
음성 전처리 단계(S220)는 음성 보정 단계 및 음성 특징 데이터 추출 단계를 포함한다.
먼저, 음성 데이터(DS)를 보정하는 상기 음성 보정 단계가 수행된다.
상세하게는, 상기 음성 보정 단계에서 음성 데이터(DS)에 포함된 다양한 노이즈 및 외부 소음 제거, 음량 조절, 주파수 보정 등 다양한 보정 방법을 수행하여, 보정된 음성 데이터를 생성될 수 있다.
상기 음성 보정 단계를 거친 음성 데이터(DS)의 특징을 추출하여, 음성 특징 데이터(DF2)를 생성하는 상기 음성 특징 데이터 추출 단계가 수행된다.
상세하게는, MFCC(Mel-frequency cepstral coefficients), eGeMAPS(Geneva Minimalistic Acoustic Parameter Set), Logbank 등과 같은 음성 데이터, 주파수 및 스펙트럼 분석 모듈 중 하나 이상의 모듈을 통하여 사용자의 음성 특징 데이터(DF2)를 생성 될 수 있다.
이 때, 상기 음성 특징 데이터 추출 단계는 상기 보정된 음성 데이터를 사용하거나, 상기 음성 보정 단계가 수행되지 않고 음성 데이터(DS)하여 음성 특징 데이터(DF2)를 생성할 수도 있다.
또한, 이는 예시적인 것으로서 적어도 일부의 단계들은 전후의 단계들과 동시에 수행되거나 또는 순서를 바꾸어 수행될 수도 있다.
도 7은 도 5의 멀티모달 감성 인식 방법 중 예비 추론 단계를 상세하게 보여주는 순서도이다.
제1 학습 모델(LM1)을 이용하고, 얼굴 특징 데이터(DF1)에 기반하여 대화 판단 데이터(P1)를 생성하는 대화 상태 추론 단계(S310)가 수행될 수 있다.
대화 상태 추론 단계(S310)에서, 제1 학습 모델(LM1)을 이용하여 이전 상황에서의 대화 여부와 얼굴 특징 데이터(DF1)로부터 얼굴 요소의 특징 및 움직임을 감지하여, 대화 상태 여부를 감지될 수 있다.
상세하게는, 사용자의 얼굴 특징 데이터(DF1)의 전체 또는 부분을 사용하여, 사용자가 대화 중인지를 제1 학습 모델(LM1)을 이용하여, 대화 판단 여부인 대화 판단 데이터(P1)가 생성될 수 있다.
이 때, 얼굴 특징 데이터(DF1)는, 인식 대상 영역(A) 중 사용자의 입에 대응되는 부분에 대한 입 영상 데이터(DV2)를 포함할 수 있다.
또한, 제1 학습 모델(LM1)을 이용하여, 입 영상 데이터(DV2)로부터 사용자의 대화 상태 여부에 대한 대화 판단 데이터(P1)를 생성할 수 있다.
그 다음, 영상 데이터(DV)에서 추적 대상 영역(B)에 대한 손 영상 데이터(DV1)를 검출하고, 제2 학습 모델(LM2)을 이용하여 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성하는 손 검출 추론 단계(S320)가 수행된다.
이 때, 제2 학습 모델(LM2)을 사용하여 손에 대한 위치에 대한 이전 상황과의 시간적 추론이 가능할 수 있다. 예를 들어, 일시적으로 손이 얼굴에 겹쳤는지 여부를 판별할 수 있다.
또한, 손 검출 추론 단계(S320)는, 위치 추론 데이터(DM1)에 대한 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P), 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
상세하게는, 위치 추론 특징맵(FM1)은 손에 대한 제스처를 파악할 수 있는 특징 및 손에 대한 위치에 대한 정보 등 손의 움직임의 의미 있는 정보를 포함할 수 있다.
그 다음, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 중첩 판단 데이터(P2)를 생성하는 얼굴 겹침 검사 단계(S330)가 수행된다.
상세하게는, 중첩 판단 데이터(P2)는 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하여, 인식 대상 영역(A)의 해당하는 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)의 중요도 및 사용 여부를 결정하는 하나 이상의 파라미터를 포함할 수 있다.
도 8은 도 5의 멀티모달 감성 인식 방법 중 메인 추론 단계를 상세하게 보여주는 순서도이다.
도 8을 참조하면, 메인 추론 단계(S400)는, 복수의 서브 특징맵 생성 단계(S410), 멀티 모달 특징맵 생성 단계(S420) 및 감성 인식 추론 단계(S430)를 포함한다.
먼저, 제3 학습 모델(LM3)을 이용하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 기반하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 대한 복수의 서브 특징맵(FM)을 생성하는 복수의 서브 특징맵 생성 단계(S410)가 수행된다.
그 다음, 제3 학습 모델(LM3)은 상황 판단 데이터(P)를 참조하여, 복수의 서브 특징맵(FM)으로부터 멀티 모달 특징맵(M)을 생성하는 멀티 모달 특징맵 생성 단계(S420)가 수행된다.
이 때, 상황 판단 데이터(P)는, 사용자의 상황에 따라 기설정된 상황 판단값(PV)을 가지며, 멀티 모달 특징맵 생성 단계(S420)는, 복수의 서브 특징맵(FM) 중 적어도 하나에 상황 판단값(PV)을 적용하여 멀티 모달 특징맵(M)을 포함할 수 있다.
또한, 멀티 모달 특징맵 생성 단계(S420)에서, 손 검출 추론모듈(320)로부터 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P) 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론하는 멀티 모달 특징맵(M)이 생성될 수 있다.
그 다음, 제4 학습 모델(LM4)을 사용하여, 멀티 모달 특징맵(M)에 기반하여 감성상태를 추론하는 감성 인식 추론 단계(S430)가 수행된다.
이 때, 제4 학습 모델(LM4)은, LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있고, 시간적 특징과 공간적 특징을 추론 또는 분석할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
도 9는 도 1의 멀티모달 감성 인식 장치에서 상황 변화 여부에 따른 얼굴 인식 과정을 보여주는 예시적인 도면이다.
도 9를 참조하면, ((A)단계) 사용자가 손을 얼굴에 대고 있으며, 손이 입과 코를 가리고 있지는 않는 상황을 나타내고 있다.
영상 입력부(110)를 통해 사용자의 영상 데이터(DV)가 입력되고, 음성 입력부(120)를 통해 사용자의 음성 데이터(DS)가 입력된다.
이 후, 영상 전처리부(210)는 영상 전처리가 된 얼굴 특징 데이터(DF1)를 생성하고, 또한, 음성 전처리부(220)를 통해 음성 전처리가 된 음성 특징 데이터(DF2)를 생성하고, 영상 전처리부(210)는 인식 가능한 사용자의 눈, 코, 입의 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 포함하는 인식 대상 영역(A)이 설정되고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 후, 예비 추론부(300)는 영상 데이터(DV)로부터 검출된 추적 대상 영역(B1)에 대한 손 영상 데이터(DV1)를 생성한다.
이 때, 예비 추론부(300)는 손 영상 데이터(DV1)를 통해 손의 움직임을 파악하는 위치 추론 데이터(DM1)를 생성되고, 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B1)과 인식 대상 영역(A)의 중첩됨 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
여기서, 중첩 판단 데이터(P2)는 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 사용을 나타내는 파라미터를 포함할 수 있다.
또한, 대화 상태 추론모듈(310)은 입 영상 데이터(DV2)에 기반한 입 인식 영역(A3)을 통하여 대화 상태 여부를 판단하여 대화 판단 데이터(P1)를 생성한다.
이 후, 서브 특징맵 생성부(410)는 눈, 코, 입에 해당되는 얼굴 특징 데이터(DF1)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성한다.
이 후, 멀티 모달 특징맵 생성부(420)는 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 제4 학습 모델(LM4)을 통해 이전의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
((B)단계) B단계는, A단계의 연속적인 동작을 나타내고 있다.
예를 들어, B단계는 30FPS 속도로 A단계에 이어 연속적으로 촬영된 영상으로 가정 할 수 있다.
A단계와 마찬가지로, 영상 입력부(110)를 통해 사용자의 영상 데이터(DV)가 입력되고, 음성 입력부(120)를 통해 사용자의 음성 데이터(DS)가 입력된다.
이 후, 음성 전처리부(220)를 통해 음성 전처리가 된 음성 특징 데이터(DF2)를 생성하고, 영상 전처리부(210)는 얼굴 특징 데이터(DF1) 및 얼굴 요소 위치 정보(AL)를 생성하고, 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 포함하는 인식 대상 영역(A)을 설정하고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 때, 인식 대상 영역(A)이 사용자의 동작에 따라 크기가 변화할 수 있다.
B단계는 A단계와 비교하여, 인식 대상 영역(A)이 동작에 따라 크기가 변화되는 것을 나타내고 있다.
이 후, 예비 추론부(300)는 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성하여, A단계에서 B단계로의 손의 움직임을 추적할 수 있다.
예비 추론부(300)는 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B2)과 인식 대상 영역(A)의 중첩됨 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
또한, 예비 추론부(300)는 대화 상태 여부를 판단하여 대화 판단 데이터(P1)를 생성한다.
이 때, 예비 추론부(300)는 제1 학습 모델(LM1)을 이용하여, (A)단계를 포함한 이전 상황에서 감성인식 대상이 되는 사용자의 대화 여부가 지속되고 있는지를 고려하여 대화 상태 여부를 판단 할 수 있다.
예를 들어, A단계에서 사용자가 대화 상태가 아닌 것으로 추론된 경우, 상기 결과를 바탕으로, B단계에서 입 인식 영역(A3)에 기초하여 일시적으로 사용자의 입 모양이 대화 상태에서의 입 모양과 유사하더라도, 예비 추론부(300)는 제1 학습 모델(LM1)을 이용하여, 사용자가 대화 상태가 아닌 것으로 판단할 수 있다. 즉, 예비 추론부(300)는 A단계에서의 대화 상태 판단 결과에 기초하여, 다음 장면인 B단계에서의 대화 상태 판단 여부에 대한 추론을 실시할 수 있다.
이 후, 메인 추론부(400)는 수신된 얼굴 특징 데이터(DF1) 및 음성 특징 데이터(DF2)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성하고, 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 메인 추론부(400)는 제4 학습 모델(LM4)을 통해 이전((A)단계)의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
((C)단계) B단계 이후, 사용자가 입을 손으로 가리는 행동을 나타내고 있다.
영상 전처리부(210)는 인식 가능한 사용자의 눈의 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1)을 포함하는 인식 대상 영역(A)이 설정되고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 후, 예비 추론부(300)는 영상 데이터(DV)로부터 검출된 추적 대상 영역(B3)에 대한 손 영상 데이터(DV1)를 생성한다. 이 때, 손 영상 데이터(DV1)를 통해 손의 움직임을 파악하는 위치 추론 데이터(DM1)를 생성하고, 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B3)과 인식 대상 영역(A)의 중첩 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
여기서, 중첩 판단 데이터(P2)는 눈 인식 영역(A1)에 기초한 얼굴 특징 데이터(DF1)의 사용 여부 또는 얼굴 특징 데이터(DF1)에 적용되는 가중치를 나타내는 파라미터를 포함할 수 있다.
또한, 예비 추론부(300)는 (A)단계, (B)단계에서 인식 대상 영역(A)이었던 코 인식 영역(A2) 또는 입 인식 영역(A3)과 사용자의 손 위치에 대한 영역인 추적 대상 영역(B3)과의 중첩을 인지하여, 감성인식 추론에서 제외됨 또는 중요도가 떨어짐을 나타내는 파라미터가 중첩 판단 데이터(P2)에 포함될 수 있다.
또한, 예비 추론부(300)는 입 인식 영역(A3)에 대응되는 입 영상 데이터(DV2)가 인식되지 않는 상황과 사용자가 이전 대화 상태 여부의 판단 결과를 고려하여, 음성 특징 데이터(DF2)의 사용 판단 여부의 나타내는 값을 대화 판단 데이터(P1)에 포함시킬 수 있다.
여기서, 상기 이전 대화 상태 여부의 판단 결과는 시간적 학습 모델을 통해 추론한다. 이 때, 시간적 학습 모델은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있다.
이 후, 서브 특징맵 생성부(410)는 눈에 해당되는 영역의 얼굴 특징 데이터(DF1)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성한다.
이 후, 멀티 모달 특징맵 생성부(420)는 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 감정인식 추론부(430)는 제4 학습 모델(LM4)을 통해 이전의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital signalprocessor), 마이크로컴퓨터, FPA(Field Programmable Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(Instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도 록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
10 : 멀티 모달 감성 인식 장치
100 : 데이터 입력부 110 : 영상 입력부
120 : 음성 입력부
200 : 데이터 전처리부 210 : 영상 전처리부
211 : 얼굴 검출 모듈 212 : 이미지 전처리 모듈
213 : 랜드마크 검출 모듈 214 : 위치 조정 모듈
215 : 얼굴 요소 추출 모듈
220 : 음성 전처리부 221 : 음성 보정 모듈
222 : 음성 특징 데이터 추출 모듈 300 : 예비 추론부
310 : 대화 상태 추론 모듈
320 : 손 검출 추론 모듈 330 : 얼굴 겹침 검사 모듈
400 : 메인 추론부
411 : 제1 서브 특징맵 생성부 412 : 제2 서브 특징맵 생성부
413 : 제3 서브 특징맵 생성부 414 : 제n 서브 특징맵 생성부
420 : 멀티 모달 특징맵 생성부 430 : 감성 인식 추론부
500 : 출력부
S100: 데이터 입력 단계 S200: 데이터 전처리 단계
S210: 영상 전처리 단계 S220: 음성 전처리 단계
S300: 예비 추론 단계 S310: 대화 상태 추론 단계
S320: 손 검출 추론 단계 S330: 얼굴 겹침 검사 단계
S400: 메인 추론 단계 S410: 서브 특징맵 생성 단계
S420: 멀티 모달 특징맵 생성 단계 S430: 감성 인식 추론 단계
S500: 결과 도출 단계 A1 : 눈 인식 영역
A2 : 코 인식 영역 A3 : 입 인식 영역
B1, B2, B3 : 추적 대상 영역

Claims (25)

  1. 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서,
    사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부;
    상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부;
    상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부; 및
    상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부;를 포함하는 멀티 모달 감성인식 장치.
  2. 제1 항에 있어서,
    상기 상황 판단 데이터는,
    사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고,
    상기 예비 추론부는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나,
    상기 예비 추론부는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성하는 멀티 모달 감성 인식 장치.
  3. 제2 항에 있어서,
    상기 예비 추론부는,
    제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론모듈;을 포함하는 멀티 모달 감성 인식 장치.
  4. 제3 항에 있어서,
    상기 얼굴 특징 데이터는,
    상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고,
    상기 대화 상태 추론모듈은,
    상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성하는 것을 특징으로 하는 멀티 모달 감성 인식 장치.
  5. 제2 항에 있어서,
    상기 예비 추론부는,
    상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론모듈; 및
    상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사모듈;을 포함하는 멀티 모달 감성 인식 장치.
  6. 제5 항에 있어서,
    상기 손 검출 추론모듈은, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고,
    상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론하는 것을 특징으로 하는 멀티 모달 감성인식 장치.
  7. 제1 항에 있어서,
    상기 메인 추론부는,
    제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성부;
    상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성부; 및
    제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성 상태를 추론하는 감성 인식 추론부;를 포함하는 멀티 모달 감성 인식 장치.
  8. 제7 항에 있어서,
    상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며,
    상기 멀티 모달 특징맵 생성부는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단 값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 장치.
  9. 제1 항에 있어서,
    상기 음성 전처리부는,
    상기 음성 데이터를 보정하는 음성 보정 모듈; 및
    상기 음성 보정 모듈을 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 모듈;를 포함하는 멀티 모달 감성인식 장치.
  10. 제1 항에 있어서,
    상기 영상 전처리부는,
    상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출기;
    상기 인식 대상 영역을 보정하는 이미지 전처리기; 및
    상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출기;를 포함하는 멀티 모달 감성인식 장치.
  11. 제10 항에 있어서,
    상기 영상 전처리부는,
    상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출모듈;를 더 포함하는 멀티 모달 감성인식 장치.
  12. 제11 항에 있어서,
    상기 영상 전처리부는,
    상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정기;를 포함하는 멀티 모달 감성인식 장치.
  13. 제1 항에 있어서,
    활성화 함수를 이용하여, 상기 감성 상태의 결과를 출력하는 출력부;를 더 포함하는 멀티 모달 감성인식 장치.
  14. 인공지능을 이용한 멀티 모달 감성인식 방법에 있어서,
    사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계;
    상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리 단계를 포함하는 데이터 전처리 단계;
    상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및
    상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함하는 멀티 모달 감성인식 방법.
  15. 제14 항에 있어서,
    상기 상황 판단 데이터는,
    사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고,
    상기 예비 추론 단계는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나,
    상기 예비 추론 단계는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성하는 멀티 모달 감성 인식 방법.
  16. 제15 항에 있어서,
    상기 예비 추론 단계는,
    제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론 단계;를 포함하고,
    상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고,
    상기 대화 상태 추론 단계는,
    상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성하는 것을 특징으로 하는 멀티 모달 감성 인식 방법.
  17. 제15 항에 있어서,
    상기 예비 추론 단계는,
    상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론 단계; 및
    상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사 단계;를 포함하는 멀티 모달 감성 인식 방법.
  18. 제17 항에 있어서,
    상기 손 검출 추론 단계는, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고,
    상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론하는 것을 특징으로 하는 멀티 모달 감성인식 방법.
  19. 제14 항에 있어서,
    상기 메인 추론 단계는,
    제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성 단계;
    상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성 단계; 및
    제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성 상태를 추론하는 감성 인식 추론 단계;를 포함하는 멀티 모달 감성 인식 방법.
  20. 제19 항에 있어서,
    상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단값을 가지며,
    상기 멀티 모달 특징맵 생성 단계는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 방법.
  21. 제14 항에 있어서,
    상기 음성 전처리 단계는,
    상기 음성 데이터를 보정하는 음성 보정 단계; 및
    상기 음성 보정 단계를 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 단계;를 포함하는 멀티 모달 감성인식 방법.
  22. 제14 항에 있어서,
    상기 영상 전처리 단계는,
    상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계;
    상기 인식 대상 영역을 보정하는 이미지 전처리 단계; 및
    상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출 단계;를 포함하는 멀티 모달 감성인식 방법.
  23. 제22 항에 있어서,
    상기 영상 전처리 단계는,
    상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출 단계; 를 더 포함하는 멀티 모달 감성인식 방법.
  24. 제23 항에 있어서,
    상기 영상 전처리 단계는,
    상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정 단계;를 포함하는 멀티 모달 감성인식 방법.
  25. 인공지능을 이용한 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체에 있어서,
    상기 인공지능을 이용한 멀티 모달 감성인식 방법은,
    사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계;
    상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리 단계를 포함하는 데이터 전처리 단계;
    상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및
    상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함하는 컴퓨터 판독가능 저장 매체.
KR1020180000136A 2017-11-24 2018-01-02 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 KR102133728B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201880075873.5A CN111386531A (zh) 2017-11-24 2018-11-22 利用人工智能的多模式情绪识别装置、方法以及存储介质
EP18881797.7A EP3716159A4 (en) 2017-11-24 2018-11-22 MULTIMODAL EMOTION RECOGNITION DEVICE, PROCESS AND INFORMATION SUPPORT USING ARTIFICIAL INTELLIGENCE
PCT/KR2018/014439 WO2019103484A1 (ko) 2017-11-24 2018-11-22 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
US16/200,518 US10740598B2 (en) 2017-11-24 2018-11-26 Multi-modal emotion recognition device, method, and storage medium using artificial intelligence
KR1020200081613A KR102290186B1 (ko) 2018-01-02 2020-07-02 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
US16/985,094 US11475710B2 (en) 2017-11-24 2020-08-04 Multi-modal emotion recognition device, method, and storage medium using artificial intelligence

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170158309 2017-11-24
KR1020170158309 2017-11-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200081613A Division KR102290186B1 (ko) 2018-01-02 2020-07-02 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법

Publications (2)

Publication Number Publication Date
KR20190060630A true KR20190060630A (ko) 2019-06-03
KR102133728B1 KR102133728B1 (ko) 2020-07-21

Family

ID=66849428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180000136A KR102133728B1 (ko) 2017-11-24 2018-01-02 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체

Country Status (3)

Country Link
EP (1) EP3716159A4 (ko)
KR (1) KR102133728B1 (ko)
CN (1) CN111386531A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556129A (zh) * 2019-09-09 2019-12-10 北京大学深圳研究生院 双模态情感识别模型训练方法及双模态情感识别方法
CN110751016A (zh) * 2019-09-02 2020-02-04 合肥工业大学 用于情绪状态监测的面部运动单元双流特征提取方法
CN111523574A (zh) * 2020-04-13 2020-08-11 云南大学 一种基于多模态数据的图像情感识别方法及系统
CN111861275A (zh) * 2020-08-03 2020-10-30 河北冀联人力资源服务集团有限公司 家政工作模式的识别方法和装置
KR20220063816A (ko) * 2020-11-09 2022-05-18 주식회사 스피랩 멀티모달 감성 분석 시스템 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927688B (zh) * 2021-01-25 2022-05-10 思必驰科技股份有限公司 用于车辆的语音交互方法及系统
CN113421546B (zh) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 基于跨被试多模态的语音合成方法及相关设备
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113707185B (zh) * 2021-09-17 2023-09-12 卓尔智联(武汉)研究院有限公司 一种情绪识别方法、装置和电子设备
CN117219058B (zh) * 2023-11-09 2024-02-06 广州云趣信息科技有限公司 一种提高语音识别准确率的方法、系统和介质
CN117519488B (zh) * 2024-01-05 2024-03-29 四川中电启明星信息技术有限公司 一种对话机器人的对话方法及其对话系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030046444A (ko) * 2000-09-13 2003-06-12 가부시키가이샤 에이.지.아이 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어
JP2015075908A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 感情情報表示制御装置、その方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7388971B2 (en) * 2003-10-23 2008-06-17 Northrop Grumman Corporation Robust and low cost optical system for sensing stress, emotion and deception in human subjects
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US20140212854A1 (en) * 2013-01-31 2014-07-31 Sri International Multi-modal modeling of temporal interaction sequences
DE112014007265T5 (de) * 2014-12-18 2017-09-07 Mitsubishi Electric Corporation Spracherkennungseinrichtung und Spracherkennungsverfahren
CN105160299B (zh) * 2015-07-31 2018-10-09 华南理工大学 基于贝叶斯融合稀疏表示分类器的人脸情感识别方法
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030046444A (ko) * 2000-09-13 2003-06-12 가부시키가이샤 에이.지.아이 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어
JP2015075908A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 感情情報表示制御装置、その方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hiranmayi Ranganathan 외 2명. Multimodal Emotion Recognition using Deep Learning Architectures. 2016년 3월 *
Wei Liu 외 2명. Emotion Recognition Using Multimodal Deep Learning. 2016년 10월 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751016A (zh) * 2019-09-02 2020-02-04 合肥工业大学 用于情绪状态监测的面部运动单元双流特征提取方法
CN110751016B (zh) * 2019-09-02 2023-04-11 合肥工业大学 用于情绪状态监测的面部运动单元双流特征提取方法
CN110556129A (zh) * 2019-09-09 2019-12-10 北京大学深圳研究生院 双模态情感识别模型训练方法及双模态情感识别方法
CN111523574A (zh) * 2020-04-13 2020-08-11 云南大学 一种基于多模态数据的图像情感识别方法及系统
CN111861275A (zh) * 2020-08-03 2020-10-30 河北冀联人力资源服务集团有限公司 家政工作模式的识别方法和装置
CN111861275B (zh) * 2020-08-03 2024-04-02 河北冀联人力资源服务集团有限公司 家政工作模式的识别方法和装置
KR20220063816A (ko) * 2020-11-09 2022-05-18 주식회사 스피랩 멀티모달 감성 분석 시스템 및 방법

Also Published As

Publication number Publication date
KR102133728B1 (ko) 2020-07-21
CN111386531A (zh) 2020-07-07
EP3716159A1 (en) 2020-09-30
EP3716159A4 (en) 2021-08-11

Similar Documents

Publication Publication Date Title
KR20190060630A (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
US10740598B2 (en) Multi-modal emotion recognition device, method, and storage medium using artificial intelligence
KR102290186B1 (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
US11386900B2 (en) Visual speech recognition by phoneme prediction
Kessous et al. Multimodal emotion recognition in speech-based interaction using facial expression, body gesture and acoustic analysis
KR102570279B1 (ko) 감정 인식을 위한 학습 방법, 감정을 인식하는 방법 및 장치
US7340100B2 (en) Posture recognition apparatus and autonomous robot
CN108537702A (zh) 外语教学评价信息生成方法以及装置
US20100277579A1 (en) Apparatus and method for detecting voice based on motion information
CN109508687A (zh) 人机交互控制方法、装置、存储介质和智能设备
KR20100086262A (ko) 로봇 및 그 제어방법
JP2010128015A (ja) 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
Cid et al. A novel multimodal emotion recognition approach for affective human robot interaction
Ponce-López et al. Multi-modal social signal analysis for predicting agreement in conversation settings
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
JP2010197998A (ja) 音声信号処理システムおよび該システムを備えた自律ロボット
TW202125441A (zh) 安全警示語音提示方法
KR20200014461A (ko) 콘볼루션 신경망을 이용한 걸음걸이 기반 신원 인식 장치 및 방법
Kardaris et al. A platform for building new human-computer interface systems that support online automatic recognition of audio-gestural commands
JP2012203439A (ja) 情報処理装置および情報処理方法、記録媒体、並びにプログラム
Zhong et al. A safer vision-based autonomous planning system for quadrotor uavs with dynamic obstacle trajectory prediction and its application with llms
Verma et al. Dynamic hand gesture recognition using convolutional neural network with RGB-D fusion
Ouellet et al. Multimodal biometric identification system for mobile robots combining human metrology to face recognition and speaker identification
KR200473405Y1 (ko) 표정 인식 기술이 적용된 인텔리전트 완구 시스템
Khan et al. Pause detection in continuous sign language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant