KR102480722B1 - 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법 - Google Patents

엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR102480722B1
KR102480722B1 KR1020210180766A KR20210180766A KR102480722B1 KR 102480722 B1 KR102480722 B1 KR 102480722B1 KR 1020210180766 A KR1020210180766 A KR 1020210180766A KR 20210180766 A KR20210180766 A KR 20210180766A KR 102480722 B1 KR102480722 B1 KR 102480722B1
Authority
KR
South Korea
Prior art keywords
emotion
voice
user
unit
control unit
Prior art date
Application number
KR1020210180766A
Other languages
English (en)
Other versions
KR102480722B9 (ko
Inventor
헤나르
아딥
이제이
안젤라
임완수
김상호
황한정
정진우
정유철
Original Assignee
금오공과대학교 산학협력단
고려대학교 세종산학협력단
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 금오공과대학교 산학협력단, 고려대학교 세종산학협력단, 서울과학기술대학교 산학협력단 filed Critical 금오공과대학교 산학협력단
Priority to KR1020210180766A priority Critical patent/KR102480722B1/ko
Priority to PCT/KR2022/020288 priority patent/WO2023113448A1/ko
Application granted granted Critical
Publication of KR102480722B1 publication Critical patent/KR102480722B1/ko
Publication of KR102480722B9 publication Critical patent/KR102480722B9/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

본 발명은 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법이 개시된다. 본 발명의 엣지 컴퓨터 환경에서의 감성 인식 장치는, 사용자의 음성을 입력받는 음성감지부; 사용자의 얼굴을 촬영하는 영상촬영부; 사용자의 뇌파를 측정하는 뇌파측정부; 감성 학습정보를 저장하는 감성 데이터베이스; 사용자가 발화하는 동안 음성감지부, 영상촬영부 및 뇌파측정부로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 제어부; 및 제어부에서 인식된 감성을 출력하는 출력부;를 포함하는 것을 특징으로 한다.

Description

엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING EMOTION AWARE IN EDGE COMPUTER ENVIRONMENT AND METHOD THEREOF}
본 발명은 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식하는 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법에 관한 것이다.
컴퓨터는 인간의 일상생활에 중요한 일부분이 되었을 뿐 아니라, 다양한 형태로 편리성을 제공하고 있다. 앞으로도 컴퓨터와 인간과의 밀접성 및 상호작용은 계속해서 증가할 것으로 예상된다. 인간과 컴퓨터 간의 자연스러운 상호 작용을 위해서 컴퓨터는 사용자의 의도를 종합적으로 판단하고 그에 맞는 반응을 해야 한다.
감정은 인간의 마음 상태를 표출하는 가장 중요한 요소로 사용자의 만족을 극대화하기 위해서는 사용자의 감성 인식이 중요하다.
감성인식은 이전에는 해결하기 어려운 분야였다. 하지만, 지금은 인공신경망 문제가 해결되었고, 하드웨어 발전으로 인하여 이전에 이론적으로만 다루었던 방법론을 실현할 수 있게 되었다. 또한, ImageNet의 출현으로 딥 러닝에 필요한 양질의 데이터를 쉽게 구할 수 있게 되었고, 자연영상 처리에 대한 연구가 더 활발하게 진행되었다.
감성인식 분야에서 쓰이는 합성 곱 신경망(Convolutional neural network)은 본래 영상처리를 위해 개발되었다. CNN은 2가지 장점 때문에 이미지처리 분야에서 널리 쓰이고 있다. 즉 CNN은 전체 이미지를 전부 인식할 필요가 없고 부분만 인식하면 된다는 점과 동일한 특징이 들어오면 커널의 가중치를 그대로 유지하는 점이 이미지 프로세싱을 보다 효율적으로 만들어준다.
이러한 딥 러닝 기술은 사용자의 음성을 이용한 감성 인식을 위해 사용되고 있다. 감성 인식을 위한 훈련 데이터는 사용하고자 하는 딥 러닝 기술에 따라 여러 가지 방법으로 가공이 가능하기 때문에, 추론 모델도 다양하게 도출될 수 있다.
이와 같이 감성 인식 기술은 개인화 서비스의 정확도를 향상시키고 사용자 친화적인 디바이스를 위해 중요한 기술이다. 현재 감성 인식 기술은 표정, 음성, 자세, 생체신호 등을 대상으로 하여 연구되고 있다.
본 발명의 배경기술은 대한민국 등록특허공보 제10-2305613호(2021.09.27. 공고, 감정 인식 방법 및 장치)에 개시되어 있다.
이와 같이 감성인식 기술에 의한 방법 중 음성 분석 기반 기술은 사용자가 중립적인 억양으로 감정적인 문장을 말하는 경우에 대해서는 인지가 어렵고, 동일한 문장이라 개인차로 인하여 감성 분석 결과가 서로 다르게 도출되는 등 감성 분석 결과의 정확성이 떨어지는 문제점이 있다.
또한 영상 처리 기반 기술은 얼굴 근육의 다양한 변화를 감지해야 하기 때문에 표정 변화가 많지 않은 경우에는 한계가 있을 수 있다.
이와 같이 인간의 모든 감정은 얼굴의 표정과 목소리로 표현될 수 없기 때문에 인간의 감정을 보다 정확하게 인식하기 위해 뇌파신호와 같은 생체신호를 포함하여 종합적인 평가를 통해 인식할 필요성이 있다.
본 발명은 상기와 같은 필요성에 따라 안출된 것으로, 일 측면에 따른 본 발명의 목적은 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식하는 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법을 제공하는 것이다.
본 발명의 일 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치는, 사용자의 음성을 입력받는 음성감지부; 사용자의 얼굴을 촬영하는 영상촬영부; 사용자의 뇌파를 측정하는 뇌파측정부; 감성 학습정보를 저장하는 감성 데이터베이스; 사용자가 발화하는 동안 음성감지부, 영상촬영부 및 뇌파측정부로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 제어부; 및 제어부에서 인식된 감성을 출력하는 출력부;를 포함하는 것을 특징으로 한다.
본 발명은 음성을 출력하는 스피커; 및 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스;를 더 포함하고, 제어부는 사용자의 발화를 인식하여 발화에 대응하는 응답문에 대해 인식된 감성을 적용하여 스피커를 통해 출력하는 것을 특징으로 한다.
본 발명에서 제어부는, 음성, 촬영영상 및 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 각각 추출하는 전처리부; 전처리부에서 추출된 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하는 데이터 융합부; 및 데이터 융합부에서 융합된 융합신호로부터 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 감성인식부;를 포함하는 것을 특징으로 한다.
본 발명에서, 전처리부는, 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 특징음성을 추출하는 음성 전처리부; 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 얼굴 랜드마크를 추출하는 영상 전처리부; 및 뇌파측정부에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출하는 뇌파 전처리부;를 포함하는 것을 특징으로 한다.
본 발명에서 제어부는 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하는 것을 특징으로 한다.
본 발명에서 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 한다.
본 발명의 다른 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 방법은, 제어부가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 입력받는 단계; 제어부가 입력된 음성, 촬영영상 및 뇌파를 전처리하여 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출하는 단계; 제어부가 특징음성, 얼굴 랜드마크 및 특징뇌파를 데이터 융합하는 단계; 제어부가 융합된 데이터를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 단계; 및 제어부가 인식된 감성을 출력하는 단계;를 포함하는 것을 특징으로 한다.
본 발명은 제어부가 사용자의 발화에 대응하여 인식된 감성을 적용하여 응답문을 출력하는 단계;를 더 포함하는 것을 특징으로 한다.
본 발명에서 전처리하는 단계는, 제어부가 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 특징음성을 추출하는 단계; 제어부가 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 얼굴 랜드마크를 추출하는 단계; 및 제어부가 뇌파측정부에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에서 사용자의 감성을 인식하는 단계는, 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하는 것을 특징으로 한다.
본 발명에서 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법은 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 전처리부를 보다 구체적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 음성을 전처리하여 추출한 특징음성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 촬영영상을 전처리하여 추출한 얼굴 랜드마크를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파신호의 특정 주파수대별 신호를 나타낸 그래프이다.
도 6은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파를 전처리하여 하나의 신호로 병합한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경경에서의 감성 인식 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 전처리부를 보다 구체적으로 나타낸 블록 구성도이며, 도 3은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 음성을 전처리하여 추출한 특징음성을 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 촬영영상을 전처리하여 추출한 얼굴 랜드마크를 나타낸 도면이며, 도 5는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파신호의 특정 주파수대별 신호를 나타낸 그래프이고, 도 6은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파를 전처리하여 하나의 신호로 병합한 그래프이다.
도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치는, 음성감지부(10), 영상촬영부(20), 놔파측정부(30), 감성 데이터베이스(60), 제어부(40) 및 출력부(50)를 비롯하여 스피커(80)와 질문 데이터베이스(70)를 포함할 수 있다.
여기서 엣지 컴퓨팅 환경은 물리적으로 가까운 게이트웨이나 컴퓨팅 장치 등에서 연산 과정을 거치고 실시간으로 빠른 응답을 해주는 환경일 수 있다.
음성감지부(10)는 사용자의 음성을 입력받아 샘플링하여 제어부(40)에 제공할 수 있다.
여기서 사용자의 음성은 제어부(40)에서 질문 데이터베이스(70)에 저장된 질문이나 명령을 발화하도록 유도할 수 있다.
예를 들어, "내일 날씨는?"이나 "음악을 재생할 수 있습니까?" 등의 질문이 명령을 발화하는 음성을 샘플링하여 제공할 수 있다.
영상촬영부(20)는 사용자가 발화하는 동안 사용자의 얼굴을 촬영하여 제어부(40)에 제공할 수 있다.
뇌파측정부(30)는 사용자가 발화하는 동안 openBCI(Brain Computer Interface) 를 통해 각 채널로부터 측정되는 사용자의 뇌파를 제어부(40)에 제공할 수 있다.
감성 데이터베이스(60)는 융합 데이터를 기반으로 감성을 인식하기 위한 감성 학습정보를 저장할 수 있다.
제어부(40)는 사용자가 발화하는 동안 음성감지부(10), 영상촬영부(20) 및 뇌파측정부(30)로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크, 특징뇌파를 융합하여 감성 데이터베이스(60)에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식할 수 있다.
예를 들어, 제어부(40)는 엣지 컴퓨터 환경으로 NVIDIA Jetson 보드에서 구현될 수 있다.
이때 제어부(40)는 전처리부(410), 데이터 융합부(420) 및 감성인식부(430)를 포함할 수 있다.
또한, 전처리부(410)는 음성, 촬영영상 및 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 특징음성, 얼굴 랜드마크, 특징뇌파를 각각 추출할 수 있다.
여기서 전처리부(410)는 도 2에 도시된 바와 같이 음성 전처리부(412), 영상 전처리부(414) 및 뇌파 전처리부(416)를 포함할 수 있다.
음성 전처리부(412)는 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망(DNN)으로 병합하여 도 3과 같이 특징음성을 추출할 수 있다.
영상 전처리부(414)는 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 도 4와 같이 얼굴 랜드마크를 추출할 수 있다.
뇌파 전처리부(416)는 뇌파측정부(30)에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출할 수 있다.
여기서 뇌파측정부(30)는 제어부(40)와 블루투스 통신으로 무선 접속될 수도 있다.
이때 뇌파신호는 도 5에 도시된 바와 같이 델타(Delta) 0.5??4Hz, 세타(Theta) 4??8Hz, 알파(Alpha) 8??12Hz, 베타(Beta) 12??30Hz 및 감마(Gamma) 30??100Hz와 같은 특정 주파수대역별로 분류하고 각각 평균과 표준편차를 산출하여 각 주파수대역의 전력밀도의 편차를 파악할 수 있도록 한다.
또한, 뇌파 전처리부(416)는 도 6과 같이 뇌파신호를 분석할 때 임계값을 식별하는 문제를 피하기 위해 하나의 신호에 병합할 수 있다.
데이터 융합부(420)는 전처리부(410)에서 추출된 특징음성, 얼굴 랜드마크, 특징뇌파를 융합하여 목소리, 표정 및 뇌파를 통해 감성을 인식할 수 있도록 한다.
감성인식부(430)는 데이터 융합부(420)에서 융합된 융합신호로부터 감성 데이터베이스(60)에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자 감성을 인식할 수 있다.
여기서 제어부(40)는 사용자의 감성에 대해 인식할 수 있는 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 감성에 대한 각각의 비율로 인식할 수 있다. 이때 각 비율의 합은 100%이다.
출력부(50)는 제어부(40)에서 인식된 감성을 출력하여 주변 장치 등에서 인식된 감성을 기초로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용하도록 할 수 있다.
또한, 본 실시예에서는 음성을 출력하는 스피커(80)와, 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스(70)를 더 포함할 수 있다.
따라서 제어부(40)는 사용자의 발화를 인식하여 발화에 대응하는 응답문에 대해 인식된 감성을 적용하여 스피커(80)를 통해 출력할 수 있다.
즉, 사용자가의 질문이나 명령할 때 사용자의 음성, 얼굴 및 뇌파를 감지하여 사용자가 슬픈지, 행복한지, 불안한지 등 사용자의 감성을 인식한 후 사용자의 감성에 따라 응답 어조를 다르게 대응할 수 있다.
예를 들어, 사용자가 슬프면 음성 출력 응답은 응답 및 톤 측면에서 긍정적인 느낌을 보내 기분을 기쁘게 할 수도 있고, 슬픈 감성에 맞추어 슬픈 음악 등을 선곡해서 들려줄 수도 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 엣지 컴퓨터 환경에서의 감성 인식 장치에 따르면, 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.
도 7은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경경에서의 감성 인식 방법을 설명하기 위한 흐름도이다.
도 7에 도시된 바와 같이 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 방법에서는 먼저, 제어부(40)가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 음성감지부(10), 영상촬영부(20) 및 뇌파측정부(30)로부터 각각 입력받는다(S10).
S10 단계에서 음성, 촬영영상 및 뇌파를 입력받은 후 제어부(40)는 각각 음성, 촬영영상 및 뇌파를 전처리하여 특징을 포함하는 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출한다(S20).
여기서 제어부(40)는 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망(DNN)으로 병합하여 도 3과 같이 특징음성을 추출할 수 있다.
또한, 제어부(40)는 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 도 4와 같이 얼굴 랜드마크를 추출할 수 있다.
그리고, 제어부(40)는 뇌파측정부(30)에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출할 수 있다.
S20 단계에서 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출한 후 제어부(40)는 이를 융합하여 목소리, 표정 및 뇌파를 통해 감성을 인식할 수 있도록 한다(S30).
S30 단계에서 융합된 융합신호로부터 제어부(40)는 감성 데이터베이스(60)의 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식한다(S40).
여기서 제어부(40)는 사용자의 감성에 대해 인식할 수 있는 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 감성에 대한 각각의 비율로 인식할 수 있다. 이때 각 비율의 합은 100%이다.
S40 단계에서 감성을 인식한 후 제어부(40)는 인식된 감성을 출력하여 주변 장치 등에서 인식된 감성을 기초로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용하도록 할 수 있다.
한편, 제어부(40)는 사용자의 발화에 대응하여 인식된 감성을 적용하여 응답문을 출력할 수 있다.
즉, 사용자가의 질문이나 명령할 때 사용자의 음성, 얼굴 및 뇌파를 감지하여 사용자가 슬픈지, 행복한지, 불안한지 등 사용자의 감성을 인식한 후 사용자의 감성에 따라 응답 어조를 다르게 대응할 수 있다.
예를 들어, 사용자가 슬프면 음성 출력 응답은 응답 및 톤 측면에서 긍정적인 느낌을 보내 기분을 기쁘게 할 수도 있고, 슬픈 감성에 맞추어 슬픈 음악 등을 선곡해서 들려줄 수도 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 엣지 컴퓨터 환경에서의 감성 인식 방법에 따르면, 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.
본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.
10 : 음성감지부 20 : 영상촬영부
30 : 뇌파측정부 40 : 제어부
50 : 출력부 60 : 감성 데이터베이스
70 : 질문 데이터베이스 80 : 스피커
410 : 전처리부 412 : 음성 전처리부
414 : 영상 전처리부 416 : 뇌파 전처리부
420 : 데이터 융합부 430 : 감성인식부

Claims (11)

  1. 사용자의 음성을 입력받는 음성감지부;
    상기 사용자의 얼굴을 촬영하는 영상촬영부;
    상기 사용자의 뇌파를 측정하는 뇌파측정부;
    감성 학습정보를 저장하는 감성 데이터베이스;
    상기 사용자가 발화하는 동안 상기 음성감지부, 상기 영상촬영부 및 상기 뇌파측정부로부터 입력되는 상기 음성, 촬영영상 및 상기 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 상기 감성 데이터베이스에 저장한 상기 감성 학습정보를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 제어부; 및
    상기 제어부에서 인식된 상기 감성을 출력하는 출력부;를 포함하되,
    음성을 출력하는 스피커; 및 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스;를 더 포함하고,
    상기 제어부는 상기 사용자의 발화를 인식하여 발화에 대응하는 상기 응답문에 대해 인식된 상기 감성을 적용하여 상기 스피커를 통해 출력하며,
    상기 제어부는,
    상기 음성, 상기 촬영영상 및 상기 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 각각 추출하는 전처리부;
    상기 전처리부에서 추출된 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 융합하는 데이터 융합부; 및
    상기 데이터 융합부에서 융합된 융합신호로부터 상기 감성 데이터베이스에 저장한 상기 감성 학습정보를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 감성인식부;를 포함하고,
    상기 전처리부는, 상기 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 상기 특징음성을 추출하는 음성 전처리부;
    상기 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 상기 얼굴 랜드마크를 추출하는 영상 전처리부; 및
    상기 뇌파측정부에서 측정된 각 채널에서의 상기 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 상기 특징뇌파를 추출하는 뇌파 전처리부;를 포함하며,
    상기 제어부는 상기 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하고, 각 비율의 합은 100%인 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1항에 있어서, 상기 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 장치.
  7. 제어부가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 입력받는 단계;
    상기 제어부가 입력된 상기 음성, 상기 촬영영상 및 상기 뇌파를 전처리하여 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출하는 단계;
    상기 제어부가 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 데이터 융합하는 단계;
    상기 제어부가 상기 융합된 데이터를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 단계; 및
    상기 제어부가 인식된 상기 감성을 출력하는 단계;를 포함하되,
    상기 제어부가 상기 사용자의 발화에 대응하여 인식된 상기 감성을 적용하여 응답문을 출력하는 단계;를 더 포함하고,
    상기 전처리하는 단계는,
    상기 제어부가 상기 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 상기 특징음성을 추출하는 단계;
    상기 제어부가 상기 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 상기 얼굴 랜드마크를 추출하는 단계; 및
    상기 제어부가 뇌파측정부에서 측정된 각 채널에서의 상기 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 상기 특징뇌파를 추출하는 단계;를 포함하며,
    상기 사용자의 감성을 인식하는 단계는, 상기 사용자의 상기 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하고, 각 비율의 합은 100%인 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제 7항에 있어서, 상기 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 방법.
KR1020210180766A 2021-12-16 2021-12-16 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법 KR102480722B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210180766A KR102480722B1 (ko) 2021-12-16 2021-12-16 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법
PCT/KR2022/020288 WO2023113448A1 (ko) 2021-12-16 2022-12-14 엣지 컴퓨터 환경에서의 감정 인식 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210180766A KR102480722B1 (ko) 2021-12-16 2021-12-16 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR102480722B1 true KR102480722B1 (ko) 2022-12-26
KR102480722B9 KR102480722B9 (ko) 2023-05-11

Family

ID=84547806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210180766A KR102480722B1 (ko) 2021-12-16 2021-12-16 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR102480722B1 (ko)
WO (1) WO2023113448A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036680A (ko) * 2018-09-28 2020-04-07 삼성전자주식회사 감정 정보 획득을 위한 전자 장치 및 방법
KR20200141672A (ko) * 2019-06-11 2020-12-21 주식회사 룩시드랩스 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7205528B2 (ja) * 2020-11-17 2023-01-17 沖電気工業株式会社 感情推定システム
KR102277820B1 (ko) * 2021-01-29 2021-07-16 전다정 반응정보 및 감정정보를 이용한 심리 상담 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036680A (ko) * 2018-09-28 2020-04-07 삼성전자주식회사 감정 정보 획득을 위한 전자 장치 및 방법
KR20200141672A (ko) * 2019-06-11 2020-12-21 주식회사 룩시드랩스 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스

Also Published As

Publication number Publication date
KR102480722B9 (ko) 2023-05-11
WO2023113448A1 (ko) 2023-06-22

Similar Documents

Publication Publication Date Title
US10621991B2 (en) Joint neural network for speaker recognition
Yeh et al. An interaction-aware attention network for speech emotion recognition in spoken dialogs
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
Metallinou et al. Decision level combination of multiple modalities for recognition and analysis of emotional expression
JP6617053B2 (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN111311327A (zh) 基于人工智能的服务评价方法、装置、设备及存储介质
Li et al. Improving Mispronunciation Detection for Non-Native Learners with Multisource Information and LSTM-Based Deep Models.
Ilyas et al. AVFakeNet: A unified end-to-end Dense Swin Transformer deep learning model for audio–visual​ deepfakes detection
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
Cid et al. A novel multimodal emotion recognition approach for affective human robot interaction
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
Veni et al. Feature fusion in multimodal emotion recognition system for enhancement of human-machine interaction
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN113837594A (zh) 多场景下客服的质量评价方法、系统、设备及介质
KR102480722B1 (ko) 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법
CN112329748B (zh) 面向交互场景的自动谎言检测方法、装置、设备及介质
Shrivastava et al. Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis
CN115101090A (zh) 语音内容检测方法、模型训练方法及相关装置
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
KR20210099492A (ko) 상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
Pragati et al. Evaluation of Customer Care Executives Using Speech Emotion Recognition
Cano Montes et al. Audio-visual emotion recognition system for variable length spatio-temporal samples using deep transfer-learning

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]