KR102480722B1

KR102480722B1 - 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법

Info

Publication number: KR102480722B1
Application number: KR1020210180766A
Authority: KR
Inventors: 헤나르; 아딥; 이제이; 안젤라; 임완수; 김상호; 황한정; 정진우; 정유철
Original assignee: 금오공과대학교 산학협력단; 고려대학교 세종산학협력단; 서울과학기술대학교 산학협력단
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-12-26
Also published as: KR102480722B9; WO2023113448A1

Abstract

본 발명은 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법이 개시된다. 본 발명의 엣지 컴퓨터 환경에서의 감성 인식 장치는, 사용자의 음성을 입력받는 음성감지부; 사용자의 얼굴을 촬영하는 영상촬영부; 사용자의 뇌파를 측정하는 뇌파측정부; 감성 학습정보를 저장하는 감성 데이터베이스; 사용자가 발화하는 동안 음성감지부, 영상촬영부 및 뇌파측정부로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 제어부; 및 제어부에서 인식된 감성을 출력하는 출력부;를 포함하는 것을 특징으로 한다.

Description

엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING EMOTION AWARE IN EDGE COMPUTER ENVIRONMENT AND METHOD THEREOF}

본 발명은 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식하는 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법에 관한 것이다.

컴퓨터는 인간의 일상생활에 중요한 일부분이 되었을 뿐 아니라, 다양한 형태로 편리성을 제공하고 있다. 앞으로도 컴퓨터와 인간과의 밀접성 및 상호작용은 계속해서 증가할 것으로 예상된다. 인간과 컴퓨터 간의 자연스러운 상호 작용을 위해서 컴퓨터는 사용자의 의도를 종합적으로 판단하고 그에 맞는 반응을 해야 한다.

감정은 인간의 마음 상태를 표출하는 가장 중요한 요소로 사용자의 만족을 극대화하기 위해서는 사용자의 감성 인식이 중요하다.

감성인식은 이전에는 해결하기 어려운 분야였다. 하지만, 지금은 인공신경망 문제가 해결되었고, 하드웨어 발전으로 인하여 이전에 이론적으로만 다루었던 방법론을 실현할 수 있게 되었다. 또한, ImageNet의 출현으로 딥 러닝에 필요한 양질의 데이터를 쉽게 구할 수 있게 되었고, 자연영상 처리에 대한 연구가 더 활발하게 진행되었다.

감성인식 분야에서 쓰이는 합성 곱 신경망(Convolutional neural network)은 본래 영상처리를 위해 개발되었다. CNN은 2가지 장점 때문에 이미지처리 분야에서 널리 쓰이고 있다. 즉 CNN은 전체 이미지를 전부 인식할 필요가 없고 부분만 인식하면 된다는 점과 동일한 특징이 들어오면 커널의 가중치를 그대로 유지하는 점이 이미지 프로세싱을 보다 효율적으로 만들어준다.

이러한 딥 러닝 기술은 사용자의 음성을 이용한 감성 인식을 위해 사용되고 있다. 감성 인식을 위한 훈련 데이터는 사용하고자 하는 딥 러닝 기술에 따라 여러 가지 방법으로 가공이 가능하기 때문에, 추론 모델도 다양하게 도출될 수 있다.

이와 같이 감성 인식 기술은 개인화 서비스의 정확도를 향상시키고 사용자 친화적인 디바이스를 위해 중요한 기술이다. 현재 감성 인식 기술은 표정, 음성, 자세, 생체신호 등을 대상으로 하여 연구되고 있다.

본 발명의 배경기술은 대한민국 등록특허공보 제10-2305613호(2021.09.27. 공고, 감정 인식 방법 및 장치)에 개시되어 있다.

이와 같이 감성인식 기술에 의한 방법 중 음성 분석 기반 기술은 사용자가 중립적인 억양으로 감정적인 문장을 말하는 경우에 대해서는 인지가 어렵고, 동일한 문장이라 개인차로 인하여 감성 분석 결과가 서로 다르게 도출되는 등 감성 분석 결과의 정확성이 떨어지는 문제점이 있다.

또한 영상 처리 기반 기술은 얼굴 근육의 다양한 변화를 감지해야 하기 때문에 표정 변화가 많지 않은 경우에는 한계가 있을 수 있다.

이와 같이 인간의 모든 감정은 얼굴의 표정과 목소리로 표현될 수 없기 때문에 인간의 감정을 보다 정확하게 인식하기 위해 뇌파신호와 같은 생체신호를 포함하여 종합적인 평가를 통해 인식할 필요성이 있다.

본 발명은 상기와 같은 필요성에 따라 안출된 것으로, 일 측면에 따른 본 발명의 목적은 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식하는 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법을 제공하는 것이다.

본 발명의 일 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치는, 사용자의 음성을 입력받는 음성감지부; 사용자의 얼굴을 촬영하는 영상촬영부; 사용자의 뇌파를 측정하는 뇌파측정부; 감성 학습정보를 저장하는 감성 데이터베이스; 사용자가 발화하는 동안 음성감지부, 영상촬영부 및 뇌파측정부로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 제어부; 및 제어부에서 인식된 감성을 출력하는 출력부;를 포함하는 것을 특징으로 한다.

본 발명은 음성을 출력하는 스피커; 및 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스;를 더 포함하고, 제어부는 사용자의 발화를 인식하여 발화에 대응하는 응답문에 대해 인식된 감성을 적용하여 스피커를 통해 출력하는 것을 특징으로 한다.

본 발명에서 제어부는, 음성, 촬영영상 및 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 각각 추출하는 전처리부; 전처리부에서 추출된 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하는 데이터 융합부; 및 데이터 융합부에서 융합된 융합신호로부터 감성 데이터베이스에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 감성인식부;를 포함하는 것을 특징으로 한다.

본 발명에서, 전처리부는, 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 특징음성을 추출하는 음성 전처리부; 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 얼굴 랜드마크를 추출하는 영상 전처리부; 및 뇌파측정부에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출하는 뇌파 전처리부;를 포함하는 것을 특징으로 한다.

본 발명에서 제어부는 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하는 것을 특징으로 한다.

본 발명에서 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 한다.

본 발명의 다른 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 방법은, 제어부가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 입력받는 단계; 제어부가 입력된 음성, 촬영영상 및 뇌파를 전처리하여 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출하는 단계; 제어부가 특징음성, 얼굴 랜드마크 및 특징뇌파를 데이터 융합하는 단계; 제어부가 융합된 데이터를 기반으로 딥러닝을 통해 사용자의 감성을 인식하는 단계; 및 제어부가 인식된 감성을 출력하는 단계;를 포함하는 것을 특징으로 한다.

본 발명은 제어부가 사용자의 발화에 대응하여 인식된 감성을 적용하여 응답문을 출력하는 단계;를 더 포함하는 것을 특징으로 한다.

본 발명에서 전처리하는 단계는, 제어부가 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 특징음성을 추출하는 단계; 제어부가 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 얼굴 랜드마크를 추출하는 단계; 및 제어부가 뇌파측정부에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출하는 단계;를 포함하는 것을 특징으로 한다.

본 발명에서 사용자의 감성을 인식하는 단계는, 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하는 것을 특징으로 한다.

본 발명의 일 측면에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법은 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 전처리부를 보다 구체적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 음성을 전처리하여 추출한 특징음성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 촬영영상을 전처리하여 추출한 얼굴 랜드마크를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파신호의 특정 주파수대별 신호를 나타낸 그래프이다.
도 6은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파를 전처리하여 하나의 신호로 병합한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경경에서의 감성 인식 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 전처리부를 보다 구체적으로 나타낸 블록 구성도이며, 도 3은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 음성을 전처리하여 추출한 특징음성을 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 촬영영상을 전처리하여 추출한 얼굴 랜드마크를 나타낸 도면이며, 도 5는 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파신호의 특정 주파수대별 신호를 나타낸 그래프이고, 도 6은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치에서 뇌파를 전처리하여 하나의 신호로 병합한 그래프이다.

도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 장치는, 음성감지부(10), 영상촬영부(20), 놔파측정부(30), 감성 데이터베이스(60), 제어부(40) 및 출력부(50)를 비롯하여 스피커(80)와 질문 데이터베이스(70)를 포함할 수 있다.

여기서 엣지 컴퓨팅 환경은 물리적으로 가까운 게이트웨이나 컴퓨팅 장치 등에서 연산 과정을 거치고 실시간으로 빠른 응답을 해주는 환경일 수 있다.

음성감지부(10)는 사용자의 음성을 입력받아 샘플링하여 제어부(40)에 제공할 수 있다.

여기서 사용자의 음성은 제어부(40)에서 질문 데이터베이스(70)에 저장된 질문이나 명령을 발화하도록 유도할 수 있다.

예를 들어, "내일 날씨는?"이나 "음악을 재생할 수 있습니까?" 등의 질문이 명령을 발화하는 음성을 샘플링하여 제공할 수 있다.

영상촬영부(20)는 사용자가 발화하는 동안 사용자의 얼굴을 촬영하여 제어부(40)에 제공할 수 있다.

뇌파측정부(30)는 사용자가 발화하는 동안 openBCI(Brain Computer Interface) 를 통해 각 채널로부터 측정되는 사용자의 뇌파를 제어부(40)에 제공할 수 있다.

감성 데이터베이스(60)는 융합 데이터를 기반으로 감성을 인식하기 위한 감성 학습정보를 저장할 수 있다.

제어부(40)는 사용자가 발화하는 동안 음성감지부(10), 영상촬영부(20) 및 뇌파측정부(30)로부터 입력되는 음성, 촬영영상 및 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크, 특징뇌파를 융합하여 감성 데이터베이스(60)에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식할 수 있다.

예를 들어, 제어부(40)는 엣지 컴퓨터 환경으로 NVIDIA Jetson 보드에서 구현될 수 있다.

이때 제어부(40)는 전처리부(410), 데이터 융합부(420) 및 감성인식부(430)를 포함할 수 있다.

또한, 전처리부(410)는 음성, 촬영영상 및 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 특징음성, 얼굴 랜드마크, 특징뇌파를 각각 추출할 수 있다.

여기서 전처리부(410)는 도 2에 도시된 바와 같이 음성 전처리부(412), 영상 전처리부(414) 및 뇌파 전처리부(416)를 포함할 수 있다.

음성 전처리부(412)는 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망(DNN)으로 병합하여 도 3과 같이 특징음성을 추출할 수 있다.

영상 전처리부(414)는 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 도 4와 같이 얼굴 랜드마크를 추출할 수 있다.

뇌파 전처리부(416)는 뇌파측정부(30)에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출할 수 있다.

여기서 뇌파측정부(30)는 제어부(40)와 블루투스 통신으로 무선 접속될 수도 있다.

이때 뇌파신호는 도 5에 도시된 바와 같이 델타(Delta) 0.5??4Hz, 세타(Theta) 4??8Hz, 알파(Alpha) 8??12Hz, 베타(Beta) 12??30Hz 및 감마(Gamma) 30??100Hz와 같은 특정 주파수대역별로 분류하고 각각 평균과 표준편차를 산출하여 각 주파수대역의 전력밀도의 편차를 파악할 수 있도록 한다.

또한, 뇌파 전처리부(416)는 도 6과 같이 뇌파신호를 분석할 때 임계값을 식별하는 문제를 피하기 위해 하나의 신호에 병합할 수 있다.

데이터 융합부(420)는 전처리부(410)에서 추출된 특징음성, 얼굴 랜드마크, 특징뇌파를 융합하여 목소리, 표정 및 뇌파를 통해 감성을 인식할 수 있도록 한다.

감성인식부(430)는 데이터 융합부(420)에서 융합된 융합신호로부터 감성 데이터베이스(60)에 저장한 감성 학습정보를 기반으로 딥러닝을 통해 사용자 감성을 인식할 수 있다.

여기서 제어부(40)는 사용자의 감성에 대해 인식할 수 있는 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 감성에 대한 각각의 비율로 인식할 수 있다. 이때 각 비율의 합은 100%이다.

출력부(50)는 제어부(40)에서 인식된 감성을 출력하여 주변 장치 등에서 인식된 감성을 기초로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용하도록 할 수 있다.

또한, 본 실시예에서는 음성을 출력하는 스피커(80)와, 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스(70)를 더 포함할 수 있다.

따라서 제어부(40)는 사용자의 발화를 인식하여 발화에 대응하는 응답문에 대해 인식된 감성을 적용하여 스피커(80)를 통해 출력할 수 있다.

즉, 사용자가의 질문이나 명령할 때 사용자의 음성, 얼굴 및 뇌파를 감지하여 사용자가 슬픈지, 행복한지, 불안한지 등 사용자의 감성을 인식한 후 사용자의 감성에 따라 응답 어조를 다르게 대응할 수 있다.

예를 들어, 사용자가 슬프면 음성 출력 응답은 응답 및 톤 측면에서 긍정적인 느낌을 보내 기분을 기쁘게 할 수도 있고, 슬픈 감성에 맞추어 슬픈 음악 등을 선곡해서 들려줄 수도 있다.

상술한 바와 같이, 본 발명의 실시예에 의한 엣지 컴퓨터 환경에서의 감성 인식 장치에 따르면, 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.

도 7은 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경경에서의 감성 인식 방법을 설명하기 위한 흐름도이다.

도 7에 도시된 바와 같이 본 발명의 일 실시예에 따른 엣지 컴퓨터 환경에서의 감성 인식 방법에서는 먼저, 제어부(40)가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 음성감지부(10), 영상촬영부(20) 및 뇌파측정부(30)로부터 각각 입력받는다(S10).

S10 단계에서 음성, 촬영영상 및 뇌파를 입력받은 후 제어부(40)는 각각 음성, 촬영영상 및 뇌파를 전처리하여 특징을 포함하는 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출한다(S20).

여기서 제어부(40)는 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망(DNN)으로 병합하여 도 3과 같이 특징음성을 추출할 수 있다.

또한, 제어부(40)는 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 도 4와 같이 얼굴 랜드마크를 추출할 수 있다.

그리고, 제어부(40)는 뇌파측정부(30)에서 측정된 각 채널에서의 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 특징뇌파를 추출할 수 있다.

S20 단계에서 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출한 후 제어부(40)는 이를 융합하여 목소리, 표정 및 뇌파를 통해 감성을 인식할 수 있도록 한다(S30).

S30 단계에서 융합된 융합신호로부터 제어부(40)는 감성 데이터베이스(60)의 감성 학습정보를 기반으로 딥러닝을 통해 사용자의 감성을 인식한다(S40).

S40 단계에서 감성을 인식한 후 제어부(40)는 인식된 감성을 출력하여 주변 장치 등에서 인식된 감성을 기초로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용하도록 할 수 있다.

한편, 제어부(40)는 사용자의 발화에 대응하여 인식된 감성을 적용하여 응답문을 출력할 수 있다.

상술한 바와 같이, 본 발명의 실시예에 의한 엣지 컴퓨터 환경에서의 감성 인식 방법에 따르면, 엣지 컴퓨터 환경에서 사용자의 발화시 표정, 음성 및 뇌파신호를 입력받아 각각 전처리한 후 융합하고, 융합된 데이터에 기초하여 딥러닝 기술을 통해 사용자의 감성을 인식할 수 있어 엣지 컴퓨터 환경에서 복합정보에 의한 감성 인식으로 소비제품에 대한 사용성 및 감성 만족도 평가에 활용성을 높일 수 있다.

본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.

10 : 음성감지부 20 : 영상촬영부
30 : 뇌파측정부 40 : 제어부
50 : 출력부 60 : 감성 데이터베이스
70 : 질문 데이터베이스 80 : 스피커
410 : 전처리부 412 : 음성 전처리부
414 : 영상 전처리부 416 : 뇌파 전처리부
420 : 데이터 융합부 430 : 감성인식부

Claims

사용자의 음성을 입력받는 음성감지부;
상기 사용자의 얼굴을 촬영하는 영상촬영부;
상기 사용자의 뇌파를 측정하는 뇌파측정부;
감성 학습정보를 저장하는 감성 데이터베이스;
상기 사용자가 발화하는 동안 상기 음성감지부, 상기 영상촬영부 및 상기 뇌파측정부로부터 입력되는 상기 음성, 촬영영상 및 상기 뇌파를 전처리하여 특징을 추출한 특징음성, 얼굴 랜드마크 및 특징뇌파를 융합하여 상기 감성 데이터베이스에 저장한 상기 감성 학습정보를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 제어부; 및
상기 제어부에서 인식된 상기 감성을 출력하는 출력부;를 포함하되,
음성을 출력하는 스피커; 및 발화문과 발화에 대응한 응답문을 저장하는 질문 데이터베이스;를 더 포함하고,
상기 제어부는 상기 사용자의 발화를 인식하여 발화에 대응하는 상기 응답문에 대해 인식된 상기 감성을 적용하여 상기 스피커를 통해 출력하며,
상기 제어부는,
상기 음성, 상기 촬영영상 및 상기 뇌파를 입력받아 전처리하고 심층신경망으로 병합하여 특징을 추출한 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 각각 추출하는 전처리부;
상기 전처리부에서 추출된 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 융합하는 데이터 융합부; 및
상기 데이터 융합부에서 융합된 융합신호로부터 상기 감성 데이터베이스에 저장한 상기 감성 학습정보를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 감성인식부;를 포함하고,
상기 전처리부는, 상기 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 상기 특징음성을 추출하는 음성 전처리부;
상기 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 상기 얼굴 랜드마크를 추출하는 영상 전처리부; 및
상기 뇌파측정부에서 측정된 각 채널에서의 상기 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 상기 특징뇌파를 추출하는 뇌파 전처리부;를 포함하며,
상기 제어부는 상기 사용자의 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하고, 각 비율의 합은 100%인 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 장치.
삭제
삭제
삭제
삭제
제 1항에 있어서, 상기 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 장치.
제어부가 사용자가 발화하는 음성, 촬영영상 및 뇌파를 입력받는 단계;
상기 제어부가 입력된 상기 음성, 상기 촬영영상 및 상기 뇌파를 전처리하여 특징음성, 얼굴 랜드마크 및 특징뇌파를 추출하는 단계;
상기 제어부가 상기 특징음성, 상기 얼굴 랜드마크 및 상기 특징뇌파를 데이터 융합하는 단계;
상기 제어부가 상기 융합된 데이터를 기반으로 딥러닝을 통해 상기 사용자의 감성을 인식하는 단계; 및
상기 제어부가 인식된 상기 감성을 출력하는 단계;를 포함하되,
상기 제어부가 상기 사용자의 발화에 대응하여 인식된 상기 감성을 적용하여 응답문을 출력하는 단계;를 더 포함하고,
상기 전처리하는 단계는,
상기 제어부가 상기 음성을 입력받아 MFCC(Mel Frequency Cepstrum Coefficients) 기법을 통해 특징을 추출하여 심층신경망으로 병합하여 상기 특징음성을 추출하는 단계;
상기 제어부가 상기 촬영영상을 입력받아 MTCNN(Multi-task cascaded CNN) 기법을 통해 얼굴영역을 검출하고 심층신경망으로 병합하여 상기 얼굴 랜드마크를 추출하는 단계; 및
상기 제어부가 뇌파측정부에서 측정된 각 채널에서의 상기 뇌파 입력에 대해 고속 푸리에 변환을 수행하고 특성 주파수대역별로 분류하여 평균과 표준편차를 산출하여 상기 특징뇌파를 추출하는 단계;를 포함하며,
상기 사용자의 감성을 인식하는 단계는, 상기 사용자의 상기 감성에 대해 인식할 수 있는 다수의 감성에 대한 각각의 비율로 인식하고, 각 비율의 합은 100%인 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 방법.
삭제
삭제
삭제
제 7항에 있어서, 상기 감성은, 기쁨, 슬픔, 싫증, 두려움, 분노, 놀람 및 사랑 중 어느 하나 이상을 포함하는 것을 특징으로 하는 엣지 컴퓨터 환경에서의 감성 인식 방법.