KR102541660B1 - 음성 신호에 기반한 감정 인식 장치 및 방법 - Google Patents
음성 신호에 기반한 감정 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR102541660B1 KR102541660B1 KR1020210000952A KR20210000952A KR102541660B1 KR 102541660 B1 KR102541660 B1 KR 102541660B1 KR 1020210000952 A KR1020210000952 A KR 1020210000952A KR 20210000952 A KR20210000952 A KR 20210000952A KR 102541660 B1 KR102541660 B1 KR 102541660B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- voice
- voice data
- speaker
- global
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000008451 emotion Effects 0.000 claims abstract description 60
- 230000008909 emotion recognition Effects 0.000 claims abstract description 53
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000015654 memory Effects 0.000 claims abstract description 17
- 230000000306 recurrent effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 일 측면에 따른 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치는 음성 기반 감정 인식 프로그램이 저장된 메모리; 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며, 상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 데이터를 수신하고, 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류한다. 이때, 상기 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류한다.
Description
본 발명은 기계 학습 모델을 통해 음성 신호로부터 발화자의 감정을 인식할 수 있는 음성 기반 감정 인식 장치 및 방법에 관한 것이다.
사람의 음성을 통해 발화자의 감정을 인식하는 기술에 대한 연구가 진행되고 있다. 특히, 인공 지능 기술이나 기계 학습 기술을 이용하는, 스마트 음성 감정 인식(SER, Speech Emotion Recognition) 기술은 디지털 오디오 신호 처리의 새로운 분야로 알려지고 있으며, 인간-컴퓨터 상호 작용(HCI, Human Computer Interface) 기술과 관련된 많은 응용 프로그램에서 중요한 역할을 할것으로 기대하고 있다.
기존의 연구는 음성 데이터에서 감정인식을 모델링 하기위해 다양한 수의 심층 신경망(DNN)을 도입하고 있다. 예를 들어, 원본 오디오 샘플에서 중요한 신호를 감지하는 DNN 모델이 제안되거나, 오디오 녹음의 특정 표현을 사용하여 모델에 대한 입력을 제공하는 기술이 제안되었다.
특히, 연구자들은 다양한 유형의 컨볼루션 연산을 통해 숨겨진 신호를 추출하고 선, 곡선, 점, 모양 및 색상을 인식하고 있다. 예를 들면, CNN(convolution neural networks), RNN(recurrent neural networks), LSTM(long short-term memory), DBN(deep belief networks) 등을 포함하는 중간 수준의 종단 간 모델을 활용하고 있다. 다만, 이러한 다양한 인공 신경망 모델의 구성이 여전히 부실하기 때문에 정확도 수준과 인식률이 낮다는 문제가 존재한다. CNN을 이용한 모델의 경우 감정 인식의 정확도를 높이는 역할이 부족하다.
또한, 시간에 있어서 장기적인 변화요소를 학습하고, 감정을 인식하기 위해 RNN과 LSTM을 활용하고 있는데, 정확도를 크게 향상시키지 못하면서도 전체 모델의 계산 및 학습 시간을 증가시키는 문제가 있다. 이와 같이, 공간적 감정 신호와 순차적 신호를 인식하는 효율적이고 중요한 프레임 워크를 제공할 필요가 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성신호의 공간적 특징과 시간적 특징을 모두 활용하여 음성으로부터 발화자의 감정을 분류할 수 있는 음성 기반 감정 인식 장치 및 방법을 제공하는데 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치는, 음성 기반 감정 인식 프로그램이 저장된 메모리; 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며, 상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 데이터를 수신하고, 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류한다. 이때, 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류한다.
또한, 본 발명의 다른 측면에 따른 음성 기반 감정 인식 장치를 이용한 구조물 감정 인식 방법은, 발화자의 음성 데이터를 수신하는 단계, 및 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함하되, 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류를 포함한다.
전술한 본원의 과제 해결 수단에 의하면, 음성 데이터에 포함된 시간적 특징과 공간적 특징을 효과적으로 추출하여, 발화자의 감정을 자동으로 분류할 수 있다.
특히, 음성 데이터의 로컬 특징을 추출하는 과정에서 ConvLSTM 모델을 사용함에 따라, 음성 신호의 연속적인 시퀀스를 쉽게 인식하고, 인식된 시퀀스로부터 연결된 감정정보를 추출할 수 있다. 또한, GRU를 통해 서로 시간적으로 떨어져 있는 감정 정보를 함께 고려할 수 있어서, SER 시스템의 예측 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치를 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법에 사용되는 감정 분류 모델의 구축 과정을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 ConvLSTM 계층의 구체적인 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 글로벌 특징 추출부에 사용되는 GRU의 구성을 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치를 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법에 사용되는 감정 분류 모델의 구축 과정을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 ConvLSTM 계층의 구체적인 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 글로벌 특징 추출부에 사용되는 GRU의 구성을 도시한 것이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이다.
도시된 바와 같이 음성 기반 감정 인식 장치(100)는 통신 모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함할 수 있다. 또한, 음성 기반 감정 인식 장치(100)는 마이크 등을 내장할 수 있으며, 이를 통해 직접 음성 데이터를 생성하는 것도 가능하다.
통신 모듈(110)은 발화자의 음성 데이터를 외부 기기로부터 수신하는 것으로서, 각종 스마트 단말에 연결된 마이크 등을 통해 입력된 음성 데이터를 통신망(300)을 통해 수신할 수 있다. 또한 통신 모듈(110)은 각종 외부 장치(서버 또는 단말) 로부터 음성 기반 감정 인식 프로그램 등의 업데이트 정보 등을 수신하여 프로세서(130)로 전송할 수 있다.
통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리(120)에는 발화자의 음성을 기반으로 발화자의 감정을 분류하는 음성 기반 감정 인식 프로그램이 저장된다. 이러한 메모리(120)에는 음성 기반 감정 인식 장치(100)의 구동을 위한 운영 체제나 음성 기반 감정 인식 프로그램의 실행 과정에서 발생되는 여러 종류가 데이터가 저장된다.
이때, 음성 기반 감정 인식 프로그램은, 발화자의 음성 데이터를 통신 모듈(110)을 통해 수신하고, 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류한다. 이때, 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하며, 추가적으로 손실 함수를 통해 감정 분류 모델을 갱신하는 손실 함수부를 포함할 수 있다. 음성 기반 감정 인식 프로그램의 구체적인 내용에 대해서는 추후 설명하기로 한다.
이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.
또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행하되, 음성 기반 감정 인식 프로그램의 실행에 따라, 감정 분류 모델의 구축 과정과 구축된 감정 분류 모델을 통해 음성을 기반으로 발화자의 감정을 분류하는 작업을 수행한다.
이러한 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
데이터베이스(140)는 프로세서(130)의 제어에 따라, 음성 기반 감정 인식 장치(100)에 필요한 데이터를 저장 또는 제공한다. 이러한 데이터베이스(140)는 메모리(120)와는 별도의 구성 요소로서 포함되거나, 또는 메모리(120)의 일부 영역에 구축될 수도 있다.
한편, 음성 기반 감정 인식 장치(100)는 장치(100)에 내장되거나 이에 접속된 마이크 등을 통해 발화자의 음성 신호를 녹음하여, 음성 데이터를 직접 생성할 수 있으며, 이에 대해 감정 인식을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치를 설명하기 위한 개념도이고, 도 3은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법을 설명하기 위한 순서도이고, 도 4는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법에 사용되는 감정 분류 모델의 구축 과정을 설명하기 위한 순서도이다.
메모리(140)에 저장된 음성 기반 감정 인식 프로그램에 의해 수행되는 음성 기반 감정 인식 방법을 살펴보기로 한다.
먼저, 음성 기반 감정 인식 장치(100)에 설치된 음성 기반 감정 인식 프로그램은 마이크 등을 통해 기록된 음성 데이터를 마이크로부터 수신하거나, 통신 모듈(110)을 통해 음성 데이터를 수신한다(S310). 음성 데이터는 디지털 데이터로서, 소정의 시간 단위로 구분된 음성 세그먼트로 분리되어, 감정 분류 모델에 입력될 수 있다. 이와 같이, 서로 연속된 관계에 있는 음성 세그먼트들은 시간적으로 강한 상관 관계를 갖게되며, 이러한 특징을 이용하여 감정 인식을 수행한다.
다음으로, 음성 기반 감정 인식 프로그램은 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류한다(S320). 예를 들면, 음성 데이터를 감정 분류 모델에 입력함에 따라, 그 출력으로서 발화자의 감정 상태를 '화남', '슬픔', '행복', '보통' 등으로 분류할 수 있다.
이때, 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하는 것으로, 이의 구체적인 구성과 구축 과정에 대해서는 도 2, 도 4 내지 도 6을 통해 더욱 상세히 살펴보기로 한다.
본 발명에서 처리하는 음성 데이터는 시간적으로 연속되는 특징을 가진 데이터로서, 통상적으로는 LSTM과 같은 모델을 사용하여 특징을 추출하고 있으나, 해당 모델의 경우 계산 및 학습 시간을 증가시키는 문제점이 있다.
이에, 본 발명의 감정분류 모델은 공간적인 특징을 추출하고 학습하는데 유용한 CNN 모델과 시간적인 특징을 추출하고 학습하는데 유용한 LSTM 모델을 병합한, ConvLSTM 을 사용하는 복수의 로컬 기능 학습 블록 (LFLB, local features learning blocks)들로 이루어진 로컬 특징 추출부를 포함한다. 본 발명에서는 공간적 특징의 활용함으로써, 음성 세그먼트들 간의 시간적 간격 뿐만 아니라 주파수 대역에서 간격을 두고 분리되어 있는 특징을 추출하여 감정을 분류하는데 활용한다. 이를 통해 짧은 시간뿐만 아니라 긴 시간에 걸쳐 표현되는 감정의 특징을 적절히 활용할 수 있게 해주어 감정인식의 성능향상에 이바지한다.
도면에서는, 4개의 로컬 기능 학습 블록 (LFLB)이 순차적으로 연결된 구조를 제시하고 있는데, 이는 예시적인 구성으로서 본 발명이 이에 제한되는 것인 아니다.
이때, 각각의 로컬 기능 학습 블록은 도 2에서와 같이, ConvLSTM 계층, BN 계층 및 풀링 계층이 순차적으로 연결된 구조를 가진다. 그리고, 각각의 복수의 로컬 기능 학습 블록이 순차적으로 연결된 구조를 통해, 음성 세그먼트 간의 입력-상태(input-state) 및 상태-상태(state-state) 상관 관계를 찾을 수 있다. 즉, 순차적으로 입력된 음성 세그먼트를 처리하는 과정에서 각 음성 세그먼트의 상관 관계를 포착하고, 이를 통해 감정을 인식한다.
ConvLSTM 계층은 시퀀스를 최적화하고 음성 세그먼트 간의 시공간적 상관 관계를 찾기 위해, 순차적 정보를 내부 상태로 유지하기 위해 숨겨진 단계별 예측에 사용되었다.
도 4를 참조하여, 감정 분류 모델의 구축 과정을 살펴보기로 한다.
먼저, 음성 기반 감정 인식 장치(100)에 설치된 음성 기반 감정 인식 프로그램은 마이크 등을 통해 기록된 음성 데이터를 마이크로부터 수신하거나, 통신 모듈(110)을 통해 음성 데이터를 수신한다(S410).
다음으로, ConvLSTM 에 기반하여 로컬 특징 추출부에 음성 데이터를 입력한다(S420).
도 5는 본 발명의 일 실시예에 따른 ConvLSTM 계층의 구체적인 구성을 도시한 도면이다.
도시된, ConvLSTM 계층은 다음의 수학식을 이용하여 가중치를 계산한다.
[수학식 1]
σ 는 시그모이드 함수를 나타내고, * 는 컨볼루션 연산을 나타내고, ⓒ는 엘리먼트별 연산(element wise operation), tanh는 쌍곡탄젠트 함수(hyperbolic tangent function), w는 각각의 변수에 대한 가중치, b는 편향 값, t는 연산 반복 횟수, xt 는 입력 데이터, ct는 셀 상태(cell state), ht는 은닉 상태(hidden state)를 나타낸다. 이와 같이, ConvLSTM 계층에서는 행렬간의 곱이 행해지던 연산의 일부가 컨볼루션 연산으로 대체된다.
그리고, 도 5에서 it는 입력 게이트(input gate), ft 는 망각 게이트(forget gate), ot는 출력 게이트(output gate), gt는 입력 변조 게이트(input modulation gate)를 각각 나타내며, 이는 일반적인 LSTM의 구성과 동일하다.
한편, ConvLSTM에서는 각 입력 게이트에서 처리되는 데이터와 입력 데이터(xt), 셀 상태(ct), 은닉 상태(ht) 는 모두 3차원 텐서로 표현된다. 이때, 입력 텐서에서 첫 번째 차원은 시간 정보, 두 번째 차원은 크기 정보, 세번째 차원은 공간 정보를 나타낸다. 이와 같이, ConvLSTM은 상태에서 상태로 전환하는 동안 시공간 특징을 추출하는 것에 기술적 특징이 있다.
다시 도 4를 참조하면, GRU 기반의 글로벌 특징 추출부에 음성 데이터를 입력한다(S430).
먼저, 도 2에 도시된 바와 같이, 글로벌 특징 추출부는 GFLB(Global Feature Learning Block)를 포함한다. GFLB는 음성 데이터에서 글로벌 특징 정보를 학습하고, 장기적인 컨텍스트 종속성을 인식하기 위해 GRU(gated recurrent unit)를 포함한다.
도 6은 본 발명의 일 실시예에 따른 글로벌 특징 추출부에 사용되는 GRU의 구성을 도시한 것이다.
GRU는 게이트 메커니즘이 적용된 LSTM 프레임워크의 일종으로서, (a)에 도시된 바와 같이, 업데이트 게이트 및 리셋 게이트를 포함한다. 업데이트 게이트는 LSTM에서의 망각 게이트 및 입력 게이트와 같은 동작을 수행하고, 리셋 게이트는 LSTM에서의 리셋 게이트와 같은 동작을 수행한다.
[수학식 2]
[수학식 3]
[수학식 4]
[수학식 5]
이때, σ 는 시그모이드 함수를 나타내고, * 는 엘리먼트별 곱셈(element wise multiplication), tanh는 쌍곡탄젠트 함수(hyperbolic tangent function), W와 U는 각 변수에 대한 가중치, t는 연산 반복 횟수, xt 는 입력 데이터, ht는 은닉 상태를 나타낸다.
이와 같은 구성에 의해, 음성 세그먼트에 포함된 단기 종속성은 리셋 게이트에 의해 활성화되고, 음성 세그먼트의 이전 상태는 업데이트 게이트에 의해 제어되는데, 업데이트 게이트는 장기적인 상황 정보를 제어하는 역할도 수행한다.
한편, 본 발명에서는 (b)에 도시된 바와 같이, 2개의 GRU를 적층(stack)한 단위 레이어를 복수개 배치하여 글로벌 특징에 대한 가중치를 조절할 수 있다.
그리고, 글로벌 특징 추출부의 출력단에는 완전 연결된(fully connected) 레이어가 결합되며, 이를 통해 발화자의 감정을 분류하며, 이후에 결합되는 융합 손실 함수의 결과를 기초로 갱신될 수 있다.
다시 도 4를 참조하면, 손실 함수를 이용하여 감정 분류 모델을 갱신하는 작업을 수행한다(S440).
본 발명에서는 중심 손실 함수(center loss function)와 소프트 맥스 손실 함수를 사용하여 감정 분류 모델의 손실을 산출한다. 소프트 맥스 손실 함수를 이용한 모델의 예측 성능은 클래스 내에서 거리가 멀기 때문에 다소 성능이 낮아진다.
본 발명에서는 중심 손실 함수를 사용하여 클래스 내 최소 거리를 계산하고 소프트 맥스 손실 함수를 통해 클래스 간 최대 거리를 계산하였으며, 구체적인 수학식은 아래와 같다.
[수학식 6]:소프트 맥스 손실 함수
[수학식 7]: 중심 손실 함수
n은 클래스의 개수, m은 최소 배치 사이즈, cyi는 클래스yi의 중심을 나타낸다.
이때, 실시간 시나리오에서 오 분류를 방지하는 데 필요한 최소 거리를 계산하기 위해 중심 손실에 대한 λ 기호를 사용하여, 소프트 맥스 손실 함수와 중심 손실 함수를 모두 반영한, 융합 손실 함수를 수학식 8과 같이 사용하였다.
[수학식 8]
감정 분류 모델은 중심 손실 함수와 소프트 맥스 손실함수를 기초로하는 융합 손실 함수를 통해 로컬 특징 추출부와 글로벌 특징 추출부의 출력에 대한 손실을 산출하고, 손실을 최소화하는 방향으로 가중치 업데이트를 수행한다.
이와 같이 구성된 본 발명의 감정 분류 모델의 효과를 평가하기 위해 동 분야에서 학문적 실험에 널리 사용되는 오픈 데이터베이스인 IEMOCAP 및 RAVDESS를 사용하였는데, 이들은 각각 감정적 언어 말뭉치를 포함하는 두 가지 표준 말뭉치 데이터를 포함한다. 본 발명에 따른 IEMOCAP와 RAVDESS 말뭉치에 대해 각각 75 %의 인식률과 80 %의 인식률을 확보하였으며, 이는 2020년 말 기준으로 최상위의 수치에 해당한다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성 기반 감정 인식 장치
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
Claims (8)
- 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치에 있어서,
음성 기반 감정 인식 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 데이터를 수신하고, 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되,
상기 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류하며,
상기 로컬 특징 추출부는,
복수의 로컬 기능 학습 블록이 순차적으로 연결된 구조를 갖되, 각각의 로컬 기능 학습 블록은 ConvLSTM 계층, BN 계층 및 풀링 계층이 순차적으로 연결된 구조를 가지고,
상기 글로벌 특징 추출부는,
적층된 2개의 GRU(gated recurrent unit)를 각각 포함하는 복수의 단위 레이어를 포함하며,
상기 감정 분류 모델은,
중심 손실 함수와 소프트 맥스 손실함수를 기초로 하는 융합 손실 함수를 통해 상기 로컬 특징 추출부와 상기 글로벌 특징 추출부의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 음성 기반 감정 인식 장치. - 삭제
- 삭제
- 삭제
- 음성 기반 감정 인식 장치를 이용한 감정 인식 방법에 있어서,
발화자의 음성 데이터를 수신하는 단계, 및
수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함하되,
상기 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류하고,
상기 로컬 특징 추출부는,
복수의 로컬 기능 학습 블록이 순차적으로 연결된 구조를 갖되, 각각의 로컬 기능 학습 블록은 ConvLSTM 계층, BN 계층 및 풀링 계층이 순차적으로 연결된 구조를 갖고,
상기 글로벌 특징 추출부는,
적층된 2개의 GRU(gated recurrent unit)를 각각 포함하는 복수의 단위 레이어를 포함하며,
상기 감정 분류 모델은,
중심 손실 함수와 소프트 맥스 손실함수를 기초로 하는 융합 손실 함수를 통해 상기 로컬 특징 추출부와 상기 글로벌 특징 추출부의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 음성 기반 감정 인식 방법. - 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210000952A KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210000952A KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220098991A KR20220098991A (ko) | 2022-07-12 |
KR102541660B1 true KR102541660B1 (ko) | 2023-06-12 |
Family
ID=82419979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210000952A KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102541660B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827856B (zh) * | 2022-07-26 | 2023-06-20 | 国家国防科技工业局军工项目审核中心 | 一种基于计算机的军工领域消息的传递方法 |
KR20240018060A (ko) * | 2022-08-02 | 2024-02-13 | 에스케이텔레콤 주식회사 | 감정 인식 장치 및 방법 |
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
CN116434787B (zh) * | 2023-06-14 | 2023-09-08 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6732703B2 (ja) | 2017-07-21 | 2020-07-29 | 日本電信電話株式会社 | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム |
-
2021
- 2021-01-05 KR KR1020210000952A patent/KR102541660B1/ko active IP Right Grant
Non-Patent Citations (4)
Title |
---|
Bakhshi, Ali, Aaron SW Wong, and Stephan Chalup. "End-to-end speech emotion recognition based on time and frequency information using deep neural networks." ECAI 2020. IOS Press, 2020. 969-975.* |
Kurpukdee,Nattapong et.al, Speech emotion recognition using convolutional long short-term memory neural network and support vector machines, APSIPA ASC, 2017, IEEE, Dec. 2017, Vol.2017, no.12, pp.1744-1749* |
Mustaqeem, et.al, CLSTM: Deep Feature-Based Speech Emotion Recognition Using the Hierarchical ConvLSTM Network, Mathematics, MDPI AG, Dec. 2020, Vol.8, no.12, pp.2133* |
이상현, 김재동, 고한석, 강인한 감정 특징 추출을 위한 End-to-end 기반의CRNN-GLU-ATT 모델, 전자공학회논문지(2020, vol.57, no.10, pp. 45-55 (11 pages), Oct. 2020* |
Also Published As
Publication number | Publication date |
---|---|
KR20220098991A (ko) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102541660B1 (ko) | 음성 신호에 기반한 감정 인식 장치 및 방법 | |
US11189302B2 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
Zhang et al. | Towards end-to-end speech recognition with deep convolutional neural networks | |
US10332510B2 (en) | Method and apparatus for training language model and recognizing speech | |
US10957309B2 (en) | Neural network method and apparatus | |
KR102033411B1 (ko) | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 | |
KR102313028B1 (ko) | 음성 인식 시스템 및 방법 | |
CN112083806B (zh) | 一种基于多模态识别的自学习情感交互方法 | |
US11908457B2 (en) | Orthogonally constrained multi-head attention for speech tasks | |
CN111081230B (zh) | 语音识别方法和设备 | |
US10825445B2 (en) | Method and apparatus for training acoustic model | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN112967739B (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
KR20190099930A (ko) | 완전 연결 네트워크의 데이터 입력 및 출력을 제어하는 방법 및 장치 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
Palangi et al. | Learning input and recurrent weight matrices in echo state networks | |
CN113196385B (zh) | 用于音频信号处理的方法和系统及计算机可读存储介质 | |
CN117154256A (zh) | 锂电池的电化学修复方法 | |
Karras et al. | A Hybrid Ensemble Deep Learning Approach for Emotion Classification | |
KR102549122B1 (ko) | 음성 신호에 기반한 발화자의 감정 인식 장치 및 방법 | |
KR20240100864A (ko) | 멀티모달 데이터 융합 기반의 감정인식 시스템 및 방법 | |
KR20240113235A (ko) | 인간의 감정 판단 장치 및 방법 | |
Deng | Use of Deep Learning Features in Log-Linear Models | |
Rochford | Visual Speech Recognition Using a 3D Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |