KR20230007781A - Method and apparatus for recognizing speaker’s emotions based on speech signal - Google Patents
Method and apparatus for recognizing speaker’s emotions based on speech signal Download PDFInfo
- Publication number
- KR20230007781A KR20230007781A KR1020210088522A KR20210088522A KR20230007781A KR 20230007781 A KR20230007781 A KR 20230007781A KR 1020210088522 A KR1020210088522 A KR 1020210088522A KR 20210088522 A KR20210088522 A KR 20210088522A KR 20230007781 A KR20230007781 A KR 20230007781A
- Authority
- KR
- South Korea
- Prior art keywords
- feature
- spatial
- emotion
- voice signal
- module
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims description 27
- 230000008909 emotion recognition Effects 0.000 claims abstract description 53
- 230000003595 spectral effect Effects 0.000 claims abstract description 37
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 기계 학습 모델을 통해 음성 신호의 스펙트럼 및 스펙트로그램으로부터 발화자의 감정을 인식할 수 있는 음성 기반 감정 인식 장치 및 방법에 관한 것이다.The present invention relates to a voice-based emotion recognition apparatus and method capable of recognizing a speaker's emotion from a spectrum and a spectrogram of a voice signal through a machine learning model.
사람의 음성을 통해 발화자의 감정을 인식하는 기술에 대한 연구가 진행되고 있다. 특히, 인공 지능 기술이나 기계 학습 기술을 이용하는, 스마트 음성 감정 인식(SER, Speech Emotion Recognition) 기술은 디지털 오디오 신호 처리의 새로운 분야로 알려지고 있으며, 인간-컴퓨터 상호 작용(HCI, Human Computer Interface) 기술과 관련된 많은 응용 프로그램에서 중요한 역할을 할것으로 기대하고 있다.Research on a technology for recognizing a speaker's emotion through a human voice is being conducted. In particular, smart speech emotion recognition (SER, Speech Emotion Recognition) technology using artificial intelligence technology or machine learning technology is known as a new field of digital audio signal processing, and human-computer interaction (HCI, Human Computer Interface) technology It is expected to play an important role in many applications related to
기존의 연구는 음성 신호에서 감정인식을 모델링 하기위해 다양한 수의 심층 신경망(DNN)을 도입하고 있다. 예를 들어, 원본 오디오 샘플에서 중요한 신호를 감지하는 DNN 모델이 제안되거나, 오디오 녹음의 특정 표현을 사용하여 모델에 대한 입력을 제공하는 기술이 제안되었다.Existing studies have introduced various numbers of deep neural networks (DNNs) to model emotion recognition in voice signals. For example, DNN models have been proposed that detect important signals in raw audio samples, or techniques that provide input to models using specific representations of audio recordings have been proposed.
특히, 기존의 많은 연구들은 효율적인 음성을 이용한 감정인식 시스템을 위해 음성 스펙트로그램, 원 음성 신호 및 log-Mel 스펙트로그램과 같은 다양한 입력 유형의 음성신호를 사용하여 감정인식을 시도해 왔다. 그러나 이러한 방법들은 감정인식을 위해 일부 정보만을 사용하는 모델이며, 완전하지 못한 정보를 시스템에 제공한다. 정확한 음성기반 감정인식 시스템을 만들기 위해서는 다양한 음성관련 정보를 통합적으로 활용하는 것이 중요하며, 본 발명에서는 이와 같이, 다양한 음성관련 정보를 활용하는 감정인식 시스템을 제공하고자 한다.In particular, many previous studies have attempted emotion recognition using various input types of voice signals such as voice spectrogram, original voice signal, and log-Mel spectrogram for an efficient voice-based emotion recognition system. However, these methods are models that use only partial information for emotion recognition, and provide incomplete information to the system. In order to create an accurate voice-based emotion recognition system, it is important to use various voice-related information in an integrated manner, and the present invention intends to provide an emotion recognition system that utilizes various voice-related information.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성신호의 음성 스펙트럼과 스펙트로그램으로부터 추출되는 특징 정보를 활용하여 음성으로부터 발화자의 감정을 분류할 수 있는 음성 기반 감정 인식 장치 및 방법을 제공하는데 목적이 있다. The present invention is to solve the above-mentioned problems of the prior art, and provides a voice-based emotion recognition apparatus and method capable of classifying a speaker's emotion from a voice by utilizing feature information extracted from a voice spectrum and a spectrogram of a voice signal. has a purpose to
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치는 음성 기반 감정 인식 프로그램이 저장된 메모리; 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 수신하고, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되, 상기 감정 분류 모델은 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈, 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈, 상기 제 1 채널 모듈에서 출력된 스펙트럼 특징과 상기 제 2 채널 모듈에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈, 상기 융합 계층 모듈의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈 및 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈을 포함하는 것이다.As a technical means for solving the above technical problem, an emotion recognition device for recognizing a speaker's emotion based on a voice signal according to an aspect of the present invention includes a memory in which a voice-based emotion recognition program is stored; and a processor executing a program stored in the memory. A voice-based emotion recognition program receives a voice signal of a speaker, inputs the received voice signal to an emotion classification model to classify the speaker's emotion, and the emotion classification model extracts a spectral feature from the spectrum of the voice signal. A first channel module, a second channel module for extracting spatial features from the spectrogram of the voice signal, and a joint spatial spectrum feature vector from the spectral features output from the first channel module and the spatial features output from the second channel module. It includes a convergence layer module to generate, an optimal feature selection module to select an optimal feature from the output of the convergence layer module, and a classifier module to perform emotion classification on the selected optimal feature.
또한, 본 발명의 다른 측면에 따른 음성 기반 감정 인식 장치를 이용한 음성 기반 감정 인식 장치를 이용한 감정 인식 방법은 발화자의 음성 신호를 수신하는 단계 및 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함한다. 이때, 감정 분류 모델은 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 단계; 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 단계; 스펙트럼 특징과 상기 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성하는 단계; 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택하는 단계; 및 선택된 최적의 특징에 대하여 감정 분류를 수행하는 단계를 수행한다.In addition, an emotion recognition method using a voice-based emotion recognition device according to another aspect of the present invention includes the steps of receiving a voice signal of a speaker and inputting the received voice signal to an emotion classification model to determine the speaker's emotion It includes the step of classifying. At this time, the emotion classification model extracts a spectrum feature from the spectrum of the voice signal; extracting spatial features from the spectrogram of the speech signal; generating a joint spatial spectral feature vector from the spectral features and the spatial features; selecting optimal features from joint spatial spectral feature vectors; and performing emotion classification on the selected optimal feature.
전술한 본원의 과제 해결 수단에 의하면, 음성 신호에 포함된 스펙트럼 특징과 공간적 특징을 효과적으로 추출하여, 발화자의 감정을 자동으로 분류할 수 있다.According to the above-mentioned problem solving means of the present application, it is possible to automatically classify a speaker's emotion by effectively extracting spectral features and spatial features included in a voice signal.
종래의 경우, 스펙트럼 또는 스펙트로그램에서 추출되는 단일 특징만으로 감정을 분류하기 때문에, 언어 정보 손실로 인한 어려움을 겪었다. 본 발명에서는 스펙트럼 분석 및 공간 특징 분석을 모두 사용하기 때문에, 음성 신호의 정보를 최대한 활용하여 감정 인식을 수행할 수 있다.In the conventional case, since emotion is classified only with a single feature extracted from a spectrum or spectrogram, it suffers from loss of language information. Since the present invention uses both spectrum analysis and spatial feature analysis, emotion recognition can be performed by maximally utilizing information of a voice signal.
또한, 음성 신호에서 추출되는 스펙트럼 특징과 공간 특징에 기초하여 공동 공간 스펙트럼 특징 벡터를 생성하고, 그로부터 최적의 특징을 선택하기 위한 알고리즘을 수행하기 때문에, 중복성을 제거하고 최적의 특징을 선택할 수 있다.In addition, since a joint spatial spectral feature vector is generated based on the spectral and spatial features extracted from the voice signal and an algorithm for selecting an optimal feature is performed therefrom, it is possible to remove redundancy and select an optimal feature.
도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 프로그램에 포함된 감정 분류 모델의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 감정 분류 모델의 구체적인 구성을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 감정 인식 방법을 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 감정 분류 모델의 성능 평가 결과를 도시한 것이다.1 is a block diagram showing the configuration of a voice-based emotion recognition apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating the configuration of an emotion classification model included in a voice-based emotion recognition program according to an embodiment of the present invention.
3 is a flowchart illustrating a specific configuration of an emotion classification model according to an embodiment of the present invention.
4 is a flowchart illustrating an emotion recognition method according to an embodiment of the present invention.
5 illustrates performance evaluation results of an emotion classification model according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present application will be described in detail so that those skilled in the art can easily practice with reference to the accompanying drawings. However, the present disclosure may be implemented in many different forms and is not limited to the embodiments described herein. And in order to clearly describe the present application in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is said to be "connected" to another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element in between. do.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout the present specification, when a member is said to be located “on” another member, this includes not only a case where a member is in contact with another member, but also a case where another member exists between the two members.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 프로그램에 포함된 감정 분류 모델의 구성을 도시한 블록도이다.1 is a block diagram showing the configuration of a voice-based emotion recognition device according to an embodiment of the present invention, and FIG. 2 shows the configuration of an emotion classification model included in a voice-based emotion recognition program according to an embodiment of the present invention. It is a block diagram shown.
도시된 바와 같이 음성 기반 감정 인식 장치(100)는 통신 모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함할 수 있다. 또한, 음성 기반 감정 인식 장치(100)는 마이크 등을 내장할 수 있으며, 이를 통해 직접 음성 신호를 생성하는 것도 가능하다. As shown, the voice-based
음성 기반 감정 인식 장치(100)는 각 사용자 단말로부터 음성 신호를 수신하고, 그로부터 감정 분류 결과를 제공하는 서버로서 동작할 수 있다. 이러한 경우, 음성 기반 감정 인식 장치(100)는 SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서비스 모델에서 동작할 수 있다. 또한, 음성 기반 감정 인식 장치(100)는 사설(private) 클라우드, 공용(public) 클라우드 또는 하이브리드(hybrid) 클라우드와 같은 형태로 구축될 수 있다.The voice-based
통신 모듈(110)은 발화자의 음성 신호를 외부 기기로부터 수신하는 것으로서, 각종 스마트 단말에 연결된 마이크 등을 통해 입력된 음성 신호를 통신망(300)을 통해 수신할 수 있다. 또한 통신 모듈(110)은 각종 외부 장치(서버 또는 단말) 로부터 음성 기반 감정 인식 프로그램 등의 업데이트 정보 등을 수신하여 프로세서(130)로 전송할 수 있다.The
통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.The
메모리(120)에는 발화자의 음성을 기반으로 발화자의 감정을 분류하는 음성 기반 감정 인식 프로그램이 저장된다. 이러한 메모리(120)에는 음성 기반 감정 인식 장치(100)의 구동을 위한 운영 체제나 음성 기반 감정 인식 프로그램의 실행 과정에서 발생되는 여러 종류가 데이터가 저장된다. The
이때, 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 통신 모듈(110)을 통해 수신하고, 수신한 음성 신호를 감정 분류 모델(200)에 입력하여 발화자의 감정을 분류한다. 이때, 감정 분류 모델(200)은 음성 신호로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈(220), 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈(230), 제 1 채널 모듈(220)에서 출력된 스펙트럼 특징과 제 2 채널 모듈(230)에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈(240), 융합 계층 모듈(240)의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈(250) 및 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈(260)을 포함한다. 음성 기반 감정 인식 프로그램의 구체적인 내용에 대해서는 추후 설명하기로 한다.At this time, the voice-based emotion recognition program receives the speaker's voice signal through the
이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다. At this time, the
또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Also, the
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행하되, 음성 기반 감정 인식 프로그램의 실행에 따라, 감정 분류 모델의 구축 과정과 구축된 감정 분류 모델을 통해 음성을 기반으로 발화자의 감정을 분류하는 작업을 수행한다.The
이러한 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The
데이터베이스(140)는 프로세서(130)의 제어에 따라, 음성 기반 감정 인식 장치(100)에 필요한 데이터를 저장 또는 제공한다. 이러한 데이터베이스(140)는 메모리(120)와는 별도의 구성 요소로서 포함되거나, 또는 메모리(120)의 일부 영역에 구축될 수도 있다.The
한편, 음성 기반 감정 인식 장치(100)는 장치(100)에 내장되거나 이에 접속된 마이크 등을 통해 발화자의 음성 신호를 녹음하여, 음성 신호를 직접 생성하는 동작도 수행할 수 있으며, 이에 대해 감정 인식을 수행할 수 있다.On the other hand, the voice-based
도 3은 본 발명의 일 실시예에 따른 감정 분류 모델의 구체적인 구성을 도시한 순서도이다.3 is a flowchart illustrating a specific configuration of an emotion classification model according to an embodiment of the present invention.
도 2와 도 3을 함께 참조하여 설명하면, 음성 신호가 수신되면, 음성 신호 전처리 모듈(210)를 통해 음성 신호에 대한 스펙트럼과 스펙트로그램을 각각 생성하는 전처리를 수행한다. Referring to FIGS. 2 and 3 together, when a voice signal is received, preprocessing is performed to generate a spectrum and a spectrogram of the voice signal, respectively, through the voice signal preprocessing module 210 .
먼저, 음성 신호를 입력으로 하고, 아래 수학식 1에 정의된 RMS(Root Mean Square) 함수를 통해 정규화를 수행한다.First, a voice signal is used as an input and normalization is performed through a Root Mean Square (RMS) function defined in
[수학식 1][Equation 1]
RMS의 전체 결과는 "R"로 표시되고, 음성 신호의 스케일링 인자는 "f"로 표시되며, 음성 신호의 진폭 변화는 "s"로 직접 수행된다.The overall result of RMS is denoted by "R", the scaling factor of the speech signal is denoted by "f", and the amplitude change of the speech signal is directly performed by "s".
RMS 함수를 통해 정규화된 음성 세그먼트는 스펙트럼 분석을 위해 제 1 채널 모듈(220)로 전송된다.The speech segments normalized via the RMS function are sent to the
또한, 전처리 모듈(210)은 단시간 푸리에 변환(STFT)를 이용하여, 정규화된 음성 세그먼트를 스펙트로그램으로 변환하고, 이를 제 2 채널 모듈(230)로 전송한다. 스펙트로그램은 음성 신호를 2차원 이미지 형태로 시각적으로 표현한 것으로, 2D CNN 모델이 다양한 감정을 인식하기 위해 높은 수준의 특징을 추출하는 데 가장 적합하다.In addition, the pre-processing module 210 transforms the normalized speech segment into a spectrogram using a short-time Fourier transform (STFT), and transmits it to the
제 1 채널 모듈(220)은 전처리 모듈(210)로부터 수신한 스펙트럼 음성 신호로부터 스펙트럼 특징을 추출한다. 본 발명에서는 제 1 채널 모듈(220)로서 CNN(convolutional neural network)을 사용한다.The
제 1 채널 모듈(220)은 확장된 CNN(dilated CNN)을 사용할 수 있다. 제 1 채널 모듈(220)은 음성 신호의 n 번째 세그먼트(Rn)에 대한 스펙트럼을 입력으로서 수신하고, 해당 세그먼트에 대한 스펙트럼 특징(F1(Rn))을 추출하는데, 이를 위해 아래의 수학식 2를 사용할 수 있다. The
[수학식 2][Equation 2]
이때, 은 특징맵에 대하여 카테고리적으로 연결된 네트워크 레이어(L-1)에서의 특징맵을 나타내고, 은 에 대한 컨볼루션 커널을 나타내고, 는 바이어스, *는 컨볼루션 연산자, 는 Relu나 시그모이드와 같은 비선형 활성함수를 나타낸다.At this time, silver Indicates a feature map in a network layer (L-1) connected categorically with respect to the feature map, silver Represents the convolution kernel for is the bias, * is the convolution operator, represents a non-linear activation function such as Relu or sigmoid.
제 1 채널 모듈(220)에 입력되는 입력 텐서(Rn)는 1차원 신호이므로, 1차원 컨볼루션 및 풀링 레이어를 사용하여, 1차원 계산을 수행하고, 그에 대한 스펙트럼 특징을 추출한다.Since the input tensor Rn input to the
제 2 채널 모듈(230)은 전처리 모듈(210)로부터 수신한 음성 신호의 스펙트로그램으로부터 공간 특징을 추출한다. 본 발명에서는 제 2 채널 모듈(230)로서 2차원 CNN을 사용한다.The
제 2 채널 모듈(230)은 확장된 CNN(dilated CNN)을 사용할 수 있다. 제 2 채널 모듈(230)은 입력 스펙트로그램(Cn)을 수신하고, 공간 특징(F2(Cn))을 추출한다. 이때, 제 2 채널 모듈(230)은 도시된 바와 같이, 확장된 CNN 계층 및 BN(Batch Normalization) 계층 서로 교호하면서 복수개가 배치된 구성과, 풀링 계층을 포함하여 이루어질 수 있다.The
융합 계층 모듈(240)은 제 1 채널 모듈(220)에서 출력된 스펙트럼 특징과 제 2 채널 모듈(230)에서 출력된 공간 특징으로부터, 공동 공간 스펙트럼 특징(Spatial & sepctral fused features)을 나타내는 공동 공간 스펙트럼 특징 벡터를 생성한다. 이를 위해 아래의 수학식 3을 사용할 수 있다.The
[수학식 3][Equation 3]
W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타낸다. 는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는 으로 정의된다.W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation. is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is is defined as
최적 특징 선택 모듈(250)은 융합 계층 모듈의 출력으로부터 최적의 특징을 선택한다. 최적 특징 선택 모듈(250)은 여러 가지 특징 선택 알고리즘에 의해 구현될 수 있다. Optimal
예를 들어, NCA (Neighbor Component Analysis) 방법이 알려져 있다. NCA는 다변량 데이터를 여러 클래스로 분류하는 지도 학습 방법으로서, 거리 기반 방법이며 양의 가중치 특징을 선택하는 방법으로서 많이 사용되고 있는데, 중복성과 불일치로 인해 분류기가 최적의 특징을 선택하기 어렵게하는 문제가 있다. 이러한 문제를 해결하기 위해 중복성을 자동으로 제거하고 최적의 특징 개수를 선택하는 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis)을 제안하였다.For example, a Neighbor Component Analysis (NCA) method is known. NCA is a supervised learning method that classifies multivariate data into several classes. It is a distance-based method and is widely used as a method for selecting positive weight features. . To solve this problem, we proposed Iterative Neighbor Component Analysis (INCA), which automatically removes redundancies and selects the optimal number of features.
INCA는 작업(task)에 따라 특징 벡터의 길이를 선택하는데, 이는 NCA 특징 선택 방법을 활용하는 것으로서, 다음과 같은 단계를 수행한다.INCA selects the length of the feature vector according to the task, which utilizes the NCA feature selection method, and performs the following steps.
먼저, 수학식 4에 의해 NCA를 효과적으로 사용하는 최소-최대 정규화 방법을 적용하여 공동공간 스펙트럼 특징 벡터를 정규화한다.First, the common space spectral feature vector is normalized by applying a minimum-maximum normalization method that effectively uses NCA according to Equation 4.
[수학식 4][Equation 4]
이때, i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장된다. 정규화 이후 NCA에 따라 수학식 5를 사용하여 인덱스를 정렬한다.In this case, i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X. After normalization, indexes are sorted according to NCA using Equation 5.
[수학식 5][Equation 5]
이 방정식을 사용하여 인덱스는 정규화된 특징 "x"의 길이로 정렬되고 대상(target)은 실제 출력을 나타낸다. 인덱스를 사용한 반복적 특징 선택은 정의되지 않은 특징 범위로 인해 계산 복잡성이 높다. 비용을 줄이기 위해 "x = {1, 2, 3… 1000}"과 같이 특징 개수를 제한한 다음 선택한 특징들에서 최소 오류율을 찾는다. 마지막으로 인덱스 값을 사용하여 최적의 특징을 선택하고 최종 예측을 위한 추가 프로세스를 수행한다.Using this equation, the indices are ordered by the length of the normalized feature "x" and the target represents the actual output. Iterative feature selection using indices has high computational complexity due to undefined feature ranges. To reduce the cost, the number of features is limited like “x = {1, 2, 3…1000}” and then the minimum error rate is found from the selected features. Finally, we use the index value to select the optimal feature and perform an additional process for final prediction.
분류기 모듈(260)은 선택된 최적의 특징에 대하여 감정 분류를 수행한다. 예를 들면, 최적의 특징에 대한 출력으로서 발화자의 감정 상태를 '화남', '슬픔', '행복', '보통' 등으로 분류할 수 있다. 이를 위해, 분류기 모듈(260)은 복수의 학습 데이터를 이용하여 반복적으로 학습되며, 다음과 같은 수학식 6에 의해 정의되는 소프트 맥스 손실 함수를 사용하여, 최적 특징 선택 모듈(250)의 출력에 대한 손실을 산출하고, 손실을 최소화하는 방향으로 가중치 업데이트를 수행한다.The
[수학식 6][Equation 6]
N 는 훈련 데이터의 전체 개수를 나타내고, L(n)은 n번째 훈련 데이터의 실측 레이블(ground truth label)을 나타내고, 은 C(n)의 k 번째 요소를 나타내는 것으로, n번째 훈련 데이터에 대한 k 번째 감정의 확률을 나타낸다. θ 는 커널 및 편향 값을 나타낸다. 1 은 노출 함수(revealing function )로서 괄호 안의 조건이 충족되면 값이 1이되고 그렇지 않으면 0이되는 조건을 갖는다.N represents the total number of training data, L (n) represents the ground truth label of the nth training data, represents the k-th element of C (n) , and represents the probability of the k-th emotion for the n-th training data. θ represents the kernel and bias values. 1 is the revealing function, which has a condition that the value becomes 1 if the conditions in parentheses are met and 0 otherwise.
이와 같은 손실함수를 통해, θ 에 대한 확률적 경사 하강법을 이용하여 최종 예측을 위한 소프트 맥스 계층을 최적화할 수 있다.Through such a loss function, it is possible to optimize the softmax layer for final prediction using the stochastic gradient descent method for θ.
참고로, 본 발명의 일 실시예에 따라면, 모델 학습 중에 가우스 랜덤 분포를 사용하여 표준 분산 0.05와 평균을 사용하여 컨벌루션 연산의 모든 커널을 초기화했다. 그리고, 100개의 학습 에포크가 있는 모든 데이터 세트에 대해 0.0001의 고정 학습률을 사용했다. 전체 훈련 프로세스에 대해 64 개의 배치 사이즈(batch size)를 선택하고 훈련에서 0.215 손실, 검증에서 0.346 손실로 높은 정확도를 달성했다. For reference, according to an embodiment of the present invention, all kernels of the convolution operation are initialized using a standard variance of 0.05 and a mean using a Gaussian random distribution during model learning. And, we used a fixed learning rate of 0.0001 for all datasets with 100 training epochs. We chose a batch size of 64 for the entire training process and achieved high accuracy with a loss of 0.215 in training and 0.346 in validation.
높은 인식 결과를 확보하려면 딥 러닝 모델에 충분한 훈련 데이터가 필요하다. 그러나 SER 분야에서는 실제 라벨링된 데이터가 제한되어 모델 학습에 충분하지 않다. 제한된 학습 데이터로 모델 성능을 개선하기 위해 각 발화를 여러 세그먼트로 나누고 학습 중에 동일한 발화의 모든 세그먼트가 포함된 유사한 실제 레이블을 제공하여 학습을 수행하였다.Deep learning models need sufficient training data to ensure high recognition results. However, in the SER field, the actual labeled data is limited and is not sufficient for model training. To improve model performance with limited training data, training was performed by dividing each utterance into several segments and providing similar true labels containing all segments of the same utterance during training.
한편, 본 발명에 따른 감정 분류 모델에 대한 평가를 위해, 3가지 표준 데이터 베이스를 사용하였는데, 이는 각각 EMO-DB, SAVEE 및 RAVDESS로 알려진 것들이다.Meanwhile, for the evaluation of the emotion classification model according to the present invention, three standard databases were used, which are known as EMO-DB, SAVEE, and RAVDESS, respectively.
이 모든 데이터베이스는 스크립트로 작성되어 있으며 배우는 두려움, 분노, 슬픔, 놀라움, 행복, 침착함과 같은 다양한 감정으로 준비된 문장을 읽는 방법에 의해 데이터가 수집된 것이다. 각각의 데이터베이스는 복수의 남성 또는 여성 배우들이 녹음한 음성 파일을 포함하며, 이는 소정의 샘플링 율에 따라 녹음된 것들이다.All of these databases are written in scripts, and the data is collected by reading prepared sentences with various emotions such as fear, anger, sadness, surprise, happiness, and calm. Each database includes voice files recorded by a plurality of male or female actors, which are recorded according to a predetermined sampling rate.
본 발명에서는 이러한 표준 데이터베이스를 활용하여, 감정 분류 모델을 학습하고, 모델을 평가하였다. 보다 구체적으로 살펴보면, 각 데이터를 각 폴드에서 80 : 20 의 비율로 분할하고, 10 폴드 교차 검증 기법을 활용하여 시스템 성능을 평가했다.In the present invention, an emotion classification model was learned and evaluated using such a standard database. More specifically, each data was split at a ratio of 80:20 in each fold, and the system performance was evaluated using a 10-fold cross-validation technique.
도 4는 본 발명의 일 실시예에 따른 감정 인식 방법을 도시한 순서도이다.4 is a flowchart illustrating an emotion recognition method according to an embodiment of the present invention.
먼저, 감정 인식 장치(100)가 발화자의 음성 신호를 수신한다(S410).First, the
다음으로, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는데, 다음과 같은 단계를 순차적으로 수행한다.Next, the received voice signal is input to the emotion classification model to classify the speaker's emotion, and the following steps are sequentially performed.
음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리 단계를 수행한다. 앞서 살펴본 바와 같이, 스펙트럼의 생성을 위해, RMS함수를 통해 정규화하는 과정이나, 스펙트로그램의 생성을 위해 단시간 푸리에 변환을 사용할 수 있다.A preprocessing step is performed to generate a spectrum and a spectrogram for the audio signal. As described above, in order to generate a spectrum, a normalization process through an RMS function or a short-time Fourier transform can be used in order to generate a spectrogram.
다음으로, 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출한다(S420). 이를 위해, 제 1 채널 모듈(220)을 통해 1차원 CNN을 이용하여 스펙트럼 특징을 추출한다.Next, spectral features are extracted from the spectrum of the voice signal (S420). To this end, spectral features are extracted using a 1D CNN through the
다음으로, 음성 신호의 스펙트로그램으로부터 공간 특징을 추출한다(S430). 이를 위해, 제 2 채널 모듈(230)을 통해 2차원 CNN을 이용하여 공간 특징을 추출한다.Next, spatial features are extracted from the spectrogram of the audio signal (S430). To this end, spatial features are extracted using a 2D CNN through the
다음으로, 스펙트럼 특징과 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성한다(S440). 이를 위해, 앞서 설명한 수학식 3을 이용하여 공동 공간 스펙트럼 특징 벡터()를 생성한다.Next, a joint spatial spectral feature vector is generated from the spectral feature and the spatial feature (S440). To this end, using
다음으로, 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택한다(S450). 이를 위해, 앞서 설명한 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택한다.Next, an optimal feature is selected from the common space spectral feature vector (S450). To this end, optimal features are selected according to the Iterative Neighbor Component Analysis (INCA) method described above.
다음으로, 선택된 최적의 특징에 대하여 감정 분류를 수행한다(S460). 이를 위해, 소프트 맥스 손실함수를 통해 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 동작을 반복수행한다. 그리고, 이와 같이, 가중치 업데이트가 완료된 감정 분류 모델에 대하여, 분류하고자 하는 음성 신호를 입력하여, 감정을 분류하는 추론 과정을 수행한다.Next, emotion classification is performed on the selected optimal feature (S460). To this end, an operation of calculating a loss for the output of the optimal feature selection module through a soft max loss function and performing weight update in a direction that minimizes the loss is repeatedly performed. In this way, with respect to the emotion classification model whose weights have been updated, a voice signal to be classified is input, and an inference process of classifying emotions is performed.
도 5는 본 발명의 일 실시예에 따른 감정 분류 모델의 성능 평가 결과를 도시한 것이다.5 illustrates performance evaluation results of an emotion classification model according to an embodiment of the present invention.
제안된 모델에 대한 전체적인 예측 결과를 그래프로 도시한 결과 EMO-DB, SAVEE, RAVDESS 데이터 셋에 대해 각각 95 %, 82 %, 85 %의 인식률을 확보 할 수 있음을 확인할 수 있다. As a result of graphing the overall prediction results for the proposed model, it can be confirmed that recognition rates of 95%, 82%, and 85% can be secured for the EMO-DB, SAVEE, and RAVDESS data sets, respectively.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as program modules executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.Although the methods and systems of the present invention have been described with reference to specific embodiments, some or all of their components or operations may be implemented using a computer system having a general-purpose hardware architecture.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present application is for illustrative purposes, and those skilled in the art will understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present application. Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the detailed description above, and all changes or modifications derived from the meaning and scope of the claims and equivalent concepts thereof should be construed as being included in the scope of the present application.
100: 음성 기반 감정 인식 장치
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
200: 감정 분류 모델
210: 음성 신호 전처리 모듈
220: 제 1 채널 모듈
230: 제 2 채널 모듈
240: 융합 계층 모듈
250: 최적 특징 선택 모듈
260: 분류기 모듈100: voice-based emotion recognition device
110: communication module
120: memory
130: processor
140: database
200: emotion classification model
210: voice signal pre-processing module
220: first channel module
230: second channel module
240: fusion layer module
250: optimal feature selection module
260: classifier module
Claims (12)
음성 기반 감정 인식 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 수신하고, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되,
상기 감정 분류 모델은 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈, 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈, 상기 제 1 채널 모듈에서 출력된 스펙트럼 특징과 상기 제 2 채널 모듈에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈, 상기 융합 계층 모듈의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈 및 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈을 포함하는 것인, 감정 인식 장치.An emotion recognition device for recognizing a speaker's emotion based on a voice signal,
a memory in which a voice-based emotion recognition program is stored; and
A processor for executing a program stored in the memory;
The voice-based emotion recognition program receives a voice signal of a speaker and inputs the received voice signal to an emotion classification model to classify the speaker's emotion,
The emotion classification model includes a first channel module for extracting a spectrum feature from the spectrum of the voice signal, a second channel module for extracting a spatial feature from the spectrogram of the voice signal, a spectrum feature output from the first channel module and the A fusion layer module for generating a joint spatial spectrum feature vector from the spatial features output from the second channel module, an optimal feature selection module for selecting an optimal feature from the output of the fusion layer module, and emotion classification for the selected optimal feature Emotion recognition device comprising a classifier module that performs.
상기 감정 분류 모델은 상기 음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리모듈을 더 포함하는 것인, 감정 인식 장치.According to claim 1,
The emotion classification model further comprises a pre-processing module for generating a spectrum and a spectrogram of the voice signal.
상기 제 1 채널 모듈은 1차원 CNN(convolutional neural network)을 이용하여 상기 스펙트럼 특징을 추출하고,
상기 제 2 채널 모듈은 2차원 CNN을 이용하여 상기 공간 특징을 추출하는 것인, 감정 인식 장치.According to claim 1,
The first channel module extracts the spectral features using a one-dimensional convolutional neural network (CNN);
Wherein the second channel module extracts the spatial feature using a two-dimensional CNN.
상기 융합 계층 모듈은 하기의 수학식에 따라 상기 공동 공간스펙트럼 특징 벡터를 생성하는 것인, 감정 인식 장치.
[수학식 1]
F1(Rn)은 스펙트럼 특징을 나타내고, F2(Cn)은 공간 특징을 나타내고,W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타내고, 는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는 으로 정의됨According to claim 1,
Wherein the fusion layer module generates the joint spatial spectrum feature vector according to the following equation.
[Equation 1]
F 1 (R n ) denotes a spectral feature, F 2 (C n ) denotes a spatial feature, W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation. , is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is defined as
상기 최적 특징 선택 모듈은 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택하되, 수학식 2에 따라 공동 공간 스펙트럼 특징 벡터를 정규화하고, 수학식 3에 따라 인덱스를 정렬하는 것인, 감정 인식 장치.
[수학식 2]
i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장됨
[수학식 3]
인덱스(index)는 정규화된 특징 "x"의 길이로 정렬되고, 대상(target)은 실제 출력을 나타냄According to claim 1,
The optimal feature selection module selects the optimal feature according to the Iterative Neighbor Component Analysis (INCA) method, normalizes the joint spatial spectrum feature vector according to Equation 2, and sorts the index according to Equation 3 That is, an emotion recognition device.
[Equation 2]
i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X
[Equation 3]
index is ordered by the length of the normalized feature "x", and target represents the actual output
상기 감정 분류 모델은 소프트 맥스 손실함수를 통해 상기 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 감정 인식 장치.According to claim 1,
wherein the emotion classification model calculates a loss for the output of the optimal feature selection module through a soft max loss function, and performs weight update in a direction that minimizes the loss.
발화자의 음성 신호를 수신하는 단계, 및
수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함하되,
상기 감정 분류 모델은
(a) 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 단계;
(b) 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 단계;
(c) 상기 스펙트럼 특징과 상기 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성하는 단계;
(d) 상기 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택하는 단계; 및
(e) 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 단계를 수행하는 것인, 음성 기반 감정 인식 장치를 이용한 감정 인식 방법.In the emotion recognition method using a voice-based emotion recognition device,
Receiving a speaker's voice signal; and
Classifying the speaker's emotion by inputting the received voice signal into an emotion classification model,
The emotion classification model is
(a) extracting spectral features from the spectrum of the speech signal;
(b) extracting spatial features from the spectrogram of the speech signal;
(c) generating a joint spatial spectral feature vector from the spectral feature and the spatial feature;
(d) selecting optimal features from the common spatial spectral feature vectors; and
(e) performing emotion classification on the selected optimal feature, the emotion recognition method using a voice-based emotion recognition device.
상기 감정 분류 모델은 상기 (a) 단계의 수행전에 상기 음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리 단계를 수행하는 것인, 감정 인식 방법.According to claim 7,
Wherein the emotion classification model performs a preprocessing step of generating a spectrum and a spectrogram for the voice signal before performing step (a).
상기 (a) 단계는 1차원 CNN을 이용하여 상기 스펙트럼 특징을 추출하고,
상기 (b) 단계는 2차원 CNN을 이용하여 상기 공간 특징을 추출하는 것인, 감정 인식 방법.According to claim 7,
The step (a) extracts the spectral features using a 1-dimensional CNN,
Wherein step (b) is to extract the spatial features using a two-dimensional CNN.
상기 (c) 단계는 하기의 수학식에 따라 상기 공동 공간스펙트럼 특징 벡터를 생성하는 것인, 감정 인식 방법.
[수학식 1]
F1(Rn)은 스펙트럼 특징을 나타내고, F2(Cn)은 공간 특징을 나타내고,W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타내고, 는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는 으로 정의됨According to claim 7,
Wherein step (c) is to generate the joint spatial spectrum feature vector according to the following equation.
[Equation 1]
F 1 (R n ) denotes a spectral feature, F 2 (C n ) denotes a spatial feature, W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation. , is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is defined as
상기 (d) 단계는 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택하되, 수학식 2에 따라 공동 공간 스펙트럼 특징 벡터를 정규화하고, 수학식 3에 따라 인덱스를 정렬하는 것인, 감정 인식 방법.
[수학식 2]
i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장됨
[수학식 3]
인덱스(index)는 정규화된 특징 "x"의 길이로 정렬되고, 대상(target)은 실제 출력을 나타냄According to claim 7,
Step (d) selects the optimal feature according to the Iterative Neighbor Component Analysis (INCA) method, normalizes the joint spatial spectrum feature vector according to Equation 2, and sorts the index according to Equation 3 That is, an emotion recognition method.
[Equation 2]
i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X
[Equation 3]
index is ordered by the length of the normalized feature "x", and target represents the actual output
상기 (e) 단계는 소프트 맥스 손실함수를 통해 상기 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 감정 인식 방법.According to claim 7,
Wherein step (e) calculates a loss for the output of the optimal feature selection module through a soft max loss function, and performs weight update in a direction that minimizes the loss.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210088522A KR102549122B1 (en) | 2021-07-06 | 2021-07-06 | Method and apparatus for recognizing speaker’s emotions based on speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210088522A KR102549122B1 (en) | 2021-07-06 | 2021-07-06 | Method and apparatus for recognizing speaker’s emotions based on speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230007781A true KR20230007781A (en) | 2023-01-13 |
KR102549122B1 KR102549122B1 (en) | 2023-06-29 |
Family
ID=84900025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210088522A KR102549122B1 (en) | 2021-07-06 | 2021-07-06 | Method and apparatus for recognizing speaker’s emotions based on speech signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102549122B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101564176B1 (en) | 2014-12-15 | 2015-10-28 | 연세대학교 산학협력단 | An emotion recognition system and a method for controlling thereof |
-
2021
- 2021-07-06 KR KR1020210088522A patent/KR102549122B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101564176B1 (en) | 2014-12-15 | 2015-10-28 | 연세대학교 산학협력단 | An emotion recognition system and a method for controlling thereof |
Non-Patent Citations (5)
Title |
---|
Mei,Xiaoguang et.al, Spectral-Spatial Attention Networks for Hyperspectral Image Classification, Remote sensing, MDPI AG, Apr. 2019, Vol.11, no.8, pp.963* * |
Mustaqeem et.al, Att-Net: Enhanced emotion recognition system using lightweight self-attention module, Applied soft computing, Elsevier, Apr. 2021, Vol.102, pp.107101* * |
Mustaqeem et.al, Clustering-Based Speech Emotion Recognition by Incorporating Learned Features and Deep BiLSTM, IEEE access : practical research, open solutions, IEEE, 2020, Vol.8, pp.79861-79875* * |
Mustaqeem,Soonil Kwon, Optimal feature selection based speech emotion recognition using two-stream deep convolutional neural network, International Journal of Intelligent Systems, May. 2021* * |
Ozyurt, Fatih , Novel Multi Center and Threshold Ternary Pattern Based Method for Disease Detection Method Using Voice, IEEE access : practical research, open solutions, IEEE, 2020.05, Vol.8, pp.84532-84540* * |
Also Published As
Publication number | Publication date |
---|---|
KR102549122B1 (en) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102071582B1 (en) | Method and apparatus for classifying a class to which a sentence belongs by using deep neural network | |
US10332510B2 (en) | Method and apparatus for training language model and recognizing speech | |
CN110379409B (en) | Speech synthesis method, system, terminal device and readable storage medium | |
Sultana et al. | Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks | |
US11908457B2 (en) | Orthogonally constrained multi-head attention for speech tasks | |
CN104331442A (en) | Video classification method and device | |
Gopi | Digital speech processing using Matlab | |
KR102541660B1 (en) | Method and apparatus for recognizing emtions based on speech signal | |
Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
KR20210052036A (en) | Apparatus with convolutional neural network for obtaining multiple intent and method therof | |
Qayyum et al. | Quran reciter identification: A deep learning approach | |
CN113196385B (en) | Method and system for audio signal processing and computer readable storage medium | |
Adiga et al. | Multimodal emotion recognition for human robot interaction | |
Amjad et al. | Recognizing semi-natural and spontaneous speech emotions using deep neural networks | |
Tuncer et al. | A novel spiral pattern and 2D M4 pooling based environmental sound classification method | |
Akbal et al. | Development of novel automated language classification model using pyramid pattern technique with speech signals | |
KR20230141828A (en) | Neural networks using adaptive gradient clipping | |
Kumar et al. | A comparative study on deep learning techniques for bird species recognition | |
Boddapati | Classifying Environmental sounds with image networks | |
Chew et al. | Facial expression recognition via enhanced stress convolution neural network for stress detection | |
KR102549122B1 (en) | Method and apparatus for recognizing speaker’s emotions based on speech signal | |
Saranya et al. | Speech Emotion Recognition with High Accuracy and Large Datasets using Convolutional Neural Networks | |
JP2016162437A (en) | Pattern classification device, pattern classification method and pattern classification program | |
Benmachiche et al. | Development of a biometric authentication platform using voice recognition | |
Rajasekhar et al. | A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |