KR20230007781A - Method and apparatus for recognizing speaker’s emotions based on speech signal - Google Patents

Method and apparatus for recognizing speaker’s emotions based on speech signal Download PDF

Info

Publication number
KR20230007781A
KR20230007781A KR1020210088522A KR20210088522A KR20230007781A KR 20230007781 A KR20230007781 A KR 20230007781A KR 1020210088522 A KR1020210088522 A KR 1020210088522A KR 20210088522 A KR20210088522 A KR 20210088522A KR 20230007781 A KR20230007781 A KR 20230007781A
Authority
KR
South Korea
Prior art keywords
feature
spatial
emotion
voice signal
module
Prior art date
Application number
KR1020210088522A
Other languages
Korean (ko)
Other versions
KR102549122B1 (en
Inventor
권순일
무스타킴
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020210088522A priority Critical patent/KR102549122B1/en
Publication of KR20230007781A publication Critical patent/KR20230007781A/en
Application granted granted Critical
Publication of KR102549122B1 publication Critical patent/KR102549122B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

In accordance with one aspect of the present invention, an emotion recognition apparatus recognizing emotions of a speaker based on a voice signal, includes: a memory storing a voice-based emotion recognition program; and a processor executing the program stored in the memory. The voice-based emotion recognition program receives a voice signal of a speaker, and inputs the received voice signal into an emotion classification model to classify emotions of the speaker, wherein the emotion classification model includes: a first channel module extracting spectral features from the spectrum of the voice signal; a second channel module extracting spatial features from the spectrogram of the voice signal; a fusion layer module generating a joint spatial-spectral feature vector from the spectral features outputted from the first channel module and the spatial features outputted from the second channel module; an optimal feature selection module selecting optimal features from the fusion layer module; and a classifier module performing emotion classification with respect to the selected optimal features. Therefore, the present invention is capable of removing redundancy and selecting optimal features.

Description

음성 신호에 기반한 발화자의 감정 인식 장치 및 방법{METHOD AND APPARATUS FOR RECOGNIZING SPEAKER’S EMOTIONS BASED ON SPEECH SIGNAL}Apparatus and method for recognizing speaker's emotion based on voice signal

본 발명은 기계 학습 모델을 통해 음성 신호의 스펙트럼 및 스펙트로그램으로부터 발화자의 감정을 인식할 수 있는 음성 기반 감정 인식 장치 및 방법에 관한 것이다.The present invention relates to a voice-based emotion recognition apparatus and method capable of recognizing a speaker's emotion from a spectrum and a spectrogram of a voice signal through a machine learning model.

사람의 음성을 통해 발화자의 감정을 인식하는 기술에 대한 연구가 진행되고 있다. 특히, 인공 지능 기술이나 기계 학습 기술을 이용하는, 스마트 음성 감정 인식(SER, Speech Emotion Recognition) 기술은 디지털 오디오 신호 처리의 새로운 분야로 알려지고 있으며, 인간-컴퓨터 상호 작용(HCI, Human Computer Interface) 기술과 관련된 많은 응용 프로그램에서 중요한 역할을 할것으로 기대하고 있다.Research on a technology for recognizing a speaker's emotion through a human voice is being conducted. In particular, smart speech emotion recognition (SER, Speech Emotion Recognition) technology using artificial intelligence technology or machine learning technology is known as a new field of digital audio signal processing, and human-computer interaction (HCI, Human Computer Interface) technology It is expected to play an important role in many applications related to

기존의 연구는 음성 신호에서 감정인식을 모델링 하기위해 다양한 수의 심층 신경망(DNN)을 도입하고 있다. 예를 들어, 원본 오디오 샘플에서 중요한 신호를 감지하는 DNN 모델이 제안되거나, 오디오 녹음의 특정 표현을 사용하여 모델에 대한 입력을 제공하는 기술이 제안되었다.Existing studies have introduced various numbers of deep neural networks (DNNs) to model emotion recognition in voice signals. For example, DNN models have been proposed that detect important signals in raw audio samples, or techniques that provide input to models using specific representations of audio recordings have been proposed.

특히, 기존의 많은 연구들은 효율적인 음성을 이용한 감정인식 시스템을 위해 음성 스펙트로그램, 원 음성 신호 및 log-Mel 스펙트로그램과 같은 다양한 입력 유형의 음성신호를 사용하여 감정인식을 시도해 왔다. 그러나 이러한 방법들은 감정인식을 위해 일부 정보만을 사용하는 모델이며, 완전하지 못한 정보를 시스템에 제공한다. 정확한 음성기반 감정인식 시스템을 만들기 위해서는 다양한 음성관련 정보를 통합적으로 활용하는 것이 중요하며, 본 발명에서는 이와 같이, 다양한 음성관련 정보를 활용하는 감정인식 시스템을 제공하고자 한다.In particular, many previous studies have attempted emotion recognition using various input types of voice signals such as voice spectrogram, original voice signal, and log-Mel spectrogram for an efficient voice-based emotion recognition system. However, these methods are models that use only partial information for emotion recognition, and provide incomplete information to the system. In order to create an accurate voice-based emotion recognition system, it is important to use various voice-related information in an integrated manner, and the present invention intends to provide an emotion recognition system that utilizes various voice-related information.

대한민국 등록특허공보 제10-1564176호 (발명의 명칭: 감정 인식 시스템 및 그 제어 방법)Republic of Korea Patent Registration No. 10-1564176 (Title of Invention: Emotion Recognition System and Control Method)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성신호의 음성 스펙트럼과 스펙트로그램으로부터 추출되는 특징 정보를 활용하여 음성으로부터 발화자의 감정을 분류할 수 있는 음성 기반 감정 인식 장치 및 방법을 제공하는데 목적이 있다. The present invention is to solve the above-mentioned problems of the prior art, and provides a voice-based emotion recognition apparatus and method capable of classifying a speaker's emotion from a voice by utilizing feature information extracted from a voice spectrum and a spectrogram of a voice signal. has a purpose to

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치는 음성 기반 감정 인식 프로그램이 저장된 메모리; 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 수신하고, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되, 상기 감정 분류 모델은 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈, 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈, 상기 제 1 채널 모듈에서 출력된 스펙트럼 특징과 상기 제 2 채널 모듈에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈, 상기 융합 계층 모듈의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈 및 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈을 포함하는 것이다.As a technical means for solving the above technical problem, an emotion recognition device for recognizing a speaker's emotion based on a voice signal according to an aspect of the present invention includes a memory in which a voice-based emotion recognition program is stored; and a processor executing a program stored in the memory. A voice-based emotion recognition program receives a voice signal of a speaker, inputs the received voice signal to an emotion classification model to classify the speaker's emotion, and the emotion classification model extracts a spectral feature from the spectrum of the voice signal. A first channel module, a second channel module for extracting spatial features from the spectrogram of the voice signal, and a joint spatial spectrum feature vector from the spectral features output from the first channel module and the spatial features output from the second channel module. It includes a convergence layer module to generate, an optimal feature selection module to select an optimal feature from the output of the convergence layer module, and a classifier module to perform emotion classification on the selected optimal feature.

또한, 본 발명의 다른 측면에 따른 음성 기반 감정 인식 장치를 이용한 음성 기반 감정 인식 장치를 이용한 감정 인식 방법은 발화자의 음성 신호를 수신하는 단계 및 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함한다. 이때, 감정 분류 모델은 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 단계; 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 단계; 스펙트럼 특징과 상기 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성하는 단계; 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택하는 단계; 및 선택된 최적의 특징에 대하여 감정 분류를 수행하는 단계를 수행한다.In addition, an emotion recognition method using a voice-based emotion recognition device according to another aspect of the present invention includes the steps of receiving a voice signal of a speaker and inputting the received voice signal to an emotion classification model to determine the speaker's emotion It includes the step of classifying. At this time, the emotion classification model extracts a spectrum feature from the spectrum of the voice signal; extracting spatial features from the spectrogram of the speech signal; generating a joint spatial spectral feature vector from the spectral features and the spatial features; selecting optimal features from joint spatial spectral feature vectors; and performing emotion classification on the selected optimal feature.

전술한 본원의 과제 해결 수단에 의하면, 음성 신호에 포함된 스펙트럼 특징과 공간적 특징을 효과적으로 추출하여, 발화자의 감정을 자동으로 분류할 수 있다.According to the above-mentioned problem solving means of the present application, it is possible to automatically classify a speaker's emotion by effectively extracting spectral features and spatial features included in a voice signal.

종래의 경우, 스펙트럼 또는 스펙트로그램에서 추출되는 단일 특징만으로 감정을 분류하기 때문에, 언어 정보 손실로 인한 어려움을 겪었다. 본 발명에서는 스펙트럼 분석 및 공간 특징 분석을 모두 사용하기 때문에, 음성 신호의 정보를 최대한 활용하여 감정 인식을 수행할 수 있다.In the conventional case, since emotion is classified only with a single feature extracted from a spectrum or spectrogram, it suffers from loss of language information. Since the present invention uses both spectrum analysis and spatial feature analysis, emotion recognition can be performed by maximally utilizing information of a voice signal.

또한, 음성 신호에서 추출되는 스펙트럼 특징과 공간 특징에 기초하여 공동 공간 스펙트럼 특징 벡터를 생성하고, 그로부터 최적의 특징을 선택하기 위한 알고리즘을 수행하기 때문에, 중복성을 제거하고 최적의 특징을 선택할 수 있다.In addition, since a joint spatial spectral feature vector is generated based on the spectral and spatial features extracted from the voice signal and an algorithm for selecting an optimal feature is performed therefrom, it is possible to remove redundancy and select an optimal feature.

도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 프로그램에 포함된 감정 분류 모델의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 감정 분류 모델의 구체적인 구성을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 감정 인식 방법을 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 감정 분류 모델의 성능 평가 결과를 도시한 것이다.
1 is a block diagram showing the configuration of a voice-based emotion recognition apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating the configuration of an emotion classification model included in a voice-based emotion recognition program according to an embodiment of the present invention.
3 is a flowchart illustrating a specific configuration of an emotion classification model according to an embodiment of the present invention.
4 is a flowchart illustrating an emotion recognition method according to an embodiment of the present invention.
5 illustrates performance evaluation results of an emotion classification model according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present application will be described in detail so that those skilled in the art can easily practice with reference to the accompanying drawings. However, the present disclosure may be implemented in many different forms and is not limited to the embodiments described herein. And in order to clearly describe the present application in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is said to be "connected" to another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element in between. do.

본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout the present specification, when a member is said to be located “on” another member, this includes not only a case where a member is in contact with another member, but also a case where another member exists between the two members.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 프로그램에 포함된 감정 분류 모델의 구성을 도시한 블록도이다.1 is a block diagram showing the configuration of a voice-based emotion recognition device according to an embodiment of the present invention, and FIG. 2 shows the configuration of an emotion classification model included in a voice-based emotion recognition program according to an embodiment of the present invention. It is a block diagram shown.

도시된 바와 같이 음성 기반 감정 인식 장치(100)는 통신 모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함할 수 있다. 또한, 음성 기반 감정 인식 장치(100)는 마이크 등을 내장할 수 있으며, 이를 통해 직접 음성 신호를 생성하는 것도 가능하다. As shown, the voice-based emotion recognition device 100 may include a communication module 110, a memory 120, a processor 130, and a database 140. In addition, the voice-based emotion recognition apparatus 100 may have a built-in microphone, and it is also possible to directly generate a voice signal through this.

음성 기반 감정 인식 장치(100)는 각 사용자 단말로부터 음성 신호를 수신하고, 그로부터 감정 분류 결과를 제공하는 서버로서 동작할 수 있다. 이러한 경우, 음성 기반 감정 인식 장치(100)는 SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서비스 모델에서 동작할 수 있다. 또한, 음성 기반 감정 인식 장치(100)는 사설(private) 클라우드, 공용(public) 클라우드 또는 하이브리드(hybrid) 클라우드와 같은 형태로 구축될 수 있다.The voice-based emotion recognition apparatus 100 may operate as a server that receives voice signals from each user terminal and provides emotion classification results therefrom. In this case, the voice-based emotion recognition device 100 may operate in a cloud computing service model such as Software as a Service (SaaS), Platform as a Service (PaaS), or Infrastructure as a Service (IaaS). In addition, the voice-based emotion recognition device 100 may be built in the form of a private cloud, a public cloud, or a hybrid cloud.

통신 모듈(110)은 발화자의 음성 신호를 외부 기기로부터 수신하는 것으로서, 각종 스마트 단말에 연결된 마이크 등을 통해 입력된 음성 신호를 통신망(300)을 통해 수신할 수 있다. 또한 통신 모듈(110)은 각종 외부 장치(서버 또는 단말) 로부터 음성 기반 감정 인식 프로그램 등의 업데이트 정보 등을 수신하여 프로세서(130)로 전송할 수 있다.The communication module 110 receives a voice signal of a talker from an external device, and may receive a voice signal input through a microphone connected to various smart terminals through the communication network 300 . In addition, the communication module 110 may receive update information such as a voice-based emotion recognition program from various external devices (servers or terminals) and transmit the received update information to the processor 130 .

통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.The communication module 110 may be a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals with other network devices through wired or wireless connections.

메모리(120)에는 발화자의 음성을 기반으로 발화자의 감정을 분류하는 음성 기반 감정 인식 프로그램이 저장된다. 이러한 메모리(120)에는 음성 기반 감정 인식 장치(100)의 구동을 위한 운영 체제나 음성 기반 감정 인식 프로그램의 실행 과정에서 발생되는 여러 종류가 데이터가 저장된다. The memory 120 stores a voice-based emotion recognition program for classifying the speaker's emotion based on the speaker's voice. The memory 120 stores various types of data generated during the execution of an operating system for driving the voice-based emotion recognition device 100 or a voice-based emotion recognition program.

이때, 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 통신 모듈(110)을 통해 수신하고, 수신한 음성 신호를 감정 분류 모델(200)에 입력하여 발화자의 감정을 분류한다. 이때, 감정 분류 모델(200)은 음성 신호로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈(220), 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈(230), 제 1 채널 모듈(220)에서 출력된 스펙트럼 특징과 제 2 채널 모듈(230)에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈(240), 융합 계층 모듈(240)의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈(250) 및 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈(260)을 포함한다. 음성 기반 감정 인식 프로그램의 구체적인 내용에 대해서는 추후 설명하기로 한다.At this time, the voice-based emotion recognition program receives the speaker's voice signal through the communication module 110 and inputs the received voice signal to the emotion classification model 200 to classify the speaker's emotion. At this time, the emotion classification model 200 includes a first channel module 220 that extracts spectral features from the voice signal, a second channel module 230 that extracts spatial features from the spectrogram of the voice signal, and a first channel module 220 From the spectral features output from ) and the spatial features output from the second channel module 230, the convergence layer module 240 that generates a joint spatial spectrum feature vector, and the optimal feature is selected from the output of the convergence layer module 240. and a classifier module 260 that performs emotion classification on the selected optimal feature. Details of the voice-based emotion recognition program will be described later.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다. At this time, the memory 120 collectively refers to a non-volatile storage device that continuously retains stored information even when power is not supplied and a volatile storage device that requires power to maintain stored information.

또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Also, the memory 120 may temporarily or permanently store data processed by the processor 130 . Here, the memory 120 may include magnetic storage media or flash storage media in addition to a volatile storage device that requires power to maintain stored information, but the scope of the present invention is limited thereto it is not going to be

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행하되, 음성 기반 감정 인식 프로그램의 실행에 따라, 감정 분류 모델의 구축 과정과 구축된 감정 분류 모델을 통해 음성을 기반으로 발화자의 감정을 분류하는 작업을 수행한다.The processor 130 executes the program stored in the memory 120, and classifies the speaker's emotion based on the voice through the process of building the emotion classification model and the built emotion classification model according to the execution of the voice-based emotion recognition program. Do the work.

이러한 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The processor 130 may include any type of device capable of processing data. For example, it may refer to a data processing device embedded in hardware having a physically structured circuit to perform a function expressed as a code or command included in a program. As an example of such a data processing device built into hardware, a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated (ASIC) circuit), field programmable gate array (FPGA), etc., but the scope of the present invention is not limited thereto.

데이터베이스(140)는 프로세서(130)의 제어에 따라, 음성 기반 감정 인식 장치(100)에 필요한 데이터를 저장 또는 제공한다. 이러한 데이터베이스(140)는 메모리(120)와는 별도의 구성 요소로서 포함되거나, 또는 메모리(120)의 일부 영역에 구축될 수도 있다.The database 140 stores or provides data necessary for the voice-based emotion recognition device 100 under the control of the processor 130 . The database 140 may be included as a component separate from the memory 120 or may be built in a partial area of the memory 120 .

한편, 음성 기반 감정 인식 장치(100)는 장치(100)에 내장되거나 이에 접속된 마이크 등을 통해 발화자의 음성 신호를 녹음하여, 음성 신호를 직접 생성하는 동작도 수행할 수 있으며, 이에 대해 감정 인식을 수행할 수 있다.On the other hand, the voice-based emotion recognition device 100 may perform an operation of directly generating a voice signal by recording a speaker's voice signal through a microphone built into or connected to the device 100, and for this, emotion recognition can be performed.

도 3은 본 발명의 일 실시예에 따른 감정 분류 모델의 구체적인 구성을 도시한 순서도이다.3 is a flowchart illustrating a specific configuration of an emotion classification model according to an embodiment of the present invention.

도 2와 도 3을 함께 참조하여 설명하면, 음성 신호가 수신되면, 음성 신호 전처리 모듈(210)를 통해 음성 신호에 대한 스펙트럼과 스펙트로그램을 각각 생성하는 전처리를 수행한다. Referring to FIGS. 2 and 3 together, when a voice signal is received, preprocessing is performed to generate a spectrum and a spectrogram of the voice signal, respectively, through the voice signal preprocessing module 210 .

먼저, 음성 신호를 입력으로 하고, 아래 수학식 1에 정의된 RMS(Root Mean Square) 함수를 통해 정규화를 수행한다.First, a voice signal is used as an input and normalization is performed through a Root Mean Square (RMS) function defined in Equation 1 below.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

RMS의 전체 결과는 "R"로 표시되고, 음성 신호의 스케일링 인자는 "f"로 표시되며, 음성 신호의 진폭 변화는 "s"로 직접 수행된다.The overall result of RMS is denoted by "R", the scaling factor of the speech signal is denoted by "f", and the amplitude change of the speech signal is directly performed by "s".

RMS 함수를 통해 정규화된 음성 세그먼트는 스펙트럼 분석을 위해 제 1 채널 모듈(220)로 전송된다.The speech segments normalized via the RMS function are sent to the first channel module 220 for spectral analysis.

또한, 전처리 모듈(210)은 단시간 푸리에 변환(STFT)를 이용하여, 정규화된 음성 세그먼트를 스펙트로그램으로 변환하고, 이를 제 2 채널 모듈(230)로 전송한다. 스펙트로그램은 음성 신호를 2차원 이미지 형태로 시각적으로 표현한 것으로, 2D CNN 모델이 다양한 감정을 인식하기 위해 높은 수준의 특징을 추출하는 데 가장 적합하다.In addition, the pre-processing module 210 transforms the normalized speech segment into a spectrogram using a short-time Fourier transform (STFT), and transmits it to the second channel module 230. A spectrogram is a visual representation of a voice signal in the form of a two-dimensional image, and a 2D CNN model is most suitable for extracting high-level features to recognize various emotions.

제 1 채널 모듈(220)은 전처리 모듈(210)로부터 수신한 스펙트럼 음성 신호로부터 스펙트럼 특징을 추출한다. 본 발명에서는 제 1 채널 모듈(220)로서 CNN(convolutional neural network)을 사용한다.The first channel module 220 extracts spectral features from the spectral speech signal received from the preprocessing module 210 . In the present invention, a convolutional neural network (CNN) is used as the first channel module 220.

제 1 채널 모듈(220)은 확장된 CNN(dilated CNN)을 사용할 수 있다. 제 1 채널 모듈(220)은 음성 신호의 n 번째 세그먼트(Rn)에 대한 스펙트럼을 입력으로서 수신하고, 해당 세그먼트에 대한 스펙트럼 특징(F1(Rn))을 추출하는데, 이를 위해 아래의 수학식 2를 사용할 수 있다. The first channel module 220 may use a dilated CNN (CNN). The first channel module 220 receives the spectrum for the n-th segment (Rn) of the voice signal as an input and extracts the spectrum feature (F1(Rn)) for the segment. To this end, Equation 2 below is used. can be used

[수학식 2][Equation 2]

Figure pat00002
Figure pat00002

이때,

Figure pat00003
Figure pat00004
특징맵에 대하여 카테고리적으로 연결된 네트워크 레이어(L-1)에서의 특징맵을 나타내고,
Figure pat00005
Figure pat00006
에 대한 컨볼루션 커널을 나타내고,
Figure pat00007
는 바이어스, *는 컨볼루션 연산자,
Figure pat00008
는 Relu나 시그모이드와 같은 비선형 활성함수를 나타낸다.At this time,
Figure pat00003
silver
Figure pat00004
Indicates a feature map in a network layer (L-1) connected categorically with respect to the feature map,
Figure pat00005
silver
Figure pat00006
Represents the convolution kernel for
Figure pat00007
is the bias, * is the convolution operator,
Figure pat00008
represents a non-linear activation function such as Relu or sigmoid.

제 1 채널 모듈(220)에 입력되는 입력 텐서(Rn)는 1차원 신호이므로, 1차원 컨볼루션 및 풀링 레이어를 사용하여, 1차원 계산을 수행하고, 그에 대한 스펙트럼 특징을 추출한다.Since the input tensor Rn input to the first channel module 220 is a 1D signal, 1D calculation is performed using a 1D convolution and pooling layer, and spectral features thereof are extracted.

제 2 채널 모듈(230)은 전처리 모듈(210)로부터 수신한 음성 신호의 스펙트로그램으로부터 공간 특징을 추출한다. 본 발명에서는 제 2 채널 모듈(230)로서 2차원 CNN을 사용한다.The second channel module 230 extracts spatial features from the spectrogram of the voice signal received from the preprocessing module 210 . In the present invention, a 2D CNN is used as the second channel module 230.

제 2 채널 모듈(230)은 확장된 CNN(dilated CNN)을 사용할 수 있다. 제 2 채널 모듈(230)은 입력 스펙트로그램(Cn)을 수신하고, 공간 특징(F2(Cn))을 추출한다. 이때, 제 2 채널 모듈(230)은 도시된 바와 같이, 확장된 CNN 계층 및 BN(Batch Normalization) 계층 서로 교호하면서 복수개가 배치된 구성과, 풀링 계층을 포함하여 이루어질 수 있다.The second channel module 230 may use a dilated CNN (CNN). The second channel module 230 receives the input spectrogram Cn and extracts a spatial feature F2(Cn). At this time, as shown, the second channel module 230 may include a configuration in which a plurality of extended CNN layers and BN (Batch Normalization) layers are alternately arranged and a pooling layer.

융합 계층 모듈(240)은 제 1 채널 모듈(220)에서 출력된 스펙트럼 특징과 제 2 채널 모듈(230)에서 출력된 공간 특징으로부터, 공동 공간 스펙트럼 특징(Spatial & sepctral fused features)을 나타내는 공동 공간 스펙트럼 특징 벡터를 생성한다. 이를 위해 아래의 수학식 3을 사용할 수 있다.The fusion layer module 240 generates a common spatial spectrum representing spatial & sepctral fused features from the spectral features output from the first channel module 220 and the spatial features output from the second channel module 230. Create feature vectors. For this purpose, Equation 3 below can be used.

[수학식 3][Equation 3]

Figure pat00009
Figure pat00009

W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타낸다.

Figure pat00010
는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는
Figure pat00011
으로 정의된다.W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation.
Figure pat00010
is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is
Figure pat00011
is defined as

최적 특징 선택 모듈(250)은 융합 계층 모듈의 출력으로부터 최적의 특징을 선택한다. 최적 특징 선택 모듈(250)은 여러 가지 특징 선택 알고리즘에 의해 구현될 수 있다. Optimal feature selection module 250 selects the optimal feature from the output of the fusion layer module. Optimal feature selection module 250 may be implemented by various feature selection algorithms.

예를 들어, NCA (Neighbor Component Analysis) 방법이 알려져 있다. NCA는 다변량 데이터를 여러 클래스로 분류하는 지도 학습 방법으로서, 거리 기반 방법이며 양의 가중치 특징을 선택하는 방법으로서 많이 사용되고 있는데, 중복성과 불일치로 인해 분류기가 최적의 특징을 선택하기 어렵게하는 문제가 있다. 이러한 문제를 해결하기 위해 중복성을 자동으로 제거하고 최적의 특징 개수를 선택하는 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis)을 제안하였다.For example, a Neighbor Component Analysis (NCA) method is known. NCA is a supervised learning method that classifies multivariate data into several classes. It is a distance-based method and is widely used as a method for selecting positive weight features. . To solve this problem, we proposed Iterative Neighbor Component Analysis (INCA), which automatically removes redundancies and selects the optimal number of features.

INCA는 작업(task)에 따라 특징 벡터의 길이를 선택하는데, 이는 NCA 특징 선택 방법을 활용하는 것으로서, 다음과 같은 단계를 수행한다.INCA selects the length of the feature vector according to the task, which utilizes the NCA feature selection method, and performs the following steps.

먼저, 수학식 4에 의해 NCA를 효과적으로 사용하는 최소-최대 정규화 방법을 적용하여 공동공간 스펙트럼 특징 벡터를 정규화한다.First, the common space spectral feature vector is normalized by applying a minimum-maximum normalization method that effectively uses NCA according to Equation 4.

[수학식 4][Equation 4]

Figure pat00012
Figure pat00012

이때, i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장된다. 정규화 이후 NCA에 따라 수학식 5를 사용하여 인덱스를 정렬한다.In this case, i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X. After normalization, indexes are sorted according to NCA using Equation 5.

[수학식 5][Equation 5]

Figure pat00013
Figure pat00013

이 방정식을 사용하여 인덱스는 정규화된 특징 "x"의 길이로 정렬되고 대상(target)은 실제 출력을 나타낸다. 인덱스를 사용한 반복적 특징 선택은 정의되지 않은 특징 범위로 인해 계산 복잡성이 높다. 비용을 줄이기 위해 "x = {1, 2, 3… 1000}"과 같이 특징 개수를 제한한 다음 선택한 특징들에서 최소 오류율을 찾는다. 마지막으로 인덱스 값을 사용하여 최적의 특징을 선택하고 최종 예측을 위한 추가 프로세스를 수행한다.Using this equation, the indices are ordered by the length of the normalized feature "x" and the target represents the actual output. Iterative feature selection using indices has high computational complexity due to undefined feature ranges. To reduce the cost, the number of features is limited like “x = {1, 2, 3…1000}” and then the minimum error rate is found from the selected features. Finally, we use the index value to select the optimal feature and perform an additional process for final prediction.

분류기 모듈(260)은 선택된 최적의 특징에 대하여 감정 분류를 수행한다. 예를 들면, 최적의 특징에 대한 출력으로서 발화자의 감정 상태를 '화남', '슬픔', '행복', '보통' 등으로 분류할 수 있다. 이를 위해, 분류기 모듈(260)은 복수의 학습 데이터를 이용하여 반복적으로 학습되며, 다음과 같은 수학식 6에 의해 정의되는 소프트 맥스 손실 함수를 사용하여, 최적 특징 선택 모듈(250)의 출력에 대한 손실을 산출하고, 손실을 최소화하는 방향으로 가중치 업데이트를 수행한다.The classifier module 260 performs emotion classification on the selected optimal feature. For example, the speaker's emotional state may be classified as 'angry', 'sad', 'happy', or 'normal' as an output of the optimal feature. To this end, the classifier module 260 is iteratively learned using a plurality of training data, and using a soft max loss function defined by Equation 6 as follows, for the output of the optimal feature selection module 250 The loss is calculated, and the weight update is performed in a direction that minimizes the loss.

[수학식 6][Equation 6]

Figure pat00014
Figure pat00014

N 는 훈련 데이터의 전체 개수를 나타내고, L(n)은 n번째 훈련 데이터의 실측 레이블(ground truth label)을 나타내고,

Figure pat00015
은 C(n)의 k 번째 요소를 나타내는 것으로, n번째 훈련 데이터에 대한 k 번째 감정의 확률을 나타낸다. θ 는 커널 및 편향 값을 나타낸다. 1 은 노출 함수(revealing function )로서 괄호 안의 조건이 충족되면 값이 1이되고 그렇지 않으면 0이되는 조건을 갖는다.N represents the total number of training data, L (n) represents the ground truth label of the nth training data,
Figure pat00015
represents the k-th element of C (n) , and represents the probability of the k-th emotion for the n-th training data. θ represents the kernel and bias values. 1 is the revealing function, which has a condition that the value becomes 1 if the conditions in parentheses are met and 0 otherwise.

이와 같은 손실함수를 통해, θ 에 대한 확률적 경사 하강법을 이용하여 최종 예측을 위한 소프트 맥스 계층을 최적화할 수 있다.Through such a loss function, it is possible to optimize the softmax layer for final prediction using the stochastic gradient descent method for θ.

참고로, 본 발명의 일 실시예에 따라면, 모델 학습 중에 가우스 랜덤 분포를 사용하여 표준 분산 0.05와 평균을 사용하여 컨벌루션 연산의 모든 커널을 초기화했다. 그리고, 100개의 학습 에포크가 있는 모든 데이터 세트에 대해 0.0001의 고정 학습률을 사용했다. 전체 훈련 프로세스에 대해 64 개의 배치 사이즈(batch size)를 선택하고 훈련에서 0.215 손실, 검증에서 0.346 손실로 높은 정확도를 달성했다. For reference, according to an embodiment of the present invention, all kernels of the convolution operation are initialized using a standard variance of 0.05 and a mean using a Gaussian random distribution during model learning. And, we used a fixed learning rate of 0.0001 for all datasets with 100 training epochs. We chose a batch size of 64 for the entire training process and achieved high accuracy with a loss of 0.215 in training and 0.346 in validation.

높은 인식 결과를 확보하려면 딥 러닝 모델에 충분한 훈련 데이터가 필요하다. 그러나 SER 분야에서는 실제 라벨링된 데이터가 제한되어 모델 학습에 충분하지 않다. 제한된 학습 데이터로 모델 성능을 개선하기 위해 각 발화를 여러 세그먼트로 나누고 학습 중에 동일한 발화의 모든 세그먼트가 포함된 유사한 실제 레이블을 제공하여 학습을 수행하였다.Deep learning models need sufficient training data to ensure high recognition results. However, in the SER field, the actual labeled data is limited and is not sufficient for model training. To improve model performance with limited training data, training was performed by dividing each utterance into several segments and providing similar true labels containing all segments of the same utterance during training.

한편, 본 발명에 따른 감정 분류 모델에 대한 평가를 위해, 3가지 표준 데이터 베이스를 사용하였는데, 이는 각각 EMO-DB, SAVEE 및 RAVDESS로 알려진 것들이다.Meanwhile, for the evaluation of the emotion classification model according to the present invention, three standard databases were used, which are known as EMO-DB, SAVEE, and RAVDESS, respectively.

이 모든 데이터베이스는 스크립트로 작성되어 있으며 배우는 두려움, 분노, 슬픔, 놀라움, 행복, 침착함과 같은 다양한 감정으로 준비된 문장을 읽는 방법에 의해 데이터가 수집된 것이다. 각각의 데이터베이스는 복수의 남성 또는 여성 배우들이 녹음한 음성 파일을 포함하며, 이는 소정의 샘플링 율에 따라 녹음된 것들이다.All of these databases are written in scripts, and the data is collected by reading prepared sentences with various emotions such as fear, anger, sadness, surprise, happiness, and calm. Each database includes voice files recorded by a plurality of male or female actors, which are recorded according to a predetermined sampling rate.

본 발명에서는 이러한 표준 데이터베이스를 활용하여, 감정 분류 모델을 학습하고, 모델을 평가하였다. 보다 구체적으로 살펴보면, 각 데이터를 각 폴드에서 80 : 20 의 비율로 분할하고, 10 폴드 교차 검증 기법을 활용하여 시스템 성능을 평가했다.In the present invention, an emotion classification model was learned and evaluated using such a standard database. More specifically, each data was split at a ratio of 80:20 in each fold, and the system performance was evaluated using a 10-fold cross-validation technique.

도 4는 본 발명의 일 실시예에 따른 감정 인식 방법을 도시한 순서도이다.4 is a flowchart illustrating an emotion recognition method according to an embodiment of the present invention.

먼저, 감정 인식 장치(100)가 발화자의 음성 신호를 수신한다(S410).First, the emotion recognition apparatus 100 receives the speaker's voice signal (S410).

다음으로, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는데, 다음과 같은 단계를 순차적으로 수행한다.Next, the received voice signal is input to the emotion classification model to classify the speaker's emotion, and the following steps are sequentially performed.

음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리 단계를 수행한다. 앞서 살펴본 바와 같이, 스펙트럼의 생성을 위해, RMS함수를 통해 정규화하는 과정이나, 스펙트로그램의 생성을 위해 단시간 푸리에 변환을 사용할 수 있다.A preprocessing step is performed to generate a spectrum and a spectrogram for the audio signal. As described above, in order to generate a spectrum, a normalization process through an RMS function or a short-time Fourier transform can be used in order to generate a spectrogram.

다음으로, 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출한다(S420). 이를 위해, 제 1 채널 모듈(220)을 통해 1차원 CNN을 이용하여 스펙트럼 특징을 추출한다.Next, spectral features are extracted from the spectrum of the voice signal (S420). To this end, spectral features are extracted using a 1D CNN through the first channel module 220.

다음으로, 음성 신호의 스펙트로그램으로부터 공간 특징을 추출한다(S430). 이를 위해, 제 2 채널 모듈(230)을 통해 2차원 CNN을 이용하여 공간 특징을 추출한다.Next, spatial features are extracted from the spectrogram of the audio signal (S430). To this end, spatial features are extracted using a 2D CNN through the second channel module 230.

다음으로, 스펙트럼 특징과 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성한다(S440). 이를 위해, 앞서 설명한 수학식 3을 이용하여 공동 공간 스펙트럼 특징 벡터(

Figure pat00016
)를 생성한다.Next, a joint spatial spectral feature vector is generated from the spectral feature and the spatial feature (S440). To this end, using Equation 3 described above, the joint space spectral feature vector (
Figure pat00016
) to create

다음으로, 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택한다(S450). 이를 위해, 앞서 설명한 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택한다.Next, an optimal feature is selected from the common space spectral feature vector (S450). To this end, optimal features are selected according to the Iterative Neighbor Component Analysis (INCA) method described above.

다음으로, 선택된 최적의 특징에 대하여 감정 분류를 수행한다(S460). 이를 위해, 소프트 맥스 손실함수를 통해 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 동작을 반복수행한다. 그리고, 이와 같이, 가중치 업데이트가 완료된 감정 분류 모델에 대하여, 분류하고자 하는 음성 신호를 입력하여, 감정을 분류하는 추론 과정을 수행한다.Next, emotion classification is performed on the selected optimal feature (S460). To this end, an operation of calculating a loss for the output of the optimal feature selection module through a soft max loss function and performing weight update in a direction that minimizes the loss is repeatedly performed. In this way, with respect to the emotion classification model whose weights have been updated, a voice signal to be classified is input, and an inference process of classifying emotions is performed.

도 5는 본 발명의 일 실시예에 따른 감정 분류 모델의 성능 평가 결과를 도시한 것이다.5 illustrates performance evaluation results of an emotion classification model according to an embodiment of the present invention.

제안된 모델에 대한 전체적인 예측 결과를 그래프로 도시한 결과 EMO-DB, SAVEE, RAVDESS 데이터 셋에 대해 각각 95 %, 82 %, 85 %의 인식률을 확보 할 수 있음을 확인할 수 있다. As a result of graphing the overall prediction results for the proposed model, it can be confirmed that recognition rates of 95%, 82%, and 85% can be secured for the EMO-DB, SAVEE, and RAVDESS data sets, respectively.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as program modules executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.Although the methods and systems of the present invention have been described with reference to specific embodiments, some or all of their components or operations may be implemented using a computer system having a general-purpose hardware architecture.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present application is for illustrative purposes, and those skilled in the art will understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present application. Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the detailed description above, and all changes or modifications derived from the meaning and scope of the claims and equivalent concepts thereof should be construed as being included in the scope of the present application.

100: 음성 기반 감정 인식 장치
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
200: 감정 분류 모델
210: 음성 신호 전처리 모듈
220: 제 1 채널 모듈
230: 제 2 채널 모듈
240: 융합 계층 모듈
250: 최적 특징 선택 모듈
260: 분류기 모듈
100: voice-based emotion recognition device
110: communication module
120: memory
130: processor
140: database
200: emotion classification model
210: voice signal pre-processing module
220: first channel module
230: second channel module
240: fusion layer module
250: optimal feature selection module
260: classifier module

Claims (12)

음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치에 있어서,
음성 기반 감정 인식 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 신호를 수신하고, 수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되,
상기 감정 분류 모델은 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 제 1 채널 모듈, 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 제 2 채널 모듈, 상기 제 1 채널 모듈에서 출력된 스펙트럼 특징과 상기 제 2 채널 모듈에서 출력된 공간 특징으로부터, 공동 공간스펙트럼 특징 벡터를 생성하는 융합 계층 모듈, 상기 융합 계층 모듈의 출력으로부터 최적의 특징을 선택하는 최적 특징 선택 모듈 및 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 분류기 모듈을 포함하는 것인, 감정 인식 장치.
An emotion recognition device for recognizing a speaker's emotion based on a voice signal,
a memory in which a voice-based emotion recognition program is stored; and
A processor for executing a program stored in the memory;
The voice-based emotion recognition program receives a voice signal of a speaker and inputs the received voice signal to an emotion classification model to classify the speaker's emotion,
The emotion classification model includes a first channel module for extracting a spectrum feature from the spectrum of the voice signal, a second channel module for extracting a spatial feature from the spectrogram of the voice signal, a spectrum feature output from the first channel module and the A fusion layer module for generating a joint spatial spectrum feature vector from the spatial features output from the second channel module, an optimal feature selection module for selecting an optimal feature from the output of the fusion layer module, and emotion classification for the selected optimal feature Emotion recognition device comprising a classifier module that performs.
제 1 항에 있어서,
상기 감정 분류 모델은 상기 음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리모듈을 더 포함하는 것인, 감정 인식 장치.
According to claim 1,
The emotion classification model further comprises a pre-processing module for generating a spectrum and a spectrogram of the voice signal.
제 1 항에 있어서,
상기 제 1 채널 모듈은 1차원 CNN(convolutional neural network)을 이용하여 상기 스펙트럼 특징을 추출하고,
상기 제 2 채널 모듈은 2차원 CNN을 이용하여 상기 공간 특징을 추출하는 것인, 감정 인식 장치.
According to claim 1,
The first channel module extracts the spectral features using a one-dimensional convolutional neural network (CNN);
Wherein the second channel module extracts the spatial feature using a two-dimensional CNN.
제 1 항에 있어서,
상기 융합 계층 모듈은 하기의 수학식에 따라 상기 공동 공간스펙트럼 특징 벡터를 생성하는 것인, 감정 인식 장치.
[수학식 1]
Figure pat00017

F1(Rn)은 스펙트럼 특징을 나타내고, F2(Cn)은 공간 특징을 나타내고,W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타내고,
Figure pat00018
는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는
Figure pat00019
으로 정의됨
According to claim 1,
Wherein the fusion layer module generates the joint spatial spectrum feature vector according to the following equation.
[Equation 1]
Figure pat00017

F 1 (R n ) denotes a spectral feature, F 2 (C n ) denotes a spatial feature, W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation. ,
Figure pat00018
is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is
Figure pat00019
defined as
제 1 항에 있어서,
상기 최적 특징 선택 모듈은 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택하되, 수학식 2에 따라 공동 공간 스펙트럼 특징 벡터를 정규화하고, 수학식 3에 따라 인덱스를 정렬하는 것인, 감정 인식 장치.
[수학식 2]
Figure pat00020

i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장됨
[수학식 3]
Figure pat00021

인덱스(index)는 정규화된 특징 "x"의 길이로 정렬되고, 대상(target)은 실제 출력을 나타냄
According to claim 1,
The optimal feature selection module selects the optimal feature according to the Iterative Neighbor Component Analysis (INCA) method, normalizes the joint spatial spectrum feature vector according to Equation 2, and sorts the index according to Equation 3 That is, an emotion recognition device.
[Equation 2]
Figure pat00020

i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X
[Equation 3]
Figure pat00021

index is ordered by the length of the normalized feature "x", and target represents the actual output
제 1 항에 있어서,
상기 감정 분류 모델은 소프트 맥스 손실함수를 통해 상기 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 감정 인식 장치.
According to claim 1,
wherein the emotion classification model calculates a loss for the output of the optimal feature selection module through a soft max loss function, and performs weight update in a direction that minimizes the loss.
음성 기반 감정 인식 장치를 이용한 감정 인식 방법에 있어서,
발화자의 음성 신호를 수신하는 단계, 및
수신한 음성 신호를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함하되,
상기 감정 분류 모델은
(a) 상기 음성 신호의 스펙트럼으로부터 스펙트럼 특징을 추출하는 단계;
(b) 상기 음성 신호의 스펙트로그램으로부터 공간 특징을 추출하는 단계;
(c) 상기 스펙트럼 특징과 상기 공간 특징으로부터, 공동 공간 스펙트럼 특징 벡터를 생성하는 단계;
(d) 상기 공동 공간 스펙트럼 특징벡터로부터 최적의 특징을 선택하는 단계; 및
(e) 상기 선택된 최적의 특징에 대하여 감정 분류를 수행하는 단계를 수행하는 것인, 음성 기반 감정 인식 장치를 이용한 감정 인식 방법.
In the emotion recognition method using a voice-based emotion recognition device,
Receiving a speaker's voice signal; and
Classifying the speaker's emotion by inputting the received voice signal into an emotion classification model,
The emotion classification model is
(a) extracting spectral features from the spectrum of the speech signal;
(b) extracting spatial features from the spectrogram of the speech signal;
(c) generating a joint spatial spectral feature vector from the spectral feature and the spatial feature;
(d) selecting optimal features from the common spatial spectral feature vectors; and
(e) performing emotion classification on the selected optimal feature, the emotion recognition method using a voice-based emotion recognition device.
제 7 항에 있어서,
상기 감정 분류 모델은 상기 (a) 단계의 수행전에 상기 음성 신호에 대한 스펙트럼과 스펙트로그램을 생성하는 전처리 단계를 수행하는 것인, 감정 인식 방법.
According to claim 7,
Wherein the emotion classification model performs a preprocessing step of generating a spectrum and a spectrogram for the voice signal before performing step (a).
제 7 항에 있어서,
상기 (a) 단계는 1차원 CNN을 이용하여 상기 스펙트럼 특징을 추출하고,
상기 (b) 단계는 2차원 CNN을 이용하여 상기 공간 특징을 추출하는 것인, 감정 인식 방법.
According to claim 7,
The step (a) extracts the spectral features using a 1-dimensional CNN,
Wherein step (b) is to extract the spatial features using a two-dimensional CNN.
제 7 항에 있어서,
상기 (c) 단계는 하기의 수학식에 따라 상기 공동 공간스펙트럼 특징 벡터를 생성하는 것인, 감정 인식 방법.
[수학식 1]
Figure pat00022

F1(Rn)은 스펙트럼 특징을 나타내고, F2(Cn)은 공간 특징을 나타내고,W1과 W2는 가중치 행렬을 나타내고, b1과 b2는 연산중의 연결된 계층에서의 편향들을 나타내고,
Figure pat00023
는 결합 연산자로서, 공간 특징과 스펙트럼 특징을 모두 연결하며, 공동 공간 스펙트럼 특징 벡터는
Figure pat00024
으로 정의됨
According to claim 7,
Wherein step (c) is to generate the joint spatial spectrum feature vector according to the following equation.
[Equation 1]
Figure pat00022

F 1 (R n ) denotes a spectral feature, F 2 (C n ) denotes a spatial feature, W 1 and W 2 denote weight matrices, and b 1 and b 2 denote biases in connected layers during operation. ,
Figure pat00023
is a combinational operator, concatenating both spatial and spectral features, and the joint spatial spectral feature vector is
Figure pat00024
defined as
제 7 항에 있어서,
상기 (d) 단계는 반복적 이웃 구성 분석 (INCA, Iterative Neighbor Component Analysis) 방법에 따라 최적 특징을 선택하되, 수학식 2에 따라 공동 공간 스펙트럼 특징 벡터를 정규화하고, 수학식 3에 따라 인덱스를 정렬하는 것인, 감정 인식 방법.
[수학식 2]
Figure pat00025

i는 1 부터 n 까지의 자연수를 나타내고, 각 특징은 개별적으로 정규화된 후 배열 X에 저장됨
[수학식 3]
Figure pat00026

인덱스(index)는 정규화된 특징 "x"의 길이로 정렬되고, 대상(target)은 실제 출력을 나타냄
According to claim 7,
Step (d) selects the optimal feature according to the Iterative Neighbor Component Analysis (INCA) method, normalizes the joint spatial spectrum feature vector according to Equation 2, and sorts the index according to Equation 3 That is, an emotion recognition method.
[Equation 2]
Figure pat00025

i represents a natural number from 1 to n, and each feature is individually normalized and stored in array X
[Equation 3]
Figure pat00026

index is ordered by the length of the normalized feature "x", and target represents the actual output
제 7 항에 있어서,
상기 (e) 단계는 소프트 맥스 손실함수를 통해 상기 최적 특징 선택 모듈의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 감정 인식 방법.
According to claim 7,
Wherein step (e) calculates a loss for the output of the optimal feature selection module through a soft max loss function, and performs weight update in a direction that minimizes the loss.
KR1020210088522A 2021-07-06 2021-07-06 Method and apparatus for recognizing speaker’s emotions based on speech signal KR102549122B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210088522A KR102549122B1 (en) 2021-07-06 2021-07-06 Method and apparatus for recognizing speaker’s emotions based on speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210088522A KR102549122B1 (en) 2021-07-06 2021-07-06 Method and apparatus for recognizing speaker’s emotions based on speech signal

Publications (2)

Publication Number Publication Date
KR20230007781A true KR20230007781A (en) 2023-01-13
KR102549122B1 KR102549122B1 (en) 2023-06-29

Family

ID=84900025

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210088522A KR102549122B1 (en) 2021-07-06 2021-07-06 Method and apparatus for recognizing speaker’s emotions based on speech signal

Country Status (1)

Country Link
KR (1) KR102549122B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101564176B1 (en) 2014-12-15 2015-10-28 연세대학교 산학협력단 An emotion recognition system and a method for controlling thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101564176B1 (en) 2014-12-15 2015-10-28 연세대학교 산학협력단 An emotion recognition system and a method for controlling thereof

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Mei,Xiaoguang et.al, Spectral-Spatial Attention Networks for Hyperspectral Image Classification, Remote sensing, MDPI AG, Apr. 2019, Vol.11, no.8, pp.963* *
Mustaqeem et.al, Att-Net: Enhanced emotion recognition system using lightweight self-attention module, Applied soft computing, Elsevier, Apr. 2021, Vol.102, pp.107101* *
Mustaqeem et.al, Clustering-Based Speech Emotion Recognition by Incorporating Learned Features and Deep BiLSTM, IEEE access : practical research, open solutions, IEEE, 2020, Vol.8, pp.79861-79875* *
Mustaqeem,Soonil Kwon, Optimal feature selection based speech emotion recognition using two-stream deep convolutional neural network, International Journal of Intelligent Systems, May. 2021* *
Ozyurt, Fatih , Novel Multi Center and Threshold Ternary Pattern Based Method for Disease Detection Method Using Voice, IEEE access : practical research, open solutions, IEEE, 2020.05, Vol.8, pp.84532-84540* *

Also Published As

Publication number Publication date
KR102549122B1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
KR102071582B1 (en) Method and apparatus for classifying a class to which a sentence belongs by using deep neural network
US10332510B2 (en) Method and apparatus for training language model and recognizing speech
CN110379409B (en) Speech synthesis method, system, terminal device and readable storage medium
Sultana et al. Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN104331442A (en) Video classification method and device
Gopi Digital speech processing using Matlab
KR102541660B1 (en) Method and apparatus for recognizing emtions based on speech signal
Deng et al. Foundations and trends in signal processing: Deep learning–methods and applications
KR20210052036A (en) Apparatus with convolutional neural network for obtaining multiple intent and method therof
Qayyum et al. Quran reciter identification: A deep learning approach
CN113196385B (en) Method and system for audio signal processing and computer readable storage medium
Adiga et al. Multimodal emotion recognition for human robot interaction
Amjad et al. Recognizing semi-natural and spontaneous speech emotions using deep neural networks
Tuncer et al. A novel spiral pattern and 2D M4 pooling based environmental sound classification method
Akbal et al. Development of novel automated language classification model using pyramid pattern technique with speech signals
KR20230141828A (en) Neural networks using adaptive gradient clipping
Kumar et al. A comparative study on deep learning techniques for bird species recognition
Boddapati Classifying Environmental sounds with image networks
Chew et al. Facial expression recognition via enhanced stress convolution neural network for stress detection
KR102549122B1 (en) Method and apparatus for recognizing speaker’s emotions based on speech signal
Saranya et al. Speech Emotion Recognition with High Accuracy and Large Datasets using Convolutional Neural Networks
JP2016162437A (en) Pattern classification device, pattern classification method and pattern classification program
Benmachiche et al. Development of a biometric authentication platform using voice recognition
Rajasekhar et al. A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant