KR101066228B1 - Emotion classification system and method thereof - Google Patents
Emotion classification system and method thereof Download PDFInfo
- Publication number
- KR101066228B1 KR101066228B1 KR1020090030414A KR20090030414A KR101066228B1 KR 101066228 B1 KR101066228 B1 KR 101066228B1 KR 1020090030414 A KR1020090030414 A KR 1020090030414A KR 20090030414 A KR20090030414 A KR 20090030414A KR 101066228 B1 KR101066228 B1 KR 101066228B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- feature vector
- range
- voice signal
- pitch
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 294
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 180
- 230000002996 emotional effect Effects 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000011295 pitch Substances 0.000 claims description 72
- 238000000605 extraction Methods 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009957 hemming Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
감성 분류 시스템 및 감성 분류 방법이 개시된다. 상기 감성 분류 시스템 및 감성 분류 방법은 음성 신호로부터 추출된 감성 벡터들 및 훈련용 음성 신호로부터 추출된 적어도 하나의 제1 특징 벡터 값의 범위에 기초하여 음성 신호 발신자의 감성을 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류한 후, 상기 음성 신호의 감성 벡터들 및 상기 훈련용 음성 신호로부터 추출된 적어도 하나의 제2 특징 벡터 값의 범위에 기초하여 상기 어느 하나의 감성 그룹으로 분류된 상기 음성 신호 발신자의 감성을 다시 한번 분류함으로써 감성 분류 동작을 수행한다.An emotional classification system and an emotional classification method are disclosed. The emotion classification system and the emotion classification method are based on a range of emotion vectors extracted from a voice signal and at least one first feature vector value extracted from a training voice signal. The voice classified into any one emotion group based on a range of emotion vectors of the voice signal and at least one second feature vector value extracted from the training voice signal after classifying into one emotion group The emotion classification operation is performed by classifying the emotion of the signal sender once again.
감성 분류, 특징 벡터, 피치, 에너지, MFCC(Mel frequency cepstral coefficients) Emotion classification, feature vector, pitch, energy, mel frequency cepstral coefficients (MFCC)
Description
본 발명은 감성 분류 기술에 관한 것으로, 보다 상세하게는 음성 신호로부터 추출되는 특징 벡터에 기초하여 발신자의 감성 상태를 분류할 수 있는 감성 분류 시스템 및 그 방법에 관한 것이다.The present invention relates to an emotion classification technique, and more particularly, to an emotion classification system and a method for classifying an emotional state of a sender based on a feature vector extracted from a voice signal.
고객 센터(call center), 결혼 정보 회사, 모바일 콘텐트 산업 등과 같이 고객의 감성에 따라서 유연한 대응이 필요한 분야에서 감성 분류 또는 감성 분류 시스템에 대한 관심이 증가하고 있다. 인간의 행위로부터 감성 정보는 얼굴 표정, 음성, 몸동작, 심장 박동 수, 혈압, 체온, 뇌파 등을 통하여 얻어질 수 있다. 특히,이들 중에서도 음성을 이용한 감성 분류 방법은 음성 신호의 입력 및 처리가 상대적으로 편리하기 때문에 이를 이용한 감성 분류 기술에 대한 연구가 활발히 진행되고 있다.There is a growing interest in emotion classification or emotion classification systems in areas that require flexible responses, such as call centers, marriage information companies, and mobile content industries. Emotional information from human behavior can be obtained through facial expressions, voice, gestures, heart rate, blood pressure, body temperature, brain waves, and the like. In particular, since the emotional classification method using voice is relatively convenient to input and process voice signals, research on emotional classification technology using the same has been actively conducted.
일반적인 감성 분류 시스템의 훈련은 감성 훈련용 음성 신호를 이용하여 이루어지는 반면, 불특정 다수의 고객들의 질의는 전혀 다른 환경에서 녹취되는 경우가 대부분이다. 그러므로 이러한 감성 분류 시스템을 이용한 불특정 다수의 고객들 의 질의 음성으로부터 고객들의 감성을 분류하는 것은 녹취 환경의 차이로 인한 시스템의 성능 저하와 감성 분류의 부 정확성을 초래할 수밖에 없다.While general training of emotion classification system is performed using voice signals for emotion training, inquiries of many unspecified customers are recorded in completely different environments. Therefore, classifying the emotions of customers from the voice of the unspecified number of customers using the emotion classification system inevitably leads to poor performance of the system and inaccurate accuracy of the emotion classification due to differences in the recording environment.
따라서 본 발명이 이루고자 하는 기술적인 과제는 훈련용 음성 신호에 기초하여 훈련되지만 불특정 다수의 음성 신호 발신자들을 대상으로 한 감성 분류에도 높은 시스템 효율 및 감성 분류의 정확도를 갖는 감성 분석 시스템 및 그 방법을 제공하는 것이다.Accordingly, the technical problem to be achieved by the present invention is to provide an emotional analysis system and method having a high system efficiency and accuracy of emotional classification even for emotional classification for a plurality of unspecified voice signal transmitters, which are trained based on training voice signals. It is.
상기 기술적 과제를 달성하기 위한 감성 분류 시스템은 특징 벡터 추출 블락, 특징 벡터 저장 블락, 및 감성 분류 블락을 포함할 수 있다. 상기 특징 벡터 추출 블락은 수신되는 음성 신호의 특징 벡터들을 추출할 수 있다.An emotional classification system for achieving the above technical problem may include a feature vector extraction block, a feature vector storage block, and an emotion classification block. The feature vector extraction block may extract feature vectors of a received speech signal.
상기 특징 벡터 저장 블락은 상기 특징 벡터 추출 블락에 의하여 추출된 훈련용 음성 신호들에 대한 특징 벡터들에 기초하여 다수의 감성들 중에서 적어도 2개의 감성들을 포함하는 적어도 하나의 감성 그룹을 포함하는 다수의 감성 그룹들 각각에 상응하는 적어도 하나의 제1 특징 벡터 값의 범위 및 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성들 각각에 상응하는 적어도 하나의 제2 특징 벡터 값의 범위를 저장할 수 있다.The feature vector storage block includes a plurality of emotion groups including at least one emotion group including at least two emotions among a plurality of emotions based on feature vectors for training speech signals extracted by the feature vector extraction block. Store at least one first feature vector value corresponding to each of the sentiment groups and at least one second feature vector value corresponding to each of the at least two sentiments included in the at least one sentiment group have.
상기 감성 분류 블락은 상기 음성 신호의 특징 벡터들 및 상기 특징 벡터 저장 블락에 저장된 상기 적어도 하나의 제1 특징 벡터 값의 범위 및 제2 특징 벡터 값의 범위에 기초하여 상기 음성 신호 발신자의 감성 분류 결과를 발생할 수 있다.The emotion classification block is a result of emotional classification of the voice signal sender based on the feature vectors of the voice signal and the range of the at least one first feature vector value and the range of a second feature vector value stored in the feature vector storage block. May occur.
상기 감성 분류 블락은 제1 감성 분류 블락 및 제2 감성 분류 블락을 포함할 수 있다. 상기 제1 감성 분류 블락은 상기 음성 신호의 감성 벡터들 및 상기 적어도 하나의 제1 특징 벡터 값의 범위에 기초하여 상기 음성 신호 발신자의 감성을 상기 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류할 수 있다.The emotional classification block may include a first emotional classification block and a second emotional classification block. The first emotion classification block classifies the emotion of the voice signal sender into one of the plurality of emotion groups based on the range of emotion vectors of the voice signal and the at least one first feature vector value. can do.
상기 제2 감성 분류 블락은 상기 음성 신호의 감성 벡터들 및 상기 적어도 하나의 제2 특징 벡터 값의 범위에 기초하여 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성을 분류할 수 있다.The second emotion classification block may classify the at least two emotions included in the at least one emotion group based on the emotion vectors of the voice signal and the range of the at least one second feature vector value.
예컨대, 상기 특징 벡터 저장 블락은 상기 다수의 감성들 중에서 적어도 2개의 감성들을 포함하는 적어도 하나의 감성 그룹을 포함하는 다수의 감성 그룹들 각각에 상응하는 피치의 평균값의 범위 및 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성들 각각에 상응하는 에너지의 범위 및 MFCC의 범위를 저장할 수 있다.For example, the feature vector storage block may include a range of average values of pitches corresponding to each of a plurality of emotion groups including at least one emotion group including at least two emotions among the plurality of emotions and the at least one emotion group. It is possible to store a range of energy and a range of MFCC corresponding to each of the at least two emotions included in.
그러면, 상기 제1 감성 분류 유닛은 상기 음성 신호의 피치의 평균값과 상기 특징 벡터 저장 블락에 저장된 상기 피치의 평균값의 범위에 기초하여 상기 음성 신호의 발신자의 감성을 상기 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류할 수 있으며, 상기 제2 감성 분류 유닛은 상기 음성 신호의 에너지의 평균값 및 MFCC의 평균값 및 상기 특징 벡터 저장 블락에 저장된 상기 에너지의 범위 및 MFCC의 범위에 기초하여 상기 어느 하나의 감성 그룹에 포함된 적어도 2개의 감성을 분류할 수 있다.Then, the first emotion classification unit selects one of the plurality of emotion groups the emotion of the sender of the voice signal based on the range of the average value of the pitch of the voice signal and the average value of the pitch stored in the feature vector storage block. And the second emotional classification unit is based on the average value of the energy of the speech signal and the average value of the MFCC and the range of the energy stored in the feature vector storage block and the range of the MFCC. At least two emotions included in the emotion group may be classified.
본 발명의 실시예에 따른 감성 분류 시스템은 특징 벡터 추출 블락, 특징 벡터 저장 블락, 및 감성 분류 블락을 포함할 수 있다. 상기 특징 벡터 추출 블락은 수신되는 음성 신호의 피치의 평균값, 에너지 및 MFCC를 추출할 수 있다.An emotional classification system according to an embodiment of the present invention may include a feature vector extraction block, a feature vector storage block, and an emotion classification block. The feature vector extraction block may extract an average value, energy, and MFCC of a pitch of the received speech signal.
상기 특징 벡터 저장 블락은 상기 특징 벡터 추출 블락에 의하여 추출된 훈련용 음성 신호들에 대한 피치의 평균값을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남 각각에 상응하는 피치 평균값의 범위로 분류하여 저장하고, 상기 특징 벡터 추출 블락에 의하여 추출된 상기 훈련용 음성 신호의 에너지 및 MFCC를 남자 화남 및 여자 평상 각각에 상응하는 에너지의 범위 및 MFCC의 범위로 분류하여 저장할 수 있다.The feature vector storage block classifies and stores an average value of pitches for training voice signals extracted by the feature vector extraction block into a range of pitch average values corresponding to male normal, male angry and female ordinary, and female angry, respectively. The energy and MFCC of the training voice signal extracted by the feature vector extraction block may be classified and stored into a range of energy and a range of MFCC corresponding to a male anger and a female phase, respectively.
상기 감성 분류 블락은 상기 음성 신호의 피치의 평균값, 에너지, 및 MFCC와 상기 특징 벡터 저장 블락에 저장된 피치의 평균값의 범위, 에너지의 범위, 및 MFCC의 범위에 기초하여 상기 음성 신호 발신자의 감성 분류 결과를 발생할 수 있다.The emotion classification block is based on the average value of the pitch of the speech signal, energy, and the range of the average value of the pitch stored in the MFCC and the feature vector storage block, the range of energy, and the range of the MFCC. May occur.
상기 감성 분류 블락은 제1 감성 분류 유닛 및 제2 감성 분류 유닛을 포함할 수 있다. 상기 제1 감성 분류 유닛은 상기 음성 신호의 피치의 평균값 및 상기 특징 벡터 저장 블락에 저장된 상기 피치의 평균값의 범위에 기초하여 상기 음성 신호 발신자의 감성을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남 중에서 어느 하나의 감성 그룹으로 분류할 수 있다.The emotional classification block may include a first emotional classification unit and a second emotional classification unit. The first emotion classification unit is based on the average value of the pitch of the voice signal and the range of the average value of the pitch stored in the feature vector storage block, the sentiment of the voice signal sender being male ordinary, male angry and female ordinary, and female angry. It can be classified into any one of the emotional groups.
상기 제2 감성 분류 유닛은 상기 음성 신호의 에너지 및 MFCC 및 상기 특징 벡터 저장 블락에 저장된 상기 에너지의 범위 및 상기 MFCC의 범위에 기초하여 남자 화남 및 여자 평상의 감성 그룹을 남자 화남 또는 여자 평상 중 하나의 감성으로 분류할 수 있다.The second emotion classification unit selects one of the male angry male and female female emotional groups based on the energy of the speech signal and the range of the energy stored in the MFCC and the feature vector storage block and the range of the MFCC. Can be classified as
상기 기술적 과제를 해결하기 위한 감성 분류 방법은 수신되는 음성 신호의 특징 벡터들을 추출하는 단계; 훈련용 음성 신호들로부터 추출되는 특징 벡터들에 기초하여 다수의 감성들 중에서 적어도 2개의 감성들을 포함하는 적어도 하나의 감성 그룹을 포함하는 다수의 감성 그룹들 각각에 상응하는 적어도 하나의 제1 특징 벡터 값의 범위 및 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성들 각각에 상응하는 적어도 하나의 제2 특징 벡터 값의 범위를 저장하는 단계; 및 상기 음성 신호의 특징 벡터들 및 상기 특징 벡터 저장 블락에 저장된 상기 적어도 하나의 제1 특징 벡터 값의 범위 및 제2 특징 벡터 값의 범위에 기초하여 상기 음성 신호 발신자의 감성 분류 결과를 발생하는 단계를 포함할 수 있다.Emotion classification method for solving the technical problem comprises the steps of extracting feature vectors of the received speech signal; At least one first feature vector corresponding to each of the plurality of emotion groups including at least one emotion group including at least two emotions among the plurality of emotions based on feature vectors extracted from the training speech signals Storing a range of values and a range of at least one second feature vector value corresponding to each of the at least two sentiments included in the at least one sentiment group; And generating an emotion classification result of the voice signal sender based on the feature vectors of the voice signal and the range of the at least one first feature vector value and the range of the second feature vector value stored in the feature vector storage block. It may include.
상기 감성 분류 결과를 발생하는 단계는 상기 음성 신호의 감성 벡터들 및 상기 적어도 하나의 제1 특징 벡터 값의 범위에 기초하여 상기 음성 신호 발신자의 감성을 상기 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류하는 단계; 및 상기 음성 신호의 감성 벡터들 및 상기 적어도 하나의 제2 특징 벡터 값의 범위에 기초하여 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성을 분류하는 단계를 포함할 수 있다.The generating of the emotion classification result comprises: an emotion group of any one of the plurality of emotion groups based on a range of emotion vectors of the voice signal and the at least one first feature vector value. Classifying to; And classifying the at least two emotions included in the at least one emotion group based on a range of emotion vectors of the voice signal and the at least one second feature vector value.
예컨대, 상기 제1 특징 벡터의 범위 및 상기 제2 특징 벡터의 범위를 저장하는 단계는 상기 다수의 감성들 중에서 적어도 2개의 감성들을 포함하는 적어도 하나의 감성 그룹을 포함하는 다수의 감성 그룹들 각각에 상응하는 피치의 평균값의 범위 및 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성들 각각에 상응하는 에너지의 범위 및 MFCC의 범위를 저장하는 단계를 포함할 수 있다.For example, storing the range of the first feature vector and the range of the second feature vector may include each of a plurality of sentiment groups including at least one sentiment group including at least two sentiments among the plurality of sentiments. Storing a range of MFCCs and a range of energy corresponding to each of the at least two sentiments included in the at least one sentiment group and a range of average values of corresponding pitches.
그러면 상기 음성 신호의 발신자의 감성 분류 결과를 발생하는 단계는 상기 음성 신호의 피치의 평균값과 상기 피치의 평균값의 범위에 기초하여 상기 음성 신호의 발신자의 감성을 상기 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류하는 단계; 및 상기 음성 신호의 에너지 및 MFCC 및 상기 특징 벡터 저장 블락에 저장된 상기 에너지의 범위 및 MFCC의 범위에 기초하여 상기 어느 하나의 감성 그룹에 포함된 적어도 2개의 감성을 분류하는 단계를 포함할 수 있다.The generating of the emotion classification result of the sender of the voice signal may include the emotion of the sender of the voice signal based on a range of the average value of the pitch of the voice signal and the average value of the pitch. Categorizing into an emotion group; And classifying at least two emotions included in any one emotion group based on the energy of the voice signal and the range of the energy stored in the MFCC and the feature vector storage block and the range of the MFCC.
본 발명의 실시예에 따른 감성 분류 방법은 컴퓨터로 읽을 수 있는 기록 매체에 저장된 상기 감성 분류 방법을 실행하기 위한 컴퓨터 프로그램을 실행함으로써 구현될 수 있다.The emotion classification method according to an embodiment of the present invention may be implemented by executing a computer program for executing the emotion classification method stored in a computer-readable recording medium.
상술한 바와 같이 본 발명의 실시예에 따른 감성 분류 시스템 및 그 방법은 음성 신호 발신자의 감성을 음성 신호의 특징 벡터의 범위에 따라서 적어도 하나의 감성을 포함하는 다수의 감성 그룹들 중에서 하나로 분류하고, 일차적으로 분류된 결과를 다른 특징 벡터의 범위에 기초하여 분류함으로써 훈련용 음성 신호와 발신자의 음성 신호의 녹취 환경의 차이에서 발생할 수 있는 시스템의 성능 저하 및 감성 분류의 부 정확성을 개선할 수 있는 효과가 있다.As described above, the emotion classification system and method according to an embodiment of the present invention classify the emotion of the voice signal sender into one of a plurality of emotion groups including at least one emotion according to the range of the feature vector of the voice signal, By classifying the primarily classified results based on the range of different feature vectors, it is possible to improve system performance and negative accuracy of emotional classification that may occur due to differences in the recording environment of the training voice signal and the caller's voice signal. There is.
본 발명과 본 발명의 동작상의 이점 및 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.In order to fully understand the present invention, the operational advantages of the present invention, and the objects attained by the practice of the present invention, reference should be made to the accompanying drawings which illustrate preferred embodiments of the present invention and the contents described in the accompanying drawings.
본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터 또는 신호를 상기 다른 구성요소로 전송할 수 있음을 의미한다.In the present specification, when one component 'transmits' data or a signal to another component, the component may directly transmit the data or signal to the other component, and at least one other component. Through this means that the data or signal can be transmitted to the other component.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. Like reference numerals in the drawings denote like elements.
도 1은 본 발명의 실시예에 따른 감성 분류 시스템(100)의 블락도이다. 도 1을 참조하면, 감성 분류 시스템(100)은 특징 벡터 추출 블락(110), 특징 벡터 저장 블락(120), 감성 분류 블락(130), 및 컨트롤러(140)를 포함한다. 감성 분류 시스템(100)의 전반적인 동작은 컨트롤러(140)에 의하여 제어될 수 있다.1 is a block diagram of an
특징 벡터 추출 블락(110)는 수신되는 음성 신호의 특징 벡터들을 추출할 수 있다. 음성 신호의 특징 벡터에는 음성 신호의 피치, 에너지, 발성 속도, 음성 신호의 모델링을 위한 다수의 수학적 계수들이 포함하는 MFCC(Mel frequency cepstral coefficients) 등이 포함될 수 있으나 본 발명이 이에 한정되는 것은 아니다.The feature
도 2는 상기 특징 벡터 추출 블락은 도 2는 도 1에 도시된 특징 벡터 추출 블락(110)의 블락도이다. 도 1을 참조하면, 특징 벡터 추출 블락(110)은 음성 신호 분할 유닛(111), 샘플링 윈도우 적용 유닛(112), 비음성 구간 제거 유닛(113), 및 특징 벡터 발생 블락(114)을 포함할 수 있다.2 is a block diagram of the feature
음성 신호 분할 유닛(111)은 수신되는 음성 신호를 미리 정해진 프레임 단위로 분할하여 출력할 수 있다. 이는 음성 신호를 보다 작은 단위로 분할하고, 분할된 음성 신호로부터 특징 벡터를 추출함으로써 특징 벡터 추출의 정확성을 향상시키기 위함이다.The voice
샘플링 윈도우 적용 유닛(112)는 프레임 단위로 분할된 음성 신호에 대하여 미리 정해진 중복 범위를 갖는 윈도우들을 곱하여 출력할 수 있다. 예컨대, 샘플링 윈도우 적용 유닛(112)은 이웃한 프레임과 50%의 중복되는 헤밍 윈도우(Hamming window)를 프레임 단위로 분할된 음성 신호에 곱하여 출력함으로써 원하지 않는 고주파 성분이 특징 벡터 추출에 영향을 미치는 것을 감소시킬 수 있다. 만약, 직사각형 타입의 윈도우가 적용될 경우에는 직사각형의 가장자리에 포함된 고주파 성분이 특징 벡터 추출의 정확성을 저해할 수 있다.The sampling
비음성 구간 제거 유닛(113)은 음성 신호 중에서 음성 구간을 추출할 수 있다. 이는 특징 벡터 추출에 있어서 음성 신호 중에서 비음성 구간을 제거함으로써 시스템의 성능을 향상시키기 위함이다. 비음성 구간 제거 유닛(113)은 음성 신호 분할 전후 또는 샘플링 윈도우 적용 전후에 위치할 수 있다. 특징 벡터 발생 블락(114)은 음성 신호의 특징 벡터들을 추출할 수 있다.The non-voice
도 3은 도 2에 도시된 특징 벡터 발생 블락(114)의 블락도이다. 도 3을 참조하면, 특징 벡터 발생 블락(114)은 피치 추출 유닛(115), 에너지 추출 유닛(116), MFCC(Mel frequency cepstral coefficients) 추출 유닛(117), 및 특징 벡터 발생 유닛(119)을 포함할 수 있다. 피치 추출 유닛(115)은 음성 신호의 피치를 추출하여 출력하는 할 수 있다. 여기서, 피치라 함은 음성 신호의 주파수를 의미하는 것으로 음성 신호 발신자의 감성 분류를 위한 가장 기본적이고 중요한 특징 벡터 중의 하나이다.3 is a block diagram of the feature
에너지 추출 유닛(116)은 음성 신호의 에너지를 추출하여 출력할 수 있다. MFCC 추출 유닛(117)은 음성 신호의 모델링을 위한 다수의 수학적 계수들을 추출할 수 있다. MFCC란 멜-스케일(Mel-scale)로 표현된 음성 신호의 주파수별 파워 스펙트럼의 형태를 정현파 성분으로 나타낸 것이다. 특징 벡터 발생 유닛(119)은 음성 신호의 피치, 에너지, 및 MFCC와 그들에 대한 평균값 및 표준 편차값을 발생할 수 있다. 여기서, 음성 신호의 피치, 에너지, 및 MFCC와 그들에 대한 평균값 및 표준 편차값은 음성 신호 발신자의 감성을 분류하는 특징 벡터로 활용될 수 있다.The
특징 벡터 발생 블락(114)은 음선 신호의 피치, 에너지, 및 MFCC에 대한 시간적 변화량을 추출하기 위한 델타값 추출 유닛을 더 포함할 수 있으며, 음선 신호의 피치, 에너지, 및 MFCC에 대한 시간적 변화량도 음성 신호 발신자의 감성을 분류하는 특징 벡터로 활용될 수 있다.The feature
특징 벡터 발생 유닛(119)은 음성 신호의 피치, 에너지, 및 MFCC 각각에 대한 델타값의 평균값 및 표준 편차값을 더 발생할 수 있으며, 음성 신호의 피치, 에너지, 및 MFCC 각각에 대한 델타값의 평균값 및 표준 편차값도 음성 신호 발신자의 감성을 분류하는 특징 벡터로 이용될 수 있다.The feature
특징 벡터 저장 블락(120)은 훈련용 음성 신호들로부터 추출된 특징 벡터들을 감성별로 분류하여 저장할 수 있다. 예컨대, 특징 벡터 저장 블락(120)은 다수 의 감성들을 적어도 2개의 감성을 포함하는 감성 그룹을 적어도 하나 포함하는 다수의 감성 그룹들로 분류하고, 다수의 감성 그룹들 각각에 상응하는 적어도 하나의 특징 벡터 값의 범위를 저장할 수 있다.The feature
또한, 특징 벡터 저장 블락(120)은 다수의 감성 그룹들 중에서 적어도 2개의 감성을 포함하는 감성 그룹에 포함된 적어도 2개 이상의 감성들 각각에 상응하는 적어도 하나의 특징 벡터 값의 범위를 저장할 수 있다.Also, the feature
여기서, 다수의 감성들에는 평상, 화남, 기쁨, 슬픔, 공포, 놀람, 호감 등의 감성이 포함될 수 있으며, 다수의 감성들은 성별, 나이 등을 기준으로 세분화하여 분류될 수도 있으나 본 발명의 범위가 이에 한정되는 것은 아니다.Here, the plurality of emotions may include emotions such as ordinary, angry, joy, sadness, fear, surprise, crush, and the like, and the plurality of emotions may be classified by gender, age, etc., but the scope of the present invention is It is not limited to this.
예컨대, 특징 벡터 저장 블락(120)은 다수의 감성들 중에서 적어도 2개의 감성들을 포함하는 적어도 하나의 감성 그룹을 포함하는 다수의 감성 그룹들 각각에 상응하는 피치(pitch)의 평균값의 범위 및 상기 적어도 하나의 감성 그룹에 포함된 상기 적어도 2개의 감성들 각각에 상응하는 에너지의 평균값의 범위 및 MFCC의 평균값의 범위를 저장할 수 있다.For example, the feature
좀더 구체적인 예를 살펴 보면, 특징 벡터 저장 블락(120)은 특징 벡터 추출 블락(110)에 의하여 추출된 훈련용 음성 신호들에 대한 피치의 평균값을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남 각각에 상응하는 피치 평균값의 범위로 분류하여 저장하고, 특징 벡터 추출 블락(110)에 의하여 추출된 훈련용 음성 신호의 에너지 및 MFCC를 남자 화남 및 여자 평상 각각에 상응하는 에너지의 범위 및 MFCC의 범위로 분류하여 저장할 수 있다.In a more specific example, the feature
감성 분류 블락(130)은 음성 신호의 특징 벡터들 및 특징 벡터 저장 블락(120)에 저장된 적어도 하나의 제1 특징 벡터 값의 범위 및 제2 특징 벡터 값의 범위에 기초하여 음성 신호 발신자의 감성 분류 결과를 발생할 수 있다.The
도 4는 도 1에 도시된 감성 분류 블락(130)의 블락도이다. 도 4를 참조하면, 감성 분류 블락(130)은 제1 감성 분류 유닛(131) 및 제2 감성 분류 유닛(132)을 포함할 수 있다. 도 4에서는 2개의 감성 분류 유닛(131 및 132) 만이 도시되었으나 본 발명의 범위가 이에 한정되는 것은 아니다.4 is a block diagram of the
제1 감성 분류 유닛(131)은 음성 신호의 감성 벡터들 및 특징 벡터 저장 블락(120)에 저장된 적어도 하나의 제1 특징 벡터 값의 범위에 기초하여 음성 신호 발신자의 감성을 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류할 수 있다. 제2 감성 분류 유닛(132)은 음성 신호의 감성 벡터들 및 특징 벡터 저장 블락(120)에 저장된 적어도 하나의 제2 특징 벡터 값의 범위에 기초하여 제1 감성 분류 유닛(131)에 의하여 분류된 감성 그룹들 중에서 다수의 감성들을 포함하는 감성 그룹에서 적어도 2개의 감성을 분류할 수 있다.The first
예컨대, 제1 감성 분류 유닛(131)은 음성 신호의 피치의 평균값과 특징 벡터 저장 블락(120)에 저장된 상기 피치의 평균값의 범위에 기초하여 음성 신호의 발신자의 감성을 다수의 감성 그룹들 중에서 어느 하나의 감성 그룹으로 분류할 수 있으며, 제2 감성 분류 유닛(132)은 음성 신호의 에너지 및 MFCC 및 특징 벡터 저장 블락(120)에 저장된 에너지의 범위 및 MFCC의 범위에 기초하여 상기 어느 하나의 감성 그룹에 포함된 적어도 2개의 감성을 분류할 수 있다.For example, the first
좀더 구체적인 예를 살펴보면, 제1 감성 분류 유닛(131)은 음성 신호의 피치의 평균값 및 특징 벡터 저장 블락(120)에 저장된 상기 피치의 평균값의 범위에 기초하여 음성 신호 발신자의 감성을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남 중에서 어느 하나의 감성 그룹으로 할 수 있으며, 제2 감성 분류 유닛(132)은 음성 신호의 에너지 및 MFCC 및 특징 벡터 저장 블락(120)에 저장된 에너지의 범위 및 MFCC의 범위에 기초하여 남자 화남 및 여자 평상의 감성 그룹을 남자 화남 또는 여자 평상 중 하나의 감성으로 분류할 수 있다.In a more specific example, the first
즉, 제1 감성 분류 유닛(131)은 음성 신호 발신자의 감성을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남의 3 가지로 분류할 수 있고, 제2 감성 분류 유닛(132)은 제1 감성 분류 유닛(131)에 의하여 분류된 남자 화남 및 여자 평상을 포함하는 감성 그룹을 남자 화남 또는 여자 평상 중의 하나의 감성으로 분류할 수 있다.That is, the first
도 5는 남녀 성별 및 감성에 따른 음성 신호의 피치의 평균값을 나타내는 그래프이다. 도 5는 남녀 각각 10명이 평상 감성과 화남 감성 각각에 대하여 30 문장을 발성한 음성 신호의 피치의 평균값을 나타낸다. 상술한 바와 같이, 도 5에 도시된 음성 신호의 피치의 평균값은 제1 감성 분류 유닛(131)의 감성 분류의 기준이 될 수 있다.5 is a graph illustrating an average value of pitches of voice signals according to gender and emotions of men and women. Fig. 5 shows an average value of pitches of a speech signal in which 10 men and women each speak 30 sentences for each of the normal emotion and the angry emotion. As described above, the average value of the pitch of the voice signal illustrated in FIG. 5 may be a criterion of the emotion classification of the first
도 5를 참조하면, 감성들 중에서 남자 평상의 감성의 피치의 평균값과 여자 평상의 감성의 피치의 평균값은 서로 중복되는 범위가 가장 넓은 것을 알 수 있다. 이때, 특징 벡터 저장 블락(120)은 음성 신호의 피치의 평균값의 범위를 남자 평 상, 남자 화남 및 여자 평상, 및 여자 화남의 3 가지로 분류하여 저장할 수 있다. 그러면 제1 감성 분류 유닛(131)은 음성 신호 발신자의 감성을 음성 신호의 피치의 평균값이 포함되는 특징 벡터 저장 블락(120)에 저장된 피치의 평균값의 범위에 상응하는 감성으로 분류할 수 있다.Referring to FIG. 5, it can be seen that, among the emotions, the average value of the pitch of the emotion of the male flat and the average value of the pitch of the emotion of the female flat are the most overlapping with each other. At this time, the feature
도 5를 참조하여 설명한 바와 같이, 제1 감성 분류 유닛(131)이 감성 분류 기준은 음성 신호의 피치의 평균값이 될 수 있으나 본 발명의 범위가 이에 한정되는 것은 아니다. 예컨대, 제1 감성 분류 유닛(131)은 음성 신호의 에너지, 발성 속도 등이 중복되는 범위에 기초하여 음성 신호 발신자의 감성을 다수의 감성 그룹들을 포함하는 다수의 감성 그룹들 중에서 하나의 감성 그룹으로 분류할 수도 있다.As described with reference to FIG. 5, the emotion classification criterion of the first
도 6은 도 1에 도시된 감성 분류 블락의 감성 분류 결과를 나타낸다. 도 6을 참조하면, 제1 감성 분류 유닛(131)에 의하여 음성 신호 발신자의 감성을 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남의 3 가지로 분류하며, 제2 감성 분류 유닛(132)은 남자 화남 및 여자 평상의 감성 그룹을 다시 남자 화남 및 여자 평상의 감성으로 분류함을 알 수 있다.FIG. 6 shows the emotion classification result of the emotion classification block shown in FIG. 1. Referring to FIG. 6, the first
상술한 바에 따르면, 본 발명의 실시예에 따른 감성 분류 시스템(100)은 제1 감성 분류 유닛(131) 및 제2 감성 분류 유닛(132)을 통한 2 단계의 감성 분류 과정을 수행할 수 있다. 그러나 본 발명의 범위가 이에 한정되는 것은 아니며, 감성 분류 시스템(100)은 3 단계 이상의 감성 분류 과정을 수행할 수 있다. 감성 분류 시스템(100)이 수행하는 감성 분류 횟수는 다수의 감성들을 포함하는 감성 그룹들의 수가 많을수록 증가할 수 있다.As described above, the
한편, 본 발명의 실시예에 따른 감성 분류 시스템(100)의 구성 요소들 각각은 본 발명의 기술적 사상을 수행하기 위한 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 결합에 의하여 구현될 수 있다. 즉, 본 발명의 실시예에 따른 감성 분류 시스템(100)의 구성 요소들 각각은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 결합으로 구현될 수 있다.On the other hand, each of the components of the
도 7은 본 발명의 실시예에 따른 감성 분류 방법의 개략 순서도이다. 이하, 도 1 내지 도 4 및 도 7을 참조하여 그 과정을 살펴본다.7 is a schematic flowchart of an emotion classification method according to an embodiment of the present invention. Hereinafter, the process will be described with reference to FIGS. 1 to 4 and 7.
특징 벡터 추출 블락(110)은 훈련용 음성 파일을 이용하여 다수의 감성들 각각에 대하여 감성별 특징 벡터들을 추출하며, 특징 벡터 저장 블락(120)은 각 감성별 특징 벡터들을 저장한다(S70). 특징 벡터 저장 블락(120)에 저장되는 감성 벡터들은 적어도 2개의 감성을 포함하는 감성 그룹을 적어도 하나 포함하는 다수의 감성 그룹들 각각에 상응하는 적어도 하나의 특징 벡터 값의 범위를 저장할 수 있으며, 다수의 감성 그룹들 중에서 적어도 2개의 감성을 포함하는 감성 그룹에 포함된 적어도 2개 이상의 감성들 각각에 상응하는 적어도 하나의 특징 벡터 값의 범위를 저장할 수 있다.The feature
훈련용 음성 파일을 이용한 감성 분류 시스템(100)의 훈련이 완료되면, 특징 벡터 추출 블락(110)은 입력되는 음성 신호의 특징 벡터들을 추출한다(S80). 그러면, 감성 분류 블락(130)은 특징 벡터 저장 블락(120)에 저장되는 감성별 특징 벡터들과 음성 신호의 특징 벡터들에 기초하여 음성 신호 발신자의 감성을 분류하여 그 감성 결과를 발생한다(S90).When the training of the
도 8은 본 발명의 실시예에 따른 감성 분류 방법의 상세 순서도이다. 좀더 구체적으로 말하면, 도 8은 음성 신호의 피치의 평균값에 기초하여 제1 감성 분류를 수행하고, 음성 신호의 에너지의 평균값 및 MFCC의 평균값에 기초하여 제2 감성 분류를 수행하는 감성 분류 방법의 순서도이다. 이하, 도 1 내지 도 4 및 도 8을 참조하여 그 과정을 살펴본다.8 is a detailed flowchart of an emotion classification method according to an embodiment of the present invention. More specifically, FIG. 8 is a flowchart of an emotion classification method of performing a first emotional classification on the basis of the average value of the pitch of the speech signal, and performing a second emotional classification based on the average value of the energy of the speech signal and the average value of the MFCC. to be. Hereinafter, the process will be described with reference to FIGS. 1 to 4 and 8.
특징 벡터 추출 블락(110)은 훈련용 음성 파일을 이용하여 감성별 피치의 평균값, 에너지, 및 MFCC를 추출하여 저장한다(S70). 훈련용 음성 파일을 이용한 감성 분류 시스템(100)의 훈련이 완료되면, 특징 벡터 추출 블락(110)은 입력되는 음성 신호의 피치의 평균값, 에너지, 및 MFCC를 추출한다(S80).The feature
입력되는 음성 신호에 대한 특징 벡터들 추출이 완료되면, 제1 감성 분류 유닛(131)은 특징 벡터 저장 블락(120)에 저장된 감성별 피치의 평균값과 음성 신호의 피치의 평균값에 기초하여 제1 감성 분류를 수행한다(S90a). 예컨대, 제1 감성 분류 유닛(131)은 음성 신호 발신자의 감성을 특징 벡터 저장 블락(120)에 저장된 감성 그룹들에 상응하는 피치의 평균값 및 음성 신호의 피치의 평균값에 기초하여 남자 평상, 남자 화남 및 여자 평상, 및 여자 화남의 3가지로 분류할 수 있다.When the extraction of the feature vectors for the input voice signal is completed, the first
제1 감성 분류 수행이 완료되면, 제2 감성 분류 유닛(132)은 특징 벡터 저장 블락(120)에 저장된 감성별 에너지 및 MFCC와 음성 신호의 에너지 및 MFCC에 기초하여 제2 감성 분류를 수행할 수 있다(90b). 예컨대, 제2 감성 분류 유닛(132)은 제1 감성 분류 유닛(131)에 의하여 분류된 감성 그룹들 중에서 2개 이상의 감성들을 포함하는 남자 화남 및 여자 화남의 감성 그룹으로 분류된 음성 신호 발신자의 감성을 특징 벡터 저장 블락(120)에 저장된 감성별 에너지의 범위 및 MFCC의 범위 및 음성 신호의 에너지 및 MFCC에 기초하여 남자 화남 또는 여자 평상의 감성으로 분류할 수 있다.When the first emotional classification is completed, the second
본 발명의 실시예에 따른 감성 분류 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.The emotion classification method according to an embodiment of the present invention may also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.
예컨대, 컴퓨터가 읽을 수 있는 기록매체에는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 본 발명의 실시예에 따른 감성 분류 방법을 수행하기 위한 프로그램 코드는 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 전송될 수 있다.For example, a computer-readable recording medium may include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like. The program code for performing the emotion classification method according to an embodiment of the present invention may be May be transmitted in the form of a carrier wave (eg, transmission over the Internet).
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명의 실시예에 따른 감성 분류 방법을 구현하기 위한 기능적인 (functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. And functional programs, codes and code segments for implementing the emotion classification method according to an embodiment of the present invention can be easily inferred by programmers in the art to which the present invention belongs.
이하에서는 본 발명의 실시예에 따른 감성 분류 시스템(100)에 대한 다수의 데이터 베이스를 이용한 성능 평가 결과를 살펴본다.Hereinafter, a performance evaluation result using a plurality of databases of the
표 1은 감성 분류 시스템(100)의 성능을 평가하기 위한 3가지의 데이터 베이스를 나타낸다.Table 1 shows three databases for evaluating the performance of the
표 1에서 화자 독립이라고 함은 녹음 인원들 사이에 발성 문장이 서로 중복되지 않는 것을 말하며, 문장 독립이라 함은 서로 다른 감성에 대해서는 발성 문장이 서로 다른 것을 의미한다. 실생활에서는 서로 다른 사람들 서로 다른 문장을 통하여 자신의 감성을 표현하므로 화자 독립 및 문장 독립의 데이터 베이스가 실재 감성 분류 시스템의 성능 평가에 적합한 데이터 베이스라 할 것이다.In Table 1, speaker independence means that utterance sentences do not overlap with each other, and sentence independence means that utterance sentences are different for different emotions. In real life, since different people express their emotions through different sentences, the database of speaker independence and sentence independence will be referred to as a suitable database for performance evaluation of real emotion classification system.
제1 데이터 베이스(DB1)는 감성 표현 훈련자(예컨대, 연기자)들의 화자 독립-문장 종속의 감성별 녹음 파일들로 구성되며, 제2 데이터 베이스(DB2)는 드라마 대사 속에서의 화자 독립-문장 독립의 감성별 대사의 녹음 파일들로 구성되며, 제3 데이터 베이스(DB3)는 감성 표현 훈련자들의 화자 독립-문장 독립의 감성별 녹음 파일들로 구성된다. 그러므로 제3 데이터 베이스(DB3)에 저장된 음성 파일들이 실생활에서의 감성 표현에 가장 근접한 감성별 음성 파일들이라 할 것이다.The first database DB1 is composed of emotion-dependent recording files of speaker independence-sentence subordination of emotional expression trainers (eg, performers), and the second database DB2 is speaker independence-sentence in drama dialogue. The third database DB3 is composed of emotional recording files of speaker independence-sentence independence of emotional expression trainees. Therefore, the voice files stored in the third database DB3 are the emotion-specific voice files closest to the emotional expression in real life.
표 2는 제3 데이터 베이스(DB3)의 음성 파일들을 이용하여 종래의 평상/화남의 이진 감성 분류 시스템을 훈련시키고, 제3 데이터 베이스(DB3)의 나머지 음성 파일들을 이용하여 평상/화남의 이진 감성 분류 방법에 기초하여 감성 분류 시스템(100)의 성능을 평가한 것이다.Table 2 trains a conventional normal / angry binary emotional classification system using the voice files of the third database DB3, and uses the remaining voice files of the third database DB3 to train the normal / anger binary sensitivity. The performance of the
표 2를 참조하면, 이진 감성 분류 시스템은 평상 감성을 나타내는 음성 파일 500 중 493개를 평상 감성으로 분류하였고, 화남 감성을 나타내는 음성 파일 500개 중 480개를 화남 감성으로 평가하였다. 그러므로 이진 감성 분류 시스템의 정확성은 97.3%이다. 이는 제3 데이터 베이스(DB3)가 안정적으로 구축된 데이터 베이스임을 의미한다.Referring to Table 2, the binary sentiment classification system classified 493 out of 500 voice files representing normal emotions as normal emotions, and evaluated 480 out of 500 voice files representing angry emotions as angry emotions. Therefore, the accuracy of the binary emotional classification system is 97.3%. This means that the third database DB3 is a stable database.
표 3a는 제3 데이터 베이스(DB3)의 음성 파일들을 이용하여 종래의 평상/화남의 이진 감성 분류 시스템을 훈련시키고, 제1데이터 베이스(DB1)의 음성 파일들을 이용하여 이진 감성 분류 시스템의 성능을 평가한 것이다.Table 3a trains a conventional ordinary / angry binary emotional classification system using voice files of a third database DB3, and shows the performance of the binary emotional classification system using voice files of a first database DB1. It is evaluated.
표 3a를 참조하면, 이진 감성 분류 시스템은 평상 감성을 나타내는 음성 파일 500 중 500개를 평상 감성으로 분류하였고, 화남 감성을 나타내는 음성 파일 500 중 10개를 화남 감성으로 평가하였다. 그러므로 이진 감성 분류 시스템의 정확성은 51.0%이다. 표 2 및 표 3a을 참조하면, 안정적으로 구축된 제3 데이터 베이스(DB3)를 기초로 이진 감성 분류 시스템이 훈련되더라도, 서로 다른 환경에서 녹음된 데이터 베이스에 대해서는 이진 감성 분류 시스템의 성능이 저하됨을 알 수 있다.Referring to Table 3a, the binary sentiment classification system classified 500 out of 500 voice files representing ordinary emotions as normal emotions and evaluated 10 out of 500 voice files representing angry emotions as angry emotions. Therefore, the accuracy of the binary emotional classification system is 51.0%. Referring to Tables 2 and 3a, even if the binary emotional classification system is trained based on a stablely constructed third database (DB3), the performance of the binary emotional classification system is degraded for databases recorded in different environments. Able to know.
표 3b는 제3 데이터 베이스(DB3)의 음성 파일들을 이용하여 본 발명의 실시예에 따른 감성 분류 시스템(100)을 훈련시키고, 제1데이터 베이스(DB1)의 음성 파일들을 이용하여 감성 분류 시스템(100)의 성능을 평가한 것이다.Table 3b trains the
표 3b를 참조하면, 감성 분류 시스템(100)은 남자 평상 감성을 나타내는 음성 파일 250개 중 195개를 남자 평상으로 분류하였고, 남자 화남 감성을 나타내는 음성 파일 250개 중 205개를 남자 화남으로 분류하였으며, 여자 평상 감성을 나타내는 음성 파일 250개 중 220개를 여자 평상으로 분류하였으며, 여자 화남 감성을 나타내는 음성 파일 250개 중 243개를 여자 화남으로 분류하였다. 그러므로 감성 분류 시스템(100)의 정확성은 86.3%이다.Referring to Table 3b, the
도 3a 및 도 3b를 참조하면, 본 발명의 실시예에 따른 감성 분류 시스템(100)의 서로 다른 환경에서 녹음된 동일한 데이터 베이스에 대한 감성 분류 성능이 종래의 이진 감성 분류 시스템보다 뛰어남을 알 수 있다.3A and 3B, it can be seen that the emotional classification performance of the same database recorded in different environments of the
표 4a는 제3 데이터 베이스(DB3)의 음성 파일들을 이용하여 종래의 이진 감성 분류 시스템을 훈련시키고, 제2데이터 베이스(DB2)의 음성 파일들을 이용하여 이진 감성 분류 시스템의 성능을 평가한 것이다.Table 4a trains the conventional binary emotion classification system using the voice files of the third database DB3, and evaluates the performance of the binary emotion classification system using the voice files of the second database DB2.
표 4a를 참조하면, 이진 감성 분류 시스템은 평상 감성을 나타내는 음성 파일 500 중 490개를 평상 감성으로 분류하였고, 화남 감성을 나타내는 음성 파일 500 중 115개를 화남 감성으로 평가하였다. 그러므로 이진 감성 분류 시스템의 정확성은 60.5%이다. 표 2 및 표 4a을 참조하면, 안정적으로 구축된 제3 데이터 베이스(DB3)를 기초로 이진 감성 분류 시스템이 훈련되더라도, 서로 다른 환경에서 녹음된 데이터 베이스에 대해서는 이진 감성 분류 시스템의 성능이 저하됨을 알 수 있다.Referring to Table 4a, the binary emotional classification system classified 490 out of 500 voice files representing normal emotions as normal emotions, and evaluated 115 out of 500 voice files representing angry emotions as angry emotions. Therefore, the accuracy of the binary emotional classification system is 60.5%. Referring to Tables 2 and 4a, even if the binary emotional classification system is trained based on a stablely constructed third database (DB3), the performance of the binary emotional classification system is degraded for databases recorded in different environments. Able to know.
표 4b는 제3 데이터 베이스(DB3)의 음성 파일들을 이용하여 감성 분류 시스템(100)을 훈련시키고, 제2데이터 베이스(DB2)의 음성 파일들을 이용하여 감성 분류 시스템(100)의 성능을 평가한 것이다.Table 4b shows the training of the
표 4b를 참조하면, 감성 분류 시스템(100)은 남자 평상 감성을 나타내는 음성 파일 250개 중 198개를 남자 평상으로 분류하였고, 남자 화남 감성을 나타내는 음성 파일 250개 중 165개를 남자 화남으로 분류하였으며, 여자 평상 감성을 나타내는 음성 파일 250개 중 188개를 여자 평상으로 분류하였으며, 여자 화남 감성을 나타내는 음성 파일 250개 중 200개를 여자 화남으로 분류하였다. 그러므로 감성 분류 시스템(100)의 정확성은 75.1%이다.Referring to Table 4b, the
도 4a 및 도 4b를 참조하면, 본 발명의 실시예에 따른 감성 분류 시스템(100)의 서로 다른 환경에서 녹음된 동일한 데이터 베이스에 대한 감성 분류 성능이 종래의 이진 감성 분류 시스템보다 뛰어남을 알 수 있다.4A and 4B, it can be seen that the emotional classification performance of the same database recorded in different environments of the
현재 고객 센터에서 사용되는 감성 분류 시스템은 훈련용 음성과 불특정 고객들의 음성이 서로 다른 환경에서 녹음되는 경우가 대부분이기 때문에 전통적인 평상/화남의 이진 감성 분류 시스템의 성능은 낮을 수밖에 없다. 그러나 본 발명의 실시예에 따른 감성 분류 시스템(100)은 고객 센터와 같은 기업환경에서 고객들의 불만 관리 시스템에 적용되더라도 녹음 환경 차이로 인한 시스템의 성능 저하를 방지할 수 있다.Currently, the emotional classification system used in the customer center is mostly recorded in different environments for the training voice and the unspecified customer's voice, so the performance of the traditional flat / angry binary emotional classification system is low. However, even if the
나아가, 본 발명의 실시예에 따른 감성 분류 시스템(100)은 소방서, 경찰서, 결혼 정보 회사 등과 같이 불특정 다수의 고객들의 감성을 빠르게 인식하고 대응해야 하는 분야에서 유용하게 활용될 수 있다.Furthermore, the
발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the invention has been described with reference to one embodiment shown in the drawings, this is merely exemplary, and it will be understood by those skilled in the art that various modifications and equivalent other embodiments are possible. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.
도 1은 본 발명의 실시예에 따른 감성 분류 시스템의 블락도이다.1 is a block diagram of an emotion classification system according to an embodiment of the present invention.
도 2는 도 1에 도시된 특징 벡터 추출 블락의 블락도이다.FIG. 2 is a block diagram of the feature vector extraction block shown in FIG. 1.
도 3은 도 2에 도시된 특징 벡터 발생 유닛의 블락도이다.3 is a block diagram of the feature vector generating unit shown in FIG.
도 4는 도 1에 도시된 감성 분류 블락의 블락도이다.4 is a block diagram of the emotion classification block shown in FIG. 1.
도 5는 남녀 성별 및 감성에 따른 음성 신호의 피치의 평균값을 나타내는 그래프이다.5 is a graph illustrating an average value of pitches of voice signals according to gender and emotions of men and women.
도 6은 도 1에 도시된 감성 분류 블락의 감성 분류 결과를 나타낸다.FIG. 6 shows the emotion classification result of the emotion classification block shown in FIG. 1.
도 7은 본 발명의 실시예에 따른 감성 분류 방법의 개략 순서도이다.7 is a schematic flowchart of an emotion classification method according to an embodiment of the present invention.
도 8은 본 발명의 실시예에 따른 감성 분류 방법의 상세 순서도이다.8 is a detailed flowchart of an emotion classification method according to an embodiment of the present invention.
Claims (19)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090030414A KR101066228B1 (en) | 2009-04-08 | 2009-04-08 | Emotion classification system and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090030414A KR101066228B1 (en) | 2009-04-08 | 2009-04-08 | Emotion classification system and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100111928A KR20100111928A (en) | 2010-10-18 |
KR101066228B1 true KR101066228B1 (en) | 2011-09-21 |
Family
ID=43132027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090030414A KR101066228B1 (en) | 2009-04-08 | 2009-04-08 | Emotion classification system and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101066228B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020196978A1 (en) * | 2019-03-25 | 2020-10-01 | 한국과학기술원 | Electronic device for multi-scale voice emotion recognition and operation method of same |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102020299B1 (en) * | 2019-05-08 | 2019-09-10 | (주)새빛테크놀러지 | Led therapy device providing emotional healing service through emotion recognition |
-
2009
- 2009-04-08 KR KR1020090030414A patent/KR101066228B1/en active IP Right Grant
Non-Patent Citations (1)
Title |
---|
조윤호, 박규식, ‘성별 구분을 통한 음성 감정인식 성능향상에 대한 연구’, 전자공학회논문지, 제45권 SP편 제4호, pp.401-408, 2008년 7월.* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020196978A1 (en) * | 2019-03-25 | 2020-10-01 | 한국과학기술원 | Electronic device for multi-scale voice emotion recognition and operation method of same |
Also Published As
Publication number | Publication date |
---|---|
KR20100111928A (en) | 2010-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | Speech emotion recognition using support vector machine | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
Chavhan et al. | Speech emotion recognition using support vector machine | |
Maghilnan et al. | Sentiment analysis on speaker specific speech data | |
Pokorny et al. | Detection of negative emotions in speech signals using bags-of-audio-words | |
CN110675859A (en) | Multi-emotion recognition method, system, medium, and apparatus combining speech and text | |
Shahin | Novel third-order hidden Markov models for speaker identification in shouted talking environments | |
Atmaja et al. | Deep multilayer perceptrons for dimensional speech emotion recognition | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Badshah et al. | Divide-and-conquer based ensemble to spot emotions in speech using MFCC and random forest | |
CN112562725A (en) | Mixed voice emotion classification method based on spectrogram and capsule network | |
WO2023279691A1 (en) | Speech classification method and apparatus, model training method and apparatus, device, medium, and program | |
US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
Sudarsan et al. | Voice call analytics using natural language processing | |
Badhon et al. | A machine learning approach to automating Bengali voice based gender classification | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
KR101066228B1 (en) | Emotion classification system and method thereof | |
Mohanta et al. | Human emotional states classification based upon changes in speech production features in vowel regions | |
US11398239B1 (en) | ASR-enhanced speech compression | |
Iyer et al. | A comparison between convolutional and transformer architectures for speech emotion recognition | |
Sharma et al. | Speech Emotion Recognition System using SVD algorithm with HMM Model | |
Koshekov et al. | Aviation profiling method based on deep learning technology for emotion recognition by speech signal | |
Getahun et al. | Emotion identification from spontaneous communication | |
CN109378007B (en) | Method for realizing gender recognition based on intelligent voice conversation | |
Lynn et al. | Efficient feature extraction for emotion recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
E90F | Notification of reason for final refusal | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140711 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150623 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160701 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170801 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180702 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190702 Year of fee payment: 9 |