KR20090120640A - 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 - Google Patents
음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 Download PDFInfo
- Publication number
- KR20090120640A KR20090120640A KR1020080046544A KR20080046544A KR20090120640A KR 20090120640 A KR20090120640 A KR 20090120640A KR 1020080046544 A KR1020080046544 A KR 1020080046544A KR 20080046544 A KR20080046544 A KR 20080046544A KR 20090120640 A KR20090120640 A KR 20090120640A
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- speech signal
- spectral
- frame
- fast fourier
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 86
- 230000008451 emotion Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000008909 emotion recognition Effects 0.000 claims abstract description 88
- 238000001228 spectrum Methods 0.000 claims abstract description 81
- 238000013210 evaluation model Methods 0.000 claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 66
- 238000009826 distribution Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 20
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Discrete Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Hospice & Palliative Care (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법 및 장치에 관한 것으로, 감정 평가 모델 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하고 이를 이용하여 감정 평가 모델을 생성하는 단계와 평가할 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하고 이를 상기 감정 평가 모델에 적용하여 감정을 인식하는 단계를 포함하는 감정 인식 방법 및 이를 위한 장치를 제공함으로써 감정 인식 성능의 향상을 기대할 수 있고, 이를 컴퓨터, 이동통신 단말기, PDA 등의 임베디드 환경에도 적용할 수 있다는 효과를 얻게 된다.
감정 인식, 스펙트럴 엔트로피
Description
본 발명은 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법 및 그 장치에 관한 것으로, 특히 델타 스펙트럴 엔트로피 또는 멜 주파수 스펙트럴 엔트로피 등을 이용하여 보다 정확한 화자의 감성 상태, 즉 기쁨, 슬픔, 두려움, 분노, 수용, 역겨움, 기대, 놀라움 등의 상태를 인식하는 방법 및 이를 수행하기 위한 장치에 관한 것이다.
음성은 인간의 통신수단 중 가장 자연스러운 의사소통 수단이며, 언어를 구현하여 정보를 전달하기 위한 수단이다. 인간과 기계 사이에서 음성을 이용한 통신 인터페이스에 대한 구현은 과거부터 꾸준히 연구되어 왔다. 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용되고 있다.
이러한 음성 정보 처리 기술은, 음성 인식(speech recognition), 음성 합성 speech synthesis), 화자 인증(speaker identification and verification)등으로 분류된다.
이 중에서, 음성 인식이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말하며, 음성 합성은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면, 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. 화자 인증은 개인의 음성 정보로 개인 신분을 확인하는 기술이다.
특히, 감정 인식 기술은 사람이 일상생활에서 사용하는 시각적, 청각적 정보 등을 통하여 사람의 감정 상태를 알 수 있듯이 기계도 사람의 감정 상태를 추정하는 인터페이스를 구현하는 것을 목표로 하고 있다. 감정 인식 인터페이스는 크게 화자의 음성을 통하여 감정을 인식하는 청각적인 면에서의 감정 인식과 화자의 표정을 통하여 감정을 인식하는 시각적인 면에서의 감정 인식으로 분류되어지는데, 본 발명은 청각적인 면에서의 감정인식과 관련된 것이다.
기존 특허 제10-2002-0026056호(웨이블렛 변환을 이용한 음성에서의 감정인식)는 뛰어난 주파수 분해 능력을 갖고 있는 웨이블렛 필터뱅크를 이용하여 음성을 여러 개의 서브밴드로 나누고 각 밴드에서 단시간 평균에너지(Short - time average energy)와 단시간 영교차율(Short - time zero crossing rate)을 추출하여 감정을 인식한다.
또한, 기존 특허 제10-2004-0038419호(음성을 이용한 감정 인식 시스템 및 감정 인식 방법)는 언어적 파라미터와 비언어적 파라미터를 추출하여 화자의 감정 상태를 최종 산출한다. 언어적 파라미터에는 발화속도의 평균을 포함하였고, 비언어적 파라미터에는 피치(Pitch)의 평균값과 분산값을 포함하였다.
인간의 음성에 내포된 감정 정보를 추출하기 위해 일본의 후쿠다(Fukuda)는 음성 신호의 템포(Tempo)와 에너지를 가지고 감정 인식에 대해 연구하였고, 모리야마(Moriyama)는 음성신호의 피치와 전력의 포락선 검출을 통하여 감정 인식 실험을 진행하였다. 또한, Silva는 음성 신호의 피치와 HMM(Hidden Markov Model)을 이용하여 영어와 스페인어에 대하여 감정 인식을 실험한 바 있다.
이상의 경우에서 살펴볼 수 있듯이 대부분의 감정 인식 방법은 음성 신호에 포함된 감정 특징 파라미터로서 에너지, 피치, 음성의 톤(Tone), 포만트 주파수(Formant Frequency), 발화율(Duration), 음질(Speech Quality) 등을 고려하며, 이를 이용하여 입력된 음성 신호의 감정을 평가하게 된다.
그러나 음성의 톤이나 음질, 그리고 에너지 등의 경우에는 마이크의 볼륨이나 전화 회선의 상태 및 주변 상황 등 외부 환경적인 요인이 매우 민감하게 작용한다는 문제점이 존재한다.
따라서 감정 인식 시스템의 성능 향상을 위해서는 기존 기술에서 사용되는 감정 인식 파라미터 이외에 화자의 감정 상태를 반영할 수 있는 새로운 파라미터를 이용할 필요성이 존재한다.
따라서 본 발명은 상기한 종래 기술에 따른 문제점을 해결하기 위한 것으로, 화자의 음성으로부터 감정 정보를 포함하고 있는 스펙트럴 엔트로피와 델타 스펙트럴 엔트로피 및 멜 주파수 스펙트럴 엔트로피를 이용하여 음성 신호로부터 보다 정확하게 감정을 인식하는 시스템 및 그 방법의 제공을 그 목적으로 한다.
본 발명의 일 측면에 따른 스펙트럼 엔트로피 값을 이용한 감정 인식 방법은 감정 평가 모델 생성용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하고, 이를 이용하여 감정 평가 모델을 생성하는 단계와 평가용 음성 신호를 입력받고, 상기 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출한 후 이를 상기 감정 평가 모델에 적용하여 상기 평가 음성 신호에 따른 감정을 인식하는 단계를 포함한다.
상기 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하는 단계는 음성 신호를 프레임으로 세분화하는 단계, 음성 신호의 프레임 별 고대역을 강조하는 단계, 음성 신호의 스펙트럼 정규화를 수행하는 단계 및 스펙트럼 정규화 분포로부터 프레임별 엔트로피 값을 산출하는 단계를 포함할 수 있다.
이 경우 상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계, 패스트 푸리에 변환된 결 과로부터 파워 스펙트럼을 획득하는 단계 및 상기 파워 스펙트럼으로부터 정규화 연산을 수행하는 단계를 포함할 수 있다.
대체적으로, 상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는 상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계, 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득하는 단계, 파워 스펙트럼으로부터 델타 패스트 푸리에 변환 스펙트럼을 연산하고, 그 절대값을 연산하는 단계 및 델타 패스트 푸리에 변환 스펙트럼의 절대값으로부터 정규화 연산을 수행하는 단계를 포함할 수도 있다.
보다 바람직하게 상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 단계를 더 포함할 수도 있다.
한편, 상기 음성 신호를 프레임으로 세분화하고 고역을 강조하는 단계에서는 해밍 윈도우(hamming window) 등을 이용할 수 있다.
GMM(gaussian mixture model)을 이용한 상기 감정 평가 모델을 생성하는 단계는 MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 할 수 있다. 또한, 상기 감정 평가 모델을 생성하는 단계는 GMM 알고리즘 외에도 HMM(Hidden Markov Model) 알고리즘 또는 SVM(support vector machine) 알고리즘 등을 이용할 수 있다.
이 때 상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 GMM 감 정 평가 모델에 적용하여 감정 인식을 수행하는 단계는 상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하는 단계와 상기 가우시안 혼합 분포 중 가장 큰 확률 값을 가지는 GMM 파라미터에 따른 감정을 선택하는 단계를 포함할 수 있다.
본 발명의 다른 측면에 따른 스펙트럼 엔트로피 값을 이용한 감정 인식 장치는 입력된 음성 신호를 프레임으로 세분화하는 프레임 생성부, 세분화된 음성 신호의 프레임 별 파워 스펙트럼 정규화를 수행하는 스펙트럼 정규화 연산부, 각 프레임별 엔트로피 값을 구하는 엔트로피 연산부 및 감정 평가 모델을 생성하는 감정 평가 모델 생성부를 포함할 수 있다. 또한, 입력되는 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 감정 평가 모델에 적용하여 감정 인식을 수행하는 음성 평가부를 더 포함할 수도 있다.
상기 스펙트럼 정규화 연산부는 음성 신호를 패스트 푸리에 변환(fast fourier transform)하고, 상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 정규화를 수행할 수 있다. 이 경우 상기 스펙트럼 정규화 연산부는 상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하여 파워 스펙트럼의 정규화를 수행할 수도 있다.
이 경우 상기 스펙트럼 정규화 연산부는, 상기 음성 신호를 패스트 푸리에 변환하여 파워 스펙트럼을 획득하고, 이로부터 델타 패스트 푸리에 변환 스펙트럼 의 절대값을 획득하는 과정을 수행할 수 있다. 이 때 스펙트럼 정규화 연산부는 상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행할 수도 있다.
한편, 본 발명에 따른 감정 인식 장치는 해밍 윈도우(hamming window) 등을 이용하여 고역을 강조하기 위한 고대역 강조부를 더 포함할 수도 있다.
또한, GMM(gaussian mixture model)을 이용한 상기 감정 평가 모델을 생성하는 단계는 MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 할 수 있다. 또한, 상기 감정 평가 모델을 생성하는 단계는 GMM 알고리즘 외에도 HMM (Hidden Markov Model) 알고리즘 또는 SVM (support vector machine) 알고리즘 등을 이용할 수 있다.
상기 음성 평가부는 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하고, 이 중 가장 큰 확률 값을 가지는 GMM 파라미터에 따른 감정을 선택하는 것을 특징으로 한다.
마지막으로 본 발명에 따른 감정 인식 장치는 외부로부터 감정 평가 모델을 수신하기 위한 통신 인터페이스를 더 포함하는 것을 특징으로 한다.
상기한 바와 같이 본 발명에 따른 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법 및 시스템에 의하면 음성 신호의 스펙트럴 엔트로피, 델타 스펙트 럴 엔트로피 및 멜 주파수 필터 뱅크 스펙트럴 엔트로피의 적용이 가능하다. 이에 더하여, 델타 멜 주파수 필터 뱅크 스펙트럴 엔트로피의 적용도 가능하며, 이러한 특징으로 인하여 감정 인식 성능이 향상된다. 이와 같은 방법을 적용하여 음성을 이용한 화자의 성별 및 연령 인식도 가능케 된다.
또한, 본 발명에 따른 스펙트럴 엔트로피를 이용한 감정 인식 방법은 음성 PC 환경뿐만 아니라, 이동통신 단말기, PDA 등의 임베디드 환경에도 적용이 가능하므로, 보다 간편하고 편리하게 감정 인식을 수행할 수 있다.
이하, 본 발명에 따른 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법 및 그 장치에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 신호의 감정 인식 모델 생성 방법을 나타낸 도면이다.
감정 인식 장치(100)는 입력된 음성 신호를 평가할 기준으로서의 감정 평가 모델을 생성하기 위해서 음성 신호를 입력받는다(S101).
감정 인식 장치(100)는 프레임 세분화 작업을 수행 한다 (S102). 그 후 감정 인식 장치(100)는 해밍 윈도우(Hamming window) 등을 사용하여 프레임별 고역 강조를 수행한다(S103).
프레임 별 고역 강조 후 감정 인식 장치(100)는 상기 프레임별 음성 신호를 이용하여 스펙트럼 정규화를 수행한다(S104). 감정 인식 장치(100)가 프레임별 음성 신호를 스펙트럼 정규화하는 방법으로는 여러 방법이 존재한다. 특히, 본 발명에 따른 감정 인식 장치(100)는 도 3 내지 도 6에 제시된 스펙트럼 정규화 방법 중 하나를 이용할 수도 있다.
도 3 내지 도 6의 스펙트럼 정규화 방법 중 도 3에 따른 스펙트럼 정규화 방법에 대하여 먼저 살펴보기로 한다.
도 3은 패스트 푸리에 변환(Fast Fourier Transform)을 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면이다.
먼저, 감정 인식 장치(100)는 프레임 세분화 작업과 프레임 별 고대역 강조를 수행한 신호에 대하여, 세분화된 프레임 단위로 패스트 푸리에 변환(fast fourier transform)을 수행한다(S301).
본 발명에서, 패스트 푸리에 변환의 수행 결과는 X(i,n)으로 표시하기로 한다. 여기서 X(i,n)는 n번째 프레임 신호들의 i번째 주파수 성분을 나타낸 것으로 아래의 수학식으로 나타낼 수 있다.
수학식 1에서 x(m,n)은 시간 영역의 음성신호 n번째 프레임의 m번째 샘플을 나타내며, M은 패스트 푸리에 변환 포인트의 개수, 그리고 N은 주기를 나타낸다.
그 후, 감정 인식 장치(100)는 패스트 푸리에 변환을 수행한 결과를 이용하여, 파워 스펙트럼 연산을 수행한다(S302). 그 결과를 패스트 푸리에 변환 파워 스펙트럼으로 칭하기로 한다. 패스트 푸리에 변환 파워 스펙트럼은 S(i,n)로 나타내기로 하며, 이는 아래의 수학식 2로부터 구할 수 있다.
S302 과정에 따른 파워 스펙트럼의 연산 결과를 이용하여 감정 인식 장치(100)는 파워 스펙트럼의 정규화 분포를 연산한다(S303). 파워 스펙트럼의 정규화 분포 연산은 아래의 수학식 3에 의하여 구할 수 있다.
여기서, P[S(i,n)]는 패스트 푸리에 변환의 파워 스펙트럼 정규화 분포를 나타낸다. 또한, S(i,n)는 패스트 푸리에 변환의 파워 스펙트럼을 나타낸다. 이상의 도 3을 이용하여 감정 인식 장치(100)는 스펙트럼 정규화를 수행할 수 있다.
또한, 감정 인식 장치(100)는 도 4 내지 도 6을 이용하여서도 도 3과 같은 스펙트럼 정규화 수행을 할 수도 있다. 감정 인식 장치(100)는 감정 인식 효율 등을 고려하여 상기 스펙트럼 정규화 수행 방법 중 하나를 선택할 수 있다. 도 4 내 지 도 6의 스펙트럼 정규화 방법은 뒤에서 살펴보기로 하고, 다시 도 1의 감정 평가 모델 생성에 대하여 설명하기로 한다.
감정 인식 장치(100)는 정규화된 스펙트럼의 분포를 이용하여 각 프레임별 엔트로피 값을 산출한다(S105).
도 3의 스펙트럼 정규화 수행이 이루어진 경우, 프레임별 엔트로피를 H(n)로 나타내기로 하며, 이는 아래의 수학식에 의하여 구할 수 있다.
감정 인식 장치(100)는 프레임별 엔트로피 피 값을 이용하여 감정 평가 모델을 생성한다(S106).
각 프레임마다 계산된 엔트로피 값과 GMM(gaussian mixture model) 알고리즘을 이용하여 확률 모델을 생성할 수 있다. 이러한 패턴 인식의 방법으로는 HMM(Hidden Markov Model)이나 SVM(support vector machine) 등의 다른 알고리즘의 적용도 가능하다.
GMM 알고리즘은 음성 신호를 M개의 각 성분 분포들의 선형 조합으로 근사화시킬 수 있으며, 긴 구간의 신호에 대하여도 표현이 가능하다. GMM 확률 분포는 아래의 수학식과 같다.
여기서 bi(x)는 데이터 x에 대한 가우시안 확률 밀도 함수를 의미하며, pi는 혼합 가중치(mixture weight)를 나타낸다. 음성 신호를 GMM 모델로 표현하기 위해서는 i) 평균 벡터, ii) 공분산 행렬, iii) 가중치의 파라미터가 필요하다. 이 세 가지 파라미터의 집합으로 어떤 화자나 감정에 따른 음성 신호를 표현할 수 있다. 이러한 집합을 GMM이라고 하고 다음 식과 같다.
여기서 GMM 집합의 구성 요소 중 Pi는 혼합 가중치이며, ui는 평균 벡터이다. ∑i는 공분산 행렬이다. 이들 세 가지 파라미터의 집합을 통하여 가우시안 혼합 분포를 표현할 수 있다.
GMM을 이용한 인식 시스템은 학습 과정에서 감정별 학습 데이터마다 MLE(maximum likelihood estimation) 알고리즘과 EM(expectation maximization) 알고리즘 등을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하게 된다.
도 2는 본 발명의 다른 실시예에 따른 음성 신호의 감정 인식 방법을 나타낸 도면이다.
도 2의 음성 신호 감정 인식 방법은 도 1의 감정 평가 모델을 생성하는 방법과 상당히 유사하다. 또한, 도 2의 음성 신호 감정 인식 방법은 도 1의 감정 평가 모델을 전제로 수행된다.
감정 인식 장치(100)는 감정 인식을 하고자 하는 음성 신호를 입력받는다(S201). 그 후 도 1과 마찬가지로 감정 인식 장치(100)는 입력된 음성 신호를 프레임으로 세분화 하고(S202), 해밍 윈도우 등을 이용하여 각 프레임 별 고역을 강조하는 작업을 수행한다(S203).
감정 인식 장치(100)는 인식하고자 하는 음성 신호에 대하여도 감정 평가 모델을 생성할 때와 동일한 스펙트럼 정규화를 수행한다(S204). S204 결과를 이용하여 감정 인식 장치(100)는 프레임별 엔트로피 값을 산출한다(S205).
감정 인식 장치(100)는 S205 단계에서 산출된 엔트로피 값과 다수의 감정별 GMM 파라미터로부터 각각 가우시안 혼합 분포를 획득한다(S206).
가우시안 혼합 분포 획득 후 감정 인식 장치(100)는 확률이 가장 큰 GMM 파라미터에 상응하는 감정을 음성 데이터의 감정으로 선택하게 된다(S207). 이하, 도 4 내지 도 6에 따른 스펙트럼 정규화 방법에 대하여 살펴보기로 한다.
도 4는 델타 패스트 푸리에 변환을 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면이다.
도 3과 마찬가지로 감정 인식 장치(100)는 프레임으로 세분화된 후 고대역 강조된 음성 신호에 대하여, 프레임 단위로 패스트 푸리에 변환(fast fourier transform)을 수행한다(S401). S401의 패스트 푸리에 변환은 위의 수학식 1에 의하여 수행될 수 있다.
그 후, 감정 인식 장치(100)는 패스트 푸리에 변환된 결과를 이용하여, 패스트 푸리에 변환 파워 스펙트럼 연산을 수행한다(S402). 이는 위의 수학식 2에 의하여 수행될 수 있다.
감정 인식 장치(100)는 S402로부터 획득한 파워 스펙트럼 값으로부터 델타 패스트 푸리에 변환 스펙트럼 연산을 수행하고, 델타 패스트 푸리에 변환 스펙트럼 값의 절대값을 연산한다(S403).
델타 패스트 푸리에 변환 스펙트럼 연산은 S'(i,n)로 정의하기로 하며, 이는 아래의 수학식에 의하여 수행될 수 있다.
또한, 델타 패스트 푸리에 변환 스펙트럼 연산의 절대값은 아래의 수학식과 같이 표시될 수 있다.
감정 인식 장치(100)는 수학식 8의 연산 결과를 획득한 후 파워 스펙트럼의 정규화 분포를 연산한다. 파워 스펙트럼의 정규화 분포 연산은 아래의 수학식 9에 의하여 구할 수 있다.
이와 같은 수식을 이용하여 감정 인식장치(100)는 스펙트럼 정규화를 수행할 수 있다.
감정 인식 장치(100)는 스펙트럼 정규화를 수행한 후 각 프레임 별 엔트로피 값을 산출한다. 이는 S105 과정에 해당되며, 산출되는 프레임 별 엔트로피 값 결과는 아래의 수학식과 같다.
수학식 10은 수학식 4와 비교할 때, 입력되는 S(i,n)가 S'(i,n)로 변경되었다는 점에서 차이가 있다.
이상의 프레임 별 엔트로피 값 결과를 GMM 특징 벡터로 사용하여 도 1의 감정 평가 모델 생성 과정과 입력된 음성 신호로부터 감정을 인식하는 과정을 수행할 수 있게 된다.
도 5는 패스트 푸리에 변환과 Mel 필터를 이용하여 스펙트럼 정규화를 수행 하는 방법을 나타낸 도면이다.
도 3, 4와 마찬가지로 감정 인식 장치(100)는 음성 신호에 대하여, 세분화된 프레임 단위로 패스트 푸리에 변환(fast fourier transform)을 수행한 후(S501), 패스트 푸리에 변환 파워 스펙트럼 연산을 수행한다(S502).
감정 인식 장치(100)는 S502로부터 획득한 파워 스펙트럼을 멜(Mel) 주파수 스펙트럼 필터 뱅크에 대입하고, 또한, 그 결과의 절대값을 연산하게 된다(S503). 이러한 결과는 멜 주파수 스펙트럼, M(b,n)으로 정의하기로 한다.
멜 주파수 스펙트럼을 구하는 과정, 즉 푸리에 변환 파워 스펙트럼을 멜 주파수 스펙트럼 필터 뱅크에 대입하는 과정은 아래의 수학식에 의하여 이루어질 수 있다.
여기서 Vb(i)는 b번째 멜 필터의 i번째 주파수 성분의 멜-스케일 즉 가중치이며, Lb와 Ub는 b번째 멜 필터의 시작점 주파수와 종료점 주파수를 나타낸다.
그 후 감정 인식 장치는 멜 주파수 스펙트럼의 정규화 연산을 수행하게 된다(S504). 상기 멜 주파수 스펙트럼 정규화 연산은 아래의 수학식에 의하여 구해질 수 있다.
여기서 B는 멜 필터의 총 개수를 나타낸다.
수학식 12를 통하여 획득한 멜 주파수 스펙트럼 정규화 결과를 이용하여 각 프레임의 엔트로피 값(HMFB(n))을 구한다. 멜 주파수 스펙트럼 정규화 결과로부터 각 프레임 별 엔트로피 값을 구하는 방법은 아래의 수학식에 따른다.
이러한 결과를 GMM 특징 벡터로 사용하여 감정 인식 모델을 생성하는 과정과 입력된 음성 신호로부터 감정 인식 과정은 도 1에서 설명한 바와 같다.
도 6은 델타 패스트 푸리에 변환과 Mel 필터를 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면이다.
이미 설명한 방법과 마찬가지로 감정 인식 장치(100)는 음성 신호에 대하여, 세분화된 프레임 단위로 패스트 푸리에 변환(fast fourier transform)을 수행한 후(S601), 패스트 푸리에 변환 파워 스펙트럼 연산을 수행한다(S602).
감정 인식 장치(100)는 S602로부터 획득한 파워 스펙트럼을 멜(Mel) 주파수 스펙트럼 필터 뱅크에 대입하고, 그에 대한 절대값을 연산한다(S603). 이를 멜 주파수 스펙트럼, M(b,n)으로 칭한다.
멜 주파수 스펙트럼을 구하는 과정, 즉 푸리에 변환 파워 스펙트럼을 멜 주파수 스펙트럼 필터 뱅크에 대입하는 과정은 위 수학식 11에 의하여 이루어질 수 있다.
감정 인식 장치(100)는 S602로부터 획득한 멜 파워 스펙트럼 값으로부터 델타 멜 스펙트럼 연산을 수행하고, 그 결과의 절대값을 연산한다(S604). 델타 멜 패스트 푸리에 변환 스펙트럼 연산은 M'(b,n)으로 정의될 수 있으며 아래의 수학식에 의하여 수행될 수 있다.
또한, 델타 멜 스펙트럼의 절대값은 아래의 수학식과 같이 구할 수 있다.
델타 멜 스펙트럼의 절대값을 구한 후 감정 인식 장치(100)는 멜 주파수 스펙트럼의 정규화 연산을 수행하게 된다(S605). 상기 멜 주파수 스펙트럼 정규화 연산은 아래의 수학식에 의하여 구해질 수 있다.
여기서 B는 멜 필터의 총 개수를 나타낸다.
획득한 델타 멜 주파수 스펙트럼 정규화 결과를 이용하여 각 프레임의 엔트로피 값(HMFB`(n))을 구한다. 델타 멜 주파수 스펙트럼 정규화 결과로부터 각 프레임 별 엔트로피 값을 구하는 방법은 아래의 수학식에 따른다.
이러한 결과를 GMM 특징 벡터로 사용하여 감정 인식 모델을 생성하는 과정과 입력된 음성 신호로부터 감정 인식 과정은 도 1에서 설명한 바와 같다.
도 7은 본 발명의 또 다른 실시예에 따른 감정 인식 장치의 구성을 나타낸 도면이다.
도 7에 제시된 바와 같이 본 발명에 따른 감정 인식 장치는 마이크(110), 프레임 생성부(120), 고대역 강조부(130), 스펙트럼 정규화 연산부(140), 엔트로피 연산부(150), 감정 평가 모델 생성부(170), 감정 평가 모델 DB(180), 음성 평가부(160) 등을 포함하여 구성될 수 있다.
마이크(110)는 사용자 등으로부터 음성 신호를 입력받기 위한 구성 요소에 해당하다. 프레임 생성부(120)는 마이크(110)로부터 음성 신호가 입력되면 프레임을 세분화한다. 고대역 강조부(130)는 해밍 윈도우 등을 사용하여 세분화된 프레임의 고대역을 강조하는 구성 요소에 해당한다.
감정 인식 장치(100)의 스펙트럼 정규화 연산부(140)는 프레임별 음성 신호에 대한 스펙트럼 정규화를 수행한다. 스펙트럼 정규화 연산부(140)가 스펙트럼 정규화를 수행하기 위하여 도 3 내지 도 6의 방법 중 하나를 이용할 수 있다. 이에 대한 자세한 설명은 생략하기로 한다.
감정 인식 장치(100)의 엔트로피 연산부(150)는 스펙트럼 정규화 연산부(140)가 출력한 정규화된 스펙트럼의 분포를 이용하여 각 프레임별 엔트로피 값을 산출하게 된다. 이러한 프레임별 엔트로피 값을 산출하기 위하여 엔트로피 연산부(150)는 수학식 4, 10, 13, 17을 이용할 수 있다.
감정 인식 장치(100)의 감정 평가 모델 생성부(170)는 위에서 설명한 방법에 따라 프레임별 엔트로피 값을 이용하여 감정 인식을 위한 모델을 생성한다. 감정 평가 모델 생성부(170)가 생성한 감정 평가 모델은 감정 평가 모델 DB(180)에 저장된다.
한편, 음성 평가부(160)는 감정을 인식하려는 화자의 음성 신호를 감정 평가 모델 DB(180)에 저당되어 있는 감정 인식 모델에 적용함으로써 화자의 음성 신호에 따른 감정을 평가하게 된다. 이와 같이 평가된 감정은 디스플레이부(181)에 의하여 출력될 수 있다.
한편, 통신 인터페이스(182) 외부 네트워크로부터 감정 평가 모델을 입력받기 위한 구성 요소에 해당한다. 본 발명에 따른 감정 인식 장치(100)는 자체적으로 음성 평가 모델을 생성할 수도 있지만, 외부 네트워크 등으로부터 음성 평가 모델을 제공받을 수도 있다. 외부 네트워크로부터 제공받은 음성 평가 모델은 감정 평가 모델 DB(180)에 저장된다.
감정 인식 장치(100)는 감정을 인식하려는 화자의 음성 신호를 외부 네트워크로부터 제공받은 음성 평가 모델에 적용함으로써 화자의 감정을 평가할 수도 있는 것이다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의하여 정해져야 한다.
도 1은 본 발명의 일 실시예에 따른 음성 신호의 감정 인식 모델 생성 방법을 나타낸 도면.
도 2는 본 발명의 다른 실시예에 따른 음성 신호의 감정 인식 방법을 나타낸 도면.
도 3은 패스트 푸리에 변환(Fast Fourier Transform)을 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면.
도 4는 델타 패스트 푸리에 변환을 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면.
도 5는 패스트 푸리에 변환과 Mel 필터를 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면.
도 6은 델타 패스트 푸리에 변환과 Mel 필터를 이용하여 스펙트럼 정규화를 수행하는 방법을 나타낸 도면.
도 7은 본 발명의 또 다른 실시예에 따른 감정 인식 장치의 구성을 나타낸 도면.
<도면의 주요 부분에 대한 부호 설명>
100 : 감정 인식 장치
110 : 마이크
120 : 프레임 생성부
130 ; 고대역 강조부
140 : 스펙트럼 정규화 연산부
150 : 엔트로피 연산부
160 : 음성 평가부
170 : 감정 평가 모델 생성부
180 : 감정 평가 모델 DB
181 : 디스플레이부
182 : 통신 인터페이스
Claims (20)
- 스펙트럼 엔트로피 값을 이용한 감정 인식 방법에 있어서,감정 평가 모델 생성용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하고, 이를 이용하여 감정 평가 모델을 생성하는 단계; 와평가용 음성 신호를 입력받고, 상기 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출한 후 이를 상기 감정 평가 모델에 적용하여 상기 평가 음성 신호에 따른 감정을 인식하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하는 단계는,상기 음성 신호를 프레임으로 세분화하는 단계;상기 음성 신호의 프레임 별 고대역을 강조하는 단계;상기 음성 신호의 스펙트럼 정규화를 수행하는 단계; 및상기 스펙트럼 정규화 분포로부터 프레임별 엔트로피 값을 산출하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계;상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득하는 단계; 및상기 파워 스펙트럼으로부터 정규화 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계;상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득하는 단계;상기 파워 스펙트럼으로부터 델타 패스트 푸리에 변환 스펙트럼을 연산하고, 그 절대값을 연산하는 단계; 및상기 델타 패스트 푸리에 변환 스펙트럼의 절대값으로부터 정규화 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항 또는 제3항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 단계를 더 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 프레임별 고대역을 강조하는 단계는,해밍 윈도우(hamming window) 등을 이용하여 프레임의 고역을 강조하는 것을 특징으로 하는 감정 인식 방법.
- 제1항에 있어서,상기 감정 평가 모델을 생성하는 단계는,GMM(gaussian mixture model) 알고리즘, HMM(Hidden Markov Model) 알고리즘 또는 SVM(support vector machine) 알고리즘 중 하나를 이용하는 것을 특징으로 하는 감정 인식 방법.
- 제7항에 있어서,상기 감정 평가 모델을 생성하는 단계는,MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알 고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 하는 감정 인식 방법.
- 제8항에 있어서,상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 GMM 감정 평가 모델에 적용하여 감정 인식을 수행하는 단계는,상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하는 단계; 와상기 가우시안 혼합 분포 중 가장 큰 확률 값을 가지는 GMM 파라미터에 따른 감정을 선택하는 단계를 포함하는 감정 인식 방법.
- 스펙트럼 엔트로피 값을 이용한 감정 인식 장치에 있어서,입력된 음성 신호를 프레임으로 세분화하는 프레임 생성부;세분화된 음성 신호의 프레임 별 파워 스펙트럼 정규화를 수행하는 스펙트럼 정규화 연산부;상기 스펙트럼의 정규화 결과를 이용하여 각 프레임별 엔트로피 값을 구하는 엔트로피 연산부; 및상기 프레임별 엔트로피 값으로부터 감정 평가 모델을 생성하는 감정 평가 모델 생성부를 포함하는 감정 인식 장치.
- 제10항에 있어서,입력되는 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 감정 평가 모델에 적용하여 감정 인식을 수행하는 음성 평가부를 더 포함하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,상기 스펙트럼 정규화 연산부는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하고, 상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 정규화를 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제12항에 있어서,상기 스펙트럼 정규화 연산부는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,상기 스펙트럼 정규화 연산부는,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환하여 파워 스펙트럼을 획득하고, 이로부터 델타 패스트 푸리에 변환 스펙트럼의 절대값을 획득한 후, 상기 델타 패스트 푸리에 변환 스펙트럼의 절대값에 대한 정규화를 연산하는 것을 특징으로 하는 감정 인식 장치.
- 제14항에 있어서,상기 스펙트럼 정규화 연산부는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,해밍 윈도우(hamming window) 등을 이용하여 프레임의 고역을 강조하는 것을 고대역 강조부를 더 포함하는 것을 특징으로 하는 감정 인식 장치.
- 제11항에 있어서,상기 감정 평가 모델 생성부는,GMM(gaussian mixture model) 알고리즘, HMM(Hidden Markov Model) 알고리즘 또는 SVM(support vector machine) 알고리즘 중 하나를 이용하는 것을 특징으로 하는 감정 인식 장치.
- 제17항에 있어서,상기 감정 평가 모델 생성부는,MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 하는 감정 인식 장치.
- 제18항에 있어서,상기 음성 평가부는,상기 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하고, 이 중 가장 큰 확률 값을 가지는 GMM 파라 미터에 따른 감정을 선택하는 것을 특징으로 하는 감정 인식 장치.
- 제11항 또는 제12항에 있어서,외부로부터 감정 평가 모델을 수신하기 위한 통신 인터페이스를 더 포함하는 것을 특징으로 하는 감정 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080046544A KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080046544A KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090120640A true KR20090120640A (ko) | 2009-11-25 |
KR100937101B1 KR100937101B1 (ko) | 2010-01-15 |
Family
ID=41603852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080046544A KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100937101B1 (ko) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014035012A1 (ko) * | 2012-09-03 | 2014-03-06 | 경희대학교 산학협력단 | 감정 음성 인식장치 및 방법 |
KR20150087671A (ko) * | 2014-01-22 | 2015-07-30 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
CN108962281A (zh) * | 2018-08-15 | 2018-12-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN110021308A (zh) * | 2019-05-16 | 2019-07-16 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN110211596A (zh) * | 2019-05-29 | 2019-09-06 | 哈尔滨工程大学 | 一种基于Mel子带谱熵鲸目动物哨声信号检测方法 |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110827798A (zh) * | 2019-11-12 | 2020-02-21 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
CN111292724A (zh) * | 2020-02-13 | 2020-06-16 | 上海凯岸信息科技有限公司 | 一种基于深度学习的语音情绪识别方案 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10177400A (ja) | 1996-12-19 | 1998-06-30 | Toyota Motor Corp | 音声認識装置 |
JP2001331190A (ja) | 2000-05-22 | 2001-11-30 | Matsushita Electric Ind Co Ltd | 音声認識システムにおけるハイブリッド端点検出方法 |
KR20040038419A (ko) * | 2002-11-01 | 2004-05-08 | 에스엘투(주) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 |
-
2008
- 2008-05-20 KR KR1020080046544A patent/KR100937101B1/ko not_active IP Right Cessation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014035012A1 (ko) * | 2012-09-03 | 2014-03-06 | 경희대학교 산학협력단 | 감정 음성 인식장치 및 방법 |
KR20150087671A (ko) * | 2014-01-22 | 2015-07-30 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
CN108962281A (zh) * | 2018-08-15 | 2018-12-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN108962281B (zh) * | 2018-08-15 | 2021-05-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN110021308A (zh) * | 2019-05-16 | 2019-07-16 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN110211596A (zh) * | 2019-05-29 | 2019-09-06 | 哈尔滨工程大学 | 一种基于Mel子带谱熵鲸目动物哨声信号检测方法 |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110827798A (zh) * | 2019-11-12 | 2020-02-21 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
CN111292724A (zh) * | 2020-02-13 | 2020-06-16 | 上海凯岸信息科技有限公司 | 一种基于深度学习的语音情绪识别方案 |
Also Published As
Publication number | Publication date |
---|---|
KR100937101B1 (ko) | 2010-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100937101B1 (ko) | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 | |
Dave | Feature extraction methods LPC, PLP and MFCC in speech recognition | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
Ramamohan et al. | Sinusoidal model-based analysis and classification of stressed speech | |
CN112689871A (zh) | 使用神经网络以目标讲话者的话音从文本合成语音 | |
EP2017832A1 (en) | Voice quality conversion system | |
Almaadeed et al. | Text-independent speaker identification using vowel formants | |
Xu et al. | Voice conversion based on Gaussian processes by coherent and asymmetric training with limited training data | |
CN116018638A (zh) | 使用话音转换和语音识别模型的合成数据增强 | |
Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
Xu et al. | Speaker recognition and speech emotion recognition based on GMM | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
CN110930975B (zh) | 用于输出信息的方法和装置 | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
Patil et al. | Combining evidences from magnitude and phase information using VTEO for person recognition using humming | |
Aroon et al. | Speaker recognition system using Gaussian Mixture model | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
Prasad et al. | Backend tools for speech synthesis in speech processing | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Sahidullah et al. | On the use of distributed dct in speaker identification | |
Valaki et al. | A hybrid HMM/ANN approach for automatic Gujarati speech recognition | |
Rao et al. | Robust features for automatic text-independent speaker recognition using Gaussian mixture model | |
Mittal et al. | Age approximation from speech using Gaussian mixture models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130102 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20140106 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |