KR101330268B1 - 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 - Google Patents
가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 Download PDFInfo
- Publication number
- KR101330268B1 KR101330268B1 KR1020120100727A KR20120100727A KR101330268B1 KR 101330268 B1 KR101330268 B1 KR 101330268B1 KR 1020120100727 A KR1020120100727 A KR 1020120100727A KR 20120100727 A KR20120100727 A KR 20120100727A KR 101330268 B1 KR101330268 B1 KR 101330268B1
- Authority
- KR
- South Korea
- Prior art keywords
- membership function
- neuro
- speech
- fuzzy
- sugeno
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 claims abstract description 20
- 230000037007 arousal Effects 0.000 claims description 15
- 238000010926 purge Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 abstract 2
- 230000006870 function Effects 0.000 description 29
- 230000002996 emotional effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
본 발명은 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 관한 것으로서, 보다 구체적으로는 (1) 음성 신호로부터 특징(feature)을 추출하는 단계, (2) 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계, 및 (3) 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능하다.
본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능하다.
Description
본 발명은 음성 감정 인식 모델 생성 방법에 관한 것으로서, 보다 구체적으로는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 관한 것이다.
감성 컴퓨팅(affective computing)은 인간의 감성을 인지, 해석, 처리할 수 있는 시스템과 장치를 설계하는 것과 관련된 인공지능을 연구하고 개발하는 분야로서, 이와 같은 감성 컴퓨팅은 인간을 돕는데 있어 보다 나은 성능을 제공할 뿐만 아니라 결정을 내리는 컴퓨터의 능력을 향상시킬 수도 있다.
현재, 사람의 감정을 인식하는 다양한 방법 및 장치들에 대한 연구가 이루어지고 있으며, 보다 구체적으로, Dietz 및 Lang(R. Dietz and “A. Lang. Affective agents: Effects of agent affect on arousal, attention, liking and learning.” In Proceedings of the Third International Cognitive Technology Conference, 1999)은 컴퓨터와 사용자 간의 중재자로서 역할을 하는 정서적 에이전트(agent)를 개발하기 위해 유발성(valence), 각성(arousal) 및 조절(control)로 구성된 3차원 감정 공간을 사용하는 방법을 제안하였고, Yeasin 등(L. Zhang, H. Ai, and et al. “Robust face alignment based on local texture classifiers.” In IEEE International Conference on Image Processing, 2005)은 유사한 3차원 공간을 사용하여, 얼굴 표정을 분석하고, 비디오 콘텐츠로부터 관심 수준을 측정하는 것을 제안하였으며, Hanjalic 및 Xu(A. Hanjalic and L.-Q. Xu. “Affective video content representation and modeling.” IEEE Transactions on Multimedia, 7(1):143154, 2005)는 감정적 차원을 낮은 레벨의 오디오 특징 및 연속적인 비디오 프레임 사이의 모션 특징과 연결함으로써 “감성적 커브”로서 감성적 비디오 콘텐츠를 설명하는 것을 제안하였다.
한편, 최근에는 이와 같은 얼굴 표정뿐만 아니라 사람의 기본적이고 주된 활동 중 하나인 말하기, 즉 음성 신호를 기반으로 하여 감정을 인식하는 것에 대한 관심이 증가하고 있으나, 아직까지 이에 대한 연구는 미비한 실정이다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능한, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법은,
(1) 음성 신호로부터 특징(feature)을 추출하는 단계;
(2) 추출된 상기 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계; 및
(3) 산출된 상기 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)은,
음성분석프로그램(PRAAT)을 이용하여 상기 음성 신호로부터 26개의 특징을 추출할 수 있다.
바람직하게는, 상기 2차원 감정 공간은,
유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원 감정 공간일 수 있다.
바람직하게는, 상기 단계 (3)에서는,
상기 타카기-수게노 역퍼지 값을 상기 2차원 감정 공간에 표시하여 상기 음성 신호로부터 분노, 행복 및 슬픔의 감정을 분류할 수 있다.
본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능하다.
도 1은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 순서도.
도 2는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 개요도.
도 3은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 통해 음성 신호로부터 분노, 행복 및 슬픔을 분류하여 인식한 결과를 나타낸 도면.
도 2는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 개요도.
도 3은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 통해 음성 신호로부터 분노, 행복 및 슬픔을 분류하여 인식한 결과를 나타낸 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 순서도이고, 도 2는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 개요도이다. 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법은, 음성 신호로부터 특징(feature)을 추출하는 단계(S100), 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계(S200), 및 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계(S300)를 포함하여 수행될 수 있다.
단계 S100에서는, 음성 신호로부터 감정을 분류하기 위한 특징(feature)을 추출한다. 음성 신호를 분석하기 위하여 대표적으로 F0(기본주파수 또는 유성음(vocal) 진동의 피치), 절대음압(음성의 상대적인 크기를 나타냄), 지터(jitter)(한 유성음 사이클에서 다른 유성음 사이클까지의 음성 F0의 변화 정도), 쉼머(shimmer)(하나의 사이클에서 다른 사이클까지의 음성 진폭의 변화 정도) 및 잡음 대 조화음 비율(noise-to-harmonics ratio)(음성의 음색 성분에 대한 잡음의 진폭) 등을 측정하는데, 단계 S100에서는 음성분석프로그램(PRAAT)을 이용하여 입력된 음성 신호로부터 특징을 추출하며, 보다 구체적으로, 아래의 표 1에 나타난 26개의 특징을 추출한다.
단계 S200에서는, 단계 S100에 의해 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출한다. 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(NEWFM)는 가중 퍼지 소속 함수의 유계 합(BSWFM)을 사용하는 감독분류 뉴로-퍼지 시스템으로서, 이를 사용하여 입력된 음성 신호로부터 감정을 분류하기 위한 유발성(valence) 및 각성(arousal)의 타카기-수게노 역퍼지 값을 산출한다.
단계 S300에서는, 단계 S200에 의해 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하며, 도 3은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 나타낸 도면이다. 도 3에 도시된 바와 같이, 2차원 감정 공간은 유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원의 사분면으로서, 해당 공간에 타카기-수게노 역퍼지 값을 분배하여 표시함으로써 음성 신호로부터 감정을 인식할 수 있고, 바람직하게는 분노(anger), 행복(happiness) 및 슬픔(sadness)의 감정을 분류하여 인식할 수 있으며, 여기서 분노는 양(+)의 각성 및 음(-)의 유발성을 가지고, 행복은 양의 각성 및 유발성을 가지며, 슬픔은 음의 각성 및 유발성을 가진다.
보다 구체적으로, 감정은 유발성(valence), 각성(arousal) 및 조절(control) 세 가지의 요인의 교차에 의해 특징될 수 있다. 여기서, “유발성”이란 ‘비관적(pessimistic)’에서 ‘중립적(neutral)’으로, 계속해서 ‘낙관적(optimistic)’으로 이르기까지의 감정의 “유형(type)”을 의미한다. 또한, “각성”이란 ‘졸린 감정(sleepy)’에서 ‘평온(calm)’으로, 계속해서 ‘흥분(excited)’으로 이르기까지의 감정의 “강도(intensity)”를 나타낸다. 한편, “조절”은 ‘조절이 없는 상태(no control)’에서 ‘전면적인 조절(full control)’에 이르기까지의 각성 및 유발성과 유사한 정서적 상태 사이를 구별하는데 유용할 수 있으나, 이러한 “조절” 차원의 효과는 거의 없는 편이고, 유발성 및 각성만으로 감정적 반응에서 보이는 변화의 대부분을 설명할 수 있는바, 도 3에 도시된 바와 같이, 유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원의 감정 공간을 사용하는 것이 바람직하다. 즉, 도 3에 나타낸 바와 같이, 2차원 감정 공간에서, “유발성” 및 “각성”의 두 정서적 차원은 [-50, +50] 범위 내에서 유지되고, “중립” 상태는 원점(0, 0)에 위치된다.
본 발명은 이하의 실시예에 의하여 더욱 상세히 설명되나, 본 발명이 이하의 실시예에 의해 어떤 식으로든 제한되는 것은 아니다.
PRATT
를 이용한 특징(
feature
) 추출
음성 신호는 모의 음성 데이터베이스인 베를린 감정-음성 데이터베이스로부터 획득하였다. 상기 모의 음성 데이터베이스는 베를린의 기술대학에서 개발된 것으로(Technical University, Institute for Speech and Communication, Department of Communication Science), 남녀 각각 다섯 명을 대상으로 10가지 문장으로 일곱 종류의 감정을 모의 실험한 것이다. 보다 구체적으로, 총 493개의 음성 발언이 있고, 이중 286개의 음성 샘플은 여성 목소리이고, 207개의 음성 샘플은 남성 목소리이며, 각 음성 발언은 2초부터 8초까지 다양하다. 또한, 분노, 지루함, 혐오, 공포, 행복, 슬픔 및 중립 감정(neutral emotion)의 7가지 감정으로 구성되어 있다. 한편, 성별 정보는 감정 분류의 결과에 영향을 미칠 수 있는바, 작성된 데이터베이스에서 여성의 음성 샘플만을 이용하였다.
이러한 음성 신호(여성 음성 샘플)로부터 음성분석 프로그램(PRAAT)을 이용하여 전술한 표 1에 나타난 26개의 특징을 추출하였다.
2차원 시각 모델 구축
실시예 1에서 제작된 26개의 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하여 이를 사분면의 2차원 감정 공간에 표시하였고, 이에 대한 결과를 도 4에 나타내었다.
보다 구체적으로, 도 4a 내지 4c는 음성신호로부터 각각 분노, 행복 및 슬픔을 분류하여 인식한 결과를 나타낸 도면이다. 도 4에 나타낸 바와 같이, 2차원 감정 공간의 각 면에 산출된 타카기-수게노 역퍼지 값을 표시한 결과, 분노, 행복 및 슬픔의 분류 정확도는 각각 86%, 54.9% 및 83.7%이었으며, 전체 분류 정확도는 74.8%로서 우수한 분류 정확도를 가짐을 확인하였다. 특히, 분노와 슬픔은 83%가 넘은 정확도를 가지는바, 해당 감정을 분류하는데 매우 우수함을 확인하였고, 행복의 경우 54.9%의 분류 정확도를 나타냈는데, 이는 종종 분노와 혼동했기 때문인 것으로 사료된다.
이상에서 살펴본 바와 같이, 본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속정확하게 분류하는 것이 가능하다.
또한, 본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 의해 생성된 음성 감정 인식 모델은 컴퓨터 보조 학습, 지각 정보 검색, 예술과 엔터테인먼트, 및 인간 건강과의 상호 작용을 위한 컴퓨터 응용 프로그램으로 제공될 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S100: 음성 신호로부터 특징(feature)을 추출하는 단계
S200: 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계
S300: 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계
S200: 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계
S300: 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계
Claims (4)
- 음성에 실린 감정을 인식하는 모델을 생성하는 방법에 있어서,
(1) 음성 신호로부터 특징(feature)을 추출하는 단계;
(2) 추출된 상기 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계; 및
(3) 산출된 상기 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
- 제1항에 있어서, 상기 단계 (1)은,
음성분석프로그램(PRAAT)을 이용하여 상기 음성 신호로부터 26개의 특징을 추출하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
- 제1항에 있어서, 상기 2차원 감정 공간은,
유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원 감정 공간인 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
- 제1항에 있어서, 상기 단계 (3)에서는,
상기 타카기-수게노 역퍼지 값을 상기 2차원 감정 공간에 표시하여 상기 음성 신호로부터 분노, 행복 및 슬픔의 감정을 분류하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120100727A KR101330268B1 (ko) | 2012-09-12 | 2012-09-12 | 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120100727A KR101330268B1 (ko) | 2012-09-12 | 2012-09-12 | 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101330268B1 true KR101330268B1 (ko) | 2013-11-15 |
Family
ID=49857926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120100727A KR101330268B1 (ko) | 2012-09-12 | 2012-09-12 | 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101330268B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
KR101901307B1 (ko) | 2017-12-18 | 2018-09-21 | 가천대학교 산학협력단 | 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법, 장치 및 컴퓨터 판독 가능한 기록매체 |
KR102056704B1 (ko) * | 2019-03-29 | 2020-01-22 | 가천대학교 산학협력단 | 멀티 레이어 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법 및 장치 |
KR102133943B1 (ko) * | 2020-01-16 | 2020-07-14 | 가천대학교 산학협력단 | 시니어의 건강을 위한 홈 헬스케어 제공방법 및 제공장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512023A (ja) * | 1991-07-04 | 1993-01-22 | Omron Corp | 感情認識装置 |
JP2008076904A (ja) | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情の判別方法、感情判別装置、雰囲気情報通信端末 |
-
2012
- 2012-09-12 KR KR1020120100727A patent/KR101330268B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512023A (ja) * | 1991-07-04 | 1993-01-22 | Omron Corp | 感情認識装置 |
JP2008076904A (ja) | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情の判別方法、感情判別装置、雰囲気情報通信端末 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
KR101901307B1 (ko) | 2017-12-18 | 2018-09-21 | 가천대학교 산학협력단 | 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법, 장치 및 컴퓨터 판독 가능한 기록매체 |
KR102056704B1 (ko) * | 2019-03-29 | 2020-01-22 | 가천대학교 산학협력단 | 멀티 레이어 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법 및 장치 |
KR102133943B1 (ko) * | 2020-01-16 | 2020-07-14 | 가천대학교 산학협력단 | 시니어의 건강을 위한 홈 헬스케어 제공방법 및 제공장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Multimodal measurement of depression using deep learning models | |
Kumaran et al. | Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN | |
Zhang et al. | Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot | |
Krajewski et al. | Applying multiple classifiers and non-linear dynamics features for detecting sleepiness from speech | |
KR101330268B1 (ko) | 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법 | |
Yang et al. | DCNN and DNN based multi-modal depression recognition | |
CN102298694A (zh) | 一种应用于远程信息服务的人机交互识别系统 | |
Stathopoulou et al. | On assisting a visual-facial affect recognition system with keyboard-stroke pattern information | |
Jin et al. | Attention-block deep learning based features fusion in wearable social sensor for mental wellbeing evaluations | |
Kabani et al. | Emotion based music player | |
Georgiou et al. | Behavioral signal processing for understanding (distressed) dyadic interactions: some recent developments | |
CN113317763A (zh) | 基于多模态的帕金森病检测装置及计算机可读存储介质 | |
CN112418172A (zh) | 基于多模信息智能处理单元的多模信息融合情感分析方法 | |
Alhussein et al. | Emotional climate recognition in interactive conversational speech using deep learning | |
Kuang et al. | Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks | |
CN115223214A (zh) | 合成嘴型人脸的识别方法、模型获取方法、装置和设备 | |
Malatesta et al. | Associating gesture expressivity with affective representations | |
Mufti et al. | Fuzzy rule based facial expression recognition | |
Khalaf et al. | Elevating metaverse virtual reality experiences through network‐integrated neuro‐fuzzy emotion recognition and adaptive content generation algorithms | |
Gupta et al. | REDE-Detecting human emotions using CNN and RASA | |
Sohn et al. | An emotionally aware embodied conversational agent | |
Sun et al. | Multimodal embodied mimicry in interaction | |
Liu et al. | Emotional tone-based audio continuous emotion recognition | |
Fu et al. | Design and Application of Yoga Intelligent Teaching Platform Based on Internet of Things | |
Khalifa et al. | Body gesture modeling for psychology analysis in job interview based on deep spatio-temporal approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20171026 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20181015 Year of fee payment: 6 |