KR101330268B1

KR101330268B1 - 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법

Info

Publication number: KR101330268B1
Application number: KR1020120100727A
Authority: KR
Inventors: 임준식; 짱쩐씽; 쉐 웨이 티안; 윤희진; 김재웅; 이행영
Original assignee: 가천대학교 산학협력단
Priority date: 2012-09-12
Filing date: 2012-09-12
Publication date: 2013-11-15

Abstract

본 발명은 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 관한 것으로서, 보다 구체적으로는 (1) 음성 신호로부터 특징(feature)을 추출하는 단계, (2) 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계, 및 (3) 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능하다.

Description

가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법{METHOD FOR BUILDING EMOTIONAL-SPEECH RECOGNITION MODEL BY USING NEURO-FUZZY NETWORK WITH A WEIGHTED FUZZY MEMBERSHIP FUNCTION}

본 발명은 음성 감정 인식 모델 생성 방법에 관한 것으로서, 보다 구체적으로는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 관한 것이다.

감성 컴퓨팅(affective computing)은 인간의 감성을 인지, 해석, 처리할 수 있는 시스템과 장치를 설계하는 것과 관련된 인공지능을 연구하고 개발하는 분야로서, 이와 같은 감성 컴퓨팅은 인간을 돕는데 있어 보다 나은 성능을 제공할 뿐만 아니라 결정을 내리는 컴퓨터의 능력을 향상시킬 수도 있다.

현재, 사람의 감정을 인식하는 다양한 방법 및 장치들에 대한 연구가 이루어지고 있으며, 보다 구체적으로, Dietz 및 Lang(R. Dietz and “A. Lang. Affective agents: Effects of agent affect on arousal, attention, liking and learning.” In Proceedings of the Third International Cognitive Technology Conference, 1999)은 컴퓨터와 사용자 간의 중재자로서 역할을 하는 정서적 에이전트(agent)를 개발하기 위해 유발성(valence), 각성(arousal) 및 조절(control)로 구성된 3차원 감정 공간을 사용하는 방법을 제안하였고, Yeasin 등(L. Zhang, H. Ai, and et al. “Robust face alignment based on local texture classifiers.” In IEEE International Conference on Image Processing, 2005)은 유사한 3차원 공간을 사용하여, 얼굴 표정을 분석하고, 비디오 콘텐츠로부터 관심 수준을 측정하는 것을 제안하였으며, Hanjalic 및 Xu(A. Hanjalic and L.-Q. Xu. “Affective video content representation and modeling.” IEEE Transactions on Multimedia, 7(1):143154, 2005)는 감정적 차원을 낮은 레벨의 오디오 특징 및 연속적인 비디오 프레임 사이의 모션 특징과 연결함으로써 “감성적 커브”로서 감성적 비디오 콘텐츠를 설명하는 것을 제안하였다.

한편, 최근에는 이와 같은 얼굴 표정뿐만 아니라 사람의 기본적이고 주된 활동 중 하나인 말하기, 즉 음성 신호를 기반으로 하여 감정을 인식하는 것에 대한 관심이 증가하고 있으나, 아직까지 이에 대한 연구는 미비한 실정이다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능한, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법을 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법은,

(1) 음성 신호로부터 특징(feature)을 추출하는 단계;

(2) 추출된 상기 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계; 및

(3) 산출된 상기 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)은,

음성분석프로그램(PRAAT)을 이용하여 상기 음성 신호로부터 26개의 특징을 추출할 수 있다.

바람직하게는, 상기 2차원 감정 공간은,

유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원 감정 공간일 수 있다.

바람직하게는, 상기 단계 (3)에서는,

상기 타카기-수게노 역퍼지 값을 상기 2차원 감정 공간에 표시하여 상기 음성 신호로부터 분노, 행복 및 슬픔의 감정을 분류할 수 있다.

본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속하고 정확하게 분류하는 것이 가능하다.

도 1은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 순서도.
도 2는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 개요도.
도 3은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 통해 음성 신호로부터 분노, 행복 및 슬픔을 분류하여 인식한 결과를 나타낸 도면.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 순서도이고, 도 2는 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법의 개요도이다. 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법은, 음성 신호로부터 특징(feature)을 추출하는 단계(S100), 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계(S200), 및 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계(S300)를 포함하여 수행될 수 있다.

단계 S100에서는, 음성 신호로부터 감정을 분류하기 위한 특징(feature)을 추출한다. 음성 신호를 분석하기 위하여 대표적으로 F0(기본주파수 또는 유성음(vocal) 진동의 피치), 절대음압(음성의 상대적인 크기를 나타냄), 지터(jitter)(한 유성음 사이클에서 다른 유성음 사이클까지의 음성 F0의 변화 정도), 쉼머(shimmer)(하나의 사이클에서 다른 사이클까지의 음성 진폭의 변화 정도) 및 잡음 대 조화음 비율(noise-to-harmonics ratio)(음성의 음색 성분에 대한 잡음의 진폭) 등을 측정하는데, 단계 S100에서는 음성분석프로그램(PRAAT)을 이용하여 입력된 음성 신호로부터 특징을 추출하며, 보다 구체적으로, 아래의 표 1에 나타난 26개의 특징을 추출한다.

단계 S200에서는, 단계 S100에 의해 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출한다. 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(NEWFM)는 가중 퍼지 소속 함수의 유계 합(BSWFM)을 사용하는 감독분류 뉴로-퍼지 시스템으로서, 이를 사용하여 입력된 음성 신호로부터 감정을 분류하기 위한 유발성(valence) 및 각성(arousal)의 타카기-수게노 역퍼지 값을 산출한다.

단계 S300에서는, 단계 S200에 의해 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하며, 도 3은 본 발명의 일실시예에 따른 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에서, 2차원 감정 공간을 나타낸 도면이다. 도 3에 도시된 바와 같이, 2차원 감정 공간은 유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원의 사분면으로서, 해당 공간에 타카기-수게노 역퍼지 값을 분배하여 표시함으로써 음성 신호로부터 감정을 인식할 수 있고, 바람직하게는 분노(anger), 행복(happiness) 및 슬픔(sadness)의 감정을 분류하여 인식할 수 있으며, 여기서 분노는 양(+)의 각성 및 음(-)의 유발성을 가지고, 행복은 양의 각성 및 유발성을 가지며, 슬픔은 음의 각성 및 유발성을 가진다.

보다 구체적으로, 감정은 유발성(valence), 각성(arousal) 및 조절(control) 세 가지의 요인의 교차에 의해 특징될 수 있다. 여기서, “유발성”이란 ‘비관적(pessimistic)’에서 ‘중립적(neutral)’으로, 계속해서 ‘낙관적(optimistic)’으로 이르기까지의 감정의 “유형(type)”을 의미한다. 또한, “각성”이란 ‘졸린 감정(sleepy)’에서 ‘평온(calm)’으로, 계속해서 ‘흥분(excited)’으로 이르기까지의 감정의 “강도(intensity)”를 나타낸다. 한편, “조절”은 ‘조절이 없는 상태(no control)’에서 ‘전면적인 조절(full control)’에 이르기까지의 각성 및 유발성과 유사한 정서적 상태 사이를 구별하는데 유용할 수 있으나, 이러한 “조절” 차원의 효과는 거의 없는 편이고, 유발성 및 각성만으로 감정적 반응에서 보이는 변화의 대부분을 설명할 수 있는바, 도 3에 도시된 바와 같이, 유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원의 감정 공간을 사용하는 것이 바람직하다. 즉, 도 3에 나타낸 바와 같이, 2차원 감정 공간에서, “유발성” 및 “각성”의 두 정서적 차원은 [-50, +50] 범위 내에서 유지되고, “중립” 상태는 원점(0, 0)에 위치된다.

본 발명은 이하의 실시예에 의하여 더욱 상세히 설명되나, 본 발명이 이하의 실시예에 의해 어떤 식으로든 제한되는 것은 아니다.

PRATT 를 이용한 특징( feature ) 추출

음성 신호는 모의 음성 데이터베이스인 베를린 감정-음성 데이터베이스로부터 획득하였다. 상기 모의 음성 데이터베이스는 베를린의 기술대학에서 개발된 것으로(Technical University, Institute for Speech and Communication, Department of Communication Science), 남녀 각각 다섯 명을 대상으로 10가지 문장으로 일곱 종류의 감정을 모의 실험한 것이다. 보다 구체적으로, 총 493개의 음성 발언이 있고, 이중 286개의 음성 샘플은 여성 목소리이고, 207개의 음성 샘플은 남성 목소리이며, 각 음성 발언은 2초부터 8초까지 다양하다. 또한, 분노, 지루함, 혐오, 공포, 행복, 슬픔 및 중립 감정(neutral emotion)의 7가지 감정으로 구성되어 있다. 한편, 성별 정보는 감정 분류의 결과에 영향을 미칠 수 있는바, 작성된 데이터베이스에서 여성의 음성 샘플만을 이용하였다.

이러한 음성 신호(여성 음성 샘플)로부터 음성분석 프로그램(PRAAT)을 이용하여 전술한 표 1에 나타난 26개의 특징을 추출하였다.

2차원 시각 모델 구축

실시예 1에서 제작된 26개의 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하여 이를 사분면의 2차원 감정 공간에 표시하였고, 이에 대한 결과를 도 4에 나타내었다.

보다 구체적으로, 도 4a 내지 4c는 음성신호로부터 각각 분노, 행복 및 슬픔을 분류하여 인식한 결과를 나타낸 도면이다. 도 4에 나타낸 바와 같이, 2차원 감정 공간의 각 면에 산출된 타카기-수게노 역퍼지 값을 표시한 결과, 분노, 행복 및 슬픔의 분류 정확도는 각각 86%, 54.9% 및 83.7%이었으며, 전체 분류 정확도는 74.8%로서 우수한 분류 정확도를 가짐을 확인하였다. 특히, 분노와 슬픔은 83%가 넘은 정확도를 가지는바, 해당 감정을 분류하는데 매우 우수함을 확인하였고, 행복의 경우 54.9%의 분류 정확도를 나타냈는데, 이는 종종 분노와 혼동했기 때문인 것으로 사료된다.

이상에서 살펴본 바와 같이, 본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 따르면, 음성 신호로부터 특징(feature)을 추출하고, 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값을 산출한 후, 이를 사분면의 2차원 감정 공간에 표시함으로써, 사람의 음성으로부터 감정을 신속정확하게 분류하는 것이 가능하다.

또한, 본 발명에서 제안하고 있는 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법에 의해 생성된 음성 감정 인식 모델은 컴퓨터 보조 학습, 지각 정보 검색, 예술과 엔터테인먼트, 및 인간 건강과의 상호 작용을 위한 컴퓨터 응용 프로그램으로 제공될 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

S100: 음성 신호로부터 특징(feature)을 추출하는 단계
S200: 추출된 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계
S300: 산출된 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계

Claims

음성에 실린 감정을 인식하는 모델을 생성하는 방법에 있어서,
(1) 음성 신호로부터 특징(feature)을 추출하는 단계;
(2) 추출된 상기 특징과 가중 퍼지 소속 함수 기반 뉴로-퍼지 네트워크(neuro-fuzzy network with a weighted fuzzy membership function, NEWFM)를 이용하여 타카기-수게노 역퍼지 값(takagi-sugeno defuzzification value)을 산출하는 단계; 및
(3) 산출된 상기 타카기-수게노 역퍼지 값을 사분면의 2차원 감정 공간에 표시하는 단계를 포함하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
제1항에 있어서, 상기 단계 (1)은,
음성분석프로그램(PRAAT)을 이용하여 상기 음성 신호로부터 26개의 특징을 추출하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
제1항에 있어서, 상기 2차원 감정 공간은,
유발성(valence)축 및 각성(arousal)축으로 이루어진 2차원 감정 공간인 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.
제1항에 있어서, 상기 단계 (3)에서는,
상기 타카기-수게노 역퍼지 값을 상기 2차원 감정 공간에 표시하여 상기 음성 신호로부터 분노, 행복 및 슬픔의 감정을 분류하는 것을 특징으로 하는, 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법.