KR101116236B1 - Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법. - Google Patents

Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법. Download PDF

Info

Publication number
KR101116236B1
KR101116236B1 KR1020090069471A KR20090069471A KR101116236B1 KR 101116236 B1 KR101116236 B1 KR 101116236B1 KR 1020090069471 A KR1020090069471 A KR 1020090069471A KR 20090069471 A KR20090069471 A KR 20090069471A KR 101116236 B1 KR101116236 B1 KR 101116236B1
Authority
KR
South Korea
Prior art keywords
emotion
loss function
model
margin
speech
Prior art date
Application number
KR1020090069471A
Other languages
English (en)
Other versions
KR20110011969A (ko
Inventor
유창동
윤성락
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020090069471A priority Critical patent/KR101116236B1/ko
Publication of KR20110011969A publication Critical patent/KR20110011969A/ko
Application granted granted Critical
Publication of KR101116236B1 publication Critical patent/KR101116236B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 WTM(Watson-Tellegen Emotional Model)을 기반으로 하고 HMM(Hidden Markov Model)과 훈련데이타를 통한 음성의 감정에 대한 훈련을 통해서 음성에 실린 감정을 인식하는 모델을 구축하는 방법에 있어서, WTM의 감정군들 사이의 기하학적 거리를 사용하여 각 감정 사이의 차이를 수치화하는 제1단계와 제1단계에서 설정한 값들을 기초로 하여 손실함수(loss function)의 값을 구하는 제2단계 및 제2단계에서 구해진 손실함수를 기초로 하여 각 음성 감정 모델의 파라미터를 구하는 제3단계를 포함하는 WTM을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법으로써, 이 방법을 통해 구축된 음성 감정 인식 모델을 통해 음성 감정 인식의 성능의 향상을 기대할 수 있다.
음성 감정 인식, Speech emotion recognition, max-margin, loss function, watson-tellegen model

Description

WTM을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.{A speech emotion recognition model generation method using a Max-margin framework incorporating a loss function based on the Watson-Tellegen's Emotion Model}
본 발명은 음성 감정을 인식하기 위한 음성 감정 모델을 구축하는 방법에 관한 것으로써 Watson and Tellegen의 감정모델을 사용하여 손실함수를 정의하고 이를 사용한 최대마진기법으로 음성 감정을 모델링하는 방법에 관한 것이다.
인간의 감정을 인식하는 연구는 인간-컴퓨터 지능적 상호작용(Human-Computer Intelligent Interaction, HCII)연구에 있어 매우 빠른 속도로 발전하는 분야이다.
일반적으로 인간이 컴퓨터와 접촉하는 방법들인 이메일, 파일검색, 프로그램 실행등의 행동에서는 컴퓨터가 단순히 명령을 수행할뿐 어떠한 지능적인 요소도 개입하지 않는다.
HCII에 의해서 사용자의 입력을 사용자의 의도대로 고쳐서 입력받고, 입력내력을 통해 사용자가 필요로 하는 추가적 정보를 출력하며, 사용자의 취향에 맞는 웹 정보를 제안하는 등 컴퓨터가 사용자의 의도를 이해하고, 인식하며 해석할 수 있게 할 수 있다. 특히 사람의 감정을 인식하는 것은 기술을 사람과 더욱 가깝도록 할 수 있다.
사람의 감정을 인식하는 방법에는 얼굴표정과 말하기, 몸짓과 움직임, ECG(electrocardiogram), EMG(electromyography), 피부전기반응(electrodermal activity), 피부 온도, 갈바니 저항(galvanic resistance), 혈액 부피 박동(blood volume pulse, BVP) 및 땀과 같은 생체정보에 의해 인식될 수 있으나, 가장 주된 방법은 말하기에 의한 것이고, 나머지 방법들은 경제적, 기술적인 이유 및 대상인물에게 불편을 줄 수 있어서 잘 사용되지 못한다.
따라서, 많은 HCII응용 프로그램은 사람의 말하기를 분석하는데 그 기초를 두고 있는데, 그 예로는 주인의 감정에 따라 반응하는 서비스 로봇, 사용자의 감정에 따라 음악이나 영화를 바꾸는 플레이어, 게임자의 감정에 따라 게임 상태를 변경하는 컴퓨터 게임 및 고객이 화가 난 경우 자동적으로 고참 상담원에게 연결하는 콜 센터 시스템 등이 그 예이다.
그 동안 여러가지의 음성 감정 인식 방법이 제안 되었는데, 기본 주파수(fundamental frequency), 로그 에너지(log energy), MFCC(Mel-frequency cepstral coefficients), zero-crossing rate, 선형 예측 인수(linear prediction coefficients, LPC), 음높이, 음성/비음성 부분의 지속시간 및 티거 에너지 켑스트 럼 인수(Teager eneregy cepstrum coefficient)등의 감정 특징이 많이 사용되었다.
또한, 특징 선택 알고리즘으로서 SFFS(sequential forward floating selection)과 유전적 알고리즘이 제안되었으며, 성능 향상을 위해 MFCC에 피치변화와 소리크기 변화 및 성 정보(남성/여성)를 추가하는 방법이 제안되었다. 또한, 여러 감정특징을 그룹으로 묶어서 다른 그룹들 중에 가장 관계깊은 특징을 선택하여 화자에 독립적인 감정 인식을 시도하였다.
또한, HMM(Hidden Markov Model)과 같은 그래픽 모델과 이것의 변형이 제안되었으며 SVM(support vector machine) 구분자, HMM-기반 구분자, 선형 판별 분석(linear discriminant analysis), 2차 판별 분석(quadratic discriminant analysis), 신경망(neural network) 및 k-최근 이웃방법(k-nearest neighbor)등이 구분자의 성능을 비교하기 위해 사용되었다.
기존의 거의 모든 방법에서 문제되는 것은 over-fitting(과적합)으로써 이는 훈련 데이타 수가 너무 작은 경우에 사람마다 감정을 섞어서 말하는 방법은 모두 다르므로 결국 훈련 데이타 세트에 있는 소수의 화자들에만 훈련되어 테스트 데이타에 대한 결과가 훈련 데이타에 대한 결과와 다른 현상을 의미하는바, 훈련 데이타와 테스트 데이타 량의 차이에 의해서 훈련 데이타들에 대한 성능이 테스트 데이타들에 대한 성능과 차이가 나는 문제가 발생한다.
본 발명은 상기한 바와 같은 과적합문제와 음성 감정시의 성능 향상을 위해 안출된 것으로, 손실함수 및 max-margin framework with margin-scaling 기법을 WTM에 적용함으로써 음성 감정 인식 성능을 향상 하는데 그 목적이 있다.
상기한 과제를 해결하기 위한 본 발명의 특징에 따른 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 인식 방법은 WTM의 감정군들 사이의 기하학적 거리를 사용하여 각 감정 사이의 차이를 수치화하는 제1단계와 제1단계에서 설정한 값들을 기초로 하여 손실함수(loss function)의 값을 구하는 제2단계 및 제2단계에서 구해진 손실함수를 기초로 하여 각 음성 감정 모델의 파라미터를 구하는 제3단계를 포함한다.
또한 제2단계의 손실함수(Δ(yn, ym))는 아래의 수학식A로 결정되는 것을 특징으로 한다.
수학식 A :
Figure 112009046573435-pat00001
또한, 제3단계는 아래의 수학식B를 만족하는 인수 벡터 θ를 구하는 연산을 실행함으로써 마진 스케일링을 통해 각 음성 감정의 파라미터를 구하는 것을 특징으로 한다.
수학식 B :
Figure 112009046573435-pat00002
또한, 수학식B는 다음의 수학식C를 동시에 만족하는 것을 특징으로 한다.
수학식C : dn (ym ; θ) ≥ ρΔ(yn, ym) -ξn , ∀n
ym ∈ Y \ yn, ρ ≥ 0, ξn ≥ 0 , ∀n
상기한 바와 같이 본 발명에 따른 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 모델 구축 방법을 이용하여 구축한 음성 감정 인식 모델을 통해 음성 속에 포함된 감정 인식 성능을 타 기법에 비해 현저히 높일 수 있는 효과가 있다.
본원 발명을 설명하기 위해서 우선 HMM(Hidden Markov Model)에 의한 감정 인식을 설명한다.
감정 인식의 경우, Y = { y 1 , ..., y M }로 표현되는 M개의 감정들 중 하나를 나타내는 레이블 y*는 주어진 음성 특징 X = { x1, ... , xT }에 의해 예측되는데, X의 각 원소는 D-차원 벡터 공간 X 에 존재하고, 판별 함수 F( F : Χ × Υ R )와 다음 수학식1과 같은 관계를 만족하며, 특징 벡터 xt는 1 ≤ t ≤ T사이의 음성 시간에 추출된다.
Figure 112009046573435-pat00003
HMM(Hidden Markov Model)을 사용하는 경우, 조건 분포 log pθ(Y|X)는 판별 함수이며 결정 기준은 다음 수학식 2가 나타내는 MAP(Maximum a posteriori) 디코딩 규칙으로 된다.
Figure 112009046573435-pat00004
Figure 112009046573435-pat00005
Figure 112009046573435-pat00006
위의 수학식 2에서 p(y)는 감정 y에 대한 사전 확률(prior probability)를 의미한다. 이때 각 사전 확률은 동일하다고 가정한다.( p(ym) = 1/M for all m ∈ 1, ..., M ).
여기서 X는 한가지의 감정을 의미하며 중간에 감정이 변하는 경우는 고려하지 않으므로 단일 상태 HMM을 이용하며 이때 상태 천이 확률은 고려하지 않아도 된다. 이러한 상태를 모델링하면 다음 수학식 3과 같다.
Figure 112009046573435-pat00007
이때, ωκ는 혼합 비중(mixture weight), μκ는 평균 벡터, Λκ는 아래 수학식 4에 의한 k-가우시안 분포의 대각 공분산(diagonal covariance)이다.
Figure 112009046573435-pat00008
여기서 '는 벡터의 트랜스포즈(transpose) 연산을 의미한다.
인수 집합인 θ는 모든 HMM에 대한 혼합 비중들(mixture weights), 평균 벡터(mean vectors)들, 공분산 행렬(covariance matrix)들로 이루어진 벡터이며, 모 든 혼합비중(mixture weights)을 합하면 1이 된다. (
Figure 112009046573435-pat00009
)
판별 함수는 다음의 수학식 5와 같이 표현되는데, 여기서 xt는 독립이고 동일하게 분포하고 있다고 가정한다.
Figure 112009046573435-pat00010
Figure 112009046573435-pat00011
Figure 112009046573435-pat00012
HMM을 사용하여 훈련을 시키는 경우 훈련 목적은 입력-출력 커플 집합 N개를 이용해서 위에서 정의했던 인수 집합 θ를 구해서 결정 기준이 최소한의 예측 오류를 발생케 하는 데에 있다.
기존의 방법인 ML(Maximum likelihood)방법과 MMI(maximum mutual information)을 간단히 살펴보면, 아래의 수학식 6과 같이 표현되는 ML은 식을 최대화하는 θ를 찾는 방법으로써 yn은 오로지 Xn만을 사용해서 예측하는 단점이 있다.
Figure 112009046573435-pat00013
Figure 112009046573435-pat00014
한편, MMI방법은 조건부 최대 우도 기준(conditional maximum likelihood criterion)으로도 불리는데, 위 수학식 7의 값을 최대화 함으로써 θ를 도출해 내는 방법으로써 수식과 같이 yn을 예측하는데 모든 다른 ym ( m = 1, ..., M )을 고려함으로써 ML보다 더 좋은 성능을 나타낸다.
한편, 훈련 데이타 집합의 특징이 테스트 데이타 집합과 동일한 경우가 아닌때, 즉, 한편, 훈련 데이타 집합에는 좋은 성능을 보이는 경우에도 테스트 데이타 집합에는 좋지 않은 성능을 보이는 경우가 있는데, 훈련 데이타 집합에서의 예측 오류가 작고 훈련 데이타 집합과 테스트 데이타 집합 사이에 차이가 있는 경우에는 일반화 능력이 뛰어난 max-margin framawork가 좋은 해결책이 될 수 있다.( [V. Vapnik, The nature of Statistical Learning Theory. Springer 2000]와 [G. Heigold, T. Deselaers, R.
Figure 112009046573435-pat00015
and H. Ney, "Modified MMI/MPE: A direct evaluation of the margin in speech recognition," in Proceedings of the International Conference on Machine Learning, 2008, pp 384-391] )
상기한 바와같이 본원 발명은 loss 함수를 이용하는 Max-Margin framework with margin scaling방법에 의한 HMM인수 추정법을 통한 음성 감정 인식방법이며, 이를 수학식 및 모델과 함께 살펴보도록 한다.
본 발명을 개략적으로 설명하면 Watson-Tellegen 감정모델에 기초하여 감정들 간의 거리량을 정의한 후, 본 발명에서 정의한 거리량의 선형 함수에 의한 손실(loss)를 계산하고 이 손실함수(loss function)값을 기초로 하여 MMS(Max-margin framework with margin scaling)를 통한 음성 감정 모델의 파라미터 추정을 실행한다.
먼저 마진을 스케일하는데 사용되는 loss함수에 대해 설명한다.
대부분의 인식방법에서는 해당되는 위치에 라벨이 틀린 개수로 정의되는 Hamming loss를 사용하나, 음성인식의 경우 상기한 바와 같이 말하는 도중에 감정이 변하지 않는다고 가정하므로 감정인식에서 Hamming loss는 zero-one loss("0"-"1" loss)가 된다. ( 만일 yn ≠ ym 이면, Δ(yn, ym) = 1이고, 그렇지 않으면 Δ(yn, ym) = 0이 된다.) 즉, 마진값을 스케일링 할 수 없고 이러한 취약성때문에 본 발명 에서는 도2와 같은 WTM에 기반한 손실함수를 사용한다.
도2는 WTM에 의한 감정모델을 도시하고 있는 도면으로써, 감정을 표현하는 임의의 대상에 대해 2가지 중요축으로 이를 나타내는데, 긍정적 영향과 부정적 영향이 그것이다. 예를들어, 행복은 높은 긍정성과 낮은 부정성의 결합이라고 보는 것이다.
도2에서 감정간 거리를 살펴볼 수 있는데, 행복(높은 긍정성, 낮은 부정성)은 놀람(높은 긍정성, 높은 부정성)과 슬픔(낮은 긍정성, 높은 긍정성) 중에 놀람과 더 가까운 거리를 가지고 있는 것을 알 수 있다.
본 발명의 경우 이러한 WTM의 개념에서 측정치(l)의 개념을 정의한다.
l = ( l1, l2 )로 정의되는데, 이때 l1은 아래의 표1에 정의된 부정성 수치이고, l2는 아래의 표1에 정의된 긍정성 수치를 가진다.
부정성(l1) 긍정성(l2)
Group 1 (G1) 0 1
Group 2 (G2) 0.5 0.5
Group 3 (G3) 1 0
Group 4 (G4) 0.5 -0.5
Group 5 (G5) 0 -1
Group 6 (G6) -0.5 -0.5
Group 7 (G7) -1 0
Group 8 (G8) -0.5 0.5
위의 표1은 도2에서 각 그룹(G1 ~ G8)로 도시된 감정들에 대해 손실함수(loss function)을 정의하기 위해서 각 그룹이 가지는 부정성과 긍정성을 수치로 표현한 것이다. 예를 들어, 행복이 포함된 G8의 경우 측정치(measurement) l = (-0.5, 0.5)를 가진다.
위에서 정의한 측정치를 바탕으로 또 다른 지수인 거리 지수(distance metric)가 정의되는데, 이는 d(yn, ym) = || l yn - l ym ||1 으로 정의 되는바, l yn은 감정 yn의 측정치이고, l ym은 감정 ym의 측정치를 나타내며, ||?||1은 벡터의 L1-norm을 나타낸다.
Figure 112009046573435-pat00016
손실함수(loss function)은 상기 수학식 8와 같이 정의되는데, 이때 α, β는 실수인 상수이다. 이러한 손실함수를 통해 감정간의 간격 마진을 스케일링한다.
Figure 112009046573435-pat00017
subject to dn (ym ; θ) ≥ ρΔ(yn, ym) -ξn , ∀n
ym ∈ Y \ yn, ρ ≥ 0, ξn ≥ 0 , ∀n
dn (ym ; θ) = F(Xn, yn ; θ) - F(Xn , ym ; θ)
상기 수학식 9를 통해서 손실함수에서 나온 값을 각 감정에 대해 연산하면서 최소 마진이 최대화되고 여유 변수(ξ)의 총합이 상기와 같은 조건에서 최소화되는 인수 벡터 θ를 찾음으로써 음성의 감정을 추정하게 된다. 이때, dn (ym ; θ)는 상기 수학식 5의 판별함수중 감정 yn과 감정 ym의 차이이다.
이때, 수학식 9에서 쓰인 여유 변수 ξ = {ξ1, …, ξN }는 훈련 데이타에 대한 에러를 어느정도 허용할 수 있도록 하기 위한 용도이고, 균형 계수(C)는 마진 최대화과 훈련 에러 최소화 사이의 균형(trade-off)를 위한 계수이다.
추정될 인수를 유일화하기 위하여 θ의 L2-norm을 γ로 한정한다. 따라서, 수학식 9에 의하면 판별 함수 Δ(yn, ym)에 의해 맞는 감정인 yn과의 격차가 큰 high loss값을 가지는 감정을 격차가 작은 low loss값을 가지는 감정보다 더 멀리 위치시키도록 마진 스케일링이 된다.
본 발명에서 감정추정을 위한 인수 벡터 θ는 i) 최소 마진 ρ가 최대화되고, ii) 여유 변수인 ξn의 합이 최소로 되는 때를 구함으로써 추정된다.
이때 상기한 ii)조건은 올바른 감정인 yn을 나타내는 판별 함수와 틀린 감정인 ym을 나타내는 판별함수의 차이(단, yn ≠ ym)가 최소한 모든 n값에 대해서 (단, n = 1, …, N) 여유 변수를 뺀 스케일된 마진보다는 커야한다는 조건을 만족해야 한다는 것을 의미한다.
마진 스케일링에 대해 설명하고 있는 도1을 살펴보면, 맞는 감정인 원(110)과의 거리가 보다 더 먼 사각형(120)이 더 큰 loss값을 가지고 있으며, 삼각형(130)이 보다 더 작은 loss값을 가지게 되어 더 멀리 위치하게 된다. 이런 마진 스케링 과정을 통해 높은 손실을 가지는 사각형(120)을 택할 위험을 줄이게 되는 것이다.
도3은 본 발명에 의한 음성 감정 인식 방법을 단계별로 도시하고 있는데, 먼저 WTM에 의한 감정 모델에 있어서 각 감정을 군으로 나누고 각 군(G1 ~ G8)사이의 거리 지수를 정하기 위한 측정치(l)등을 정의한 후 각 감정군(G1 ~ G8)사이의 차이를 수치화하고(310), 각 감정군에 대한 거리를 기반으로 손실함수를 구하며(330), max-margin with margin scaling 방법을 통해 감정 파라미터를 추정(340)하는 각 과정을 단계별로 도시하고 있다.
본 발명의 효과를 확인하기 위해서 EMO-DB(F. Burkhardt, A. Paeschke, M.Rolfes, W. Sendlmeier, and B. Weiss, "A database of German emotional speech," in Proceedings of the International Conference on Spoken Language Processing, 2005, pp 1517-1520), SUSAS(J. Hansen and S. Bou-Ghazale, "Getting started with susas : A speech under simulated and actual stress database," in Proceedings of the European Conference on Speech Communication and Technology, vol. 4, 1997, pp. 1743-1746) 및 DES(I.S. Engberg, A. V. Hansen, O. Andersen, and P. Dalsgaard, "Design, recording and verification of a Danish emotional speech database," in Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 1696-1698)을 이용하였으며, 각 감정은 다른 갯수의 Gaussian 혼합 요소(Gaussian mixture component)를 사용하는 1-상태 HMM(single-state HMM)으로 모델링되었다.
비교 대상 방법은 ML(Maximum likelihood), MMI(Maximum Mutual Information), MM(MMS with zero-one loss) 및 MMI(Max-Margin with margin scaling)이다.
EMO-DB는 독일 남자 배우 5명과 여자 배우 5명에 의해 분노, 혐오, 공포, 슬픔, 지루함, 중립, 그리고 행복등 7개의 감정을 나타내는 800음성으로 이루어져 있는 음성DB이며, 이에 대한 실험 결과는 다음 표2에 나타나 있다.
EMO-DB의 테스트 데이타에 대한 각 방법의 평균 분류 정확도.
ML ML→MMI ML→MM ML→MMS
1-mix 44.55 51.68 57.86 63.79
2-mix 54.66 60.13 65.70 69.54
4-mix 64.91 70.45 72.81 76.32
8-mix 70.96 72.73 74.83 78.99
16-mix 76.37 77.27 80.23 83.30
32-mix 78.46 81.17 83.24 87.80
SUSAS는 University of Colorado-Boulder의 Robust speech processing 연구소에서 만들어졌고 실제모드와 및 시뮬레이션 모드로 구성되어 있으며, 9명의 남자들에 의해 11가지 감정을 담은 3150음성으로 이루어져 있는 DB이며, 실험을 위해서 분노, 깔끔함(clear), cond50, 시끄러움, 부드러움등의 5가지 감정을 이용한다. 여기서 cond50은 중간정도의 힘들기의 일을 하고 있는 경우에 수집한 데이타를 말한다.
SUSAS의 테스트 데이타에 대한 각 방법의 평균 분류 정확도.
ML ML→MMI ML→MM ML→MMS
1-mix 53.68 54.76 53.84 53.94
2-mix 54.60 55.11 55.77 57.08
4-mix 62.67 64.06 65.65 66.67
8-mix 64.79 65.17 66.89 68.38
16-mix 67.75 70.45 71.56 71.87
32-mix 69.78 72.44 72.92 73.65
DES는 각각 두 명의 남녀 배우로부터 5개의 감정(분노, 행복, 중립, 슬픔, 놀람)을 담아서 여자로부터 175 음성, 남자로부터 166음성 총합 341음성으로 구성되었다.
DES의 테스트 데이타에 대한 각 방법의 평균 분류 정확도.
ML ML→MMI ML→MM ML→MMS
1-mix 26.40 29.55 35.82 41.41
2-mix 43.57 48.80 57.35 61.49
4-mix 50.38 56.05 65.34 67.60
이상과 같이 본 발명에 따른 방법을 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상 범위내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.
도1은 본 발명에서 사용되는 손실함수(Δ(yn, ym))에 의한 마진 스케일링을 도시한 도면이다.
도2는 Watson-Tellegen model(WTM)에 의한 감정의 분류군을 도시한 도면으로서, G1부터 G8까지의 분류와 함께 각 그룹에 대해서 표1과 같은 부정성향, 긍정성향의 값을 매겨서 이를 기초로 측정치(l)를 정의하게 된다.
도3은 본 발명에 의한 음성 감정 인식 방법을 각 단계 별로 나타낸 도면이다.

Claims (4)

  1. WTM(Watson-Tellegen Emotional Model)을 기반으로 하여 HMM(Hidden Markov Model)과 훈련데이터를 통한 음성의 감정에 대한 훈련을 통하여, 음성에 실린 감정을 인식하는 모델을 구축하는 처리를 컴퓨터상에서 실행시키는 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 인식 모델 구축 방법에 있어서,
    상기 처리는,
    WTM의 감정군들 사이의 기하학적 거리가 이용되어 각 감정 사이의 차이가 수치화되는 제1단계와,
    상기 제1단계에서 수치화된 값들을 기초로 하여 손실함수(loss function)의 값이 산출되는 제2단계 및
    상기 제2단계에서 구해진 손실함수를 기초로 하여 각 음성 감정 모델의 파라미터가 산출되는 제3단계를 포함하며,
    상기 제2단계에서,
    상기 손실함수는 이하의 [수학식 A]로 결정되는 것을 특징으로 하는 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.
    [수학식 A]
    Figure 112011079477965-pat00018
    (여기서,
    Δ(yn,ym) : 손실함수,
    α 및 β : 각각 실수인 상수,
    d(yn,ym) : 감정 yn과 감정 ym사이의 거리지수(|| lyn - lym ||1)
    이며, 이때,
    yn : 올바른 감정,
    ym : 올바른 감정이 아닌 다른 모든 감정,
    lyn : 감정 yn의 측정치이고, (l1 , l2)로 나타내어지며,
    l1은 감정 yn의 부정성 수치이고, l2는 감정 yn의 긍정성 수치이며,
    ||?||1 : 벡터의 L1-norm)
  2. 삭제
  3. 제 1항에 있어서,
    상기 제3단계는,
    이하의 [수학식 B]를 만족하는 인수 벡터 θ가 산출되는 연산이 상기 컴퓨터상에서 실행됨으로써, 마진 스케일링을 통해 음성 속의 감정을 추정하는 것을 특징으로 하는 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.
    [수학식 B]
    Figure 112011079477965-pat00019
    (여기서,
    ρ : 최소 마진,
    N : 감정의 갯수,
    C : 마진 최대와 훈련 에러 최소의 균형을 위한 균형인자,
    ξn : 각 감정에 대해서 훈련 데이타의 에러를 허용하기 위한 여유 변수,
    θ : 구하고자 하는 인수 벡터,
    γ : θ의 L2-norm)
  4. 제 3항에 있어서,
    상기 제3단계는,
    상기 [수학식 B]와 이하의 [수학식 C]를 동시에 만족하는 인수 벡터 θ가 산출되는 연산이 상기 컴퓨터상에서 실행되는 것을 특징으로 하는 WTM을 기반으로 손실함수를 사용한 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.
    [수학식 C]
    dn (ym ; θ) ≥ ρΔ(yn, ym) -ξn , ∀n
    ym ∈ Y \ yn, ρ ≥ 0, ξn ≥ 0 , ∀n
    (여기서,
    dn (ym ; θ) : 감정 ym과 감정 yn의 판별함수의 차이,
    dn (ym ; θ) = F(Xn , yn ; θ) - F(Xn , ym ;θ))
KR1020090069471A 2009-07-29 2009-07-29 Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법. KR101116236B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090069471A KR101116236B1 (ko) 2009-07-29 2009-07-29 Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090069471A KR101116236B1 (ko) 2009-07-29 2009-07-29 Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.

Publications (2)

Publication Number Publication Date
KR20110011969A KR20110011969A (ko) 2011-02-09
KR101116236B1 true KR101116236B1 (ko) 2012-03-09

Family

ID=43771949

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090069471A KR101116236B1 (ko) 2009-07-29 2009-07-29 Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.

Country Status (1)

Country Link
KR (1) KR101116236B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106691475A (zh) * 2016-12-30 2017-05-24 中国科学院深圳先进技术研究院 情感识别模型生成方法及装置
CN107272607A (zh) * 2017-05-11 2017-10-20 上海斐讯数据通信技术有限公司 一种智能家居控制系统及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102323482B1 (ko) * 2019-03-19 2021-11-09 한국전자인증 주식회사 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법
CN110299148B (zh) * 2019-06-27 2024-05-28 平安科技(深圳)有限公司 基于Tensorflow的语音融合方法、电子装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Robust Speech Recognition and Understanding, Vienna, Austria: I-Tech, pp. 281-300 (2007.)
The Two General Activation Systems of Affect:Structural Findings, Evolutionary Considerations, and Psychobiological Evidence, Journal of Personality and Social Psychology,Vol.76,No.5,pp.820-838(1999.)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106691475A (zh) * 2016-12-30 2017-05-24 中国科学院深圳先进技术研究院 情感识别模型生成方法及装置
CN107272607A (zh) * 2017-05-11 2017-10-20 上海斐讯数据通信技术有限公司 一种智能家居控制系统及方法

Also Published As

Publication number Publication date
KR20110011969A (ko) 2011-02-09

Similar Documents

Publication Publication Date Title
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Li et al. Improved End-to-End Speech Emotion Recognition Using Self Attention Mechanism and Multitask Learning.
US10803249B2 (en) Convolutional state modeling for planning natural language conversations
Lee et al. Emotion recognition using a hierarchical binary decision tree approach
CN108346436A (zh) 语音情感检测方法、装置、计算机设备及存储介质
Gharavian et al. Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks
CN110826466A (zh) 基于lstm音像融合的情感识别方法、装置及存储介质
WO2006087854A1 (ja) 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
Kini et al. Large margin mixture of AR models for time series classification
Lee The generalization effect for multilingual speech emotion recognition across heterogeneous languages
JPWO2018168369A1 (ja) 機械学習装置および機械学習プログラム
KR101116236B1 (ko) Wtm을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법.
Chandralekha et al. Performance analysis of various machine learning techniques to predict cardiovascular disease: An emprical study
Chatterjee et al. Speech emotion recognition using cross-correlation and acoustic features
Fan et al. Transformer-based multimodal feature enhancement networks for multimodal depression detection integrating video, audio and remote photoplethysmograph signals
Li et al. It’s not only what you say, but also how you say it: Machine learning approach to estimate trust from conversation
Ankışhan Estimation of heartbeat rate from speech recording with hybrid feature vector (HFV)
Yang et al. Collaborative filtering model for user satisfaction prediction in spoken dialog system evaluation
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
Raina et al. Intelligent and Interactive Healthcare System (I 2 HS) Using Machine Learning
US20220222508A1 (en) System for sequencing and planning
Veinović Apparent Personality Analysis based on Aggregation Model
Kaur et al. Speaker classification with support vector machine and crossover-based particle swarm optimization
Koya et al. Deep bidirectional neural networks for robust speech recognition under heavy background noise
US12033042B2 (en) Apparatus for bias eliminated performance determination

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee