KR101560834B1 - 음성 신호를 이용한 감정 인식 장치 및 방법 - Google Patents
음성 신호를 이용한 감정 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR101560834B1 KR101560834B1 KR1020090013492A KR20090013492A KR101560834B1 KR 101560834 B1 KR101560834 B1 KR 101560834B1 KR 1020090013492 A KR1020090013492 A KR 1020090013492A KR 20090013492 A KR20090013492 A KR 20090013492A KR 101560834 B1 KR101560834 B1 KR 101560834B1
- Authority
- KR
- South Korea
- Prior art keywords
- energy
- trajectory
- state
- value
- pitch
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000001755 vocal effect Effects 0.000 claims abstract description 81
- 230000002996 emotional effect Effects 0.000 claims abstract description 22
- 230000008909 emotion recognition Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 11
- 230000000630 rising effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 감정을 인식하는 장치 및 방법에 관한 것으로, 특히 음성 신호를 이용하여 감정을 인식하는 장치에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함한다.
비언어적 파라미터, 피치 궤도, 에너지 궤도, 감정 인식
Description
본 발명은 감정을 인식하는 장치 및 방법에 관한 것으로, 특히 음성 신호를 이용하여 감정을 인식하는 장치 및 방법에 관한 것이다.
현재 많은 관심을 끌고 있고 미래 기술로 주목받고 있는 분야는 감정 인식 및 감정 이해 분야이다. 이는 IT 연구의 전체적인 방향이 PC 중심에서 네트워크 중심을 거쳐 사용자 중심으로 이동하는 전체적인 흐름과도 관계가 있다.
이와 같이 사용자와 기계 간의 인터페이스 기술에 대한 관심이 증대되면서, 음성 및 얼굴 표정을 비롯한 생체 데이터로부터 인간의 감정을 인식하는 기술들이 활발하게 연구되고 있다. 현재 사용되고 있는 인간과 기계 간의 인터페이스 기술은 일반적으로 아래와 같은 두 가지 방법이 사용되고 있다.
첫 번째 방법은 키보드, 마우스 등의 기계적 신호 입력 방식으로서 대다수의 인간과 기계 간의 인터페이스 방식이 여기에 속한다. 이것은 신호 입력 시 사용자의 의사가 정확하고 안정적으로 전달되는 장점이 있지만, 기계를 효과적으로 동작 하기 위해서 상당한 학습이 필요하고, 사용자의 편의가 상대적으로 뒤떨어진다는 단점이 있다. 또한, 사용자의 의사 전달 중 많은 부분이 손실되는 문제점이 발생한다.
두 번째 방법은 음성, 영상 등의 자연적 신호 입력 방식으로서 기술의 발전과 수요에 의해 점차적으로 제품에 응용되고 있으나, 아직까지는 상술한 기계적 신호 입력 방식에 비해 사용 빈도가 매우 낮다. 이것은 기계적 신호 입력 방식에 비해서는 의사 전달이 불안정하고, 기계적으로 추가 비용이 발생한다는 단점이 있지만, 사용자의 입장에서는 훨씬 편리하고, 다양한 요구를 전달할 수 있다는 장점이 있다.
이러한 인간과 기계 간의 인터페이스 기술의 한 부분으로 인간의 가장 기본적인 의사 소통 수단이자 정보 전달 수단인 음성을 이용한 감정 인식의 중요성이 부각되고 있다.
음성 신호를 이용한 감정 인식 기술은 여러 분야에 활용될 수 있다. 예를 들면, 화자가 휴식을 원할 것으로 예상되는 감정 상태에 있다고 판단한 경우, 조용한 음악을 제안하거나 휴식을 취할 수 있는 서비스를 제안하도록 하여 해당 서비스와 연결하는 음성 신호를 이용하는 지능형 인터페이스 기술이 가능하다. 또한 이를 이용하여 타 인터페이스 기술의 성능을 향상시키는 데에도 도움을 줄 수 있다.
이러한 음성 신호를 이용한 감정 인식은 일반적으로 화자의 발화음에서 표면적으로 얻을 수 있는 언어적 정보나 비언어적 정보를 통해 이루어진다.
이때, 상기 비언어적 정보는 발화음의 피치와 에너지를 분석하여 획득할 수 있다. 이러한 연구의 예로서 (곽현석, 김수현, 곽윤근, "운율 특성 벡터와 가우시안 혼합 모델을 이용한 감정 인식", 한국 소음 진동 공학회 추계 학술 대회, 2002권, 단일호, 시작쪽수 375쪽, 2002)은 발화음의 운율적인 특징인 피치와 에너지 및 템포를 사용하여 이들의 1차 미분, 2차 미분, 변화폭 및 정규화를 시켜 2종류의 특징 벡터를 구성하여 감정 인식을 수행한 바 있다. 또한 Schuller(Schuller, B. Rigoll, G. and Lang, M., Hidden Markov Model-Based Speech Emotion Recognition, Proc. ICASSP 2003, IEEE, Hong Kong, China, vol. II, 1-4, 2003)은 발화음의 동적인 특징뿐만 아니라, 발화음의 피치와 에너지를 이용한 정적인 통계치를 이용하여 감정 인식을 수행하는 방안을 제안하였다.
그러나 발화음의 비언어적 정보는 환경적 요인과 화자별 요인에 많은 영향을 받는다. 피치는 언어에 따른 억양과 강세를 비롯하여 각 화자 별 성대 구조에 따라 다양하게 달라질 수 있다. 또한 에너지도 언어에 따른 음소 구성이나 발화 위치, 화자 개개인의 편차, 마이크의 볼륨이나 주변 상황에 따라 변할 수 있다. 또한 상기 발화음의 피치와 에너지는 음성 신호 입력 과정에서 영향을 받을 수도 있다. 다시 말해, 환경적 요인과 화자별 요인은 감정 인식의 성능 저하의 요인이 된다.
상기와 같이 발화음으로부터 비언어적 정보를 추출하여 감정 인식을 수행하는 경우 화자의 감정 상태를 보다 정확하게 반영할 수 있는 파라미터 추출 방식과 상기 추출된 파라미터들을 이용하여 화자의 감정 상태를 보다 객관적으로 판단할 수 있는 감정 인식 방식이 요구된다.
따라서 본 발명은 음성 신호에서 감정 상태를 나타내는 비언어적인 정보에 대한 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
또한 본 발명은 음성 신호에서 감정 상태를 반영하는 일반적인 파라미터 및 감정 상태를 반영하는 추가적인 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
또한 본 발명은 음성 신호의 유성음 및 에너지를 이용하여 감정 상태를 반영하는 추가적인 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
본 발명에 따른 음성 신호를 이용한 감정 인식 장치에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함한다.
또한 본 발명에 따른 음성 신호를 이용한 감정 인식 방법에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 과정; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간 을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 과정; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 과정을 포함한다.
따라서 본 발명에 의하면 발화음으로부터 감정 상태를 반영하는 비언어적 파라미터를 추출하여 화자의 감정 상태를 보다 정확하게 판단할 수 있다.
또한 본 발명에 의하면 발화음의 감정 상태를 나타내는 비언어적 파라미터로서 발화음의 피치 궤도와 에너지 궤도를 검출하고, 상기 피치 궤도와 에너지 궤도로부터 추출된 다양한 통계학적 파라미터를 조합하여, 화자의 감정 상태를 보다 정확하게 판단할 수 있다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 또한, 하기 설명에서는 구체적인 특정 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들 없이도 본 발명이 실시될 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
먼저 본 발명은 발화음으로부터 비언어적 정보를 추출하여 감정 인식을 수행하는 방식에서 환경적 요인, 화자별 요인 등과 같은 외적 요인의 영향을 최소화하 도록 제안된 것이다. 이를 위해 본 발명에서는 비언어적 정보를 추출할 때 단순히 발화음의 피치와 에너지의 절대값과 변화량을 측정하여 감정 인식을 수행하는 방식에서 탈피하여 발화음의 피치 궤도와 에너지 궤도로부터 감정 인식을 위한 다양한 비언어적 파라미터들을 추출하고, 추출된 파라미터들을 감정 상태별 모델링 값들과 비교하여 화자의 감정 상태를 객관적으로 판단하는 방식을 제시한다.
도 1은 본 발명에 따라 비언어적 파라미터를 추출하여 감정을 인식하는 과정을 나타낸 흐름도이다.
110단계에서 화자의 발화음이 마이크를 통해 입력되면, 120단계에서 본 발명에 따라 발화음의 피치 궤도와 에너지 궤도로부터 감정 인식을 위한다양한 비언어적 파라미터들을 추출한다. 여기서 상기 발화음의 피치 궤도는 화자의 성대의 떨림이 수반된 지속적 발성음인 유성음으로부터 추출된다. 그리고 상기 추출된 피치 궤도와 에너지 궤도로부터 각 궤도의 상승 구간, 하강 구간, 위로 볼록인 구간, 아래로 볼록인 구간을 검출하고, 검출된 각 구간으로부터 통계학적 파라미터들을 계산하여 상기 비언어적 파라미터들로 추출한다.
이후, 130단계에서 상기 추출된 비언어적 파라미터들을 미리 결정된 감정 상태별 모델링 값들과 비교하여 화자의 감정 상태를 판단함으로써 감정을 인식한다.
상기와 같이 본 발명은 발화음으로부터 측정된 유성음 구간 및 에너지를 이용하여 피치 궤도와 에너지 궤도를 각각 추출하고, 상기 피치 궤도와 에너지 궤도의 특정 구간으로부터 통계학적 파라미터들을 계산하여 감정 인식을 위한 비언어적 파라미터들로 추출한다.
이하 도 2 내지 도 4를 참조하여 본 발명에서 상기 비언어적 파라미터들을 추출하고, 상기 추출된 비언어적 파라미터들을 이용하여 감정 상태를 판단하는 방식을 구체적으로 설명하기로 한다.
도 2는 본 발명의 실시 예에 따른 감정 인식 장치의 구성도이다.
도 2의 감정 인식 장치는 비언어적 정보 검출부(210), 비언어적 파라미터 추출부(220), 판단부(230) 및 모델링부(240)를 포함한다.
도 2를 참조하면, 상기 비언어적 정보 검출부(210)는 입력되는 발화음으로부터 비언어적 정보를 검출하기 위해 유성음 및 에너지를 각각 검출하는 유성음 검출부(211) 및 에너지 검출부(213)를 포함한다. 여기서 상기 유성음 및 에너지는 구간 단위로 검출될 수 있으며, 비언어적 정보로서 상기 유성음 및 에너지 이외에 화자의 감정 상태를 반영하는 다른 비언어적 정보를 검출할 수 있는 수단을 더 구비할 수 있다. 또한 각 검출부(211, 213)는 도 2에 도시된 바와 같이 병렬로 설치되거나 또는 순서에 상관없이 순차적으로 수행될 수 있다. 예를 들어 발화음으로부터 유성음을 검출한 후, 에너지를 검출하거나 또는 에너지를 검출한 후, 유성음을 검출하도록 장치를 구성하는 것도 가능할 것이다. 또한 도 2의 실시 예에서는 유성음 검출부(211) 및 에너지 검출부(213)를 모두 이용하도록 장치를 구성하였으나, 유성음 또는 에너지 중 하나만을 검출하도록 장치를 구성하는 것도 가능할 것이다. 이하 설명될 실시 예에서는 발명의 이해를 돕기 위해 유성음과 에너지 모두를 검출하는 것으로 가정한다.
먼저 본 발명의 실시 예에서는 유성음을 검출하기 위해 자기 상관 함 수(Auto-correlation)를 이용하여 발화음에서 무성음을 제외한 유성음에서의 시간에 따른 피치 궤도를 검출한다. 또한 에너지를 검출하기 위해 제곱 평균 제곱근(Root Mean Square)을 이용하여 시간에 따른 에너지 궤도를 검출한다. 상기 피치 궤도를 검출하는 방법 및 에너지 궤도를 검출하는 방법은 상기 자기 상관 함수 및 제곱 평균 제곱근을 이용하는 방법 외에도 현재 제안되어 사용되고 있는 다양한 방법을 이용할 수 있다.
상기 비언어적 파라미터 추출부(220)는 상기 유성음 검출부(211) 및 에너지 검출부(213)로부터 각각 검출된 피치 궤도 및 에너지 궤도의 특정 구간으로부터 다양한 통계학적 파라미터들을 계산하고, 상기 계산된 통계학적 파라미터들로부터 다수의 비언어적 파라미터를 추출한다. 한편 도 2의 구성 예를 변형하여 상기 유성음 검출부(211) 및 에너지 검출부(213)에 대해 각각 상기 비언어적 파라미터 추출부(220)를 구비하는 것도 가능하다.
상기 비언어적 파라미터 추출부(220)는 유성음 검출부(211)로부터 검출된 피치 궤도에 대한 기울기와, 그 기울기의 변화율을 소정의 임계치와 비교하여 피치 궤도가 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나를 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
구체적으로 설명하면, 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 아래로 볼록인 구간 및 위로 볼록인 구간에 대한 각각의 시간의 평균, 분산, 최고값, 중앙값 및 IQR(Interquatile range) 중 적어도 하나를 포함한 다. 여기서 상기 IQR은 피치 궤도의 분포에서 예컨대, 상위 75%의 구간을 의미한다.
또한 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 아래로 볼록인 구간 및 위로 볼록인 구간에 대한 각각의 시간과 유성음 총 시간과의 비율, 아래로 볼록인 구간 및 위로 볼록인 구간에서의 각각의 피치의 평균, 중앙값, IQR 중 적어도 하나를 포함한다.
또한 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 상승인 구간 및/또는 하강인 구간에 대한 각각의 시간의 평균, 분산, 최고값, 중앙값, IQR 중 적어도 하나를 포함하며, 상승인 구간 및/또는 하강인 구간에서의 통계학적 파라미터들을 계산하여 각각의 피치의 평균, 중앙값, IQR 중 적어도 하나를 포함한다.
한편 에너지 검출부(213)로부터 검출된 에너지 궤도에 대한 기울기를 소정의 임계치와 비교하여 상승인 구간 및/또는 하강인 구간을 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
이때, 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐에 해당하는 각 주파수 대역별 에너지 궤도, 궤도에 대한 기울기와 그 기울기의 변화율에서의 평균, 중앙값, 분산, 최고값, 최저값 및 IQR 중 적어도 하나를 포함한다.
또한 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐에 해당하는 각 주파수 대역별 에너지를 각 프레임의 전체 에너지로 정규화한 궤도, 궤도에 대한 기울기 및 그 기울기의 변화율에서의 평균, 중앙값, 분산, 최고값, 최저값 및 IQR 중 적어도 하나를 포함한다.
상기 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐의 주파수 대역은 예시된 것으로 상기 주파수 대역에 반드시 한정되는 것은 아니다.
또한 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 에너지 궤도가 상승인 구간 및/또는 하강인 구간에 대한 각각의 시간의 평균, 최고값, 중앙값 및 IQR 중 적어도 하나를 포함하고, 상승 구간 및/또는 하강 구간에서의 각각의 에너지의 평균, 중앙값 및 IQR 중 적어도 하나를 포함한다.
상기한 설명과 같이 발화음이 입력되면, 피치 궤도 및 에너지 궤도로부터 다양한 비언어적 파라미터들이 추출된다. 그리고 상기 다양한 비언어적 파라미터들은 감정 인식의 성능이 향상되도록 조합하여 사용할 수 있다. 여기서 상기 추출된 비언어적 파라미터들은 미리 모델링된(or 학습된) 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태가 화자의 감정 상태로 판단된다. 여기서 상기 감정 상태별 모델링 값들은 예컨대, 트레이닝 음성 신호로부터 학습되어 감정 모델로 추출된다.
도 2에서 상기 모델링부(240)는 입력되는 트레이닝 음성 신호로부터 상기 감정 모델을 추출한다.
도 3을 참조하여 상기 감정 모델을 추출하는 과정을 설명하면, 도 3의 310단계에서 트레이닝 음성 신호가 상기 모델링부(240)로 입력되면, 320단계에서 상기 모델링부(240)는 상기 입력된 트레이닝 음성 신호로부터 비언어적 파라미터들을 추출한다. 이후, 330단계에서 상기 모델링부(240)는 상기 추출된 비언어적 파라미터들을 이용하여 하기와 같은 감정 모델을 추출한다.
하기의 <표 1>은 음성 신호의 트레이닝 시 이용되는 데이터 베이스에서 트레이닝 음성 신호의 각 특징 벡터의 평균 및/또는 분산 값들을 감정 상태별로 예시한 것이다. 상기한 감정 상태별 모델링 값들, 즉 감정 모델은 상기 각 특징 벡터의 평균 및/또는 분산 값들을 이용할 수 있다. 하기 <표 1>의 감정 모델은 상기 각 특징 벡터의 파라미터들 중 선택된 10개의 파라미터들을 예시한 것으로써, 그 파라미터들은 하기 <표 1>의 세로 열의 위부터 순차로 각각 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(P1, P2), 아래로 볼록인 구간에서의 피치값의 IQR(P3), 500~1000㎐ 주파수 대역 에너지 궤도의 기울기에서의 분산(P4)과 그 기울기의 변화율에서의 분산(P5), 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값(P6)과 평균(P7) 및 분산(P8), 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값(P9), 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균(P10)을 나타낸 것이다.
상기 각 특징 벡터가 GMM(Gaussian Mixture Model)에 적용될 때에는 정규화 과정을 거쳐서 상기한 감정 모델로서 GMM 모델을 만들게 된다. 그리고 상기 <표 1>의 값들은 예컨대, 한국어 음성 데이터 베이스를 이용한 실시 예이며, 영어 등의 다른 언어에서는 다른 값으로 저장될 수 있다. 그러나 언어가 달라지더라도 발화음(or 트레이닝 음성 신호)으로부터 피치 궤도와 에너지 궤도를 검출하고, 검출된 피치 궤도와 에너지 궤도의 특정 구간에서 계산된 통계학적 파라미터들을 비언어적 파라미터들로서 추출하는 본 발명의 동작은 공통으로 적용된다.
상기 판단부(230)는 상기 비언어적 파라미터 추출부(220)로부터 추출된 비언어적 파라미터들을 벡터화한 후, 상기 모델링부(240)에 미리 구성된 감정 상태를 판단하기 위한 감정 모델을 이용하여 상기 벡터화 된 비언어적 파라미터들과 상기 감정 모델에서 각 감정 상태에 대한 확률(likelihood)을 비교함으로써 화자의 감정 상태를 판단한다. 즉 상기 판단부(230)는 상기 벡터화 된 비언어적 파라미터들을 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 화자의 감정 상태로 판단(인식)한다.
이때, 상기 감정 상태를 판단하기 위한 알고리즘으로 GMM 또는 HMM(Hidden Markov Model)을 이용할 수 있다. 그 외에도 감정 인식에서 사용 가능한 패턴 분류 알고리즘이라면 그 또한 이용 가능하다.
도 4는 본 발명의 실시 예에 따라 입력된 발화음으로부터 감정 상태를 인식하는 방법을 나타낸 흐름도이다.
먼저 발화음이 입력되면, 410단계에서 상기 입력된 발화음에 대한 비언어적 정보를 검출한다. 구체적으로 상기 비언어적 정보는 발화음으로부터 추출된 유성음과 에너지 중 적어도 하나를 포함하며, 411 단계에서 상기 유성음의 구간으로부터 피치 궤도가 검출되고, 413 단계에서 상기 발화음의 에너지로부터 에너지 궤도가 검출된다. 그리고 상기 발화음의 에너지를 상기 유성음의 구간에서 검출하는 것도 가능할 것이다.
상기 411단계 및 413단계는 병렬로 수행될 수 있으며, 진행 순서에 상관없이 순차적으로 수행하는 것도 가능할 것이다. 또한 각 단계 중 적어도 하나를 선택적으로 실시하는 것도 가능할 것이다.
이후, 420단계로 진행하여 상기 411단계 및 413단계에서 각각 검출된 비언어적 정보인 상기 피치 궤도와 에너지 궤도의 특정 구간으로부터 통계학적 파라미터들을 계산하여 감정 인식을 위한 비언어적 파라미터들로 추출한다. 상기 비언어적 파라미터들을 계산하는 구체적인 방법은 도 2의 설명에서 기술한 것처럼 피치 궤도와 에너지 궤도가 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
그리고 430단계에서 상기 추출된 비언어적 파라미터들을 벡터화된 값으로 계산하고, 440단계에서 상기 벡터화 된 비언어적 파라미터들을 감정 상태별 모델링 값들과 비교하고, 450단계에서 상기 비교 결과 상기 벡터화 된 비언어적 파라미터들과 가장 근접한 값을 갖는 모델링 값을 확인하고, 460단계에서 상기 확인된 모델링 값에 해당하는 감정 상태를 화자의 감정 상태로 판단(인식)한다.
도 5a 내지 도 5c는 각각 본 발명의 실시 예에 따른 감정 인식 방법을 적용한 시뮬레이션 결과를 나타낸 것이다.
각 감정 상태당 2개의 가우시안을 사용했을 때의 pdf 분포(x축 정규화됨)를 나타낸 그래프로써, 각각의 감정 상태는 평상(510), 기쁨(520), 슬픔(530) 및 화남(540)으로 구분하여 도시한 것임을 명시한다. 먼저 도 5a는 본 발명의 실시 예에 따라 피치 궤도가 하강인 구간에서의 IQR에 대한 pdf를 나타낸 그래프이고, 도 5b는 본 발명의 실시 예에 따라 표준화된 0~250㎐에 해당하는 에너지의 중앙값에 대한 pdf를 나타낸 그래프이다. 또한 도 5c는 표준화된 0~500㎐에 해당하는 에너지의 평균값에 대한 pdf를 나타낸 그래프이다. 도 5a 내지 도 5c를 참조하면, 대체로 흥분상태를 나타내는 기쁨(520)과 화남(540), 그리고 차분한 상태를 나타내는 평상(510)과 슬픔(530)이 비슷한 분포를 나타내는 것을 알 수 있다. 상기 시뮬레이션에서는 감정 인식 성능을 향상시키기 위해 본 발명에 따라 추출된 다수의 비언어적 파라미터들을 조합하여 벡터화 한 후 사용하였다.
도 1은 본 발명에 따라 비언어적 파라미터를 추출하여 감정을 인식하는 과정을 나타낸 흐름도,
도 2는 본 발명의 실시 예에 따른 감정 인식 장치의 구성도,
도 3은 본 발명의 실시 예에 따라 감정 모델을 추출하는 과정을 나타낸 흐름도,
도 4는 본 발명의 실시 예에 따라 입력된 발화음으로부터 감정 상태를 인식하는 방법을 나타낸 흐름도,
도 5a는 본 발명의 실시 예에 따라 피치 궤도가 하강인 구간에서의 IQR에 대한 pdf를 나타낸 그래프,
도 5b는 본 발명의 실시 예에 따라 표준화된 0~250㎐에 해당하는 에너지의 중앙값에 대한 pdf를 나타낸 그래프,
도 5c는 표준화된 0~500㎐에 해당하는 에너지의 평균값에 대한 pdf를 나타낸 그래프.
Claims (21)
- 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부;상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함하며,상기 검출된 특정 구간은,상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나에 대한 기울기와 그 기울기의 변화율을 소정의 임계치와 비교하여 검출한 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 의미하는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 삭제
- 제 1 항에 있어서, 상기 감정 인식 장치는,입력된 트레이닝 신호로부터 추출된 다수의 비언어적 파라미터를 이용하여 감정 상태별 모델링 값을 데이터 베이스로 생성하는 모델링부를 더 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 1 항에 있어서,상기 비언어적 정보 검출부는,상기 발화음으로부터 유성음 구간을 검출함으로써 유성음에서의 시간에 따른 상기 피치 궤도를 검출하는 유성음 검출부; 및상기 발화음으로부터 에너지를 검출함으로써 시간에 따른 상기 에너지 궤도를 검출하는 에너지 검출부 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 3 항에 있어서, 상기 판단부는,상기 입력된 발화음으로부터 상기 추출된 비언어적 파라미터를 상기 모델링부를 통해 제공되는 상기 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 1 항에 있어서, 상기 판단부는,상기 입력된 발화음으로부터 추출된 비언어적 파라미터를 미리 결정된 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 1 항에 있어서, 상기 판단부는,상기 감정 상태를 판단하기 위한 알고리즘으로 GMM(Gaussian Mixture Model) 및 HMM(Hidden Markov Model) 중 하나를 이용하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 1 항에 있어서, 상기 비언어적 파라미터는,상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(Interquatile range), 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산과 그 기울기의 변화율에서의 분산, 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값과 평균 및 분산, 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정 규화한 궤도의 중앙값, 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균 중 적어도 하나를 벡터화한 값을 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 1 항에 있어서, 상기 감정 상태는,슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 8 항에 있어서, 상기 비언어적 파라미터 중에서,상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR, 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산, 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 평균 및 분산, 상기 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값 및 상기 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균에 대한 각각의 평균값의 크기 중 적어도 하나는 오름차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 제 8 항에 있어서, 상기 비언어적 파라미터 중에서,상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기의 변화율에서의 분산 및 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값에 대한 각각의 평균값의 크기 중 적어도 하나는 내림차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
- 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 과정;상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 과정; 및상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 과정을 포함하며,상기 검출된 특정 구간은,상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나에 대한 기울기와 그 기울기의 변화율을 소정의 임계치와 비교하여 검출한 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 의미하는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 삭제
- 제 12 항에 있어서, 상기 감정 인식 방법은,입력된 트레이닝 신호로부터 추출된 다수의 비언어적 파라미터를 이용하여 감정 상태별 모델링 값을 데이터 베이스로 생성하는 과정을 더 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 12 항에 있어서,상기 검출하는 과정은,상기 발화음으로부터 유성음 구간을 검출함으로써 유성음에서의 시간에 따른 상기 피치 궤도를 검출하는 과정; 및상기 발화음으로부터 에너지를 검출함으로써 시간에 따른 에너지 궤도를 검출하는 과정 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 12 항에 있어서, 상기 판단하는 과정은,상기 입력된 발화음으로부터 상기 추출된 비언어적 파라미터를 미리 결정된 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 12 항에 있어서, 상기 판단하는 과정은,상기 감정 상태를 판단하기 위한 알고리즘으로 GMM(Gaussian Mixture Model) 및 HMM(Hidden Markov Model) 중 하나를 이용하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 12 항에 있어서, 상기 비언어적 파라미터는,상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(Interquatile range), 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산과 그 기울기의 변화율에서의 분산, 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값과 평균 및 분산, 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정 규화한 궤도의 중앙값, 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균 중 적어도 하나를 벡터화한 값을 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 12 항에 있어서, 상기 감정 상태는,슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 18 항에 있어서, 상기 비언어적 파라미터 중에서,상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR, 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산, 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 평균 및 분산, 상기 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값 및 상기 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균에 대한 각각의 평균값의 크기 중 적어도 하나는 오름차순으로 슬픔 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
- 제 18 항에 있어서, 상기 비언어적 파라미터 중에서,상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기의 변화율에서의 분산 및 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값에 대한 각각의 평균값의 크기 중 적어도 하나는 내림차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090013492A KR101560834B1 (ko) | 2009-02-18 | 2009-02-18 | 음성 신호를 이용한 감정 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090013492A KR101560834B1 (ko) | 2009-02-18 | 2009-02-18 | 음성 신호를 이용한 감정 인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100094182A KR20100094182A (ko) | 2010-08-26 |
KR101560834B1 true KR101560834B1 (ko) | 2015-10-15 |
Family
ID=42758387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090013492A KR101560834B1 (ko) | 2009-02-18 | 2009-02-18 | 음성 신호를 이용한 감정 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101560834B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102191306B1 (ko) | 2014-01-22 | 2020-12-15 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
KR102338439B1 (ko) | 2015-11-11 | 2021-12-09 | 대우조선해양 주식회사 | 극한 환경에서의 환기 시스템 |
KR102304701B1 (ko) | 2017-03-28 | 2021-09-24 | 삼성전자주식회사 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
KR102019470B1 (ko) * | 2017-12-12 | 2019-09-06 | 세종대학교산학협력단 | 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099084A (ja) * | 2001-07-13 | 2003-04-04 | Sony France Sa | 音声による感情合成方法及び装置 |
-
2009
- 2009-02-18 KR KR1020090013492A patent/KR101560834B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099084A (ja) * | 2001-07-13 | 2003-04-04 | Sony France Sa | 音声による感情合成方法及び装置 |
Non-Patent Citations (1)
Title |
---|
강명구 외 2명, ‘음성신호를 사용한 GMM 기반의 감정 인식’, 한국음향학회지 제23권 제3호, pp.235~241, 2004* |
Also Published As
Publication number | Publication date |
---|---|
KR20100094182A (ko) | 2010-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410623B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
KR102410914B1 (ko) | 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 | |
Koolagudi et al. | Speech emotion recognition using segmental level prosodic analysis | |
JP4914295B2 (ja) | 力み音声検出装置 | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
Farrús et al. | Using jitter and shimmer in speaker verification | |
CN101894552A (zh) | 基于语谱切分的唱歌评测系统 | |
KR20040073291A (ko) | 외국어 발음 평가 시스템 및 그 평가 방법 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2011524551A (ja) | スピーチ分析による話者の特徴化 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
KR102607373B1 (ko) | 음성감성 인식 장치 및 방법 | |
Vlasenko et al. | Vowels formants analysis allows straightforward detection of high arousal emotions | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
KR101560834B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
Liu et al. | Acoustic Assessment of Disordered Voice with Continuous Speech Based on Utterance-Level ASR Posterior Features. | |
WO2003098597A1 (fr) | Dispositif d'extraction de noyau syllabique et progiciel associe | |
Nedjah et al. | Automatic speech recognition of Portuguese phonemes using neural networks ensemble | |
Gupta et al. | A study on speech recognition system: a literature review | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Rao et al. | Robust emotion recognition using pitch synchronous and sub-syllabic spectral features | |
Patil et al. | Acoustic features for detection of aspirated stops | |
Jung et al. | Selecting feature frames for automatic speaker recognition using mutual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181008 Year of fee payment: 4 |