KR101560834B1 - 음성 신호를 이용한 감정 인식 장치 및 방법 - Google Patents

음성 신호를 이용한 감정 인식 장치 및 방법 Download PDF

Info

Publication number
KR101560834B1
KR101560834B1 KR1020090013492A KR20090013492A KR101560834B1 KR 101560834 B1 KR101560834 B1 KR 101560834B1 KR 1020090013492 A KR1020090013492 A KR 1020090013492A KR 20090013492 A KR20090013492 A KR 20090013492A KR 101560834 B1 KR101560834 B1 KR 101560834B1
Authority
KR
South Korea
Prior art keywords
energy
trajectory
state
value
pitch
Prior art date
Application number
KR1020090013492A
Other languages
English (en)
Other versions
KR20100094182A (ko
Inventor
강상기
김용석
최정윤
이정원
최가원
유성엽
Original Assignee
삼성전자주식회사
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 연세대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020090013492A priority Critical patent/KR101560834B1/ko
Publication of KR20100094182A publication Critical patent/KR20100094182A/ko
Application granted granted Critical
Publication of KR101560834B1 publication Critical patent/KR101560834B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 감정을 인식하는 장치 및 방법에 관한 것으로, 특히 음성 신호를 이용하여 감정을 인식하는 장치에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함한다.
비언어적 파라미터, 피치 궤도, 에너지 궤도, 감정 인식

Description

음성 신호를 이용한 감정 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING EMOTION USING A VOICE SIGNAL}
본 발명은 감정을 인식하는 장치 및 방법에 관한 것으로, 특히 음성 신호를 이용하여 감정을 인식하는 장치 및 방법에 관한 것이다.
현재 많은 관심을 끌고 있고 미래 기술로 주목받고 있는 분야는 감정 인식 및 감정 이해 분야이다. 이는 IT 연구의 전체적인 방향이 PC 중심에서 네트워크 중심을 거쳐 사용자 중심으로 이동하는 전체적인 흐름과도 관계가 있다.
이와 같이 사용자와 기계 간의 인터페이스 기술에 대한 관심이 증대되면서, 음성 및 얼굴 표정을 비롯한 생체 데이터로부터 인간의 감정을 인식하는 기술들이 활발하게 연구되고 있다. 현재 사용되고 있는 인간과 기계 간의 인터페이스 기술은 일반적으로 아래와 같은 두 가지 방법이 사용되고 있다.
첫 번째 방법은 키보드, 마우스 등의 기계적 신호 입력 방식으로서 대다수의 인간과 기계 간의 인터페이스 방식이 여기에 속한다. 이것은 신호 입력 시 사용자의 의사가 정확하고 안정적으로 전달되는 장점이 있지만, 기계를 효과적으로 동작 하기 위해서 상당한 학습이 필요하고, 사용자의 편의가 상대적으로 뒤떨어진다는 단점이 있다. 또한, 사용자의 의사 전달 중 많은 부분이 손실되는 문제점이 발생한다.
두 번째 방법은 음성, 영상 등의 자연적 신호 입력 방식으로서 기술의 발전과 수요에 의해 점차적으로 제품에 응용되고 있으나, 아직까지는 상술한 기계적 신호 입력 방식에 비해 사용 빈도가 매우 낮다. 이것은 기계적 신호 입력 방식에 비해서는 의사 전달이 불안정하고, 기계적으로 추가 비용이 발생한다는 단점이 있지만, 사용자의 입장에서는 훨씬 편리하고, 다양한 요구를 전달할 수 있다는 장점이 있다.
이러한 인간과 기계 간의 인터페이스 기술의 한 부분으로 인간의 가장 기본적인 의사 소통 수단이자 정보 전달 수단인 음성을 이용한 감정 인식의 중요성이 부각되고 있다.
음성 신호를 이용한 감정 인식 기술은 여러 분야에 활용될 수 있다. 예를 들면, 화자가 휴식을 원할 것으로 예상되는 감정 상태에 있다고 판단한 경우, 조용한 음악을 제안하거나 휴식을 취할 수 있는 서비스를 제안하도록 하여 해당 서비스와 연결하는 음성 신호를 이용하는 지능형 인터페이스 기술이 가능하다. 또한 이를 이용하여 타 인터페이스 기술의 성능을 향상시키는 데에도 도움을 줄 수 있다.
이러한 음성 신호를 이용한 감정 인식은 일반적으로 화자의 발화음에서 표면적으로 얻을 수 있는 언어적 정보나 비언어적 정보를 통해 이루어진다.
이때, 상기 비언어적 정보는 발화음의 피치와 에너지를 분석하여 획득할 수 있다. 이러한 연구의 예로서 (곽현석, 김수현, 곽윤근, "운율 특성 벡터와 가우시안 혼합 모델을 이용한 감정 인식", 한국 소음 진동 공학회 추계 학술 대회, 2002권, 단일호, 시작쪽수 375쪽, 2002)은 발화음의 운율적인 특징인 피치와 에너지 및 템포를 사용하여 이들의 1차 미분, 2차 미분, 변화폭 및 정규화를 시켜 2종류의 특징 벡터를 구성하여 감정 인식을 수행한 바 있다. 또한 Schuller(Schuller, B. Rigoll, G. and Lang, M., Hidden Markov Model-Based Speech Emotion Recognition, Proc. ICASSP 2003, IEEE, Hong Kong, China, vol. II, 1-4, 2003)은 발화음의 동적인 특징뿐만 아니라, 발화음의 피치와 에너지를 이용한 정적인 통계치를 이용하여 감정 인식을 수행하는 방안을 제안하였다.
그러나 발화음의 비언어적 정보는 환경적 요인과 화자별 요인에 많은 영향을 받는다. 피치는 언어에 따른 억양과 강세를 비롯하여 각 화자 별 성대 구조에 따라 다양하게 달라질 수 있다. 또한 에너지도 언어에 따른 음소 구성이나 발화 위치, 화자 개개인의 편차, 마이크의 볼륨이나 주변 상황에 따라 변할 수 있다. 또한 상기 발화음의 피치와 에너지는 음성 신호 입력 과정에서 영향을 받을 수도 있다. 다시 말해, 환경적 요인과 화자별 요인은 감정 인식의 성능 저하의 요인이 된다.
 상기와 같이 발화음으로부터 비언어적 정보를 추출하여 감정 인식을 수행하는 경우 화자의 감정 상태를 보다 정확하게 반영할 수 있는 파라미터 추출 방식과 상기 추출된 파라미터들을 이용하여 화자의 감정 상태를 보다 객관적으로 판단할 수 있는 감정 인식 방식이 요구된다.
따라서 본 발명은 음성 신호에서 감정 상태를 나타내는 비언어적인 정보에 대한 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
또한 본 발명은 음성 신호에서 감정 상태를 반영하는 일반적인 파라미터 및 감정 상태를 반영하는 추가적인 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
또한 본 발명은 음성 신호의 유성음 및 에너지를 이용하여 감정 상태를 반영하는 추가적인 파라미터를 추출하여 감정을 인식하는 장치 및 방법을 제공한다.
본 발명에 따른 음성 신호를 이용한 감정 인식 장치에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함한다.
또한 본 발명에 따른 음성 신호를 이용한 감정 인식 방법에 있어서, 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 과정; 상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간 을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 과정; 및 상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 과정을 포함한다.
따라서 본 발명에 의하면 발화음으로부터 감정 상태를 반영하는 비언어적 파라미터를 추출하여 화자의 감정 상태를 보다 정확하게 판단할 수 있다.
또한 본 발명에 의하면 발화음의 감정 상태를 나타내는 비언어적 파라미터로서 발화음의 피치 궤도와 에너지 궤도를 검출하고, 상기 피치 궤도와 에너지 궤도로부터 추출된 다양한 통계학적 파라미터를 조합하여, 화자의 감정 상태를 보다 정확하게 판단할 수 있다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 또한, 하기 설명에서는 구체적인 특정 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들 없이도 본 발명이 실시될 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
먼저 본 발명은 발화음으로부터 비언어적 정보를 추출하여 감정 인식을 수행하는 방식에서 환경적 요인, 화자별 요인 등과 같은 외적 요인의 영향을 최소화하 도록 제안된 것이다. 이를 위해 본 발명에서는 비언어적 정보를 추출할 때 단순히 발화음의 피치와 에너지의 절대값과 변화량을 측정하여 감정 인식을 수행하는 방식에서 탈피하여 발화음의 피치 궤도와 에너지 궤도로부터 감정 인식을 위한 다양한 비언어적 파라미터들을 추출하고, 추출된 파라미터들을 감정 상태별 모델링 값들과 비교하여 화자의 감정 상태를 객관적으로 판단하는 방식을 제시한다.
도 1은 본 발명에 따라 비언어적 파라미터를 추출하여 감정을 인식하는 과정을 나타낸 흐름도이다.
110단계에서 화자의 발화음이 마이크를 통해 입력되면, 120단계에서 본 발명에 따라 발화음의 피치 궤도와 에너지 궤도로부터 감정 인식을 위한다양한 비언어적 파라미터들을 추출한다. 여기서 상기 발화음의 피치 궤도는 화자의 성대의 떨림이 수반된 지속적 발성음인 유성음으로부터 추출된다. 그리고 상기 추출된 피치 궤도와 에너지 궤도로부터 각 궤도의 상승 구간, 하강 구간, 위로 볼록인 구간, 아래로 볼록인 구간을 검출하고, 검출된 각 구간으로부터 통계학적 파라미터들을 계산하여 상기 비언어적 파라미터들로 추출한다.
이후, 130단계에서 상기 추출된 비언어적 파라미터들을 미리 결정된 감정 상태별 모델링 값들과 비교하여 화자의 감정 상태를 판단함으로써 감정을 인식한다.
상기와 같이 본 발명은 발화음으로부터 측정된 유성음 구간 및 에너지를 이용하여 피치 궤도와 에너지 궤도를 각각 추출하고, 상기 피치 궤도와 에너지 궤도의 특정 구간으로부터 통계학적 파라미터들을 계산하여 감정 인식을 위한 비언어적 파라미터들로 추출한다.
이하 도 2 내지 도 4를 참조하여 본 발명에서 상기 비언어적 파라미터들을 추출하고, 상기 추출된 비언어적 파라미터들을 이용하여 감정 상태를 판단하는 방식을 구체적으로 설명하기로 한다.
도 2는 본 발명의 실시 예에 따른 감정 인식 장치의 구성도이다.
도 2의 감정 인식 장치는 비언어적 정보 검출부(210), 비언어적 파라미터 추출부(220), 판단부(230) 및 모델링부(240)를 포함한다.
도 2를 참조하면, 상기 비언어적 정보 검출부(210)는 입력되는 발화음으로부터 비언어적 정보를 검출하기 위해 유성음 및 에너지를 각각 검출하는 유성음 검출부(211) 및 에너지 검출부(213)를 포함한다. 여기서 상기 유성음 및 에너지는 구간 단위로 검출될 수 있으며, 비언어적 정보로서 상기 유성음 및 에너지 이외에 화자의 감정 상태를 반영하는 다른 비언어적 정보를 검출할 수 있는 수단을 더 구비할 수 있다. 또한 각 검출부(211, 213)는 도 2에 도시된 바와 같이 병렬로 설치되거나 또는 순서에 상관없이 순차적으로 수행될 수 있다. 예를 들어 발화음으로부터 유성음을 검출한 후, 에너지를 검출하거나 또는 에너지를 검출한 후, 유성음을 검출하도록 장치를 구성하는 것도 가능할 것이다. 또한 도 2의 실시 예에서는 유성음 검출부(211) 및 에너지 검출부(213)를 모두 이용하도록 장치를 구성하였으나, 유성음 또는 에너지 중 하나만을 검출하도록 장치를 구성하는 것도 가능할 것이다. 이하 설명될 실시 예에서는 발명의 이해를 돕기 위해 유성음과 에너지 모두를 검출하는 것으로 가정한다.
먼저 본 발명의 실시 예에서는 유성음을 검출하기 위해 자기 상관 함 수(Auto-correlation)를 이용하여 발화음에서 무성음을 제외한 유성음에서의 시간에 따른 피치 궤도를 검출한다. 또한 에너지를 검출하기 위해 제곱 평균 제곱근(Root Mean Square)을 이용하여 시간에 따른 에너지 궤도를 검출한다. 상기 피치 궤도를 검출하는 방법 및 에너지 궤도를 검출하는 방법은 상기 자기 상관 함수 및 제곱 평균 제곱근을 이용하는 방법 외에도 현재 제안되어 사용되고 있는 다양한 방법을 이용할 수 있다.
상기 비언어적 파라미터 추출부(220)는 상기 유성음 검출부(211) 및 에너지 검출부(213)로부터 각각 검출된 피치 궤도 및 에너지 궤도의 특정 구간으로부터 다양한 통계학적 파라미터들을 계산하고, 상기 계산된 통계학적 파라미터들로부터 다수의 비언어적 파라미터를 추출한다. 한편 도 2의 구성 예를 변형하여 상기 유성음 검출부(211) 및 에너지 검출부(213)에 대해 각각 상기 비언어적 파라미터 추출부(220)를 구비하는 것도 가능하다.
상기 비언어적 파라미터 추출부(220)는 유성음 검출부(211)로부터 검출된 피치 궤도에 대한 기울기와, 그 기울기의 변화율을 소정의 임계치와 비교하여 피치 궤도가 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나를 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
구체적으로 설명하면, 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 아래로 볼록인 구간 및 위로 볼록인 구간에 대한 각각의 시간의 평균, 분산, 최고값, 중앙값 및 IQR(Interquatile range) 중 적어도 하나를 포함한 다. 여기서 상기 IQR은 피치 궤도의 분포에서 예컨대, 상위 75%의 구간을 의미한다.
또한 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 아래로 볼록인 구간 및 위로 볼록인 구간에 대한 각각의 시간과 유성음 총 시간과의 비율, 아래로 볼록인 구간 및 위로 볼록인 구간에서의 각각의 피치의 평균, 중앙값, IQR 중 적어도 하나를 포함한다.
또한 상기 피치 궤도를 이용하여 추출한 비언어적 파라미터는 피치 궤도가 상승인 구간 및/또는 하강인 구간에 대한 각각의 시간의 평균, 분산, 최고값, 중앙값, IQR 중 적어도 하나를 포함하며, 상승인 구간 및/또는 하강인 구간에서의 통계학적 파라미터들을 계산하여 각각의 피치의 평균, 중앙값, IQR 중 적어도 하나를 포함한다.
한편 에너지 검출부(213)로부터 검출된 에너지 궤도에 대한 기울기를 소정의 임계치와 비교하여 상승인 구간 및/또는 하강인 구간을 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
이때, 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐에 해당하는 각 주파수 대역별 에너지 궤도, 궤도에 대한 기울기와 그 기울기의 변화율에서의 평균, 중앙값, 분산, 최고값, 최저값 및 IQR 중 적어도 하나를 포함한다.
또한 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐에 해당하는 각 주파수 대역별 에너지를 각 프레임의 전체 에너지로 정규화한 궤도, 궤도에 대한 기울기 및 그 기울기의 변화율에서의 평균, 중앙값, 분산, 최고값, 최저값 및 IQR 중 적어도 하나를 포함한다.
상기 0~250㎐, 0~500㎐, 500~1000㎐ 및 2500~3500㎐의 주파수 대역은 예시된 것으로 상기 주파수 대역에 반드시 한정되는 것은 아니다.
또한 상기 에너지 궤도를 이용하여 추출한 비언어적 파라미터는 에너지 궤도가 상승인 구간 및/또는 하강인 구간에 대한 각각의 시간의 평균, 최고값, 중앙값 및 IQR 중 적어도 하나를 포함하고, 상승 구간 및/또는 하강 구간에서의 각각의 에너지의 평균, 중앙값 및 IQR 중 적어도 하나를 포함한다.
상기한 설명과 같이 발화음이 입력되면, 피치 궤도 및 에너지 궤도로부터 다양한 비언어적 파라미터들이 추출된다. 그리고 상기 다양한 비언어적 파라미터들은 감정 인식의 성능이 향상되도록 조합하여 사용할 수 있다. 여기서 상기 추출된 비언어적 파라미터들은 미리 모델링된(or 학습된) 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태가 화자의 감정 상태로 판단된다. 여기서 상기 감정 상태별 모델링 값들은 예컨대, 트레이닝 음성 신호로부터 학습되어 감정 모델로 추출된다.
도 2에서 상기 모델링부(240)는 입력되는 트레이닝 음성 신호로부터 상기 감정 모델을 추출한다.
도 3을 참조하여 상기 감정 모델을 추출하는 과정을 설명하면, 도 3의 310단계에서 트레이닝 음성 신호가 상기 모델링부(240)로 입력되면, 320단계에서 상기 모델링부(240)는 상기 입력된 트레이닝 음성 신호로부터 비언어적 파라미터들을 추출한다. 이후, 330단계에서 상기 모델링부(240)는 상기 추출된 비언어적 파라미터들을 이용하여 하기와 같은 감정 모델을 추출한다.
하기의 <표 1>은 음성 신호의 트레이닝 시 이용되는 데이터 베이스에서 트레이닝 음성 신호의 각 특징 벡터의 평균 및/또는 분산 값들을 감정 상태별로 예시한 것이다. 상기한 감정 상태별 모델링 값들, 즉 감정 모델은 상기 각 특징 벡터의 평균 및/또는 분산 값들을 이용할 수 있다. 하기 <표 1>의 감정 모델은 상기 각 특징 벡터의 파라미터들 중 선택된 10개의 파라미터들을 예시한 것으로써, 그 파라미터들은 하기 <표 1>의 세로 열의 위부터 순차로 각각 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(P1, P2), 아래로 볼록인 구간에서의 피치값의 IQR(P3), 500~1000㎐ 주파수 대역 에너지 궤도의 기울기에서의 분산(P4)과 그 기울기의 변화율에서의 분산(P5), 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값(P6)과 평균(P7) 및 분산(P8), 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값(P9), 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균(P10)을 나타낸 것이다.
Figure 112009010079112-pat00001
상기 각 특징 벡터가 GMM(Gaussian Mixture Model)에 적용될 때에는 정규화 과정을 거쳐서 상기한 감정 모델로서 GMM 모델을 만들게 된다. 그리고 상기 <표 1>의 값들은 예컨대, 한국어 음성 데이터 베이스를 이용한 실시 예이며, 영어 등의 다른 언어에서는 다른 값으로 저장될 수 있다. 그러나 언어가 달라지더라도 발화음(or 트레이닝 음성 신호)으로부터 피치 궤도와 에너지 궤도를 검출하고, 검출된 피치 궤도와 에너지 궤도의 특정 구간에서 계산된 통계학적 파라미터들을 비언어적 파라미터들로서 추출하는 본 발명의 동작은 공통으로 적용된다.
상기 판단부(230)는 상기 비언어적 파라미터 추출부(220)로부터 추출된 비언어적 파라미터들을 벡터화한 후, 상기 모델링부(240)에 미리 구성된 감정 상태를 판단하기 위한 감정 모델을 이용하여 상기 벡터화 된 비언어적 파라미터들과 상기 감정 모델에서 각 감정 상태에 대한 확률(likelihood)을 비교함으로써 화자의 감정 상태를 판단한다. 즉 상기 판단부(230)는 상기 벡터화 된 비언어적 파라미터들을 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 화자의 감정 상태로 판단(인식)한다.
이때, 상기 감정 상태를 판단하기 위한 알고리즘으로 GMM 또는 HMM(Hidden Markov Model)을 이용할 수 있다. 그 외에도 감정 인식에서 사용 가능한 패턴 분류 알고리즘이라면 그 또한 이용 가능하다.
도 4는 본 발명의 실시 예에 따라 입력된 발화음으로부터 감정 상태를 인식하는 방법을 나타낸 흐름도이다.
먼저 발화음이 입력되면, 410단계에서 상기 입력된 발화음에 대한 비언어적 정보를 검출한다. 구체적으로 상기 비언어적 정보는 발화음으로부터 추출된 유성음과 에너지 중 적어도 하나를 포함하며, 411 단계에서 상기 유성음의 구간으로부터 피치 궤도가 검출되고, 413 단계에서 상기 발화음의 에너지로부터 에너지 궤도가 검출된다. 그리고 상기 발화음의 에너지를 상기 유성음의 구간에서 검출하는 것도 가능할 것이다.
상기 411단계 및 413단계는 병렬로 수행될 수 있으며, 진행 순서에 상관없이 순차적으로 수행하는 것도 가능할 것이다. 또한 각 단계 중 적어도 하나를 선택적으로 실시하는 것도 가능할 것이다.
이후, 420단계로 진행하여 상기 411단계 및 413단계에서 각각 검출된 비언어적 정보인 상기 피치 궤도와 에너지 궤도의 특정 구간으로부터 통계학적 파라미터들을 계산하여 감정 인식을 위한 비언어적 파라미터들로 추출한다. 상기 비언어적 파라미터들을 계산하는 구체적인 방법은 도 2의 설명에서 기술한 것처럼 피치 궤도와 에너지 궤도가 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 획득한 후, 해당 구간에 대해 통계학적 파라미터들을 계산하여 감정 상태가 반영된 비언어적 파라미터를 추출한다.
그리고 430단계에서 상기 추출된 비언어적 파라미터들을 벡터화된 값으로 계산하고, 440단계에서 상기 벡터화 된 비언어적 파라미터들을 감정 상태별 모델링 값들과 비교하고, 450단계에서 상기 비교 결과 상기 벡터화 된 비언어적 파라미터들과 가장 근접한 값을 갖는 모델링 값을 확인하고, 460단계에서 상기 확인된 모델링 값에 해당하는 감정 상태를 화자의 감정 상태로 판단(인식)한다.
도 5a 내지 도 5c는 각각 본 발명의 실시 예에 따른 감정 인식 방법을 적용한 시뮬레이션 결과를 나타낸 것이다.
각 감정 상태당 2개의 가우시안을 사용했을 때의 pdf 분포(x축 정규화됨)를 나타낸 그래프로써, 각각의 감정 상태는 평상(510), 기쁨(520), 슬픔(530) 및 화남(540)으로 구분하여 도시한 것임을 명시한다. 먼저 도 5a는 본 발명의 실시 예에 따라 피치 궤도가 하강인 구간에서의 IQR에 대한 pdf를 나타낸 그래프이고, 도 5b는 본 발명의 실시 예에 따라 표준화된 0~250㎐에 해당하는 에너지의 중앙값에 대한 pdf를 나타낸 그래프이다. 또한 도 5c는 표준화된 0~500㎐에 해당하는 에너지의 평균값에 대한 pdf를 나타낸 그래프이다. 도 5a 내지 도 5c를 참조하면, 대체로 흥분상태를 나타내는 기쁨(520)과 화남(540), 그리고 차분한 상태를 나타내는 평상(510)과 슬픔(530)이 비슷한 분포를 나타내는 것을 알 수 있다. 상기 시뮬레이션에서는 감정 인식 성능을 향상시키기 위해 본 발명에 따라 추출된 다수의 비언어적 파라미터들을 조합하여 벡터화 한 후 사용하였다.
도 1은 본 발명에 따라 비언어적 파라미터를 추출하여 감정을 인식하는 과정을 나타낸 흐름도,
도 2는 본 발명의 실시 예에 따른 감정 인식 장치의 구성도,
도 3은 본 발명의 실시 예에 따라 감정 모델을 추출하는 과정을 나타낸 흐름도,
도 4는 본 발명의 실시 예에 따라 입력된 발화음으로부터 감정 상태를 인식하는 방법을 나타낸 흐름도,
도 5a는 본 발명의 실시 예에 따라 피치 궤도가 하강인 구간에서의 IQR에 대한 pdf를 나타낸 그래프,
도 5b는 본 발명의 실시 예에 따라 표준화된 0~250㎐에 해당하는 에너지의 중앙값에 대한 pdf를 나타낸 그래프,
도 5c는 표준화된 0~500㎐에 해당하는 에너지의 평균값에 대한 pdf를 나타낸 그래프.

Claims (21)

  1. 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 비언어적 정보 검출부;
    상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 비언어적 파라미터 추출부; 및
    상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 판단부를 포함하며,
    상기 검출된 특정 구간은,
    상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나에 대한 기울기와 그 기울기의 변화율을 소정의 임계치와 비교하여 검출한 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 의미하는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  2. 삭제
  3. 제 1 항에 있어서, 상기 감정 인식 장치는,
    입력된 트레이닝 신호로부터 추출된 다수의 비언어적 파라미터를 이용하여 감정 상태별 모델링 값을 데이터 베이스로 생성하는 모델링부를 더 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  4. 제 1 항에 있어서,
    상기 비언어적 정보 검출부는,
    상기 발화음으로부터 유성음 구간을 검출함으로써 유성음에서의 시간에 따른 상기 피치 궤도를 검출하는 유성음 검출부; 및
    상기 발화음으로부터 에너지를 검출함으로써 시간에 따른 상기 에너지 궤도를 검출하는 에너지 검출부 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  5. 제 3 항에 있어서, 상기 판단부는,
    상기 입력된 발화음으로부터 상기 추출된 비언어적 파라미터를 상기 모델링부를 통해 제공되는 상기 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  6. 제 1 항에 있어서, 상기 판단부는,
    상기 입력된 발화음으로부터 추출된 비언어적 파라미터를 미리 결정된 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  7. 제 1 항에 있어서, 상기 판단부는,
    상기 감정 상태를 판단하기 위한 알고리즘으로 GMM(Gaussian Mixture Model) 및 HMM(Hidden Markov Model) 중 하나를 이용하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  8. 제 1 항에 있어서, 상기 비언어적 파라미터는,
    상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(Interquatile range), 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산과 그 기울기의 변화율에서의 분산, 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값과 평균 및 분산, 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정 규화한 궤도의 중앙값, 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균 중 적어도 하나를 벡터화한 값을 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  9. 제 1 항에 있어서, 상기 감정 상태는,
    슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  10. 제 8 항에 있어서, 상기 비언어적 파라미터 중에서,
    상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR, 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산, 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 평균 및 분산, 상기 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값 및 상기 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균에 대한 각각의 평균값의 크기 중 적어도 하나는 오름차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  11. 제 8 항에 있어서, 상기 비언어적 파라미터 중에서,
    상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기의 변화율에서의 분산 및 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값에 대한 각각의 평균값의 크기 중 적어도 하나는 내림차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 장치.
  12. 입력된 발화음으로부터 피치 궤도와 에너지 궤도 중 적어도 하나를 비언어적 정보로 검출하는 과정;
    상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나로부터 특정 구간을 검출하고, 상기 검출된 특정 구간으로부터 비언어적 파라미터를 추출하는 과정; 및
    상기 추출된 비언어적 파라미터를 이용하여 상기 발화음에 대해 인식되는 감정 상태를 판단하는 과정을 포함하며,
    상기 검출된 특정 구간은,
    상기 검출된 피치 궤도와 에너지 궤도 중 적어도 하나에 대한 기울기와 그 기울기의 변화율을 소정의 임계치와 비교하여 검출한 아래로 볼록인 구간, 위로 볼록인 구간, 상승인 구간 및 하강인 구간 중 적어도 하나의 구간을 의미하는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  13. 삭제
  14. 제 12 항에 있어서, 상기 감정 인식 방법은,
    입력된 트레이닝 신호로부터 추출된 다수의 비언어적 파라미터를 이용하여 감정 상태별 모델링 값을 데이터 베이스로 생성하는 과정을 더 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  15. 제 12 항에 있어서,
    상기 검출하는 과정은,
    상기 발화음으로부터 유성음 구간을 검출함으로써 유성음에서의 시간에 따른 상기 피치 궤도를 검출하는 과정; 및
    상기 발화음으로부터 에너지를 검출함으로써 시간에 따른 에너지 궤도를 검출하는 과정 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  16. 제 12 항에 있어서, 상기 판단하는 과정은,
    상기 입력된 발화음으로부터 상기 추출된 비언어적 파라미터를 미리 결정된 감정 상태별 모델링 값들과 비교하여 가장 근접한 값을 갖는 모델링 값에 해당하는 감정 상태를 상기 발화음에 대해 인식되는 감정 상태로 판단하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  17. 제 12 항에 있어서, 상기 판단하는 과정은,
    상기 감정 상태를 판단하기 위한 알고리즘으로 GMM(Gaussian Mixture Model) 및 HMM(Hidden Markov Model) 중 하나를 이용하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  18. 제 12 항에 있어서, 상기 비언어적 파라미터는,
    상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR(Interquatile range), 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산과 그 기울기의 변화율에서의 분산, 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값과 평균 및 분산, 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정 규화한 궤도의 중앙값, 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균 중 적어도 하나를 벡터화한 값을 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  19. 제 12 항에 있어서, 상기 감정 상태는,
    슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  20. 제 18 항에 있어서, 상기 비언어적 파라미터 중에서,
    상기 피치 궤도가 상승인 구간 및 하강인 구간에서의 각각의 피치값의 IQR, 상기 피치 궤도가 아래로 볼록인 구간에서의 피치값의 IQR, 상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기에서의 분산, 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 평균 및 분산, 상기 0~250㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 궤도의 중앙값 및 상기 0~500㎐에 해당하는 주파수 대역 에너지를 각 프레임의 전체 에너지로 정규화한 구도의 평균에 대한 각각의 평균값의 크기 중 적어도 하나는 오름차순으로 슬픔 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
  21. 제 18 항에 있어서, 상기 비언어적 파라미터 중에서,
    상기 500~1000㎐ 주파수 대역 에너지 궤도에 대한 기울기의 변화율에서의 분산 및 상기 500~1000㎐ 주파수 대역 에너지 궤도에서의 최대값에 대한 각각의 평균값의 크기 중 적어도 하나는 내림차순으로 상기 감정 상태 중에서 각각 슬픔 상태, 평상 상태, 기쁨 상태, 화남 상태에 대응되는 것임을 특징으로 하는 음성 신호를 이용한 감정 인식 방법.
KR1020090013492A 2009-02-18 2009-02-18 음성 신호를 이용한 감정 인식 장치 및 방법 KR101560834B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090013492A KR101560834B1 (ko) 2009-02-18 2009-02-18 음성 신호를 이용한 감정 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090013492A KR101560834B1 (ko) 2009-02-18 2009-02-18 음성 신호를 이용한 감정 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100094182A KR20100094182A (ko) 2010-08-26
KR101560834B1 true KR101560834B1 (ko) 2015-10-15

Family

ID=42758387

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090013492A KR101560834B1 (ko) 2009-02-18 2009-02-18 음성 신호를 이용한 감정 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101560834B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102191306B1 (ko) 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
KR102338439B1 (ko) 2015-11-11 2021-12-09 대우조선해양 주식회사 극한 환경에서의 환기 시스템
KR102304701B1 (ko) 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
KR102019470B1 (ko) * 2017-12-12 2019-09-06 세종대학교산학협력단 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
강명구 외 2명, ‘음성신호를 사용한 GMM 기반의 감정 인식’, 한국음향학회지 제23권 제3호, pp.235~241, 2004*

Also Published As

Publication number Publication date
KR20100094182A (ko) 2010-08-26

Similar Documents

Publication Publication Date Title
KR102410914B1 (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
US10410623B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Koolagudi et al. Speech emotion recognition using segmental level prosodic analysis
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4914295B2 (ja) 力み音声検出装置
Farrús et al. Using jitter and shimmer in speaker verification
CN101894552A (zh) 基于语谱切分的唱歌评测系统
KR20040073291A (ko) 외국어 발음 평가 시스템 및 그 평가 방법
JP2011524551A (ja) スピーチ分析による話者の特徴化
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Vlasenko et al. Vowels formants analysis allows straightforward detection of high arousal emotions
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
KR102607373B1 (ko) 음성감성 인식 장치 및 방법
KR101560834B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Liu et al. Acoustic Assessment of Disordered Voice with Continuous Speech Based on Utterance-Level ASR Posterior Features.
WO2003098597A1 (fr) Dispositif d&#39;extraction de noyau syllabique et progiciel associe
Nedjah et al. Automatic speech recognition of Portuguese phonemes using neural networks ensemble
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Gupta et al. A study on speech recognition system: a literature review
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
Rao et al. Robust emotion recognition using pitch synchronous and sub-syllabic spectral features
Patil et al. Acoustic features for detection of aspirated stops

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 4