KR102191306B1 - 음성 감정 인식 시스템 및 방법 - Google Patents

음성 감정 인식 시스템 및 방법 Download PDF

Info

Publication number
KR102191306B1
KR102191306B1 KR1020140007883A KR20140007883A KR102191306B1 KR 102191306 B1 KR102191306 B1 KR 102191306B1 KR 1020140007883 A KR1020140007883 A KR 1020140007883A KR 20140007883 A KR20140007883 A KR 20140007883A KR 102191306 B1 KR102191306 B1 KR 102191306B1
Authority
KR
South Korea
Prior art keywords
emotion
unit
probability
frame
frames
Prior art date
Application number
KR1020140007883A
Other languages
English (en)
Other versions
KR20150087671A (ko
Inventor
이예하
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140007883A priority Critical patent/KR102191306B1/ko
Priority to US14/518,874 priority patent/US9972341B2/en
Publication of KR20150087671A publication Critical patent/KR20150087671A/ko
Application granted granted Critical
Publication of KR102191306B1 publication Critical patent/KR102191306B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 감정 인식 시스템 및 방법이 개시된다. 일 예에 따라, 사용자 발화를 수신하는 입력부와, 상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성부와, 상기 단위프레임들 중 일부를 키프레임으로 선별하는 키프레임 선별부와, 상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산부와, 상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정부를 포함한다.

Description

음성 감정 인식 시스템 및 방법{SYSTEM AND METHOD FOR RECOGNITION OF VOICE EMOTION}
음성 감정 인식 기술에 관련된다. 보다 상세하게는 음성 데이터의 변화를 분석하여 정보를 담고 있는 프레임들을 검출하고 이를 이용하여 감정을 인식하는 기술에 관련된다.
감정 인식 기술은 개인화 서비스의 정확도를 향상시키고 사용자 친화적인 디바이스를 위해 중요한 기술이다. 현재 감정인식 기술은 표정, 음성, 자세, 생체신호 등을 대상으로 하여 연구되고 있다. 이 중에서 음성 감정 인식의 경우, 음성 데이터의 변화를 분석하여 정보를 담고 있는 프레임들을 검출하는 프레임 기반 음성 감정 인식 기술이 알려져 있다. 기존 음성 감정 인식은 사용자 발화 데이터 전체를 대상으로 한다. 그러나 사용자의 발화 데이터의 많은 부분은 감정이 없는 중립 성향일 수 있다. 대개 사용자가 발화하는 내내 발생하기 보다는 발화 도중 순간적으로 감정이 나타나는 경우가 많기 때문이다. 그러므로 이러한 중립 성향의 데이터는 감정 인식과 상관없고 심지어 감정 인식을 방해할 수 있는 노이즈(noise) 정보라고 볼 수 있다. 이와 같은 노이즈 정보에 기인하여, 기존 음성 감정 인식은 사용자 발화 중에 순간적으로 나타나는 감정을 정확히 추출하는데 어려움을 겪고 있다.
사용자 발화에 대해 선별된 소수의 키프레임들을 이용하여 감정을 인식하는 음성 감정 인식 시스템 및 방법을 제안한다.
일 양상에 따라 제공되는 음성 감정 인식 시스템은, 사용자 발화를 수신하는 입력부와, 상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성부와, 상기 단위프레임들 중 일부를 키프레임으로 선별하는 키프레임 선별부와, 상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산부와, 상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정부를 포함할 수 있다.
일 실시예에 있어서, 상기 키프레임 선별부는, 상기 단위프레임 내에서 발생하는 발생확률에 따라 상기 키프레임으로 선별할 수 있다.
다른 실시예에 있어서, 상기 키프레임 선별부는, 상기 발생확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로 선별할 수 있다.
또 다른 실시예에 있어서, 상기 키프레임 선별부는, 미리 저장되어 있는 다수의 기준프레임들 내에서 존재하는 존재확률에 따라 상기 키프레임으로 선별할 수 있다.
또 다른 실시예에 있어서, 상기 키프레임 선별부는, 상기 존재확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 수 있다.
또 다른 실시예에 있어서, 상기 키프레임 선별부는, 상기 단위프레임 각각이 상기 단위프레임들 내에서 발생하는 발생확률을 계산하는 단위프레임 발생확률 계산부와, 상기 단위프레임을 미리 저장되어 있는 다수의 기준프레임들 내에서 존재하는 존재확률을 계산하는 단위프레임 존재확률 계산부와, 상기 발생확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 높은 중요도1 값을 산정하고, 상기 존재확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 낮은 중요도2 값을 산정하며, 상기 중요도1 값 및 상기 중요도2 값 둘 모두를 고려하여 상기 단위프레임에 상기 중요도를 산정하는, 프레임 중요도 산정부와, 상기 산정된 중요도에 따라 상기 단위프레임을 상기 키프레임으로서 결정하는 키프레임 결정부를 포함할 수 있다.
또 다른 실시예에 있어서, 상기 감정확률 계산부는, 상기 선별된 키프레임의 글로벌 피처를 추출하고, 상기 글로벌 피처를 이용하여 서포트 벡터 머신(Support Vector Machine, SVM) 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산할 수 있다.
또 다른 실시예에 있어서, 상기 감정확률 계산부는, 미리 학습된 가우스 믹스처 모델(Gaussian Mixture Model, GMM) 또는 히든 마르코프 모델(Hidden Markov Model, HMM) 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산할 수 있다.
또 다른 실시예에 있어서, 상기 감정확률 계산부는, 상기 단위프레임들의 감정확률을 더 계산하고, 상기 감정 판정부는, 상기 키프레임의 감정확률 및 상기 단위프레임의 감정확률 모두를 이용하여 상기 사용자 발화의 감정을 결정할 수 있다.
또 다른 실시예에 있어서, 상기 키프레임 감정확률 및 상기 단위프레임 감정확률은, 상기 키프레임들의 글로벌 피처를 추출하고, 상기 선별된 글로벌 피처를 이용하여 SVM 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하거나, 또는 미리 학습된 GMM 또는 HMM 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산할 수 있다.
그리고, 다른 양상에 따라 제공되는 음성 감정 인식 방법은, 사용자 발화를 수신하는 입력 단계와, 상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성 단계와, 상기 단위프레임들 중의 일부를 키프레임으로 선별하는 키프레임 선별 단계와, 상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산 단계와, 상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정 단계를 포함할 수 있다.
상술한 양상들 및 실시예들, 그리고 그 외 다른 실시예들에 대한 상세한 설명이 아래에서 제공될 것이다.
사용자 발화에 대해 선별된 소수의 키프레임들을 이용하여 감정을 인식하도록 함으로써 인식 성능을 향상시키는 음성 감정 인식 시스템 및 방법을 구현할 수 있는 효과가 있다.
도 1은 음성 감정 인식 시스템의 일 실시예를 나타낸 블록도,
도 2는 도 1의 실시예에서, 사용자 발화를 N개의 단위프레임으로 분리하고 파라미터 벡터를 추출하여 생성한 발화데이터의 일 실시예를 보여주는 블록도,
도 3은 도 1의 실시예에서, 미리 저장되어 있는 T개의 기준프레임 및 파라미터 벡터를 포함하는 기준데이터의 일 실시예를 보여주는 블록도,
도 4는 도 1의 실시예에서, 키프레임 선별부의 세부 구성의 일 실시예를 보여주는 블록도,
도 5는 도 4의 실시예에서, 특정 단위프레임이 발화데이터 내에서 발생하는 확률의 크기에 따른 상대적인 중요도를 설명하기 위한 그래프,
도 6은 도 4의 실시예에서, 특정 단위프레임이 기준데이터 내에서 존재하는 확률의 크기에 따른 상대적인 중요도를 설명하기 위한 그래프,
도 7은 음성 감정 인식 시스템의 또 다른 실시예를 나타낸 블록도,
도 8은 음성 감정 인식 방법의 일 실시예를 보여주는 흐름도,
도 9는 도 8의 실시예에서 키프레임 선별 프로세스의 일 실시예를 보여주는 흐름도,
도 10은 음성 감정 인식 방법의 다른 실시예를 나타낸 흐름도이다.
종래 프레임 기반 음성 감정 인식은, 사용자 발화 즉 음성 데이터의 변화를 분석하여 변화 정보를 담고 있는 프레임들을 검출한다. 프레임은 일정한 시간길이를 가지는 구간 기반 음성 데이터 단위를 지칭한다. 예를 들어, 사용자 발화로부터 N개의 프레임을 검출할 수 있고, 각각의 프레임은 약 20ms 내지 30ms의 길이를 가질 수 있다. 각각의 프레임은 서로 중첩될 수도 있다.
그런 다음, N개의 구간 즉 N개의 프레임들 각각에 대해 파라미터 벡터가 추출될 수 있다. (여기서 N은 양의 정수이다. 이하에서 프레임의 수를 나타내는 변수 N, T, M 등은 모두 양의 정수이다.) 파라미터 벡터는, 각각의 프레임이 가지고 있는 유의미한 정보를 나타내는 것으로서, 예를 들어, 스펙트럼, MFCC(Mel-Scale Frequency Cepstral Coefficients), 포먼트(formant) 등을 포함할 수 있다. 결과적으로 N개의 프레임들에 대해 N개의 파라미터 벡터들이 추출될 수 있다.
이들 프레임 또는 파라미터 벡터를 이용하여 감정을 인식하는 기법은 크게 두 가지의 방식이 있다.
하나는 N개의 파라미터 벡터로부터, 새로운 글로벌 피처(global feature)를 생성하는 방식이다. 글로벌 피처에는 예컨대 평균, 최대값, 최소값 등과 같은 특성이 포함된다. 생성된 글로벌 피처는 서포트 벡터 머신(Support Vector Machine, SVM)과 같은 분류기를 활용하여 사용자 발화의 감정을 결정하는데 이용된다.
다른 방식에 있어서, 감정 범주마다 학습시킨 가우스 믹스처 모델(Gaussian Mixture Model, GMM) 또는 히든 마르코프 모델(Hidden Markov Model, HMM)과 같은 생성 모델이 이용된다. 다수의 생성모델들 각각은 하나의 특정 감정 범주에 대해 학습되어 있다. 각각의 특정 감정 범주에 대해 학습되어 있는 생성모델들은, 각각 특정 감정 범주에 대응되며, 또한 각각 서로 다른 파라미터 벡터들을 생성한다. 그러므로, 사용자 발화로부터 유도된 N개의 파라미터 벡터들과, 생성모델들로부터 유도되는 파라미터 벡터들을 비교할 수 있다. 비교 결과, 사용자 발화로부터의 N개의 파라미터 벡터들과 동일 또는 유사한 파라미터 벡터들을 가지는 생성모델이 식별될 수 있다. 이와 같이 식별된 생성모델에 대응하는 감정 범주를 사용자 발화의 감정 상태라고 결정할 수 있다.
이와 같은 기존의 음성 감정 인식은 사용자 발화 중에 순간적으로 나타나는 감정을 정확히 추출하는데 어려움을 겪고 있다. 기존 음성 감정 인식은 사용자 발화 데이터 전체를 대상으로 한다. 그러나 사용자의 발화 데이터의 많은 부분은 감정이 없는 중립 성향일 수 있다. 감정은 대개 사용자가 발화하는 내내 발생하기 보다는 발화 도중 순간적으로 나타나는 경우가 많기 때문이다. 이러한 중립 성향의 데이터는 감정 인식과 상관없고 심지어 감정 인식을 방해할 수 있는 노이즈 정보라고 볼 수 있다. 따라서 사용자 발화 중에서 노이즈 정보를 제거하고 감정을 나타내는 중요한 부분만을 정확히 검출할 수 있다면, 감정 인식 성능이 향상될 수 있다고 기대할 수 있다.
음성 감정 인식 시스템 및 방법은, 사용자 발화 중에서 선별된 소수의 키프레임들을 이용하여 감정을 인식하는 기술을 제공한다.
"키프레임"이란, 사용자 발화를 N개의 프레임으로 나타내었을 때, N개의 프레임들 중에서 선별된 프레임을 의미한다. N개의 프레임은 사용자 발화 중 감정과는 상관없는 중립 성향의 노이즈 정보를 포함할 수 있다. 따라서 사용자 발화 중에서 키프레임을 선별하는 것은, 노이즈 정보를 제거하는 것을 의미할 수 있다.
또한 음성 감정 인식 시스템 및 방법은, 사용자 발화 내에서 발생하는 확률에 연관되는 중요도에 따라 선별된 소수의 키프레임들을 이용하여 감정을 인식하는 기술을 제공한다.
더 나아가 음성 감정 인식 시스템 및 방법은, 미리 저장되어 있는 다수의 프레임들을 포함하는 기준데이터 내에서 존재하는 확률에 연관되는 중요도에 따라 선별된 소수의 키프레임들을 이용하여 감정을 인식하는 기술을 제공한다.
또 더 나아가 음성 감정 인식 시스템 및 방법은, 사용자 발화 내에서 발생하는 확률뿐만 아니라 미리 저장되어 있는 다수의 프레임들을 포함하는 기준데이터 내에서 존재하는 확률 둘 모두를 고려하는 중요도에 따라 선별된 소수의 키프레임들을 이용하여 감정을 인식하는 기술을 제공할 수 있다.
또 더 나아가 음성 감정 인식 시스템 및 방법은, 사용자 발화 중에서 선별된 소수의 키프레임들을 이용할 뿐만 아니라 사용자 발화의 모든 프레임들을 이용하는 것 둘 모두를 고려하여 감정을 인식하는 기술을 제공할 수 있다.
도 1은 음성 감정 인식 시스템의 일 실시예를 나타낸 블록도이다.
도 1을 참조하면, 사용자 발화 중 노이즈 정보를 제거하여 감정을 인식하기 위한 음성 감정 인식 시스템(10)이 예시된다.
음성 감정 인식 시스템(10)은 입력부(11), 프레임 파라미터 생성부(13), 키프레임 선별부(15), 감정확률 계산부(17), 감정 판정부(19) 등의 컴포넌트들을 포함할 수 있다.
입력부(11)는 사용자 발화를 수신하는 컴포넌트이다. 여기서 "사용자 발화"란 음성 감정 인식 시스템 및/또는 방법에 의해 감정이 인식될 음성 데이터를 의미한다. 사용자 발화는 마이크로폰을 통해 실시간으로 수신되거나, 또는 컴퓨터 판독가능 스토리지 매체에 이전에 저장되어 있는 음성데이터로부터 수신될 수 있다.
프레임 파라미터 생성부(13)는 사용자 발화로부터 복수의 단위프레임들을 추출한다. 단위프레임은 사용자 발화 중에서 일정한 시간길이의 의미있는 구간 음성데이터를 의미한다. 예를 들어, 약 3초의 사용자 발화가 수신되었다면, 하나의 단위프레임은 20ms 내지 30ms의 길이를 가지며, 약 300 내지 500개의 단위프레임들이 추출될 수 있다. 단위 프레임 추출시 서로 다른 단위프레임들은 시간 구간에 대하여 서로 중첩될 수 있다.
또한 프레임 파라미터 생성부(13)는 추출된 단위프레임들 각각으로부터 파라미터 벡터를 생성한다. 여기서 "파라미터 벡터"란 각각의 단위프레임이 가지고 있는 정보들 중 음성의 성질을 나타내는 파라미터들, 예를 들면, 스펙트럼, MFCC, 포먼트 등을 포함할 수 있다.
이렇게 프레임 파라미터 생성부(13)에 의해 생성된 단위프레임들 및 파라미터 벡터들은 발화데이터(120)로서 메모리와 같은 스토리지 매체 상에 저장될 수 있다. 발화데이터(120)는, 예컨대 사용자 발화로부터 추출된 N개의 단위프레임에 관한 데이터를 포함할 수 있으며, 도 2를 참조하여 아래에서 더 설명된다.
도 2는 도 1의 실시예에서, 사용자 발화를 N개의 단위프레임으로 분리하고 파라미터 벡터를 추출하여 생성한 발화데이터의 일 실시예를 보여주는 블록도이다.
도 2를 참조하면, 발화데이터(120)는 N개의 단위프레임들 즉, UF1(121), UF2(122), …, UFN(123)과, 이들에 각각 대응하는 N개의 파라미터 벡터들 즉, P1, P2, …, PN를 포함할 수 있다.
다시 도 1로 돌아가서, 키프레임 선별부(15)는, 단위프레임들 중의 일부를 키프레임들로서 선별하고 키프레임 데이터(160)를 생성하는 컴포넌트이다.
각각의 키프레임은 발화데이터(120)에 포함되어 있는 N개의 단위프레임들 중 하나이다. 키프레임 선별부(15)에 의해 생성된 키프레임 데이터(160)는 프레임 파라미터 생성부(13)에 의해 생성된 발화데이터(120)의 부분집합이다. 따라서, 키프레임 데이터(160)는 프레임의 개수만이 적다는 것만 다를 뿐 발화데이터(120)와 유사한 데이터들을 포함한다.
키프레임 선별부(15)가 어떤 단위프레임을 키프레임으로서 선별하는가는 단위프레임과 연관되어 있는 성질 등에 대해 미리 정의되어 있는 기준에 따라 정해질 수 있다. 예를 들어, 단위프레임에서 추출되는 파라미터 벡터의 파라미터들 중에서 하나의 값이 미리 결정된 기준을 충족할 때, 이 단위프레임은 키프레임으로서 결정될 수 있다.
또는 키프레임 선별부(15)는 단위프레임이 사용자 발화 중에서 발생하는 확률을 계산하고, 이 확률이 미리 결정된 기준을 충족할 때, 이 단위프레임을 키프레임으로서 결정할 수 있다.
사용자 발화를 N개의 단위프레임으로 구성된 발화데이터(120)로 나타내는 경우, 각각의 단위프레임에 대해 스펙트럼, MFCC, 포먼트 등과 같은 파라미터 벡터가 추출된다. 몇몇 단위프레임들은 동일하거나 또는 일정 범위 내에서 유사한 파라미터 벡터를 가질 수 있다. 이렇게 동일하거나 또는 일정 범위 내에서 유사한 파라미터 벡터를 가지는 복수의 단위프레임들은 동일 단위프레임이라고 간주할 수 있다. N개의 단위프레임들 내에 포함되어 있는 특정한 동일 단위프레임의 개수는 발생확률로서 표현될 수 있다.
예컨대, 300개의 단위프레임들 중에서 특정 단위프레임은 10번 발생하였다고 가정하자. 이 경우, 이 특정 단위프레임은 발생확률이 "300분의 10"이라고 간주될 수 있다. 이러한 발생확률은 각각의 단위프레임의 중요도를 결정하는데 이용될 수 있다. 예컨대, 사용자 발화 내에서 어떤 프레임의 발생확률이 높으면 높을수록 이 단위프레임은 중요하게 취급되어야 할 정보를 가지고 있다고 간주될 수 있다. 따라서 단위프레임의 발생확률이 높으면 그 중요도를 높은 값으로 산정할 수 있다. 반면에 단위프레임의 발생확률이 낮으면 그 중요도를 낮은 값으로 산정할 수 있다. 이런 식으로 모든 단위프레임에 대해 중요도가 산정되면, 예를 들어 중요도 값이 상위 10%에 해당하는 단위프레임들만이 키프레임들로서 결정될 수 있다.
더 나아가 키프레임 선별부(15)는 단위프레임에 대해, 미리 저장되어 있는 기준데이터(140) 내에서 존재하는 확률을 계산하고, 이 확률이 미리 결정된 기준을 충족할 때, 이 단위프레임을 키프레임으로서 결정할 수 있다.
기준데이터(140)는 미리 수집하여 메모리 등에 저장된 데이터로서, 이미 음성 감정 분석에 사용된 적이 있는 음성 데이터의 프레임들, 즉 T개의 기준프레임들을 포함할 수 있다. 여기서 T는 N에 비하여 훨씬 큰 값을 나타낼 수 있다. 예컨대, N이 수백이라면, T는 수백만 또는 수천만 이상을 나타낼 수 있다. 이러한 기준데이터는 이전에 사용자 발화를 기초로 수집된 것이므로 감정과 상관없는 중립 성향의 노이즈 정보를 다수 포함하고 있음이 예상된다. 기준데이터(140)는 T개의 기준프레임 및 각각에 대응되는 T개의 파라미터 벡터를 포함할 수 있으며, 도 3을 참조하여 아래에서 더 설명된다.
도 3은 도 1의 실시예에서, 미리 저장되어 있는 T개의 기준프레임 및 파라미터 벡터를 포함하는 기준데이터의 일 실시예를 보여주는 블록도이다.
도 3을 참조하면, 기준데이터(140)는 T개의 기준프레임들 즉, BF1(141), BF2(142), …, BFT(143)과, 이들에 각각 대응하는 T개의 파라미터 벡터들 즉, P1, P2, …, PT를 포함할 수 있다.
다시 도 1로 돌아가서, 발화데이터(120) 내의 N개의 단위프레임과 기준데이터(140) 내의 T개의 기준프레임은 둘 모두 스펙트럼, MFCC, 포먼트 등과 같은 파라미터 벡터를 가지므로, 파라미터 벡터에 의해 서로 비교될 수 있다. 그러므로, 단위프레임의 파라미터 벡터와 비교할 때, 동일하거나 또는 일정 범위 내에서 유사한 파라미터 벡터를 가지는 복수의 기준프레임이 존재할 수 있다. T개의 기준프레임들 내에서, 특정한 단위프레임과 동일하거나 일정 범위 내에서 유사한 파라미터 벡터를 가지는 기준프레임의 개수는 존재확률로서 표현될 수 있다.
예컨대, 특정 단위프레임과 동일 유사한 파라미터 벡터를 가지는 특정 기준프레임이 100만개의 기준프레임들 중에서 1만개 존재한다고 가정하자. 이 경우, 이 특정 단위프레임은 존재확률이 "100만분의 1만"이라고 간주될 수 있다. 이러한 존재확률은 각각의 프레임의 중요도를 결정하는데 이용될 수 있다. 예컨대, 어떤 단위프레임의 존재확률이 높으면 높을수록 이 단위프레임은 노이즈 정보일 가능성이 크며 따라서 중요하게 취급되어야 할 정보를 가지고 있지 않다고 간주될 수 있다. 따라서 프레임의 존재확률이 높으면 그 중요도를 낮은 값으로 결정할 수 있다. 반면에 프레임의 존재확률이 낮으면 그 중요도를 높은 값으로 결정할 수 있다. 이런 식으로 모든 단위프레임에 대해 중요도가 산정되면, 예를 들어 중요도 값이 하위 10%에 해당하는 단위프레임들만이 키프레임들로서 결정될 수 있다.
또 더 나아가 키프레임 선별부(15)는 사용자 발화 내에서 발생하는 확률뿐만 아니라 기준데이터 내에서 존재하는 확률 둘 모두를 고려하는 중요도에 따라 키프레임들을 선별할 수 있다. 이 경우는 도 4에 도시된 예를 참조하여 아래에서 더 설명된다.
도 4는 도 1의 실시예에서, 키프레임 선별부의 세부 구성의 일 실시예를 보여주는 블록도이다.
도 4를 참조하면, 키프레임 선별부(15)는 단위프레임 발생확률 계산부(41), 단위프레임 존재확률 계산부(43), 프레임 중요도 산정부(45), 및 키프레임 결정부(47) 등의 컴포넌트들을 포함할 수 있다.
단위프레임 발생확률 계산부(41)는 단위프레임 각각이 발화데이터(120) 내에서 발생하는 확률, 즉 N개의 단위프레임들 내에서 발생하는 발생확률(PA)을 계산한다. 그리고 단위프레임 존재확률 계산부(43)는 단위프레임 각각이 기준데이터(140) 내에서 존재하는 확률, 즉 T개의 기준프레임 내에서 존재하는 존재확률(PB)을 계산한다.
여기서, 발생확률(PA)은 N개의 단위프레임들 중에서 특정 단위프레임과 동일 또는 유사한 파라미터 벡터를 가진 단위프레임들의 개수를 의미할 수 있다. 한편 존재확률(PB)은 T개의 기준프레임들 중에서 특정 단위프레임과 동일 또는 유사한 파라미터 벡터를 가진 기준프레임들의 개수를 의미할 수 있다.
프레임 중요도 산정부(45)는 특정 단위프레임의 중요도를 산정하기 위하여 PA와 PB를 모두 고려한다. PA와 PB와 중요도(S)와의 관계는 도 5 및 도 6을 참조하여 아래에서 더 설명된다.
도 5는 도 4의 예에서, 특정 단위프레임이 발화데이터 내에서 발생하는 확률의 크기에 따른 상대적인 중요도를 설명하기 위한 그래프이다.
도 5를 참조하면, 수평축은 PA가 0 내지 1의 범위에서 도시되며, 수직축은 대응하는 중요도(S) 값이 0 내지 100의 범위에서 도시된다. PA와 S 사이의 관계는 직선(50)에 의하여 비례 관계임이 나타나 있다. 따라서, PA1 < PA2 인 경우, PA1에 대응하는 S1과 PA2에 대응하는 S2는 S1 < S2의 관계를 가진다. 이러한 비례관계는, 특정 단위프레임의 PA가 크다는 사실로부터 이 특정 단위프레임이 발화데이터(120) 내에서 자주 나타나며, 따라서 발화데이터(120)의 감정을 인식하기 위하여 중요한 위치를 차지하고 있다는 것을 의미할 수 있음을 보여준다. 하지만 반면에, 발화데이터(120) 내에서 너무 자주 나타나는 단위프레임은 오히려 노이즈 정보일 수도 있다. 그러므로 PA 하나만을 사용하여 완전히 노이즈 정보를 제거하는 키프레임을 선별하는 것은 어려울 수 있다.
도 6은 도 4의 예에서, 특정 단위프레임이 기준데이터 내에서 존재하는 확률의 크기에 따른 상대적인 중요도를 설명하기 위한 그래프이다.
도 6을 참조하면, 수평축은 PB가 0 내지 1의 범위에서 도시되며, 수직축은 대응하는 중요도(S) 값이 0 내지 100의 범위에서 도시된다. PB와 S 사이의 관계는 직선(60)에 의하여 반비례 관계임이 나타나 있다. 따라서, PB1 < PB2 인 경우, PB1에 대응하는 S2과 PB2에 대응하는 S1는 S1 < S2의 관계를 가진다. 이러한 반비례관계는, 특정 단위프레임의 PB가 크다는 사실로부터 이 특정 단위프레임이 기준데이터(140) 내에서 적게 나타나며, 따라서 노이즈 정보일 가능성이 적고 감정을 인식하기 위한 중요한 정보를 포함하고 있다는 것을 의미할 수 있음을 보여준다. PA 및 PB 둘 모두를 고려함으로써 사용자 발화 내에서 노이즈 정보를 제거하고 감정을 인식하기 위해 중요한 프레임들을 효율적으로 선별할 수 있다.
다시 도 4를 참조하면, 프레임 중요도 산정부(45)는 PA가 더 높은 단위프레임에 대하여 더 높은 중요도1 값을 산정할 수 있다. 그리고, 프레임 중요도 산정부(45)는 PB가 더 높은 단위프레임에 대하여 더 낮은 중요도2 값을 산정할 수 있다. 그런 다음에, 중요도1 값과 중요도2 값을 평균한 값으로서 특정 단위프레임의 중요도를 산정할 수 있다. 다른 방식으로, 중요도1 값을 40% 정도만 반영하고 중요도2 값을 60% 정도 반영하여 특정 단위프레임의 중요도를 산정하는 것도 가능하다. 두 개의 중요도 값들을 고려하여 하나의 중요도를 산출하는 과정은, 예시된 것들 이외에, 필요에 따라 다양하게 정해질 수 있다는 점이 이해될 것이다.
다시 도 4로 돌아가면, 키프레임 결정부(47)는 단위프레임들 각각에 대해 산정된 중요도 값들에 기초하여 특정 단위프레임을 키프레임으로서 결정하거나 또는 결정하지 않을 수 있다. 예를 들어, 키프레임 결정부(47)는 중요도 값들을 크기 순서로 배열한 후 상위 10%에 포함되는 중요도 값들을 가지는 단위프레임들을 키프레임들로서 결정할 수 있다.
다시 도 1로 돌아가면, 키프레임 기반 감정확률 계산부(17)는 키프레임들이 나타내는 감정확률을 계산하는 컴포넌트이다. 키프레임 기반 감정확률 계산부(17)는 종래에 알려져 있는 두 가지 기법 중 어느 하나의 기법을 이용할 수 있다.
한가지 기법에 있어서, 키프레임 기반 감정확률 계산부(17)는 키프레임 데이터(160) 내의 M개의 키프레임들의 파라미터 벡터들 이용하여 새로운 글로벌 피처를 생성할 수 있다. 예컨대, M개의 키프레임의 파라미터 벡터들의 평균, 최대값, 최소값 등과 같은 글로벌 피처를 생성한다. 생성된 글로벌 피처는 SVM과 같은 분류기를 활용하여 특정 감정 범주로 분류될 확률이 계산될 수 있다. 계산된 확률은 사용자 발화의 감정이 특정 감정 범주일 확률 즉 감정확률일 수 있다. 다른 기법에 있어서, 키프레임 기반 감정확률 계산부(17)는 다양한 감정 범주들 각각에 대해 학습시킨 GMM, HMM과 같은 생성 모델을 이용한다. 즉, 사용자 발화의 감정 상태를, 학습된 생성모델이 M개의 키프레임들의 파라미터 벡터들을 가장 잘 생성하는 감정 상태로 되는 확률을 계산할 수 있다. 이렇게 계산된 확률도 역시 감정확률일 수 있다.
감정 판정부(19)는 계산된 감정확률에 따라 사용자 발화의 감정을 결정하는 컴포넌트이다. 감정 판정부(19)는 감정확률이 미리 결정된 기준, 예컨대 0.5보다 큰 값을 가질 때와 같은 기준에 따라, 해당하는 감정으로서 사용자 발화의 감정을 결정할 수 있다.
도 7은 음성 감정 인식 시스템의 또 다른 실시예를 나타낸 블록도이다.
도 7을 참조하면, 사용자 발화 중에서 선별된 소수의 키프레임들을 이용할 뿐만 아니라 사용자 발화의 모든 기준프레임들을 이용하는 것 둘 모두를 고려하여 감정을 인식하는 실시예로서, 음성 감정 인식 시스템(70)을 예시한다.
음성 감정 인식 시스템(70)은 입력부(71), 프레임 파라미터 생성부(73), 키프레임 선별부(75), 감정확률 계산부(77), 및 감정 판정부(79) 등의 컴포넌트들을 포함할 수 있다.
입력부(71), 프레임 파라미터 생성부(73), 키프레임 선별부(75), 및 감정확률 계산부(77)는, 도 1 내지 도 6을 참조하여 기술된 음성 감정 인식 시스템(10)의 입력부(11), 프레임 파라미터 생성부(13), 키프레임 선별부(15), 및 감정확률 계산부(17)와 유사하다.
다시 말해서, 입력부(71)를 통해 사용자 발화가 수신된다. 프레임 파라미터 생성부(73)는 사용자 발화로부터 N개의 단위프레임들을 추출하고, 각각의 단위프레임들에 대해 파라미터 벡터를 생성하여 발화데이터(720)를 생성한다. 키프레임 선별부(75)는 발화데이터(720)로부터 일부 즉 M개의 키프레임들을 선별하여 키프레임 데이터(760)를 생성할 수 있다. 이때 키프레임 선별부(75)는 T개의 기준프레임들을 포함하는 기준데이터(740)를 참조할 수 있다. 그리고, 감정확률 계산부(77)는 키프레임 데이터(760) 내의 키프레임들을 기초로 사용자 발화의 감정확률을 계산한다.
여기서, 감정확률 계산부(77)는, M개의 키프레임을 기초로 사용자 발화의 감정확률을 계산할 뿐만 아니라, 감정확률 의 N개의 단위프레임들을 이용하여 사용자 발화의 감정확률을 더 계산한다.
감정확률 계산부(77)는, 도 1의 감정확률 계산부(17)와 유사하게, 두 가지 기법들 중 어느 하나에 의해 감정확률을 계산할 수 있다. 한가지 기법에 있어서, 감정확률 계산부(77)는 발화데이터(720) 내의 N개의 단위프레임들 또는 M개의 키프레임들의 파라미터 벡터들 이용하여 새로운 글로벌 피처를 생성할 수 있다. 예컨대, 단위프레임 또는 키프레임의 파라미터 벡터들의 평균, 최대값, 최소값 등과 같은 글로벌 피처를 생성한다. 생성된 글로벌 피처는 SVM과 같은 분류기를 활용하여 특정 감정 범주로 분류될 확률이 계산될 수 있다. 계산된 확률은 사용자 발화의 감정이 특정 감정 범주일 확률 즉 감정확률일 수 있다. 다른 기법에 있어서, 감정확률 계산부(77)는 다양한 감정 범주들 각각에 대해 학습시킨 GMM, HMM과 같은 생성 모델을 이용한다. 즉, 사용자 발화의 감정 상태를, 학습된 생성모델이 N개의 단위프레임들 또는 M개의 키프레임들의 파라미터 벡터들을 가장 잘 생성하는 감정 상태로 되는 확률을 계산할 수 있다. 이렇게 계산된 확률도 역시 감정확률일 수 있다.
마지막으로 감정 판정부(79)는 감정확률 계산부(77)에 의해 계산된 감정확률들 둘 모두를 고려하여 사용자 발화의 감정을 결정하는 컴포넌트이다. 감정 판정부(79)는 두 감정확률들의 평균값 또는 가중치를 적용한 평균값을 미리 결정된 기준, 예컨대 0.5보다 큰 값을 가질 때와 같은 기준에 따라, 해당하는 감정으로서 사용자 발화의 감정을 결정할 수 있다.
도 8은 음성 감정 인식 방법의 일 실시예를 나타낸 흐름도이다.
도 8을 참조하면, 음성 감정 인식 방법(800)은, 사용자 발화를 수신하면서 시작된다(801).
수신된 사용자 발화로부터 N개의 단위프레임들이 추출될 수 있다. 각각의 단위프레임은 유의미한 정보를 포함하고 있을 것으로 추정되는 음성 데이터 프레임이다. 이러한 프레임의 추출 기법은 종래 음성 감정 인식 분야에서 잘 알려져 있다. 그런 다음, 추출된 단위프레임들 각각으로부터 파라미터 벡터가 생성될 수 있다(803). 파라미터 벡터는 각각의 프레임이 가지고 있는 정보 또는 그 정보로부터 연산될 수 있는 파라미터들, 예컨대 스펙트럼, MFCC, 포먼트 등을 포함할 수 있다.
그 다음에, 단위프레임들 중의 일부를 키프레임들로서 선별하는 프로세스가 진행된다(805). 이 프로세스(805)는 도 9를 참조하여 아래에서 더 설명된다.
도 9는 도 8의 실시예에서 키프레임 선별 프로세스의 일 실시예를 보여주는 흐름도이다.
도 9를 참조하면, 키프레임 선별 프로세스(900)는 먼저, 단위프레임들 중 하나가 선택되면서 시작된다(901).
그 다음에, 선택된 단위프레임이 단위프레임들 내에서 발생하는 발생확률(PA)이 계산된다(903). 각각의 단위프레임은 파라미터 벡터들을 가지며, 동일 또는 유사한 파라미터 벡터를 가지는 단위프레임들은 동일 단위프레임으로서 카운트될 수 있다. 따라서 N개의 단위프레임들 중 선택된 단위프레임과 동일한 단위프레임의 개수가 발생확률(PA)로서 결정될 수 있다.
그리고, 선택된 단위프레임이 기준프레임들 내에서 발생하는 발생확률(PB)도 계산된다(905). 기준프레임들은 이미 음성 인식 과정을 거친 프레임들이다. 그러므로 선택된 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 가지는 기준프레임들은 동일 기준프레임으로서 카운트될 수 있다. 따라서 T개의 기준프레임들 중 선택된 단위프레임과 동일한 기준프레임의 개수가 존재확률(PB)로서 결정될 수 있다.
그런 다음, 선택된 단위프레임에 대하여, 위에서 계산된 PA 및 PB에 기초하여 중요도(S) 값이 결정될 수 있다(907). 이 경우, PA가 더 높은 단위프레임에 대해 키프레임으로서 선별할 가능성이 더 높은 중요도1 값을 산정한다. 반면에, PB가 더 높은 단위프레임에 대해 키프레임으로서 선별할 가능성이 더 낮은 중요도2 값을 산정한다. 그리고 중요도1 값 및 중요도2 값 둘 모두를 고려하여 단위프레임에 대해 중요도를 산정할 수 있다. 이 중요도(S)는 상대적인 값으로서, 그 외 다른 단위프레임들에 대한 중요도 값들에 비하여 높은 값으로 또는 낮은 값으로 결정될 수 있다.
만약, 사용자 발화로부터 추출된 N개의 단위프레임들 모두에 대해 확률계산 및 중요도 결정 과정(903 ~ 907)이 완료되지 않았으면(909의 아니오), 다른 단위프레임을 선택하여 확률을 계산하고 중요도를 결정하는 과정(901 ~ 907)이 반복된다.
만약, 사용자 발화로부터 추출된 N개의 단위프레임들 모두에 대해 확률계산 및 중요도 결정 과정(903 ~ 907)이 완료되었으면(909의 예), 키프레임 결정 단계(911)가 진행될 수 있다. 이 단계(911)에서 단위프레임들을 각각의 중요도 값의 크기에 따라 배열한 후, 예컨대 상위 10%와 같이 미리 정의된 기준에 따라, 키프레임을 선별할 수 있다.
다시 도 8을 참조하면, 도 9를 참조하여 기술된 바와 같은 프로세스(900)일 수 있는 키프레임 선별 단계(805)가 진행된 후, 감정확률이 계산된다(807). 감정확률 계산 과정은, 선별된 키프레임들만을 대상으로 하여, 글로벌 피처와 SVM과 같은 분류기를 이용하는 기법과 GMM이나 HMM과 같은 학습된 생성모델을 이용하는 기법을 사용할 수 있다.
마지막으로, 계산된 감정확률에 따라 사용자 발화의 감정을 결정하는 감정 판정 단계가 진행된다(809). 이 경우, 감정확률이 미리 결정된 기준, 예컨대 0.5보다 큰 값을 가질 때와 같은 기준에 따라, 해당하는 감정으로서 사용자 발화의 감정을 결정할 수 있다.
도 10은 음성 감정 인식 방법의 다른 실시예를 나타낸 흐름도이다.
도 10을 참조하면, 사용자 발화 중 선별 키프레임들 및 사용자 발화 전체 둘 모두를 고려하여 감정을 인식하는 실시예로서, 음성 감정 인식 방법(1000)을 예시한다.
먼저, 감정이 인식되어야 할 사용자 발화가 수신된다(1001). 그 다음에, 사용자 발화로부터 N개의 단위프레임들이 추출되고, 각각의 단위프레임들에 대해 파라미터 벡터가 생성된다(1003). 그런 다음 N개의 단위프레임들로부터 일부 즉 M개의 키프레임들이 선별된다(1005). 그리고, 선별된 M개의 키프레임들을 기초로 사용자 발화의 감정확률(PM)이 계산된다(1009).
N개의 단위프레임들 및 파라미터 벡터가 생성(1003)된 후, 키프레임 선별 및 감정확률 계산 과정과는 별도로, N개의 단위프레임들을 기초로 사용자 발화의 감정확률(PN)이 계산된다(1011).
마지막으로 감정 판정 단계(1013)에서, PM 및 PN 둘 모두를 고려하여 또는 통합하여 사용자 발화의 감정을 판정할 수 있다.
상술한 음성 감정 인식 시스템의 컴포넌트들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 구현될 수 있다. 다른 방식으로, 음성 감정 인식 시스템의 컴포넌트들은 프로세서, 메모리, 사용자 입력장치, 및/또는 프레젠테이션 장치를 포함할 수 있는 컴퓨팅 장치의 하드웨어, 펌웨어, 소프트웨어 컴포넌트들의 조합에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 컴퓨터 판독가능 매체이다. 프로세서는 메모리에 저장되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.
또한 상술한 음성 감정 인식 방법의 단계, 과정, 프로세스들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 실행될 수 있다. 다른 방식으로, 음성 감정 인식 방법은, 컴퓨터 실행가능 인스트럭션으로서 코딩되어 컴퓨팅 장치의 프로세서에 의해 실행됨으로써 구현될 수 있다. 컴퓨터 실행가능 인스트럭션은 소프트웨어, 애플리케이션, 모듈, 프로시저, 플러그인, 프로그램, 인스트럭션, 및/또는 데이터 구조 등을 포함할 수 있다. 컴퓨터 실행가능 인스트럭션은 컴퓨터 판독가능 매체 상에 포함될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 스토리지 매체 및 컴퓨터 판독가능 통신 매체를 포함한다. 컴퓨터 판독가능 스토리지 매체는 RAM, ROM, 플래시 메모리, 광 디스크, 자기 디스크, 자기 테이프, 자기 카세트, 하드 디스크, 솔리드 스테이트 디스크 등을 포함할 수 있다. 컴퓨터 판독가능 통신 매체는 음성 감정 인식 방법이 코딩되어 있는 컴퓨터 실행가능 인스트럭션이 통신망을 통해 송수신 가능한 신호의 형태로 코딩된 것을 의미할 수 있다.
컴퓨팅 장치는 웨어러블 컴퓨팅 장치, 핸드-핼드 컴퓨팅 장치, 스마트폰, 타블렛, 랩탑, 데스크탑, 개인용 컴퓨터, 서버 등의 다양한 장치를 포함할 수 있다. 컴퓨팅 장치는 스탠드-얼론 타입의 장치일 수 있다. 컴퓨팅 장치는 통신망을 통하여 서로 협력하는 다수의 컴퓨팅 장치들을 포함할 수 있다.
도 1 내지 도 7을 참조하여 기술된 음성 감정 인식 시스템들은 단지 예시에 불과하다. 해당 기술분야의 통상의 지식을 가진 자는, 청구항들의 범위 내에서 다양한 조합의 다른 시스템들이 가능하다는 것을 쉽게 이해할 것이다. 음성 감정 인식 시스템의 컴포넌트들은, 각각의 기능을 구현하는 회로들을 포함하는 하드웨어에 의해 구현될 수 있다. 또한 음성 감정 인식 시스템의 컴포넌트들은, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 소프트웨어, 펌웨어 및 하드웨어의 조합에 의해 구현될 수도 있다.
한편 도 8 내지 도 10을 참조하여 기술된 음성 감정 인식 방법들은 단지 예시에 불과하다. 해당 기술분야의 통상의 지식을 가진 자는, 청구항들의 범위 내에서 다양한 조합의 다른 방법들이 가능하다는 것을 쉽게 이해할 것이다. 음성 감정 인식 방법의 예들은, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 인스트럭션으로 코딩될 수 있다. 컴퓨터-실행가능 인스트럭션은 소프트웨어 개발자에 의해 예를 들어 베이직, 포트란, C, C++ 등과 같은 프로그래밍 언어에 의해 코딩된 후, 기계언어로 컴파일될 수 있다.
10, 70 : 음성 감정 인식 시스템
11, 71 : 입력부
13, 73 : 프레임 파라미터 생성부
15, 75 : 키프레임 선별부
17, 77 : 감정확률 계산부
19, 79 : 감정 판정부
120, 720 : 발화데이터
140, 740 : 기준데이터
160, 760 : 키프레임 데이터
41 : 단위프레임 발생확률 계산부
43 : 단위프레임 존재확률 계산부
45 : 프레임 중요도 산정부
47 : 키프레임 결정부

Claims (20)

  1. 사용자 발화를 수신하는 입력부와,
    상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성부와,
    상기 단위프레임들 중 일부를 키프레임으로 선별하는 키프레임 선별부와,
    상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산부와,
    상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정부를
    포함하고,
    상기 키프레임 선별부는
    각 단위프레임이 상기 사용자 발화에서 발생할 확률을 기초로 제1 중요도 또는 각 단위프레임이 미리 저장된 기준데이터에 존재할 확률을 기초로 제2 중요도를 획득하고, 제1 중요도가 소정 기준 이상인 단위프레임 또는 제2 중요도가 소정 기준 이하인 단위프레임을 상기 키프레임으로 선별하는,
    음성 감정 인식 시스템.
  2. 제 1 항에 있어서,
    상기 키프레임 선별부는,
    각 단위프레임이 상기 사용자 발화에서 발생할 확률이 높을수록 상기 제1 중요도를 높게 설정하는,
    음성 감정 인식 시스템.
  3. 제 2 항에 있어서,
    상기 키프레임 선별부는,
    상기 추출된 복수의 단위프레임들 중에서 특정 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 갖는 단위프레임들의 개수를 상기 특정 단위프레임이 사용자 발화에서 발생할 확률로 산출하는,
    음성 감정 인식 시스템.
  4. 제 1 항에 있어서,
    상기 키프레임 선별부는,
    각 단위프레임이 미리 저장되어 있는 기준데이터 내에서 존재할 확률이 높을수록 상기 제2 중요도를 낮게 설정하는,
    음성 감정 인식 시스템.
  5. 제 4 항에 있어서,
    상기 키프레임 선별부는,
    상기 미리 저장되어 있는 기준데이터 내의 복수의 기준프레임들 중에서 특정 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 갖는 기준프레임들의 개수를 상기 특정 단위프레임이 상기 기준데이터 내에 존재할 확률로 산출하는,
    음성 감정 인식 시스템.
  6. 사용자 발화를 수신하는 입력부와,
    상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성부와,
    상기 단위프레임들 중 일부를 키프레임으로 선별하는 키프레임 선별부와,
    상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산부와,
    상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정부를 포함하고,
    상기 키프레임 선별부는,
    상기 단위프레임 각각이 상기 단위프레임들 내에서 발생하는 발생확률을 계산하는 단위프레임 발생확률 계산부와,
    상기 단위프레임을 미리 저장되어 있는 다수의 기준프레임들 내에서 존재하는 존재확률을 계산하는 단위프레임 존재확률 계산부와,
    상기 발생확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 높은 중요도1 값을 산정하고, 상기 존재확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 낮은 중요도2 값을 산정하며, 상기 중요도1 값 및 상기 중요도2 값 둘 모두를 고려하여 상기 단위프레임에 상기 중요도를 산정하는, 프레임 중요도 산정부와,
    상기 산정된 중요도에 따라 상기 단위프레임을 상기 키프레임으로서 결정하는 키프레임 결정부를
    포함하는, 음성 감정 인식 시스템.
  7. 제 1 항에 있어서,
    상기 감정확률 계산부는,
    상기 선별된 키프레임의 글로벌 피처를 추출하고, 상기 글로벌 피처를 이용하여 서포트 벡터 머신(Support Vector Machine, SVM) 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 시스템.
  8. 제 1 항에 있어서,
    상기 감정확률 계산부는,
    미리 학습된 가우스 믹스처 모델(Gaussian Mixture Model, GMM) 또는 히든 마르코프 모델(Hidden Markov Model, HMM) 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 시스템.
  9. 제 1 항에 있어서,
    상기 감정확률 계산부는,
    상기 단위프레임들의 감정확률을 더 계산하고,
    상기 감정 판정부는,
    상기 키프레임의 감정확률 및 상기 단위프레임의 감정확률 모두를 이용하여 상기 사용자 발화의 감정을 결정하는,
    음성 감정 인식 시스템.
  10. 제 9 항에 있어서,
    상기 키프레임의 감정확률 및 상기 단위프레임의 감정확률은,
    상기 키프레임들의 글로벌 피처를 추출하고, 상기 선별된 글로벌 피처를 이용하여 SVM 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하거나, 또는
    미리 학습된 GMM 또는 HMM 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 시스템.
  11. 사용자 발화를 수신하는 입력 단계와,
    상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성 단계와,
    상기 단위프레임들 중의 일부를 키프레임으로 선별하는 키프레임 선별 단계와,
    상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산 단계와,
    상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정 단계를 포함하고,
    상기 키프레임 선별 단계는
    각 단위프레임이 상기 사용자 발화에서 발생할 확률을 기초로 제1 중요도 또는 각 단위프레임이 미리 저장된 기준데이터에 존재할 확률을 기초로 제2 중요도를 획득하고, 제1 중요도가 소정 기준 이상인 단위프레임 또는 제2 중요도가 소정 기준 이하인 단위프레임을 상기 키프레임으로 선별하는,
    음성 감정 인식 방법.
  12. 제 11 항에 있어서,
    상기 키프레임 선별 단계는,
    각 단위프레임이 상기 사용자 발화에서 발생할 확률이 높을수록 상기 제1 중요도를 높게 설정하는,
    음성 감정 인식 방법.
  13. 제 12 항에 있어서,
    상기 키프레임 선별 단계는,
    상기 추출된 복수의 단위프레임들 중에서 특정 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 갖는 단위프레임들의 개수를 상기 특정 단위프레임이 사용자 발화에서 발생할 확률로 산출하는,
    음성 감정 인식 방법.
  14. 제 11 항에 있어서,
    상기 키프레임 선별 단계는,
    상기 추출된 복수의 단위프레임들 중에서 특정 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 갖는 단위프레임들의 개수를 상기 특정 단위프레임이 사용자 발화에서 발생할 확률로 산출하는,
    음성 감정 인식 방법.
  15. 제 14 항에 있어서,
    상기 키프레임 선별 단계는,
    상기 미리 저장되어 있는 기준데이터 내의 복수의 기준프레임들 중에서 특정 단위프레임의 파라미터 벡터와 동일 또는 유사한 파라미터 벡터를 갖는 기준프레임들의 개수를 상기 특정 단위프레임이 상기 기준데이터 내에 존재할 확률로 산출하는,
    음성 감정 인식 방법.
  16. 사용자 발화를 수신하는 입력 단계와,
    상기 사용자 발화로부터 복수의 단위프레임들을 추출하고, 상기 단위프레임들 각각의 파라미터 벡터를 생성하는 프레임 파라미터 생성 단계와,
    상기 단위프레임들 중의 일부를 키프레임으로 선별하는 키프레임 선별 단계와,
    상기 선별된 키프레임 각각의 감정확률을 계산하는 감정확률 계산 단계와,
    상기 감정확률에 따라 상기 사용자 발화의 감정을 결정하는 감정 판정 단계를 포함하고,
    상기 키프레임 선별 단계는,
    상기 단위프레임 각각이 상기 단위프레임들 내에서 발생하는 발생확률을 계산하는 단위프레임 발생확률 계산 단계와,
    상기 단위프레임을 미리 저장되어 있는 다수의 기준프레임들 내에서 존재하는 존재확률을 계산하는 단위프레임 존재확률 계산 단계와,
    상기 발생확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 높은 중요도1 값을 산정하고, 상기 존재확률이 더 높은 상기 단위프레임에 대해 상기 키프레임으로서 선별할 가능성이 더 낮은 중요도2 값을 산정하며, 상기 중요도1 값 및 상기 중요도2 값 둘 모두를 고려하여 상기 단위프레임에 상기 중요도를 산정하는, 프레임 중요도 산정 단계와,
    상기 산정된 중요도에 따라 상기 단위프레임을 상기 키프레임으로서 결정하는 키프레임 결정 단계를 포함하는,
    음성 감정 인식 방법.
  17. 제 11 항에 있어서,
    상기 감정확률 계산 단계는, 상기 선별된 키프레임들의 글로벌 피처를 추출하고, 상기 글로벌 피처를 이용하여 SVM 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 방법.
  18. 제 11 항에 있어서,
    상기 감정확률 계산 단계는,
    미리 학습된 GMM 또는 HMM 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 방법.
  19. 제 11 항에 있어서,
    상기 감정확률 계산 단계는,
    상기 단위프레임들의 감정확률을 더 계산하고,
    상기 감정 판정 단계는,
    상기 키프레임의 감정확률 및 상기 단위프레임의 감정확률 모두를 이용하여 상기 사용자 발화의 감정을 결정하는,
    음성 감정 인식 방법.
  20. 제 19 항에 있어서,
    상기 감정확률 계산 단계는,
    상기 선별된 키프레임들의 글로벌 피처를 추출하고, 상기 글로벌 피처를 이용하여 SVM 기법을 이용하여 상기 사용자 발화의 감정을 미리 정의되어 있는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하거나, 또는
    미리 학습된 GMM 또는 HMM 중 어느 하나의 생성모델을 이용하여, 상기 사용자 발화의 감정을 상기 생성모델이 상기 키프레임들의 파라미터 벡터를 가장 잘 생성하는 감정 범주들 중의 적어도 하나로 분류함으로써 상기 감정확률을 계산하는,
    음성 감정 인식 방법.
KR1020140007883A 2014-01-22 2014-01-22 음성 감정 인식 시스템 및 방법 KR102191306B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140007883A KR102191306B1 (ko) 2014-01-22 2014-01-22 음성 감정 인식 시스템 및 방법
US14/518,874 US9972341B2 (en) 2014-01-22 2014-10-20 Apparatus and method for emotion recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140007883A KR102191306B1 (ko) 2014-01-22 2014-01-22 음성 감정 인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20150087671A KR20150087671A (ko) 2015-07-30
KR102191306B1 true KR102191306B1 (ko) 2020-12-15

Family

ID=53545345

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140007883A KR102191306B1 (ko) 2014-01-22 2014-01-22 음성 감정 인식 시스템 및 방법

Country Status (2)

Country Link
US (1) US9972341B2 (ko)
KR (1) KR102191306B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102334580B1 (ko) 2021-04-15 2021-12-06 동국대학교 산학협력단 사용자 음성 및 그래프 신경망 기반의 감정인식 장치 및 그 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102423302B1 (ko) * 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
CN105893582B (zh) * 2016-04-01 2019-06-28 深圳市未来媒体技术研究院 一种社交网络用户情绪判别方法
CN108346436B (zh) * 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
JP7230545B2 (ja) * 2019-02-04 2023-03-01 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
KR102221513B1 (ko) 2019-02-28 2021-03-03 전남대학교산학협력단 음성 감정 인식 방법 및 시스템
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
KR102295860B1 (ko) 2020-02-04 2021-08-31 한국과학기술원 상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치
KR102382191B1 (ko) 2020-07-03 2022-04-04 한국과학기술원 음성 감정 인식 및 합성의 반복 학습 방법 및 장치
CN112686195B (zh) * 2021-01-07 2024-06-14 风变科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307257A1 (en) * 2010-06-10 2011-12-15 Nice Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
JP4580190B2 (ja) 2004-05-31 2010-11-10 日本電信電話株式会社 音声処理装置、音声処理方法およびそのプログラム
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
KR100937101B1 (ko) * 2008-05-20 2010-01-15 성균관대학교산학협력단 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치
KR20100020066A (ko) * 2008-08-12 2010-02-22 강정환 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템
US8442832B2 (en) * 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
KR101560834B1 (ko) 2009-02-18 2015-10-15 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법
KR20110017559A (ko) 2009-08-14 2011-02-22 에스케이 텔레콤주식회사 감정 분석 방법 및 장치
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
US9093081B2 (en) * 2013-03-10 2015-07-28 Nice-Systems Ltd Method and apparatus for real time emotion detection in audio interactions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307257A1 (en) * 2010-06-10 2011-12-15 Nice Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102334580B1 (ko) 2021-04-15 2021-12-06 동국대학교 산학협력단 사용자 음성 및 그래프 신경망 기반의 감정인식 장치 및 그 방법

Also Published As

Publication number Publication date
KR20150087671A (ko) 2015-07-30
US9972341B2 (en) 2018-05-15
US20150206543A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
KR102191306B1 (ko) 음성 감정 인식 시스템 및 방법
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
Sahidullah et al. A comparison of features for synthetic speech detection
US9368116B2 (en) Speaker separation in diarization
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Chen et al. Strategies for Vietnamese keyword search
Hyder et al. Acoustic scene classification using a CNN-SuperVector system trained with auditory and spectrogram image features.
CN109196583A (zh) 动态语音识别数据评估
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Kim et al. Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition
Mower et al. A hierarchical static-dynamic framework for emotion classification
Joshi et al. A Study of speech emotion recognition methods
Li et al. Speaker states recognition using latent factor analysis based eigenchannel factor vector modeling
Shekofteh et al. Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
Këpuska Wake-up-word speech recognition
Kua et al. The UNSW submission to INTERSPEECH 2014 compare cognitive load challenge
Wang et al. I-vector based speaker gender recognition
Gamage et al. An i-vector gplda system for speech based emotion recognition
Yamamoto et al. Denoising autoencoder-based speaker feature restoration for utterances of short duration.
Tao et al. An ensemble framework of voice-based emotion recognition system
Shekofteh et al. Confidence measure improvement using useful predictor features and support vector machines
Shukla et al. A subspace projection approach for analysis of speech under stressed condition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant