KR101564176B1 - 감정 인식 시스템 및 그 제어 방법 - Google Patents

감정 인식 시스템 및 그 제어 방법 Download PDF

Info

Publication number
KR101564176B1
KR101564176B1 KR1020140180739A KR20140180739A KR101564176B1 KR 101564176 B1 KR101564176 B1 KR 101564176B1 KR 1020140180739 A KR1020140180739 A KR 1020140180739A KR 20140180739 A KR20140180739 A KR 20140180739A KR 101564176 B1 KR101564176 B1 KR 101564176B1
Authority
KR
South Korea
Prior art keywords
emotion
cluster
probability values
probability value
sample
Prior art date
Application number
KR1020140180739A
Other languages
English (en)
Inventor
한란
강홍구
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020140180739A priority Critical patent/KR101564176B1/ko
Application granted granted Critical
Publication of KR101564176B1 publication Critical patent/KR101564176B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 감정 인식 시스템 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 음성 신호의 감정 상태를 적어도 하나 이상의 클러스터로부터 생성된 대표 모델을 통해 인지함으로써, 감정 인식 성능을 높이고 화자의 다양한 속성에 따라 감정 상태를 세부적으로 파악할 수 있는 감정 인식 시스템 및 그 제어 방법에 관한 것이다. 본 발명의 실시예에 따르면, 음성 신호를 입력 받는 입력장치, 제어장치의 제어에 의해 상기 음성 신호 및 상기 제어장치에서 생성된 정보를 저장하는 저장장치 및 상기 입력장치 및 상기 저장장치의 작동을 제어하고, 상기 음성 신호의 감정 상태를 판별하는 제어장치를 포함하는 감정 인식 시스템이 제공될 수 있다.

Description

감정 인식 시스템 및 그 제어 방법{An emotion recognition system and a method for controlling thereof}
본 발명은 감정 인식 시스템 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 음성 신호의 감정 상태를 적어도 하나 이상의 클러스터로부터 생성된 대표 모델을 통해 인지함으로써, 감정 인식 성능을 높이고 화자의 다양한 속성에 따라 감정 상태를 세부적으로 파악할 수 있는 감정 인식 시스템 및 그 제어 방법에 관한 것이다.
동일한 단어로 구성된 문장이라도 화자의 감정 상태에 따라 전달되는 의미가 달라질 수 있다. 음성 신호를 통한 인간과 기계 사이의 의사소통 시스템(Human Computer Interaction, HCI)을 확립하기 위해서는 음성 신호로부터 화자의 감정을 정확하게 인식하는 기술이 필수적이다. 특히, 영상 정보를 활용할 수 없는 제한적인 상황에서는 음성 신호의 역할이 더욱 중요하다.
기존의 음성 신호를 사용한 감정 인식 시스템은 일반적인 인식 시스템의 구조를 그대로 따르고 있다는 한계점을 지니고 있다. 즉, 미리 설정된 전형적인 감정의 종류에 해당하는 음성 신호로부터 모델을 생성해고, 생성된 모델에 따라 입력된 음성 신호를 상기 감정에 따라 분류한다.
하지만, 감정 상태는 사람에 따라 다르게 표현될 수 있으며, 각 감정을 구별하는 명확한 기준이 존재하지 않는다. 즉, 감정의 종류를 미리 정해놓고 각 감정들을 잘 분류할 수 있는 특징을 추출하는 기존의 감정 인식 시스템은 전술한 감정의 본래 성질에 위배된다고 할 수 있다.
또한, 동일한 감정을 나타내는 음성 신호라도 화자의 다양한 속성에 따라 서로 상이한 음항학적 특징을 지닐 수 있다. 예를 들어, 동일한 ‘화남’의 감정 상태에서 말을 하더라도, 여성과 남성이라는 성별의 차이에서 오는 음성 신호의 특성이 달라질 수 있다. 이에 대하여, 과거의 감정 인식 시스템은 음성 신호로부터 화자의 대략적인 감정의 종류를 분별할 수 있을 뿐, 해당 화자의 속성의 종류에 따른 감정 인식 모델을 구별하여 생성할 수 없었고, 이로 인해 훈련 과정에서 생성되는 상기 감정 인식 모델의 정확도가 떨어진다는 문제점도 함께 가지고 있었다.
한편, 음성을 통한 화자의 감정 인식 시스템은 서비스, 교육 등의 분야에서 다양한 방식으로 활용될 수 있다. 하지만, 아직까지는 화자의 속성에 따른 감정을 판별할 수 있는 감정 인식 시스템 및 알고리즘에 대한 개발과 연구가 미진한 실정이어서 이에 대한 관련 업계의 관심과 투자가 증대되고 있는 실정이다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 화자의 속성에 따른 감정을 개별적으로 판별할 수 있는 감정 인식 시스템 및 그 제어 방법을 제공하고자 하는 목적을 가지고 있다.
이에 더하여, 본 발명은 감정 인식의 정확도가 높은 감정 인식 시스템 및 그 제어 방법을 제공하고자 하는 목적도 가지고 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 화자의 감정 정보가 포함된 음성 신호로부터 음향학적 특징(acoustic cue)을 추출하는 단계, 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함함; 상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하는 단계; 상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터(cluster)로 분류하는 단계; 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하는 단계; 감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하는 단계; 상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값 세트를 유추하는 단계; 상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가하는 단계; 및 상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하는 단계; 를 포함하는 것을 특징으로 하는 감정 인식 시스템의 제어 방법을 제공할 수 있다.
여기서, 상기 샘플 확률값 세트를 유추하는 단계 및 상기 측정 확률값 세트를 유추하는 단계는, 토픽 모델링(topic modeling) 기법을 이용하고, 상기 분류 항목은 토픽 모델링 기법의 토픽(topic)이며, 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용한다.
본 발명의 다른 실시예에 따르면, 음성 신호를 입력 받는 입력장치; 제어장치의 제어에 의해 상기 음성 신호 및 상기 제어장치에서 생성된 정보를 저장하는 저장장치; 및 상기 입력장치 및 상기 저장장치의 작동을 제어하고, 상기 음성 신호의 감정 상태를 판별하는 제어장치; 를 포함하되, 상기 제어장치는, 상기 입력장치를 통해 화자의 감정 정보가 포함된 음성 신호를 입력 받되, 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함하고, 상기 음성 신호로부터 음향학적 특징을 추출하고, 상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하고, 상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하고, 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하며, 상기 대표 모델을 상기 저장장치에 저장하고, 감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값을 유추하고, 상기 측정 확률값과 상기 저장 장치에 저장된 대표 모델의 유사도를 평가하고, 상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하는 것을 특징으로 하는 감정 인식 시스템을 제공할 수 있다.
여기서, 상기 제어장치는, 토픽 모델링 기법을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고, 상기 분류 항목은 토픽 모델링 기법의 토픽이며, 상기 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용한다.
본 발명에 따르면, 맥락 정보(context information)를 이용하여 자율 학습(unsupervised learning) 방법에 따른 감정 인식 대표 모델을 생성할 수 있는 감정 인식 시스템 및 그 제어 방법을 제공할 수 있다.
또한, 본 발명에 따르면, 각 감정 카테고리에 포함되는 음성 신호의 샘플 확률값 세트를 적어도 하나의 클러스터로 분류할 수 있고, 해당 클러스터로부터 대표 모델을 형성함으로써, 화자의 속성의 종류에 따른 감정 인식 모델을 구별하여 생성할 수 있다.
또한, 본 발명에 따르면, 상기 대표 모델을 이용함으로써 감정 인식 대상인 음성 신호의 감정 상태를 다양한 화자 속성에 따라 세부적으로 구별하여 인지할 수 있다.
또한, 본 발명에 따르면, 화자의 속성의 종류에 따른 감정 인식 모델을 구별하여 생성함으로써 보다 정확도가 높은 감정 인식 시스템을 구축할 수 있다.
도 1은 본 발명의 실시예에 따른 감정 인식 시스템의 제어 방법을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따라 대표 모델을 생성하는 과정을 나타낸 도면이다.
도 3은 각 감정 카테고리 별로 분류된 샘플 확률값 세트의 각 확률값을 나타낸 도면이다.
도 4는 각 감정 카테고리 별로 분류된 샘플 확률값 세트를 적어도 하나의 클러스터로 분류하는 방식을 나타낸 도면이다.
도 5는 본 발명의 실시예에 다른 감정 인식 시스템을 나타낸 도면이다.
본 발명은 음성 신호의 감정 상태를 적어도 하나 이상의 클러스터로부터 생성된 대표 모델을 통해 인지함으로써, 감정 인식 성능을 높이고 화자의 다양한 속성에 따라 감정 상태를 세부적으로 파악할 수 있는 감정 인식 시스템 및 그 제어 방법에 관한 것이다.
이하, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 감정 인식 시스템의 제어 방법을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 감정 인식 시스템의 제어 방법은, 화자의 감정 정보가 포함된 음성 신호로부터 음향학적 특징을 추출하는 단계(S110)를 포함할 수 있는데, 여기서 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함할 수 있다. 또한, 본 발명의 실시예에 따른 감정 인식 시스템의 제어 방법은 상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하는 단계(S120), 상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하는 단계(S130), 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하는 단계(S140), 감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하는 단계(S150), 상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값 세트를 유추하는 단계(S160), 상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가하는 단계(S170) 및 상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하는 단계(S180)를 포함할 수 있다.
도 1에 별도로 도시되지는 않았으나, 상기 음향학적 특징을 추출하는 단계(S110), 상기 샘플 확률값 세트를 유추하는 단계(S120), 상기 적어도 하나의 클러스터로 분류하는 단계(S130) 및 상기 대표 모델을 생성하는 단계(S140)은 훈련 과정(training phase)에서의 감정 인식 시스템의 제어 방법으로 활용될 수 있고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하는 단계(S150), 상기 측정 확률값 세트를 유추하는 단계(S160), 상기 유사도를 평가하는 단계(S170) 및 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하는 단계(S180)는 테스트 과정(test phase)에서의 감정 인식 시스템의 제어 방법으로 활용될 수 있다.
상기 훈련 과정은 본 발명에 따른 감정 인식 시스템에서 진행될 수 있으나, 외부의 다른 장치 및 시스템에서 생성된 대표 모델을 입력 받는 것으로 대체될 수 있으며, 테스트 과정에서 상기 외부의 대표 모델을 사용할 수도 있다. 테스트 과정에서 외부의 대표 모델을 사용하는 경우, 해당 대표 모델은 전술한 훈련 과정을 거친 결과물로서의 대표 모델일 수 있다.
본 발명의 감정 인식 시스템에서 이용되는 음성 신호는 통상적인 음성 인식 및 감정 인식에서 활용되는 음성 신호일 수 있다. 이 때, 훈련 과정에서 사용되는 음성 신호는 해당 음성 신호의 화자의 감정 정보는 포함할 수 있다. 상기 감정 정보는 종이를 통해 출력된 텍스트 명단 등의 물리적 형태 또는 음성 신호 파일명이나 음성 신호에 삽입된 전기적 신호의 형태로 존재할 수 있으며, 음성 신호의 감정 상태를 나타낼 수 있다. 여기서 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함할 수 있다. 상기 감정 카테고리는 화자의 다양한 감정 상태를 포함할 수 있다.
본 발명에 따른 감정 인식 시스템은 상기 화자의 감정 정보를 포함하는 음성 신호로부터 음향학적 특징을 추출(S110)할 수 있다. 음향학적 특징은 음성 신호처리를 위한 기본적인 정보들로서, 음성 신호를 특정 간격(frame)으로 분할하여 음성의 각 주파수 대역 별 에너지 분포 등의 정보를 추출함으로써 획득될 수 있다. 음향학적 특징을 추출하는 방법으로, LPC(Linear Predictive Coding) 켑스트럼(Cepstrum) 분석법, PLP(Perceptual Linear Prediction) 켑스트럼 분석법, Mel Frequency Cepstral Coefficient (MFCC) 분석법, 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 등이 사용될 수 있으나 이에 한정되지는 않는다. 음향학적 특징은 음성 신호의 MFCC, 피치(pitch), 에너지, 음성의 발생 빈도 수 및 화자의 말하는 속도 등의 정보를 포함할 수 있다.
본 발명의 감정 인식 시스템은 추출된 음향학적 특징에 기초하여 해당 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추(S120)할 수 있다. 감정 상태 및 화자의 속성에 따라서 음성 신호에 포함된 음성의 높낮이, 세기 및 화자의 말하는 속도 등이 변화될 수 있는데, 이러한 음성의 변화는 전술한 음향학적 특징에 그대로 드러날 수 있다. 여기서, 화자의 속성은 사람마다 감정을 표현하는 방식이 다르므로 말하는 사람 그 자체가 될 수 있다. 또는 화자의 속성은 성별, 교육 정도, 연령 등의 정보를 포함할 수 있다. 기존의 감정 인식 시스템은 상기의 음향학적 특징을 곧바로 감정 인식 모델을 생성하기 위한 단계에서 활용하고 있다. 하지만, 본 발명에 따른 감정 인식 시스템은 음향학적 특징이 가지는 물리적인 수치, 특성 및 상기 물리적인 수치와 특성의 배치 순서와 연관된 패턴 정보 중 적어도 하나에 기초하여 해당 음성 신호가 특정 분류 항목에 포함될 확률을 유추(S120)할 수 있다. 전술한 바와 같이, 음성 신호의 음향학적 특징은 다양한 물리적인 수치 및 패턴을 포함할 수 있는데, 상기 음향학적 특징의 물리적인 수치 및 패턴이 유사한 음성 신호들이 모여 하나의 분류 항목을 형성할 수도 있다. 상기 분류 항목의 수가 복수인 경우, 상기 확률은 각각의 분류 항목에 포함될 수 있는 확률값의 세트(set)로 구성될 수 있으며, 해당 확률값의 세트의 모든 확률값의 합이 1 즉 100%가 되게 형성될 수 있다. 상기 확률값의 세트는 후술하는 감정 인식 대상인 음성 신호의 확률값 세트와의 혼동을 피하기 위해 샘플 확률값 세트로 명명되었다. 한편, 샘플 확률값 세트를 유추하는 단계(S120)는 음성 신호에 포함된 감정 정보를 이용하지 않지만 이에 한정되지는 않는다.
바람직하게는, 샘플 확률값 세트를 유추하는 단계(S120)는, 토픽 모델링(topic modeling) 기법을 이용할 수 있으며, 상기 분류 항목은 토픽 모델링 기법의 토픽(topic)일 수 있다. 토픽 모델링 기법은 텍스트 분석, 정보 검색 등에서 사용되는 방법으로, 주어진 사전 정보 없이 맥락 정보(context information)를 이용하여 데이터를 자동적으로 특정 토픽에 따라 분류하고 구조화 시키는 자율 학습(unsupervised learning) 방식이다. 본 발명에 따른 감정 인식 시스템은 토픽 모델링 기법을 감정 인식에 적용함으로써, 상기 음향학적 특징을 음향학적 단어(acoustic word)로 활용하여 해당 음성 신호가 특정 토픽에 속할 샘플 확률값 세트를 구할 수 있다. 이 때, 음성 신호의 음향학적 특징이 상기 맥락 정보에 해당될 수 있다.
토픽 그 자체는 명시적인 물리적 의미를 가지는 것은 아니지만, 음성 신호의 음향학적 특징이 지니고 있는 어떤 현저한 특성에 따라 해당 음성 신호가 분류될 수 있으며, 상기 현저한 특성에 따라 분류된 음성 신호의 집합을 타 집합과 구별하기 위한 매개체로서 존재할 수 있다. 여기서, 상기 현저한 특성은 음향학적 특징을 살펴보는 관점에 따라서 서로 상이하게 정의될 수 있다. 예를 들어, 특정 주파수 대역에 특정 세기 이상의 소리가 존재하는 경우, 상기 소리의 존재 유무에 따라서 상기 음성 신호가 분류될 수 있다. 또는, 특정 빈도 수 이상으로 나타나는 특정 세기 이상의 소리의 존재 유무에 따라서 상기 음성 신호가 분류될 수도 있다. 하지만 현저한 특성에 따라 샘플 확률값 세트를 구하는 분류 기준은 전술한 내용에 한정되지 않는다.
한편, 샘플 확률값 세트를 유추하는 단계(S120)에서 본 발명에 따른 감정 인식 시스템은 상기 샘플 확률값을 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용할 수 있다. 상기 파라미터는 훈련 과정에서 이용되는 모든 음성 신호 및 음향학적 특징으로부터 추정될 수 있고, 각각의 음향학적 특징의 특성과 음성 신호에서의 배치 관계 등으로부터 추정될 수도 있다. 하지만 파라미터의 추정 방식은 이에 한정되지 않는다.
바람직하게는, 상기 샘플 확률값 세트를 유추하는 단계(S120)는, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 방식을 이용하여 상기 샘플 확률값 세트를 유추할 수 있다. 잠재 디리클레 할당은 어떤 특정 개수의 문서가 주어져 있고, 각 문서들이 특정 개수의 주제, 즉 토픽을 포함한다는 가정 하에 각각의 문서들이 각 주제에 속할 확률 등을 구할 때 유용하게 이용될 수 있다. 이를 음성 신호에 적용하게 되면, 각각의 음성 신호는 문서가 되고, 음성 신호의 음향학적 특징이 지니고 있는 어떤 현저한 특성의 존재 유무에 따라 특정 주제에 속하거나 속하지 않을 확률이 구해질 수 있다.
바람직하게는, 상기 샘플 확률값 세트를 유추하는 단계(S120)는 배리에이셔널 인퍼런스(variational inference) 방식을 이용하여 상기 각 파라미터를 추정할 수 있다. 배리에이셔널 인퍼런스는 계산하기 힘든 어떤 확률 변수를 간략화하고 추가적인 변수들을 이용하여 그 값을 도출하는 연산 방식을 의미한다. 상기 배리에이셔널 인퍼런스 방식을 활용함으로써 각 파라미터를 추정할 때 계산하기 난해한 파라미터의 확률 분포의 근사값을 용이하게 구할 수 있으며, 특히 잠재 디리클레 할당 방식을 통한 샘플 확률값 세트의 유추 과정에서 이용되는 계산식을 간략화 할 수 있다.
유추된 샘플 확률값 세트는 해당 음성 신호에 포함된 감정 정보에 따라 각 감정 카테고리 별로 구분될 수 있다. 이후, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트는 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류(S130)될 수 있다. 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하는 과정은 도 3 내지 도 4를 설명할 때 상세하게 다루도록 한다.
그 다음, 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델이 생성(S140)될 수 있다. 상기 대표 모델은 해당 클러스터의 샘플 확률값 세트로부터 유추된 감정 인식 모델로, 샘플 확률값 세트의 현저한 특성을 반영할 수 있다. 상기 각 대표 모델은 후술하는 감정 인식 대상인 음성 신호의 측정 확률값 세트와 비교되는 대상이 되며 감정 인식 시스템에서의 감정 판별 기준으로 이용될 수 있다.
대표 모델은 본 발명을 실시하는 방식에 따라서 다양한 값으로 구성될 수 있다. 바람직하게는, 상기 각 클러스터의 대표 모델을 생성하는 단계(S140)는, 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 통해 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값으로부터 확률 분포의 형태를 가지는 대표 모델을 각 클러스터마다 생성하는 단계일 수 있으나, 이에 한정되지 않으며, 이외의 다양한 방식으로 구할 수도 있다.
본 발명에 따른 감정 인식 시스템은 상기의 S110 내지 S140 단계의 제어 방법에 따라 대표 모델을 생성할 수 있으나, 전술한 바와 같이, 다른 장치 및 시스템에서 생성된 대표 모델을 입력 받아 감정 인식에 이용할 수도 있다. 이 때 다른 장치 및 시스템으로부터 입력 받은 대표 모델은 상기의 S110 내지 S140 단계의 제어 방법에 의해 생성된 것일 수 있다.
본 발명에 따른 감정 인식 시스템은 감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출(S150)할 수 있다. 이 때, 감정 인식 대상인 음성 신호는 S110 단계와는 달리 화자의 감정 정보를 포함하지 않을 수 있다. 감정 인식 시스템은 음성 신호에 대한 사전 정보 없이 감정 인식을 수행할 수 있다. 감정 인식 대상인 음성 신호의 음향학적 특징 추출은 전술한 S110 단계에서 수행되는 음향학적 특징 추출과 동일하게 진행될 수 있으므로 이에 대한 상세한 설명은 생략하도록 한다.
그 후, 본 발명에 따른 감정 인식 시스템은 상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값 세트를 유추(S160)할 수 있다. 측정 확률값 세트를 유추하는 단계(S160)는 전술한 샘플 확률값 세트를 유추하는 단계(S120)와 마찬가지로 토픽 모델링 기법을 이용할 수 있으며, 상기 분류 항목이 토픽 모델링의 토픽일 수 있다. 또한, 측정 확률값 세트를 유추하는 단계(S160)는 상기 감정 인식 대상인 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용할 수 있다. 또한, 측정 확률값 세트를 유추하는 단계(S160)는 잠재 디리클레 할당 방식을 이용하여 상기 측정 확률값을 유추할 수 있으며, 특히, 상기 샘플 확률값 세트를 유추하는 단계(S120)에서 추정된 적어도 하나의 파라미터를 이용할 수 있다. 또한, 측정 확률값 세트를 유추하는 단계(S160)는 배리에이셔널 인퍼런스 방식을 이용하여 각 파라미터를 추정할 수도 있으나 이에 한정되지 않는다. 측정 확률값 세트를 유추하는 단계(S160)에서 이용되는 상기의 방식들에 대한 상세한 내용은 샘플 확률값을 유추하는 단계(S120)에서 설명한 바와 동일하므로 생략하도록 한다.
측정 확률값 세트가 유추되면, 상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가(S170)할 수 있다. 만약, 가우시안 혼합 모델을 통해 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값으로부터 확률 분포의 형태를 가지는 대표 모델이 각 클러스터마다 생성된 경우, 상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가하는 단계(S170)는 상기 측정 확률값 세트와 상기 각 대표 모델의 조합으로부터 계산된 공산(likelihood)값의 크기에 기초하여 유사도를 평가하는 단계일 수 있으나 이에 한정되지 않는다. 전술한 예의 경우, 공산값이 클수록 유사도가 높은 것으로 판단할 수 있다.
상기 단계를 통해 상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델이 도출되는 경우, 해당 대표 모델을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별(S180)할 수 있다.
도 1에서는 각 단계가 순서대로 진행되는 것으로 도시되었으나, 복수의 단계가 한꺼번에 진행될 수도 있으며, 후 순위의 단계가 먼저 진행될 수도 있다. 예를 들어, 감정 인식 시스템은 입력된 음성 신호에 대한 감정 인식을 수행하는 한편, 입력된 음성 신호를 훈련 과정용 음성 신호로 활용할 수도 있다. 이를 통해, 감정 인식 시스템은 수집되는 음성 신호가 늘어남에 따라 해당 음성 신호에 연관된 샘플 확률값 세트도 증가함으로써 대표 모델을 형성하는 바탕이 되는 클러스터가 변화될 수 있다. 즉, 감정 인식 시스템은 지속적으로 클러스터의 구성을 갱신함으로써 보다 대표 모델의 정확도를 높일 수 있다.
도 2는 본 발명의 실시예에 따라 대표 모델을 생성하는 과정을 나타낸 도면이다.
도 2에 따르면 M 개의 음성 신호가 주어지는데, 각 음성 신호에는 감정 정보(e1 내지 eM)가 포함될 수 있다. 본 발명에 따른 감정 인식 시스템은 각 음성 신호로부터 음향학적 특징을 추출(S110)할 수 있으며, 이를 통해 M 개의 음향학적 특징이 생성될 수 있다. 그 후, 본 발명에 따른 감정 인식 시스템은 상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트(θ1 내지 θM)를 유추(S120)할 수 있다. 도 2에 따르면 k 개의 분류 항목이 존재하며, 이에 따라 샘플 확률값 세트는 k 개의 확률값을 가지는 벡터 또는 1차원 행렬로 표현될 수 있다. 상기 샘플 확률값 세트를 구할 때는 상기 감정 정보(e1 내지 eM)가 참조되지 않을 수 있다. 그 다음, 상기 샘플 확률값 세트(θ1 내지 θM)를 해당 음성 신호에 포함된 상기 감정 정보(e1 내지 eM)에 기초하여 상기 감정 카테고리(E1 내지 EL) 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터(C1 내지 C2L)로 분류(S130)할 수 있다. 도 2에 따르면, L 개의 감정 카테고리가 존재하고, 음성 신호는 10개 단위로 동일한 감정 정보를 포함하고 있으며, 각 감정 카테고리마다 2 개의 클러스터로 분류되었으나, 이는 발명의 이해를 돕기 위한 예시일 뿐 본 발명의 내용이 이에 한정되지 않는다. 도 2에서 각 감정 카테고리는 파선, 각 클러스터는 점선으로 구분되어 표시되었다. 그 후, 상기 각 클러스터(C1 내지 C2L)에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델(R1 내지 R2L)을 생성(S140)할 수 있다. 각 클러스터 당 독립적인 대표 모델이 생성되므로 클러스터의 총 개수와 대표 모델의 총 개수는 동일할 수 있으나 이에 한정되지 않는다. 전술한 과정을 통해 생성된 대표 모델(R1 내지 R2L)은 감정 인식 대상인 음성 신호의 감정 상태를 판별하기 위해 사용될 수 있다.
도 3은 각 감정 카테고리 별로 분류된 샘플 확률값 세트의 각 확률값을 나타낸 도면으로, 실제 음성 신호들로부터 도출된 것이다. 도 3의 내용은 예시일 뿐, 본 발명의 내용이 이에 한정되지 않는다.
도 3에서 감정 카테고리는 보통(neutral), 기쁨(happy), 슬픔(sad) 및 화남(angry) 상태의 4 개로 구성되어있으며, 각 감정 카테고리마다 5 개의 토픽에 대해서 샘플 확률값이 도출되었다. 각 그래프에서 가로 축은 토픽의 인덱스 번호를 나타내며 세로 축은 각 감정 카테고리에 포함된 1400여 개의 음성 신호 파일 인덱스 번호를 나타낸다. 각 음성 신호 파일은 해당 음성 신호 파일에 포함된 감정 정보에 따라 분류된 것일 수 있다.
각 그래프에서 나타나는 색상은 해당 음성 신호 파일이 각 토픽에 속할 확률값을 나타내는 것으로, 적색에 가까울수록 1에 가깝고, 청색에 가까울수록 0에 가깝다. 하나의 특정 음성 신호 파일에 대하여 가로 방향으로 배열된 5개의 색상이 해당 음성 신호 파일의 샘플 확률값 세트이며, 모든 확률값의 합은 1일 수 있다.
도 3을 참조하면, 각 감정 카테고리에 나타난 샘플 확률값 세트의 분포가 서로 확연하게 차이가 남을 확인할 수 있다. 이에 더하여, 동일한 감정 카테고리 내에서도 서로 다른 샘플 확률값 세트의 분포를 보이기도 한다. 각 감정 카테고리마다 약 700번 내지 800 대의 음성 신호 파일을 기준으로 하여 상하로 그 양상이 나뉘어지는 것을 확인할 수 있다. 즉, 도 3에 따르면, 동일한 감정 상태이더라도 샘플 확률값 세트의 분포가 상이하게 나타날 수 있으며, 이는 화자의 속성의 차이로부터 비롯될 수 있음을 가정할 수 있다. 도 3의 경우 각 감정 카테고리별 샘플 확률값 세트는 두 개의 클러스터로 구분될 수 있다.
기존의 감정 인식 방식으로는 동일한 감정 카테고리 내에서 화자의 속성을 각각 반영한 별도의 모델 생성이 불가능하다. 또한, 화자의 속성을 무시한 채 각 감정 카테고리 내에 속하는 모든 음향학적 특징으로부터 대략적인 모델이 형성되기 때문에 감정 인식 모델의 정확도도 떨어지게 된다. 하지만, 본 발명에 따른 음성 인식 시스템은 동일한 감정 카테고리 내에서도 서로 다르게 분포되는 샘플 확률값 세트로부터 적어도 하나의 클러스터를 형성할 수 있으며, 각 클러스터에 포함된 샘플 확률값 세트로부터 대표 모델을 생성함으로써 화자의 속성별 감정 인식이 가능하고, 감정 인식의 성능을 높일 수 있다.
도 4는 각 감정 카테고리 별로 분류된 샘플 확률값 세트를 적어도 하나의 클러스터로 분류하는 방식을 나타낸 도면이다.
도 4에 따르면 2 개의 분류 항목이 사용된 것으로 가정하고 있다. 도 4에서 각 그래프의 가로 축은 음성 신호가 분류 항목 1에 속할 확률값을 나타내며, 세로 축은 음성 신호가 분류 항목 2에 속할 확률값을 나타낸다. 샘플 확률값 세트(θ1 내지 θ10)는 각각의 확률값에 따라 상기 2차원 그래프의 평면에 배치된다. 도 4에서 클러스터는 파선으로 표현되었고, 각 클러스터에 포함되는 샘플 확률값 세트는 샘플 확률값 세트(θ1 내지 θ10)는 백색 점, 각 클러스터의 센트로이드(P1, P'1, P'2)는 흑색 점으로 표현되었으며, 각 클러스터의 센트로이드와 각 샘플 확률값 세트 사이의 거리는 실선으로 표현되었다.
본 발명의 바람직한 실시예에 따르면, 샘플 확률값 세트를 해당 음성 신호에 포함된 감정 정보에 기초하여 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하는 단계는, 상기 각 감정 카테고리 별 샘플 확률값 세트가 하나의 클러스터에 포함된 것으로 가정한 상태에서 상기 클러스터의 센트로이드(centroid)와 상기 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 1차 클러스터 분포값과, 상기 각 감정 카테고리 별 샘플 확률값 세트가 n 개의 클러스터로 분류된 것으로 가정한 상태에서 상기 n 개의 클러스터의 각 센트로이드와 해당 클러스터에 포함된 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 n차 클러스터 분포값을 상기 각 감정 카테고리마다 구하되, 상기 각 감정 카테고리의 1차 클러스터 분포값과 상기 n차 클러스터 분포값의 비율이 기 설정된 특정 범위 이내에 포함되는지 여부에 따라서 상기 각 감정 카테고리의 클러스터의 수 n이 정해질 수 있다.
도 4(a)는 어떤 감정 카테고리에 포함되는 샘플 확률값 세트(θ1 내지 θ10)가 1 개의 클러스터에 포함되는 경우를 나타내고 있다. 도 4(a)에 따르면 클러스터에 포함된 샘플 확률값 세트(θ1 내지 θ10)로부터 해당 클러스터의 센트로이드 P1을 구할 수 있다. 센트로이드는 클러스터에 포함된 샘플 확률값 세트의 평균값으로부터 도출될 수 있으나 이에 한정되지 않는다. 클러스터의 센트로이드가 도출되면, 상기 센트로이드 P1 으로부터 각 샘플 확률값 세트(θ1 내지 θ10) 사이의 거리를 측정할 수 있다. 전술한 바와 같이, 1차 클러스터 분포값은 클러스터의 센트로이드 P1과 상기 각 샘플 확률값 세트(θ1 내지 θ10) 사이의 거리의 제곱의 합으로부터 구할 수 있다.
도 4(b)는 상기 감정 카테고리에 포함되는 샘플 확률값 세트(θ1 내지 θ10)가 2 개의 클러스터에 각각 포함되는 경우를 나타내고 있다. 도 4(b)에 따르면 좌측의 클러스터에 포함되는 샘플 확률값 세트(θ1 내지 θ5)로부터 센트로이드 P'1를 구할 수 있고, 우측의 클러스터에 포함되는 샘플 확률값 세트(θ6 내지 θ10)로부터 센트로이드 P'2를 구할 수 있다. 또한, 각 센트로이드로부터 해당 클러스터에 포함되는 샘플 확률값 세트까지의 거리를 구할 수 있는데, 2차 클러스터 분포값은 상기 2 개의 클러스터의 각 센트로이드와 해당 클러스터에 포함된 각 샘플 확률값 세트 사이의 거리의 제곱의 합으로부터 구할 수 있다.
클러스터의 수를 늘려가면서 상기의 과정을 반복함으로써 어떤 자연수 n에 대한 n차 클러스터 분포값을 각 감정 카테고리마다 계산할 수 있다. 상기 각 감정 카테고리의 1차 클러스터 분포값과 상기 n차 클러스터 분포값의 비율이 기 설정된 특정 범위 이내에 포함되는지 여부에 따라서 클러스터의 수 n을 정할 수 있으나, 클러스터 수를 정하는 방식은 이에 한정되지 않는다.
전술한 바와 같이, 도 4에서는 2 개의 분류 항목이 사용된 것으로 가정하고 있으나, 본 발명은 이에 한정되지 않으며, 만약 자연수 m개의 분류 항목이 사용된 경우, m차원의 공간상에 존재하는 각 확률값 세트와 센트로이드 사이의 거리를 계산할 수 있다.
도 5는 본 발명의 실시예에 다른 감정 인식 시스템(1000)을 나타낸 도면이다. 도 1에 따르면, 본 발명에 따른 감정 인식 시스템(1000)은 입력장치(1100), 저장장치(1200) 및 제어장치(1300)를 포함할 수 있다. 도면에 도시되지는 않았으나, 본 발명의 실시예에 다른 감정 인식 시스템(1000)은 감정 인식 결과를 출력하는 출력장치를 더 포함할 수 있으며, 발명을 실시하는 방식에 따라서 일부의 구성요소가 생략되거나 한 구성요소가 다른 구성요소에 포함될 수도 있다.
도 5(a)에 따르면 감정 인식 시스템(1000)은 입력장치(1100), 저장장치(1200) 및 제어 장치(1300)를 모두 포함하는 하나의 물체인 것으로 도시되어있으나, 이에 한정되지 않는다. 각각의 구성요소가 무선 통신 모듈을 포함하는 경우, 각각의 구성요소들은 서로 분리되어 별도의 물체로 존재할 수도 있다. 또한, 각 구성요소는 반드시 하드웨어의 형태로 존재하는 것은 아니며, 프로그램 등의 소프트웨어로 구성될 수 있고, 하드웨어와 소프트웨어가 혼재된 형대로 구성될 수도 있다.
입력장치(1100)는 음성 신호를 입력받을 수 있다. 또한 입력 장치(1100)는 사용자로부터 감정 인식과 관련된 조작 신호를 입력받을 수도 있다. 입력장치(1100)는 마이크, 스마트폰 등의 물리적인 형상을 가질 수 있으나, 이 외에도 사용자의 입력을 받는 프로그램, 어플리케이션, 외부에서 확인할 수 없는 숨겨진 프로그램 및 프로세서 등으로 구비될 수 있으나 이에 한정되지 않는다.
저장장치(1200)는 후술하는 제어장치(1300)의 제어에 의해 상기 음성 신호 및 상기 제어장치(1300)에서 생성된 정보를 저장할 수 있다. 저장장치(1200)는 독립된 서버나 다른 구성요소에 포함되는 메모리, 하드디스크 및 플래시메모리 등의 형태로 존재할 수 있으나 이에 한정되지 않는다.
제어장치(1300)는 상기 입력장치(1100) 및 상기 저장장치(1200)의 작동을 제어하고, 상기 음성 신호의 감정 상태를 판별할 수 있다. 제어장치(1300)도 발명을 실시하는 방식에 따라서 하드웨어 및 소프트웨어의 형태로 존재할 수 있으며 다른 구성요소에 포함될 수도 있다.
제어장치(1300)는 입력장치(1100)를 통해 화자의 감정 정보가 포함된 음성 신호를 입력 받되, 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함하고, 상기 음성 신호로부터 음향학적 특징을 추출하고, 상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하고, 상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하고, 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하며, 상기 대표 모델을 상기 저장장치(1200)에 저장하고, 감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값을 유추하고, 상기 측정 확률값과 상기 저장 장치에 저장된 대표 모델의 유사도를 평가하고, 상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별할 수 있다.
이 때, 상기 제어장치(1300)는 토픽 모델링 기법을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고, 상기 분류 항목은 토픽 모델링 기법의 토픽이며, 상기 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용할 수 있다.
또한, 상기 제어장치(1300)는 잠재 디리클레 할당 방식을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고, 상기 측정 확률값 세트를 유추할 때, 상기 샘플 확률값 세트를 유추하는 과정에서 추정된 적어도 하나의 파라미터를 이용할 수 있다.
또한, 상기 제어장치(1300)는 배리에이셔널 인퍼런스 방식을 이용하여 상기 각 파라미터를 추정할 수 있다.
또한, 상기 제어장치(1300)는 상기 각 감정 카테고리 별 샘플 확률값 세트가 하나의 클러스터에 포함된 것으로 가정한 상태에서 상기 클러스터의 센트로이드와 상기 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 1차 클러스터 분포값과, 상기 각 감정 카테고리 별 샘플 확률값 세트가 n 개의 클러스터로 분류된 것으로 가정한 상태에서 상기 n 개의 클러스터의 각 센트로이드와 해당 클러스터에 포함된 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 n차 클러스터 분포값을 상기 각 감정 카테고리마다 구하되, 상기 각 감정 카테고리의 1차 클러스터 분포값과 상기 n차 클러스터 분포값의 비율이 기 설정된 특정 범위 이내에 포함되는지 여부에 따라서 상기 각 감정 카테고리의 클러스터의 수 n을 정할 수 있다.
또한, 상기 제어장치(1300)는 가우시안 혼합 모델을 통해 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값으로부터 확률 분포의 형태를 가지는 대표 모델을 각 클러스터마다 생성하고, 상기 측정 확률값 세트와 상기 각 대표 모델의 조합으로부터 계산된 공산값의 크기에 기초하여 유사도를 평가할 수 있다. 하지만 제어장치(1300)가 유사도를 평가하는 방식은 이에 한정되지 않는다.
전술한 제어장치(1300)의 각 특징들은 도 1내지 4를 설명할 때 이미 서술되었으므로 생략하도록 한다.
한편, 도 5(b)에 따르면, 감정 인식 시스템(1000)에서 입력장치(1100)는 스마트폰으로 구비되고 저장장치(1200)는 서버로 구비될 수 있으며, 제어장치(1300a, 1300b)는 입력장치(1100)와 저장장치(1200)에 각각 포함될 수 있으나 이에 한정되지 않는다. 입력장치(1100)와 저장장치(1200)는 무선 네트워크를 통해 서로 정보를 송수신할 수 있는데, 이를 위한 통신 모듈은 도 5(b)에서 생략되었다.
이 때, 도 5(b)의 저장장치(1200)는 전술한 방식에 따라 생성된 대표 모델을 저장할 수 있다. 입력장치(1100)는 사용자의 음성 신호를 입력 받을 수 있으며, 음성 신호 그 자체 또는 음성 신호로부터 추출된 음향학적 특징이 저장장치(1200)로 전송될 수 있다. 서버인 저장장치(1200)는 음성 신호를 수신한 경우 자체 제어장치(1300b)를 이용하여 해당 음성 신호의 음향학적 특징을 추출할 수 있다. 저장장치(1200)는 또한 자체 제어장치(1300b)를 통해 상기 음성 신호의 음향학적 특징에 기초한 측정 확률값 세트를 유추할 수 있으며, 보유 중인 대표 모델과의 유사도 평가 끝에 해당 음성 신호의 감정 상태를 판별할 수 있다. 저장장치(1200)는 상기 감정 상태 정보를 입력장치(1100)로 전송할 수 있으며, 입력장치(1100)는 수신한 감정 상태 정보에 기반하여 사용자에게 다양한 서비스를 제공할 수 있다. 하지만, 전술한 방식은 본 발명의 일 실시예에 불과하며, 본 발명은 전술한 방식에 한정되지 않는다.
본 발명에 따르면, 맥락 정보를 이용하여 자율 학습 방법에 따른 감정 인식 대표 모델을 생성할 수 있는 감정 인식 시스템 및 그 제어 방법을 제공할 수 있다.
또한, 본 발명에 따르면, 각 감정 카테고리에 포함되는 음성 신호의 샘플 확률값 세트를 적어도 하나의 클러스터로 분류할 수 있고, 해당 클러스터로부터 대표 모델을 형성함으로써, 화자의 속성의 종류에 따른 감정 인식 모델을 구별하여 생성할 수 있다.
또한, 본 발명에 따르면, 상기 대표 모델을 이용함으로써 감정 인식 대상인 음성 신호의 감정 상태를 다양한 화자 속성에 따라 세부적으로 구별하여 인지할 수 있다.
또한, 본 발명에 따르면, 화자의 속성의 종류에 따른 감정 인식 모델을 구별하여 생성함으로써 보다 정확도가 높은 감정 인식 시스템을 구축할 수 있다.
이상에서 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지를 벗어나지 않는 범위 내에서 수정, 변경을 할 수 있을 것이다. 따라서 본 발명이 속하는 기술분야에 속한 사람이 본 발명의 상세한 설명 및 실시예로부터 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석되어야 할 것이다.
1000 : 감정 인식 시스템
1100 : 입력장치
1200 : 저장장치
1300 : 제어장치

Claims (12)

  1. 화자의 감정 정보가 포함된 음성 신호로부터 음향학적 특징(acoustic cue)을 추출하는 단계, 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함함;
    상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하는 단계;
    상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터(cluster)로 분류하는 단계;
    상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하는 단계;
    감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하는 단계;
    상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값 세트를 유추하는 단계;
    상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가하는 단계; 및
    상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하는 단계; 를 포함하되,
    상기 샘플 확률값 세트를 유추하는 단계 및 상기 측정 확률값 세트를 유추하는 단계는,
    토픽 모델링(topic modeling) 기법을 이용하고, 상기 분류 항목은 토픽 모델링 기법의 토픽(topic)이며, 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용하는 것을 특징으로 하는 감정 인식 시스템의 제어 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 샘플 확률값 세트를 유추하는 단계 및 상기 측정 확률값 세트를 유추하는 단계는,
    잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 방식을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고,
    상기 측정 확률값 세트를 유추하는 단계는,
    상기 샘플 확률값 세트를 유추할 때 추정된 적어도 하나의 파라미터를 이용하는 단계인 것을 특징으로 하는 감정 인식 시스템의 제어 방법.
  4. 제3항에 있어서,
    상기 샘플 확률값 세트를 유추하는 단계 및 상기 측정 확률값 세트를 유추하는 단계는,
    배리에이셔널 인퍼런스(variational inference) 방식을 이용하여 상기 각 파라미터를 추정하는 단계인 것을 특징으로 하는 감정 인식 시스템의 제어 방법.
  5. 제1항에 있어서,
    상기 적어도 하나의 클러스터로 분류하는 단계는,
    상기 각 감정 카테고리 별 샘플 확률값 세트가 하나의 클러스터에 포함된 것으로 가정한 상태에서 상기 클러스터의 센트로이드(centroid)와 상기 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 1차 클러스터 분포값과,
    상기 각 감정 카테고리 별 샘플 확률값 세트가 n 개의 클러스터로 분류된 것으로 가정한 상태에서 상기 n 개의 클러스터의 각 센트로이드와 해당 클러스터에 포함된 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 n차 클러스터 분포값을 상기 각 감정 카테고리마다 구하되,
    상기 각 감정 카테고리의 1차 클러스터 분포값과 상기 n차 클러스터 분포값의 비율이 기 설정된 특정 범위 이내에 포함되는지 여부에 따라서 상기 각 감정 카테고리의 클러스터의 수 n이 정해지는 단계인 것을 특징으로 하는 감정 인식 시스템의 제어 방법.
  6. 제1항에 있어서,
    상기 각 클러스터의 대표 모델을 생성하는 단계는,
    가우시안 혼합 모델을 통해 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값으로부터 확률 분포의 형태를 가지는 대표 모델을 각 클러스터마다 생성하고,
    상기 측정 확률값 세트와 상기 대표 모델의 유사도를 평가하는 단계는,
    상기 측정 확률값 세트와 상기 각 대표 모델의 조합으로부터 계산된 공산(likelihood)값의 크기에 기초하여 유사도를 평가하는 단계인 것을 특징으로 하는 감정 인식 시스템의 제어 방법.
  7. 음성 신호를 입력 받는 입력장치;
    제어장치의 제어에 의해 상기 음성 신호 및 상기 제어장치에서 생성된 정보를 저장하는 저장장치; 및
    상기 입력장치 및 상기 저장장치의 작동을 제어하고, 상기 음성 신호의 감정 상태를 판별하는 제어장치; 를 포함하되,
    상기 제어장치는,
    상기 입력장치를 통해 화자의 감정 정보가 포함된 음성 신호를 입력 받되, 상기 감정 정보는 기 설정된 복수의 감정 카테고리 중 적어도 하나를 포함하고,
    상기 음성 신호로부터 음향학적 특징을 추출하고,
    상기 추출된 음향학적 특징에 기초하여 상기 음성 신호가 기 설정된 수의 분류 항목에 각각 속할 샘플 확률값 세트를 유추하고,
    상기 샘플 확률값 세트를 해당 음성 신호에 포함된 상기 감정 정보에 기초하여 상기 감정 카테고리 별로 구분하고, 상기 각 감정 카테고리 별로 구분된 샘플 확률값 세트를 기 설정된 기준에 따라 적어도 하나의 클러스터로 분류하고,
    상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값에 기초하여 해당 클러스터의 대표 모델을 생성하며, 상기 대표 모델을 상기 저장장치에 저장하고,
    감정 인식 대상인 음성 신호를 입력 받고, 상기 감정 인식 대상인 음성 신호의 음향학적 특징을 추출하고,
    상기 감정 인식 대상인 음성 신호의 음향학적 특징에 기초하여 상기 감정 인식 대상인 음성 신호가 상기 분류 항목에 각각 속할 측정 확률값 세트를 유추하고,
    상기 측정 확률값 세트와 상기 저장 장치에 저장된 대표 모델의 유사도를 평가하고,
    상기 측정 확률값 세트와 가장 유사도가 높은 대표 모델의 감정을 상기 감정 인식 대상인 음성 신호의 감정 상태로 판별하되,
    상기 제어장치는 토픽 모델링 기법을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고, 상기 분류 항목은 토픽 모델링 기법의 토픽이며, 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추할 때 상기 각 음성 신호의 음향학적 특징으로부터 추정된 파라미터를 이용하는 것을 특징으로 하는 감정 인식 시스템.
  8. 삭제
  9. 제7항에 있어서,
    상기 제어장치는,
    잠재 디리클레 할당 방식을 이용하여 상기 샘플 확률값 세트 및 상기 측정 확률값 세트를 유추하고,
    상기 측정 확률값 세트를 유추할 때, 상기 샘플 확률값 세트를 유추하는 과정에서 추정된 적어도 하나의 파라미터를 이용하는 것을 특징으로 하는 감정 인식 시스템.
  10. 제9항에 있어서,
    상기 제어장치는,
    배리에이셔널 인퍼런스 방식을 이용하여 상기 각 파라미터를 추정하는 것을 특징으로 하는 감정 인식 시스템.
  11. 제7항에 있어서,
    상기 제어장치는,
    상기 각 감정 카테고리 별 샘플 확률값 세트가 하나의 클러스터에 포함된 것으로 가정한 상태에서 상기 클러스터의 센트로이드와 상기 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 1차 클러스터 분포값과,
    상기 각 감정 카테고리 별 샘플 확률값 세트가 n 개의 클러스터로 분류된 것으로 가정한 상태에서 상기 n 개의 클러스터의 각 센트로이드와 해당 클러스터에 포함된 각 샘플 확률값 세트 사이의 거리의 제곱의 합을 계산한 n차 클러스터 분포값을 상기 각 감정 카테고리마다 구하되,
    상기 각 감정 카테고리의 1차 클러스터 분포값과 상기 n차 클러스터 분포값의 비율이 기 설정된 특정 범위 이내에 포함되는지 여부에 따라서 상기 각 감정 카테고리의 클러스터의 수 n을 정하는 것을 특징으로 하는 감정 인식 시스템.
  12. 제7항에 있어서,
    상기 제어장치는,
    가우시안 혼합 모델을 통해 상기 각 클러스터에 포함된 샘플 확률값 세트의 각 확률값으로부터 확률 분포의 형태를 가지는 대표 모델을 각 클러스터마다 생성하고,
    상기 측정 확률값 세트와 상기 각 대표 모델의 조합으로부터 계산된 공산값의 크기에 기초하여 유사도를 평가하는 단계인 것을 특징으로 하는 감정 인식 시스템.
KR1020140180739A 2014-12-15 2014-12-15 감정 인식 시스템 및 그 제어 방법 KR101564176B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140180739A KR101564176B1 (ko) 2014-12-15 2014-12-15 감정 인식 시스템 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140180739A KR101564176B1 (ko) 2014-12-15 2014-12-15 감정 인식 시스템 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR101564176B1 true KR101564176B1 (ko) 2015-10-28

Family

ID=54429104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140180739A KR101564176B1 (ko) 2014-12-15 2014-12-15 감정 인식 시스템 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR101564176B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862984A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
KR20230007781A (ko) 2021-07-06 2023-01-13 세종대학교산학협력단 음성 신호에 기반한 발화자의 감정 인식 장치 및 방법
KR20230114195A (ko) * 2022-01-24 2023-08-01 주식회사 허니엠앤비 감정 분석 결과 제공 장치 및 감정 분석 결과 제공 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mohit Shah et al., ‘A spech emotion recognition framework based on latent dirichlet allocation: algorithm and FPGA implementation’, ICASSP 2013, May 2013.*
박정식, 오영환, ‘잡음 환경에서의 음성 감정 인식을 위한 특징 벡터처리’, 말소리와 음성과학 제2권 제1호, pp.77~85, 2010.*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862984A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
CN111862984B (zh) * 2019-05-17 2024-03-29 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
KR20230007781A (ko) 2021-07-06 2023-01-13 세종대학교산학협력단 음성 신호에 기반한 발화자의 감정 인식 장치 및 방법
KR20230114195A (ko) * 2022-01-24 2023-08-01 주식회사 허니엠앤비 감정 분석 결과 제공 장치 및 감정 분석 결과 제공 시스템
KR102630803B1 (ko) * 2022-01-24 2024-01-29 주식회사 허니엠앤비 감정 분석 결과 제공 장치 및 감정 분석 결과 제공 시스템

Similar Documents

Publication Publication Date Title
JP2021527840A (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
Tong et al. A comparative study of robustness of deep learning approaches for VAD
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN108053840A (zh) 一种基于pca-bp的情绪识别方法及系统
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
JP2012203422A (ja) 学習装置、方法及びプログラム
Mower et al. A hierarchical static-dynamic framework for emotion classification
JPWO2020013296A1 (ja) 精神・神経系疾患を推定する装置
KR101564176B1 (ko) 감정 인식 시스템 및 그 제어 방법
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Ranjard et al. Integration over song classification replicates: Song variant analysis in the hihi
CN106710588B (zh) 语音数据句类识别方法和装置及系统
JP2008146054A (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
Zbancioc et al. A study about the automatic recognition of the anxiety emotional state using Emo-DB
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
JP5626221B2 (ja) 音響画像区間分類装置および方法
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Rehman et al. Feature selection and classification of speech dataset for gender identification: A machine learning approach
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置
CN114120425A (zh) 一种情绪识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee