KR20100020066A - 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템 - Google Patents

감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템 Download PDF

Info

Publication number
KR20100020066A
KR20100020066A KR1020080078708A KR20080078708A KR20100020066A KR 20100020066 A KR20100020066 A KR 20100020066A KR 1020080078708 A KR1020080078708 A KR 1020080078708A KR 20080078708 A KR20080078708 A KR 20080078708A KR 20100020066 A KR20100020066 A KR 20100020066A
Authority
KR
South Korea
Prior art keywords
voice signal
emotion
emotional state
recognition
hmm
Prior art date
Application number
KR1020080078708A
Other languages
English (en)
Inventor
강정환
Original Assignee
강정환
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강정환 filed Critical 강정환
Priority to KR1020080078708A priority Critical patent/KR20100020066A/ko
Publication of KR20100020066A publication Critical patent/KR20100020066A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

입력되는 음성 신호를 분석하고 해당 음성 신호에 내포된 감정을 분석하는 장치 및 방법이 개시된다. 일 실시예에 따른 감정 인식 장치는, 음성 신호를 입력받는 입력부-여기서, 음성 신호는 학습 음성 신호와 대상 음성 신호를 포함함-; 입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부; 상기 학습 음성 신호에 대하여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스; 상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및 상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함할 수 있다. 본 발명에 따른 감정 인식 장치 및 방법은 음성에 포함된 특정 문구에 대한 감정 인식 데이터에 가중치를 부여하여 높은 신뢰성을 가지는 효과가 있다.
음성, 분석, 감정, 인식, 콜센터

Description

감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템{Apparatus and method for recognizing emotion, and call center system using the same}
본 발명은 감정 인식 장치에 관한 것으로, 보다 상세하게는 입력되는 음성 신호를 분석하고 해당 음성 신호에 내포된 감정을 분석하는 장치 및 방법에 관한 것이다.
음성은 사람의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이다. 사람의 음성을 효과적으로 처리하여 수치화함으로써 이를 효과적으로 이용하기 위한 음성 정보 처리 기술(SIT: speech information technology) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용이 되고 있다.
이러한 음성 정보 처리 기술은, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등으로 분류된다.
이 중에서 음성 정보 처리 기술과 관련하여, 음성 신호를 통하여 화자의 감 정 상태를 추정, 인식하는 감정 인식 기술을 생각할 수 있다. 감정 인식 기술은 사람이 일상 생활에서 사용하는 언어, 음성 등을 통하여 기계를 통해서도 사람의 감정을 수치적으로 인식하고자 하고 있다.
이러한 음성 분석에 기반한 감정 인식 기술의 대표적인 예로, 거짓말 탐지기를 들 수 있다. 거짓말 탐지기는 폴리그래프의 일종으로서, 폴리그래프란 사람의 흥분, 긴장 또는 감정적인 갈등의 상태를 미리 정의해 놓은 기준에 의하여 감지하는 시스템을 의미한다. 보통 사람이 거짓말을 할 때는 정신적인 긴장으로 인하여 성대의 혈액량이 저하하게 되고, 부득이한 신경작용으로 인하여 성대에서는 일그러진 음파가 나오게 되며, 거짓말 탐지기는 이를 감지하여 화자의 거짓말 여부를 판별하게 된다.
하지만, 이러한 거짓말 탐지기로는 일상생활에서 사람의 다양한 감정을 음성정보를 통해 분석, 판별할 수는 없는 문제점이 있다.
또한, 이러한 음성 분석에 기반한 감정 인식 기술을 통해 서로 다른 신호 처리를 수행함으로써 사용자에게 다양한 서비스를 제공할 수 있는 시스템이 필요하다.
따라서, 본 발명은 음성에 포함된 특정 문구에 대한 감정 인식 데이터에 가중치를 부여하여 높은 신뢰성을 가지는 감정 인식 장치 및 방법을 제공한다.
또한, 본 발명은 분석된 음성에 대한 감정 인식 데이터를 이용하여 판단함에 있어서 유사성이 높은 감정끼리 그룹화하여 판단함으로써 판단 오류를 줄일 수 있는 감정 인식 장치 및 방법을 제공한다.
또한, 본 발명은 분석된 음성을 기초로 하여 감정을 인식한 결과를 기초로 하여 고객 응대 방법의 전환이나 우수 상담원 연결 등 다양한 서비스를 제공할 수 있는 콜센터 시스템을 제공한다.
또한, 본 발명은 분석된 음성을 기초로 하여 감정을 인식한 결과 뿐만 아니라 주변 소음 또는 해당 음성의 발화자의 환경 인자를 파악한 결과를 기초로 하여 고객 응대 방법의 전환이나 우수 상담원 연결 등 다양한 서비스를 제공할 수 있는 콜센터 시스템을 제공한다.
본 발명의 일 측면에 따르면, 음성 신호를 분석하여 감정 상태를 판단하는 감정 인식 장치가 제공된다.
일 실시예에 따른 감정 인식 장치는, 음성 신호를 입력받는 입력부-여기서, 음성 신호는 학습 음성 신호와 대상 음성 신호를 포함함-; 입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부; 상기 학습 음성 신호에 대하여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스; 상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및 상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함할 수 있다.
상기 음성 신호가 상기 학습 음성 신호인 경우 활성화되며, 상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하여 상기 데이터베이스에 저장하는 특징 파라미터 추정부를 더 포함할 수 있다.
또한, 음성 인식을 수행하고, 상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 음성 인식부를 더 포함하되, 상기 음성 인식부는 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 할 수 있다.
상기 HMM 인식부는, 상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 감정 그룹화 모듈; 상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 1차 인식 모듈; 및 상기 HMM에 적용하여 상기 1차 인식 모듈에서 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 2차 인식 모듈을 포함할 수 있다.
상기 특징 벡터는 세기(intensity), 피치(pitch), 포먼트(formant), MFCC(Mel Frequency Cepstral Coefficients) 중 하나 이상을 포함할 수 있다.
상기 특징 파라미터는 상태 천이 확률(state transition probability), 관측 심볼 확률(observation symbol probability), 초기 상태 분산(initial state distribution), 출력 확률(output probability) 중 하나 이상을 포함할 수 있다.
상기 감정 상태는 행복함(Happy), 화남(Angry), 슬픔(Sad), 지루함(Bored) 및 중립(Neutral) 중 하나 이상을 포함할 수 있다.
본 발명의 다른 측면에 의하면, 음성 신호를 분석하여 감정 상태를 판단하는 감정 인식 방법 및 이를 수행하기 위한 프로그램이 기록된 기록매체가 제공된다.
일 실시예에 따른 감정 인식 방법은, 대상 음성 신호를 입력받는 단계(a); 입력된 상기 대상 음성 신호로부터 특징 벡터(feature vector)를 추출하는 단계(b); 상기 추출된 특징 벡터를 기초로 하여 데이터베이스에 저장된 복수의 감정 상태에 대한 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 단계(c); 및 상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 단계(d)를 포함할 수 있다.
학습 음성 신호를 입력받는 단계; 입력된 상기 학습 음성 신호로부터 특징 벡터를 추출하는 단계; 상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하는 단계; 및 상기 감정 상태별 특징 파라미터를 상기 데이터베이스에 저장하는 단계가 선행될 수 있다.
또한, 상기 대상 음성 신호에 대하여 음성 인식을 수행하는 단계; 상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 단계; 상기 소정 문구 또는 어휘가 포함된 경우 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 하는 단계를 더 포함할 수 있다.
상기 단계(c)는, 상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 단계; 상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 단계; 및 상기 HMM에 적용하여 상기 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 단계를 포함할 수 있다.
상기 특징 벡터는 세기(intensity), 피치(pitch), 포먼트(formant), MFCC(Mel Frequency Cepstral Coefficients) 중 하나 이상을 포함할 수 있다.
상기 특징 파라미터는 상태 천이 확률(state transition probability), 관측 심볼 확률(observation symbol probability), 초기 상태 분산(initial state distribution), 출력 확률(output probability) 중 하나 이상을 포함할 수 있다.
상기 감정 상태는 행복함(Happy), 화남(Angry), 슬픔(Sad), 지루함(Bored) 및 중립(Neutral) 중 하나 이상을 포함할 수 있다.
본 발명의 또 다른 측면에 의하면, 고객 단말기로부터의 통화 연결 요청에 응답하여 소정 조건에 따라 복수의 상담원 단말기 중 하나를 통화 연결시키는 연결 장치; 및 상기 고객 단말기를 통해 전송된 음성 신호를 분석하여 감정 상태를 판단하는 감정 인식 장치를 포함하되, 상기 소정 조건은 상기 감정 인식 장치에서 판단한 감정 상태를 포함하는 것을 특징으로 하는 콜센터 시스템이 제공된다.
상기 감정 인식 장치는, 음성 신호를 입력받는 입력부-여기서, 음성 신호는 학습 음성 신호와 대상 음성 신호를 포함함-; 입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부; 상기 학습 음성 신호에 대하 여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스; 상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및 상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함할 수 있다.
상기 감정 인식 장치는, 상기 음성 신호가 상기 학습 음성 신호인 경우 활성화되며, 상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하여 상기 데이터베이스에 저장하는 특징 파라미터 추정부를 더 포함할 수 있다.
상기 감정 인식 장치는, 음성 인식을 수행하고, 상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 음성 인식부를 더 포함하되, 상기 음성 인식부는 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 할 수 있다.
상기 HMM 인식부는, 상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 감정 그룹화 모듈; 상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 1차 인식 모듈; 및 상기 HMM에 적용하여 상기 1차 인식 모듈에서 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 2차 인식 모듈을 포함할 수 있다.
상기 감정 인식 장치는, 상기 음성 신호를 선명하게 하기 위해 필터링을 수 행한 후, 상기 음성 신호와 필터링된 음성 신호의 차이값을 이용하여 배경 잡음을 인식하는 배경 잡음 인식부를 더 포함하되, 상기 소정 조건은 상기 배경 잡음을 더 포함하는 것을 특징으로 할 수 있다.
상기 감정 인식 장치는, 상기 콜센터 시스템이 위치한 지역의 환경 인자를 분석하는 환경 인자 분석부를 더 포함하되, 상기 감정 판단부는 상기 환경 인자에 의한 가중치를 적용하여 상기 감정 상태를 판단할 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명에 따른 감정 인식 장치 및 방법은 음성에 포함된 특정 문구에 대한 감정 인식 데이터에 가중치를 부여하여 높은 신뢰성을 가지는 효과가 있다. 또한, 분석된 음성에 대한 감정 인식 데이터를 이용하여 판단함에 있어서 유사성이 높은 감정끼리 그룹화하여 판단함으로써 판단 오류를 줄일 수 있는 효과가 있다.
그리고 본 발명에 따른 콜센터 시스템은 분석된 음성을 기초로 하여 감정을 인식한 결과를 기초로 하여 고객 응대 방법의 전환이나 우수 상담원 연결 등 다양한 서비스를 제공할 수 있다. 또한, 분석된 음성을 기초로 하여 감정을 인식한 결과 뿐만 아니라 주변 소음 또는 해당 음성의 발화자의 환경 인자를 파악한 결과를 기초로 하여 고객 응대 방법의 전환이나 우수 상담원 연결 등 다양한 서비스를 제공할 수 있다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한 다.
도 1은 본 발명의 일 실시예에 따른 음성을 분석하여 감정을 인식하는 장치의 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 음성을 분석하여 감정을 인식하는 방법의 순서도이다.
본 발명의 일 실시예에 따른 감정 인식 장치(100)는 입력부(110), 특징 벡터 추출부(120), 특징 파라미터 추정부(130), 데이터베이스(140), HMM 인식부(150) 및 감정 판단부(160)를 포함한다.
감정 인식 장치(100)는 입력되는 음성 신호를 분석하여 음성 신호에 내포된 감정을 인식한다. 감정 인식 장치(100)는 유선 또는 무선 통신 네트워크(이하, '통신 네트워크'라 칭함)에 접속되어, 통신 네트워크에 접속된 사용자 단말기와 소정의 데이터를 송수신할 수 있다. 또는 감정 인식 장치(100)는 통신 네트워크를 통해 소정의 데이터를 송수신하는 대신에 독립적으로 동작할 수도 있다.
음성 신호는 사용자 단말기를 이용하며 통신 네트워크를 통해 감정 인식 장치(100)로 전송되거나, 혹은 감정 인식 장치(100)에 구비된 마이크 등의 음성 입력 장치를 이용하여 직접 입력될 수 있다. 또는 감정 인식 장치(100)에 구비된 데이터 입력부(미도시)를 이용하여 미리 파일 형태로 저장된 음성 신호가 입력될 수도 있다. 이 외에도 감정 인식 장치(100)에 음성 신호가 입력되는 방법은 본 발명의 사상 범위 내에서 다양할 수 있음이 당업자에게는 자명하다.
입력부(110)는 통신 네트워크를 통해 음성 신호를 전송받거나 혹은 감정 인식 장치(100)에 구비된 음성 입력 장치 또는 데이터 입력부를 통해 음성 신호를 입 력받는다. 입력받은 음성 신호는 감정 인식의 대상이 되는 대상 음성 신호 혹은 감정 인식의 기준이 되는 학습 음성 신호일 수 있다.
학습 음성 신호 및/또는 기준 음성 신호는 실시간으로 입력되거나 파일 형태로 미리 저장되어 입력될 수 있다.
또한, 입력부(110)에 입력된 음성 신호에는 배경 잡음 등이 포함되어 있을 수 있는 바, 감정 인식 장치(100)는 배경 잡음 필터링부(미도시)를 더 구비하여 배경 잡음을 필터링하여 보다 정확하고 신뢰성 높은 감정 인식이 가능하도록 할 수 있다.
특징 벡터 추출부(120)는 입력부(110)에 입력된 음성 신호로부터 감정 인식에 필요로 하는 특징 벡터(feature vector)를 추출한다. 특징 벡터는 미리 설정되거나 학습에 의해 변경될 수 있다.
본 실시예에서는 특징 벡터는 세기(intensity), 피치(pitch), 포먼트(formant), MFCC(Mel Frequency Cepstral Coefficients) 중 하나 이상을 포함할 수 있다. 각각의 특징 벡터는 감정의 특징을 잘 나타낼 수 있는 요소들을 포함하고 있다. 이 중 포먼트와 MFCC는 음성을 주파수 영역으로 변환하여 분석할 때 쓰이는 특징 벡터이다.
세기는 음성의 세기를 나타내며, 화가 났거나 기쁠 때에는 목소리가 커지는 특징이 있다. 피치는 발성의 주기를 나타내며, 지루하거나 슬플 때에는 발성이 느리고, 화가 나거나 기쁠 때에는 발성이 빠른 특징이 있다.
포먼트는 음성의 유성음 부분에서만 나타나는 주파수의 피크로써, 유성음 부분에서 일반적으로 4개가 나타나는데 첫 번째, 두 번째, 세 번째, 네 번째 포먼트로 불려진다. 이러한 포먼트의 위치는 음성의 발성 또는 감정에 따라서 위치 및 크기가 달라지는 특징이 있다.
MFCC는 주파수 영역에서 캡스트럼(Cepstrum)이라고 하는 영역으로 영역변환을 시도하여 추출한 성분이 음소의 특징을 나타냄을 이용한 특징 벡터이다. MFCC는 인간의 청각특성을 고려한 특징 벡터이다. 인간의 청각기관의 주파수에 따른 민감도는 멜 스케일을 따른다. 인간의 청각 특성은 1KHz 미만에서는 선형적인 특징을 보이지만 1KHz이상으로 올라가면 로그함수적인 특성이 나타난다. 그래서 인간의 청각 특성을 잘 고려하여 만든 주파수 영역을 멜 주파수 영역이라고 부른다. 멜 주파수와 주파수간의 관계는 하기의 수학식 1을 따른다.
Figure 112008057507286-PAT00001
여기서, mel은 멜 주파수를, f는 주파수를 나타낸다. 주파수를 멜 주파수로 바꾼 후 필터뱅크를 씌운다. 필터뱅크는 주파수 특성을 고려하여 가중치를 두기 위한 수단이다. 저주파 영역은 촘촘한 필터를, 고주파 영역에서는 듬성듬성한 필터를 씌우게 된다. 마지막으로 로그 함수를 취하여 이산 코사인 변환(Discrete Cosine Transform)을 취하면 MFCC 특징 벡터를 획득할 수 있다. MFCC는 보통 DC 성분을 제외한 12차 벡터를 사용하게 된다.
입력부(110)에 입력된 음성 신호가 감정 인식의 기준이 되는 학습 음성 신 호인 경우 특징 파라미터 추정부(130)가 활성화되며, 입력부(110)에 입력된 음성 신호가 감정 인식의 대상이 되는 대상 음성 신호인 경우 HMM 인식부(150)와 감정 판단부(160)가 활성화된다. 사용자에 의해 감정 인식 장치(100)로 입력되는 음성 신호의 종류가 구별되며, 감정 인식 장치(100)에 구비된 스위치부(미도시)를 이용하여 활성화되는 구성요소가 선택될 수 있다.
입력된 음성 신호가 학습 음성 신호인 경우 활성화되는 특징 파라미터 추정부(130)는, 히든 마코프 모델(Hidden Markov Models: HMM, 이하 'HMM'이라 칭함)을 이용하여 특징 벡터 추출부(120)에서 추출된 특징 벡터로부터 각 감정 상태에 해당하는 특징 파라미터를 획득한다. 획득되는 특징 파라미터는 상태 천이 확률(state transition probability), 관측 심볼 확률(observation symbol probability), 초기 상태 분산(initial state distribution), 출력 확률(output probability) 중 하나 이상을 포함할 수 있다.
특징 파라미터 추정부(130)에 의해 추정된 특징 파라미터는 데이터베이스(140)에 저장되며, 이후 대상 음성 신호의 감정 인식을 위해 HMM 인식부(150)에서 이용된다.
입력된 음성 신호가 대상 음성 신호인 경우 활성화되는 HMM 인식부(150)는 대상 음성 신호로부터 추출된 특징 벡터에 데이터베이스(140)에 저장된 특징 파라미터를 적용함에 있어서 HMM을 이용하고, 각 감정 상태에 대한 출력 확률값을 획득한다.
본 실시예에 따르면 인식될 수 있는 감정 상태는 행복함(Happy), 화 남(Angry), 슬픔(Sad), 지루함(Bored), 중립(Neutral) 등을 포함한다.
감정 판단부(160)는 각 감정 상태에 대하여 HMM 인식부(150)에서 획득된 출력 확률값을 이용하여 대상 음성 신호의 감정을 판단한다. 일 실시예에 따르면, 출력 확률값이 최대가 되는 경우의 감정 상태를 대상 음성 신호의 감정으로 판단할 수 있다.
또한, 감정 판단의 신뢰성을 높이기 위하여 감정 인식률을 이용하여 감정 상태를 그룹화하는 추가 인식 과정을 수행할 수도 있는 바, 이에 대해서는 추후 도 4를 참조하여 상세히 설명하기로 한다.
본 실시예에서, HMM은 음성 신호가 마코프 모델로 모델링될 수 있다는 가정 하에서 학습 과정에서 학습 음성 신호를 이용하여 마코프 모델의 확률적인 특징 파라미터들을 구한 후, 기준 마코프 모델을 만들고, 인식 과정에서 입력된 대상 음성 신호가 내포하고 있는 감정과 가장 유사한 기준 마코프 모델을 선택하는 방식으로 감정을 인식한다. HMM은 음성 인식에 많이 사용되며, 일반적으로 발성기관의 시간적인 상태나 음운은 은닉되고 관측되는 음성을 이용하여 음운이나 상태를 파악함으로써 음성 또는 감정을 인식한다. 통계적인 접근을 통해 음운이나 감정이 직접적으로 관측되지 않지만, 관측 시퀀스를 이용하여 감정이나 음성을 파악하는 이중 확률 구조(a doubly embedded stochastic process)를 가진다. HMM은 시간에 따른 감정 상태를 파악할 수 있고 학습을 통하여 모델을 업데이트 할 수 있다.
관측 시퀀스와 모델이 주어졌을 때, 주어진 모델에서 효과적으로 관측 시퀀스의 확률을 구하기 위한 문제는 일반적으로 전향 알고리즘(Forward algorithm)으 로 해결된다. 그리고 여기에 대응하는 상태 시퀀스 중에서 어떤 것이 최상의 것이 되는지를 판단하는 문제는, 적절한 상태 시퀀스를 발견함으로써 모델의 은닉된 부분을 찾아내는 비터비 알고리즘(Viterbi Algorithm)을 사용함으로써 해결된다. 또한, 그 모델에서 관측 시퀀스를 얻을 수 있는 확률을 최적화하기 위하여 모델 파라미터를 업데이트하는, 즉 HMM을 학습시키는 문제는 바움-웰치 알고리즘(Baum-Welch algorithm)을 이용하여 해결하게 된다.
이하 도 2를 참조하며, 감정 인식 장치(100)가 학습 음성 신호를 이용하여 추정한 특징 파라미터를 이용하여 대상 음성 신호에 내포된 감정을 인식하는 방법에 대하여 상세히 설명하기로 한다.
우선 감정 인식 장치(100)에 입력된 음성 신호가 학습 음성 신호인 경우를 가정한다.
학습 음성 신호를 입력받으면(단계 S200), 입력된 학습 음성 신호를 분석하여 특징 벡터를 추출한다(단계 S205). 특징 벡터는 세기, 피치, 포먼트, MFCC 중 하나 이상을 포함할 수 있다.
추출한 특징 벡터를 기초로 하여 HMM에 적용함으로써 각 감정 상태에 해당하는 특징 파라미터를 추정한다(단계 S210). 감정 상태는 행복함, 화남, 슬픔, 지루함, 중립 중 하나 이상을 포함할 수 있다.
추정된 특징 파라미터는 데이터베이스(140)에 저장되며(단계 S215), 추후 대상 음성 신호의 감정 인식 시 이용된다.
여기서, 단계 S200 내지 S215는 복수의 횟수로 반복하게 되며, 반복에 따라 최적의 특징 파라미터가 추정되어 데이터베이스(140)에 저장될 수 있다.
다음으로, 감정 인식 장치(100)에 입력된 음성 신호가 감정 인식을 필요로 하는 대상 음성 신호인 경우를 가정한다.
대상 음성 신호를 입력받으면(단계 S220), 입력된 대상 음성 신호를 분석하여 특징 벡터를 추출한다(단계 S225). 특징 벡터는 세기, 피치, 포먼트, MFCC 중 하나 이상을 포함할 수 있다.
추출한 특징 벡터 및 데이터베이스(140)에 저장된 특징 파라미터를 이용하여 HMM에 적용함으로써(단계 S230), 각 감정 상태에 해당하는 출력 확률값을 획득한다(단계 S235). 감정 상태는 행복함, 화남, 슬픔, 지루함, 중립 중 하나 이상을 포함할 수 있다.
그리고 획득한 출력 확률값을 이용하여 현재 입력된 대상 음성 신호에 적합한 감정 상태를 선택함으로써 감정 인식 과정을 수행한다(단계 S240). 일 실시예에서, 출력 확률값이 최대인 감정 상태를 해당 대상 음성 신호에 적합한 감정 상태로 선택할 수 있다.
도 3은 본 발명의 다른 실시예에 따른 음성을 분석하여 감정을 인식하는 장치의 블록 구성도이다.
다른 실시예에 따르면, 감정 인식 장치(100)는 음성 신호 내에 소정 문구나 어휘가 포함되어 있는지 여부를 판별하는 음성 인식부(115)를 더 포함할 수 있다. 발명의 이해와 설명의 편의를 위해 도 3에 도시된 감정 인식 장치(100)에 포함된 구성 요소들 중 도 1에 도시된 감정 인식 장치(100)에 포함된 구성 요소와 동일하 거나 유사한 기능에 대해서는 상세한 설명을 생략하기로 한다.
음성 인식부(115)는 입력부(110)를 통해 입력된 음성 신호에 대하여 음성 인식을 수행한 후 해당 음성 신호 내에 소정 문구나 어휘가 포함되어 있는 경우 해당 문구에 대한 감정 인식 결과를 해당 음성 신호 전체에 대한 감정 인식 결과로 활용하거나 가중치를 두어 해당 음성 신호 전체에 대한 감정 인식 결과에 활용할 수 있다.
예를 들어, 음성 통화 시 대부분의 사람들은 '여보세요'라는 문구를 사용한다. 따라서, '여보세요' 문구를 포함하는 학습 음성 신호에 대하여 특징 파라미터를 추정하여 데이터베이스(140)에 저장한 후, 대상 음성 신호에 '여보세요'라는 문구가 포함된 경우 해당 특징 파라미터를 이용하여 HMM에 적용하게 되면 상대적으로 높은 정확도를 가지는 감정 인식이 가능하게 된다. 이는 대상 음성 신호의 감정을 인식함에 있어서 학습 음성 신호에서 학습한 문구와 동일 및/또는 유사한 문구의 경우 추출되는 특징 벡터들이 학습 음성 신호에서 학습한 문구와 다른 문구의 경우 추출되는 특징 벡터들보다 상대적으로 높은 유사성을 가지기 때문이다.
따라서, 학습 음성 신호에 포함되어 있었던 소정 문구나 어휘 중 하나 이상을 설정한 후, 음성 인식부(115)에서 음성 인식 결과 해당 문구나 어휘가 대상 음성 신호에 포함된 것으로 확인되면, 해당 문구나 어휘에 대한 감정 인식 결과에 보다 높은 가중치를 두거나 혹은 해당 문구나 어휘에 대한 감정 인식 결과를 대상 음성 신호의 감정 인식 결과로 갈음할 수 있다.
도 4는 본 발명의 또 다른 실시예에 따른 음성을 분석하여 감정을 인식하는 장치에 포함되는 HMM 인식부의 블록 구성도이며, 도 5a 및 도 5b는 HMM 인식부에 의해 획득되는 감정 상태별 감정 인식률의 표이다.
또 다른 실시예에서 감정 인식 장치(100)는 HMM 인식부(150)에서의 감정 인식률을 높여 보다 정확하고 신뢰성 높은 출력 확률값을 획득함으로써 정확하게 감정을 인식하고자 한다.
도 5a를 참조하면, HMM 인식부(150)에서의 일반적인 감정 상태별 감정 인식률이 표 형태로 도시되어 있다.
가로축(510)의 HAPPY, ANGRY, SAD, BORED, NEUTRAL은 입력된 음성 신호가 내포하고 있는 것으로 판단되는 감정 상태를 나타내며, 세로축(520)의 HAPPY, ANGRY, SAD, BORED, NEUTRAL은 입력된 음성 신호가 실제 내포하고 있는 감정 상태를 나타낸다.
세로축(520)의 HAPPY를 참조하면, 입력된 음성 신호가 실제 HAPPY의 감정 상태를 내포하고 있는 경우 HMM 인식부(150)에서는 감정 인식률로 HAPPY가 90%, ANGRY가 10%, 그리고 나머지 감정 상태에 대해서 0%가 획득된다. 예를 들어, 이는 실제 HAPPY의 감정을 내포하고 있는 음성 신호 100개를 입력한 경우 HAPPY로 판단되는 경우가 90개이고, ANGRY로 판단되는 경우가 10개인 것을 의미한다. 즉, 현재 데이터베이스(140)에 저장된 특징 파라미터가 학습에 의해 적절하게 추정되어 있음을 나타낸다.
세로축(520)의 ANGRY, SAD, BORED, NEUTRAL 등의 다른 감정 상태에 대해서도 확인해 보면 각각 감정 인식률이 실제 내포하고 있는 감정 상태와 일치하는 ANGRY, SAD, BORED, NEUTRAL일 때 60%, 50%, 70%, 70%임을 확인할 수 있다.
하지만, 반드시 이렇게 실제 내포하고 있는 감정 상태와 감정 인식률이 일치하지는 않을 수 있으며, 그 예가 도 5b에 도시되어 있다.
도 5b를 참조하면, 세로축(520)의 HAPPY에 대하여, 감정 인식률이 HAPPY와 SAD가 35%로 동일하다. 이 경우 HAPPY를 내포하고 있는 음성 신호에 대해서 HAPPY로 인식될 확률과 SAD로 인식될 확률이 동일하며, 데이터베이스(140)에 저장된 특징 파라미터가 적절치 못하게 추정되었음을 확인할 수 있다. 이러한 경우 HAPPY를 내포하고 있는 음성 신호에 대한 감정 인식 시 HAPPY로 인식되도록 하는 방법이 필요하게 된다.
따라서, 또 다른 실시예에서 HMM 인식부(150)는 감정 그룹화 모듈(410), 제1 인식 모듈(420), 제2 인식 모듈(430)을 포함한다. 여기서, 발명의 이해와 설명의 편의를 위해 도 5b의 세로축(520)의 HAPPY를 예로 들어 설명하기로 한다.
감정 그룹화 모듈(410)은 각 감정 상태에 대해서 특징 벡터 중 하나 또는 그 이상의 유사성을 그룹화 기준으로 하여 복수의 그룹으로 그룹화한다. 예를 들어, 행복함과 화남은 높은 세기를 가지고, 슬픔, 지루함과 중립은 낮은 세기를 가지게 된다. 따라서, 행복함(HAPPY), 화남(ANGRY), 슬픔(SAD), 지루함(BORED), 중립(NEUTRAL)의 감정 상태에 대해서 세기로 판별하게 되는 경우, 각 감정 상태의 유사성을 이용하여 행복함과 화남이 제1 그룹(GROUP 1)으로, 슬픔, 지루함과 중립이 제2 그룹(GROUP 2)으로 그룹화될 수 있다. 이는 세기로 판단할 때 행복함과 화남이 서로 유사하게 인식되며, 슬픔, 지루함과 중립이 서로 유사하게 인식될 수 있음을 의미한다. 특징 벡터가 세기인 경우를 가정하여 설명하였지만, 이는 발명의 이해와 설명의 편의를 위한 것이며, 그룹화의 기준이 되는 특징 벡터가 세기, 피치, 포먼트, MFCC 또는 이들의 결합 중 어느 하나일 수 있다.
1차 인식 모듈(420)은 대상 음성 신호에 대하여 감정 그룹화 모듈(410)에서 각 감정 상태를 그룹화한 기준이 되는 특징 벡터를 기초로 하여 그룹별 인식률을 획득한다. 예를 들어, 감정 그룹화 모듈(410)이 세기를 기준으로 제1 그룹(행복함, 화남 포함)과 제2 그룹(슬픔, 지루함, 중립 포함)으로 그룹화한 경우, 1차 인식 모듈(420) 역시 세기를 기준으로 해당 대상 음성 신호가 제1 그룹 또는 제2 그룹 중 어디에 속하게 되는지를 판단한다.
2차 인식 모듈(430)은 해당 대상 음성 신호에 대하여 HMM에 적용함에 있어서, 1차 인식 모듈(420)에서의 1차 인식 결과에 따라 선택된 감정 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 획득한다.
감정 판단부(160)는 2차 인식 모듈(430)에서 획득된 출력 확률값을 기초로 하여 해당 대상 음성 신호의 감정 상태를 판단한다. 여기서, 판단 대상이 되는 감정 상태는 1차 인식 모듈(420)에 의해 선택된 감정 그룹에 포함되는 감정 상태 중 하나로 한정된다.
본 예에서는 1차 인식 모듈(420)에서 제1 그룹이 선택되며, 2차 인식 모듈(430)에서 HAPPY가 상대적으로 높은 출력 확률값을 가지게 된다.
따라서, 음성 신호가 실제 내포하고 있는 감정 상태인 HAPPY가 최종적으로 인식될 수 있으며, 보다 정확하고 신뢰성 높은 감정 인식이 가능하게 되는 장점이 있다.
본 발명에 따른 감정 인식 장치(100)와 감정 인식 방법은 음성 신호를 이용하여 서비스를 제공하는 다양한 분야에 적용될 수 있다. 이하에서는 그 중에서도 특히 콜센터(call center)에 적용된 경우를 가정하여 설명하기로 한다.
도 6은 본 발명의 일 실시예에 따른 감정 인식 장치가 적용된 콜센터 시스템의 구성도이다.
콜센터 시스템(600)은 연결 장치(610)를 구비하고 있어, 외부의 다수의 고객들(620-1 내지 620-n) 중 하나와, 내부의 상담원들(630-1 내지 630-m) 중 하나를 연결시켜 준다.
경우에 따라서는, 상담 중 또는 상담 전에 고객의 음성을 분석하여 현재 고객의 감정 상태를 인식하고, 그에 따라 적합한 서비스를 제공할 필요가 있다. 예를 들어, 고객의 감정 상태가 화남, 분노, 흥분 등의 상태인 경우에는 자동 응답 과정을 생략하고 직접 상담원에게 연결되거나 많은 고객 대응 경험을 보유한 고참 상담원에게 연결되도록 할 수 있다.
이를 위해서는 고객의 음성으로부터 감정 상태를 인식할 필요성이 있는 바, 콜센터 시스템(600)은 감정 인식 장치(100)를 더 포함할 수 있다.
감정 인식 장치(100)를 통해 고객의 음성에 내포된 감정 상태를 인식한 후, 인식 결과에 따라 자동 응답 과정을 생략한 상담원 직접 연결, 고참 상담원 연결 등의 다양한 서비스를 고객 맞춤형으로 제공할 수 있는 장점이 있다.
도 7은 본 발명의 또 다른 실시예에 따른 도 6에 도시된 콜센터 시스템에 포함되는 감정 인식 장치(100)의 블록 구성도이다.
도 1에 도시된 감정 인식 장치(100)와 비교할 때, 도 7에 도시된 감정 인식 장치(100)는 배경 잡음 인식부(710) 및/또는 환경 인자 분석부(720)를 더 포함할 수 있다. 발명의 이해와 설명의 편의를 위해 도 7에 도시된 감정 인식 장치(100)에 포함된 구성 요소들 중 도 1에 도시된 감정 인식 장치(100)에 포함된 구성 요소와 동일하거나 유사한 기능에 대해서는 상세한 설명을 생략하기로 한다.
배경 잡음 인식부(710)는 입력부(110)를 통해 입력된 음성 신호에 포함된 배경 잡음을 인식한다. 배경 잡음은 깨끗한 음성 신호를 획득하기 위해 필터링되는 것이 일반적이다. 하지만, 본 실시예에서와 같이 콜센터 시스템(600)이라는 특수 상황에 적용될 때 배경 잡음을 감정 판단부(160)에서 판단한 감정 상태와 함께 혹은 감정 판단부(160)에서 판단한 감정 상태에 우선적으로 활용함으로써 고객 맞춤형 서비스 제공이 가능하다.
콜센터 연결을 요청하는 고객의 경우 주변이 시끄럽지 않은 조용한 장소를 택하여 전화를 하게 되는 것이 일반적이지만, 고객이 극도로 흥분하였거나 긴급한 상황(카드 분실 등)에 처한 고객의 경우 주변의 소음이 상관없이 콜센터 연결을 요청할 가능성이 높다.
따라서, 고객의 음성 이외에 배경 잡음을 인식함으로써 배경 잡음이 소정의 기준치를 초과하는 경우에는, 고객이 많이 흥분하였거나 긴급한 상황에 처한 것으로 판단하고 본인 확인 등에 소요되는 절차를 간소화하여 직접 상담원에게 연결되도록 하거나 고참 상담원에게 연결되도록 할 수 있다.
배경 잡음 인식부(710)는 음성 신호를 선명하게 하기 위해 필터링을 수행한 후, 최초 입력된 음성 신호와 필터링된 음성 신호의 차이값을 이용하여 배경 잡음을 인식할 수 있다.
환경 인자 분석부(720)는 음성을 분석한 결과인 감정 인식에 콜센터 시스템이 위치한 지역의 날씨나 습도와 같은 환경 인자를 가중치로 활용하여 보다 정확하고 신뢰성 높은 감정 인식이 수행되도록 한다.
예를 들어, 콜센터 시스템이 위치한 지역이 매우 무덥거나 습도가 높은 경우 전반적으로 대부분 고객들의 불쾌지수가 올라갈 수 있으며, 이 경우 감정 인식 결과가 대부분 화남일 수 있다. 따라서, HMM 인식부(150)에서 각 감정 상태에 대한 출력 확률값을 획득할 때 현재 날씨나 습도와 같은 환경 인자에 의한 가중치를 적용하여 고객별로 날씨나 습도에 의한 영향을 배제한 상대적인 감정 상태를 나타낼 수 있도록 한다.
한편, 상술한 감정 인식 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 감정 인식 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.
본 발명의 실시예들에서 하나 이상의 구성 요소가 통합되어 구현되거나 또는 일부 구성 요소가 기능적으로 세분화되어 구현될 수 있으며, 이는 본 발명의 권 리범위에 속함을 이해할 것이다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 음성을 분석하여 감정을 인식하는 장치의 블록 구성도.
도 2는 본 발명의 일 실시예에 따른 음성을 분석하여 감정을 인식하는 방법의 순서도.
도 3은 본 발명의 다른 실시예에 따른 음성을 분석하여 감정을 인식하는 장치의 블록 구성도.
도 4는 본 발명의 또 다른 실시예에 따른 음성을 분석하여 감정을 인식하는 장치에 포함되는 HMM 인식부의 블록 구성도.
도 5a 및 도 5b는 HMM 인식부에 의해 획득되는 감정 상태별 감정 인식률의 표.
도 6은 본 발명의 일 실시예에 따른 감정 인식 장치가 적용된 콜센터 시스템의 구성도.
도 7은 본 발명의 또 다른 실시예에 따른 도 6에 도시된 콜센터 시스템에 포함되는 감정 인식 장치의 블록 구성도.

Claims (22)

  1. 음성 신호를 입력받는 입력부-여기서, 음성 신호는 학습 음성 신호와 대상 음성 신호를 포함함-;
    입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부;
    상기 학습 음성 신호에 대하여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스;
    상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및
    상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함하는 감정 인식 장치.
  2. 제1항에 있어서,
    상기 음성 신호가 상기 학습 음성 신호인 경우 활성화되며, 상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하여 상기 데이터베이스에 저장하는 특징 파라미터 추정부를 더 포함하는 감정 인식 장치.
  3. 제1항에 있어서,
    음성 인식을 수행하고, 상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 음성 인식부를 더 포함하되,
    상기 음성 인식부는 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 하는 것을 특징으로 하는 감정 인식 장치.
  4. 제1항에 있어서,
    상기 HMM 인식부는,
    상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 감정 그룹화 모듈;
    상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 1차 인식 모듈; 및
    상기 HMM에 적용하여 상기 1차 인식 모듈에서 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 2차 인식 모듈을 포함하는 감정 인식 장치.
  5. 제1항에 있어서,
    상기 특징 벡터는 세기(intensity), 피치(pitch), 포먼트(formant), MFCC(Mel Frequency Cepstral Coefficients) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 장치.
  6. 제1항에 있어서,
    상기 특징 파라미터는 상태 천이 확률(state transition probability), 관측 심볼 확률(observation symbol probability), 초기 상태 분산(initial state distribution), 출력 확률(output probability) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 장치.
  7. 제1항에 있어서,
    상기 감정 상태는 행복함(Happy), 화남(Angry), 슬픔(Sad), 지루함(Bored) 및 중립(Neutral) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 장치.
  8. 대상 음성 신호를 입력받는 단계(a);
    입력된 상기 대상 음성 신호로부터 특징 벡터(feature vector)를 추출하는 단계(b);
    상기 추출된 특징 벡터를 기초로 하여 데이터베이스에 저장된 복수의 감정 상태에 대한 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 단계(c); 및
    상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 단계(d)를 포함하는 감정 인식 방법.
  9. 제8항에 있어서,
    학습 음성 신호를 입력받는 단계;
    입력된 상기 학습 음성 신호로부터 특징 벡터를 추출하는 단계;
    상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하는 단계; 및
    상기 감정 상태별 특징 파라미터를 상기 데이터베이스에 저장하는 단계가 선행되는 것을 특징으로 하는 감정 인식 방법.
  10. 제8항에 있어서,
    상기 대상 음성 신호에 대하여 음성 인식을 수행하는 단계;
    상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 단계; 및
    상기 소정 문구 또는 어휘가 포함된 경우 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 하는 단계를 더 포함하는 것을 특징으로 하는 감정 인식 방법.
  11. 제8항에 있어서,
    상기 단계(c)는,
    상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 단계;
    상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 단계; 및
    상기 HMM에 적용하여 상기 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 단계를 포함하는
    것을 특징으로 하는 감정 인식 방법.
  12. 제8항에 있어서,
    상기 특징 벡터는 세기(intensity), 피치(pitch), 포먼트(formant), MFCC(Mel Frequency Cepstral Coefficients) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 방법.
  13. 제8항에 있어서,
    상기 특징 파라미터는 상태 천이 확률(state transition probability), 관측 심볼 확률(observation symbol probability), 초기 상태 분산(initial state distribution), 출력 확률(output probability) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 방법.
  14. 제8항에 있어서,
    상기 감정 상태는 행복함(Happy), 화남(Angry), 슬픔(Sad), 지루함(Bored) 및 중립(Neutral) 중 하나 이상을 포함하는 것을 특징으로 하는 감정 인식 방법.
  15. 제8항 내지 제14항 중 어느 한 항에 기재된 감정 인식 방법을 수행하기 위하여 컴퓨터 장치에서 실행될 수 있는 명령어들의 프로그램이 기록되어 있으며, 상기 컴퓨터 장치에 의해 판독될 수 있는 프로그램이 기록된 기록매체.
  16. 고객 단말기로부터의 통화 연결 요청에 응답하여 소정 조건에 따라 복수의 상담원 단말기 중 하나를 통화 연결시키는 연결 장치; 및
    상기 고객 단말기를 통해 전송된 음성 신호를 분석하여 감정 상태를 판단하는 감정 인식 장치를 포함하되,
    상기 소정 조건은 상기 감정 인식 장치에서 판단한 감정 상태를 포함하는 것을 특징으로 하는 콜센터 시스템.
  17. 제16항에 있어서,
    상기 감정 인식 장치는,
    음성 신호를 입력받는 입력부-여기서, 음성 신호는 학습 음성 신호와 대상 음성 신호를 포함함-;
    입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부;
    상기 학습 음성 신호에 대하여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스;
    상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하 여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및
    상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함하는 콜센터 시스템.
  18. 제17항에 있어서,
    상기 감정 인식 장치는, 상기 음성 신호가 상기 학습 음성 신호인 경우 활성화되며, 상기 HMM을 이용하여 상기 특징 벡터로부터 상기 감정 상태별 특징 파라미터를 획득하여 상기 데이터베이스에 저장하는 특징 파라미터 추정부를 더 포함하는 콜센터 시스템.
  19. 제17항에 있어서,
    상기 감정 인식 장치는, 음성 인식을 수행하고, 상기 수행 결과 소정 문구 또는 어휘가 상기 음성 신호에 포함되었는지 여부를 판별하는 음성 인식부를 더 포함하되,
    상기 음성 인식부는 상기 소정 문구 또는 어휘에 대한 감정 상태를 상기 음성 신호의 감정 상태로 갈음하거나 상기 음성 신호의 감정 상태 판단 시 가중치를 주도록 하는 것을 특징으로 하는 콜센터 시스템.
  20. 제17항에 있어서,
    상기 HMM 인식부는,
    상기 특징 벡터의 유사성에 관한 그룹화 기준에 따라 상기 감정 상태를 복수의 그룹으로 그룹화하는 감정 그룹화 모듈;
    상기 그룹화 기준에 기초하여 상기 복수의 그룹 중 하나를 선택하는 1차 인식 모듈; 및
    상기 HMM에 적용하여 상기 1차 인식 모듈에서 선택된 그룹 내에 포함되는 감정 상태에 한하여 출력 확률값을 산출하는 2차 인식 모듈을 포함하는
    것을 특징으로 하는 콜센터 시스템.
  21. 제17항에 있어서,
    상기 감정 인식 장치는, 상기 음성 신호를 선명하게 하기 위해 필터링을 수행한 후, 상기 음성 신호와 필터링된 음성 신호의 차이값을 이용하여 배경 잡음을 인식하는 배경 잡음 인식부를 더 포함하되,
    상기 소정 조건은 상기 배경 잡음을 더 포함하는 것을 특징으로 하는 콜센터 시스템.
  22. 제17항에 있어서,
    상기 감정 인식 장치는, 상기 콜센터 시스템이 위치한 지역의 환경 인자를 분석하는 환경 인자 분석부를 더 포함하되,
    상기 감정 판단부는 상기 환경 인자에 의한 가중치를 적용하여 상기 감정 상태를 판단하는 것을 특징으로 하는 콜센터 시스템.
KR1020080078708A 2008-08-12 2008-08-12 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템 KR20100020066A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080078708A KR20100020066A (ko) 2008-08-12 2008-08-12 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080078708A KR20100020066A (ko) 2008-08-12 2008-08-12 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템

Publications (1)

Publication Number Publication Date
KR20100020066A true KR20100020066A (ko) 2010-02-22

Family

ID=42090180

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080078708A KR20100020066A (ko) 2008-08-12 2008-08-12 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템

Country Status (1)

Country Link
KR (1) KR20100020066A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101233628B1 (ko) * 2010-12-14 2013-02-14 유비벨록스(주) 목소리 변환 방법 및 그를 적용한 단말 장치
KR20150087671A (ko) * 2014-01-22 2015-07-30 삼성전자주식회사 음성 감정 인식 시스템 및 방법
KR20160104461A (ko) * 2015-02-26 2016-09-05 김윤희 고객의 감정 분석을 이용하는 전화번호 안내 장치, 전화번호 안내 시스템 및 전화번호 안내 방법
CN109584885A (zh) * 2018-10-29 2019-04-05 李典 一种基于多模情感识别技术的音视频输出方法
KR20210106657A (ko) * 2020-02-21 2021-08-31 주식회사 케이티 사용자의 감정에 기초하여 대화 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램
KR102658555B1 (ko) 2023-09-19 2024-04-18 씨에스쉐어링 주식회사 민원 통합 분석 시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101233628B1 (ko) * 2010-12-14 2013-02-14 유비벨록스(주) 목소리 변환 방법 및 그를 적용한 단말 장치
KR20150087671A (ko) * 2014-01-22 2015-07-30 삼성전자주식회사 음성 감정 인식 시스템 및 방법
KR20160104461A (ko) * 2015-02-26 2016-09-05 김윤희 고객의 감정 분석을 이용하는 전화번호 안내 장치, 전화번호 안내 시스템 및 전화번호 안내 방법
CN109584885A (zh) * 2018-10-29 2019-04-05 李典 一种基于多模情感识别技术的音视频输出方法
KR20210106657A (ko) * 2020-02-21 2021-08-31 주식회사 케이티 사용자의 감정에 기초하여 대화 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램
KR102658555B1 (ko) 2023-09-19 2024-04-18 씨에스쉐어링 주식회사 민원 통합 분석 시스템

Similar Documents

Publication Publication Date Title
Hansen et al. Speaker recognition by machines and humans: A tutorial review
US10388279B2 (en) Voice interaction apparatus and voice interaction method
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
TW557443B (en) Method and apparatus for voice recognition
US20180122377A1 (en) Voice interaction apparatus and voice interaction method
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
CN111081279A (zh) 语音情绪波动分析方法及装置
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
Gajšek et al. Speaker state recognition using an HMM-based feature extraction method
KR20100020066A (ko) 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
CN111968645B (zh) 一种个性化的语音控制系统
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Bhukya Effect of gender on improving speech recognition system
Kajarekar et al. Speaker recognition using prosodic and lexical features
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
Charisma et al. Speaker recognition using mel-frequency cepstrum coefficients and sum square error
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
CN112086108A (zh) 认知障碍预测方法及电子设备、存储装置
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application