KR100463706B1

KR100463706B1 - 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법

Info

Publication number: KR100463706B1
Application number: KR1020040029247A
Authority: KR
Inventors: 조성호
Original assignee: 주식회사 엠포컴
Priority date: 2004-04-27
Filing date: 2004-04-27
Publication date: 2004-12-29

Abstract

유무선을 통해 획득된 음성 정보를 이용하여 상대방의 감정 상태를 판별하고, 판별된 감정 상태와 관련된 다양한 서비스를 이용자에게 제공하기 위하여, 본 발명은, 사람의 음성을 측정 및 데이터화하고 이를 바탕으로 사용자의 감정 상태를 판별하는 시스템에 있어서, 상기 사용자의 음성 신호를 수신하는 음성 신호 수신 모듈; 상기 수신된 신호로부터 음성 정보를 추출하는 음성 정보 추출 모듈; 미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류하여 감정 모델을 생성하고 이를 저장하는 감정 모델 처리 모듈; 상기 음성 정보 추출 모듈에 의해 추출된 음성 정보 및 상기 감정 모델 처리 모듈에 의해 저장된 감정 모델의 특성값을 추출하는 특성값 추출 모듈; 상기 특성값 추출 모듈로부터 추출된 상기 사용자의 음성 정보의 특성값과 상기 감정 모델 처리 모듈에 저장된 상기 감정 모델의 특성값을 비교하여 상기 사용자의 감정 상태를 판별하는 감정 상태 판별 모듈; 및 상기 감정 상태 판별 모듈에 의해 판별된 상기 사용자의 감정 상태에 관한 판별 결과를 상기 사용자에 통지하는 출력 모듈을 포함하는 음성 인식 기반 감정 분석 시스템을 제공한다.

Description

유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템 및 그 방법 {A system and a method for analyzing human emotion based on voice recognition through wire or wireless network}

본 발명은 사람의 음성을 측정 및 수치화하고 이를 바탕으로 사용자의 감정 상태를 통계적인 모형을 통해 판별하는 시스템 및 그 방법에 관한 것이다.

음성 인식은 사람의 억양과 음의 높낮이가 서로 다르다는 특성에 기인하여 사람의 음소, 음절, 단어 등의 진동을 분석하여 수치화하는 것으로서, 마이크 등을 통해 전달된 음성의 특징을 분석한 후 가장 근접한 것을 찾아내는 방식이다. 음성인식 방식에는 일반적으로 모든 사람의 음성을 인식하는 화자독립형과 학습시킨 특정인의 목소리만을 인식하는 화자종속형의 두 가지 방식이 있다. 현재 음성 인식 알고리즘을 연구하는 기관 및 회사는 미국의 AT&T, ITT, 벨코어, TI, 프랑스의 프랑스텔레콤 등으로 많으며 상품화된 제품도 다수 있다. 우리나라에서도 이러한 음성 인식 기술을 응용한 발명들이 증가하고 있으며, 최근에는 음성 인식을 이용한 절수장치(등록번호:20-0337364-0000), 음성 인식 기능을 가지는 디지털 카오디오(등록번호:20-0329530-0000), 음성 인식 장치가 구비된 컴퓨터 케이스(등록번호:20-0326584-0000), 문자 음성 인식 핸드폰(등록번호:20-0315715-0000), 음성 인식 기능을 갖는 무선 핸즈프리(등록번호:20-0315201-0000), 음성 인식 장치가 내장된 멀티콘센트(등록번호:20-0312791-0000), 음성인식 전원 스위칭 장치(등록번호:20-0299210-0000), 음성인식 조명장치(등록번호:20-0301535-0000) 등 다양한 분야에 적용된 발명들이 특허 또는 실용신안으로 출원되고 있다.

인간의 감정 상태를 판별하는 감정 분석 기술은 판별된 감정 상태에 따라 각각 다른 신호를 발생시킴으로써 인간과 기계가 마치 사람이 대화하듯 자연스런 인터페이스가 이루어지도록 하기 위해 사용될 수 있는 기술이다. 여기에는 감정 상태를 인식하는 기술, 그에 따른 신호처리 기술, 응용기술 등이 있으며, 특허출원된 발명으로는 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어(출원번호:10-2003-7003615), 모바일 상에서의 감정에 따른 음원과 아바타 제공방법(출원번호:10-2003-0081299), 웨이블렛 변환을 이용한 음성에서의 감정인식(출원번호:10-2002-0026056), 사용자의 감정을 표현하는 인형(등록번호:20-0313090-0000), 감정표현이 가능한 장신구(등록번호:20-0301592-0000) 등이 있다.

음성 인식에 기반한 감정 분석의 일 형태로 '거짓말탐지기' 를 들 수 있다. 이는 폴리그래프의 일종으로서, 폴리그래프란 사람의 흥분, 긴장 또는 감정적인 갈등의 상태를 미리 정의해 놓은 기준에 의하여 감지하는 시스템을 의미한다. 보통 사람이 거짓말을 할 때는 정신적인 긴장으로 인하여 성대의 혈액량이 저하하게 되고, 부득이한 신경작용으로 인하여 성대에서는 일그러진 음파가 나오게 되며, 거짓말 탐지기는 이를 감지하여 화자의 거짓말 여부를 판별하는 기술이다. 최근에는 화자가 편안한 분위기에서 발언할 수 있도록 유도하여 보다 효과적으로 그 발언에 대한 진실성을 판단할 수 있도록 상대방의 음성을 인식하여 거짓임을 판독할 수 있는 거짓말 탐지 기능을 가지는 휴대용 단말기 및 이를 이용한 거짓말 탐지방법에 관한 발명(등록번호:10-0381970-0000)이 출원된 바 있다.

그러나 도 1 및 도 2에서와 같이 상기 거짓말 탐지기는 거짓말을 하고 있다는 특정상황에서 음성 특성을 판별하는 시스템이며, 상대방이 거짓말 탐지가 되는지 인식하지 못하도록 휴대용 단말기를 통해 음성정보를 입력받고 휴대용 단말기의 LCD를 통해 판정값을 출력하는 시스템으로 한정하고 있으며, 일상생활에서 사람의 다양한 감정을 음성정보를 통해 분석, 판별할 수는 없다는 한계가 있다.

또한, 기존의 감정 분석 기술은 음성 등의 신호로부터 감정 상태를 검출, 판별하는 방법에 관한 것이거나, 사용자가 설정한 감정 상태에 따라 서로 다른 신호 처리를 수행하는 시스템에 관한 것으로서, 이를 하나의 프로세스로 통합하여 다양한 서비스를 제공할 수 있는 시스템이 필요하다.

상기한 문제점을 해결하기 위해, 본 발명은 유무선을 통해 획득된 음성정보를 이용하여 상대방의 감정 상태를 판별하고, 판별된 감정 상태와 관련된 다양한 서비스를 이용자에게 제공하는 것을 목적으로 한다.

도 1은 종래의 거짓말 탐지 기능을 가지는 휴대용 단말기를 이용한 거짓말 탐지방법의 일예를 도시한 흐름도.

도 2는 종래의 거짓말 탐지 기능을 가지는 휴대용 단말기의 일예를 도시한 블록도.

도 3은 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템이 적용되는 예를 개념적으로 도시한 도면.

도 4는 본 발명의 일실시예에 따른 음성 인식 기반 유무선 감정 분석 시스템의 구성을 개략적으로 나타내는 블록도.

도 5은 본 발명의 일실시예에 따른 음성 인식 기반 유무선 감정 분석 방법을 개략적으로 나타내는 흐름도.

도 6은 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템이 휴대폰 플랫폼 기반의 애플리케이션 및 ARS 시스템 연동을 통한 무선 부가 서비스의 형태로 적용되는 예를 개념적으로 도시한 도면.

도 7은 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템이 음성사서함과 연동한 감정 분석 서비스의 형태로 적용되는 예를 개념적으로 도시한 도면.

도 8은 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템이 ARS 단독형 감정 분석 서비스의 형태로 적용되는 예를 개념적으로 도시한 도면.

도 9는 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템이 감정 분석 소프트웨어를 단말기에 포팅하는 임베디드 서비스의 형태로 적용되는 예를 개념적으로 도시한 도면.

* 도면의 주요 부분에 대한 부호의 설명 *

100: 음성 인식 기반 감정 분석 시스템 102: 음성 신호 수신 모듈

104: 음성 정보 추출 모듈 106: 감정 모델 처리 모듈

108: 특정값 추출 모듈 116: 감정 상태 판별 모듈

118: 출력 모듈

상기 목적을 달성하기 위하여 본 발명은, 사람의 음성을 측정 및 데이터화하고 이를 바탕으로 사용자의 감정 상태를 판별하는 시스템에 있어서, 상기 사용자의 음성 신호를 수신하는 음성 신호 수신 모듈; 상기 수신된 신호로부터 음성 정보를 추출하는 음성 정보 추출 모듈; 미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류하여 감정 모델을 생성하고 이를 저장하는 감정 모델 처리 모듈; 상기 음성 정보 추출 모듈에 의해 추출된 음성 정보 및 상기 감정 모델 처리 모듈에 의해 저장된 감정 모델의 특성값을 추출하는 특성값 추출 모듈; 상기 특성값 추출 모듈로부터 추출된 상기 사용자의 음성 정보의 특성값과 상기 감정 모델 처리 모듈에 저장된 상기 감정 모델의 특성값을 비교하여 상기 사용자의 감정 상태를 판별하는 감정 상태 판별 모듈; 및 상기 감정 상태 판별 모듈에 의해 판별된 상기 사용자의 감정 상태에 관한 판별 결과를 상기 사용자에 통지하는 출력 모듈을 포함하는 음성 인식 기반 감정 분석 시스템을 제공한다.

또한, 본 발명의 다른 국면에 의하면, 본 발명은 사람의 음성을 측정하여 이를 데이터화하고, 이를 바탕으로 사용자의 감정 상태를 판별하는 방법에 있어서,(1) 상기 사용자의 음성 신호를 수신하는 단계; (2) 상기 수신된 신호로부터 음성 정보를 추출하는 단계; (3) 미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류함으로써 생성된 감정 모델을 소정의 데이터베이스에 저장하는 단계; (4) 상기 단계 (2)에서 추출된 음성 정보 및 상기 단계 (3)에서 저장된 감정 모델의 특성값을 추출하는 단계; (5) 상기 사용자의 음성 정보의 특성값과 상기 감정 모델의 특성값을 비교하여 상기 사용자의 감정 상태를 판별하는 단계; 및 (6) 상기 단계 (5)에서 판별된 상기 사용자의 감정 상태에 관한 결과를 상기 사용자에 통지하는 단계를 포함하는 음성 인식 기반 감정 분석 방법을 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 관하여 상세히 설명한다.

도 3은 본 발명의 일실시예에 따른 음성 인식 기반 감정 분석 시스템 (이하, 간략히 "시스템"이라고도 한다.) 100이 적용되는 실예의 하나를 개념적으로 도시한 도면이다. 본 발명의 시스템 100은 유선 또는 무선 네트워크(이하, 통칭하여 "네트워크"라 한다.) 10에 접속되며, 상기 네트워크 10에 접속된 사용자의 단말기 20, 22 및 24와 소정의 통신 프로토콜에 따라 데이터를 송수신할 수 있는 컴퓨터 시스템인 것이 바람직하다. 물론, 본 발명의 시스템 100은 상기와 달리 스탠드 얼론형(stand-alone type)으로 구현되어 독립적으로 사용될 수도 있다. 이에 관하여는 도 6 내지 도 9의 다른 실시예에 관하여 후술한다.

본 실시예의 시스템 100은 사람의 음성을 측정 및 데이터화하고 이를 바탕으로 사용자의 감정 상태를 판별하는 시스템으로서, 네트워크 10을 경유하여 사용자의 단말기 20, 22 및/또는 24로부터 수신한 사용자의 음성 신호를, 미리 측정 및 저장되어 다양한 카테고리로 분류된 불특정 다수인의 다양한 감정에 관한 기준 음성 정보 (이하, "감정 모델"이라고도 한다.)와 비교하여, 현재 본 시스템을 이용중인 사용자의 감정 상태를 판별하고, 그 판별의 결과를 사용자의 단말기 20, 22 및/또는 24로 제공한다.

사용자는 네트워크 10을 통하여 소정의 통신 프로토콜에 따라 시스템 100과 데이터를 송수신할 수 있는 것이면 어떠한 것이든 자신의 사용자측 단말기로서 이용할 수 있다. 예를 들면, 사용자는 유선 네트워크에 접속할 수 있는 전화기, 개인용 컴퓨터(PC) 20, 무선 네트워크에 접속할 수 있는 개인용 컴퓨터 22 또는 무선 네트워크에 접속할 수 있는 휴대 전화기, 개인휴대단말기(PDA) 등의 휴대용 단말기 24 (이하, "이동 통신 단말기"라고도 한다.) 등을 이용할 수 있다.

네트워크 10은 인터넷 통신망인 것이 바람직하지만, 그 이외에도 이미 알려진 무선 네트워크나 이동 통신망 등의 다른 통신 네트워크일 수도 있다. 네트워크의 종류에 따라, 그에 접속하는 방식이나 그 네트워크에 적합한 통신 프로토콜 등은 달라질 수 있지만, 이들의 상세는 본 발명의 기술 분야에서 이미 널리 알려진 것일 뿐 아니라, 본 발명의 기술 사상을 실시하기 위한 단순한 설계적 사항으로서 그의 요체를 구성하는 것이 아니므로, 이에 관한 설명을 생략한다.

도 4는 본 발명의 일실시예에 따른 시스템 100의 구성을 개략적으로 나타내는 블록도이다. 도시된 바와 같이, 본 발명의 시스템 100은, 음성 신호 수신 모듈102, 음성 정보 추출 모듈 104, 감정 모델 처리 모듈 106, 특성값 추출 모듈 108, 감정 상태 판별 모듈 116 및 출력 모듈 118을 포함한다.

한편, 본 발명의 시스템 100은 사용자의 식별자(ID)와 같은 사용자에 관한 정보 등을 이용하여 사용자의 감정 판별 서비스를 이용하기 위하여 필요한 소정의 인증 처리를 수행하는 인증 모듈 120 및/또는 유료 서비스를 수행하는 경우 감정 판별 서비스의 이용에 대한 이용료를 결제하기 위한 결제 정보 운영 모듈 130을 더욱 포함할 수 있다.

나아가, 상기 시스템 100은, 통상적인 컴퓨터 시스템이 구비하는 각종 하드웨어(도시 안 됨)와 이들을 이용하여 실행되는 각종 소프트웨어(도시 안 됨)를 더욱 포함하여, 통상적인 컴퓨터 시스템이 수행하는 기능을 수행할 수 있다. 따라서, 본 발명의 시스템 100은, 유선 또는 무선 인터넷을 통하여 접속할 수 있는 유무선 웹 서버(Web server)로서 구현될 수 있으며, 이 경우 상기 소프트웨어의 일종으로서 복수의 웹 페이지(Web pages)를 포함할 수도 있으며, 상기 각 모듈들은 상기 웹 페이지의 구성 요소로서 구현될 수도 있음을 주의하여야 한다.

이하에서 상기 각 모듈들에 관하여 보다 상세히 설명한다. 먼저, 음성 신호 수신 모듈 102는 사용자의 음성 신호를 수신한다. 본 실시예에서의 음성 신호 수신 모듈 102는 유선 또는 무선 네트워크 10을 통하여 시스템 100과 연결된 사용자의 이동 통신 단말기 24로부터 사용자의 음성 신호를 수신한다.

음성 정보 추출 모듈 104는 수신된 신호로부터 음성 정보를 추출한다. 음성 정보 추출 모듈 104는 수신된 사용자의 음성 신호를 디지털 신호로 변환하여 사용자의 음성 정보를 추출한다. 음성 정보 추출 모듈 104는 추출된 사용자의 음성 정보를 소정의 메모리(도시 안 됨)에 저장하여도 좋다. 또한, 음성 정보 추출 모듈 104는 사용자의 음성 정보를 소정 포맷의 음성 화일(file; 예컨대, WAVE, MP3, WMA 등의 포맷의 화일)의 형태로 저장하여도 좋다.

감정 모델 처리 모듈 106은, 미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류하여 생성한 감정 모델을 저장한다. 본 실시예에서 감정 모델은, 예컨대, 보통, 기쁨, 슬픔, 분노, 호감, 짜증, 무료 및 거짓 등의 8가지 감정으로 분류된다.

본 실시예의 감정 모델 처리 모듈 106은, 음성 정보 수집 모듈 110, 감정 모델 분류 모듈 112 및 감정 모델 데이터베이스 114를 포함한다. 음성 정보 수집 모듈 110은, 측정 대상으로서의 불특정인으로부터 각각의 감정 별로, 예컨대 3회 이상 발성된 음성을 측정하여 감정 모델에 관한 음성 정보를 수집한다. 상기 측정 대상은 감정 모델의 표본 수집을 위한 불특정 다수인인 것이 바람직하다. 본 실시예에서, 측정 대상은 성별 및 연령 별로 분류된다. 예를 들면, 측정 대상은 남성 및 여성, 그리고 10대, 20대 또는 30대로 분류될 수 있다.

따라서, 음성 정보 수집 모듈 110은 성별, 연령대별로 분류된 각 측정 대상으로부터, 각 감정별 음성 발성을 측정하여 감정 모델 생성을 위한 음성 정보를 수집한다. 본 실시예의 음성 정보 수집 모듈 110은 각 측정 대상으로부터 각 감정별로 최소 3회씩 음성 발성을 측정한다. 또한, 각 측정 대상은 각 감정별로 음성 발성을 충분히 연습한 후 측정에 임하는 것이 바람직하다. 측정된 감정 모델의 형성을 위한 음성 정보는 소정의 신호 처리 프로세서(도시 안 됨)에 의해 데이터화하여 디지털 신호로 처리되는 것이 바람직하다. 물론, 음성 정보를 아날로그 신호로서 처리할 수도 있다.

감정 모델 분류 모듈 112는 음성 정보 수집 모듈 110에 의해 생성된 감정 모델에 관한 음성 정보에 대하여, 예컨대 하나 또는 그 이상의 통계적 방법을 이용하여 정보의 패턴을 분석하여, 상기 감정 모델을 감정별 및/또는 측정 대상별로 분류한다.

본 실시예의 감정 모델 분류 모듈 112는 정보의 패턴 분석을 위하여 판별 모형, 로지스틱 모형, 신경망 구조 (Neural Network), 의사 결정 나무 (Decision Tree) 등을 적용한 후, 그 중 정확도(예컨대, 70%~78%의 수준) 및/또는 신뢰도가 높은 방법을 최종적으로 선택한다. 표 1은 각 모형과 그 정확도, 신뢰도 또는 시스템 구현성의 관계를 나타내는 표이다. 하기 표에 기초하여 적합한 모형을 선택하여 적용하는 것이 바람직하다.

[표 1]

모형	정확도	신뢰도	시스템 구현성
판별 모형	0	0	0
로지스틱 모형	0	0	◎
신경망 구조	◎	0	△
의사 결정 나무	△	△	◎

(단, ◎는 매우 좋음, ○는 좋음, △는 보통을 나타낸다.)

감정 모델 데이터베이스 114는, 감정 모델 분류 모듈 112에 의해 분류된 감정 모델을 감정별 및/또는 측정 대상별로 데이터베이스화하여 저장한다.

특성값 추출 모듈 108은, 음성 정보 추출 모듈 114에 의해 추출된 사용자의 음성 정보 및 감정 모델 데이터베이스 114에 저장된 감정 모델의 특성값을 추출한다. 본 실시예에서의 음성 정보 및 감정 모델의 특성값으로는, 사용자의 음성 정보 및 감정 모델의 피치, 에너지, 포먼트 (formant) 및 주파수가 이용된다.

감정 상태 판별 모듈 116은, 특성값 추출 모듈 108로부터 추출된 사용자의 음성 정보의 특성값과 감정 모델 데이터베이스 114에 저장된 감정 모델의 특성값을 비교하여 사용자의 감정 상태를 판별한다. 감정 상태 판별 모듈 116은 사용자의 음성 정보의 특성값과 감정 모델의 특성값을 비교하여 당해 사용자의 감정 상태를 판별한다.

또한, 감정 상태 판별 모듈 116은, 부가 정보 수신 모듈 1162를 포함하여도좋다. 부가 정보 수신 모듈 1162은 미리 당해 사용자의 성별 및 연령대에 관한 정보를 사용자의 단말기 24 또는 인증모듈 120으로부터 수신하여, 수신된 성별 및 연령대에 관한 정보에 근거하여, 사용자의 음성 정보의 특성값과 대응하는 동일한 성별 및 연령대에 있어서의 감정 모델의 특성값을 비교하여 사용자의 감정 상태를 판별하여도 좋다.

또한, 감정 상태 판별 모듈 116은, 사용자의 감정 상태를 판별하기 위하여, 음성 정보의 카테고리의 중요도에 따라 가중치를 주어 선택하는 방법, 각 변수별 편차의 합의 최소값으로 판별하는 방법, 이를 혼합하는 방법 등을 이용할 수 있으며, 기존의 감정 판별 알고리즘을 이용할 수도 있다. 이용할 알고리즘의 선택에 있어서는 그 정확도 뿐만 아니라 시스템에서의 처리속도 및 시스템 안정성 또한 고려하는 것이 바람직하다.

출력 모듈 118은, 감정 상태 판별 모듈 116에 의해 판별된 사용자의 감정 상태에 관한 결과를 사용자에 통지한다. 본 실시예에서의 출력 모듈 118은 사용자의 이동 통신 단말기 24로 사용자의 감정 상태에 관한 판별 결과를 전송한다.

출력 모듈 118은 본 실시예의 시스템 100과 연계할 수 있는 다양한 엔터테인먼트 서비스 및 부가 서비스의 형태로 사용자의 감정 상태에 관한 판별 결과를 제공할 수 있다.

예컨대, 첫째로, 도 6과 같이 휴대폰 플랫폼의 가상 머신(VM) 기반의 애플리케이션 및 ARS 시스템 연동을 통한 무선 부가 서비스의 형태로 사용자의 감정 상태에 관한 판별 결과를 제공할 수 있다. VM(Virtual Machine)은 휴대폰 이용자가 무선 인터넷 서버에 접속해 자신이 원하는 프로그램을 다운로드 받아 이를 휴대폰에서 구현할 수 있는 기술로, 현재 국내의 각 통신사들은 휴대전화 가입자들을 대상으로 VM기반 서비스를 제공하고 있다.

따라서, 유무선 단말기를 통해 음성사서함 장치(VMS) 52에 저장된 음성정보를 본 발명 시스템 100을 통해 음성인식 및/또는 감정분석 처리를 수행하며, 그 결과를 출력모듈 118을 통해 기존 ARS 시스템의 데이터베이스 서버 54로 출력한다. 서버에 저장된 출력값은 다른 서비스 데이터와 함께 ARS 서비스 제공자 55를 통하거나 또는 직접 VM 기반 서비스 제공자 56에게 전달되며, VM 기반 서비스 제공자는 전달된 값을 음성, 문자, 소리, 기타 전기신호 등 다양한 형태로 휴대폰 이용자 241에게 제공한다. 본 서비스 과정에서는 음성정보가 단말기의 특성에 따라 디지털 또는 아날로그의 형태로 음성사서함 장치에 저장되며, 판별된 감정 상태 결과는 무선인터넷을 통해 휴대폰 단말기로 전달된다.

둘째, 도 7과 같이 음성사서함(VMS)과 연동한 감정 분석 서비스의 형태로 사용자의 감정 상태에 관한 판별 결과를 제공할 수 있다. 유무선 단말기를 통해 음성사서함 장치(VMS) 52에 저장된 음성정보를 본 발명 시스템 100을 통해 음성인식 및/또는 감정분석 처리를 수행하며, 그 결과를 출력모듈 118을 통해 다양한 형태로 유무선 단말기 사용자에게 제공한다. 본 서비스는 음성사서함과 연동한 것이므로 주로 감정상태에 따라 일정하게 녹음되어 있는 음성의 형태로 서비스가 제공될 것이나, 반드시 이에 한정되는 것은 아니다. 본 서비스 과정에서는 음성정보가 단말기의 특성에 따라 디지털 또는 아날로그의 형태로 음성사서함 장치에 저장되며, 판별된 감정 상태 결과는 전화망 51을 통해 유무선 단말기로 전달된다.

셋째, 도 8과 같이 ARS 단독형 감정 분석 서비스의 형태로 사용자의 감정 상태에 관한 판별 결과를 제공할 수 있다. ARS는 각종 정보를 음성으로 저장하여 두고 사용자가 전화를 이용하여 시스템에 접속하면 음성으로 필요한 정보를 검색할 수 있도록 사용법을 알려주고, 필요한 정보를 찾으면 이를 음성으로 들려 주는 시스템이다. 따라서, 유무선 단말기를 통해 음성사서함 장치(VMS) 52에 저장된 음성정보를 본 발명 시스템 100을 통해 음성인식 및/또는 감정분석 처리를 수행하며, 그 결과를 출력모듈 118을 통해 기존 ARS 시스템의 데이터베이스 서버 54로 출력한다. 서버에 저장된 출력값은 다른 서비스 데이터와 함께 ARS 서비스 제공자 55를 통하거나 또는 직접 음성, 문자, 소리, 기타 전기신호 등 다양한 형태로 유무선 단말기 이용자에게 제공된다. 본 서비스 과정에서는 음성정보가 단말기의 특성에 따라 디지털 또는 아날로그의 형태로 음성사서함 장치에 저장되며, 판별된 감정 상태 결과는 전화망을 통해 유무선 단말기로 전달된다.

넷째, 도 9와 같이 감정 분석 소프트웨어를 단말기에 포팅하는 임베디드(embedded) 서비스의 형태로 사용자의 감정 상태에 관한 판별 결과를 제공할 수 있다. 이는 도 4의 음성 정보 수신 모듈 102, 음성 정보 추출 모듈 104, 특성값 추출 모듈 108, 감정상태 판별 모듈 116, 출력모듈 118로 구성된 소프트웨어를 전화기, PC, 휴대폰, PDA 등의 단말기에 포팅하는 것이며, 이러한 단말기 242에 감정모델 데이터베이스 모듈 106을 통해 감정분석을 위한 기본데이터를 제공함으로써, 본 발명의 시스템 100이 구성될 수 있다.

이와 같은 임베디드 서비스를 제공할 경우, 이용자는 통화, 통신 중 실시간으로 상대방의 감정상태를 판별하게 된다. 한편, 데이터가 축적됨에 따라 감정 모델 처리 모듈을 업데이트함으로써, 단말기에 임베디드 된 소프트웨어를 별도로 업그레이드 하지 않고도 항상 최신 데이터를 이용한 감정분석이 가능하게 된다. 본 서비스 과정에서는 음성정보가 단말기 내에서 디지털 신호로 변환되며, 데이터베이스로부터의 신호는 무선인터넷을 통해 단말기로 보내어 진다. 판별된 감정상태 결과는 단말기 형태에 따라 문자, 안내음성, 소리, 기타 전기신호의 형태로 출력된다.

다음으로, 본 발명의 바람직한 실시예에 따른 음성 인식 기반 감정 분석 방법에 관하여 설명한다. 도 5은 본 발명의 바람직한 실시예에 따른 음성 인식 기반 감정 분석 방법을 개략적으로 나타내는 흐름도이다.

먼저, 프로세스가 시작되면, 시스템 100의 음성 신호 수신 모듈 102는 유선 또는 무선 네트워크 10을 통하여 시스템 100과 연결된 사용자의 이동 통신 단말기 24로부터 사용자의 음성 신호를 수신한다 (S202). 다음으로, 음성 정보 추출 모듈 104는 수신된 사용자의 음성 신호를 데이터화 하여 사용자의 음성 정보를 추출한다 (S204).

한편, 감정 모델 처리 모듈 106의 음성 정보 수집 모듈 110은 성별, 연령대별로 층화된 각 측정 대상으로부터 각 감정별 음성 발성을 예컨대 3회씩 측정하여 감정 모델의 형성을 위한 음성 정보를 수집하며, 측정된 감정 모델의 형성을 위한 음성 정보는 소정의 신호 처리 프로세서(도시 안 됨)에 의해 데이터화하여 처리된다 (S222).

다음으로, 감정 모델 분류 모듈 112는 음성 정보 수집 모듈 110에 의해 생성된 감정 모델에 관한 음성 정보에 대하여, 판별 모형, 로지스틱 모형, 신경망 구조 (Neural Network), 의사 결정 나무 (Decision Tree)를 순차적으로 적용한 후, 그 중 정확도 및 신뢰도가 높은 방법을 최종적으로 선택하는 방법으로 정보의 패턴을 분석하여, 감정 모델을 감정 별 및 측정 대상 별로 분류한다 (S224).

다음으로, 감정 모델 데이터베이스 114는 감정 모델 분류 모듈 112에 의해 분류된 감정 모델을 감정별 및/또는 측정 대상별로 데이터베이스화하여 저장한다 (S226).

한편, 특성값 추출 모듈 108은 음성 정보 추출 모듈 114에 의해 추출된 사용자의 음성 정보 및 감정 모델 데이터베이스 114에 저장된 감정 모델에 대하여 각각의 특성값인 피치, 에너지, 포먼트 (formant) 및/또는 주파수 등의 파라미터를 추출한다 (S206).

다음으로, 감정 상태 판별 모듈 116은 특성값 추출 모듈 108로부터 추출된 사용자의 음성 정보의 특성값과 대응하는 동일한 성별 및/또는 연령대에 있어서의 감정 모델 데이터베이스 114에 저장된 감정 모델의 특성값을 각 감정별로 비교하여, 사용자의 감정 상태를 판별한다 (S208).

다음으로, 출력 모듈 118은 감정 상태 판별 모듈 116에 의해 판별된 사용자의 감정 상태에 관한 결과를 사용자의 단말기 24로 전송한다 (S210).

이상 본 발명을 그 바람직한 실시예에 대하여 상세히 설명하였지만, 이에 한정되는 것은 아니며, 당해 기술분야에서 통상의 지식을 가진 자에 의해 다양하게 변형 실시할 수 있음은 물론이다.

본 발명에 의하면, 유무선을 이용한 전화를 하거나, ARS시스템, 음성사서함 등의 서비스를 이용함에 있어서 화자의 감정 상태를 판별하여 그에 관련된 다양한 부가서비스를 제공할 수 있다.

Claims

사람의 음성을 측정 및 데이터화하고 이를 바탕으로 사용자의 감정 상태를 판별하는 시스템에 있어서,

상기 사용자의 음성 신호를 수신하는 음성 신호 수신 모듈;

상기 수신된 신호로부터 음성 정보를 추출하는 음성 정보 추출 모듈;

미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류하여 감정 모델을 생성하고 이를 저장하는 감정 모델 처리 모듈;

상기 음성 정보 추출 모듈에 의해 추출된 음성 정보 및 상기 감정 모델 처리 모듈에 의해 저장된 감정 모델의 특성값을 추출하는 특성값 추출 모듈;

상기 특성값 추출 모듈로부터 추출된 상기 사용자의 음성 정보의 특성값과 상기 감정 모델 처리 모듈에 저장된 상기 감정 모델의 특성값을 비교하여 상기 사용자의 감정 상태를 판별하는 감정 상태 판별 모듈; 및

상기 감정 상태 판별 모듈에 의해 판별된 상기 사용자의 감정 상태에 관한 판별 결과를 상기 사용자에 통지하는 출력 모듈을 포함하는 음성 인식 기반 감정 분석 시스템.
제1항에 있어서,

상기 음성 신호 수신 모듈은 유선 또는 무선 네트워크를 통하여 상기 감정 분석 시스템과 연결된 상기 사용자의 단말기로부터 상기 사용자의 음성 신호를 수신하며,

상기 출력 모듈은 상기 사용자의 단말기로 상기 사용자의 감정 상태에 관한 판별 결과를 전송하는 음성 인식 기반 감정 분석 시스템.
제1항에 있어서,

상기 음성 정보 및 감정 모델의 특성값은 상기 음성 정보 및 감정 모델의 피치, 에너지, 포먼트 (formant) 및 주파수로 구성된 군에서 선택된 어느 하나 또는 그 이상의 특성값인 음성 인식 기반 유무선 감정 분석 시스템.
제1항 있어서,

상기 감정 모델은 보통, 기쁨, 슬픔, 분노, 호감, 짜증, 무료 및 거짓으로 구성된 군에서 선택된 두 가지 이상의 감정으로 분류되는 음성 인식 기반 유무선 감정 분석 시스템.
제1항 있어서,

상기 감정 모델 처리 모듈은,

불특정인인 각 측정 대상으로부터 각 감정 별로 발성된 음성을 측정하여 감정 모델에 관한 음성 정보를 수집하는 음성 정보 수집 모듈;

상기 음성 정보 수집 모듈에 의해 수집된 감정 모델에 관한 음성 정보에 대하여 소정의 통계적 방법을 이용하여 정보의 패턴을 분석하고, 분석된 음성 정보를상기 감정 모델로서 감정별 및/또는 측정 대상별로 분류하는 감정 모델 분류 모듈; 및

상기 감정 모델 분류 모듈에 의해 분류된 감정 모델을 감정별 및/또는 측정 대상별로 데이터베이스화하여 저장하는 감정 모델 데이터베이스를 포함하는 음성 인식 기반 유무선 감정 분석 시스템.
제4항 있어서,

상기 측정 대상은 성별 및/또는 연령 별로 분류되는 음성 인식 기반 유무선 감정 분석 시스템.
제4항 있어서,

상기 감정 모델 분류 모듈은 판별 모형, 로지스틱 모형, 신경망 구조 (Neural Network) 및 의사 결정 나무 (Decision Tree)의 군에서 선택된 어느 하나 또는 그 이상의 방법을 적용한 후, 그 중 정확도 및/또는 신뢰도가 높은 방법을 최종적으로 선택하는 음성 인식 기반 유무선 감정 분석 시스템.
제1항에 있어서,

상기 출력 모듈은 휴대폰 플랫폼 (VM) 기반의 애플리케이션 및 ARS 시스템 연동을 통한 무선 부가 서비스의 형태로 제공되며, 판별된 감정 상태 결과는 무선인터넷을 통해 휴대폰 단말기로 전달되는 음성 인식 기반 감정 분석 시스템.
제1항에 있어서,

상기 출력 모듈은 음성사서함 (VMS)과 연동한 감정 분석 서비스의 형태로 제공되며, 판별된 감정 상태 결과는 전화망을 통해 유무선 단말기로 전달되는 음성 인식 기반 감정 분석 시스템.
제1항에 있어서,

상기 출력 모듈은 ARS 단독형 감정 분석 서비스의 형태로 제공되며, 판별된 감정 상태 결과는 전화망을 통해 유무선 단말기로 전달되는 음성 인식 기반 감정 분석 시스템.
사람의 음성을 측정하여 이를 데이터화하고, 이를 바탕으로 사용자의 감정 상태를 판별하는 방법에 있어서,

(1) 상기 사용자의 음성 신호를 수신하는 단계;

(2) 상기 수신된 신호로부터 음성 정보를 추출하는 단계;

(3) 미리 사람의 음성을 측정하여 데이터화된 음성 정보를 적어도 하나 이상의 감정별로 분류함으로써 생성된 감정 모델을 소정의 데이터베이스에 저장하는 단계;

(4) 상기 단계 (2)에서 추출된 음성 정보 및 상기 단계 (3)에서 저장된 감정 모델의 특성값을 추출하는 단계;

(5) 상기 사용자의 음성 정보의 특성값과 상기 감정 모델의 특성값을 비교하여 상기 사용자의 감정 상태를 판별하는 단계; 및

(6) 상기 단계 (5)에서 판별된 상기 사용자의 감정 상태에 관한 결과를 상기 사용자에 통지하는 단계를 포함하는 음성 인식 기반 감정 분석 방법.
제11항에 있어서,

상기 단계 (1)에서는, 유선 또는 무선 네트워크를 통하여 상기 감정 분석 시스템과 연결된 상기 사용자의 단말기로부터 상기 사용자의 음성 신호가 수신되며,

상기 단계 (5)에서는, 상기 사용자의 단말기로 상기 사용자의 감정 상태에 관한 판별 결과가 전송되는 음성 인식 기반 감정 분석 시스템.
제11항에 있어서,

상기 음성 정보 및 감정 모델의 특성값은, 상기 음성 정보 및 감정 모델의 피치, 에너지, 포먼트 (formant) 및 주파수로 구성된 군에서 선택된 어느 하나 또는 그 이상의 특성값인 음성 인식 기반 감정 분석 방법.
제11항 있어서,

상기 감정 모델은 보통, 기쁨, 슬픔, 분노, 호감, 짜증, 무료 및 거짓으로 구성된 군에서 선택된 두 개 이상의 감정으로 분류되는 음성 인식 기반 감정 분석 방법.
제11항 있어서,

상기 단계 (3)은,

(3.1) 불특정인인 측정 대상으로부터 각 감정별로 발성된 음성을 측정하여 감정 모델에 관한 음성 정보를 수집하는 단계;

(3.2) 상기 단계 (3.1)에서 생성된 감정 모델에 관한 음성 정보에 대하여 소정의 통계적 방법을 이용하여 정보의 패턴을 분석하고, 분석된 음성 정보를 상기 감정 모델로서 감정별 및/또는 측정 대상별로 분류하는 단계; 및

(3.3) 상기 단계 (3.2)에서 분류된 감정 모델을 감정별 및/또는 측정 대상별로 데이터베이스화하여 저장하는 단계를 포함하는 음성 인식 기반 감정 분석 방법.
제15항에 있어서,

상기 측정 대상은 성별 및/또는 연령 별로 분류되는 음성 인식 기반 감정 분석 방법.
제15항 있어서,

상기 단계 (3.2)에서는, 판별 모형, 로지스틱 모형, 신경망 구조 (Neural Network), 의사 결정 나무 (Decision Tree)의 군에서 선택된 어느 하나 또는 그 이상의 방법이 적용된 후, 그 중 정확도 및/또는 신뢰도가 높은 방법이 최종적으로 선택되는 음성 인식 기반 감정 분석 방법.