KR20200064539A

KR20200064539A - 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법

Info

Publication number: KR20200064539A
Application number: KR1020180150747A
Authority: KR
Inventors: 주민성
Original assignee: 주식회사 위드마인드
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-06-08

Abstract

본 발명은 수집된 음성 생체 정보를 PCM 데이터로 변환하는 변환 단계(S10), 상기 S10 단계에서 변환된 상기 PCM 데이터에서 주파수와 데시벨 정보를 추출하는 추출 단계(S20), 상기 S20 단계에서 추출한 정보를 감정맵 기반 알고리즘으로 분석하는 분석 단계(S30), 및 상기 S30단계에서 분석한 감정 정보 결과값을 도출하는 도출 단계(S40)를 포함하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법을 제공한다.

Description

음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법{Emotion map based emotion analysis method classified by characteristics of pitch and volume information}

본 발명은 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법에 관한 것이다.

음성 인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하게 하는 것을 말한다.

음성 인식의 기술은 컴퓨터와 정보 통신의 발달로 인해 인간이 직접 움직이지 않고서도 원거리에서 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.

이러한 음성 인식 기술을 바탕으로 다양한 음성 인식 응용 시스템이 개발되고 있다. 종래의 음성 인식 시스템들은 인간의 음성을 일방적으로 받아들이고, 인간의 음성에 따라 그 요구를 처리하는 일방향적인 시스템에 머무르고 있었다. 또한, 인간과 서로 대화를 통해 쌍방향으로 교류하는 시스템은, 그 필요성이 날로 증대됨에도 불구하고, 기술이 충분하지 못하다.

한편, 인간의 감정 상태를 판별하는 감정 분석 기술은 판별된 감정 상태에 따라 각각 다른 신호를 발생시킴으로써 인간과 기계가 마치 사람이 대화하듯 자연스런 인터페이스가 이루어지도록 하기 위해 사용될 수 있는 기술이다. 여기에는 감정 상태를 인식하는 기술, 그에 따른 신호처리 기술, 응용기술 등이 있으며, 음성 인식에 기반한 감정 분석의 일 형태로 '거짓말탐지기' 를 들 수 있다. 이는 폴리그래프의 일종으로서, 폴리그래프란 사람의 흥분, 긴장 또는 감정적인 갈등의 상태를 미리 정의해 놓은 기준에 의하여 감지하는 시스템을 의미한다. 보통 사람이 거짓말을 할 때는 정신적인 긴장으로 인하여 성대의 혈액량이 저하하게 되고, 부득이한 신경작용으로 인하여 성대에서는 일그러진 음파가 나오게 되며, 거짓말 탐지기는 이를 감지하여 화자의 거짓말 여부를 판별하는 기술이다. 최근에는 화자가 편안한 분위기에서 발언할 수 있도록 유도하여 보다 효과적으로 그 발언에 대한 진실성을 판단할 수 있도록 상대방의 음성을 인식하여 거짓임을 판독할 수 있는 거짓말 탐지 기능을 가지는 휴대용 단말기 및 이를 이용한 거짓말 탐지방법에 관한 발명이 출원된 바 있다.

이와 같이, 음성을 단순히 인식하는 것에 한정하지 않고 음성을 분석하여 화자의 감정을 분석하는 기술에 대한 요구가 증가하고 있다.

대한민국 등록 실용신안 20-0313090 대한민국 등록 실용신안 20-0301592 대한민국 등록 특허 10-0381970 대한민국 등록 특허 10-1248353

본 발명은 화자의 음성을 분석하여 화자의 감정을 분석하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법을 제공하는 것을 목적으로 한다.

상기한 바와 같은 목적을 달성하기 위하여 본 발명은,

수집된 음성 생체 정보를 PCM 데이터로 변환하는 변환 단계(S10);

상기 S10 단계에서 변환된 상기 PCM 데이터에서 주파수와 데시벨 정보를 추출하는 추출 단계(S20);

상기 S20 단계에서 추출한 정보를 감정맵 기반 알고리즘으로 분석하는 분석 단계(S30); 및

상기 S30단계에서 분석한 감정 정보 결과값을 도출하는 도출 단계(S40)를 포함하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법을 제공한다.

상기 S20 추출 단계는 고속 푸리에 변환 공식을 사용하여 상기 PCM 데이터에서 주파수와 데시벨로 정보를 추출하는 것을 특징으로 한다.

상기 주파수는 감정과 연관되고, 상기 데시벨은 신체와 연관되도록 분류되어 상기 감정맵 알고리즘이 셋팅되는 것을 특징으로 한다.

상기 감정맵은 음정 주파수와 음량 데시벨에 따라 감정을 피곤, 기쁨, 흥분, 나른, 편안, 긴장, 무기력, 안정, 불안으로 나누는 것을 특징으로 한다.

본 발명의 실시 형태에 따르면 음정과 음량 정보를 통해 보다 빠르고 정확하게 화자의 감정을 분석해 낼 수 있는 효과가 있다.

도 1 은 본 발명의 실시예에 따른 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법을 나타낸 흐름도이다.
도 2 는 도 1의 변환 단계의 음성 분석 데이터 변환의 일 예를 나타낸 도면이다.
도 3 은 도 1의 추출 단계의 추출과정의 일 예를 나타낸 도면이다.
도 4 는 도 1의 분석 단계에서 사용하는 감정맵의 일 예를 나타낸 도면이다.
도 5 는 본 발명의 일 실시예에 따른 코드 도출 예를 나타내는 도면이다.
도 6 및 7은 추출한 음성을 x축 음량, y축 음정으로 나타낸 그래프이다.

본 출원의 실시형태의 목적, 기술적 해법 및 이점을 더 명확히 하기 위해, 본 출원의 실시형태에서의 기술적 해법이 본 출원의 실시형태에서의 수반 도면을 참조하여 아래에서 명확히 그리고 완전히 설명될 것이다. 설명되는 실시형태가 본 출원의 실시형태의, 전부라기보다는, 일부에 불과함은 분명하다. 본 출원에서의 실시형태에 기반하여, 창의적 수고 없이 당업자에 의해 획득되는 모든 다른 실시형태는 본 출원의 보호 범위 내에 드는 것이다.

도 1은 본 출원의 일 실시형태에 따라 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법의 개략적 순서도이다. 도 1에서 도시된 바와 같이, 방법은 다음을 포함한다:

본 발명의 실시예에 따른 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법은 수집된 음성 생체 정보를 PCM 데이터로 변환하는 변환 단계(S10), 상기 단계에서 변환된 PCM 데이터에서 주파수와 데시벨 정보를 추출하는 추출 단계(S20), 추출한 정보를 감정맵 기반 알고리즘으로 분석하는 분석 단계(S30), 분석한 감정 정보 결과값을 도출하는 도출 단계(S40)를 포함한다.

상기 변환 단계는 도 2에 도시된 바와 같이, 수집된 음성 생체정보를 PCM 데이터 형태로 변환한다.

추출 단계는 도 3에 도시된 바와 같이, 고속 푸리에 변환(fast Fourier transform ; FFT) 공식을 사용하여 PCM 데이터를 음정(주파수)와 음량(데시벨 정보)로 추출한다.

분석 단계는 도 4에 도시된 바와 같은 감정맵을 이용하여 음성을 분석한다. 즉, 추출된 음정(주파수)와 음량(데시벨) 정보를 대입하여 코드값 도출을 위하여 감정맵 알고리즘에 대입한다. 감정맵은 음량과 음정의 수치를 기반으로 하여 9개의 감정을 포함한다. 9개의 감정은 흥분, 긴장, 불안, 기쁨 편안, 안정, 피곤, 나른, 무기력이 있다. 음량은 목소리의 크기를 말하고 음정은 목소리의 높이를 나타낸다. x축 데시벨(dB)은 음량을 나타내고, 데시벨이 폭이 넓다는 것은 큰 소리를 의미하고, 폭이 좁다는 것은 작은 소리를 의미하며 음량은 신체의 상태와 연관된다. Y축 주파수(Hz)는 음정을 나타내고, 주파수가 높다는 것은 높은 소리를 의미하고, 주파수가 낮다는 것은 낮은 소리를 의미하고, 음정은 감정의 상태와 연관된다. 추출된 음성 데이터가 도 6의 그래프와 같을 경우, X축 데시벨이 폭이 크며 Y축 주파수가 높은 상태로 흥분 상태를 의미한다. 추출된 음성 데이터가 도 7의 그래프와 같을 경우, X축 데시벨이 폭이 좁으며 Y축 주파수가 낮은 상태로 무기력한 상태를 의미한다. 이와 같은 방식으로 9개 감정을 맵으로 나타낸 것이 도 4로 나타낼 수 있다.

9개의 감정은 가중치 비율에 따라 정해지는데, 감정 비율과 신체 비율은 수집된 빅데이터 통계 및 감정맵의 신뢰도 확보를 위한 정기적인 임상 실험 결과값에 따라 정해지는 것이 바람직하다.

아래 함수는 감정맵 구성의 함수 설정 예이다.

감정 정보 추출의 코드값은 x가 음량, 데시벨을 나타내고, y가 음정, 주파수를 나타낼 때 아래와 같이 함수 설정이 가능하다.

감정맵 알고리즘 함수 세팅 후 x,y축에 FFT로 변환된 음량, 음정 데이터를 대입할 경우 9가지 감정 중 하나로 추출되는 것을 알 수 있다.

도출 단계는 코드 도출 예를 나타내는 도 5를 참조하여 설명하기로 한다. 도시되는 바와 같이, 종합 : 89, 긴장 : 23, 피곤 : 78, 흥분 : 67, 긴장레벨 : 3, 피곤레벨 : 2, 흥분레벨 : 3, 날짜 2017년 9월 1일, 음성데이터 수집 시간 : 120s, 도출 값 : '피로를 극복하는' 으로 코드가 도출되었다. 종합 즉, 감정맵 알고리즘을 통해 나온 결과를 점수화하여 사용자 서비스를 위해 설정해둔 코드에 대입하여 사용자 서비스 최종 종합 결과를 도출할 수 있다.

당업자는 위에서 설명된 시스템, 장치 및 유닛의 구체적 작동 과정이 상기 방법 실시형태에서의 대응하는 과정을 참조하여 획득될 수 있고, 그리고, 설명의 편의 및 명확화를 위해, 여기에서 반복되지는 않음을 명확히 이해할 수 있다.

본 출원에서 제공된 수 개의 실시형태에서, 상기 설명된 방법은 하드웨어의 형태로 구현될 수 있고, 그리고 또한 하드웨어 더하기 소프트웨어 기능 유닛의 형태로 구현될 수 있다.

소프트웨어 기능 유닛의 형태로 구현된 경우 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 소프트웨어 기능 유닛은 저장 매체에 저장되고, 그리고 (퍼스널 컴퓨터, 서버, 네트워크 디바이스 등일 수 있는) 컴퓨터 디바이스 또는 프로세서가 본 출원의 실시형태에서의 방법의 단계의 일부분을 실행하는 것을 가능하게 하도록 사용된 수 개의 명령어를 포함한다. 저장 매체는 USB 플래시 디스크, 모바일 하드 디스크, ROM(Read-Only Memory), RAM(Random Access Memory), 자기 디스크, 광학 디스크, 또는 프로그램 코드를 저장할 수 있는 다른 매체를 포함한다.

마지막으로, 위의 실시형태는, 본 출원을 한정한다기보다는, 본 출원의 기술적 해법을 설명하도록 사용되는 것에 불과함을 유념해야 하고, 본 출원이 상기 실시형태를 참조하여 상세히 설명되고 있기는 하지만, 당업자는 그들이 여전히 위의 실시형태에서 설명된 기술적 해법에 수정을 하거나, 또는 그 기술적 특징의 일부분에 균등한 대체를 수행할 수 있음을 이해하여야 하고, 그리고 이들 수정 또는 대체는 대응하는 기술적 해법의 본질이 본 출원의 실시형태의 기술적 해법의 취지 및 범위로부터 벗어나게 하려는 의도는 아니다.

Claims

수집된 음성 생체 정보를 PCM 데이터로 변환하는 변환 단계(S10);
상기 S10 단계에서 변환된 상기 PCM 데이터에서 주파수와 데시벨 정보를 추출하는 추출 단계(S20);
상기 S20 단계에서 추출한 정보를 감정맵 기반 알고리즘으로 분석하는 분석 단계(S30); 및
상기 S30단계에서 분석한 감정 정보 결과값을 도출하는 도출 단계(S40)를 포함하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법.
제 1 항에 있어서,
상기 S20 추출 단계는 고속 푸리에 변환 공식을 사용하여 상기 PCM 데이터에서 주파수와 데시벨 정보를 추출하는 것을 특징으로 하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법.
제 2 항에 있어서,
상기 주파수는 감정과 연관되고, 상기 데시벨은 신체와 연관되도록 분류되어 상기 감정맵 알고리즘이 셋팅되는 것을 특징으로 하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법.
제 1 항에 있어서,
상기 감정맵은 음정 주파수와 음량 데시벨에 따라 감정을 피곤, 기쁨, 흥분, 나른, 편안, 긴장, 무기력, 안정, 불안으로 나누는 것을 특징으로 하는 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법.