KR20200028767A

KR20200028767A - 발화자의 감정 분석에 따른 언어 순화 장치

Info

Publication number: KR20200028767A
Application number: KR1020180107339A
Authority: KR
Inventors: 김화연
Original assignee: 한국전자통신연구원
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-17

Abstract

본 발명은 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것이다. 본 발명은 입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부; 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부; 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부; 변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부; 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부; 입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함한다.

Description

발화자의 감정 분석에 따른 언어 순화 장치{Language refinement apparatus based on emotion analysis of speaker}

본 발명은 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것으로, 더욱 상세하게는 콜센터와 같이 통화 서비스에서 발화에 내포된 감정을 분석하여 부정적인 발화문이 존재할 경우 해당 발화문을 대응되는 긍정적인 발화문으로 변환하여 청자에게 제공하는 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것이다.

최근 고객과 직접 접촉하지 않고 전화로 비대면적인 상호서비스를 하는 콜센터에서 근무하는 상담사들의 감정 노동 문제에 대해 심각성이 대두되고 있다.

이를 해결하기 위해 다양한 방법들이 제시되고 있다. 상담 전화가 시작되기 전에 따뜻한 문구를 들려주어 감정 노동을 일으키는 부정적인 언어 표현을 예방하는 방법, 인공지능 기술을 적용하여 고객의 감정을 분석하여 부정적인 표현을 사용하는 고객을 담당 상담사에게 새로 연결하는 등의 방법이 시도되고 있다.

하지만, 종래에 제안된 방법들은 고객의 의지에 맡기는 간접적인 해결 방법이거나, 다른 상담사에게 새로 연결함으로써 상담 전화가 부자연스럽고, 모든 상담사들이 감정 노동 문제로부터 벗어날 수 없는 해결 방법이다.

본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, 화자의 발화에 내포된 감정을 분석하고, 부정적인 발화 구문을 순화된 발화 구문으로 변환하여 청자에게 제공하여 자연스러운 상담 전화 서비스를 제공하면서도 직접적으로 감정 노동 문제를 해결할 수 있는 발화자의 감정 분석에 따른 언어 순화 장치를 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부; 상기 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부; 상기 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부; 변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부; 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부; 입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함한다.

상기 음성 특징 벡터 추출부는, MFCC를 이용하는 것이 바람직하다.

그리고 상기 언어 특징 벡터 추출부는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상의 방법을 이용하는 것이다.

한편, 상기 음성 특징 벡터는, 음성의 억양, 크기, 속도 정보를 포함한다.

상기 감정 분류부는, 음성 특징 벡터와 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터로 생성한 후 상기 감정 특징 벡터를 "convolutional layer와 max-pooling"을 이용하여 감정 특징을 추출하고, 추출된 감정 특징을 "fully connected layer와 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값으로 분류한다.

그리고, 상기 문장 변환부는, 문장 데이터가 입력되면, 삭제 용어사전 데이터베이스를 참조하여 해당 문장 데이터에서 삭제용어를 삭제하고, "LSTM 기반의 Seq2seq 모델 및 후처리 작업"을 통해 상기 삭제용어가 삭제된 문장 데이터를 순화된 문장 데이터로 변환한다.

상기 음성 합성부는, 상기 순화된 문장 데이터와 입력된 음성 특징 벡터에 따른 음성 임베딩 값을 음성 임베딩 데이터베이스에서 검출하고, 상기 순화된 문장 데이터를 검출된 음성 임베딩 값에 합성한 합성 음성 언어를 생성한다.

본 발명의 일 실시예에 따르면, 발화자의 본래 음성 언어를 순화하여 변환하되 본래 음성의 특징이 유지됨에 따라 순화된 합성 음성을 청자에게 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치의 구성 블록을 설명하는 도면이다.
도 2는 도 1에 도시된 감정 분류부의 세부 구성 블록을 설명하기 위한 도면.
도 3은 도 1에 도시된 문장 변환부의 세부 구성 블록을 설명하기 위한 도면.
도 4는 도 1에 도시된 음성 합성부의 세부 구성 블록을 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법을 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치의 구성 블록을 설명하는 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치는 음성 데이터 추출부(100), 음성 특징 벡터 추출부(200), 문자 데이터 변환부(300), 언어 특징 벡터 추출부(400), 감정 분류부(500), 문장 변환부(600) 및 음성 합성부(700)를 포함한다.

음성 데이터 추출부(100)는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출한다. 일 예로, 발화자가 "그만 좀 전화해라 xx"와 같이 발화하면, 음성 데이터 추출부(100)는 발화자의 원본 음성에서 "그만 좀 전화해라 xx"라는 음성 데이터를 추출한다.

그리고 음성 특징 벡터 추출부(200)는 음성 데이터 추출부(100)에 의해 추출된 음성 데이터에서 음성 특징 벡터를 추출한다. 본 실시예에서는 음성 특징 벡터 추출부(200)는 MFCC(Mel Frequency Cepstral Coefficient)가 이용되고 있으나, 이를 한정하지 않고, HMM Classifier를 이용한 LPC(Linear Prediction Coefficients) 또는 LPCC(Linear Prediction Cepstral Coefficient) 기법이 이용될 수도 있다. 여기서, 상기 음성 특징 벡터는 음성의 억양, 크기, 속도 정보를 포함한다.

문자 데이터 변환부(300)는 음성 데이터 추출부(100)에 의해 상기 추출된 음성 데이터를 문자 데이터로 변환한다.

언어 특징 벡터 추출부(400)는 문자 데이터 변환부(300)에 의해 변환된 문자 데이터에서 언어 특징 벡터를 추출한다. 이때, 언어 특징 벡터 추출부(400)는 단어의 긍정 또는 부정에 대한 정보, 단어의 존댓말 여부에 대한 정보를 포함하는 감정 단어 사전 데이터베이스를 참조하여 언어 특징 벡터를 추출한다. 본 실시예에서의 언어 특징 벡터 추출부(400)는 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.

감정 분류부(500)는 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 원본 음성의 감정을 분류한다. 본 실시예에서의 감정 분류부(500)는 도 2에 도시된 바와 같이, 음성 특징 벡터 추출부(200)로부터 제공되는 음성 특징 벡터와 언어 특징 벡터 추출부(400)로부터 제공되는 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터를 생성한다(S501).

이후, 감정 분류부(500)는 "콘볼루션 계층(convolutional layer)과 통합 계층(max-pooling)"을 이용하여 생성된 감정 특징 벡터의 감정 특징을 추출하고(S502), 추출된 감정 특징을 "완전하게 연결된 계층(fully connected layer)과 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값(긍정은 1, 부정은 0)으로 분류한다(S503). 이러한, 감정 분류부(500)는 심층 신경망의 한 종류인 콘볼루션 신경망이 이용될 수 있다.

한편, 문장 변환부(600)는 입력된 원본 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환한다. 본 실시예에서의 문장 변환부(600)는 도 3에 도시된 바와 같이, 문장 데이터(예, "그만 좀 전화해라 XX")가 입력되면(S601), 삭제 용어사전 데이터베이스(601)를 참조하여 해당 문장 데이터에서 삭제용어(예, XX)를 삭제한다(S602).

이후, 문장 변환부(600)는 언어 특징 벡터를 참조하여 "LSTM(Long Short Term Memory) 기반의 Seq2seq 모델 및 후처리 작업"을 통해 삭제용어가 삭제된 문장 데이터("그만 좀 전화해라")를 순화된 문장 데이터("죄송하지만 전화를 자제해주셨으면 좋겠습니다")로 변환한다(S603). 여기서, 삭제 용어사전 데이터베이스(601)에는 비속어 및 금지어 정보가 저장된다.

이어서, 음성 합성부(700)는 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달한다. 여기서, 상기 음성 합성부(700)는 도 4에 도시된 바와 같이, 상기 순화된 문장 데이터와 입력된 음성 특징 벡터에 따른 음성 임베딩 값을 음성 임베딩 데이터베이스(701)에서 검출하고, 상기 순화된 문장 데이터를 검출된 음성 임베딩 값에 합성한 합성 음성을 생성한다.

도 5는 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법을 설명하기 위한 순서도이다.

도 5에 도시된 바와 같이, 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법은 발화자의 감정 분석에 따른 언어 순화 장치의 세부 구성에 의해 수행되는 것이 바람직하다.

먼저, 음성 데이터 추출부(100)는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출한다(S100).

이어서, 음성 특징 벡터 추출부(200)는 상기 추출된 음성 데이터에서 음성 특징 벡터를 추출한다(S200). 본 실시예에서는 음성 특징 벡터 추출부(200)는 MFCC(Mel Frequency Cepstral Coefficient)가 이용되고 있으나, 이를 한정하지 않고, HMM Classifier를 이용한 LPC(Linear Prediction Coefficients) 또는 LPCC(Linear Prediction Cepstral Coefficient) 기법이 이용될 수도 있다. 여기서, 상기 음성 특징 벡터는, 음성의 억양, 크기, 속도 정보를 포함한다.

한편, 문자 데이터 변환부(300)는 상기 추출된 음성 데이터를 문자 데이터로 변환한다(S300). 본 실시예에서의 언어 특징 벡터 추출부(400)는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.

그리고, 언어 특징 벡터 추출부(400)는 변환된 문자 데이터에서 언어 특징 벡터를 추출한다(S400). 본 실시예에서의 언어 특징 벡터 추출부(400)는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.

이후, 감정 분류부(500)는 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하고, 분류된 음성의 감정이 부정적 음성 언어인지를 판단한다(S500). 본 실 시예에서의 감정 분류부(500)는, 음성 특징 벡터와 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터로 생성한 후 상기 감정 특징 벡터를 "convolutional layer와 max-pooling"을 이용하여 감정 특징을 추출하고, 추출된 감정 특징을 "fully connected layer와 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값으로 분류한다.

만약, 상기 판단 단계(S500)에서 분류된 음성의 감정이 부정적 음성 문장이면(YES), 문장 변환부(600)는 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환한다(S600). 본 실시예에서의 문장 변환부(600)는, 문장 데이터가 입력되면, 삭제 용어사전 데이터베이스를 참조하여 해당 문장 데이터에서 삭제용어를 삭제하고, "LSTM 기반의 Seq2seq 모델 및 후처리 작업"을 통해 상기 삭제용어가 삭제된 문장 데이터를 순화된 문장 데이터로 변환한다.

이어서, 음성 합성부(700)는 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달한다(S700).

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100 : 음성 데이터 추출부 200 : 음성 특징 벡터 추출부
300 : 문자 데이터 변환부 400 : 언어 특징 벡터 추출부
500 : 감정 분류부 600 : 문장 변환부
700 : 음성 합성부

Claims

입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부;
상기 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부;
상기 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부;
변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부;
상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부;
입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및
변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함하는 발화자의 감정 분석에 따른 언어 순화 장치.