KR101851795B1 - 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법 - Google Patents

도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법 Download PDF

Info

Publication number
KR101851795B1
KR101851795B1 KR1020170178889A KR20170178889A KR101851795B1 KR 101851795 B1 KR101851795 B1 KR 101851795B1 KR 1020170178889 A KR1020170178889 A KR 1020170178889A KR 20170178889 A KR20170178889 A KR 20170178889A KR 101851795 B1 KR101851795 B1 KR 101851795B1
Authority
KR
South Korea
Prior art keywords
emotion
score
specific
domain
word
Prior art date
Application number
KR1020170178889A
Other languages
English (en)
Inventor
이일영
김종우
윤창희
Original Assignee
주식회사 마인드셋
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마인드셋 filed Critical 주식회사 마인드셋
Priority to KR1020170178889A priority Critical patent/KR101851795B1/ko
Application granted granted Critical
Publication of KR101851795B1 publication Critical patent/KR101851795B1/ko

Links

Images

Classifications

    • G06F17/2785

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명은 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법에 관한 것이다. 이를 위하여, 입력 데이터를 일반 문자열 형태로 입력받고, 입력 데이터를 복수개의 어구 정보로 구분하는 구분 모듈; 구분 모듈에서 구분된 복수개의 어구 정보 중 타겟 어구를 제외한 나머지 어구인 주변 어구의 특정 감정에 관한 감정 강도 및 타겟 어구와의 문장 구조상의 거리를 이용하여 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 모듈; 및 스코어 모듈에서 생성된 타겟 어구의 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 모듈;이 제안될 수 있다. 이에 따르면, 신조어나 도메인에 특화된 감정표현 등을 다이나믹하게 감성분석할 수 있는 효과가 발생된다.

Description

도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법{Apparatus and method for update of emotion dictionary using domain-specific terminology}
본 발명은 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법에 관한 것이다.
감성분석이란 텍스트의 정보를 추출하는 텍스트 마이닝과는 다르게 특정 주제에 관한 주관적인 인상, 감정, 태도, 개인의 의견과 같은 비정형 정보들을 텍스트로부터 정형화하는 분석을 의미한다.
감성분석은 초기에 영화 리뷰, 제품 리뷰나 복수의 tweet 정보 등을 이용하여 특정 제품, 컨텐츠나 서비스 등에 대한 복수 사용자들의 감정적 극단성(polarity)을 판단하는데 이용되었다.
감성분석의 방법으로는 knowledge-based techniques, statistical methods, hybrid approaches가 있다. knowledge-based techniques는 텍스트를 기쁨, 슬픔, 두려움, 지루함과 같은 확실한 효과 단어(affect word)의 존재에 기반한 affect categories로 분류한다. statistical methods는 latent semantic analysis, support vector machines, bag of words, semantic orientation 등과 같은 기계학습을 사용하는 방법이다. hybrid approach는 두 접근 방법을 모두 사용한다. 이러한 방법을 달성하는데 이용되는 분류 모델은 Entropy 기반의 모델들이나 SVM과 같은 머신 러닝이 이용될 수 있다.
한국 등록특허, 10-1544450, 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템, 주식회사 코스콤 한국 등록특허, 10-1739538, 기계 학습 및 규칙에 기반한 감성 분석 시스템 및 방법, 주식회사 솔트룩스 한국 등록특허, 10-1136007, 문서 감성 분석 시스템 및 그 방법, (주)워드워즈
하지만, 이러한 기존의 감성분석은 사전에 정의된 감정사전에 기반하여 입력되는 text의 감성 수치를 정량화하게 된다. 도 1은 기존의 감성분석 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 기존의 감성분석은 정형화되어 있는 감정사전을 이용하게 된다. 구분 모듈에서 입력 텍스트를 단어 또는 어구 구조로 분절하고, 감성분석 모듈에서 감정 사전을 기초로 해당 입력 텍스트에 대응되는 감성 수치를 생성하게 된다. 감정사전은 효과 단어(affect word)로 분류된 특정 단어, 복수개의 단어로 구성된 특정 어구 등에 정적으로 정량화된 감성 수치를 부여해놓은 것을 의미한다. 따라서, 기존의 감정사전에 기반한 감성분석에 따르면 신조어나 도메인에 특화된 단어에 대해서는 아예 감정수치가 부여되지 않거나 실제 사용되는 감정에 대응되지 않는 감정수치를 출력하게 되는 문제가 발생되고 있다.
이러한 기존의 감성분석이 고객지원에 이용되는 챗봇에 적용되는 경우 더 큰 문제가 발생된다.
일반적인 고객지원 서비스는 인력과 인프라의 한계로 인해 고객들에게 만족할만한 서비스를 제공하지 못하는 상태인데, 이를 해결하고자 최근 챗봇 도입을 시도하는 회사가 늘어나고 있다. 하지만, 챗봇의 한계점이 명확한데, 그중 하나가 고객의 감정상태 파악이다.
고객지원 서비스의 특성상 고객의 불만사항이나 문제점에 대한 문의가 많기 때문에, 사용하는 단어나 표현에 욕설, 비속어 등 부정적인 내용을 많이 포함한다. 각각의 문의에 대해 처리하는 고객지원 서비스 직원들은 문의 작성자의 감정상태를 파악해 감정상태에 맞는 쿠션 멘트를 넣는다던지, 추가적으로 다른 서비스를 제공하는 방식으로 해결한다.
이와 같이, 감정상태 파악이 고객지원 서비스의 품질을 좌우하는 기본적인 특성이기 때문에, 챗봇이 감정상태를 제대로 파악을 하지 못한다면 좋은 품질의 고객지원 서비스를 자동화하기 어려운 문제가 발생된다.
기존의 연구 및 발명에서는 단어별로 정적으로 감정 수치를 부여하고 있고, 양극성을 띈 긍정과 부정의 척도에 따라 그 스케일을 매기고 그를 기반으로 문장 혹은 문단의 감정척도를 파악한다. 이는 고객의 불만사항을 그 긍정과 부정의 정도로만 판단하여 일차원적인 대답만을 내뱉게 되고 감정인식 기술을 적용하는 근본 이유인 고객의 기분(mood)에 따라 답변의 다양성을 제공하는 고품질의 고객지원 서비스를 구현할 수 없게 되는 또다른 문제를 낳는다.
이를 해결하고자 두려움, 놀람, 슬픔, 혐오, 화남, 기대, 기쁨 그리고 수용이라는 감정을 기반으로 하는 플러칙의 바퀴를 Opinion mining에 사용한 사례는 존재한다. 하지만, 이 사용예 조차 정적인 점수로 각각의 감정을 특정 단어에 한정시키고 그를 바탕으로 문장의 감정을 파악하기 때문에, 앞서 말한 새로운 단어의 감정수치 입력시 발생하는 문제점, 그리고 각기 다른 도메인 내에서의 특정 단어가 내포하는 감정선, 중의적 표현의 감정수치 등을 파악하기 어렵다는 문제점을 해결하지 못하고 있는 실정이다.
따라서, 본 발명의 다른 목적은, 위와 같은 문제를 해결하기 위해 실제 사용자들이 특정 단어 또는 특정 어구를 사용할 때 내포하고 있는 감정을 감정사전의 감정수치가 반영할 수 있도록 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법을 제공하는데에 있다.
이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.
본 발명의 목적은, 입력 데이터를 수신하여 감성분석을 하는 감성분석 모듈의 감정사전을 업데이트하기 위한 텍스트 감성 분석의 감정사전 업데이트 장치에 있어서, 상기 입력 데이터를 일반 문자열 형태로 입력받고, 상기 입력 데이터를 복수개의 어구 정보로 구분하는 구분 모듈; 상기 구분 모듈에서 구분된 복수개의 상기 어구 정보 중 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도 및 상기 타겟 어구와의 문장 구조상의 거리를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 모듈; 및 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 상기 감정사전을 업데이트하는 업데이트 모듈;을 포함하는 것을 특징으로 하는, 텍스트 감성 분석의 감정사전 업데이트 장치를 제공하여 달성될 수 있다.
본 발명의 다른 목적은, 입력 데이터를 수신하여 감성분석을 하는 감성분석 모듈의 감정사전을 업데이트하기 위한 텍스트 감성 분석의 감정사전 업데이트 장치에 있어서, 상기 입력 데이터를 일반 문자열 형태로 입력받고, 상기 입력 데이터를 복수개의 어구 정보로 구분하는 구분 모듈; 상기 구분 모듈에서 구분된 복수개의 상기 어구 정보 중 상기 감정사전에서의 감정 스코어를 갱신할 타겟인 타겟 어구를 선정하는 갱신 타겟 선정 모듈; 상기 갱신 타겟 선정 모듈에서 선정된 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도 및 상기 타겟 어구와의 문장 구조상의 거리를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 모듈; 및 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 상기 감정사전을 업데이트하는 업데이트 모듈;을 포함하는 것을 특징으로 하는, 텍스트 감성 분석의 감정사전 업데이트 장치를 제공하여 달성될 수 있다.
또한, 상기 갱신 타겟 선정 모듈은, 상기 구분 모듈에서 구분된 각각의 어구에 대해 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 상기 각각의 어구가 상기 특정 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 생성하며, 상기 갱신 타겟 선정 모듈은 상기 도메인 특화 점수를 기초로 상기 타겟 어구를 선정하는 것을 특징으로 할 수 있다.
또한, 상기 업데이트 모듈은, 상기 스코어 모듈에서 상기 타겟 어구에 대한 상기 갱신 감정 스코어가 생성될 때마다 저장하여 특정 개수를 번들로 쌓아놓고, 상기 번들에 저장된 상기 갱신 감정 스코어의 통계적 대표치로 상기 감정사전을 업데이트하는 것을 특징으로 할 수 있다.
또한, 상기 업데이트 모듈은, 상기 타겟 어구에 대한 상기 번들에 저장되는 상기 갱신 감정 스코어의 개수가 상기 특정 개수 이상이 되는 경우, 상기 스코어 모듈에서 수신된 상기 갱신 감정 스코어가 상기 번들에 기저장되어 있는 최대 또는 최소의 갱신 감정 스코어 중 상기 갱신 감정 스코어와 가장 먼 값을 대체하도록 구성되는 것을 특징으로 할 수 있다.
본 발명의 다른 목적은, 입력 데이터를 수신하여 감성분석을 하는 감성분석 모듈의 감정사전을 업데이트하는 감정사전 업데이트 장치를 이용한 텍스트 감성 분석의 감정사전 업데이트 방법에 있어서, 상기 감정사전 업데이트 장치의 일구성인 구분 모듈이, 상기 입력 데이터를 일반 문자열 형태로 입력받고, 상기 입력 데이터를 복수개의 어구 정보로 구분하는 구분 단계; 상기 감정사전 업데이트 장치의 일구성인 스코어 모듈이, 상기 구분 모듈에서 구분된 복수개의 상기 어구 정보 중 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도 및 상기 타겟 어구와의 문장 구조상의 거리를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및 상기 감정사전 업데이트 장치의 일구성인 업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 상기 감정사전을 업데이트하는 업데이트 단계;를 포함하는 것을 특징으로 하는, 텍스트 감성 분석의 감정사전 업데이트 방법을 제공하여 달성될 수 있다.
본 발명의 다른 목적은, 입력 데이터를 수신하여 감성분석을 하는 감성분석 모듈의 감정사전을 업데이트하는 감정사전 업데이트 장치를 이용한 텍스트 감성 분석의 감정사전 업데이트 방법에 있어서, 상기 감정사전 업데이트 장치의 일구성인 구분 모듈이, 상기 입력 데이터를 일반 문자열 형태로 입력받고, 상기 입력 데이터를 복수개의 어구 정보로 구분하는 구분 단계; 상기 감정사전 업데이트 장치의 일구성인 갱신 타겟 선정 모듈이, 상기 구분 모듈에서 구분된 복수개의 상기 어구 정보 중 상기 감정사전에서의 감정 스코어를 갱신할 타겟인 타겟 어구를 선정하는 갱신 타겟 선정 단계; 상기 감정사전 업데이트 장치의 일구성인 스코어 모듈이, 상기 갱신 타겟 선정 모듈에서 선정된 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도 및 상기 타겟 어구와의 문장 구조상의 거리를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및 상기 감정사전 업데이트 장치의 일구성인 업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 상기 감정사전을 업데이트하는 업데이트 단계;을 포함하는 것을 특징으로 하는, 텍스트 감성 분석의 감정사전 업데이트 방법을 제공하여 달성될 수 있다.
본 발명의 다른 목적은, 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 모듈; 상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 모듈; 상기 도메인 특화 점수 계산 모듈에서 계산된 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 모듈; 상기 도메인 특화 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 모듈; 상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 모듈; 및 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 모듈;을 포함하는, 도메인 특화 용어를 이용한 감정사전 업데이트 장치를 제공하여 달성될 수 있다.
본 발명의 다른 목적은, 구분 모듈이, 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 단계; 도메인 특화 점수 계산 모듈이, 상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 단계; 도메인 특화 용어 분류 모듈이, 상기 도메인 특화 점수 계산 모듈에서 계산된 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 단계; 타겟 어구 선정 모듈이, 상기 도메인 특화 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 단계; 스코어 모듈이, 상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및 업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 단계;를 포함하는, 도메인 특화 용어를 이용한 감정사전 업데이트 방법을 제공하여 달성될 수 있다.
본 발명의 목적은, 구분 모듈이, 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 단계; 도메인 특화 점수 계산 모듈이, 상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 단계; 도메인 특화 용어 분류 모듈이, 상기 도메인 특화 점수 계산 모듈에서 계산된 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 단계; 타겟 어구 선정 모듈이, 상기 도메인 특화 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 단계; 스코어 모듈이, 상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및 업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 단계;를 포함하는, 도메인 특화 용어를 이용한 감정사전 업데이트 방법을 컴퓨터 상에서 수행하는 기록매체에 저장된 프로그램을 제공하여 달성될 수 있다.
상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.
첫째, 본 발명의 일실시예에 따르면, 신조어나 도메인에 특화된 감정표현 등을 감성분석할 수 있는 효과가 발생된다.
둘째, 본 발명의 일실시예에 따르면, 감정사전에 기포함되어 감정수치가 부여되어 있던 기존의 단어/어구들도 최근 사용자들의 이용양태에 기반하여 업데이트 될 수 있는 효과가 발생된다.
셋째, 본 발명의 일실시예에 따르면, 사용자가 분류되는 세그먼트에 따라 동일한 어구에 다른 감정수치가 업데이트 될 수 있는 효과가 발생된다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 기존의 감성분석 장치를 도시한 모식도,
도 2는 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 장치를 나타낸 모식도,
도 3은 본 발명의 일실시예에 따른 문장 구조상의 거리의 예시를 도시한 예시도,
도 4는 본 발명의 일실시예에 따른 감정사전 업데이트 장치의 스코어 모듈을 구체적으로 도시한 모식도,
도 5는 아크 스탠다드 전이 기반 분석의 예시를 도시한 흐름도,
도 6은 아크 스탠다드 전이 기반 분석의 결과인 아크(의존 정보)를 도시한 모식도,
도 7은 본 발명의 일실시에에 따른 의존성 구문 분석 모듈이 아크 스탠다드 전이 기반 분석을 시행함에 있어서 전이 액션을 결정하는 분류모델의 예를 도시한 것,
도 8은 본 발명의 일실시예에 따른 의존성 구문 분석 모듈이 전이 액션의 선택/결정을 위한 분류모델의 학습에 이용하게 되는 입력 데이터의 예시,
도 9는 본 발명의 일실시예에 따른 의존성 구문 분석 모듈이 전이 액션의 선택/결정을 위한 분류모델의 학습 및 적용에 이용하게 되는 Neural-network 모델의 예시,
도 10은 Plutchik's model of emotions에 따른 감정 강도의 예시를 도시한 예시도,
도 11은 본 발명의 일실시예에 따른 스코어 모듈(5), 보다 구체적으로는 감정 모듈(52)이 타겟 어구의 갱신 감정 스코어를 계산하기 위한 Neural network의 학습에 이용하게 되는 입력 데이터의 예시,
도 12는 도 11의 예시에 해당하는 의존적 문장 구조를 도시한 모식도,
도 13은 본 발명의 변형예에 따른 감정사전 업데이트 장치를 도시한 모식도,
도 14는 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 방법을 도시한 흐름도,
도 15는 본 발명의 일실시예에 따른 스코어 단계(S11)을 구체적으로 도시한 흐름도,
도 16은 본 발명의 일실시예에 따른 업데이트 단계(S12)를 구체적으로 도시한 흐름도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
텍스트 감성 분석의 감정사전 업데이트 장치
도 2는 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 장치를 나타낸 모식도이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 장치(1)는 구분 모듈(2), 스코어 모듈(5), 업데이트 모듈(6)을 포함할 수 있고, 감정사전(4)과 연결되어 감정사전(4)을 다이나믹하게 업데이트 하도록 구성될 수 있다. 도 2의 모식도는 감성분석 파이프라인과 감정사전 업데이트 파이프라인으로 구분될 수 있는데, 본 발명의 일실시예에 따른 감정사전 업데이트 장치는 감정사전 업데이트 파이프라인으로 구분되고, 입력데이터가 구분 모듈(2)에 의해 구분되어 감성분석 모듈(3)을 지나 입력 텍스트에 대한 감성수치를 출력하는 파이프라인이 감성분석 파이프라인으로 구분될 수 있다.
구분 모듈(2)은 입력 텍스트를 일반 문자열 형태(Normal text)로 입력받게 되고, 이렇게 입력받은 일반 문자열 형태를 NLP 모듈에 의해 개체(entity)와 의미구(intent)와 같은 어구로 구분하여 어구 정보를 생성하는 모듈이다. NLP 모듈은 구체적으로 형태소 분석, 어간 추출, 불용어 추출, TF, TFIDF 등의 기능을 포함할 수 있다. 이후, 벡터화 모듈(Sentence2vec나 Word2vec, SyntexNet)에 의해 구분된 개체와 의미구를 벡터값으로 처리하게 될 수 있다. 이러한 벡터값 처리에는 Word2vec가 이용될 수 있고, 구체적으로는 n-gram, 문맥으로부터 단어를 예측하는 CBOW 모델, 또는 단어로부터 문맥을 예측하는 Skip-gram 모델 등이 이용될 수 있다. 즉, 구분 모듈(2)은 개체와 의미구를 포함하는 어구 정보를 생성할 수 있고, 벡터화 모듈에 의해 어구 정보는 벡터값으로 표현될 수 있다.
스코어 모듈(5)은 구분 모듈(2)에서 생성된 어구 정보 적어도 하나(타겟 어구)에 대해 적어도 하나의 주변 감정 단어(감정 사전에 감정 스코어가 기저장되어 있는 단어)의 특정 감정에 관한 감정 강도(intensity) 및 문장 구조상의 거리(syntax distance)를 이용하여 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 모듈이다.
문장 구조상의 거리와 관련하여, 도 3은 본 발명의 일실시예에 따른 문장 구조상의 거리의 예시를 도시한 예시도이다. 도 3에 도시된 바와 같이, 하나의 문장(S, sentence)은 크게 동사구(VP, Verb Phrase), 명사구(NP, Noun Phrase) 및 전치사구(Prepositional Phrase) 등으로 구성될 수 있고, 동사구는 동사(V, Verb), 형용사(Adjective), 명사구, 명사 등으로 구성될 수 있으며, 명사구는 명사(N, Noun), 관사(Determiner), 형용사 등으로 구성될 수 있다. 이러한 문장 구조(Syntax)는 계층을 구성하게 되는데, 이러한 계층간의 거리가 본 발명의 일실시예에 따른 문장 구조 거리로 정의될 수 있다. 특정 어구들이 문장 구조상 같은 계층에 있으면 문장 구조상의 거리가 가장 가까운 것이고, 몇 개의 계층을 상위로 올라가야 동일한 계층에 위치하게 되는지에 따라 문장 구조상의 거리가 결정된다.
예를 들어, 도 3에서 "a"와 "student"는 동일한 계층 내에 있으므로 문장 구조상의 거리가 가장 가까운 1로 결정될 수 있다. 하지만, "I"와 "Student"는 3 계층을 상위로 올라가야 동일한 계층에 위치하게 되므로 문장 구조상의 거리가 3으로 결정될 수 있다.
본 발명의 일실시예에 따르면, 문장 구조상의 거리를 구하기 위해 문장 구조를 의존성 구문 분석기(Dependency syntactic parser)로 분석할 수 있다. 도 4는 본 발명의 일실시예에 따른 감정사전 업데이트 장치의 스코어 모듈을 구체적으로 도시한 모식도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 스코어 모듈(5)은 의존성 구문 분석 모듈(50), 거리 모듈(51), 감정 모듈(52)을 포함할 수 있다.
의존성 구문 분석 모듈(50)은 의존성 구문 분석 방법을 이용하여 어구의 의존 정보를 생성하는 모듈이다. 의존성 구문 분석 모듈(50)은 각 어구들의 의존 정보를 생성하기 위해 전이 기반 분석(transition-based parsing)을 이용할 수 있다. 보다 구체적으로는 아크 스탠다드 전이 기반 분석(Arc-standard transition-based parsing)이 이용될 수 있다. 기계 학습 기반 의존 구문 분석은 그래프 기반 방식과 전이 기반 방식으로 나뉘는데, Eisner의 그래프 기반 방식은 일반적으로 O(w3) 이상의 복잡도(complexity)를 가지나, 전이 기반 방식은 O(w)의 선형적인 복잡도를 가지게 되어 긴 문장에서도 빠른 속도가 나타나는 효과를 발생시킬 수 있다. Eisner의 그래프 기반 방식은 한번에 여러 개의 의존성 트리 구조(dependency tree)를 검색하기 때문에 지나치게 많은 컴퓨팅 파워가 필요하게 되는 반면, 전이 기반 분석은 하나의 문장에 대해 하나의 의존성 트리만을 생성하게 되므로 계산량이 현저하게 감소되는 효과가 발생된다.
전이 기반 분석은 분석기(parser)가 문장의 특정한 초기 구성(initial configuration, 하나의 어구 또는 문장을 의미할 수 있음)에서 시작하게 되고, 몇 가지 전이 액션(transition action) 중 하나를 취하여 새로운 구성으로 전이되도록 구성될 수 있다. 새로운 구성으로 전이되는 과정에서 각각의 어구에 대한 의존 정보가 생성된다. 또한, 이러한 전이 기반 분석은 몇 가지 액션을 거친 뒤에 최종 구성(Terminal configuration)에 도달하는 경우 종료되게 되고, 전이 기반 분석기는 최종 구성과 연관되는 의존성 트리(Dependency tree) 정보(본 발명의 일실시예에 따른 의존 정보)를 출력하게 된다.
아크 스탠다드 전이 기반 분석은 전이 기반 분석의 한 종류로서, 문장 w(w1, w2, ... , wn의 단어, 어구 또는 어절로 구성된 문장)에 대해 각각의 단어, 어구 또는 어절을 포함하는 스택(stack)과 버퍼(buffer)를 구성요소로 이용할 수 있다. 아크 스탠다드 전이 기반 분석에서, 초기 구성(initial configuration)은 모든 어절(단어 또는 어구를 포함할 수 있고, 이하에서 설명의 편의를 위해 어절로 표기한다)이 버퍼에 들어가있고 스택은 비어있거나 [Root]만을 포함하도록 구성될 수 있다. 초기 구성에서는 각 어절과 어절의 의존성 트리 또는 의존성 그래프가 비어있게 된다. 최종 구성(Terminal configuration)은 버퍼가 비어있고 스택이 하나의 어절만을 포함하도록 구성될 수 있다.
아크 스탠다드 전이 기반 분석에서 가능한 전이 액션(transition action)에는 shift, left-arc, right-arc가 있다. Shift(sh)는 스택이 버퍼에 있는 다음 어절을 더 포함하도록 전이되는 액션이다. Left-arc(la)와 right-arc(ra)는 스택에 포함되어 있는 두 개의 어절(s1,s2)에 대해 의존 관계를 결정하여 상위 개념 어절인 s1에서 하위 개념 어절인 s2로 의존성 그래프 상에서 아크를 생성(본 발명의 일실시예에 따른 의존 정보를 생성)하고 하위 개념인 s2를 삭제하는 액션이다. la는 전이 기반 분석기의 전이 방향이 오른쪽인 경우 좌측의 어절에서 우측의 어절로 아크를 생성하고 우측의 어절을 삭제하는 액션이고, ra는 전이 기반 분석기의 전이 방향이 오른쪽인 경우 우측의 어절에서 좌측의 어절로 아크를 생성하고 좌측의 어절을 삭제하는 액션이다. la가 진행될지 ra가 진행될지는 각 어절의 의존 관계 및 형태소의 품사 종류에 따라 결정될 수 있다. 이하 표 1은 아크 스탠다드 전이 기반 분석의 구성과 전이 액션의 알고리즘을 구체적으로 정리한 것이다.
initial configuration σ=[Root] or ø, β=[w|w1, ... ,wn], A=ø
shift(sh) σ,wi|β,A → σ|wi,β,A
left-arc(la) σ|wi|wj,β,A → σ|wj,β,A∪{r(wj,wi)}
right-arc(ra) σ|wi|wj,β,A → σ|wi,β,A∪{r(wi,wj)}
terminal configuration σ=[wn], β=ø
위 표 1에서, σ는 스택, β는 버퍼, w는 문장, w1, ... , wn , wi, wj은 문장 내의 특정 어절, A는 아크(의존 정보)를 의미할 수 있다.
도 5는 아크 스탠다드 전이 기반 분석의 예시를 도시한 흐름도이고, 도 6은 아크 스탠다드 전이 기반 분석의 결과인 아크(의존 정보)를 도시한 모식도이다. 도 5,6에 도시된 바와 같이, 본 발명의 일실시예에 따라 의존성 구문 분석 모듈(50)이 아크 스탠다드 전이 기반 분석을 수행하면 의존 정보가 생성되게 된다. 도 5에서의 예제는 "I ate fish"이고, 파란색 박스는 스택, 노란색 박스는 버퍼를 의미한다. initial configuration으로, 스택에 Root가 포함되어 있는 것을 가정하였다. 본 발명의 일실시예에 따라 아크 스탠다드 전이 기반 분석을 수행하면 도 6과 같이 아크 정보가 생성되며, 이러한 아크 정보는 의존성 구문 분석 모듈(50)에서 의존 정보로 변환되어 생성될 수 있다. 도 5,6에서 Root, nsubj, obj는 문장 성분으로서, Root는 의존성 트리에서 최상위 노드, nsubj는 주격 명사구(Subject)로서 주어로 이용되는 명사구를 의미하고, dobj는 직접 목적어구(direct object)를 의미할 수 있다.
본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)은 아크 스탠다드 전이 기반 분석의 전이 액션의 선택/결정에 있어서, SVM, Perceptron, maxent classifier, Neural-network 분류모델 등을 이용할 수 있다. 이러한 분류모델의 학습(training) 시 사용될 수 있는 입력데이터의 요소(feature or attribute)로는 각 단어/어구/어절의 벡터값(word2vec 등 이용), 구성(configuration)에 대한 정보, 전이 액션(transition action)에 대한 정보 등을 포함할 수 있다. 도 7은 본 발명의 일실시에에 따른 의존성 구문 분석 모듈(50)이 아크 스탠다드 전이 기반 분석을 시행함에 있어서 전이 액션을 결정하는 분류모델의 예를 도시한 것이다. 이러한 입력데이터의 요소들에 의해 학습된 분류모델은 도 7과 같이 다음에 수행될 전이 액션을 결정할 수 있게 되는 효과가 발생된다. 도 7에서 feature 1,2는 각각 각 단어/어구/어절의 벡터값(word2vec 등 이용), 구성(configuration)에 대한 정보, 전이 액션(transition action)에 대한 정보 등이 될 수 있고, la는 left-arc, ra는 right-arc를 의미할 수 있다. 도 7은 설명의 편의를 위해 2차원으로 간략히 구성된 예시 그래프이고, 본 발명의 일실시예에 따르면 입력데이터의 요소 차원에 따라 n차원을 분류하는 분류 모델이 구성될 수 있다.
도 8은 본 발명의 일실시예에 따른 의존성 구문 분석 모듈이 전이 액션의 선택/결정을 위한 분류모델의 학습에 이용하게 되는 입력 데이터의 예시를 도시한 것이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)은 아크 스탠다드 전이 기반 분석의 전이 액션의 선택/결정에 있어서 Neural Network이 이용되는 경우, 분류모델의 학습을 위한 입력 데이터 세트는 각각의 전이 기반 분석 단계 중의 스택/버퍼/left-arc/right-arc에 포함된 어절/단어/어구의 벡터값(word), 품사 정보(POS, part-of-speech tag), 의존 정보(Dep.)를 포함할 수 있다. 도 8에서 파란색 박스는 stack, 노란색 박스는 buffer이다. 도 8에서 s1,s2는 stack에 존재하는 어절, b1은 buffer에 존재하는 어절, la(s1)은 s1에 대한 left-arc, ra(s1)은 s1에 대한 right-arc, la(s2)는 s2에 대한 left-arc, ra(s2)는 s2에 대한 right-arc를 의미한다. 품사 태그인 JJ는 형용사, VBZ는 3인칭 단수/현재형 시제/동사, NN은 단수형/명사, PRP는 인칭 대명사를 의미한다. 문장 성분이자 의존 정보인 nsubj는 주격 명사구를 의미한다.
도 9는 본 발명의 일실시예에 따른 의존성 구문 분석 모듈이 전이 액션의 선택/결정을 위한 분류모델의 학습 및 적용에 이용하게 되는 Neural-network 모델의 예시를 도시한 것이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 의존성 구문 분석 모듈이 전이 액션의 선택/결정을 위한 분류모델의 학습 및 적용에 이용하게 되는 Neural-network 모델은 input layer x(예를 들어, lookup 및 concat으로 필드를 묶어 입력할 수 있음), hidden layer h(예를 들어, cost function으로 sigmoid가 아닌 ReLU를 이용하면 h=ReLU(Wx+b1), W는 weight, b1은 상수), output layer y(예를 들어, softmax를 이용하면 y=softmax(Uh+b2), U는 weight, b2는 상수)를 포함할 수 있으며, 도 8에 예시로 도시된 입력 데이터에 따라 최종적으로 취해야 하는 전이 액션에 대해 softmax probabilities가 출력되어 분류되도록 구성될 수 있다. 본 발명의 일실시예에 따라 전이 액션의 선택/결정에 인공신경망의 분류 모델을 이용하는 경우, 모델의 계산량이 절감되어 서버뿐만 아니라 모바일과 같은 클라이언트에서도 전이 액션의 추론(inference)가 가능해지는 효과가 발생된다.
본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)은 아크 스탠다드 전이 기반 분석의 전이 액션의 선택/결정에 있어서, 강화학습(reinforcement learning)이 이용될 수 있다. 본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)의 강화학습에서 environment는 사용자가 입력 문장을 입력하고 관리자가 해당 문장의 감성 분석에 기반하여 대답 문장을 생성하며 해당 사용자의 입력 문장에 대해 스택과 버퍼 및 의존 정보를 포함하는 환경으로 구성되고, agent는 전이 기반 분석기(transition based parser)로 구성되며, action은 전이 액션에 따른 의존 정보로 구성되고, value에 해당하는 reward는 해당 문장의 해당 전이 액션에 기반한 관리자의 대답 문장 출력 이후 생성되는 사용자의 두 번째 입력 문장의 감성 분석 결과를 이용할 수 있다. 본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)의 강화학습 모델로는 DQN, Lagging Anchor Algorithm, Anchor-critic algorithm 등이 이용될 수 있다. 본 발명의 일실시예에 따른 의존성 구문 분석 모듈(50)의 전이 액션 강화학습에 따르면, 전이 액션을 결정함에 있어서 매우 가벼운 최적화 모델이 빠르게 생성될 수 있는 효과가 발생된다.
거리 모듈(51)은 의존성 구문분석 모듈(50)에서 출력되는 의존 정보를 토대로 문장 구조상의 거리 정보를 생성하는 모듈이다. 의존 정보를 토대로 하면 의존성에 기반한 문장의 트리 구조가 형성될 수 있으며, 이를 토대로 문장 구조상의 거리 정보가 생성될 수 있다.
기존에는 텍스트의 감성 분석에 본 발명의 일실시예와 같이 문장 구조상의 거리를 이용하기 어려웠다. 왜냐하면, 문장은 특정한 룰(rule)에 기반하여 문장 구조를 파악하는 경우, 상당히 복잡한 수준의 모호성(ambigutiy)을 해결할 수 없기 때문이다. 특히, 전치사 접속 모호성(Prepositional phrase attachment ambiguity)이 문제된다. 예를 들어, 룰 기반의 문장 구조 분석기는 "훌륭한 작가의 그림을 보았다."라는 문장에서 작가가 훌륭한 것인지, 그림이 훌륭한 것인지를 구분할 수 없고, 이는 정교한 문장 구조 파악의 어려움으로 이어지게 되는 문제가 있었다.
감정 모듈(52)은 감정 사전에 기저장된 어구들의 특정 감정에 관한 감정 강도를 수신하고, 타겟 어구에 대해 거리 모듈(51)에서 수신된 타겟 어구의 주변 어구들과의 문장 구조상의 거리와 주변 어구들의 감정 강도를 이용하여 특정 어구에 관한 갱신 감정 스코어를 생성하는 모듈이다. 감정 사전(4)에서 수신되는 감정 강도와 특정 어구에 관한 갱신 감정 스코어와 관련하여, 감정 강도/갱신 감정 스코어는 일차원적인 긍정과 부정의 극성(Polarity)를 갖도록 구성될 수 있고, Plutchik's model of emotions 등과 같이 복수개의 극성을 갖도록 구성될 수 있다. 도 10은 Plutchik's model of emotions에 따른 감정 강도의 예시를 도시한 예시도이다. 도 10에 도시된 바와 같이, 감정 강도는 적어도 하나 이상의 극성(Polarity)을 갖는 감정 맵(map)에서 특정 감정에 대한 세기를 의미할 수 있다. 예를 들어, 도 10에 도시된 내용에서 Joy에 관하여 감정 강도가 강렬하면 Ecstasy, 감정 강도가 낮으면 Serenity가 될 수 있고, 이러한 내용은 전부 정량화될 수 있다.
스코어 모듈(5), 보다 구체적으로는 감정 모듈(52)에서 생성되는 타겟 어구의 갱신 감정 스코어는 다음 수학식과 같이 계산될 수 있다.
Figure 112017128602247-pat00001
위 수학식 1에서 Sphrase는 타겟 어구의 갱신 감정 스코어, dk는 해당 타겟 어구와 주변에 위치한 주변 어구 k의 문장 구조상의 거리, zk는 주변 어구 k의 특정 감정에 대한 감정 강도를 의미할 수 있다. 위 수학식 1에서 볼 수 있듯이, 스코어 모듈(5)에서 생성되는 타겟 어구의 갱신 감정 스코어는 결국 주변 어구들과의 문장 구조상의 거리 및 감정 강도에 의해 결정될 수 있다.
본 발명의 일실시예에 따른 스코어 모듈(5), 보다 구체적으로는 감정 모듈(52)은 타겟 어구의 갱신 감정 스코어를 계산하기 위해 Neural network을 이용할 수 있다. 본 발명의 일실시예에 따른 스코어 모듈(5)이 타겟 어구에 대한 갱신 감정 스코어를 계산하기 위한 분류/예측의 학습 및 적용에 이용하게 되는 Neural-network 모델은 input layer x, hidden layer h, output layer y를 포함할 수 있고, output layer로는 로지스틱 함수나 softmax함수가 이용될 수 있다. 본 발명의 일실시예에 따라 전이 액션의 선택/결정에 인공신경망의 분류 모델을 이용하는 경우, 모델의 계산량이 절감되어 서버뿐만 아니라 모바일과 같은 클라이언트에서도 전이 액션의 추론(inference)가 가능해지는 효과가 발생된다.
도 11은 본 발명의 일실시예에 따른 스코어 모듈(5), 보다 구체적으로는 감정 모듈(52)이 타겟 어구의 갱신 감정 스코어를 계산하기 위한 Neural network의 학습에 이용하게 되는 입력 데이터의 예시("He has good control")를 도시한 것이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 스코어 모듈(5), 보다 구체적으로는 감정 모듈(52)에 타겟 어구의 갱신 감정 스코어를 계산하기 위해 Neural network을 적용하는 경우, 분류/예측모델의 학습을 위한 입력 데이터 세트는, 해당 문장에 포함된 어절/단어/어구의 벡터값(word), 품사 정보(POS, part-of-speech tag), 타겟 어구를 기준 대상으로 하는 의존 정보(Dep.) 또는 문장구조상의 거리 정보, 감정 강도 정보 등을 포함할 수 있다.
도 11에서 품사 태그인 JJ는 형용사, VBZ는 3인칭 단수/현재형 시제/동사, NN은 단수형/명사, PRP는 인칭 대명사를 의미한다. 문장 성분이자 의존 정보인 nsubj는 주격 명사구, root는 문장 기준, amod(adjectival modifier)는 형용사, dobj는 직접 목적어를 의미한다. 도 12는 도 11의 예시에 해당하는 의존적 문장 구조를 도시한 모식도이다. 도 12에 도시된 바와 같이, control을 타겟 어구로 할 때 문장 구조상의 거리는 'has'의 경우 1, 'He'의 경우 2, 'good'의 경우 1임을 확인할 수 있다. 본 발명의 일실시예에 따르면 위와 같은 Neural network을 이용한 분류 모델 뿐만 아니라, 머신러닝의 분류 알고리즘인 n-gram, bi-gram, Naive Bayes model도 이용될 수 있다.
본 발명의 일실시예에 따라 타겟 어구의 갱신 감정 스코어가 주변 어구들과의 문장 구조상의 거리 및 감정 강도에 의해 결정됨에 따라, 감성 분석을 하는 경우 사용자에 따라, 문화에 따라, 시기에 따라, 도메인에 따라 텍스트에 반영된 화자의 감정 스코어를 다이나믹하게 최대한 반영할 수 있게 되는 효과가 발생된다. 기존의 감성 분석에서는 어구 별로 감정 스코어가 정형화되어 있는 감정 사전을 이용하였기 때문에 특정 어구의 감정 스코어는 정해진 값으로 이용되었고, 사용자에 따라, 문화에 따라, 시기에 따라, 도메인에 따라 달라지는 단어의 사용, 비꼬는 표현, 신조어 등에 반영되어 있는 화자의 실제 감정을 감성 분석하기는 어려운 문제가 있었다.
게다가, 본 발명의 일실시예에 따르면, Word2vec과 같이 함께 사용되는 빈도 등의 통계적인 개념으로 감정 스코어를 생성하기보다, 문장을 계층화하여 계산된 문장 구조상의 거리를 이용하기 때문에 주변 어구에 의해 영향을 받는 정도를 보다 정교하게 감정 스코어로 정형화할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단순히 타겟 어구에 얼마나 가까이 존재하는 주변 어구인지에 따라 감정 강도의 영향을 계산하는 것에 비해, 문장을 계층화하여 계산된 문장 구조상의 거리를 이용하기 때문에 주변 어구에 의해 영향을 받는 정도를 보다 정교하게 감정 스코어로 정형화할 수 있는 효과가 발생된다.
사람들이 사용하는 단어들은 일반적인 상황에서 단어의 의미와 특정 상황에서 단어의 의미가 다를 때가 많다. 그 이유 때문에 정형화된 감정 사전을 이용하는 기존의 감성분석에서는, 각각의 단어의 의미 또는 내포된 감정상태가 특정 상황에서 오히려 bias를 주는 분석이 이루어질 때가 있다. 또한, 인터넷상에서 많이 사용되는 용어의 의미는 기존의 의미로 사용되지 않는 단어도 많기 때문에, 단어의 감정상태는 점수는 도메인별로, 시대별로, 연령대별로 다르게 표현되게 되는데, 이를 기존의 감성분석은 반영하지 못한다. 실예로, 실제 '죽였다'라는 단어의 포함된 감정은 두려움, 혐오, 화남등 부정적인 의미로 주로 쓰이게 되는데, 오히려 게임안에서의 '죽였다' 라는 단어는 목적을 달성했다라는 기쁨의 감정을 내포하게 된다.
또한, 본 발명의 일실시예에 따르면, 단어의 기존 의미를 벗어난 새로운 신조어에 포함된 감정상태를 파악 할 수 있게 된다. 예를 들어, '고구마'라는 단어는 감정상태를 표현하지 않는 일반 명사이지만, 인터넷상에서 사용자들이 사용하는 '고구마'는 '고구마를 먹은것처럼 목이 답답하고 갑갑한상태'를 의미하고 있다. 사용자가 고객지원 서비스에 '왜 이렇게 답변이 느린가요. 완전 고구마네요."라는 문의를 하게 되면 실제 사용자가 사용한 '고구마'는 화남, 혐오 등의 감정상태를 내포하기 때문에 유동적으로 단어의 감정상태를 파악하는 기술이 필요하게 된다. 기존의 감성분석은 이러한 문제를 해결하지 못하고 있는 반면, 본 발명은 문장구조상의 거리를 이용한 스코어링 및 업데이트에 의해 이러한 문제를 다이나믹하게 해결할 수 있게 된다. 아래는 이러한 신조어의 예시이다.
예1) 사이다 -> 사이다를 마셔서 속이 뻥 뚫리고 답답함이 풀리다
예2) 버스 -> 게임내에서 높은 레벨 사용자가 상대적으로 낮은 레벨 사용자의 성장 또는 승리를 도와주는 행위
본 발명의 일실시예에 따르면, 빈번하게 일어나는 사용자들의 줄임말, 신조어 등이 주변 단어들의 감정상태의 영향을 받아 새로운 감정상태를 내포하는 단어로 인식이 되고, 이를 통해 좀 더 정확하게 화자의 감정상태를 파악하는 것이 가능하게 된다.
업데이트 모듈(6)은 스코어 모듈(5)에서 생성된 타겟 어구 정보에 대한 갱신 감정 스코어를 이용하여 감정사전(4)을 업데이트하는 모듈이다. 감정사전(4)을 업데이트 하는 방법으로는, 감정사전(4)에 이미 등재되어 있는 어구인 경우, 감정사전(4)에 기저장된 감정 스코어를 스코어 모듈(5)에서 생성된 해당 어구에 대한 갱신 감정 스코어로 갱신하는 방법이 이용될 수 있다. 감정사전(4)에 등재되어 있지 않은 어구인 경우에는 해당 어구를 갱신 감정 스코어와 함께 감정사전(4)에 저장하는 방법이 이용될 수 있다.
업데이트 모듈(6)이 타겟 어구에 대한 갱신 감정 스코어를 이용하여 감정사전(4)을 갱신하는 방법의 예시로, 스코어 모듈(5)에서 타겟 어구에 대한 갱신 감정 스코어가 생성될 때마다 저장하여 특정 개수를 번들로 쌓아놓고 해당 번들에 저장된 갱신 감정 스코어의 평균값 또는 중앙값과 같은 통계적 대표치로 감정사전(4)을 업데이트하도록 구성될 수 있다. 또한, 타겟 어구에 대한 해당 번들에 저장되는 갱신 감정 스코어의 개수가 기설정된 특정 개수 이상이 되는 경우, 새롭게 생성된 갱신 감정 스코어가 해당 번들에 포함되어 있는 기존의 갱신 감정 스코어의 최대값 또는 최소값 중 새롭게 생성된 갱신 감정 스코어와 가장 먼 값을 대체하도록 구성될 수 있다.
본 발명의 일실시예에 따라 업데이트 모듈(6)이 갱신 감정 스코어에 대한 번들을 포함하는 경우, 타겟 어구에 대한 감정 스코어가 급격하게 변화하는 것을 방지할 수 있는 효과가 발생된다.
본 발명의 다른 일실시예에 따른 업데이트 모듈(6)은 타겟 어구에 대한 갱신 감정 스코어를 갱신하는 경우, 감정사전(4)에 기저장된 감정 스코어와의 차이를 가중치로 하여 갱신 감정 스코어로 감정사전(4)을 업데이트 할 수 있다.
[변형예]
도 13은 본 발명의 변형예에 따른 감정사전 업데이트 장치를 도시한 모식도이다. 도 13에 도시된 바와 같이, 본 발명의 변형예는 갱신 타겟 선정 모듈(7)을 더 포함할 수 있다.
갱신 타겟 선정 모듈(7)은 구분모듈(2)에서 구분된 어구 정보를 수신하여 해당 입력 텍스트 내에서 감정 스코어를 갱신해야하는 타겟 어구 정보를 생성하고, 타겟 어구 정보를 스코어 모듈(5)에 송신하여 스코어 모듈(5)에서 해당 타겟 어구에 대해서만 갱신 감정 스코어를 생성하도록 구성되는 모듈이다. 갱신 타겟 선정 모듈(7)에 따르면 많은 계산량이 필요한 스코어 모듈(5)의 계산량을 줄여줄 수 있으며, "있습니다"와 같이 감정을 가지지 않는게 바람직한 형태소에 갱신 감정 스코어를 생성하는 것을 방지해주는 효과가 발생된다.
본 발명의 변형예에 따른 갱신 타겟 선정 모듈(7)이 갱신 타겟 어구를 선정하는 방법에 있어서, 도메인 특화 점수를 계산하고 도메인 특화 점수가 높은 어구가 타겟 어구로 선정되는 방법이 제안될 수 있다. 갱신 타겟 선정 모듈(7)의 도메인 특화 점수의 계산은 구분 모듈(2)에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 입력 데이터에서의 어구 출현 빈도(또는 어구 출현 확률)와 General corpus에서의 어구 출현 빈도(또는 어구 출현 확률)를 비교하고, 두 빈도의 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 방법으로 수행될 수 있다. General corpus 내 각 단어의 좌우 단어를 확인하여 해당 어구가 General corpus에서 나올 수 있는 경우의 수(또는 어구 출현 확률)를 파악하고, General corpus의 어구 출현 빈도보다 입력 데이터에서의 어구 출현 빈도(또는 어구 출현 확률)가 더 높을 경우, 해당 어구는 해당 도메인에 특징적이라고 판정될 수 있다. General corpus의 데이터의 양에 따라 어구 출현 빈도 판단의 기준이 될 상호관계의 거리를 i+n, i-n 까지 늘리거나 줄일 수 있다. 여기서 말하는 i는 문장 내 단어의 index 이다. 데이터의 양과 상수 n은 비례할 수 있다. 본 발명의 변형예에 따라 갱신 타겟 선정 모듈(7)에서 도메인 특화 점수가 높게 계산되어 갱신 타겟으로 선정되는 어구는 '도메인 특화 용어'라고 정의될 수 있다.
갱신 타겟 선정 모듈(7)은 계산된 도메인 특화 점수를 토대로 입력 데이터의 어구들 중 고빈도 일반 용어를 분류하고, 고빈도 일반 용어를 도메인 특화 용어와 마찬가지로 감정사전(4)을 갱신하기 위한 타겟 어구로 선정할 수 있다.
구체적으로, 입력 데이터의 어구들은 도메인 특화 용어, 일반 용어로 구분될 수 있다. 일반 용어는 고빈도 일반 용어와 저빈도 일반 용어로 구분될 수 있다. 본 발명의 변형예에 따른 도메인 특화 용어란, 갱신 타겟 선정 모듈(7)에서 정의된 바와 같이, 입력 데이터에서의 어구의 출현 확률빈도가 일반 말뭉치(general corpus)에서의 확률빈도보다 월등히 높은 어구를 의미한다. 도메인 특화 용어가 아닌 나머지 어구들은 일반 용어로 구분될 수 있고, 일반 용어는 고빈도 일반 용어와 저빈도 일반 용어로 구분될 수 있다. 고빈도 일반 용어는 도메인 안에서의 확률 빈도는 높지만 일반 말뭉치에서의 확률 빈도도 높아서 어구의 출현 확률빈도가 입력 데이터와 일반 말뭉치(general corpus)에서 크게 차이가 나지 않아 일반 용어로 분류된 어구들을 의미한다. 고빈도 일반 용어가 되는 단어들의 기준점은, 예를 들어, 가장 낮은 빈도수를 가지는 도메인 특화 용어의 빈도수보다 높은 용어로 정의될 수 있다. 고빈도 일반 용어에는 일반적으로 많이 쓰는 표현 - 장소(지역명, 지역대명사 등), 시간(내일, 오전, 다음주 등) - 이 많이 포함될 수 있고, 특정 의미가 없는 일반용어가 도메인 내에선 특정 의미로 많이 사용되는 용어라는 점을 도메인에서의 출현 빈도에 기초하여 확인할 수 있다.
저빈도 일반 용어는 고빈도 일반 용어를 제외한 일반 용어를 의미할 수 있다. 즉, 저빈도 일반 용어는 입력 데이터에서도 출현 확률빈도가 낮고, 일반 말뭉치(general corpus)에서도 출현 확률빈도가 낮은 것을 의미할 수 있다. 갱신 타겟 선정 모듈(7)은 저빈도 일반 용어를 타겟 어구에서 배제하도록 구성될 수 있다.
갱신 타겟 선정 모듈(7)의 타겟 어구 선정과 관련하여, 특정 어구를 구성하는 단어나 어절이 general corpus 또는 입력 데이터 상에서 상호 함께 쓰이지 않을 확률이 높을수록(word2vec의 벡터값의 거리가 멀수록) 도메인 특화 용어 또는 고빈도 일반 용어에 포함될 가능성이 높도록 구성될 수 있다.
본 발명의 변형예에 따라, 갱신 타겟 선정 모듈(7)이 도메인 특화 용어 또는 고빈도 일반 용어를 분류하여 타겟 어구로 선정하는 경우, 매우 높은 확률로 신조어나 감정 스코어가 변화되는 감정 단어들이 선정될 가능성이 높아지는 효과가 발생된다.
변형예에 따른 스코어 모듈(5)은 Neural-network을 이용하여 갱신 감정 스코어를 분류/예측하는 경우에서 도메인 특화 점수 또는 출현 확률빈도가 입력 데이터의 attribute으로 포함될 수 있다.
텍스트 감성 분석의 감정사전 업데이트 방법
도 14는 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 방법을 도시한 흐름도이다. 도 14에 도시된 바와 같이, 본 발명의 일실시예에 따른 텍스트 감성 분석의 감정사전 업데이트 방법은, 구분단계(S10), 스코어 단계(S11), 업데이트 단계(S12)를 포함할 수 있다.
구분 단계(S10)는, 구분 모듈(2)이 입력 텍스트를 일반 문자열 형태(Normal text)로 입력받게 되고, 이렇게 입력받은 일반 문자열 형태를 NLP 모듈에 의해 개체(entity)와 의미구(intent)와 같은 어구로 구분하여 어구 정보를 생성하는 단계이다.
스코어 단계(S11)는, 스코어 모듈(5)이 구분 모듈(2)에서 생성된 어구 정보 중 적어도 하나(타겟 어구)에 대해 적어도 하나의 주변 감정 단어(감정 사전에 감정 스코어가 기저장되어 있는 단어)의 특정 감정에 관한 감정 강도(intensity) 및 문장 구조상의 거리(syntax distance)를 이용하여 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 단계이다.
업데이트 단계(S12)는, 업데이트 모듈(6)이 스코어 모듈(5)에서 생성된 특정 어구(타겟 어구)에 대한 갱신 감정 스코어를 이용하여 감정사전(4)을 업데이트하는 단계이다.
도 15는 본 발명의 일실시예에 따른 스코어 단계(S11)을 구체적으로 도시한 흐름도이다. 도 15에 도시된 바와 같이 스코어 단계(S11)는 의존성 구문 분석 단계(S110), 거리 분석 단계(S111), 감정 분석 단계(S112)를 포함할 수 있다.
의존성 구문 분석 단계(S110)는 스코어 모듈(5)의 일구성인 의존성 구문 분석 모듈(50)이 의존성 구문 분석 방법을 이용하여 타겟 어구와 주변 어구의 의존 정보를 생성하는 단계이다. S110에서는 의존성 구문 분석 방법 중 하나인 전이 기반 분석(transition-based parsing)이 이용될 수 있다.
거리 분석 단계(S111)는 스코어 모듈(5)의 일구성인 거리 모듈(51)이 의존성 구문분석 모듈(50)에서 출력되는 의존 정보를 토대로 타겟 어구와 주변 어구들(특히 감정단어) 사이의 문장 구조상의 거리 정보를 생성하는 단계이다.
감정 분석 단계(S112)는 스코어 모듈(5)의 일구성인 감정 모듈(52)이 감정 사전에 기저장된 어구들의 특정 감정에 관한 감정 강도를 수신하고, 거리 모듈(51)에서 수신된 타겟 어구와 주변 어구들과의 문장 구조상의 거리와 주변 어구들의 감정 강도를 이용하여 특정 어구(타겟 어구)에 관한 갱신 감정 스코어를 생성하는 단계이다.
도 16은 본 발명의 일실시예에 따른 업데이트 단계(S12)를 구체적으로 도시한 흐름도이다. 도 16에 도시된 바와 같이, 업데이트 단계(S12)는 스코어 저장 단계(S120), 감정사전 업데이트 단계(S121), 번들 업데이트 단계(S122)를 포함할 수 있다.
스코어 저장 단계(S120)는, 스코어 모듈(5)에서 타겟 어구에 대한 갱신 감정 스코어가 생성될 때마다 저장하여 특정 개수를 번들로 수집하는 단계이다.
감정사전 업데이트 단계(S121)는, 해당 번들에 저장된 갱신 감정 스코어의 평균값 또는 중앙값과 같은 통계적 대표치로 감정사전(4)을 업데이트하는 단계이다.
번들 업데이트 단계(S122)는, 타겟 어구에 대한 해당 번들에 저장되는 갱신 감정 스코어의 개수가 기설정된 특정 개수 이상이 되는 경우, 새롭게 생성된 갱신 감정 스코어가 해당 번들에 저장되어 있는 기존의 갱신 감정 스코어의 최대값 또는 최소값 중 새롭게 생성된 갱신 감정 스코어와 가장 먼 값을 대체하도록 구성될 수 있다.
삭제
이상에서는 설명의 편의를 위해 입력 텍스트를 위주로 설명하였으나, 본 발명의 범위는 텍스트에만 국한되는 것이 아니고, 음성 분석(음성 봇)을 위한 인공지능 모듈, 자연어 분석을 위한 인공지능 모듈이나 문장 생성을 위한 Generative 인공지능 모듈 등에 본 발명이 적용되는 것이 본 발명의 범위에 포함될 수 있다.
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다; 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.
본 설명의 일부는 정보 상 연산의 기호 표현 및 알고리즘에 관한 본 발명의 실시예들을 기술한다. 이러한 알고리즘적 설명 및 표현은, 일반적으로 그들의 작업의 핵심을 효율적으로 다른 당업자에게 전달하기 위해 데이터 처리 분야의 당업자에 의해 사용된다. 이러한 동작은 기능적, 연산적, 또는 논리적으로 설명되지만, 컴퓨터나 이와 동등한 전기 회로, 마이크로코드 등에 의해 구현될 것으로 이해된다. 나아가, 또한 이것은 모듈로서의 이러한 동작의 배열을 나타내기 위해, 때때로 일반성의 상실 없이 편리하게 입증된다. 상기 기술된 동작 및 그들의 연관된 모듈은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합 내에서 구현될 수 있다.
여기서 기술된 임의의 단계, 동작, 또는 프로세스는, 하나 이상의 하드웨어 또는 소프트웨어 모듈과 함께 단독으로 또는 다른 장치와 조합하여 수행되거나 구현될 수 있다. 일 실시예에서, 소프트웨어 모듈은 컴퓨터 프로그램 코드를 포함하는 컴퓨터-판독 가능 매체로 구성되는 컴퓨터 프로그램 제품과 함께 구현되고, 컴퓨터 프로그램 코드는 기술된 임의의 또는 모든 공정, 단계, 또는 동작을 수행하기 위한 컴퓨터 프로세서에 의해 실행될 수 있다.
또한, 본 발명의 실시예들은, 여기서의 동작을 수행하기 위한 장치와 관련될 수 있다. 이들 장치는 요구되는 목적을 위해 특별히 제작될 수 있고/있거나, 컴퓨터 내에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 일반적-목적의 연산 장치를 포함할 수 있다. 이러한 컴퓨터 프로그램은, 유형의 컴퓨터 판독가능 저장 매체 또는 전자 명령어를 저장하기 위해 적합한 임의의 유형의 미디어 내에 저장될 수 있고, 컴퓨터 시스템 버스에 결합될 수 있다. 나아가, 본 명세서에 참조되는 임의의 연산 시스템은 단일 프로세서를 포함할 수 있거나, 증가한 연산 능력을 위한 다중 프로세서 디자인을 채택한 구조가 될 수 있다.
마지막으로, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수 있다.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.
1: 텍스트 감성 분석의 감정사전 업데이트 장치
2: 구분 모듈
3: 감성분석 모듈
4: 감정사전
5: 스코어 모듈
6: 업데이트 모듈
7: 갱신타겟 선정 모듈
50: 의존성 구문분석 모듈
51: 거리 모듈
52: 감정 모듈

Claims (3)

  1. 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 모듈;
    상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 모듈;
    상기 도메인 특화 점수 계산 모듈에서 계산된 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 모듈;
    상기 어구 정보 중 상기 도메인 특화 용어 이외의 어구 정보를 일반 용어로 분류하고, 상기 일반 용어 중 어구 출현 빈도 또는 어구 출현 확률이 높은 고빈도 일반 용어를 분류하는 고빈도 일반 용어 분류 모듈;
    상기 도메인 특화 용어 및 상기 고빈도 일반 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 모듈;
    상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 모듈; 및
    상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 모듈;
    을 포함하는,
    도메인 특화 용어를 이용한 감정사전 업데이트 장치.
  2. 구분 모듈이, 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 단계;
    도메인 특화 점수 계산 모듈이, 상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 단계;
    도메인 특화 용어 분류 모듈이, 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 단계;
    고빈도 일반 용어 분류 모듈이, 상기 어구 정보 중 상기 도메인 특화 용어 분류 모듈에서 분류된 상기 도메인 특화 용어 이외의 어구 정보를 일반 용어로 분류하고, 상기 일반 용어 중 어구 출현 빈도 또는 어구 출현 확률이 높은 고빈도 일반 용어를 분류하는 고빈도 일반 용어 분류 단계;
    타겟 어구 선정 모듈이, 상기 도메인 특화 용어 및 상기 고빈도 일반 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 단계;
    스코어 모듈이, 상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및
    업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 단계;
    를 포함하는,
    도메인 특화 용어를 이용한 감정사전 업데이트 방법.
  3. 구분 모듈이, 일반 문자열 형태의 입력 데이터에서 복수개의 어구 정보로 구분하는 구분 단계;
    도메인 특화 점수 계산 모듈이, 상기 구분 모듈에서 구분된 어구가 특정 도메인에 특징적인지 여부를 판단하기 위하여 상기 입력 데이터에서의 어구 출현 빈도 또는 어구 출현 확률과 General corpus에서의 어구 출현 빈도 또는 어구 출현 확률을 비교하고, 차이를 통해 해당 어구가 해당 도메인에 얼마나 특징적인 어구인지에 대한 스코어인 도메인 특화 점수를 판정하는 도메인 특화 점수 계산 단계;
    도메인 특화 용어 분류 모듈이, 상기 도메인 특화 점수 계산 모듈에서 계산된 상기 도메인 특화 점수를 토대로 상기 입력 데이터의 상기 어구 정보 중 상기 특정 도메인에 특화된 용어인 도메인 특화 용어를 분류하는 도메인 특화 용어 분류 단계;
    고빈도 일반 용어 분류 모듈이, 상기 어구 정보 중 상기 도메인 특화 용어 이외의 어구 정보를 일반 용어로 분류하고, 상기 일반 용어 중 어구 출현 빈도 또는 어구 출현 확률이 높은 고빈도 일반 용어를 분류하는 고빈도 일반 용어 분류 단계;
    타겟 어구 선정 모듈이, 상기 도메인 특화 용어 및 상기 고빈도 일반 용어를 기초로 감정 스코어 생성의 대상이 되는 타겟 어구를 선정하는 타겟 어구 선정 단계;
    스코어 모듈이, 상기 입력 데이터의 어구 정보 중 상기 타겟 어구의 주변에 위치한 어구인 주변 어구의 특정 감정에 관한 감정 강도를 이용하여 상기 타겟 어구의 새로운 감정 스코어인 갱신 감정 스코어를 생성하는 스코어 단계; 및
    업데이트 모듈이, 상기 스코어 모듈에서 생성된 상기 타겟 어구의 상기 갱신 감정 스코어를 이용하여 감정사전을 업데이트하는 업데이트 단계;
    를 포함하는,
    도메인 특화 용어를 이용한 감정사전 업데이트 방법을 수행하는, 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
KR1020170178889A 2017-12-22 2017-12-22 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법 KR101851795B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170178889A KR101851795B1 (ko) 2017-12-22 2017-12-22 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170178889A KR101851795B1 (ko) 2017-12-22 2017-12-22 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020170079505A Division KR101851788B1 (ko) 2017-06-23 2017-06-23 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101851795B1 true KR101851795B1 (ko) 2018-04-24

Family

ID=62084915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170178889A KR101851795B1 (ko) 2017-12-22 2017-12-22 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101851795B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210086192A (ko) * 2019-12-31 2021-07-08 성균관대학교산학협력단 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
KR20220126557A (ko) 2021-03-09 2022-09-16 와우커뮤니케이션(주) 다중 도메인 챗봇 시스템 및 그 운용 방법
KR20220126558A (ko) 2021-03-09 2022-09-16 와우커뮤니케이션(주) 챗봇 시스템 및 그 운용 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101309042B1 (ko) 2012-09-17 2013-09-16 포항공과대학교 산학협력단 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
KR101540683B1 (ko) 2014-10-20 2015-07-31 숭실대학교산학협력단 감정어의 극성을 분류하는 방법 및 서버
KR101656778B1 (ko) 2015-07-15 2016-09-12 주식회사 코노랩스 위치 연관 문서에 기초하여 감정을 분석하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101309042B1 (ko) 2012-09-17 2013-09-16 포항공과대학교 산학협력단 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
KR101540683B1 (ko) 2014-10-20 2015-07-31 숭실대학교산학협력단 감정어의 극성을 분류하는 방법 및 서버
KR101656778B1 (ko) 2015-07-15 2016-09-12 주식회사 코노랩스 위치 연관 문서에 기초하여 감정을 분석하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
W. Zhang et al., A topic clustering approach to finding similar questions from large question and answer archives, www.plosone.org, vol.9 issue 3, 2014 march

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210086192A (ko) * 2019-12-31 2021-07-08 성균관대학교산학협력단 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
KR102348689B1 (ko) * 2019-12-31 2022-01-07 성균관대학교산학협력단 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
KR20220126557A (ko) 2021-03-09 2022-09-16 와우커뮤니케이션(주) 다중 도메인 챗봇 시스템 및 그 운용 방법
KR20220126558A (ko) 2021-03-09 2022-09-16 와우커뮤니케이션(주) 챗봇 시스템 및 그 운용 방법

Similar Documents

Publication Publication Date Title
KR101851788B1 (ko) 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법
CN112001185B (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
Tellez et al. A case study of Spanish text transformations for twitter sentiment analysis
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
Seah et al. Troll detection by domain-adapting sentiment analysis
KR101851795B1 (ko) 도메인 특화 용어를 이용한 감정사전 업데이트 장치 및 방법
US20220122588A1 (en) System to detect and reduce understanding bias in intelligent virtual assistants
Dubey et al. Extended opinion lexicon and ML-based sentiment analysis of tweets: a novel approach towards accurate classifier
KR101851794B1 (ko) 타겟 어구의 감정 스코어 생성 장치 및 방법
Shamsudin et al. Lexical based sentiment analysis-Verb, adverb & negation
Dangi et al. An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network
Arora et al. Sentimental Analysis on IMDb Movies Review using BERT
Prakash et al. Lexicon Based Sentiment Analysis (LBSA) to Improve the Accuracy of Acronyms, Emoticons, and Contextual Words
Namee et al. A Hybrid Approach for Aspect-based Sentiment Analysis: A Case Study of Hotel Reviews
Muralidharan et al. Analyzing ELearning platform reviews using sentimental evaluation with SVM classifier
Ali et al. Conventional and structure based sentiment analysis: a survey
Bravo-Marquez et al. Transferring sentiment knowledge between words and tweets
Le An attention-based deep learning method for text sentiment analysis
Lika et al. Text sentiment analysis using deep convolutional networks
Parvin et al. A Novel Approach to Classify Sentiments on Different Datasets Using Hybrid Approaches of Sentiment Analysis
Thakur et al. OKO-SVM: Online kernel optimization-based support vector machine for the incremental learning and classification of the sentiments in the train reviews
Patel et al. Comparison of sentiment analysis and domain adaptation techniques with research scopes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant