WO2012134180A2 - 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 - Google Patents

문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 Download PDF

Info

Publication number
WO2012134180A2
WO2012134180A2 PCT/KR2012/002295 KR2012002295W WO2012134180A2 WO 2012134180 A2 WO2012134180 A2 WO 2012134180A2 KR 2012002295 W KR2012002295 W KR 2012002295W WO 2012134180 A2 WO2012134180 A2 WO 2012134180A2
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
sentence
sentences
emotions
dictionary
Prior art date
Application number
PCT/KR2012/002295
Other languages
English (en)
French (fr)
Other versions
WO2012134180A3 (ko
Inventor
강행봉
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110027862A external-priority patent/KR20120109943A/ko
Priority claimed from KR1020120024733A external-priority patent/KR101326313B1/ko
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Publication of WO2012134180A2 publication Critical patent/WO2012134180A2/ko
Publication of WO2012134180A3 publication Critical patent/WO2012134180A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

본 발명에서 제안하고 있는, 문장에 내재한 감정 분석을 위한 감정 분류 방법에 따르면, 문장을 구성하는 단어의 감정 특징을 추출하고 감정 분류기를 이용하여 문장에 내재된 감정을 분류함으로써, 온라인상에서 수집할 수 있는 감정이나 의견 등을 포함하는 문장의 자동 분석을 통해 오피니언 마이닝을 자동화할 수 있고, 이러한 오피니언 마이닝을 통한 마케팅 전략 수립이 신속하게 이루어질 수 있도록 하며, 기업, 브랜드, 제품, 서비스 등에 대한 평가를 자동 분석하고, 제품 평판 조사, 공공 의견 조사, 고객 성향 분석 등 다양한 영역에서 자동으로 감정 분석을 할 수 있다.

Description

문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
본 발명은 감정 분류 방법에 관한 것으로서, 보다 구체적으로는 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 문장으로부터의 감정 분류 방법에 관한 것이다.
통상적으로 글이란 단어가 모여서 문장을 이루고, 문장이 모여서 한 덩이의 완성된 글이 되는데, 글을 이루는 문장의 기초 단위인 단어는 하나의 단어가 다른 단어와 어떤 관계를 맺는가의 문제와 글을 쓰기 위해서 내용상으로 어떠한 단어를 선정하는가의 문제를 내포하고 있다. 이 두 가지의 문제를 해결하는 과정이 통상적으로 글을 집필하는 과정에 일어나는 현상이라고 볼 수 있으며, 이 두 가지의 과정 중에서 두 번째의 문제, 즉 어떠한 단어를 선정하느냐의 문제를 집중적으로 분석하면, 이로부터 글쓴이의 감정을 도출할 수 있다.
즉, 각각의 단어는 문장에서 변용되고 상황에 따라 다른 뜻을 함축하기도 하지만, 기본적으로 내재하고 있는 단어 자체의 성향이 있다는 것을 알 수 있다. 따라서 글을 쓴 이가 어떤 성향이 내재된 단어를 집중적으로 사용할 수 있으며, 문학적, 인지언어학적, 정신분석학적으로 접근했을 때, 인간 보편의 성향에 맞춘 단어의 분석을 통해 단어를 분류할 수 있는 기준을 설정할 수 있고, 그 기준에 따라 단어를 분류하여 글쓴이의 감정을 분류할 수 있게 된다.
한편, 스마트폰의 대중적인 보급으로 인해 트위터, 페이스북과 같은 소셜 네트워크 서비스(Social Network Service; SNS)가 보편화됨에 따라 다양한 주제에 대하여 수많은 의견들이 실시간으로 개진되고 있다. SNS는 기존의 인맥을 강화하고 새로운 인맥을 형성하여 폭넓은 인적 네트워크를 형성할 수 있도록 해주는 서비스로서, 많은 사람은 이와 같은 서비스를 통해 서로에게 댓글을 달아주는 형태로 막대한 양의 텍스트 정보를 생성하고 있다.
최근에는, 상품에 대한 리뷰(review), 영화 감상평, 음식 평가 등의 주요 이슈에 대하여 바이럴 마케팅(viral marketing), 즉 입소문을 통한 마케팅 전략이 많이 이용되고 있는바, 이와 같은 SNS 정보로부터 소비자들의 의견을 정확히 판단하는 것이 마케팅 전략에 매우 중요한 것으로 인식되고 있는 실정이다.
따라서 SNS 사용자들에 의해 작성된 막대한 텍스트들로부터 의미 있는 정보를 찾기 위한 연구가 관심의 대상이 되고 있고, 특히, 문장에 담겨 있는 감정은 활용 범위가 매우 넓은 정보인바, 문장으로부터 감정을 분류 또는 인식하는 연구가 이루어지고 있지만(공개번호 제10-2002-0042248호 참조), 매우 미약한 실정이다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 문장을 구성하는 단어의 감정 특징을 추출하고 감정 분류기를 이용하여 문장에 내재된 감정을 분류함으로써, 온라인상에서 수집할 수 있는 감정이나 의견 등을 포함하는 문장의 자동 분석을 통해 오피니언 마이닝을 자동화할 수 있고, 이러한 오피니언 마이닝을 통한 마케팅 전략 수립이 신속하게 이루어질 수 있도록 하며, 기업, 브랜드, 제품, 서비스 등에 대한 평가를 자동 분석하고, 제품 평판 조사, 공공 의견 조사, 고객 성향 분석 등에 활용할 수 있는, 문장에 내재한 감정 분석을 위한 감정 분류 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 컨텍스트 정보를 이용하여 텍스트를 구성하는 다중 문장으로부터 주요 문장을 추출하고, 추출된 주요 문장에 대하여 감정을 분류하고, 분류된 감정을 결합함으로써 온라인 상에서 수집할 수 있는 다중 문장으로부터 감정을 정확하게 분류하여, 마케팅 전략에 활용할 수 있는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법은,
(1) 형태소 분석기를 이용하여 문장을 구성하는 단어를 품사별로 분류하는 단계;
(2) 품사별 감정 사전을 이용하여 상기 단어에 대한 감정 특징을 추출하는 단계; 및
(3) 상기 추출한 감정 특징을 이용하여 미리 훈련된 감정 분류기를 통해 상기 문장의 감정을 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 감정 사전은,
품사별로 감정에 따른 단어와 단어의 감정의 세기를 포함할 수 있다.
바람직하게는, 상기 단계 (2)에서는,
상기 단어에 대한 감정의 종류와 감정의 세기를 감정 특징으로 추출할 수 있다.
바람직하게는, 상기 단계 (3)은,
(a) 상기 추출한 감정 특징을 특징 벡터로 구성하는 단계; 및
(b) 상기 구성한 특징 벡터와 상기 감정 분류기를 통해 상기 문장의 감정을 분류하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (a)에서는,
상기 문장을 구성하는 단어의 감정의 종류에 대한 감정의 세기의 합으로 상기 특징 벡터를 구성할 수 있다.
바람직하게는, 상기 감정 분류기는,
서포트 벡터 머신(Support Vector Machine, SVM)일 수 있다.
바람직하게는, 상기 품사는,
명사, 동사, 형용사, 및 이모티콘을 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법은,
(1) 텍스트를 구성하는 다중 문장 각각에 대하여 컨텍스트 정보를 추출하는 단계;
(2) 추출된 상기 컨텍스트 정보를 이용하여 다중 문장으로부터 복수 개의 주요 문장을 추출하는 단계;
(3) 추출된 상기 주요 문장 각각에 대하여 감정 특징을 추출하는 단계; 및
(4) 추출된 상기 감정 특징을 이용하여 감정 분류기를 통해 각각의 상기 주요 문장의 감정을 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
(5) 분류된 각각의 상기 주요 문장의 감정을 결합하는 단계를 더 포함할 수 있다.
바람직하게는, 상기 단계 (1)은,
(1-1) 하기의 수학식을 이용하여 문장에 포함된 키워드 정보를 산출하는 단계;
Figure PCTKR2012002295-appb-I000001
(여기서, S는 입력문장이고, ki는 입력문장 S에 포함되어 있는 i번째 키워드, ωi∈R는 키워드 가중치이며, K는 입력문장 S에 포함되어 있는 키워드 개수이다.)
(1-2) 하기의 수학식을 이용하여 상기 텍스트 내에서 문장의 위치에 대한 가중치를 산출하는 단계;
Figure PCTKR2012002295-appb-I000002
(여기서, index(Si)는 주요문장 Si의 인덱스이고, T는 텍스트 안의 문장의 수이다.)
(1-3) 하기의 수학식을 이용하여 문장 간의 감정 변화도를 산출하는 단계; 및
Figure PCTKR2012002295-appb-I000003
(여기서, n(Sps)은 동일한 감정을 가지는 앞 문장의 수이다.)
(1-4) 산출된 상기 키워드 정보, 문장의 위치에 대한 가중치 및 문장 간의 변화도를 이용하여 하기의 수학식에 의해 문장의 컨텍스트 정보를 산출하는 단계를 포함할 수 있다.
Figure PCTKR2012002295-appb-I000004
바람직하게는, 상기 단계 (3)은,
(3-1) 형태소 분석기를 이용하여 문장에 포함된 단어를 품사별로 분류하는 단계; 및
(3-2) 감정 사전을 이용하여 상기 단어에 대한 감정 특징을 추출하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (3-2)에서,
상기 감정 사전은 어휘 사전 기반의 형식적 감정 사전에 도메인 기반 감정 사전을 추가하여 구축될 수 있다.
더욱 바람직하게는, 상기 감정 사전은,
명사, 동사, 형용사, 부사 및 이모티콘별 감정 특징을 포함할 수 있다.
더욱더 바람직하게는, 상기 이모티콘은,
불규칙적으로 자주 사용되는 이모티콘 중 가장 간단한 이모티콘 형태인 참조 이모티콘일 수 있다.
더욱더 바람직하게는,
문장에 포함된 불규칙적인 이모티콘은 베이지안 프레임워크를 이용하여 상기 참조 이모티콘으로 변환하여 감정 특징을 추출할 수 있다.
본 발명에서 제안하고 있는, 문장에 내재한 감정 분석을 위한 감정 분류 방법에 따르면, 문장을 구성하는 단어의 감정 특징을 추출하고 감정 분류기를 이용하여 문장에 내재된 감정을 분류함으로써, 온라인상에서 수집할 수 있는 감정이나 의견 등을 포함하는 문장의 자동 분석을 통해 오피니언 마이닝을 자동화할 수 있고, 이러한 오피니언 마이닝을 통한 마케팅 전략 수립이 신속하게 이루어질 수 있도록 하며, 기업, 브랜드, 제품, 서비스 등에 대한 평가를 자동 분석하고, 제품 평판 조사, 공공 의견 조사, 고객 성향 분석 등 다양한 영역에서 자동으로 감정 분석을 할 수 있다.
또한, 본 발명에서 제안하고 있는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법에 따르면, 컨텍스트 정보를 이용하여 텍스트를 구성하는 다중 문장으로부터 주요 문장을 추출하고, 추출된 주요 문장에 대하여 감정을 분류하고, 분류된 감정을 결합함으로써 온라인 상에서 수집할 수 있는 다중 문장으로부터 감정을 정확하게 분류하여, 마케팅 전략에 활용할 수 있다.
도 1은 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법에서 단계 S300의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법을 이용하여 감정을 분류하기 위한 사전 준비 단계의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 순서도.
도 5는 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S100에 대한 세부 순서도.
도 6은 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S300에 대한 세부 순서도.
도 7은 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법에서, 베이지안 프레임워크를 이용하여 불규칙 이모티콘을 처리하는 세부 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법에서, 문장의 감정 분류 성능 실험 결과를 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법은, 문장을 구성하는 단어를 품사별로 분류하는 단계(S100), 감정 특징을 추출하는 단계(S200), 및 문장의 감정을 분류하는 단계(S300)를 포함하여 구현될 수 있다.
즉, 감정을 분류하고자 하는 문장에 대한 형태소 분석을 먼저 수행할 수 있다. 형태소 분석기를 통해 문장을 품사별로 분류하고 각 품사별 감정 사전을 이용해 문장에 대한 감정 특징을 추출할 수 있다. 품사별 감정 사전은 각 품사별로 각 감정에 따른 단어와 그 감정의 세기를 포함할 수 있다. 추출된 감정 특징을 이용하여, 미리 훈련된 감정 분류기에 의해 문장을 감정 중 하나로 분류할 수 있다. 이와 같은, 본 발명의 감정 분류 방법에 따르면, 소셜 미디어의 일종인 트위터나 댓글 등에 포함된 감정이나 긍정 부정을 분류할 수 있다. 이하에서는, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 각 단계에 대해 상세히 설명하기로 한다.
단계 S100에서는, 형태소 분석기를 이용하여 문장을 구성하는 단어를 품사별로 분류할 수 있다. 단어를 형태소 분석을 하게 되면, 다양한 활용을 하는 용언도 일치하는 어간으로부터 동일 단어 여부를 판단할 수 있고, 이러한 과정을 거쳐 단어를 품사별로 분류할 수가 있다. 이때 품사는, 명사, 동사, 형용사 및 이모티콘일 수 있다. 즉, 온라인상에서 감정을 강하게 표현하기 위해 사용되는 이모티콘도 하나의 단어로 인식하고 품사로 분류하도록 함으로써, 온라인상의 문장에 내재한 감정을 보다 효율적으로 분석할 수 있다.
단계 S200에서는, 품사별 감정 사전을 이용하여 단어에 대한 감정 특징을 추출할 수 있다. 감정 사전은, 각 품사별로 감정에 따른 단어와 단어의 감정의 세기를 포함할 수 있고, 단어에 대한 감정의 종류와 감정의 세기를 감정 특징으로 추출할 수 있다. 즉, 단계 S200에서는, 단계 S100에서 품사별로 분류한 단어를 품사별 감정 사전에서 검색함으로써, 해당 단어가 어떠한 감정을 나타내고 그 감정의 세기는 어느 정도인지를 감정 특징으로 추출할 수 있다. 단계 S200을 수행하기 위해 미리 품사별 감정 사전을 구축할 수 있으며, 품사별 감정 사전을 구축하는 방법에 대해서는 추후 도 3을 참조하여 상세히 설명하기로 한다.
단계 S300에서는, 추출한 감정 특징을 이용하여 미리 훈련된 감정 분류기를 통해 문장의 감정을 분류할 수 있다. 문장의 감정 분류를 위한 감정 분류기는 서포트 벡터 머신(Support Vector Machine, SVM)을 이용할 수 있다. 단계 S300의 세부적인 흐름에 대해서는, 이하에서 도 2를 참조하여 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법에서 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 단계 S300은, 감정 특징을 특징 벡터로 구성하는 단계(S310) 및 특징 벡터와 감정 분류기를 통해 문장의 감정을 분류하는 단계(S320)를 포함하여 구현될 수 있다.
단계 S310에서는, 추출한 감정 특징을 특징 벡터로 구성할 수 있다. 단계 S310에서는, 문장을 구성하는 단어의 감정의 종류에 대한 감정의 세기의 합으로 특징 벡터를 구성할 수 있다. 즉, 단계 S200에서 추출한 문장에 포함되는 단어들의 감정 특징을 문장에 대해 종합하여, 감정의 종류별로 감정의 세기를 합함으로써, 문장에 내재된 감정의 특성을 분석하여 벡터로 표현할 수 있다.
예를 들어, 중립, 기쁨, 슬픔, 분노, 공포의 5가지로 감정의 종류를 분류한다면, 감정 분석을 하고자 하는 문장을 구성하는 단어들이 나타내는 감정의 종류별로 감정의 세기를 합하여 특징 벡터를 구성할 수 있다. 따라서 5 종류의 감정에 대한 특징 벡터는 5개의 성분으로 구성될 수 있다.
단계 S320에서는, 구성한 특징 벡터와 감정 분류기를 통해 문장의 감정을 분류할 수 있다. 문장 감정 분류를 위한 감정 분류기는 SVM(Support Vector Machine)을 이용할 수 있다. SVM은 Vapnik에 의해 소개된 기계학습 기법으로 두 개의 클래스의 구성 데이터들을 가장 잘 분리할 수 있는 초평면(hyperplane)을 찾는 모델이다. SVM의 초평면은 다음 수학식 1과 같이 나타낼 수 있다. 수학식 1에서, w는 초평면의 법선벡터(normal vector)이고, x는 테스트 데이터 벡터, 그리고 b는 바이어스(bias) 벡터이다.
수학식 1
Figure PCTKR2012002295-appb-M000001
SVM은 직선으로 나눌 수 있는 문제를 다루는데 사용되었지만, 다차원의 부드러운 곡선을 이용하여 초평면을 구성하거나 사용되는 데이터 차원보다 높은 특징 공간으로 매핑 하여 선형적으로 나눌 수 없는 문제도 해결 할 수 있다. 본 이진 분류(binary classification) 문제를 확장하여 다중 분류(Multi-class classification)문제를 해결하기 위해 ‘one-against-one’ 방법을 이용할 수 있다. 먼저 k개의 class가 존재한다고 하면, k(k-1)/2개의 이진 분류기를 구성하고 각각을 훈련할 수 있다. i번째 클래스와 j번째 클래스의 훈련 데이터로부터의 같은 이진 분류 문제는 다음 수학식 2와 같이 표현될 수 있다.
수학식 2
Figure PCTKR2012002295-appb-M000002
이러한 이진 분류기를 이용해 다중 분류를 하기 위해, 이진 분류기들의 투표 전략(voting strategy)을 이용할 수 있다. 즉, 각각의 이진 분류기는 모든 데이터에 대해서 투표를 하고 마지막에 가장 많은 투표를 받은 클래스로 분류하게 된다. 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 단계 S320에서는, Open CV의 기계학습 라이브러리의 SVM 클래스를 이용할 수 있으며, 커널 함수로는 선형(LINEAR) 함수를 이용할 수 있다.
단계 S320에서는, 미리 훈련된 감정 분류기를 사용하여 문장에 내재한 감정을 분류할 수 있는데, 감정 분류기를 미리 훈련하는 과정에 대해서는, 이하에서 도 3을 참조하여 상세히 설명하도록 한다.
도 3은 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법을 이용하여 감정을 분류하기 위한 사전 준비 단계의 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법에서는, 품사별 감정 사전을 구축하는 단계(S10) 및 감정 분류기를 훈련하는 단계(S20)를 더 포함하여, 감정 분류를 위한 사전 준비를 할 수 있다.
단계 S10에서는, 품사별 감정 사전을 구축할 수 있다. 감정 사전은, 품사별로 감정에 따른 단어와 단어의 감정의 세기를 포함할 수 있다. 일반적인 문장에 대한 감정을 분류하기 위해서는 먼저 각 감정을 나타내는 단어인 감정 특징을 추출해야 한다. 이와 같은 감정 특징은 다양한 문장으로부터 감정이 내재되어 있는 문장으로부터 감정 단어를 품사별로 추출한 다음, 각 단어의 감정 세기를 측정하여 감정 사전을 구축할 수 있다.
예를 들어, 온라인상에서 작성되는 각종 텍스트에 대한 감정 특징을 추출하기 위해 트위터와 같은 소셜 네트워크 서비스, 인터넷 커뮤니티 등에서 감정이 내재되어 있는 문장을 선택하여 문장에 포함되어 있는 감정 단어를 품사별로 추출할 수 있다. 이와 같은 방법으로 추출된 감정 단어만으로는 그 수가 너무 제한적일 수 있기 때문에, 이를 확장하기 위해 유의어 사전 정보를 이용해 단어를 추가할 수 있다. 그 다음 각 단어의 감정 세기를 사람이 직접 점수를 매겨 감정 사전을 구축할 수 있다. 이때, 명사, 형용사, 동사 및 이모티콘에 관련된 감정 사전을 구축함으로써, 온라인상에서 많이 사용되는 이모티콘을 포함하는 각종 감정 단어에 대한 품사별 감정 사전을 구축할 수 있다.
단계 S20에서는, 감정 분류기를 훈련할 수 있다. 단계 S10에서 감정 사전의 구축에 사용된 문장들을 사용하여 문장에 포함되어 있는 단어들의 감정의 종류 및 감정의 세기를 특징 벡터로 구성하여, 이러한 특징 벡터를 훈련용 데이터로 사용할 수 있다. 문장 감정 분류를 위한 분류기는 SVM(Support Vector Machine)을 이용할 수 있다.
[실험예 1]
트위터와 같은 소셜 네트워크 서비스, 인터넷 커뮤니티 등에서 감정이 내재되어 있는 문장을 선택하여 문장에 포함되어 있는 감정 단어를 품사별로 추출하고, 유의어 사전 정보를 이용해 단어를 더 추가하였다. 각 단어의 감정 세기를 사람이 직접 1에서 5점까지 매겨 명사, 형용사, 동사 및 이모티콘에 관련된 감정 사전을 구축하였다. 이와 같은 방법으로 구축된 품사별 감정 사전의 구성은 다음 표 1과 같다.
표 1
Figure PCTKR2012002295-appb-T000001
감정 분류기의 훈련을 위해서는, 먼저 온라인상에서 획득한 감정이 포함되어 있는 문장 72개에 대해서 각 감정별로 기쁨 21개, 슬픔 18개, 분노 22개, 두려움 12개에 대한 특징 벡터를 추출하여 SVM 분류기를 훈련시켰다. 각 특징벡터는 각 문장에 포함되어 있는 감정 단어의 감정 세기의 합으로서 표 1의 각 품사별 감정 사전에 의해 결정하였다.
본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법의 정확도 실험을 위하여, 트위터, me2day, 영화 커뮤니티 등에서 획득된 문장에 대해 사람이 직접 감정을 판단하여 테스트 데이터 DB를 구축하였다. 구축된 테스트 데이터 DB는 다음 표 2와 같다.
표 2
Figure PCTKR2012002295-appb-T000002
표 2의 테스트 데이터 DB를 구성하는 트위터, me2day, 영화 커뮤니티 등에서 획득된 문장에 내재한 감정을, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법에 따라 감정 분류를 실험하였다. 본 발명에서 제안하고 있는 감정 분류 방법의 정량적 평가를 위해 정확도를 %로 계산하여 다음 표 3에 나타내었다.
표 3
Figure PCTKR2012002295-appb-T000003
표 3에서 확인할 수 있는 바와 같이, 본 발명의 일실시예에 따른 문장에 내재한 감정 분석을 위한 감정 분류 방법은, 전체적으로 70% 이상의 높은 정확도를 나타내고 있음을 확인할 수 있다. 이와 같이, 텍스트 분석을 통해 문장에 내재한 감정을 분류함으로써, 소셜 네트워크 서비스 확산에 따른 오피니언 마이닝을 자동화 할 수 있고, 이를 통한 마케팅 전략 수립에 도움을 줄 수 있다. 또한, 기업 또는 브랜드, 제품, 서비스 등에 대한 평가를 자동 분석하여 제품 개선에 활용할 수 있으며, 제품 평판 조사, 공공 의견 조사, 고객 성향 분석 등에도 활용할 수 있다.
도 4는 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 순서도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법은, 텍스트를 구성하는 다중 문장 각각에 대하여 컨텍스트 정보를 추출하는 단계(S100), 추출된 컨텍스트 정보를 이용하여 다중 문장으로부터 복수 개의 주요 문장을 추출하는 단계(S200), 추출된 주요 문장 각각에 대하여 감정 특징을 추출하는 단계(S300) 및 추출된 감정 특징을 이용하여 감정 분류기를 통해 각각의 주요 문장의 감정을 분류하는 단계(S400)를 포함하여 구성될 수 있고, 분류된 각각의 주요 문장의 감정을 결합하는 단계(S500)를 더 포함할 수 있다.
단계 S100에서는, 텍스트를 구성하는 다중 문장 각각에 대하여 컨텍스트 정보를 추출하며, 단계 S100의 세부적인 흐름에 대하여는 도 5를 참조하여 상세히 설명하도록 한다.
도 5는 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S100에 대한 세부 순서도이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S100은, 문장에 포함된 키워드 정보를 산출하는 단계(S110), 텍스트 내에서 문장의 위치에 대한 가중치를 산출하는 단계(S120), 문장 간의 감정 변화도를 산출하는 단계(S130) 및 산출된 키워드 정보, 문장의 위치에 대한 가중치 및 문장 간의 변화도를 이용하여 문장의 컨텍스트 정보를 산출하는 단계(S140)를 포함할 수 있다.
단계 S110에서는, 하기의 수학식 3을 이용하여 문장에 포함된 키워드 정보를 산출한다.
수학식 3
Figure PCTKR2012002295-appb-M000003
여기서, S는 입력문장이고, ki는 입력문장 S에 포함되어 있는 i번째 키워드, ωi∈R는 키워드 가중치이며, K는 입력문장 S에 포함되어 있는 키워드 개수를 나타낸다. 키워드는 도메인별로 미리 수집된 문장을 통해 해당 어휘의 빈도를 측정하여 이 빈도를 가중치(0~1)로 부여한다.
단계 S120에서는, 텍스트 내에서 문장의 위치에 대한 가중치를 산출한다. 보다 구체적으로, 텍스트를 작성하는 사람은 일반적으로 자신의 의견을 텍스트의 첫 문장이나 끝 문장을 통해 표현하는 경우가 많기 때문에, 텍스트 내에서 문장의 위치는 텍스트의 전체 감정을 추정하는데 매우 중요한 정보인바, 하기의 수학식 4를 이용하여 텍스트 내에서 문장의 위치에 대한 가중치를 산출한다.
수학식 4
Figure PCTKR2012002295-appb-M000004
여기서, index(Si)는 주요문장 Si의 인덱스이고, T는 텍스트 안의 문장의 수를 나타낸다.
단계 S130에서는, 문장 간의 감정 변화도를 산출한다. 보다 구체적으로, 문장의 감정이 유지되다가 갑자기 감정의 변화가 생기는 경우 문장 전체의 감정이 변하는 경우가 많기 때문에, 문장 간의 감정 변화도 또한 전체 문장의 감정을 추정하는데 매우 중요한 정보인바, 하기의 수학식 5를 이용하여 문장 간의 감정 변화도를 산출한다.
수학식 5
Figure PCTKR2012002295-appb-M000005
여기서, n(Sps)은 동일한 감정을 가지는 앞 문장의 수를 나타낸다.
단계 S140에서는, 단계 S110 내지 단계 S130에 의해 산출된 키워드 정보, 문장의 위치에 대한 가중치 및 문장 간의 변화도를 이용하여 하기의 수학식 6에 의해 문장의 컨텍스트 정보를 산출한다.
수학식 6
Figure PCTKR2012002295-appb-M000006
단계 S200에서는, 단계 S100에 의해 추출된 컨텍스트 정보를 이용하여 다중 문장으로부터 주요 문장을 추출한다. 즉, 단계 S200을 통해 텍스트 전체의 감정을 추정하는데 중요한 주요 문장을 추출하며, 추출되는 주요 문장은 복수 개로 추출될 수 있다.
단계 S300에서는, 단계 S200에 의해 추출된 주요 문장 각각에 대하여 감정 특징을 추출하며, 단계 S300의 세부적인 흐름에 대하여는 도 6을 참조하여 상세히 설명하도록 한다.
도 6은 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S300에 대한 세부 순서도이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법의 단계 S300은, 형태소 분석기를 이용하여 문장에 포함된 단어를 품사별로 분류하는 단계(S310) 및 감정 사전을 이용하여 단어에 대한 감정 특징을 추출하는 단계(320)를 포함할 수 있다.
단계 S310에서는, 형태소 분석기를 이용하여 문장에 포함된 단어를 품사별로 분류한다. 단어를 형태소 분석을 하게 되면, 다양한 활용을 하는 용언도 일치하는 어간으로부터 동일 단어 여부를 판단할 수 있고, 이러한 과정을 거처 단어를 품사별로 분류할 수 있다.
단계 S320에서는, 감정 사전을 이용하여 단계 S310에 의해 분류된 단어에 대한 감정 특징을 추출한다. 보다 구체적으로, 감정 사전은 각 품사별로 감정에 따른 단어와 그 단어의 감정 세기를 포함할 수 있고, 단어에 대한 감정의 종류와 감정의 세기를 감정 특징으로 추출할 수 있다. 이때, 감정 사전은 명사, 동사, 형용사, 부사 및 이모티콘별 감정 특징을 포함할 수 있다.
한편, 같은 어휘라 하더라도 특정 도메인에 따라 다른 감정을 나타내는 경우가 발생할 수 있다. 예컨대, “가볍다”라는 어휘는 “인물” 도메인에서는 부정적인 의미를 나타내는 반면, “통신” 도메인에서는 긍정적 의미를 나타낸다. 즉, 같은 어휘가 특정 도메인에 따라 감정이 달라질 수 있는바, 감정 사전은 어휘 사전에 기반한 기존의 형식적 감정 사전에 도메인 기반 감정 사전을 추가하여 구축하는 것이 바람직하고, 이를 통해 다중 문장에 대한 보다 정확한 감정 분류를 할 수 있다.
더욱이, 단계 S320에서, 문장에 포함된 이모티콘은 문장의 감정을 분류하는데 매우 중요한 요소임에도 불구하고, 사용자의 취향이나 오타, 그리고 기타 여러 가지 요인으로 인해 같은 의미를 가짐에도 매우 불규칙하게 쓰여서 그 자체를 감정 특징으로 사용하는 것이 어려운 문제가 있다. 예컨대, “^_^”과 “^_________^”은 같은 의미이지만 개인에 따라 “_”의 개수를 다르게 사용할 수 있으며, 이러한 불규칙 이모티콘을 그대로 사용하는 것은 정확한 감정 분류를 어렵게 하는 요인 중 하나이다.
이를 위해, 문장에 포함된 불규칙적인 이모티콘을 감정 사전에 포함된 참조 이모티콘으로 변환하여 이로부터 감정 특징을 추출하는 것이 바람직하다. 여기서 "참조 이모티콘"이란 감정 사전에 포함된 이모티콘으로서, 불규칙적으로 자주 사용되는 이모티콘 중 가장 간단한 이모티콘 형태를 말한다. 즉, 불규칙적으로 사용하는 이모티콘을 이러한 참조 이모티콘으로 변환함으로써 문장에 포함된 불규칙 이모티콘으로부터 정확한 감정 분류를 수행할 수 있다.
보다 구체적으로, 문장에 포함된 불규칙한 이모티콘은 베이지안 프레임워크를 이용하여 참조 이모티콘으로 변환할 수 있으며, 도 7은 본 발명의 일실시예에 따른 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법에서, 베이지안 프레임워크를 이용하여 불규칙 이모티콘을 처리하는 세부 흐름을 도시한 도면이다. 도 7에 도시된 바와 같이, 이모티콘을 분해한 후 히스토그램을 이용한 정규화 과정을 거쳐 확률분포 모델을 구성하고, 불규칙 이모티콘과 참조 이모티콘 간의 유사도(likelihood)를 산출하여 최적의 참조 이모티콘을 추출함으로써 불규칙 이모티콘을 처리할 수 있다.
단계 S400에서는, 단계 S300에 의해 추출된 감정 특징을 이용하여 감정 분류기를 통해 각각의 주요 문장의 감정을 분류한다. 즉, 단계 S300에 의해 추출된 감정 특징을 특징 벡터로 구성하여 감정 분류기를 통해 문장의 감정을 분류하며, 이때 문장 감정 분류를 위한 감정 분류기는 SVM(Support Vector Machine)을 이용할 수 있다.
단계 S500에서는, 단계 S400에 의해 분류된 각각의 주요 문장의 감정을 결합하고, 이를 통해 다중 문장의 감정을 분류하여 최종적으로 텍스트의 전체 감정을 추정할 수 있다.
[실험예 2]
문장의 감정 분류 성능 실험
트위터, 페이스북, 미투데이와 같은 소셜 네트워크 서비스(SNS)에서 사용자가 작성한 글들을 일반, 제품리뷰, 여행, 음식 및 영화 도메인별로 무작위로 수집한 후, 수집된 텍스트를 각각 네 가지 방법을 사용하여 감정 분류를 수행하였다.
즉, 기존의 형식적 사전만을 이용한 방법(case 1), 도메인 기반 감정 사전을 추가하여 구축한 감정 사전만을 이용한 방법(case 2), 컨텍스트 정보와 기존의 형식적 사전을 이용한 방법(case 3) 및 컨텍스트 정보와 도메인 기반 감정 사전을 추가하여 구축한 감정 사전을 이용한 방법(case 4)을 사용하여 감정 분류를 수행하였다. 수행된 각각의 방법에 따른 문장의 감정 분류 성능은 하기의 수학식 7 내지 수학식 9에 의한 정확률(precision, “p”) 및 재현율(recall, “r”)을 이용한 F1-measure를 사용하여 평가하였고, 그 결과를 표 4(일반, 제품리뷰), 표 5(여행), 표 6(음식), 표 7(영화) 및 도 8에 나타내었다.
수학식 7
Figure PCTKR2012002295-appb-M000007
수학식 8
Figure PCTKR2012002295-appb-M000008
수학식 9
Figure PCTKR2012002295-appb-M000009
표 4
도메인 Case 감정 p r F1
일반 Case 1 긍정 0.5798 0.5644 0.5719
부정 0.6377 0.4891 0.5536
중립 0.6841 0.5991 0.6387
Case 2 긍정 0.6213 0.5891 0.6047
부정 0.6124 0.6401 0.6259
중립 0.7135 0.6787 0.6956
제품리뷰 Case 1 긍정 0.6012 0.8181 0.6930
부정 0.6663 0.2513 0.3649
중립 0.5387 0.6578 0.5923
Case 2 긍정 0.6648 0.7273 0.6946
부정 0.6259 0.6211 0.6234
중립 0.9121 0.6806 0.7795
Case 3 긍정 0.8122 0.7301 0.7689
부정 0.6381 0.6114 0.6244
중립 0.7533 0.8101 0.7806
Case 4 긍정 0.8129 0.7013 0.7529
부정 0.6587 0.7759 0.7125
중립 0.8264 0.8585 0.8421
표 5
여행 Case 1 긍정 0.7512 0.7598 0.7554
부정 0.6602 0.3289 0.4390
중립 0.4451 0.6654 0.5333
Case 2 긍정 0.7146 0.8336 0.7695
부정 0.6657 0.3328 0.4437
중립 0.4281 0.5045 0.4631
Case 3 긍정 0.7498 0.7592 0.7544
부정 0.5722 0.6687 0.6166
중립 0.8007 0.6618 0.7246
Case 4 긍정 0.6599 0.8304 0.7353
부정 0.5431 0.5007 0.5210
중립 0.8704 0.5011 0.6360
표 6
음식 Case 1 긍정 0.7141 0.8401 0.7719
부정 0.506 0.1916 0.2779
중립 0.3754 0.4894 0.4248
Case 2 긍정 0.7271 0.8891 0.7999
부정 0.2035 0.2789 0.2353
중립 0.902 0.2531 0.3952
Case 3 긍정 0.8334 0.8136 0.8233
부정 0.5014 0.9042 0.6450
중립 0.8576 0.7234 0.7848
Case 4 긍정 0.7891 0.8341 0.8109
부정 0.5301 0.9012 0.6675
중립 0.8249 0.6402 0.7209
표 7
영화 Case 1 긍정 0.6304 0.6681 0.6487
부정 0.7813 0.4285 0.5534
중립 0.2111 0.5131 0.2991
Case 2 긍정 0.6936 0.4462 0.5430
부정 0.7288 0.5898 0.6519
중립 0.3312 0.7366 0.4569
Case 3 긍정 0.5813 0.7777 0.6653
부정 0.6054 0.4284 0.5017
중립 0.8652 0.4809 0.6181
Case 4 긍정 0.6148 0.8876 0.7264
부정 0.9384 0.6278 0.7523
중립 0.5812 0.6857 0.6291
표 4 내지 표 7, 및 도 8에 나타낸 바와 같이, 감정 사전만을 이용한 경우에 비해 컨텍스트 정보와 감정 사전을 이용한 경우 감정 분류 성능 효과가 우수함을 확인하였다. 또한, 일반 감정 사전을 사용한 것에 비해 도메인 기반 감정 사전을 추가하여 구축한 감정 사전의 경우에 감정 분류 성능 효과가 보다 우수함을 확인하였다. 따라서 본 발명에 따른 방법은 텍스트를 구성하는 다중문장으로부터의 감정 분류 성능 효과가 우수함을 알 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (15)

  1. 감정 분류 방법으로서,
    (1) 형태소 분석기를 이용하여 문장을 구성하는 단어를 품사별로 분류하는 단계;
    (2) 품사별 감정 사전을 이용하여 상기 단어에 대한 감정 특징을 추출하는 단계; 및
    (3) 상기 추출한 감정 특징을 이용하여 미리 훈련된 감정 분류기를 통해 상기 문장의 감정을 분류하는 단계를 포함하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  2. 제1항에 있어서, 상기 감정 사전은,
    품사별로 감정에 따른 단어와 단어의 감정의 세기를 포함하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  3. 제1항에 있어서, 상기 단계 (2)에서는,
    상기 단어에 대한 감정의 종류와 감정의 세기를 감정 특징으로 추출하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  4. 제1항에 있어서, 상기 단계 (3)은,
    (a) 상기 추출한 감정 특징을 특징 벡터로 구성하는 단계; 및
    (b) 상기 구성한 특징 벡터와 상기 감정 분류기를 통해 상기 문장의 감정을 분류하는 단계를 포함하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  5. 제4항에 있어서, 상기 단계 (a)에서는,
    상기 문장을 구성하는 단어의 감정의 종류에 대한 감정의 세기의 합으로 상기 특징 벡터를 구성하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  6. 제1항에 있어서, 상기 감정 분류기는,
    서포트 벡터 머신(Support Vector Machine, SVM)인 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  7. 제1항에 있어서, 상기 품사는,
    명사, 동사, 형용사, 및 이모티콘을 포함하는 것을 특징으로 하는, 문장에 내재한 감정 분석을 위한 감정 분류 방법.
  8. (1) 텍스트를 구성하는 다중 문장 각각에 대하여 컨텍스트 정보를 추출하는 단계;
    (2) 추출된 상기 컨텍스트 정보를 이용하여 다중 문장으로부터 복수 개의 주요 문장을 추출하는 단계;
    (3) 추출된 상기 주요 문장 각각에 대하여 감정 특징을 추출하는 단계; 및
    (4) 추출된 상기 감정 특징을 이용하여 감정 분류기를 통해 각각의 상기 주요 문장의 감정을 분류하는 단계를 포함하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  9. 제8항에 있어서,
    (5) 분류된 각각의 상기 주요 문장의 감정을 결합하는 단계를 더 포함하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  10. 제8항에 있어서, 상기 단계 (1)은,
    (1-1) 하기의 수학식을 이용하여 문장에 포함된 키워드 정보를 산출하는 단계;
    Figure PCTKR2012002295-appb-I000005
    (여기서, S는 입력문장이고, ki는 입력문장 S에 포함되어 있는 i번째 키워드, ωi∈R는 키워드 가중치이며, K는 입력문장 S에 포함되어 있는 키워드 개수이다.)
    (1-2) 하기의 수학식을 이용하여 상기 텍스트 내에서 문장의 위치에 대한 가중치를 산출하는 단계;
    Figure PCTKR2012002295-appb-I000006
    (여기서, index(Si)는 주요문장 Si의 인덱스이고, T는 텍스트 안의 문장의 수이다.)
    (1-3) 하기의 수학식을 이용하여 문장 간의 감정 변화도를 산출하는 단계; 및
    Figure PCTKR2012002295-appb-I000007
    (여기서, n(Sps)은 동일한 감정을 가지는 앞 문장의 수이다.)
    (1-4) 산출된 상기 키워드 정보, 문장의 위치에 대한 가중치 및 문장 간의 변화도를 이용하여 하기의 수학식에 의해 문장의 컨텍스트 정보를 산출하는 단계를 포함하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
    Figure PCTKR2012002295-appb-I000008
  11. 제8항에 있어서, 상기 단계 (3)은,
    (3-1) 형태소 분석기를 이용하여 문장에 포함된 단어를 품사별로 분류하는 단계; 및
    (3-2) 감정 사전을 이용하여 상기 단어에 대한 감정 특징을 추출하는 단계를 포함하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  12. 제11항에 있어서, 상기 단계 (3-2)에서,
    상기 감정 사전은 어휘 사전 기반의 형식적 감정 사전에 도메인 기반 감정 사전을 추가하여 구축된 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  13. 제11항에 있어서, 상기 감정 사전은,
    명사, 동사, 형용사, 부사 및 이모티콘별 감정 특징을 포함하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  14. 제13항에 있어서, 상기 이모티콘은,
    불규칙적으로 자주 사용되는 이모티콘 중 가장 간단한 이모티콘 형태인 참조 이모티콘인 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
  15. 제14항에 있어서,
    문장에 포함된 불규칙적인 이모티콘은 베이지안 프레임워크를 이용하여 상기 참조 이모티콘으로 변환하여 감정 특징을 추출하는 것을 특징으로 하는, 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법.
PCT/KR2012/002295 2011-03-28 2012-03-28 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 WO2012134180A2 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2011-0027862 2011-03-28
KR1020110027862A KR20120109943A (ko) 2011-03-28 2011-03-28 문장에 내재한 감정 분석을 위한 감정 분류 방법
KR1020120024733A KR101326313B1 (ko) 2012-03-09 2012-03-09 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
KR10-2012-0024733 2012-03-09

Publications (2)

Publication Number Publication Date
WO2012134180A2 true WO2012134180A2 (ko) 2012-10-04
WO2012134180A3 WO2012134180A3 (ko) 2013-01-10

Family

ID=46932131

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/002295 WO2012134180A2 (ko) 2011-03-28 2012-03-28 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Country Status (1)

Country Link
WO (1) WO2012134180A2 (ko)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208880A1 (ko) * 2013-06-26 2014-12-31 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
KR101508059B1 (ko) 2013-06-26 2015-04-07 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
WO2016072769A3 (ko) * 2014-11-07 2016-06-30 아주대학교산학협력단 객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템
WO2017026638A1 (ko) * 2015-08-10 2017-02-16 숭실대학교산학협력단 제품 유형 분류 장치 및 방법
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108536784A (zh) * 2018-03-29 2018-09-14 广州优视网络科技有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
KR101894194B1 (ko) 2017-08-23 2018-10-04 건국대학교 산학협력단 감성 기반의 사용자 관리 방법 및 이를 수행하는 장치들
CN109145302A (zh) * 2018-08-30 2019-01-04 南京都宁大数据科技有限公司 基于语义文本的大宗农产品投资者恐慌情绪测度方法
CN109165381A (zh) * 2018-08-03 2019-01-08 史杰 一种文字ai情绪识别系统及其识别方法
CN109933795A (zh) * 2019-03-19 2019-06-25 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN110147452A (zh) * 2019-05-17 2019-08-20 北京理工大学 一种基于层级bert神经网络的粗粒度情感分析方法
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法
CN110825842A (zh) * 2019-10-10 2020-02-21 北京航空航天大学 基于不同人格特征的文本观点挖掘方法
CN110941759A (zh) * 2019-11-20 2020-03-31 国元证券股份有限公司 一种微博情感分析方法
CN110990564A (zh) * 2019-11-19 2020-04-10 北京信息科技大学 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111061958A (zh) * 2019-12-27 2020-04-24 中国电子科技集团公司信息科学研究院 一种基于用户观点和情感倾向的信息推荐方法和系统
CN111353044A (zh) * 2020-03-09 2020-06-30 重庆邮电大学 一种基于评论的情感分析方法及系统
CN112100371A (zh) * 2020-08-12 2020-12-18 北京工商大学 一种基于XLNet和BLS的弹幕情感分类方法
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法
CN112686056A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质
CN114678138A (zh) * 2022-04-19 2022-06-28 重庆邮电大学 一种基于电子护理文本数据的人体跌倒风险预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117027A (ja) * 2000-10-11 2002-04-19 Nippon Telegr & Teleph Corp <Ntt> 感情情報抽出方法および感情情報抽出プログラムの記録媒体
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
JP2005174330A (ja) * 2003-12-05 2005-06-30 Internatl Business Mach Corp <Ibm> テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
KR20090034052A (ko) * 2007-10-02 2009-04-07 동국대학교 산학협력단 감정정보 추출 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
JP2002117027A (ja) * 2000-10-11 2002-04-19 Nippon Telegr & Teleph Corp <Ntt> 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2005174330A (ja) * 2003-12-05 2005-06-30 Internatl Business Mach Corp <Ibm> テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
KR20090034052A (ko) * 2007-10-02 2009-04-07 동국대학교 산학협력단 감정정보 추출 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, MYEONG ET AL.: 'Artificial Intelligence : A Study of using Emotional Features for Information Retrieval Systems' JOURNAL OF KIPS vol. 10-8, no. 6, October 2003, *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508059B1 (ko) 2013-06-26 2015-04-07 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
US9734145B2 (en) 2013-06-26 2017-08-15 Foundation Of Soongsil University-Industry Cooperation Word comfort/discomfort index prediction apparatus and method therefor
WO2014208880A1 (ko) * 2013-06-26 2014-12-31 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
WO2016072769A3 (ko) * 2014-11-07 2016-06-30 아주대학교산학협력단 객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템
WO2017026638A1 (ko) * 2015-08-10 2017-02-16 숭실대학교산학협력단 제품 유형 분류 장치 및 방법
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
KR101894194B1 (ko) 2017-08-23 2018-10-04 건국대학교 산학협력단 감성 기반의 사용자 관리 방법 및 이를 수행하는 장치들
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN107967258B (zh) * 2017-11-23 2021-09-17 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108536784A (zh) * 2018-03-29 2018-09-14 广州优视网络科技有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN109165381A (zh) * 2018-08-03 2019-01-08 史杰 一种文字ai情绪识别系统及其识别方法
CN109145302A (zh) * 2018-08-30 2019-01-04 南京都宁大数据科技有限公司 基于语义文本的大宗农产品投资者恐慌情绪测度方法
CN109933795A (zh) * 2019-03-19 2019-06-25 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN109933795B (zh) * 2019-03-19 2023-07-28 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN110147452A (zh) * 2019-05-17 2019-08-20 北京理工大学 一种基于层级bert神经网络的粗粒度情感分析方法
CN110825842A (zh) * 2019-10-10 2020-02-21 北京航空航天大学 基于不同人格特征的文本观点挖掘方法
CN110825842B (zh) * 2019-10-10 2022-07-29 北京航空航天大学 基于不同人格特征的文本观点挖掘方法
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法
CN110990564A (zh) * 2019-11-19 2020-04-10 北京信息科技大学 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN110990564B (zh) * 2019-11-19 2023-12-01 北京信息科技大学 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN110941759A (zh) * 2019-11-20 2020-03-31 国元证券股份有限公司 一种微博情感分析方法
CN111061958A (zh) * 2019-12-27 2020-04-24 中国电子科技集团公司信息科学研究院 一种基于用户观点和情感倾向的信息推荐方法和系统
CN111353044B (zh) * 2020-03-09 2022-11-11 重庆邮电大学 一种基于评论的情感分析方法及系统
CN111353044A (zh) * 2020-03-09 2020-06-30 重庆邮电大学 一种基于评论的情感分析方法及系统
CN112100371A (zh) * 2020-08-12 2020-12-18 北京工商大学 一种基于XLNet和BLS的弹幕情感分类方法
CN112100371B (zh) * 2020-08-12 2023-10-03 北京工商大学 一种基于XLNet和BLS的弹幕情感分类方法
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112269880B (zh) * 2020-11-04 2024-02-09 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法
CN112686056A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质
CN114678138A (zh) * 2022-04-19 2022-06-28 重庆邮电大学 一种基于电子护理文本数据的人体跌倒风险预测方法及系统

Also Published As

Publication number Publication date
WO2012134180A3 (ko) 2013-01-10

Similar Documents

Publication Publication Date Title
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2010036013A2 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
WO2021132927A1 (en) Computing device and method of classifying category of data
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2020009297A1 (ko) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
WO2018034426A1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
WO2019027259A1 (en) APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
WO2013117147A1 (zh) 微博排序、搜索、展示方法和系统
WO2018174603A1 (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치
WO2010024628A2 (ko) 확장 키워드 풀을 사용한 검색 방법 및 시스템
WO2019177182A1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
EP3602334A1 (en) Apparatus and method for providing summarized information using an artificial intelligence model
WO2010036012A2 (ko) 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
WO2017041484A1 (zh) 一种实时信息的推荐方法、装置和系统
EP3545487A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2020256204A1 (ko) 텍스트의 내용 및 감정 분석에 기반한 답변 추천 시스템 및 방법
WO2018084581A1 (en) Method and apparatus for filtering a plurality of messages
WO2020168606A1 (zh) 广告视频优化方法、装置、设备及计算机可读存储介质
WO2018129978A1 (zh) 信息处理方法、装置、存储介质及计算机设备
WO2017115994A1 (ko) 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2020141787A1 (ko) 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR101326313B1 (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2022035074A1 (ko) 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12763873

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12763873

Country of ref document: EP

Kind code of ref document: A2