KR102086642B1

KR102086642B1 - 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법

Info

Publication number: KR102086642B1
Application number: KR1020180085570A
Authority: KR
Inventors: 양형정; 김미선
Original assignee: 전남대학교산학협력단
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2020-03-09
Also published as: KR20200017568A

Abstract

본 발명은 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것이다. 본 발명에 따른 문장 감성 분류 시스템은 데이터 전처리부, 감성사전 구축부 및 감성 분류부를 포함한다. 상기 데이터 전처리부는 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다. 상기 감성사전 구축부는 상기 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터로 표현하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성한다. 상기 감성 분류부는 상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류한다.

Description

가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법{Sentence sentiment classification system and method based on sentiment dictionary construction by the price fluctuation and convolutional neural network}

본 발명은 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 다양한 분야의 문서 집합에서 단어를 추출하여 감성사전을 구축하고 가격등락에 따라 긍정/부정을 분류하며, 분류된 결과를 이용하여 문장의 감성을 분류하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것이다.

문서에서 단어를 추출하여 감성을 분류하는 문제는 오랫동안 연구되어 왔다. 그러나 정규화된 한글 감성사전이 없고, 분야에 따라 개별적으로 구축하여 사용하고 있다.

통상적으로 글이란 단어가 모여서 문장을 이루고, 문장이 모여서 한 덩이의 완성된 글이 되는데, 글을 이루는 문장의 기초 단위인 단어는 하나의 단어가 다른 단어와 어떤 관계를 맺는가의 문제와 글을 쓰기 위해서 내용상으로 어떠한 단어를 선정하는가의 문제를 내포하고 있다. 이 두 가지의 문제를 해결하는 과정이 통상적으로 글을 집필하는 과정에 일어나는 현상이라고 볼 수 있으며, 이 두 가지의 과정 중에서 두 번째의 문제, 즉 어떠한 단어를 선정하느냐의 문제를 집중적으로 분석하면, 이로부터 글쓴이의 감정을 도출할 수 있다.

즉, 각각의 단어는 문장에서 변용되고 상황에 따라 다른 뜻을 함축하기도 하지만, 기본적으로 내재하고 있는 단어 자체의 성향이 있다는 것을 알 수 있다. 따라서 글을 쓴 이가 어떤 성향이 내재된 단어를 집중적으로 사용할 수 있으며, 문학적, 인지언어학적, 정신분석학적으로 접근했을 때, 인간 보편의 성향에 맞춘 단어의 분석을 통해 단어를 분류할 수 있는 기준을 설정할 수 있고, 그 기준에 따라 단어를 분류하여 글쓴이의 감정을 분류할 수 있게 된다.

최근에는, 매일 인터넷을 통해 정형 혹은 비정형의 많은 텍스트 정보들이 발생한다. 2012년 기준 1인 평균 3개의 SNS 계정을 사용하며, 한 해 약 1조 8천억 기가바이트가 생성된다. 이처럼 온라인상에 범람하는 데이터를 처리하기 위해서는 필요한 데이터를 수집하고 감성을 분류하는 기술이 중요하다.

대한민국 등록특허 제10-1855168호(2018년 05월 10일 공고)

따라서, 본 발명은 종래의 단점을 해결하기 위한 것으로서, 데이터를 분석하여 문장의 긍정부정을 분류함으로써 마케팅 또는 여론조사 등의 분야에 적용하고자 하는데 그 목적이 있다. 또한, 본 발명은 다양한 텍스트 정보들의 문장 감성 분류에 대한 성능을 증대하고자 하는데 그 목적이 있다.

이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템은 데이터 전처리부, 감성사전 구축부 및 감성 분류부를 포함할 수 있다. 상기 데이터 전처리부는 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다.

바람직하게는, 상기 감성사전 구축부는 상기 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성할 수 있다. 또한, 상기 감성 분류부는 상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류할 수 있다.

또한, 본 발명의 다른 측면에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스 기사를 수집하고, 특정 분야에 따른 가격 등락 정보를 수집하는 데이터 수집 단계(S10)와 수집된 문서 집합에서 문장을 추출하여 문서를 어절 단위로 형태소 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20)를 포함한다.

또한, 단어의 의미와 빈도수를 파악하기 위하여 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 상기 가격 등락 정보를 이용하여 단어의 긍정 또는 부정을 분류하여 감성사전을 생성하는 감성사전 구축 단계(S30) 및 상기 감성사전을 합성곱 신경망(Convolutional Newral Network, CNN)의 훈련데이터로 이용하여 문장의 감성을 분류하는 감성 분류 단계(S40)를 포함할 수 있다.

이상에서 설명한 바와 같이, 본 발명에 따른 가격등락에 따른 감성사전 구축과 합성곱신경망 기반의 문장 감성 분류 시스템 및 방법은 많은 양의 정보나 데이터를 한눈에 보기 쉽게 분류하여 마케팅 또는 여론조사의 분야에 적용할 수 있는 효과가 있다. 또한, 가격 등락 정보를 이용하여 문서의 긍정/부정을 정의하고, 딥러닝 기술을 이용함으로써 다양한 텍스트 정보들의 문장 감성 분류에 대한 높은 성능을 구현할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 개략적으로 나타내는 개념도이다.
도 2는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 나타내는 구성도이다.
도 3은 본 발명의 실시 예에 따라 합성곱 신경망을 이용하여 문장을 분류하는 모델을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 개략적으로 나타내는 개념도이다.
도 5는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 나타내는 순서도이다.
도 6은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법에서 감성사전 구축 단계를 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 또는 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 개략적으로 나타내는 개념도이고, 도 2는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 나타내는 구성도이다.

본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템은 소비자물가를 적용한 대상체의 가격 등락을 기준으로 단어의 상승/하락지수를 계산하여 감성사전을 구축하고, 합성곱 신경망(Convolutional Neural Networks, CNN)을 이용하여 문장을 긍/부정으로 분류할 수 있다. 즉, 문장 감성 분류 시스템(10)은 내/외부 경계값을 활용하여 단어를 추출하고, 가격에 기반을 두어 감성사전을 구축하며 합성곱 신경망을 활용하여 문장의 감성을 분류한다. 또한, 특정 대상체(Object)에 대한 가격의 등락을 기준으로 감성사전을 구축하여 문서 집합의 긍정과 부정을 분류할 수 있다.

문장 감성 분류 시스템(10)은 데이터 수집부(100), 데이터 전처리부(200), 감성사전 구축부(300), 감성 분류부(400) 및 저장부(500)를 포함할 수 있다. 데이터 수집부(100)는 온라인 뉴스 기사나 신문기사와 같은 다양한 텍스트 문서 집합을 수집할 수 있다.

데이터 전처리부(200)는 상기 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다. 즉, 비정형 텍스트문서를 문장 단위로 분할한 뒤 분석 내용과 연관이 없거나 가격 등락에 상관없이 빈번하게 언급된 단어들을 불용어로 처리한다. 또한, 추출한 후보 단어들 중 상대적으로 긍정/부정 모두에서 빈도수가 많은 단어들도 변별력이 없는 단어로 판단하여 불용어 처리할 수 있다.

데이터 전처리부(200)는 문서 집합에서 문장을 추출하여 형태소를 분석하는 형태소 분석 모듈(210)과, 문서 집합에서 변별력이 없는 단어를 제거하는 불용어 처리 모듈(220)을 포함할 수 있다.

즉, 데이터 전처리부(200)는 감성사전 구축부(300) 또는 컴퓨터가 문서를 이해할 수 있도록 문서를 각 단어별로 분리한다. 한 문서 안에는 분류를 하는데 중요한 단어가 포함되기도 하지만 동시에 변별력이 없는 단어가 포함되어 있기도 한다. 이러한 단어들은 불용어라 하며 분류의 성능을 높이기 위해 삭제하는 것이 바람직하다. 따라서, 문서에서 상대적으로 자주 등장하는 단어들이나 문장부호 등을 제거한다. 또한, 상기 문서 집합을 문장 단위로 분할한 뒤 주제와 관련 없는 데이터를 삭제할 수 있다.

감성사전 구축부(300)는 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하여 표현하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류한다. 즉, 상기 문서 집합에서 긍정과 부정을 분류하는 기준을 가격의 등락으로 결정할 수 있다.

감성사전 구축부(300)는 감성사전의 극성 분류를 위해 특정 분야의 가격 등락 정보를 수집하는 가격등락 정보 모듈(310)과 감성사전의 의미 있는 단어로 이루어진 후보 키워드를 선정하는 후보키워드 선정 모듈(320)을 포함할 수 있다.

감성사전의 후보키워드를 선정하기 위해 단어의 내/외부 경계값을 사용할 수 있다. 이 알고리즘은 단어를 구성하는 글자 간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자로들로부터 통계적 정보를 추출하는 외부 경계값을 모두 이용하여 단어를 인식하는 비지도 학습 방법이 될 수 있다. 상기 비지도 학습 방법은 어절의 위치에 따라 랭킹을 계산하여 키워드를 추출할 수 있다.

한편, 외부 경계값이란 주어진 단어의 좌우 주변에 다른 단어가 나타날 가능성을 의미하며, 내부 경계값이란 주어진 단어를 이루는 연속적인 글자의 응집성을 의미한다. 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용하여 단어를 추출하고, 추출한 단어들은 명사 및 어근과 같이 의미를 지니는 단어 집합과, 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류할 수 있다.

감성사전의 극성 분류를 위해 기설정된 해당 분야에 따른 가격 정보를 추가할 수 있다. 본 발명에 따른 실시 예를 들어 설명하면 다음과 같다. 아래의 [수학식 1]에서 빈도수(freq)는 기설정된 해당 단어가 나온 기사의 수를 합산하여 계산할 수 있다.

[수학식 1]

또한, 아래의 [수학식 2]를 이용하여 기설정된 해당 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산할 수 있다. 또한, 상기 대상체 가격에 특화된 어휘 사전을 구축하고, 가격이 오르는 긍정적인 어휘가 가지는 값을 상승 지수, 가격이 떨어지는 부정적인 어휘가 가지는 값을 하락 지수로 나타낼 수 있다.

[수학식 2]

다음으로, 추출한 어휘들의 상승 지수 및 하락 지수를 계산하여 감성사전을 완성한다. 상승 지수는 상승 값을 빈도수로 나누어 나타내며, 아래의 [수학식 3]으로 나타낼 수 있다.

[수학식 3]

상기 감성 사전의 단어들(Word)은 각각 상승 지수 또는 하락 지수를 가지며, 구축된 감성사전은 분류 모델의 훈련 데이터로 사용될 수 있다. 분류 모델에 기사 데이터가 문장으로 입력되면 단어들은 다차원의 행백터로 임베딩된다. 또한, 기사 단어들의 상승 및 하락 지수가 계산되어 전체적인 내용의 긍정/부정 여부를 판별할 수 있다.

감성 분류부(400)는 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 극성을 분류한다. 즉, 감성 분류부(400)는 상기 구축된 감성 사전을 토대로 합성곱 신경망을 이용하여 문장의 감성을 분류할 수 있다. 감성 분류부(400)는 문장의 긍정 및 부정 분류를 위해 합성곱 신경망(CNN)을 수행하는 합성곱신경망 모듈(410)을 포함할 수 있다.

자연어를 처리하고 감성 분류를 하기 위해 베이시안 분류, 최근접 이웃 기법, 서프트 벡터 머신(Support Vector Machine, SVM) 등의 통계적 추론이 사용될 수도 있다.

도 3은 본 발명의 실시 예에 따라 합성곱 신경망을 이용하여 문장을 분류하는 모델을 나타내는 도면이다. 일반적으로 합성곱신경망은 이미지 처리에 주로 사용되지만 텍스트 CNN의 필터가 텍스트의 지역적인 정보, 즉 단어 등장순서와 문맥 정보를 보존할 수 있다. 이미지 처리를 위해 사용되는 CNN의 필터를 텍스트의 단어등장 순서 및 문맥정보를 가져오는데 사용할 수 있다.

한 문장 당 단어 수가 총 n개일 때 단어들은 각각 k차원의 벡터이다. 즉, n개의 단어로 이루어진 기사를 각 단어별로 k차원의 행벡터로 임베딩할 수 있다. 여기에서, 필터 윈도우의 사이즈는 h이다. 본 발명의 실시 예에 따라 파라미터를 설정할 때 단어벡터 값의 초기값을 랜덤으로 설정하고, 학습 과정에서 업데이트를 수행할 수 있다.

저장부(500)는 문서 집합 저장 모듈(510), 가격등락 정보 저장 모듈(520) 및 감성사전 저장 모듈(530)을 포함할 수 있다. 문서 집합 저장 모듈(510)은 데이터 수집부(100)에서 수집된 다양한 텍스트 문서 집합을 저장할 수 있다. 여기에서, 상기 텍스트 문서 집합에는 뉴스기사나 신문기사가 포함될 수 있다. 가격등락 정보 저장 모듈(520)은 감성사전 구축부(300)에서 수집된 특정 분야에 따른 가격등락 정보를 저장할 수 있다. 감성사전 저장 모듈(530)은 감성사전 구축부(300)에서 생성된 감성사전 데이터를 저장할 수 있다.

본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템(10)은 단어의 빈도수와 문맥을 이해하기 위해 내/외부 경계값을 활용하여 단어를 추출하고 벡터화시킨다. 또한, 가격의 등락을 기반으로 합성곱신경망을 활용하여 긍정/부정 감성 사전을 생성하고 문장을 분류할 수 있다.

이로 인하여 다양한 텍스트 문서 집합에서 단어를 추출하여 감성사전을 구축하고, 문장의 긍정/부정을 추출하여 감성 분류를 용이하게 할 수 있다. 또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템(10)은 시계열 분석이나 기상데이터와 함께 언론기사 같은 비정형 데이터를 이용하여 농산물 가격 예측에 활용할 수 있는 효과도 있다.

도 4는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 개략적으로 나타내는 개념도이고, 도 5는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 나타내는 순서도이다.

본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 최근 범람하는 데이터 속에서 필요로 하는 정보를 수집하고 감성을 분류하는 분류 방법으로서, 문장을 감성 분류하기 위해서 단어를 벡터화하고 감성사전을 구축한다.

본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스를 수집하고, 가격 등락 정보를 수집하는 데이터 수집 단계(S10)와 수집된 문서 집합에서 문장을 추출하여 형태소를 분석하고 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20)를 포함할 수 있다. 데이터 전처리 단계(S20)는 문서를 어절 단위로 형태소 분석하고, 분별력을 높이기 위해 불용어를 처리한다.

예를 들어 설명하면, 웹 크롤링을 이용하여 양파 관련 뉴스를 수집하고, 농산물유통 정보 사이트에서 양파가격을 수집할 수 있다. 또한, 감성사전을 구축하기 위해 데이터 전처리 단계(S20)에서는 양파와 관련이 없는 내용을 필터링하고 형태소 분석을 수행할 수 있다.

상기 감성사전 구축을 위해 수집한 기사데이터의 전처리(Preprocessing)는 다음과 같이 진행될 수 있다. 먼저 널(NULL) 값이나 형식에 맞지 않는 데이터를 삭제한다. 또한, 제목을 기준으로 중복되는 기사를 제거하고 형태소 분석을 진행한 후 불용어를 제거한다.

또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 단어의 의미와 빈도수를 파악하기 위하여 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 특정 분야에 따른 가격 등락 정보를 이용하여 긍정 또는 부정을 분류하는 감성사전 구축 단계(S30)를 포함할 수 있다. 감성사전 구축 단계(S30)는 단어의 빈도수와 문맥을 이해하기 위하여 내/외부 경계값을 이용하여 키워드를 추출하고 감성사전을 구축한다.

도 6은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법에서 감성사전 구축 단계를 나타내는 도면이다.

예를 들어 설명하면, 분해된 어휘에 대해 양파(대상체) 가격의 등락을 기준으로 감성사전을 구축할 수 있다. 이로 인하여 농산물의 가격에 기반하여 감성사전을 구축함으로써 농산물 기사의 긍정/부정 분석에 적용할 수 있는 효과가 있다.

또한, 주어진 문장으로부터 후보키워드를 선정하는 방법은 학습데이터를 토대로 단어를 추정하는 지도학습 기반 방법과 사전 지식 없이 통계적인 정보를 기반으로 추정하는 비지도 학습 기반으로 나눌 수 있다.

본 발명의 실시 예에 따라 키워드 선별을 위해 사전 지식 없이 긍정/부정 집합을 생성할 수 있는 비지도 학습 방법인 KR-WordRank 알고리즘이 이용될 수 있다. 상기 KR-WordRank 알고리즘은 단어를 구성하는 글자간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자들로부터 통계적 정보를 추출하는 외부 경계값을 모두 이용하여 단어를 인식할 수 있다.

즉, 외부 경계값이란 주어진 단어의 좌우 주변에 다른 단어가 나타날 가능성을 의미하며, 내부 경계값이란 주어진 단어를 이루는 연속적인 글자의 응집성을 의미한다. 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용해 단어를 추출하고 추출된 단어들은 명사, 어근과 같이 의미를 지니는 단어 집합과 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류될 수 있다.

또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 상기 감성사전을 합성곱 신경망의 훈련데이터로 이용하여 문장의 극성을 분류하는 감성 분류 단계(S40)를 포함할 수 있다. 감성 분류 단계(S40)는 합성곱신경망을 활용하여 문장을 긍정 또는 부정으로 분류한다.

이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시 예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.

10 : 문장 감성 분류 시스템 100 : 데이터 수집부
200 : 데이터 전처리부 210 : 형태소 분석 모듈
220 : 불용어 처리 모듈 300 : 감성사전 구축부
310 : 가격등락 정보 모듈 320 : 후보키워드 선정 모듈
400 : 감성 분류부 410 : 합성곱신경망 모듈
500 : 저장부 510 : 문서 집합 저장 모듈
520 : 가격등락정보 저장 모듈 530 : 감성사전 저장 모듈

Claims

문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리부;
상기 문서집합에서 특정 단어가 나온 기사의 수를 합산하여 계산되는 단어의 빈도수와 단어의 의미를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성하며, 상기 문서집합에서 상기 특정 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산하고, 가격 등락 정보에 따른 감성사전을 생성하기 위해 상기 상승 값(pos)을 빈도수로 나누어 상기 특정 단어들의 상승 지수를 계산하는 감성사전 구축부; 및
상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류하는 감성 분류부를 포함하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
제 1항에 있어서,
상기 감성사전 구축부는
단어를 구성하는 글자 간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자들로부터 통계적 정보를 추출하는 외부 경계값을 사용하여 상기 감성사전의 단어에 대한 후보키워드를 선정하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
제 2항에 있어서,
상기 감성사전 구축부는
상기 내부 경계값과 외부 경계값을 사용하기 위해 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용하여 단어를 추출하고, 추출한 단어는 명사 및 어근과 같이 의미를 지니는 단어 집합과, 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
삭제
삭제
데이터 수집부가 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스 기사를 수집하고, 특정 분야에 따른 가격 등락 정보를 수집하는 데이터 수집 단계(S10);
데이터 전처리부가 수집된 문서 집합에서 문장을 추출하여 문서를 어절 단위로 형태소 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20);
감성사전 구축부가 상기 문서집합에서 특정 단어가 나온 기사의 수를 합산하여 계산되는 단어의 빈도수와 단어의 의미를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 상기 가격 등락 정보를 이용하여 단어의 긍정 또는 부정을 분류하여 감성사전을 생성하며, 상기 문서집합에서 상기 특정 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산하고, 가격 등락 정보에 따른 감성사전을 생성하기 위해 상기 상승 값(pos)을 빈도수로 나누어 상기 특정 단어들의 상승 지수를 계산하는 감성사전 구축 단계(S30); 및
감성 분류부가 상기 감성사전을 합성곱 신경망(Convolutional Newral Network, CNN)의 훈련데이터로 이용하여 문장의 감성을 분류하는 감성 분류 단계(S40)를 포함하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법.
제 6항에 있어서,
상기 데이터 전처리 단계(S20)는
상기 문서 집합에서 널(NULL) 값이나 형식에 맞지 않는 데이터를 삭제하고,
제목을 기준으로 중복되는 기사를 제거하여 불용어를 처리하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법.