KR102086642B1 - 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법 - Google Patents

가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법 Download PDF

Info

Publication number
KR102086642B1
KR102086642B1 KR1020180085570A KR20180085570A KR102086642B1 KR 102086642 B1 KR102086642 B1 KR 102086642B1 KR 1020180085570 A KR1020180085570 A KR 1020180085570A KR 20180085570 A KR20180085570 A KR 20180085570A KR 102086642 B1 KR102086642 B1 KR 102086642B1
Authority
KR
South Korea
Prior art keywords
word
emotional
sentence
words
emotional dictionary
Prior art date
Application number
KR1020180085570A
Other languages
English (en)
Other versions
KR20200017568A (ko
Inventor
양형정
김미선
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020180085570A priority Critical patent/KR102086642B1/ko
Publication of KR20200017568A publication Critical patent/KR20200017568A/ko
Application granted granted Critical
Publication of KR102086642B1 publication Critical patent/KR102086642B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것이다. 본 발명에 따른 문장 감성 분류 시스템은 데이터 전처리부, 감성사전 구축부 및 감성 분류부를 포함한다. 상기 데이터 전처리부는 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다. 상기 감성사전 구축부는 상기 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터로 표현하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성한다. 상기 감성 분류부는 상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류한다.

Description

가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법{Sentence sentiment classification system and method based on sentiment dictionary construction by the price fluctuation and convolutional neural network}
본 발명은 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 다양한 분야의 문서 집합에서 단어를 추출하여 감성사전을 구축하고 가격등락에 따라 긍정/부정을 분류하며, 분류된 결과를 이용하여 문장의 감성을 분류하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법에 관한 것이다.
문서에서 단어를 추출하여 감성을 분류하는 문제는 오랫동안 연구되어 왔다. 그러나 정규화된 한글 감성사전이 없고, 분야에 따라 개별적으로 구축하여 사용하고 있다.
통상적으로 글이란 단어가 모여서 문장을 이루고, 문장이 모여서 한 덩이의 완성된 글이 되는데, 글을 이루는 문장의 기초 단위인 단어는 하나의 단어가 다른 단어와 어떤 관계를 맺는가의 문제와 글을 쓰기 위해서 내용상으로 어떠한 단어를 선정하는가의 문제를 내포하고 있다. 이 두 가지의 문제를 해결하는 과정이 통상적으로 글을 집필하는 과정에 일어나는 현상이라고 볼 수 있으며, 이 두 가지의 과정 중에서 두 번째의 문제, 즉 어떠한 단어를 선정하느냐의 문제를 집중적으로 분석하면, 이로부터 글쓴이의 감정을 도출할 수 있다.
즉, 각각의 단어는 문장에서 변용되고 상황에 따라 다른 뜻을 함축하기도 하지만, 기본적으로 내재하고 있는 단어 자체의 성향이 있다는 것을 알 수 있다. 따라서 글을 쓴 이가 어떤 성향이 내재된 단어를 집중적으로 사용할 수 있으며, 문학적, 인지언어학적, 정신분석학적으로 접근했을 때, 인간 보편의 성향에 맞춘 단어의 분석을 통해 단어를 분류할 수 있는 기준을 설정할 수 있고, 그 기준에 따라 단어를 분류하여 글쓴이의 감정을 분류할 수 있게 된다.
최근에는, 매일 인터넷을 통해 정형 혹은 비정형의 많은 텍스트 정보들이 발생한다. 2012년 기준 1인 평균 3개의 SNS 계정을 사용하며, 한 해 약 1조 8천억 기가바이트가 생성된다. 이처럼 온라인상에 범람하는 데이터를 처리하기 위해서는 필요한 데이터를 수집하고 감성을 분류하는 기술이 중요하다.
대한민국 등록특허 제10-1855168호(2018년 05월 10일 공고)
따라서, 본 발명은 종래의 단점을 해결하기 위한 것으로서, 데이터를 분석하여 문장의 긍정부정을 분류함으로써 마케팅 또는 여론조사 등의 분야에 적용하고자 하는데 그 목적이 있다. 또한, 본 발명은 다양한 텍스트 정보들의 문장 감성 분류에 대한 성능을 증대하고자 하는데 그 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템은 데이터 전처리부, 감성사전 구축부 및 감성 분류부를 포함할 수 있다. 상기 데이터 전처리부는 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다.
바람직하게는, 상기 감성사전 구축부는 상기 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성할 수 있다. 또한, 상기 감성 분류부는 상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류할 수 있다.
또한, 본 발명의 다른 측면에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스 기사를 수집하고, 특정 분야에 따른 가격 등락 정보를 수집하는 데이터 수집 단계(S10)와 수집된 문서 집합에서 문장을 추출하여 문서를 어절 단위로 형태소 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20)를 포함한다.
또한, 단어의 의미와 빈도수를 파악하기 위하여 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 상기 가격 등락 정보를 이용하여 단어의 긍정 또는 부정을 분류하여 감성사전을 생성하는 감성사전 구축 단계(S30) 및 상기 감성사전을 합성곱 신경망(Convolutional Newral Network, CNN)의 훈련데이터로 이용하여 문장의 감성을 분류하는 감성 분류 단계(S40)를 포함할 수 있다.
이상에서 설명한 바와 같이, 본 발명에 따른 가격등락에 따른 감성사전 구축과 합성곱신경망 기반의 문장 감성 분류 시스템 및 방법은 많은 양의 정보나 데이터를 한눈에 보기 쉽게 분류하여 마케팅 또는 여론조사의 분야에 적용할 수 있는 효과가 있다. 또한, 가격 등락 정보를 이용하여 문서의 긍정/부정을 정의하고, 딥러닝 기술을 이용함으로써 다양한 텍스트 정보들의 문장 감성 분류에 대한 높은 성능을 구현할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 개략적으로 나타내는 개념도이다.
도 2는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 나타내는 구성도이다.
도 3은 본 발명의 실시 예에 따라 합성곱 신경망을 이용하여 문장을 분류하는 모델을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 개략적으로 나타내는 개념도이다.
도 5는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 나타내는 순서도이다.
도 6은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법에서 감성사전 구축 단계를 나타내는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 또는 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.
각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 개략적으로 나타내는 개념도이고, 도 2는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템을 나타내는 구성도이다.
본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템은 소비자물가를 적용한 대상체의 가격 등락을 기준으로 단어의 상승/하락지수를 계산하여 감성사전을 구축하고, 합성곱 신경망(Convolutional Neural Networks, CNN)을 이용하여 문장을 긍/부정으로 분류할 수 있다. 즉, 문장 감성 분류 시스템(10)은 내/외부 경계값을 활용하여 단어를 추출하고, 가격에 기반을 두어 감성사전을 구축하며 합성곱 신경망을 활용하여 문장의 감성을 분류한다. 또한, 특정 대상체(Object)에 대한 가격의 등락을 기준으로 감성사전을 구축하여 문서 집합의 긍정과 부정을 분류할 수 있다.
문장 감성 분류 시스템(10)은 데이터 수집부(100), 데이터 전처리부(200), 감성사전 구축부(300), 감성 분류부(400) 및 저장부(500)를 포함할 수 있다. 데이터 수집부(100)는 온라인 뉴스 기사나 신문기사와 같은 다양한 텍스트 문서 집합을 수집할 수 있다.
데이터 전처리부(200)는 상기 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리한다. 즉, 비정형 텍스트문서를 문장 단위로 분할한 뒤 분석 내용과 연관이 없거나 가격 등락에 상관없이 빈번하게 언급된 단어들을 불용어로 처리한다. 또한, 추출한 후보 단어들 중 상대적으로 긍정/부정 모두에서 빈도수가 많은 단어들도 변별력이 없는 단어로 판단하여 불용어 처리할 수 있다.
데이터 전처리부(200)는 문서 집합에서 문장을 추출하여 형태소를 분석하는 형태소 분석 모듈(210)과, 문서 집합에서 변별력이 없는 단어를 제거하는 불용어 처리 모듈(220)을 포함할 수 있다.
즉, 데이터 전처리부(200)는 감성사전 구축부(300) 또는 컴퓨터가 문서를 이해할 수 있도록 문서를 각 단어별로 분리한다. 한 문서 안에는 분류를 하는데 중요한 단어가 포함되기도 하지만 동시에 변별력이 없는 단어가 포함되어 있기도 한다. 이러한 단어들은 불용어라 하며 분류의 성능을 높이기 위해 삭제하는 것이 바람직하다. 따라서, 문서에서 상대적으로 자주 등장하는 단어들이나 문장부호 등을 제거한다. 또한, 상기 문서 집합을 문장 단위로 분할한 뒤 주제와 관련 없는 데이터를 삭제할 수 있다.
감성사전 구축부(300)는 문서집합에서 단어의 의미와 빈도수를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하여 표현하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류한다. 즉, 상기 문서 집합에서 긍정과 부정을 분류하는 기준을 가격의 등락으로 결정할 수 있다.
감성사전 구축부(300)는 감성사전의 극성 분류를 위해 특정 분야의 가격 등락 정보를 수집하는 가격등락 정보 모듈(310)과 감성사전의 의미 있는 단어로 이루어진 후보 키워드를 선정하는 후보키워드 선정 모듈(320)을 포함할 수 있다.
감성사전의 후보키워드를 선정하기 위해 단어의 내/외부 경계값을 사용할 수 있다. 이 알고리즘은 단어를 구성하는 글자 간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자로들로부터 통계적 정보를 추출하는 외부 경계값을 모두 이용하여 단어를 인식하는 비지도 학습 방법이 될 수 있다. 상기 비지도 학습 방법은 어절의 위치에 따라 랭킹을 계산하여 키워드를 추출할 수 있다.
한편, 외부 경계값이란 주어진 단어의 좌우 주변에 다른 단어가 나타날 가능성을 의미하며, 내부 경계값이란 주어진 단어를 이루는 연속적인 글자의 응집성을 의미한다. 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용하여 단어를 추출하고, 추출한 단어들은 명사 및 어근과 같이 의미를 지니는 단어 집합과, 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류할 수 있다.
감성사전의 극성 분류를 위해 기설정된 해당 분야에 따른 가격 정보를 추가할 수 있다. 본 발명에 따른 실시 예를 들어 설명하면 다음과 같다. 아래의 [수학식 1]에서 빈도수(freq)는 기설정된 해당 단어가 나온 기사의 수를 합산하여 계산할 수 있다.
[수학식 1]
Figure 112018072723880-pat00001
Figure 112018072723880-pat00002
또한, 아래의 [수학식 2]를 이용하여 기설정된 해당 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산할 수 있다. 또한, 상기 대상체 가격에 특화된 어휘 사전을 구축하고, 가격이 오르는 긍정적인 어휘가 가지는 값을 상승 지수, 가격이 떨어지는 부정적인 어휘가 가지는 값을 하락 지수로 나타낼 수 있다.
[수학식 2]
Figure 112018072723880-pat00003
Figure 112018072723880-pat00004
다음으로, 추출한 어휘들의 상승 지수 및 하락 지수를 계산하여 감성사전을 완성한다. 상승 지수는 상승 값을 빈도수로 나누어 나타내며, 아래의 [수학식 3]으로 나타낼 수 있다.
[수학식 3]
Figure 112018072723880-pat00005
상기 감성 사전의 단어들(Word)은 각각 상승 지수 또는 하락 지수를 가지며, 구축된 감성사전은 분류 모델의 훈련 데이터로 사용될 수 있다. 분류 모델에 기사 데이터가 문장으로 입력되면 단어들은 다차원의 행백터로 임베딩된다. 또한, 기사 단어들의 상승 및 하락 지수가 계산되어 전체적인 내용의 긍정/부정 여부를 판별할 수 있다.
감성 분류부(400)는 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 극성을 분류한다. 즉, 감성 분류부(400)는 상기 구축된 감성 사전을 토대로 합성곱 신경망을 이용하여 문장의 감성을 분류할 수 있다. 감성 분류부(400)는 문장의 긍정 및 부정 분류를 위해 합성곱 신경망(CNN)을 수행하는 합성곱신경망 모듈(410)을 포함할 수 있다.
자연어를 처리하고 감성 분류를 하기 위해 베이시안 분류, 최근접 이웃 기법, 서프트 벡터 머신(Support Vector Machine, SVM) 등의 통계적 추론이 사용될 수도 있다.
도 3은 본 발명의 실시 예에 따라 합성곱 신경망을 이용하여 문장을 분류하는 모델을 나타내는 도면이다. 일반적으로 합성곱신경망은 이미지 처리에 주로 사용되지만 텍스트 CNN의 필터가 텍스트의 지역적인 정보, 즉 단어 등장순서와 문맥 정보를 보존할 수 있다. 이미지 처리를 위해 사용되는 CNN의 필터를 텍스트의 단어등장 순서 및 문맥정보를 가져오는데 사용할 수 있다.
한 문장 당 단어 수가 총 n개일 때 단어들은 각각 k차원의 벡터이다. 즉, n개의 단어로 이루어진 기사를 각 단어별로 k차원의 행벡터로 임베딩할 수 있다. 여기에서, 필터 윈도우의 사이즈는 h이다. 본 발명의 실시 예에 따라 파라미터를 설정할 때 단어벡터 값의 초기값을 랜덤으로 설정하고, 학습 과정에서 업데이트를 수행할 수 있다.
저장부(500)는 문서 집합 저장 모듈(510), 가격등락 정보 저장 모듈(520) 및 감성사전 저장 모듈(530)을 포함할 수 있다. 문서 집합 저장 모듈(510)은 데이터 수집부(100)에서 수집된 다양한 텍스트 문서 집합을 저장할 수 있다. 여기에서, 상기 텍스트 문서 집합에는 뉴스기사나 신문기사가 포함될 수 있다. 가격등락 정보 저장 모듈(520)은 감성사전 구축부(300)에서 수집된 특정 분야에 따른 가격등락 정보를 저장할 수 있다. 감성사전 저장 모듈(530)은 감성사전 구축부(300)에서 생성된 감성사전 데이터를 저장할 수 있다.
본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템(10)은 단어의 빈도수와 문맥을 이해하기 위해 내/외부 경계값을 활용하여 단어를 추출하고 벡터화시킨다. 또한, 가격의 등락을 기반으로 합성곱신경망을 활용하여 긍정/부정 감성 사전을 생성하고 문장을 분류할 수 있다.
이로 인하여 다양한 텍스트 문서 집합에서 단어를 추출하여 감성사전을 구축하고, 문장의 긍정/부정을 추출하여 감성 분류를 용이하게 할 수 있다. 또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템(10)은 시계열 분석이나 기상데이터와 함께 언론기사 같은 비정형 데이터를 이용하여 농산물 가격 예측에 활용할 수 있는 효과도 있다.
도 4는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 개략적으로 나타내는 개념도이고, 도 5는 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법을 나타내는 순서도이다.
본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 최근 범람하는 데이터 속에서 필요로 하는 정보를 수집하고 감성을 분류하는 분류 방법으로서, 문장을 감성 분류하기 위해서 단어를 벡터화하고 감성사전을 구축한다.
본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스를 수집하고, 가격 등락 정보를 수집하는 데이터 수집 단계(S10)와 수집된 문서 집합에서 문장을 추출하여 형태소를 분석하고 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20)를 포함할 수 있다. 데이터 전처리 단계(S20)는 문서를 어절 단위로 형태소 분석하고, 분별력을 높이기 위해 불용어를 처리한다.
예를 들어 설명하면, 웹 크롤링을 이용하여 양파 관련 뉴스를 수집하고, 농산물유통 정보 사이트에서 양파가격을 수집할 수 있다. 또한, 감성사전을 구축하기 위해 데이터 전처리 단계(S20)에서는 양파와 관련이 없는 내용을 필터링하고 형태소 분석을 수행할 수 있다.
상기 감성사전 구축을 위해 수집한 기사데이터의 전처리(Preprocessing)는 다음과 같이 진행될 수 있다. 먼저 널(NULL) 값이나 형식에 맞지 않는 데이터를 삭제한다. 또한, 제목을 기준으로 중복되는 기사를 제거하고 형태소 분석을 진행한 후 불용어를 제거한다.
또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 단어의 의미와 빈도수를 파악하기 위하여 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 특정 분야에 따른 가격 등락 정보를 이용하여 긍정 또는 부정을 분류하는 감성사전 구축 단계(S30)를 포함할 수 있다. 감성사전 구축 단계(S30)는 단어의 빈도수와 문맥을 이해하기 위하여 내/외부 경계값을 이용하여 키워드를 추출하고 감성사전을 구축한다.
도 6은 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법에서 감성사전 구축 단계를 나타내는 도면이다.
예를 들어 설명하면, 분해된 어휘에 대해 양파(대상체) 가격의 등락을 기준으로 감성사전을 구축할 수 있다. 이로 인하여 농산물의 가격에 기반하여 감성사전을 구축함으로써 농산물 기사의 긍정/부정 분석에 적용할 수 있는 효과가 있다.
또한, 주어진 문장으로부터 후보키워드를 선정하는 방법은 학습데이터를 토대로 단어를 추정하는 지도학습 기반 방법과 사전 지식 없이 통계적인 정보를 기반으로 추정하는 비지도 학습 기반으로 나눌 수 있다.
본 발명의 실시 예에 따라 키워드 선별을 위해 사전 지식 없이 긍정/부정 집합을 생성할 수 있는 비지도 학습 방법인 KR-WordRank 알고리즘이 이용될 수 있다. 상기 KR-WordRank 알고리즘은 단어를 구성하는 글자간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자들로부터 통계적 정보를 추출하는 외부 경계값을 모두 이용하여 단어를 인식할 수 있다.
즉, 외부 경계값이란 주어진 단어의 좌우 주변에 다른 단어가 나타날 가능성을 의미하며, 내부 경계값이란 주어진 단어를 이루는 연속적인 글자의 응집성을 의미한다. 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용해 단어를 추출하고 추출된 단어들은 명사, 어근과 같이 의미를 지니는 단어 집합과 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류될 수 있다.
또한, 본 발명의 실시 예에 따른 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법은 상기 감성사전을 합성곱 신경망의 훈련데이터로 이용하여 문장의 극성을 분류하는 감성 분류 단계(S40)를 포함할 수 있다. 감성 분류 단계(S40)는 합성곱신경망을 활용하여 문장을 긍정 또는 부정으로 분류한다.
이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시 예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.
10 : 문장 감성 분류 시스템 100 : 데이터 수집부
200 : 데이터 전처리부 210 : 형태소 분석 모듈
220 : 불용어 처리 모듈 300 : 감성사전 구축부
310 : 가격등락 정보 모듈 320 : 후보키워드 선정 모듈
400 : 감성 분류부 410 : 합성곱신경망 모듈
500 : 저장부 510 : 문서 집합 저장 모듈
520 : 가격등락정보 저장 모듈 530 : 감성사전 저장 모듈

Claims (7)

  1. 문서 집합에서 문장을 추출하여 형태소를 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리부;
    상기 문서집합에서 특정 단어가 나온 기사의 수를 합산하여 계산되는 단어의 빈도수와 단어의 의미를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 추출하고 벡터화하며, 특정 분야에 따른 가격등락 정보를 수집하고 상기 가격등락 정보를 토대로 단어의 긍정과 부정을 분류하여 감성사전을 생성하며, 상기 문서집합에서 상기 특정 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산하고, 가격 등락 정보에 따른 감성사전을 생성하기 위해 상기 상승 값(pos)을 빈도수로 나누어 상기 특정 단어들의 상승 지수를 계산하는 감성사전 구축부; 및
    상기 감성사전을 기반으로 합성곱 신경망(Convolutional Newral Network, CNN)을 이용하여 문장의 감성을 분류하는 감성 분류부를 포함하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
  2. 제 1항에 있어서,
    상기 감성사전 구축부는
    단어를 구성하는 글자 간의 정보로부터 통계적 정보를 추출하는 내부 경계값과 단어 주변의 다른 글자들로부터 통계적 정보를 추출하는 외부 경계값을 사용하여 상기 감성사전의 단어에 대한 후보키워드를 선정하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
  3. 제 2항에 있어서,
    상기 감성사전 구축부는
    상기 내부 경계값과 외부 경계값을 사용하기 위해 띄어쓰기를 이용하여 문장을 토큰(token)으로 구분한 후, 각 부분 글자의 위치 정보를 사용하여 단어를 추출하고, 추출한 단어는 명사 및 어근과 같이 의미를 지니는 단어 집합과, 어미 및 조사와 같은 문법적 기능을 하는 단어 집합으로 분류하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템.
  4. 삭제
  5. 삭제
  6. 데이터 수집부가 웹 크롤링(Web Crawling)을 이용하여 대상체의 관련 뉴스 기사를 수집하고, 특정 분야에 따른 가격 등락 정보를 수집하는 데이터 수집 단계(S10);
    데이터 전처리부가 수집된 문서 집합에서 문장을 추출하여 문서를 어절 단위로 형태소 분석하고, 상기 문서 집합에서 변별력이 없는 단어를 제거하여 불용어를 처리하는 데이터 전처리 단계(S20);
    감성사전 구축부가 상기 문서집합에서 특정 단어가 나온 기사의 수를 합산하여 계산되는 단어의 빈도수와 단어의 의미를 파악하기 위해 단어의 내/외부 경계값을 활용하여 단어를 벡터로 표현하고 상기 가격 등락 정보를 이용하여 단어의 긍정 또는 부정을 분류하여 감성사전을 생성하며, 상기 문서집합에서 상기 특정 단어가 들어간 기사가 월별 대상체 가격(Object month price, OMP)이 상승한 달에 속한 경우의 수를 합산하여 상승 값(pos)을 계산하고, 가격 등락 정보에 따른 감성사전을 생성하기 위해 상기 상승 값(pos)을 빈도수로 나누어 상기 특정 단어들의 상승 지수를 계산하는 감성사전 구축 단계(S30); 및
    감성 분류부가 상기 감성사전을 합성곱 신경망(Convolutional Newral Network, CNN)의 훈련데이터로 이용하여 문장의 감성을 분류하는 감성 분류 단계(S40)를 포함하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법.
  7. 제 6항에 있어서,
    상기 데이터 전처리 단계(S20)는
    상기 문서 집합에서 널(NULL) 값이나 형식에 맞지 않는 데이터를 삭제하고,
    제목을 기준으로 중복되는 기사를 제거하여 불용어를 처리하는 것을 특징으로 하는 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 방법.



KR1020180085570A 2018-07-23 2018-07-23 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법 KR102086642B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180085570A KR102086642B1 (ko) 2018-07-23 2018-07-23 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180085570A KR102086642B1 (ko) 2018-07-23 2018-07-23 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20200017568A KR20200017568A (ko) 2020-02-19
KR102086642B1 true KR102086642B1 (ko) 2020-03-09

Family

ID=69670417

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180085570A KR102086642B1 (ko) 2018-07-23 2018-07-23 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102086642B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460812B (zh) * 2020-03-02 2024-05-31 平安科技(深圳)有限公司 语句情感分类方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213002A1 (en) 2014-01-24 2015-07-30 International Business Machines Corporation Personal emotion state monitoring from social media

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101855168B1 (ko) 2016-11-18 2018-05-10 가톨릭대학교 산학협력단 딥러닝 기반의 감성 분류 장치 및 그 방법
KR20180080492A (ko) * 2017-01-04 2018-07-12 (주)프람트테크놀로지 사용자 리뷰를 이용한 상품 평가 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213002A1 (en) 2014-01-24 2015-07-30 International Business Machines Corporation Personal emotion state monitoring from social media

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
김도우, Doc2Vec을 활용한 CNN 기반 한국어 신문 기사 분류에 관한 연구, 서강대학교 석사학위 논문 (2017.01.05.) 1부.*
양형정 외, Classification of Cognitie States from fMRI data using Fisher Discriminant Ratio and Regions of Interest, International Journal of Contents, Vol.8 no.4, pp.55-62 (2012.12)
채희찬 외, 트윗 키워드 네트워크를 이용한 구제역의 감성분석, 한국정보처리학회 2018년 춘계학술발표대회 논문집 제25권제1호, pp.267-270 (2018.05.)

Also Published As

Publication number Publication date
KR20200017568A (ko) 2020-02-19

Similar Documents

Publication Publication Date Title
US10754883B1 (en) System and method for insight automation from social data
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
Chang et al. Research on detection methods based on Doc2vec abnormal comments
Lou et al. Multilabel subject-based classification of poetry
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Subramanian et al. A survey on sentiment analysis
Safrin et al. Sentiment analysis on online product review
Lumbanraja et al. Abstract classification using support vector machine algorithm (case study: abstract in a Computer Science Journal)
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
KR102086642B1 (ko) 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법
Vukanti et al. Business Analytics: A case-study approach using LDA topic modelling
KR102546536B1 (ko) 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법
Al-Hagree et al. Arabic sentiment analysis on mobile applications using Levenshtein distance algorithm and naive Bayes
Bangyal et al. Polarity Classification of Twitter Data Using Machine Learning Approach
Pal et al. A study of current state of work done for classification in Indian languages
Hidayat et al. Comparison of Accuracy and Time Of Naïve Bayes Algorithm with Support Vector Machine Algorithm in Twitter Sentiment Analysis of Peduli Lindungi Application
Velammal Development of knowledge based sentiment analysis system using lexicon approach on twitter data
Jasy et al. A Performance Evaluation of Sentiment Classification Applying SVM, KNN, and Naive Bayes
da Rocha et al. Polarity classification on web-based reviews using Support Vector Machine
Preethi et al. Comparison of various Supervised Machine Learning Algorithms in Sentiment Analysis of Tweets on Black Fungus
Chauhan et al. Feature based opinion summarization of online product reviews
Yokoi et al. Learning Co-Substructures by Kernel Dependence Maximization.
Gaber et al. SMAD: Text Classification of Arabic Social Media Dataset for News Sources

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant