KR102341959B1 - 문장 데이터의 감성 분석을 처리하는 시스템 및 방법 - Google Patents

문장 데이터의 감성 분석을 처리하는 시스템 및 방법 Download PDF

Info

Publication number
KR102341959B1
KR102341959B1 KR1020210020531A KR20210020531A KR102341959B1 KR 102341959 B1 KR102341959 B1 KR 102341959B1 KR 1020210020531 A KR1020210020531 A KR 1020210020531A KR 20210020531 A KR20210020531 A KR 20210020531A KR 102341959 B1 KR102341959 B1 KR 102341959B1
Authority
KR
South Korea
Prior art keywords
embedding
polarity
sentiment analysis
data
generated
Prior art date
Application number
KR1020210020531A
Other languages
English (en)
Inventor
송동국
최재웅
Original Assignee
비플라이소프트(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비플라이소프트(주) filed Critical 비플라이소프트(주)
Priority to KR1020210020531A priority Critical patent/KR102341959B1/ko
Application granted granted Critical
Publication of KR102341959B1 publication Critical patent/KR102341959B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시 예에 따른, 문장 데이터의 감성 분석을 처리하는 장치 및 방법은, 학습 데이터를 전처리하여 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 저장하는 데이터 전처리부; 상기 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 저장하는 학습 모델 생성부; 상기 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 각각에 극성을 부여하여 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 저장하는 극성 전파부; 및 감성 분석 요청 메시지가 수신되면, 상기 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 상기 저장된 학습 모델들과 상기 저장된 극성 그래프를 적용하여 상기 문장 데이터의 감성 분석을 처리함으로써 감성 분석 결과 데이터를 생성하며, 상기 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 상기 생성된 감성 분석 응답 메시지를 전송하는 감성 분석부를 포함한다.

Description

문장 데이터의 감성 분석을 처리하는 시스템 및 방법{System and method for processing sentiment analysis of sentence data}
본 발명의 일 실시 예는 문장 데이터의 분석에 관한 것으로, 특히, 문장 데이터의 감성 분석을 처리하는 시스템 및 방법에 관한 것이다.
감성 분석(sentiment analysis)은 화자들이 특정 상품이나 사건, 인물에 대해 어떤 감정이나 의견을 가지고 있는지 인식하고 분류하는 것이다. 최근에는 제품과 서비스에 대한 고객의 반응을 살피려는 기업들과 국민의 여론을 확인하려는 정부를 중심으로 감성 분석에 대한 수요가 기하급수적으로 증가하고 있다.
따라서, 이러한 감성 분석을 쉽고 편리하게 처리할 수 있는 시스템의 필요성이 대두되었다.
본 발명의 일 실시 예는 문장 데이터의 감성 분석을 쉽고 편리하게 처리하는 시스템 및 방법을 제안한다.
그리고 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 실시간으로 처리하는 시스템 및 방법을 제안한다.
본 발명의 일 실시 예에 따른, 문장 데이터의 감성 분석을 처리하는 장치는, 학습 데이터를 전처리하여 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 저장하는 데이터 전처리부; 상기 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 저장하는 학습 모델 생성부; 상기 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 각각에 극성을 부여하여 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 저장하는 극성 전파부; 및 감성 분석 요청 메시지가 수신되면, 상기 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 상기 저장된 학습 모델들과 상기 저장된 극성 그래프를 적용하여 상기 문장 데이터의 감성 분석을 처리함으로써 감성 분석 결과 데이터를 생성하며, 상기 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 상기 생성된 감성 분석 응답 메시지를 전송하는 감성 분석부를 포함한다.
본 발명의 일 실시 예에 따른, 문장 데이터의 감성 분석을 처리하는 방법은, 데이터 전처리부가, 학습 데이터를 전처리하여 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 저장하는 과정; 학습 모델 생성부가, 상기 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 저장하는 과정; 극성 전파부가, 상기 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 각각에 극성을 부여하여 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 저장하는 과정; 감성 분석부가, 감성 분석 요청 메시지가 수신되면, 상기 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 상기 저장된 학습 모델들과 상기 저장된 극성 그래프를 적용하여 상기 문장 데이터의 감성 분석을 처리함으로써 감성 분석 결과 데이터를 생성하는 과정; 및 상기 감성 분석부가, 상기 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 상기 생성된 감성 분석 응답 메시지를 전송하는 과정을 포함한다.
본 발명의 일 실시 예는 문장 데이터의 감성 분석을 쉽고 편리하게 처리할 수 있다.
그리고 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 실시간으로 처리할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 시스템의 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 문장 데이터 분석 장치의 블록 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 학습 모델을 나타내는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 극성 그래프를 나타내는 도면이다.
도 5는 본 발명의 제1실시 예에 따른 시스템에서 문장 데이터의 극성을 표시하는 도면이다.
도 6은 본 발명의 제2실시 예에 따른 시스템에서 문장 데이터의 극성을 표시하는 도면이다.
도 7은 본 발명의 일 실시 예에 따른 시스템에서 문장 데이터의 감성 분석을 처리하는 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명의 실시 예에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당하는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 발명의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 발명된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 실시 예에서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수 의'부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 발명의 실시 예에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 일 실시 예에 따른 시스템의 구성도이다.
도 1을 참조하면, 시스템은 문장 데이터 분석 장치(101)와 휴대 단말기(103)와 노트북(105)과 네트워크(107)를 포함한다.
각 구성요소를 살펴보면, 네트워크(107)는 문장 데이터 분석 장치(101)와 휴대 단말기(103) 사이 또는 문장 데이터 분석 장치(101)와 노트북(105) 사이를 유선이나 무선의 통신 매체로 연결하여 서로 데이터를 주고받을 수 있게 하는 통신 체계이다. 예를 들면, 네트워크(107)는 휴대 단말기(103) 또는 노트북(105)으로부터 문장 데이터 분석 장치(101)로 문장 데이터를 포함하는 감성 분석 요청 메시지를 전달할 수 있다. 예를 들면, 문장 데이터는 화자들이 특정 상품이나 사건, 인물에 대한 감정이 포함된 글자들의 집합일 수 있다. 예를 들면, 문장 데이터는 1000자 미만인 단문 데이터와 1000자 이상인 장문 데이터로 분류될 수 있다. 예를 들면, 단문 또는 장문은 인터넷 뉴스나 인터넷 글(예를 들면, 영화, 요리 또는 제품 감상 또는 평가 글)의 일부 또는 전체일 수 있다. 예를 들면, 감성 분석 요청 메시지는 문장 데이터의 감성 분석을 요청하는 메시지일 수 있다.
다른 예로, 네트워크(107)는 문장 데이터 분석 장치(101)로부터 휴대 단말기(103) 또는 노트북(105)으로 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 전달할 수 있다. 예를 들면, 감성 분석 결과 데이터는 문장 데이터 분석 장치(101)에서 문장 데이터의 감성을 분석한 결과를 나타낼 수 있다. 예를 들면, 감성 분석 결과 데이터는 그래프 또는 표로 나타날 수 있다. 예를 들면, 감성 분석 응답 메시지는 감성 분석 요청 메시지의 응답 메시지일 수 있다.
휴대 단말기(103) 또는 노트북(105)은 사용자의 요청에 따라 감성 분석 요청 메시지를 생성하고, 생성된 감성 분석 요청 메시지를 네트워크(107)를 통해 문장 데이터 분석 장치(101)로 전송한다. 그리고 휴대 단말기(103) 또는 노트북(105)은 감성 분석 요청 메시지에 대한 응답으로, 네트워크(107)를 통해 문장 데이터 분석 장치(101)로부터 감성 분석 응답 메시지를 수신한다. 그리고 휴대 단말기(103) 또는 노트북(105)은 수신된 감성 분석 응답 메시지에 포함된 감성 분석 결과 데이터를 검출하여 표시한다.
문장 데이터 분석 장치(101)는 네트워크(107)를 통해 휴대 단말기(103) 또는 노트북(105)으로부터 감성 분석 요청 메시지를 수신하고, 수신된 감성 분석 요청 메시지에 포함된 문장 데이터의 감성 분석을 처리하여 감성 분석 결과 데이터를 생성한다. 그리고 문장 데이터 분석 장치(101)는 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 네트워크(107)를 통해 생성된 감성 분석 응답 메시지를 휴대 단말기(103) 또는 노트북(105)으로 전송한다.
예를 들면, 문장 데이터 분석 장치(101)는 학습을 통한 감성 분석을 이용하여 문장 데이터의 감성을 분석할 수 있다. 예를 들면, 학습을 통한 감성 분석은 극성(예를 들면, 긍정, 중립, 부정)에 대한 정답(Ground Truth)이 있는 데이터를 이용하여 미리 학습하여 학습 모델을 생성하고, 생성된 학습 모델을 이용하여 문장 데이터의 극성을 추측하는 것을 나타낼 수 있다. 예를 들면, 학습 모델링은 학습 데이터에 따라 결과가 다르기 때문에, 학습 데이터가 가장 중요한 요소라고 할 수 있다. 그러므로 장문과 단문에 대한 감성 분석 결과도 학습 데이터에 따라 성능이 다를 수 있다.
이에 따라, 본 발명의 일 실시 예에서는 학습 데이터에 포함된 글의 길이(sequence length)에 맞추어 복수의 학습 모델들을 생성하고, 생성된 학습 모델들 중에서 문장 데이터의 길이에 맞추어 한 학습 모델을 선택하고, 선택된 학습 모델을 이용하여 문장 데이터의 감성 분석을 처리한다.
이제부터 도 2를 참조하여 문장 데이터 분석 장치(101)를 자세히 살펴보고자 한다.
도 2는 본 발명의 일 실시 예에 따른 문장 데이터 분석 장치(101)의 블록 구성도이다.
도 2를 참조하면, 문장 데이터 분석 장치(101)는 데이터 전처리부(203)와 극성 전파부(205)와 학습 모델 생성부(207)와 감성 분석부(209)를 포함한다.
각 구성요소를 살펴보면, 데이터 전처리부(203)는 학습 데이터에서 다수의 임베딩 단어들을 추출하고, 추출된 임베딩 단어들에 대응하는 다수의 임베딩 벡터들을 생성하고, 생성된 임베딩 벡터들을 저장한다.
예를 들면, 학습 데이터의 종류는 뉴스, SNS 데이터, 위키피디아, 각종 영화 댓글 등을 포함할 수 있다. 예를 들면, 장문의 감성 분석 모델을 위한 학습 데이터는 각종 뉴스와 위키피디아의 글들 등을 사용하며, 뉴스와 위키피디아 글의 길이는 장문 평균 길이와 대비해 가중치를 부여하여 제한할 수 있다. 예를 들면, 단문의 감성 분석 모델을 위한 학습 데이터는 SNS, 위키피디아의 글, 그리고 영화 댓글 등을 사용하며, SNS, 위키피디아의 글, 영화 댓글의 길이는 단문 평균 길이와 대비해 가중치를 부여하여 제한할 수 있다.
좀 더 자세히 설명하면, 데이터 전처리부(203)는 정규화부(211)와 형태소 분석부(213)와 전처리부(215)와 임베딩부(217)를 포함한다.
정규화부(211)는 학습 데이터를 수신하고, 수신된 학습 데이터에 포함된 글에서 잘못 작성된 글자(오탈자)를 판별하며, 이모티몬이나 요약어 등이 아닌 오탈자나 문법이 어긋난 단어를 제거하여 글을 일관성이 있는 문장들로 정규화한다.
형태소 분석부(213)는 정규화된 문장들을 형태소 분석하여 문장의 최소 단위로 분해함으로써 정규화된 문장들을 수천만 개의 임베딩 단어들로 분해한다.
전처리부(215)는 미리 지정된 모델 방법을 이용하여 분해된 수천만 개의 임베딩 단어들에 전처리를 진행하여 수천만 개의 임베딩 단어들에 대응하는 수천만 개의 임베딩 벡터들을 생성하고, 생성된 임베딩 벡터들을 임베딩부(217)에 저장한다. 예를 들면, 임베딩 벡터는 하나의 단어가 미리 정의된 차원에서 연속형의 값을 갖는 벡터로 표현되는 것을 나타낼 수 있으며, 다른 단어들과 문맥상의 의미가 최대한 보존될 수 있도록 알고리즘에 의해 학습(또는, 생성)될 수 있다.
예를 들면, 미리 지정된 모델 방법은 Word2Vec, Fasttext, GPT-2와 Bert 중 하나일 수 있다. 예를 들면, Word2Vec는 전방 전달 신경망(feedforward neural network) 기반의 언어 모델(language model)을 활용한 대표적인 단어 임베딩 방법론일 수 있다.
전처리부(215)는 학습 데이터를 실시간으로 처리하기 위해, 파라미터 개수 대비 성능이 우월한 알고리즘을 선택하여 임베딩 모델 방법을 선택한다. 예를 들면, 모델 방식의 각 단어당 차원수는 Word2Vec 또는 Fasttext는 128차원, Bert는 764차원일 수 있다.
학습 모델 생성부(207)는 임베딩부(217)에 저장된 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성한다.
좀 더 자세히 설명하면, 학습 모델 생성부(207)는 학습/검증부(223)와 분류부(225)와 분류 결과/가중치 저장부(227)을 포함한다.
각 구성요소를 살펴보면, 분류부(225)는 임베딩부(217)에 저장된 임베딩 벡터들을 수신하고, 수신된 임베딩 벡터들 중에서 극성이 높은 복수의 임베딩 벡터들을 분류한다. 예를 들면, 극성이 높은 복수의 임베딩 벡터들 각각은 긍정 또는 부정 감성이 극명하게 나타나는 임베딩 단어에 대응하는 임베딩 벡터를 나타낼 수 있다. 예를 들면, 긍정 또는 부정 감성이 극명하게 나타나는 임베딩 단어는 좋아 또는 싫어 및 최고 또는 최악이 될 수 있다.
그리고 분류부(225)는 분류된 복수의 임베딩 벡터들 중에서 긍정을 나타내는 임베딩 단어에 대응하는 임베딩 벡터(이하, '긍정 임베딩 벡터'라 한다에 미리 지정된 제1가중치를 부여한다. 예를 들면, 제1가중치는 긍정 임베딩 벡터에 부가되는 가중치일 수 있다. 그리고 분류부(225)는 분류된 복수의 임베딩 벡터들 중에서 부정을 나타내는 임베딩 단어에 대응하는 임베딩 벡터(이하 '부정 임베딩 벡터'라 한다)에 미리 지정된 제2가중치를 부여한다. 예를 들면, 제2가중치는 부정 임베딩 벡터에 부가되는 가중치일 수 있다.
그리고 분류부(225)는 제1 또는 제2가중치가 부여된 임베딩 벡터들을 분류 결과/가중치 저장부(227)에 저장한다.
학습/검증부(223)는 임베딩부(217)에 저장된 임베딩 벡터들을 수신하고, 수신된 임베딩 벡터들에 컨볼루션(convolution) 레이어를 적용하여 글의 특징을 학습한다. 예를 들면, 컨볼류션 레이어의 필터는 k * k 사이즈를 가진 n개로 구성될 수 있다. 예를 들면, k는 3, 4, 5 중에서 하나일 수 있고, n은 128, 256 중에서 하나일 수 있다.
학습/검증부(223)는 컨볼류션 레이어에 포함된 n개의 레이어들 중에서 3개의 레이어들에 활성화 함수(예를 들면, Relu)를 적용하고, 그 결과에 maxpooling한 후에 합산하고, fully connected layer와 softmax를 이용하여 합산 결과를 학습하여 학습 모델을 생성한다. 이때, 학습/검증부(223)는 단문 또는 장문을 위한 복수의 학습 모델들을 생성한다. 예를 들면, 학습/검증부(223)는 도 3에 도시된 그래프(301)와 같이, 3개의 레이어들에 활성화 함수를 적용하여 하나의 레이어를 생성하며, 생성된 하나의 레이어를 포함하는 n개의 레이어들을 maxpooling하여 하나의 레이어를 생성하고, 생성된 4개에 레이어들에 fully connected layer와 softmax를 적용하여 학습 모델을 생성할 수 있다.
그리고 학습/검증부(223)는 분류 결과/가중치 저장부(227)에 단문 또는 장문을 위한 복수의 학습 모델들을 저장한다.
극성 전파부(205)는 임베딩부(217)에 저장된 다수의 임베딩 벡터들에 그래프의 전파 이론을 적용하여 임베딩 단어들 각각에 극성 점수를 부여한다.
좀 더 자세히 설명하면, 극성 전파부(205)는 단어 극성 분석부(219)와 단어 극성 저장부(221)를 포함한다.
각 구성요소를 살펴보면, 극성 분석부(219)는 임베딩부(217)에 저장된 다수의 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 중에서 적어도 하나의 임베딩 단어가 사용자에 의해 선택된 후, 선택된 임베딩 벡터에 긍정 또는 부정 점수가 사용자에 의해 입력되면, 선택된 임베딩 단어에 긍정 또는 부정 점수를 부여한다.
그리고 극성 분석부(219)는 다수의 임베딩 단어들 간의 네트워크를 생성한다. 예를 들면, 극성 분석부(219)는 임베딩 단어들 각각을 노드로 인지하고, 노드들 간의 거리가 미리 지정된 ε보다 작은 거리를 가지는 경우, 노드들 사이를 연결하여 노드 쌍을 생성하는 ε-neighborhood 방식을 임베딩 단어들에 적용하여 네트워크를 생성할 수 있다. 다른 예로, 극성 분석부(219)는 한 노드에 k개의 이웃 노드와 연결하는 k-nearest neighborhood 방식을 임베딩 단어들에 적용하여 네트워크를 생성할 수 있다. 그리고 극성 분석부(219)는 ε-neighborhood 방식 또는 k-nearest neighborhood 방식으로 생성된 네트워크에서 연결이 되지 못한 적어도 하나의 노드에 1개 이상의 다른 노드와 연결될 수 있도록 최소 신장 나무(minimum spanning tree, 이하 'MST'라 한다)를 적용할 수 있다.
그리고 극성 분석부(219)는 극성 점수가 부여된 노드에 Label propagation과 Label spreading을 수행함으로써 노드들 간의 거리를 기반으로 Radial basis function(RBF) kernel을 사용하여 극성 점수가 부여된 노드와 가까운 노드에 큰 가중치를 부여한다.
예를 들면, 극성 분석부(219)는 다음과 같은 수학식 1을 이용하여 가중치를 계산할 수 있다.
Figure 112021018662921-pat00001
Figure 112021018662921-pat00002
여기서, d(xi, xj)2은 노드 i와 노드 j 간의 거리를 나타내며, wij는 노드 i와 노드 j 간에 부여되는 가중치를 나타내고, σ는 공분산 변수를 나타낸다.
Figure 112021018662921-pat00003
는 노드 i에 대한 가중치 수렴값을 나타낸다.
극성 분석부(219)는 Label spreading을 통해 yi를 수렴할때까지 반복적으로 추정을 하는데, 이 추정은 라플라시안(
Figure 112021018662921-pat00004
), L과 차수행렬과 하이퍼파라미터(hiperparameter)인 α를 이용하여 계산한다. 그리고 극성 분석부(219)는 선택된 임베딩 단어의 임베딩 벡터에서 근처에 임베딩 차원 상에 가까운 임베딩 단어로 극성 점수를 전파하며 각 임베딩 단어가 극성을 띄게 되는 경우, 각 임베딩 단어에 대응되게 극성 점수를 단어 극성 저장부(221)에 저장한다.
예를 들면, 극성 분석부(219)는 다음과 같은 수학식 2를 이용하여 극성을 전파할 수 있다.
Figure 112021018662921-pat00005
여기서, L은 라플라시안 변환을 나타내며, α는 하이퍼파라미터를 나타내고, t는 특정 시점을 나타내고, Y(t+1)은 t시점부터 1시점 이후의 라벨(label)을 나타낸다.
극성 분석부(219)는 이러한 동작을 반복적으로 수행하여 도 4와 같은 극성 그래프(401)를 생성할 수 있다.
감성 분석부(209)는 휴대 단말기(103) 또는 노트북(105)로부터 감성 분석 요청 메시지를 수신하고, 수신된 감성 분석 요청 메시지에 포함된 문장 데이터의 글자 수를 계산한다. 그리고 감성 분석부(209)는 분류 결과/가중치 저장부(227)에 저장된 복수의 학습 모델들 중에서 계산된 글자 수에 따라 단문 학습 모델 또는 장문 학습 모델을 선택한다. 예를 들면, 감성 분석부(209)는 계산된 글자 수가 1000 자 미만이면, 단문 학습 모델을 선택하고, 1000자 이상이면, 장문 학습 모델을 선택할 수 있다.
그리고 감성 분석부(209)는 문장 데이터에 선택된 학습 모델을 적용하여 문장 데이터의 감성 분석을 처리함으로써 제1감성 분석 결과 데이터를 생성한다. 그리고 감성 분석부(209)는 단어 극성 저장부(221)에 저장된 다수의 임베딩 단어들에 부여된 다수의 극성 점수들을 기반으로 문장 데이터에 포함된 단어들 중에서 극성을 가진 단어를 검출하고, 검출된 단어를 하이라이트함으로써 제2감성 분석 결과 데이터를 생성한다.
예를 들면, 감성 분석부(209)는 도 5에 도시된 바와 같이, 문장 데이터에 포함된 단어들을 긍정 또는 부정으로 분류하여 그래프(501)를 생성할 수 있다. 다른 예로, 감성 분석부(209)는 문장 데이터에 포함된 단어별로 긍정, 부정 또는 중립 감성을 합산하여 그래프(503)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 채널별로 감성을 분석하여 그래프(505)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 버즈량이 증가한 단어들을 긍정, 부정 또는 중립으로 구별하여 그래프(507)를 생성할 수 있다. 예를 들면, 버즈량은 특정 단어가 언급된 횟수를 나타낸다.
다른 예로, 감성 분석부(209)는 도 6에 도시된 바와 같이, 뉴스 댓글을 기반으로 뉴스별 화자들의 감성을 추측하여 그래프(601)를 생성할 수 있다. 다른 예로, 감성분석부(209)는 뉴스에 포함된 단어들을 긍정, 중립 또는 부정으로 분류하여 그래프(603)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 뉴스에 포함된 단어들 중에서 긍정을 나타내는 단어들만을 이용하여 단어별 버즈량을 나타내는 그래프(605)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 뉴스에 포함된 단어들 중에서 부정을 나타내는 단어들만을 이용하여 단어별 버즈량을 나타내는 그래프(607)를 생성할 수 있다.
그리고 감성 분석부(209)는 제1 및 제2감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 생성된 감성 분석 응답 데이터를 휴대 단말기(103) 또는 노트북(105)으로 전송한다. 예를 들면, 제1 및 제2감성 분석 결과 데이터는 도 5 및 도 6에 도시된 그래프들(501, 503, 505, 507, 601, 603, 605, 607) 중에서 적어도 하나를 포함할 수 있다.
이러한 구성을 통해, 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 쉽고 편리하게 처리할 수 있다. 그리고 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 실시간으로 처리할 수 있다.
도 7은 본 발명의 일 실시 예에 따른 시스템에서 문장 데이터의 감성 분석을 처리하는 흐름도이다.
도 7을 참조하면, 데이터 전처리부(203)는, 701 단계에서, 학습 데이터를 전처리하여 임베딩 벡터들을 생성하고, 생성된 임베딩 벡터들을 저장한다.
좀 더 자세히 설명하면, 데이터 전처리부(203)의 정규화부(211)는 학습 데이터를 입력받으며, 입력된 학습 데이터에 포함된 글에서 잘못 작성된 글자를 판별하고, 이모티콘이나 요약어 등이 아닌 오탈자나 문법이 어긋난 단어를 제거하여 글을 일관성이 있는 문장들로 정규화한다.
그리고 데이터 전처리부(203)의 형태소 분석부(213)는 정규화된 문장들을 형태소 분석하여 정규화된 문장들 각각을 문장의 최소 단위로 분해함으로써 수천만 개의 임베딩 단어들을 생성한다.
그리고 데이터 전처리부(203)의 전처리부(215)는 미리 지정된 모델 방법을 이용하여 생성된 임베딩 단어들에 전처리를 진행하여 수천만 개의 임베딩 단어들에 대응하는 수천만 개의 임베딩 벡터들을 생성하고, 생성된 임베딩 벡터들을 임베딩부(217)에 저장한다. 예를 들면, 미리 지정된 모델 방법은 Word2Vec, Fasttext, GPT-2와 Bert 중 하나일 수 있다.
703 단계에서, 학습 모델 생성부(205)는 임베딩부(217)에 저장된 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성한 후, 저장한다.
좀 더 자세히 설명하면, 학습 모델 생성부(205)의 학습/검증부(223)는 임베딩부(217)에 저장된 임베딩 벡터들을 수신하고, 수신된 임베딩 벡터들에 컨볼루션 레이어를 적용하여 글의 특징을 학습한다.
그리고 학습/검증부(223)는 컨볼류션 레이어에 포함된 n개의 레이어들 중에서 3개의 레이어들을 그룹화하고, 그룹화된 레어어들에 활성화 함수(예를 들면, Relu)를 적용하여 그룹화된 레이어별로 하나의 그룹 레이어를 생성한다. 그리고 학습/검증부(223)는 동일한 차원 상에 존재하는 다수의 그룹 레이어들을 maxpooling한 후에 합산하여 동일 차원별로 합산 레이어를 생성한다. 그리고 학습/검증부(223)는 합산 레이어들에 fully connected layer와 softmax를 적용하여 합산 결과를 학습함으로써 학습 모델을 생성한다. 이때, 학습/검증부(223)는 단문 또는 장문을 위한 복수의 학습 모델들을 생성한다.
그리고 학습/검증부(223)는 분류 결과/가중치 저장부(227)에 단문 또는 장문을 위한 복수의 학습 모델들을 저장한다.
705 단계에서, 극성 전파부(205)는 임베딩부(217)에 저장된 임베딩 단어들 각각에 극성을 부여하여 극성 그래프를 생성한 후, 저장한다.
좀 더 자세히 설명하면, 극성 전파부(205)의 극성 분석부(219)는 임베딩부(217)에 저장된 다수의 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 중에서 적어도 하나의 임베딩 단어가 사용자에 의해 선택된 후, 선택된 임베딩 단어에 긍정 또는 부정 점수가 사용자에 의해 입력되면, 선택된 임베딩 단어에 입력된 긍정 또는 부정 점수를 부여한다.
그리고 극성 분석부(219)는 다수의 임베딩 단어들 간의 네트워크를 생성한다. 예를 들면, 극성 분석부(219)는 임베딩 단어들을 노드들로 인식하고, 노드들에 ε-neighborhood 방식 또는 k-nearest neighborhood 방식을 적용하여 노드들을 연결함으로써 네트워크를 생성할 수 있다. 그리고 극성 분석부(219)는 생성된 네트워크에 최소 신장 나무를 적용하여 네트워크에 포함된 노드들 중에서 연결이 되지 못한 적어도 하나의 노드에 1개 이상의 다른 노드를 연결할 수 있다.
그리고 극성 분석부(219)는 노드들 간의 거리를 기반으로 노드들 각각에 가중치를 부여한다. 예를 들면, 극성 분석부(219)는 수학식 1을 이용하여 노드들 각각에 가중치를 부여할 수 있다.
그리고 극성 분석부(219)는 노드들에 부여된 가중치들을 고려하여 극성 점수가 부여된 노드들에 Label propagation과 Label spreading을 수행함으로써 극성이 부여되지 않은 노드에 극성을 전파함으로써 모든 노드에 극성 점수를 부여하여 극성 그래프를 생성한다. 예를 들면, 극성 분석부(219)는 수학식 2를 이용하여 극성이 부여되지 않은 노드에 극성을 전파할 수 있다. 그리고 극성 분석부(219)는 생성된 극성 그래프를 단어 극성 저장부(221)에 저장할 수 있다.
707 단계에서, 감성 분석부(209)는 휴대 단말기(203) 또는 노트북(205)으로부터 감성 분석 요청 메시지가 수신되는지 여부를 확인한다.
확인 결과, 감성 분석 요청 메시지가 수신되면, 감성 분석부(209)는 709 단계로 진행하고, 그렇지 않으면, 707 단계를 반복적으로 수행한다.
709 단계에서, 감성 분석부(209)는 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 미리 저장된 학습 모델 또는 극성 그래프를 적용하여 감성 분석 결과 데이터를 생성한다. 그리고 감성 분석부(209)는 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 생성된 감성 분석 응답 메시지를 휴대 단말기(203) 또는 노트북(205)으로 전송한다.
좀 더 자세히 설명하면, 감성 분석부(209)는 수신된 감성 분석 요청 메시지에 포함된 문장 데이터의 글자 수를 계산한다. 그리고 감성 분석부(209)는 분류 결과/가중치 저장부(227)에 저장된 복수의 학습 모델들 중에서 계산된 글자 수에 따라 단문 학습 모델 또는 장문 학습 모델을 선택한다. 예를 들면, 감성 분석부(209)는 계산된 글자 수가 1000 자 미만이면, 단문 학습 모델을 선택하고, 1000자 이상이면, 장문 학습 모델을 선택할 수 있다.
그리고 감성 분석부(209)는 문장 데이터에 선택된 학습 모델을 적용하여 문장 데이터의 감성 분석을 처리함으로써 문장 데이터의 전체 극성을 나타내는 제1감성 분석 결과 데이터를 생성한다. 그리고 감성 분석부(209)는 단어 극성 저장부(221)에 저장된 극성 그래프를 기반으로 문장 데이터에 포함된 적어도 하나의 단어의 극성을 나타내는 제2감성 분석 결과 데이터를 생성한다. 예를 들면, 감성 분석부(209)는 문장 데이터에 포함된 단어들 중에서 극성을 가진 단어를 검출하고, 검출된 단어를 하이라이트함으로써 제2감성 분석 결과 데이터를 생성할 수 있다.
예를 들면, 감성 분석부(209)는 도 5에 도시된 바와 같이, 문장 데이터에 포함된 단어들을 긍정 또는 부정으로 분류하여 그래프(501)를 생성할 수 있다. 다른 예로, 감성 분석부(209)는 문장 데이터에 포함된 단어별로 긍정, 부정 또는 중립 감성을 합산하여 그래프(503)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 채널별로 감성을 분석하여 그래프(505)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 버즈량이 증가한 단어들을 긍정, 부정 또는 중립으로 구별하여 그래프(507)를 생성할 수 있다. 예를 들면, 버즈량은 특정 단어가 언급된 횟수를 나타낸다.
다른 예로, 감성 분석부(209)는 도 6에 도시된 바와 같이, 뉴스 댓글을 기반으로 뉴스별 화자들의 감성을 추측하여 그래프(601)를 생성할 수 있다. 다른 예로, 감성분석부(209)는 뉴스에 포함된 단어들을 긍정, 중립 또는 부정으로 분류하여 그래프(603)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 뉴스에 포함된 단어들 중에서 긍정을 나타내는 단어들만을 이용하여 단어별 버즈량을 나타내는 그래프(605)를 생성할 수 있다. 또 다른 예로, 감성 분석부(209)는 뉴스에 포함된 단어들 중에서 부정을 나타내는 단어들만을 이용하여 단어별 버즈량을 나타내는 그래프(607)를 생성할 수 있다.
그리고 감성 분석부(209)는 제1 및 제2감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 생성된 감성 분석 응답 데이터를 휴대 단말기(103) 또는 노트북(105)으로 전송한다. 예를 들면, 제1 및 제2감성 분석 결과 데이터는 도 5 및 도 6에 도시된 그래프들(501, 503, 505, 507, 601, 603, 605, 607) 중에서 적어도 하나를 포함할 수 있다.
이러한 동작을 통해, 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 쉽고 편리하게 처리할 수 있다. 그리고 본 발명의 일 실시 예는 문장 데이터의 감성 분석을 실시간으로 처리할 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
101: 문장 데이터 분석 장치 103: 휴대 단말기
105: 노트북 107: 네트워크
201: 학습 데이터 203: 데이터 전처리부
205: 극성 전파부 207: 학습 모델 생성부
209; 감성 분석부 211: 정규화부
213: 형태소 분석부 215: 전처리부
217: 임베딩부 219: 단어 극성 분석부
221: 단어 극성 저장부 223: 학습/검증부
225: 분류부 227: 분류 결과/가중치 저장부

Claims (10)

  1. 미리 지정된 모델 방법을 기반으로 학습 데이터를 전처리하여 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 저장하는 데이터 전처리부;
    상기 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 저장하는 학습 모델 생성부;
    상기 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 중에서 적어도 하나의 임베딩 단어에 대한 적어도 하나의 극성 점수를 사용자로부터 입력받고, 상기 임베딩 단어와 상기 임베딩 단어들 간의 거리를 기반으로 상기 임베딩 단어의 상기 극성 점수를 주변의 임베딩 단어에 전파하여 상기 임베딩 단어들에 다수의 극성 점수들을 부여함으로써 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 저장하는 극성 전파부; 및
    감성 분석 요청 메시지가 수신되면, 상기 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 상기 저장된 학습 모델들과 상기 저장된 극성 그래프를 적용하여 상기 문장 데이터의 감성 분석을 처리함으로써 감성 분석 결과 데이터를 생성하며, 상기 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 상기 생성된 감성 분석 응답 메시지를 전송하는 감성 분석부를 포함하며,
    상기 모델 방법은 Word2Vec, Fasttext, GPT-2 및 Bert 중 하나이고,
    상기 임베딩 벡터들 각각은 연속형의 값을 가지는 벡터를 나타내는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 장치.
  2. 제1항에 있어서,
    상기 데이터 전처리부는,
    상기 학습 데이터에 포함된 글에서 오탈자를 판별하고, 상기 글에서 상기 오탈자나 문법이 어긋난 단어를 제거하여 상기 글을 일관성이 있는 복수의 문장들로 정규화하는 정규화부;
    상기 정규화된 문장들을 문장의 최소 단위로 분해하여 다수의 임베딩 단어들을 생성하는 형태소 분석부; 및
    미리 지정된 모델 방법을 이용하여 상기 생성된 임베딩 단어들에 전처리를 진행하여 상기 생성된 임베딩 단어들에 대응하는 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 임베딩부에 저장하는 전처리부를 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 장치.
  3. 제1항에 있어서,
    상기 학습 모델 생성부는,
    상기 저장된 임베딩 벡터들에 컨볼루션 레이어를 적용하여 글의 특징을 학습하며, 상기 컨볼루션 레이어에 포함된 n개의 레이어 중에서 다수의 레이어들을 그룹화하여 활성화 함수를 적용함으로써 다수의 그룹 레이어들을 생성하며, 차원 별로 상기 그룹 레이어들을 maxpooling한 후, 합산하여 다수의 합산 레이어들을 생성하고, 상기 합산 레이어들에 fully connected layer와 softmax를 적용하여 합산 결과를 학습함으로써 복수의 학습 모델들을 생성하는 학습/검증부; 및
    상기 학습 모델들을 저장하는 분류 결과/가중치 저장부를 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 장치.
  4. 제1항에 있어서,
    상기 극성 전파부는,
    상기 임베딩 단어들 중에서 적어도 하나의 임베딩 단어가 사용자에 의해 선택된 후, 상기 선택된 임베딩 단어에 대응하는 극성 점수가 입력되면, 상기 선택된 임베딩 단어에 상기 극성 점수를 부여하며, 상기 임베딩 단어들을 서로 연결하는 네트워크를 생성하고, 상기 극성 점수가 부여된 임베딩 단어를 기준으로 상기 생성된 네트워크에 포함된 임베딩 단어들에 극성을 부여하여 극성 그래프를 생성하는 극성 분석부; 및
    상기 생성된 극성 그래프를 저장하는 단어 극성 저장부를 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 장치.
  5. 제1항에 있어서,
    상기 감성 분석부는, 상기 문장 데이터에 포함된 글자 수를 계산하고, 상기 계산된 글자 수가 천 자 미만이면, 상기 저장된 학습 모델들 중에서 단문 학습 모델을 선택하며, 상기 계산된 글자 수가 상기 천 자 이상이면, 상기 저장된 학습 모델들 중에서 장문 학습 모델을 선택하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 장치.
  6. 데이터 전처리부가, 미리 지정된 모델 방법을 기반으로 학습 데이터를 전처리하여 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 저장하는 과정;
    학습 모델 생성부가, 상기 임베딩 벡터들을 이용하여 단문 또는 장문을 위한 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 저장하는 과정;
    극성 전파부가, 상기 임베딩 벡터들에 대응하는 다수의 임베딩 단어들 중에서 적어도 하나의 임베딩 단어에 대한 적어도 하나의 극성 점수를 사용자로부터 입력받는 과정,
    상기 극성 전파부가, 상기 임베딩 단어와 상기 임베딩 단어들 간의 거리를 기반으로 상기 임베딩 단어의 상기 극성 점수를 주변의 임베딩 단어에 전파하여 상기 임베딩 단어들에 다수의 극성 점수들을 부여함으로써 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 저장하는 과정;
    감성 분석부가, 감성 분석 요청 메시지가 수신되면, 상기 수신된 감성 분석 요청 메시지에 포함된 문장 데이터에 상기 저장된 학습 모델들과 상기 저장된 극성 그래프를 적용하여 상기 문장 데이터의 감성 분석을 처리함으로써 감성 분석 결과 데이터를 생성하는 과정; 및
    상기 감성 분석부가, 상기 생성된 감성 분석 결과 데이터를 포함하는 감성 분석 응답 메시지를 생성하고, 상기 생성된 감성 분석 응답 메시지를 전송하는 과정을 포함하며,
    상기 모델 방법은 Word2Vec, Fasttext, GPT-2 및 Bert 중 하나이고,
    상기 임베딩 벡터들 각각은 연속형의 값을 가지는 벡터를 나타내는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 방법.
  7. 제6항에 있어서,
    상기 생성된 임베딩 벡터들을 저장하는 과정은,
    정규화부가, 상기 학습 데이터에 포함된 글에서 오탈자를 판별하고, 상기 글에서 상기 오탈자나 문법이 어긋난 단어를 제거하여 상기 글을 일관성이 있는 복수의 문장들로 정규화하는 과정;
    형태소 분석부가, 상기 정규화된 문장들을 문장의 최소 단위로 분해하여 다수의 임베딩 단어들을 생성하는 과정; 및
    전처리부가, 미리 지정된 모델 방법을 이용하여 상기 생성된 임베딩 단어들에 전처리를 진행하여 상기 생성된 임베딩 단어들에 대응하는 다수의 임베딩 벡터들을 생성하고, 상기 생성된 임베딩 벡터들을 임베딩부에 저장하는 과정을 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 방법.
  8. 제6항에 있어서,
    상기 생성된 학습 모델들을 저장하는 과정은,
    학습/검증부가, 상기 저장된 임베딩 벡터들에 컨볼루션 레이어를 적용하여 글의 특징을 학습하는 과정;
    상기 학습/검증부가, 상기 컨볼루션 레이어에 포함된 n개의 레이어 중에서 다수의 레이어들을 그룹화하여 활성화 함수를 적용함으로써 다수의 그룹 레이어들을 생성하는 과정;
    상기 학습/검증부가, 차원 별로 상기 그룹 레이어들을 maxpooling한 후, 합산하여 다수의 합산 레이어들을 생성하는 과정; 및
    상기 학습/검증부가, 상기 합산 레이어들에 fully connected layer와 softmax를 적용하여 합산 결과를 학습함으로써 복수의 학습 모델들을 생성하고, 상기 생성된 학습 모델들을 분류 결과/가중치 저장부에 저장하는 과정을 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 방법.
  9. 제6항에 있어서,
    상기 생성된 극성 그래프를 저장하는 과정은,
    극성 분석부가, 상기 임베딩 단어들을 서로 연결하는 네트워크를 생성하는 과정; 및
    상기 극성 분석부가, 상기 극성 점수가 부여된 임베딩 단어를 기준으로 상기 생성된 네트워크에 포함된 임베딩 단어들에 극성을 전파하여 극성 그래프를 생성하고, 상기 생성된 극성 그래프를 단어 극성 저장부에 저장하는 과정을 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 방법.
  10. 제6항에 있어서,
    상기 감성 분석 결과 데이터를 생성하는 과정은,
    상기 감성 분석부가, 상기 문장 데이터에 포함된 글자 수를 계산하는 과정;
    상기 계산된 글자 수가 천 자 미만이면, 상기 저장된 학습 모델들 중에서 단문 학습 모델을 선택하는 과정;
    상기 계산된 글자 수가 상기 천 자 이상이면, 상기 저장된 학습 모델들 중에서 장문 학습 모델을 선택하는 과정;
    상기 문장 데이터에 상기 선택된 단문 또는 장문 학습 모델을 적용하여 감성 분석을 처리함으로써 문장 데이터의 극성을 나타내는 제1감성 분석 결과 데이터를 생성하는 과정; 및
    상기 문장 데이터에 상기 극성 그래프를 적용하여 감성 분석을 처리함으로써 상기 문장 데이터에 포함된 적어도 하나의 단어의 극성을 나타내는 제2감성 분석 결과 데이터를 생성하는 과정을 포함하는 것을 특징으로 하는 문장 데이터의 감성 분석을 처리하는 방법.
KR1020210020531A 2021-02-16 2021-02-16 문장 데이터의 감성 분석을 처리하는 시스템 및 방법 KR102341959B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020531A KR102341959B1 (ko) 2021-02-16 2021-02-16 문장 데이터의 감성 분석을 처리하는 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020531A KR102341959B1 (ko) 2021-02-16 2021-02-16 문장 데이터의 감성 분석을 처리하는 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102341959B1 true KR102341959B1 (ko) 2021-12-22

Family

ID=79164180

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020531A KR102341959B1 (ko) 2021-02-16 2021-02-16 문장 데이터의 감성 분석을 처리하는 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102341959B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024073327A1 (en) * 2022-09-30 2024-04-04 Visa International Service Association Semi-supervised system for domain specific sentiment learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561464B1 (ko) * 2014-08-25 2015-10-20 성균관대학교산학협력단 수집 데이터 감성분석 방법 및 장치
KR20170092168A (ko) * 2016-02-02 2017-08-11 전남대학교산학협력단 소셜 네트워크 서비스 사용자의 감정 분석에 의한 영향력 측정 방법
KR20190032911A (ko) * 2017-09-20 2019-03-28 장창영 문장 습관 분석 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561464B1 (ko) * 2014-08-25 2015-10-20 성균관대학교산학협력단 수집 데이터 감성분석 방법 및 장치
KR20170092168A (ko) * 2016-02-02 2017-08-11 전남대학교산학협력단 소셜 네트워크 서비스 사용자의 감정 분석에 의한 영향력 측정 방법
KR20190032911A (ko) * 2017-09-20 2019-03-28 장창영 문장 습관 분석 장치 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Groin gin extrinsic 1 people" "the data preprocessing and the transformation needing in the estimation analysis process of making advantage of the dip running"" Korea English philology time English philology, Volume.20, 2020.03.31., pp 42-63 *
Laver quantum extrinsic 2 people" "the special part sensibility prior construction using the graph base setup supervised learning method"" Korea human science time human science eighteenth Keown first call" , 2015.03.31., pp 103-110 *
김정호 외 2명, "그래프 기반 준지도 학습 방법을 이용한 특정분야 감성사전 구축", 한국감성과학회 감성과학 제18권 제1호, 2015.03.31., pp103-110. 1부.*
서혜진 외 1명, "딥러닝을 활용한 감정 분석 과정에서 필요한 데이터 전처리 및 형태 변형", 한국영어학회 영어학 Volume.20, 2020.03.31., pp42-63. 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024073327A1 (en) * 2022-09-30 2024-04-04 Visa International Service Association Semi-supervised system for domain specific sentiment learning

Similar Documents

Publication Publication Date Title
US10049103B2 (en) Author personality trait recognition from short texts with a deep compositional learning approach
Janda et al. Syntactic, semantic and sentiment analysis: The joint effect on automated essay evaluation
CN116194912A (zh) 使用图扩散变换器进行方面级情感分类的方法和系统
CN105426356B (zh) 一种目标信息识别方法和装置
WO2018033030A1 (zh) 自然语言文句库的生成方法及装置
CN109766418B (zh) 用于输出信息的方法和装置
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
US20170351676A1 (en) Sentiment normalization using personality characteristics
Altheneyan et al. Big data ML-based fake news detection using distributed learning
Akhter et al. Cyber bullying detection and classification using multinomial Naïve Bayes and fuzzy logic
US20220269939A1 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN110991742A (zh) 一种社交网络信息转发概率预测方法及系统
Alterkavı et al. Novel authorship verification model for social media accounts compromised by a human
KR102341959B1 (ko) 문장 데이터의 감성 분석을 처리하는 시스템 및 방법
Polignano et al. Identification Of Bot Accounts In Twitter Using 2D CNNs On User-generated Contents.
CN111079084B (zh) 一种基于长短时记忆网络的信息转发概率预测方法及系统
CN114118398A (zh) 目标类型网站的检测方法、系统、电子设备及存储介质
Sinan Yüksel et al. A real-time social network-based knowledge discovery system for decision making
Pandiaraj et al. A Comparative Study on Emotion AI using Machine Learning and Deep Learning Models
Diaz Jr A domain-specific evaluation of the performance of selected web-based sentiment analysis platforms
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Vo et al. Development of a fake news detection tool for Vietnamese based on deep learning techniques
US20220391491A1 (en) Password discovery system using a generative adversarial network
Kamalesh et al. Sentiment Analysis on Amazon Product Review
US11977515B1 (en) Real time analysis of interactive content

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant