KR101346115B1 - System and method for creating emotional word dictionary and computing emotional degrees of documents - Google Patents
System and method for creating emotional word dictionary and computing emotional degrees of documents Download PDFInfo
- Publication number
- KR101346115B1 KR101346115B1 KR1020120037313A KR20120037313A KR101346115B1 KR 101346115 B1 KR101346115 B1 KR 101346115B1 KR 1020120037313 A KR1020120037313 A KR 1020120037313A KR 20120037313 A KR20120037313 A KR 20120037313A KR 101346115 B1 KR101346115 B1 KR 101346115B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotional
- matrix
- document
- value
- emotion
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 방법은 감정 단어 추출 모듈에서, 하나 이상의 단어 및 평가 점수를 포함하는 문서들로 구성되는 문서 집합으로부터 복수 개의 감정 단어를 추출하는 단계; 매트릭스 생성 모듈에서, 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 단계; 및 감정 강도 계산 모듈에서, 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스를 이용하여 대상 문서의 감정 강도를 계산하는 단계를 포함한다.An emotional vocabulary dictionary generation and an emotional strength calculation system and method of a document using the same are provided. According to an embodiment of the present invention, an emotional vocabulary dictionary generation method and a method for calculating the emotional strength of a document using the same include: extracting a plurality of emotional words from a document set including one or more words and documents including an evaluation score in the emotional word extraction module; Extracting; Generating a semantic classification matrix and a semantic weight matrix from the extracted emotional words and the evaluation scores; And in the emotion intensity calculation module, calculating an emotion intensity of a target document using the semantic classification matrix and the semantic weight matrix.
Description
본 발명은 문서로부터 감정 어휘를 생성하고 이를 이용하여 문서의 감정 강도, 즉 긍/부정 강도를 계산하기 위한 기술과 관련된다.
The present invention relates to a technique for generating an emotional vocabulary from a document and using it to calculate the emotional strength, ie, positive / negative strength, of the document.
최근 몇 년 사이 소셜 웹의 급격한 성장으로 인해 인터넷 상의 의견 표현 빈도가 폭발적으로 증가하고 있다. 이는 사람들의 의견을 형성하고 반영하는 역할을 한다. 따라서 최근 감정을 추출하려고 분석하려는 시도가 많아지고 있다. 이제 우리가 사회의 어떤 현상을 이해하기 위해서는 반드시 웹을 분석해야 한다.In recent years, the rapid growth of the social web has exploded the frequency of expressing opinions on the Internet. It forms and reflects people's opinions. Therefore, more and more attempts have been made to analyze emotions in recent years. Now we must analyze the web to understand certain phenomena in society.
지금까지의 연구는 모두 분류에 관심이 집중되어 있었다. 예를 들어, 기계학습을 통해 긍부정 분류, 주제분류, 일반 통계를 이용한 방법 등이 그것이다. 어떤 감정적인 텍스트를 읽고 인간이 감정을 이해할 때, 가장 중요하게 작용하는 것들 중 하나가 핵심적인 키워드들에 대한 한 언어 사회집단 내에서 공유하고 있는 평균적인 정도의 선험적 데이터이다. 따라서 감정분석을 위해, 일차적으로 중요한 감정어를 추출하고 이것을 어떻게 분석할 것인지는 중요한 문제이다.All the research so far has been focused on classification. For example, positive learning, subject classification, and methods using general statistics through machine learning. When reading some emotional texts and understanding human emotions, one of the most important functions is the average amount of a priori data shared within a language social group on key keywords. Therefore, for emotional analysis, it is important to extract important emotional words and how to analyze them.
이에 대한 외국의 선행 연구로는 WordNet, SentiWordNet 정도가 있다. 그러나 WordNet은 정확히 이를 위한 연구는 아니고, SentiWordNet은 감정 강도를 나타내고 있지만 그 방법적인 측면에서 인간의 직관에 너무 의존하고, 0.0~1.0 사이의 값 하나만 주어져 있기 때문에 선험적 지식을 모두 표상하기 어려웠다.Foreign researches on this include WordNet and SentiWordNet. But WordNet wasn't exactly the study for this, but SentiWordNet showed emotional strength, but in terms of methodology, it was too dependent on human intuition, and given only a value between 0.0 and 1.0, it was difficult to represent all a priori knowledge.
오늘날 기업의 관리자가 기업 데이터 분석가의 입장에서 고객 반응 파악을 위해 분석해야 할 텍스트 데이터의 양이 감당할 수 없을 만큼 많다. 이를 위해 모든 텍스트 데이터를 수작업으로 분석하기란 사실상 불가능하다. 이 때문에 해당 기업은 현재의 고객 불만을 인지하지 못하고 적절하게 대응할 수 없는 상황에 노출된다. 물론 리뷰에 평점이 부여된 경우도 있지만 이를 믿기에는 많은 문제가 있다. 대부분의 리뷰 작성 체계는 사용자가 리뷰와 평점을 동시에 부여하게 되어 있지만 이는 불일치의 문제(Problem of Discrepancy)를 갖는다. 리뷰를 작성하는 일과 평점을 주는 일은 직접적으로 연결되어 있지 않다는 것이다. 사람의 경우 이 중간 과정에 "인간 의사 결정 과정(Human Decision Making Process)"이 작용한다. 따라서 만약 기계가 사람과 같이 자동으로 텍스트를 읽고 이해할 수 있다면 대용량 리뷰 텍스트 의견 분석을 빠르게 처리할 수 있는 장점을 가질 수 있다.
Today's corporate data analysts can't afford the amount of text data they need to analyze to understand customer responses. To do this, it is virtually impossible to analyze all textual data manually. This exposes the company to situations where it is not aware of current customer complaints and cannot respond appropriately. Of course, there are ratings in reviews, but there are a lot of problems to believe. Most review systems allow users to assign reviews and ratings at the same time, but this has a problem of discrepancy. Writing reviews and giving ratings is not a direct connection. In humans, this intermediate process is the "Human Decision Making Process". Therefore, if the machine can read and understand the text automatically like a human, it can have the advantage of fast processing of large review text comments.
본 발명의 실시예들은 리뷰, 감상평 등의 문서로부터 감정 단어를 추출하고 이로부터 해당 문서의 긍정/부정 감정 강도를 효과적으로 판단하기 위한 수단을 제공하는데 그 목적이 있다.
It is an object of the present invention to provide a means for extracting an emotional word from a document such as a review, a review, and effectively determining the positive / negative emotional strength of the document.
본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 방법은 감정 단어 추출 모듈에서, 하나 이상의 단어 및 평가 점수를 포함하는 문서들로 구성되는 문서 집합으로부터 복수 개의 감정 단어를 추출하는 단계; 매트릭스 생성 모듈에서, 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 단계; 및 감정 강도 계산 모듈에서, 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스를 이용하여 대상 문서의 감정 강도를 계산하는 단계를 포함한다.According to an embodiment of the present invention, an emotional vocabulary dictionary generation method and a method for calculating the emotional strength of a document using the same include: extracting a plurality of emotional words from a document set including one or more words and documents including an evaluation score in the emotional word extraction module; Extracting; Generating a semantic classification matrix and a semantic weight matrix from the extracted emotional words and the evaluation scores; And in the emotion intensity calculation module, calculating an emotion intensity of a target document using the semantic classification matrix and the semantic weight matrix.
또한 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템은, 하나 이상의 단어 및 기 설정된 대상에 대한 평가 점수를 포함하는 문서들로 구성되는 문서 집합으로부터 복수 개의 감정 단어를 추출하는 감정 단어 추출 모듈; 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 매트릭스 생성 모듈; 및 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스를 이용하여 대상 문서의 감정 강도를 계산하는 감정 강도 계산 모듈을 포함한다.
In addition, the emotional vocabulary dictionary generation system according to an embodiment of the present invention and the emotional intensity calculation system of the document using the same, a plurality of emotional words from a document set consisting of one or more words and documents including an evaluation score for a predetermined object Emotion word extraction module for extracting; A matrix generation module for generating a semantic classification matrix and a semantic weight matrix from the extracted emotional words and the evaluation scores; And an emotion intensity calculation module that calculates an emotion intensity of a target document using the semantic classification matrix and the semantic weight matrix.
본 발명에 따를 경우 사전을 이용한 의미망(Semantic Network) 알고리즘과 긍부정 비율 및 긍부정 강도 자동 추출 알고리즘을 이용하여 효과적이고 정확한 의견 분석 서비스를 제공할 수 있는 장점이 있다. 즉, 기업의 관리자와 기업 데이터 분석가를 위해 빠른 시간에 대량의 리뷰 텍스트 데이터로부터 중요한 의미가 되는 정보를 추출하여 분석 리포트를 제공함으로써 효과적인 고객 대응 시스템을 구축할 수 있는 패러다임적인 변화에 기여할 수 있는 효과가 있다.
According to the present invention, there is an advantage that an effective and accurate opinion analysis service can be provided by using a semantic network algorithm using a dictionary and an automatic extraction algorithm of a positive rate and negative strength. In other words, it is possible to contribute to the paradigm shift to build an effective customer response system by providing an analysis report by extracting important information from a large amount of review text data in a short time for the managers and data analysts of the company. There is.
도 1은 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 시스템(100)을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법(200)을 나타낸 순서도이다.
도 3은 본 발명에 따른 대상 문서의 감정 강도 계산 단계(206)의 상세 과정을 설명하기 위한 순서도이다.1 is a block diagram illustrating an emotional vocabulary dictionary generation and emotional
2 is a flowchart illustrating a
3 is a flowchart illustrating a detailed process of the emotion
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.Hereinafter, specific embodiments of the present invention will be described with reference to the drawings. However, this is merely an example and the present invention is not limited thereto.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In the following description, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intention or custom of the user, the operator, and the like. Therefore, the definition should be based on the contents throughout this specification.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
The technical idea of the present invention is determined by the claims, and the following embodiments are merely a means for effectively explaining the technical idea of the present invention to a person having ordinary skill in the art to which the present invention belongs.
도 1은 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 시스템(100)을 설명하기 위한 블록도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 시스템(100)은 감정 단어 추출 모듈(102), 매트릭스 생성 모듈(104) 및 감정 강도 계산 모듈(106)을 포함한다.1 is a block diagram illustrating an emotional vocabulary dictionary generation and emotional
감정 단어 추출 모듈(102)은 하나 이상의 단어 및 기 설정된 대상에 대한 평가 점수를 포함하는 문서들로 구성되는 문서 집합으로부터 복수 개의 감정 단어를 추출한다.The emotion
상기 문서 집합은 복수 개의 문서들의 집합으로서, 상기 각 문서들은 특정 대상에 대한 작성자의 의견 내지 감정 등을 표현하기 위한 하나 이상의 문장 및 상기 특정 대상에 대한 평가 점수 정보를 포함한다. 예를 들어, 상기 문서들은 영화 또는 음악 등에 대한 감상평 및 해당 영화에 대한 평점일 수 있다. 예를 들어, 영화 관련 웹사이트에서 각각의 사용자들은 자신이 감상한 영화에 대한 느낌 등을 기록한 감상평과 함께 해당 영화에 대한 점수를 1 내지 10 사이의 값으로 부여할 수 있으며, 부여된 상기 점수가 전술한 평점이 될 수 있다. 물론 웹사이트에 따라 점수를 10개의 구간이 아닌 5개의 구간 등으로 분류하거나, 또는 10개의 구간이더라도 1 내지 10이 아닌 -5 내지 5 등으로 다양한 평점 부여 방법을 가질 수도 있다. 즉, 본 발명은 특정한 평점 부여 방법에 한정되는 것은 아니며, 어떠한 평점(또는 점수) 부여 시스템 또한 적절한 스케일링 과정을 거쳐 본 발명에서 사용될 수 있음을 유의한다.The document set is a set of a plurality of documents, each document including one or more sentences for expressing the opinions or feelings of the author for a specific object and evaluation score information for the specific object. For example, the documents may be reviews on a movie or music and a rating for the movie. For example, on a movie-related website, each user may assign a score for the movie to a value between 1 and 10, along with a review that records the feelings of the movie they watched, and the like. The above rating may be. Of course, depending on the website, the score may be classified into five sections instead of ten sections, or even ten sections may have various rating methods such as -5 to 5 instead of 1 to 10. That is, the present invention is not limited to a specific scoring method, and it is noted that any rating (or scoring) system may be used in the present invention through an appropriate scaling process.
감정 단어는 상기와 같은 문서 집합에 속한 문서들로부터 추출되는 단어로서 작성자의 감정을 나타내기 위한 단어를 의미한다. 예를 들어, "재미있다", "즐겁다", "무섭다", "슬프다" 등의 단어들이 본 발명에서의 감정 단어가 될 수 있다. 감정 단어 추출 모듈(102)은 내부에 감정 단어의 후보 목록을 포함할 수 있으며, 문서 집합에 포함되는 문서들을 검색하여 상기 목록에 포함된 단어가 검색될 경우 이를 감정 단어로서 추출할 수 있다. 문서로부터 특정 단어를 추출하기 위한 알고리즘에 대해서는 본 기술분야에서 잘 알려져 있으므로 여기서는 이에 대한 상세한 설명을 생략하기로 한다.The emotion word is a word extracted from the documents belonging to the document set as described above, and means a word for representing the emotion of the author. For example, words such as "fun", "fun", "fear", "sad" and the like can be the emotional words in the present invention. The emotion
다음으로, 매트릭스 생성 모듈(104)은 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix; SCM) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix; SWM)를 생성한다. 상기 SCM 및 SWM에 대해서는 이하에서 상세히 설명한다.Next, the
다음으로, 감정 강도 계산 모듈(106)은 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스를 이용하여 대상 문서의 감정 강도를 계산한다.
Next, the emotion
도 2는 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법(200)을 나타낸 순서도이다. 2 is a flowchart illustrating a
도시된 바와 같이, 본 발명의 일 실시예에 따른 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법(200)은, 하나 이상의 단어 및 평가 점수를 포함하는 문서들로 구성되는 문서 집합으로부터 복수 개의 감정 단어를 추출하는 단계(202), 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 단계(204) 및 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스를 이용하여 대상 문서의 감정 강도를 계산하는 단계(206)를 포함한다.As illustrated, the
이하에서는 상기 각 단계의 상세 구성을 설명한다.
Hereinafter, the detailed configuration of each step will be described.
문서 집합으로부터 감정 단어 추출(202)Extract Emotion Words from Document Set (202)
본 단계는 문서 집합에 속한 문서들을 검색하여 문서에 포함된 감정 단어를 추출하는 단계이다. 전술한 바와 같이, 본 단계는 문서 집합에 포함되는 문서들을 검색하여 기 설정된 감정 단어 후보 목록에 포함된 단어가 검색될 경우 이를 감정 단어로서 추출하도록 구성될 수 있다.
This step is to retrieve documents included in the document by searching for documents belonging to the document set. As described above, the step may be configured to search for the documents included in the document set and extract the words included in the preset emotion word candidate list as the emotion words.
시맨틱Semantic
분류 매트릭스( Classification matrix (
SCMSCM
) 및 ) And
시맨틱Semantic
가중치 매트릭스( Weighting matrix (
SWMSWM
) 생성(204)) Generation (204)
본 단계는 문서 집합으로부터 추출된 감정 단어들의 시맨틱 분류 매트릭스(SCM; Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(SWM; Semantic Weight Matrix)를 계산하는 단계이다.This step calculates a Semantic Classification Matrix (SCM) and a Semantic Weight Matrix (SWM) of emotional words extracted from a document set.
SCM은 n행 4열 (n x 4) 매트릭스로서, 각각의 행들은 문서집합에서 추출된 각 감정 단어에 대응된다. 즉, 상기 n 값은 문서집합에서 추출된 단어의 수와 동일하다. SCM의 각 열들을 SCF(Semantic Classification Feature)라 하며, SCF는 다음의 값들을 포함하여 구성된다.
SCM is an n-row 4-column (nx 4) matrix, with each row corresponding to each sentiment word extracted from the document set. That is, the n value is equal to the number of words extracted from the document set. Each column of the SCM is called a Semantic Classification Feature (SCF), and the SCF includes the following values.
SCF = {AT, PR, ONT, P}
SCF = {AT, PR, ONT, P}
AT(Attitude Type)는 해당 감정 단어의 감정 분류 타입으로서, 예를 들어 화이트 분류(White's Classification)가 사용될 수 있다. 화이트 분류란 인간의 감정을 그 종류에 따라 24가지로 구분한 것으로서, 다음과 같이 구성된다.
AT (Attitude Type) is an emotion classification type of the corresponding emotion word. For example, White's Classification may be used. The white classification is classified into 24 kinds of human emotions according to their kinds.
(1) 인간의 기본 감정 분류(1) basic human emotion classification
"affect_DIS/INCLINATION_fear" "affect_DIS / INCLINATION_fear"
"affect_DIS/INCLINATION_desire" "affect_DIS / INCLINATION_desire"
"affect_UN/HAPPINESS_misery" "affect_UN / HAPPINESS_misery"
"affect_UN/HAPPINESS_antipathy" "affect_UN / HAPPINESS_antipathy"
"affect_UN/HAPPINESS_cheer" "affect_UN / HAPPINESS_cheer"
"affect_UN/HAPPINESS_affection""affect_UN / HAPPINESS_affection"
"affect_IN/SECURITY_disquiet""affect_IN / SECURITY_disquiet"
"affect_IN/SECURITY_surprise""affect_IN / SECURITY_surprise"
"affect_IN/SECURITY_confidence""affect_IN / SECURITY_confidence"
"affect_IN/SECURITY_trust""affect_IN / SECURITY_trust"
"affect_DIS/SATISFACTION_ennui""affect_DIS / SATISFACTION_ennui"
"affect_DIS/SATISFACTION_displeasure""affect_DIS / SATISFACTION_displeasure"
"affect_DIS/SATISFACTION_interest""affect_DIS / SATISFACTION_interest"
"affect_DIS/SATISFACTION_pleasure"
"affect_DIS / SATISFACTION_pleasure"
(2) 사회적 기준에 따른 감정 분류(2) Classification of emotions according to social standards
"judgement_NORMALITY""judgement_NORMALITY"
"judgement_CAPACITY""judgement_CAPACITY"
"judgement_TENACITY""judgement_TENACITY"
"judgement_VERACITY""judgement_VERACITY"
"judgement_PROPRIETY"
"judgement_PROPRIETY"
(3) 심미적인 기준에 따른 감정 분류(3) classification of emotions according to aesthetic criteria;
"appreciation_REACTION_impact""appreciation_REACTION_impact"
"appreciation_REACTION_quality""appreciation_REACTION_quality"
"appreciation_COMPOSITION_balence""appreciation_COMPOSITION_balence"
"appreciation_COMPOSITION_complexity""appreciation_COMPOSITION_complexity"
"appreciation_VALUATION"
"appreciation_VALUATION"
상기 예에서 각 감정 분류의 첫 번째 항목(예를 들어 affect, judgement 등)은 대분류, 두 번째 항목(NORMALITY, CAPACITY 등)은 중분류, 세 번째 항목(ennui, displeasure, interest 등)은 소분류이다.In the above example, the first category (e.g. affect, judgement, etc.) of each emotion classification is a major category, the second category (NORMALITY, CAPACITY, etc.) is a middle category, and the third category (ennui, displeasure, interest, etc.) is a small category.
본 발명에서는 감정 단어들을 그 의미가 동일 또는 유사한 단어들끼리 묶어 복수 개의 유의어 집합(Synset)을 구성하고, 구성된 각각의 유의어 집합을 상기 화이트 분류 중 하나에 대응시킨다. 이후 상기 문서 집합으로부터 감정 단어들이 추출되면, 추출된 감정 단어들이 속하는 유의어 집합 및 해당 유의어 집합과 연관된(대응된) 화이트 분류를 알아냄으로써 AT 값을 계산한다. 이때, 상기 AT 값은 해당 화이트 분류에 할당된 숫자일 수 있다. 예를 들어, 상기 각 화이트 분류 별로 서로 다른 숫자를 할당하고, 할당된 상기 숫자를 각 감정 단어의 AT 값으로 할 수 있다.In the present invention, the emotional words are grouped together with words having the same or similar meanings to form a plurality of synonyms, and each set of synonyms corresponds to one of the white classifications. Then, when emotion words are extracted from the document set, the AT value is calculated by finding out the synonym set to which the extracted emotion words belong and the white classification associated with (corresponding) the synonym set. At this time, the AT value may be a number assigned to the corresponding white classification. For example, different numbers may be assigned to each of the white classifications, and the assigned numbers may be used as AT values of respective emotion words.
한편, 본 발명에서는 AT 값을 계산하기 위하여 화이트 분류를 사용하였으나, 이는 예시일 뿐이며, 감정 분류와 관련된 어떠한 분류 또한 사용 가능함을 유의한다.
Meanwhile, in the present invention, the white classification is used to calculate the AT value. However, this is only an example, and any classification related to the emotion classification may be used.
다음으로, PR(PRototypicality)은 해당 감정 단어의 원형성으로서, 0 내지 k - 1 사이의 정수로 표현할 수 있다. 이때 k는 해당 감정 단어가 속한 유의어 집합의 단어 개수이다. 상기 PR 값은 해당 감정 단어가 해당 유의어 집합이 속한 감정의 원초적인 의미(prototypical meaning)와 얼마나 가까운지를 나타내는 값으로서, 후술할 SV 값에 의하여 결정된다. 즉, 해당 유의어 집합 내에서 계산된 SV 값이 작은 순서로 0부터 k - 1 까지의 정수를 차례대로 부여함으로써 해당 단어의 PR 값이 결정된다.
Next, PR (PRototypicality) is a circularity of the emotion word, it can be expressed as an integer between 0 and k-1. K is the number of words in the synonym set to which the corresponding emotional word belongs. The PR value is a value indicating how close the emotion word is to the prototypical meaning of the emotion to which the synonym set belongs, and is determined by an SV value to be described later. That is, the PR value of the word is determined by sequentially assigning integers from 0 to k-1 in order of decreasing SV value in the synonym set.
ONT(ONTology)는 해당 감정 단어의 온톨로지 값으로서, 해당 감정 단어를 포함하는 온톨로지 트리에서 해당 단어에 할당된 온톨로지 노드 값을 의미한다. 상기 ONT 값은 각각의 유의어 집합 별로 하나가 부여된다. 즉, 특정 감정 단어의 ONT 값을 구하기 위해서는 해당 감정 단어가 속한 동의어 집합을 구하고, 해당 동의어 집합 내의 단어 중 PR 값이 0인 단어를 온톨로지 트리에서 검색하여 해당 단어의 노드 값을 구하면 된다.ONTology (ONTology) is an ontology value of the emotion word, and means an ontology node value assigned to the word in the ontology tree including the emotion word. One ONT value is assigned to each synonym set. That is, to obtain the ONT value of a specific emotion word, a synonym set to which the corresponding emotion word belongs is obtained, and a node value of the word is obtained by searching the ontology tree for a word having a PR value of 0 among words in the synonym set.
한편, 상기 온톨로지 트리는 처리하고자 하는 문서 집합 및 감정 단어의 종류에 따라 달라질 수 있다. 예를 들어, 상기 문서 집합이 영화에 관련된 것일 경우에는 영화와 관련된 온톨로지 트리가, 자동차 시승기라면 자동차와 관련된 온톨로지 트리가 사용될 수 있다.
The ontology tree may vary depending on the document set to be processed and the type of emotional word. For example, if the document set is related to a movie, the ontology tree associated with the movie may be used. If the document set is an automobile test vehicle, the ontology tree associated with the vehicle may be used.
P(Polarity)는 해당 감정 단어의 극성을 나타내는 값으로서, 해당 감정 단어가 긍정적인 의미로 사용될 경우 +1, 부정적인 의미로 사용될 경우 -1의 값을 가진다. 상기 P 값은 다음과 같이 구해질 수 있다.P (Polarity) is a value indicating the polarity of the emotion word, and has a value of +1 when the emotion word is used in a positive sense and -1 when used in a negative sense. The P value can be obtained as follows.
먼저, 각 문서에 부여된 평점을 긍정적인 평점과 부정적인 평점으로 구분한다. 예를 들어 각 문서에 부여된 평점이 1에서 10 사이일 경우, 1~5까지는 부정적인 평점, 6~10까지는 긍정적인 평점으로 구분할 수 있다. 상기 구분은, 예를 들어 각 평점 들의 중간값(또는 평균값)을 구하고, 계산된 중간값(또는 평균값)보다 낮은 평점은 부정, 높은 평점은 긍정으로 구분하는 방식으로 이루어질 수 있다.First, the rating given to each document is divided into a positive rating and a negative rating. For example, if the rating given to each document is between 1 and 10, it can be classified into negative ratings from 1 to 5 and positive ratings from 6 to 10. The classification may be performed, for example, by obtaining a median (or average) value of each of the ratings, dividing a score lower than the calculated median (or average) into a negative value and a high score by a positive value.
다음으로, 특정 감정 단어의 극성을 부여하기 위하여, 해당 감정 단어가 나타난 문서들을 모두 추출하고, 추출된 문서에서의 평점을 비교한다. 만약 해당 감정 단어가 포함된 문서들의 평점이 부정적인 경우가 긍정적인 경우보다 많은 경우 해당 감정 단어의 P 값은 -1으로, 그 반대인 경우에는 +1로 정할 수 있다. 또는 해당 감정 단어가 나타난 문서들의 평점의 평균을 계산하고, 상기 평균값이 부정 평점에 속하는지, 또는 긍정 평점에 속하는지에 따라 P 값을 결정할 수도 있다. 즉, 상기 감정 단어가 포함된 문서들의 평점(평가 점수) 평균이 상기 전체 문서의 평가 점수보다 높은 경우 +1로, 낮은 경우 -1로 정해질 수 있다.
Next, in order to give a polarity of a specific emotional word, all the documents in which the emotional word appears are compared, and the ratings in the extracted document are compared. If the scores of the documents including the emotional word are more negative than the positive case, the P value of the emotional word may be set to -1 and vice versa to +1. Alternatively, the average of the ratings of the documents in which the corresponding emotional word appears may be calculated, and the P value may be determined according to whether the average value belongs to a negative rating or a positive rating. That is, the average score (evaluation score) of the documents including the emotional word may be set to +1 if the average is higher than the evaluation score of the entire document, and to -1 if the average is low.
다음으로, SWM은 n행 3열 (n x 3) 매트릭스로서, 각각의 행들은 문서집합에서 추출된 각 감정 단어에 대응된다. 즉, 상기 n 값은 문서집합에서 추출된 단어의 수와 동일하다. SCM의 각 열들을 SWF(Semantic Weight Feature)라 하며, SWF는 다음의 값들을 포함하여 구성된다.
Next, SWM is an n-row 3-column (nx 3) matrix, with each row corresponding to each sentiment word extracted from the document set. That is, the n value is equal to the number of words extracted from the document set. Each column of the SCM is called a SWF (Semantic Weight Feature), and the SWF includes the following values.
SWF = {TFIDF, ZT, SV}
SWF = {TFIDF, ZT, SV}
TFIDF(Term Frequency - Inverse Document Frequency; 역문헌빈도)는 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. TF(단어 빈도수, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도수, document frequency)라고 하며, 이 값의 역수를 IDF(inverse document frequency)라고 한다. TFIDF는 TF와 IDF를 곱한 값이다. 즉, 본 발명에서 각 감정 단어의 TFIDF는 해당 감정 단어의 빈도수에 해당 감정 단어가 등장하는 문서의 빈도수의 역수를 곱한 값이 된다.
TFIDF (Term Frequency-Inverse Document Frequency) is a statistical measure of how important a word is in a particular document when there is a group of documents. The term frequency (TF) is a value that indicates how often a particular word appears in a document. The higher this value, the more important the document may be considered. However, if the word itself is often used in a family of documents, this means that the word is common. This is called DF (document frequency), and the inverse of this value is called inverse document frequency (IDF). TFIDF is the product of TF and IDF. That is, in the present invention, the TFIDF of each emotion word is a value obtained by multiplying the frequency of the emotion word by the inverse of the frequency of the document in which the emotion word appears.
ZT는 해당 감정 단어의 TFIDF 값을 Z-정규화(Z-transform)에 따라 [0.0, 1.0] 범위로 정규화한 값이다.
ZT is a value obtained by normalizing the TFIDF value of the corresponding emotional word in the range of [0.0, 1.0] according to the Z-transform.
SV(Semantic Value)는 감정 단어의 의미값으로서, 다음과 같은 과정을 거쳐 구해진다.The SV (Semantic Value) is a meaning value of an emotional word and is obtained through the following process.
먼저, 감정 단어가 속한 유의어집합에 포함되는 단어들을 TFIDF 값에 따라 정렬한다. 이때 가장 높은 TFIDF 값을 갖는 단어의 TFIDF 값이 해당 유의어집합의 대표값이 된다. 단어들이 정렬되면, 각 단어들이 등장하는 문서의 평점의 빈도를 계산하고, 가장 빈도수가 높은 평점을 해당 단어의 초기값으로 설정한다. 상기 초기값은 평점이 긍정적인가 또는 부정적인가에 따라 긍정 [0.5, 10.5], 부정 [-10.5, -0.5]의 범위로 스케일링된다. 이때 평점이 긍정적인지 또는 부정적인지의 여부는 해당 평점이 전체 문서의 평점의 평균보다 높은지 또는 낮은지에 따라 결정될 수 있다. 또는, 소정의 기준값(예를 들어 5점)을 설정하고, 상기 기준값보다 높은 평점의 경우 긍정적인 평점으로, 낮은 평점의 경우 부정적인 평점으로 설정할 수 있다.First, the words included in the synonym set to which the emotional words belong are sorted according to the TFIDF value. At this time, the TFIDF value of the word having the highest TFIDF value becomes a representative value of the set of synonyms. When the words are sorted, the frequency of the rating of the document in which each word appears is calculated, and the highest frequency is set as the initial value of the word. The initial value is scaled in the range of positive [0.5, 10.5], negative [-10.5, -0.5] depending on whether the rating is positive or negative. In this case, whether the rating is positive or negative may be determined depending on whether the corresponding rating is higher or lower than the average of the ratings of the entire document. Alternatively, a predetermined reference value (for example, 5 points) may be set, and a positive rating may be set to a higher rating than the reference value and a negative rating to a lower rating.
다음으로, 스케일링된 상기 초기값에 해당 단어의 TFIDF 값의 Z-정규화 값을 더한다. 이 과정을 거쳐 유의어 집합 내의 각 단어들은 단일한 범위의 연속적인 분포, 즉 [-11.0, +11.0] 사이의 연속적인 분포를 가지게 되며, 그 이유는 Z-정규화 값이 등급 포인트 .5를 기준으로 [0.0, 1.0] 범위를 갖기 때문이다. 이후, 계산된 값을 다시 스케일링하여 [-5.5, 5.5] 범위로 만듦으로써 해당 유의어집합에 속한 각 단어들의 SV 값이 생성된다.
Next, add the Z-normalized value of the TFIDF value of the word to the scaled initial value. Through this process, each word in the set of synonyms has a single continuous distribution, that is, between [-11.0, +11.0], because the Z-normalized value is based on the grade point .5. This is because it has a range of [0.0, 1.0]. Thereafter, the calculated value is scaled again to a range of [−5.5, 5.5] to generate an SV value of each word in the synonym set.
대상 문서의 감정 강도를 계산(206)Calculate Emotional Strength of Target Document (206)
상술한 단계를 거쳐 SCM 및 SWM을 생성한 이후에는 이를 이용하여 대상 문서의 감정 강도를 계산한다.After generating the SCM and SWM through the above-described steps, the emotional strength of the target document is calculated using the SCM and SWM.
도 3은 본 발명에 따른 대상 문서의 감정 강도 계산 단계(206)의 상세 과정을 설명하기 위한 순서도이다.3 is a flowchart illustrating a detailed process of the emotion
먼저, 대상 문서로부터 감정 단어를 추출한다(302). 특정 문서에서 단어를 추출하는 방법과 관련해서는 본 기술분야에서 다양한 방법들이 기 공지되어 있으므로, 여기서는 그 상세한 설명을 생략한다.First, an emotional word is extracted from the target document (302). Regarding a method of extracting a word from a specific document, various methods are well known in the art, and thus detailed description thereof will be omitted.
다음으로, 기 생성된 SCM 및 SWM을 이용하여 추출된 상기 감정 단어의 분류 및 가중치 매트릭스(Classification and Weight Matrix)를 생성한다(304). 다음으로, 추출된 감정 단어를 이용하여 해당 문서의 CWM(Classification and Weight Matrix)를 생성한다. CWM은 전술한 SCM 및 SWM의 각 값들을 이용하여 생성되는 매트릭스로서, 다음의 값들을 포함하여 구성되는 n행 4열 행렬(이때 n은 추출된 감정 단어의 개수)이다.
Next, a classification and weight matrix of the emotion words extracted using the pre-generated SCM and SWM is generated (304). Next, a CWM (Classification and Weight Matrix) of the document is generated using the extracted emotion word. The CWM is a matrix generated by using the above-described values of SCM and SWM, and is an n-row 4-column matrix composed of the following values (where n is the number of extracted emotional words).
{AT, PR, P', SV'}
{AT, PR, P ', SV'}
이 중 AT, PR 값은 SCM에서의 AT 및 PR 값을 그대로 사용하며, P' 및 SV'는 P 및 SV 값을 다음의 수학식에 의하여 스케일링한 값이다.
Among these, AT and PR values use AT and PR values in SCM as they are, and P 'and SV' are values obtained by scaling P and SV values by the following equation.
[수학식 1][Equation 1]
[수학식 2]&Quot; (2) "
이후, 생성된 CWM을 긍정 매트릭스 및 부정 매트릭스로 분리한다(306). 이때 상기 긍정 매트릭스는 CWM에 포함된 감정 단어 중 P 값이 +1인 단어들만으로 구성된 행렬이며, 부정 매트릭스는 CWM에 포함된 감정 단어 중 P 값이 -1일 단어들만으로 구성된 행렬이다.
The generated CWM is then separated into a positive matrix and a negative matrix (306). In this case, the positive matrix is a matrix including only words having a P value of +1 among the emotional words included in the CWM, and the negative matrix is a matrix including only words having a P value of −1 among the emotional words included in the CWM.
다음으로, 생성된 긍정 매트릭스 및 부정 매트릭스에 대한 특이값 분해(Singular Value Decomposition)를 수행한다(308). 그러면 각각의 행렬(긍정 매트릭스 및 부정 매트릭스)들로부터 시그마 행렬을 구할 수 있다. 이때 각 시그마 행렬의 대각선 성분((1, 1), (2, 2), (3, 3), …)의 값을 Σi라 하자(i는 상기 시그마 행렬의 행 수 또는 열 수). Next, singular value decomposition is performed on the generated positive matrix and the negative matrix (308). The sigma matrix can then be obtained from the respective matrices (positive matrix and negative matrix). In this case, let the values of the diagonal components ((1, 1), (2, 2), (3, 3), ...) of each sigma matrix be Σ i (i is the number of rows or columns of the sigma matrix).
다음으로, 상기 특이값 분해에 의하여 생성되는 상기 긍정 매트릭스 및 부정 매트릭스의 시그마 행렬 및 상기 대상 문서의 길이를 이용하여 상기 대상 문서의 감정 강도를 계산한다(310). 상기 Σi 값의 최대값을 max(Σi)라 하면 상기 대상 문서의 감정 강도는 다음의 수학식 3과 같이 정해진다.
Next, the emotion intensity of the target document is calculated using the sigma matrix of the positive matrix and the negative matrix generated by the singular value decomposition and the length of the target document (310). If the maximum value of the Σ i values is max (Σ i ), the emotional strength of the target document is determined as in Equation 3 below.
[수학식 3]&Quot; (3) "
이때 lengthdoc는 대상 문서의 길이, θ는 문서의 감정 강도이다. 이는 일반적으로 정규화 요소 (Normalization Factor) 라고 부르는 것으로써 본 발명에서는 다음과 같이 정의한다. 상기 수학식에서와 같이 대상 문서의 길이의 로그 값으로 max(Σi)를 나누어 줌으로써 문서 길이에 따라 해당 문서의 감정 강도가 결정되는 것을 방지할 수 있다. 상기와 같이 대상 문서의 길이의 로그 값으로 max(Σi)를 나누어 주지 않을 경우에는 문서의 길이가 길수록 감정이 강한 문서, 문서의 길이가 짧을수록 감정 표현이 약한 문서로 잘못 판단될 우려가 존재하기 때문이다. Where length doc is the length of the target document and θ is the emotional strength of the document. This is generally called a normalization factor and is defined as follows in the present invention. As shown in the above equation, by dividing max (Σ i ) by the log value of the length of the target document, it is possible to prevent the emotional intensity of the document according to the document length. If max (Σ i ) is not divided by the logarithm of the length of the target document as described above, there is a concern that the longer the document length, the stronger the emotional document, and the shorter the document, the wrong document is expressed. Because.
상기 수학식에서, Σi 값이 긍정행렬로부터 도출된 것일 경우 상기 θ값은 대상 문서의 긍정 감정 강도, 부정행렬로부터 도출된 것일 경우에는 부정 감정 강도가 된다.
In the above equation, when Σ i value is derived from the positive matrix, the θ value is negative emotion intensity of the target document, and is derived from the negative matrix.
한편, 상기 θ 값은 다음의 수학식과 같은 분별 함수를 이용하여 [0, 1] 사이의 범위로 정규화할 수 있다.
On the other hand, the value of θ may be normalized to a range between [0, 1] by using a classification function as in the following equation.
[수학식 4]&Quot; (4) "
상기 수학식에서, P는 정규화된 감정 강도, α 및 β는 조정계수로서 이는 대상 문서의 특징 등을 고려하여 적절하게 설정할 수 있는 값이다.
In the above equation, P is a normalized emotion intensity, α and β are adjustment coefficients, which are values that can be appropriately set in consideration of characteristics of the target document and the like.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.On the other hand, an embodiment of the present invention may include a computer-readable recording medium including a program for performing the methods described herein on a computer. The computer-readable recording medium may include a program command, a local data file, a local data structure, or the like, alone or in combination. The media may be those specially designed and constructed for the present invention or may be known and available to those of ordinary skill in the computer software arts. Examples of computer readable media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floppy disks, and magnetic media such as ROMs, And hardware devices specifically configured to store and execute program instructions. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be construed as limiting the scope of the present invention. I will understand.
그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
Therefore, the scope of the present invention should not be limited to the above-described embodiments, but should be determined by equivalents to the appended claims, as well as the appended claims.
100: 감정 어휘 사전 생성 및 문서의 감정 강도 계산 시스템
102: 감정 단어 추출 모듈
104: 매트릭스 생성 모듈
106: 감정 강도 계산 모듈100: emotional vocabulary dictionary generation and emotional strength calculation system of the document
102: emotion word extraction module
104: matrix generation module
106: Emotional Strength Calculation Module
Claims (15)
매트릭스 생성 모듈에서, 추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 단계; 및
감정 강도 계산 모듈에서, 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스 각각의 성분 값 중 대상 문서에 포함된 감정 단어에 대응되는 성분 값으로부터 상기 대상 문서의 감정 강도를 계산하는 단계를 포함하는 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
In the emotion word extraction module, extracting a plurality of emotion words from a document set consisting of documents including one or more words and an evaluation score;
Generating a semantic classification matrix and a semantic weight matrix from the extracted emotional words and the evaluation scores; And
In the emotion intensity calculation module, calculating the emotional vocabulary of the target document from the component value corresponding to the emotion word included in the target document of the component values of each of the semantic classification matrix and the semantic weight matrix And method for calculating emotional strength of documents.
상기 시맨틱 분류 매트릭스는 추출된 상기 감정 단어 각각의 감정 분류 타입(AT), 원형성(PR), 온톨로지 값(ONT) 및 극성(P)을 포함하는 N행 4열 매트릭스(이때 N은 추출된 감정 단어의 개수)이고, 상기 시맨틱 가중치 매트릭스는 추출된 상기 감정 단어 각각의 상기 문서 내에서의 역문헌빈도(TFIDF), 상기 역문헌빈도의 Z-정규화 값 및 의미값(SV)을 포함하는 N행 3열 매트릭스인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 1,
The semantic classification matrix is an N-row 4-column matrix including an emotion classification type (AT), a circularity (PR), an ontology value (ONT), and a polarity (P) of each of the extracted emotion words, where N is an extracted emotion. Number of words), and the semantic weight matrix is N rows including inverse document frequency (TFIDF), Z-normalized value of the inverse document frequency, and semantic value (SV) in the document of each of the extracted emotional words. A method of generating an emotional vocabulary dictionary, which is a three-column matrix, and a calculation of the emotional strength of a document.
상기 감정 분류 타입은 추출된 상기 감정 단어를 화이트 분류(White's Classification)에 따라 분류한 분류값인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 2,
The emotion classification type is a classification value obtained by classifying the extracted emotion words according to White's Classification.
상기 온톨로지 값은 추출된 상기 감정 단어가 포함된 온톨리지 트리에서 해당 감정 단어에 할당된 온톨로지 노드 값인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 2,
And the ontology value is an ontology node value assigned to the emotion word in the ontology tree including the extracted emotion word.
상기 극성 값은 추출된 상기 감정 단어가 포함된 문서들의 평가 점수 및 상기 문서 집합에 포함된 전체 문서의 평가 점수 평균을 비교하여, 상기 감정 단어가 포함된 문서들의 평가 점수 평균이 상기 전체 문서의 평가 점수보다 높은 경우 +1로, 낮은 경우 -1로 정해지는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 2,
The polarity value is compared with the average of the evaluation scores of the documents containing the extracted emotional word and the total evaluation score of the entire document included in the document set, the average of the evaluation score of the documents containing the emotional word is the evaluation of the entire document A method of generating an emotional vocabulary dictionary and calculating an emotional strength of a document, which is set to +1 if the score is higher than -1 and to -1 if the score is lower than the score.
상기 의미값은, 추출된 상기 감정 단어가 속한 유의어집합에 포함되는 감정 단어들을 각 감정 단어들의 상기 문서 집합 내에서의 역문헌빈도 값의 크기에 따라 정렬하고, 정렬된 각 감정 단어들을 포함하는 문서들의 평가 점수에 따라 초기 의미값을 설정하며, 상기 초기 의미값에 각 감정 단어의 역문헌빈도의 Z-정규화 값을 더한 값을 기 설정된 범위로 스케일링(scaling)함으로써 정해지는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 2,
The meaning value is a document including each of the emotional words aligned by sorting the emotional words included in the synonym set to which the emotional words extracted belong according to the size of the inverse bibliographic frequency value in the document set of the respective emotional words. Sets an initial semantic value according to the evaluation scores of the subjects, and generates an emotional vocabulary dictionary, which is determined by scaling the initial semantic value to a predetermined range by adding a Z-normalized value of the inverse bibliographic frequency of each emotional word. How to calculate the emotional strength of documents.
각 감정 단어들의 초기 의미값은, 각 감정 단어를 포함하는 상기 문서 집합 내 문서들의 평가 점수 중 가장 빈도가 높은 평가 점수에 의하여 정해지는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 6,
An initial meaning value of each emotion word is determined by the most frequent evaluation score among evaluation scores of the documents in the document set including each emotion word.
상기 원형성 값은, 추출된 상기 감정 단어가 속한 유의어집합에 포함된 감정 단어들을 각각의 의미값(SV)이 작은 순서로 정렬하고, 정렬된 감정 단어들에 0부터 k-1까지의 정수(이때 k는 상기 유의어집합에 포함된 감정 단어의 개수)를 부여할 경우 추출된 상기 감정 단어에 부여된 정수값인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 6,
The circularity values are arranged in the order that the emotional words included in the extracted emotional word belong to the synonym set belonging to each other in the order of decreasing meaning value SV, and the integers from 0 to k-1 in the sorted emotional words. Wherein k is an integer value assigned to the extracted emotional word when the emotional word is included in the synonym set.
상기 대상 문서의 감정 강도를 계산하는 단계는,
상기 감정 강도 계산 모듈에서, 상기 대상 문서로부터 감정 단어를 추출하는 단계;
상기 감정 강도 계산 모듈에서, 상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스 각각의 성분 값 중 상기 대상 문서에서 추출된 감정 단어에 대응되는 성분 값으로부터 분류 및 가중치 매트릭스(Classification and Weight Matrix)를 생성하는 단계;
상기 감정 강도 계산 모듈에서, 상기 분류 및 가중치 매트릭스를 긍정 매트릭스 및 부정 매트릭스로 분리하는 단계;
상기 감정 강도 계산 모듈에서, 상기 긍정 매트릭스 및 부정 매트릭스 각각에 대한 특이값 분해(Singular Value Decomposition)을 수행하는 단계; 및
상기 특이값 분해에 의하여 생성되는 상기 긍정 매트릭스 및 부정 매트릭스 각각의 시그마 행렬의 대각선 성분 값으로부터 도출되는 값을 상기 대상 문서의 길이로 정규화함으로써 상기 대상 문서의 감정 강도를 계산하는 단계를 포함하는 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method according to claim 1,
Calculating the emotion intensity of the target document,
In the emotion intensity calculation module, extracting an emotion word from the target document;
Generating, by the emotion intensity calculation module, a classification and weight matrix from component values corresponding to emotion words extracted from the target document among component values of each of the semantic classification matrix and the semantic weight matrix;
In the emotion intensity calculation module, separating the classification and weight matrix into a positive matrix and a negative matrix;
In the emotion intensity calculation module, performing singular value decomposition for each of the positive matrix and the negative matrix; And
Calculating an emotional vocabulary of the target document by normalizing a value derived from the diagonal component values of the sigma matrix of each of the positive matrix and the negative matrix generated by the singular value decomposition to the length of the target document. How to create a dictionary and calculate the emotional strength of a document.
상기 분류 및 가중치 매트릭스는 상기 대상 문서에서 추출된 감정 단어 각각의 감정 분류 타입(AT), 원형성(PR), 스케일링된 극성(P') 및 스케일링된 의미값(SV')을 포함하는 N행 4열 매트릭스(이때 N은 추출된 감정 단어의 개수)인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 9,
The classification and weighting matrix includes N rows including an emotion classification type (AT), a circularity (PR), a scaled polarity (P ′), and a scaled semantic value (SV ′) of each emotion word extracted from the target document. A method of generating emotional vocabulary dictionaries, wherein N is the number of emotional words extracted, and a four-column matrix.
상기 스케일링된 극성(P')은 다음의 수학식
(이때, P는 상기 시맨틱 분류 매트릭스에 저장된 극성, PR는 상기 시맨틱 분류 매트릭스에 저장된 원형성 값)
에 의하여 정해지는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 10,
The scaled polarity P 'is represented by the following equation
Where P is the polarity stored in the semantic classification matrix and PR is the circularity value stored in the semantic classification matrix.
A method for generating an emotional vocabulary dictionary and calculating the emotional strength of a document.
상기 스케일링된 의미값(SV')은 다음의 수학식
(이때, SV는 상기 시맨틱 가중치 매트릭스에 저장된 의미값, PR는 상기 시맨틱 분류 매트릭스에 저장된 원형성 값)
에 의하여 정해지는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 10,
The scaled meaning value SV ′ is represented by the following equation
Where SV is a semantic value stored in the semantic weight matrix and PR is a circularity value stored in the semantic classification matrix.
A method for generating an emotional vocabulary dictionary and calculating the emotional strength of a document.
상기 긍정 매트릭스는 상기 분류 및 가중치 매트릭스에 포함된 감정 단어 중 상기 시맨틱 분류 매트릭스에서의 극성(P) 값이 +1인 단어들로 구성된 매트릭스이고, 상기 부정 매트릭스는 상기 분류 및 가중치 매트릭스에 포함된 감정 단어 중 상기 시맨틱 분류 매트릭스에서의 극성(P) 값이 -1인 단어들로 구성된 매트릭스인, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 9,
The positive matrix is a matrix composed of words having a polarity (P) value of +1 in the semantic classification matrix among the emotional words included in the classification and weight matrix, and the negative matrix is an emotion included in the classification and weight matrix. A method of generating an emotional lexicon and calculating emotional intensity of a document, wherein the word is a matrix composed of words having a polarity (P) value of -1 in the semantic classification matrix.
상기 대상 문서의 감정 강도는, 다음의 수학식
(이때 i는 상기 긍정 매트릭스 또는 부정 매트릭스로부터 계산된 시그마 행렬의 행 수, Σi는 상기 시그마 행렬의 대각선 성분, max(Σi)은 상기 시그마 행렬의 대각선 성분의 최대값, lengthdoc는 상기 대상 문서의 길이)
에 의하여 계산되는, 감정 어휘 사전 생성 및 문서의 감정 강도 계산 방법.
The method of claim 9,
The emotional strength of the target document is represented by the following equation.
Where i is the number of rows of the sigma matrix calculated from the positive matrix or the negative matrix, Σ i is the diagonal component of the sigma matrix, max (Σ i ) is the maximum value of the diagonal component of the sigma matrix, and length doc is the object Document length)
A method of calculating the emotional vocabulary and calculating the emotional strength of the document.
추출된 상기 감정 단어 및 상기 평가 점수로부터 시맨틱 분류 매트릭스(Semantic Classification Matrix) 및 시맨틱 가중치 매트릭스(Semantic Weight Matrix)를 생성하는 매트릭스 생성 모듈; 및
상기 시맨틱 분류 매트릭스 및 상기 시맨틱 가중치 매트릭스 각각의 성분 값 중 대상 문서에 포함된 감정 단어에 대응되는 성분 값으로부터 상기 대상 문서의 감정 강도를 계산하는 감정 강도 계산 모듈을 포함하는 감정 어휘 사전 생성 및 문서의 감정 강도 계산 시스템.
An emotion word extraction module for extracting a plurality of emotion words from a document set including one or more words and documents including an evaluation score for a predetermined object;
A matrix generation module for generating a semantic classification matrix and a semantic weight matrix from the extracted emotional words and the evaluation scores; And
An emotional vocabulary dictionary generation module comprising an emotion intensity calculation module for calculating an emotion intensity of the target document from component values corresponding to emotion words included in the target document among the component values of each of the semantic classification matrix and the semantic weight matrix; Emotional strength calculation system.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20120013197 | 2012-02-09 | ||
KR1020120013197 | 2012-02-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130092342A KR20130092342A (en) | 2013-08-20 |
KR101346115B1 true KR101346115B1 (en) | 2013-12-31 |
Family
ID=49217210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120037313A KR101346115B1 (en) | 2012-02-09 | 2012-04-10 | System and method for creating emotional word dictionary and computing emotional degrees of documents |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101346115B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881671A (en) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | Attribute word extraction method |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101625787B1 (en) * | 2015-02-02 | 2016-05-30 | 숭실대학교산학협력단 | Method and server for estimating the sentiment value of word |
CN109977393B (en) * | 2017-12-28 | 2021-09-03 | 中国科学院计算技术研究所 | Popular news prediction method and system based on content disputeness |
CN108664469B (en) * | 2018-05-07 | 2021-11-19 | 首都师范大学 | Emotion category determination method and device and server |
CN108763214B (en) * | 2018-05-30 | 2021-09-24 | 河海大学 | Automatic construction method of emotion dictionary for commodity comments |
CN109947951B (en) * | 2019-03-19 | 2020-12-22 | 北京师范大学 | Automatically-updated emotion dictionary construction method for financial text analysis |
CN110555109A (en) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | multi-granularity viewpoint mining method based on personal computer electronic commerce comments |
CN111611455A (en) * | 2020-05-22 | 2020-09-01 | 安徽理工大学 | User group division method based on user emotional behavior characteristics under microblog hot topics |
CN118332079A (en) * | 2024-03-28 | 2024-07-12 | 北京谦润和科技有限公司 | Dynamic window management method and system for suppliers |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040042012A (en) * | 2002-11-12 | 2004-05-20 | 이정현 | System and method for recommend textile pattern using sensibility vocabulary |
-
2012
- 2012-04-10 KR KR1020120037313A patent/KR101346115B1/en not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040042012A (en) * | 2002-11-12 | 2004-05-20 | 이정현 | System and method for recommend textile pattern using sensibility vocabulary |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881671A (en) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | Attribute word extraction method |
CN111881671B (en) * | 2020-09-27 | 2020-12-29 | 华南师范大学 | Attribute word extraction method |
Also Published As
Publication number | Publication date |
---|---|
KR20130092342A (en) | 2013-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101346115B1 (en) | System and method for creating emotional word dictionary and computing emotional degrees of documents | |
CN110008311B (en) | Product information safety risk monitoring method based on semantic analysis | |
Ishmam et al. | Hateful speech detection in public facebook pages for the bengali language | |
Ahmed et al. | Detecting opinion spams and fake news using text classification | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
Tripathy et al. | Classification of sentiment reviews using n-gram machine learning approach | |
KR101005337B1 (en) | System for extraction and analysis of opinion in web documents and method thereof | |
CN104137102A (en) | Non-factoid question answering system and computer program | |
CN104331394A (en) | Text classification method based on viewpoint | |
Sharma et al. | An artificial neural network based approach for sentiment analysis of opinionated text | |
KR20180120488A (en) | Classification and prediction method of customer complaints using text mining techniques | |
CN103995853A (en) | Multi-language emotional data processing and classifying method and system based on key sentences | |
Garg et al. | Sentiment analysis of twitter feeds | |
Suchdev et al. | Twitter sentiment analysis using machine learning and knowledge-based approach | |
Min et al. | Comparative evaluation of lexicons in performing sentiment analysis | |
Sintaha et al. | An empirical study and analysis of the machine learning algorithms used in detecting cyberbullying in social media | |
Das et al. | Sentiment analysis of movie reviews using POS tags and term frequencies | |
Malandrakis et al. | SAIL: A hybrid approach to sentiment analysis | |
Awwad et al. | Performance comparison of different lexicons for sentiment analysis in Arabic | |
Vaidhya et al. | Personality traits analysis from Facebook data | |
Sboev et al. | Deep learning network models to categorize texts according to author's gender and to identify text sentiment | |
KR101326313B1 (en) | Method of classifying emotion from multi sentence using context information | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
Prabowo et al. | Instagram online shop's comment classification using statistical approach | |
Chan et al. | Social and emotional correlates of capitalization on Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20161222 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |