KR20140056715A - An apparatus for opinion mining based on hierarchical categories and a method thereof - Google Patents
An apparatus for opinion mining based on hierarchical categories and a method thereof Download PDFInfo
- Publication number
- KR20140056715A KR20140056715A KR1020120122000A KR20120122000A KR20140056715A KR 20140056715 A KR20140056715 A KR 20140056715A KR 1020120122000 A KR1020120122000 A KR 1020120122000A KR 20120122000 A KR20120122000 A KR 20120122000A KR 20140056715 A KR20140056715 A KR 20140056715A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- expression
- attribute
- main word
- emotional
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 감성 분석을 위한 기술에 관한 것으로, 보다 상세하게는 계층적 카테고리를 기초로 하여 감성 분석을 수행하기 위한 장치 및 이를 위한 방법에 관한 것이다. The present invention relates to a technique for emotional analysis, and more particularly, to an apparatus and method for performing emotional analysis based on a hierarchical category.
기계 학습 기술은 자연언어 처리의 다양한 분야에 적용되어 왔으며 그 성능이 검증되어 실제 다양한 상용 시스템에 적용되어 왔다. 하지만, 기계 학습 자체의 가장 치명적인 약점인 기계 학습을 위한 학습 셋을 구축 하기 위한 시간적/금전적 비용이 크고, 학습 셋의 질과 양에 성능이 의존되는 문제가 있다. 또한, 해당 분야에서 활발하게 연구가 진행중인 영어와 같은 언어에 대한 학습 셋에 비해 한국어와 같은 언어는 실제 상용시스템에 적용할 수준의 학습 셋이 구축되어 있지 않아 기술 연구 수준의 시스템에 한하여 적용되고 있는 수준이다. 더군다나, 감성/의견 추출 분야에 대한 연구 기간이 상대적으로 길지 않아 해당 리소스는 더욱 부족하다고 할 수 있다. Machine learning technology has been applied to various fields of natural language processing and its performance has been verified and applied to various real commercial systems. However, there is a problem that the time / monetary cost for constructing a learning set for machine learning, which is the most fatal weak point of the machine learning itself, is large, and the performance depends on the quality and amount of the learning set. In addition, compared with learning sets for languages such as English, which are actively under research in the field, language such as Korean is applied only to systems of technology research level because there is no built-in learning set that can be applied to actual commercial systems Level. Moreover, the research period for the emotion / opinion extraction field is relatively long, so the resources are not enough.
지식/규칙 기반의 감성/의견 추출은 현재까지 많은 상용 감성/의견 추출 시스템에서 채택하고 있는 기법으로, 기계 학습을 위한 학습 셋 구축을 위한 시간적/비용적 단점을 극복할 수 있으며, 시스템의 성능을 지식 및 규칙에 의하여 상대적으로 컨트롤 하기 용이하다. 하지만, 자연언어에서 감성/의견 표현의 다양성을 모두 규칙화 하는 것은 불가능하며, 모든 다양성에 대하여 지식을 구축하고 관리하는 것 또한 많은 비용을 필요로 하며 시스템의 정확도 향상에는 한계가 있다. 따라서, 기존의 감성/의견 추출 시스템은 주로 문서에서 발현하는 표현부 위주의 분석을 통한 문서 전체의 감성/의견 긍/부정 분류에 집중하고 있다. Knowledge / rule-based emotion / opinion extraction is a technique that has been adopted in many commercial emotion / opinion extraction systems so far. It can overcome the shortcoming of time / cost for building learning set for machine learning, It is relatively easy to control by knowledge and rules. However, it is impossible to regularize all kinds of emotions / expressions in natural language, and building and managing knowledge about all kinds of diversity also requires a lot of cost, and there is a limit to improving the accuracy of the system. Therefore, the existing emotion / opinion extraction system mainly focuses on emotion / opinion positive / negative classification of the entire document through the analysis of the expression part focused on the document.
상술한 바와 같은 점을 고려한 본 발명의 목적은 카테고리 기반 감성 지식 체계를 이용하여 감성 분석을 수행할 수 있는 장치 및 이를 위한 방법을 제공함에 있다. It is an object of the present invention to provide an apparatus and method for performing emotional analysis using a category-based emotional knowledge system.
또한, 본 발명의 다른 목적은, 감성 분석을 수행하기 전, 분석 대상 문서의 각 문장에 대해 전처리 및 정규화 등을 수행함으로써, 감성 분석의 정확도를 높일 수 있는 장치 및 이를 위한 방법을 제공함에 있다. Another object of the present invention is to provide an apparatus and method for enhancing the accuracy of emotional analysis by performing preprocessing and normalization on each sentence of a document to be analyzed before emotional analysis is performed.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 감성 분석을 위한 장치는, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 분석 대상 문서로부터 각 문장에 대해 선택된 카테고리에 상응하는 주제어들을 추출하는 주제어 추출부 및 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 속성이 될 수 있는 품사 및 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함한다. According to another aspect of the present invention, there is provided an apparatus for emotional analysis, the apparatus comprising: a plurality of categories having a hierarchical structure of a tree structure; An emotional data including an attribute indicating the nature or the nature of the main word, an expression indicating an evaluation of the attribute of the main word, and a positive / negative value indicating affirmation and denial and strength of the expression, A main word extracting unit for extracting main words corresponding to the selected category for each selected sentence, and normalizing each sentence including the extracted main word to reconstruct a sentence consisting of only parts of speech that can be attributes in each sentence and parts of speech that can be expressed, Derive an attribute from the sentence, and use the expression corresponding to the derived attribute And an emotional analysis unit for deriving emotional analysis.
감성 분석부는 정규화시, 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 한다. The emotion analyzing unit reconstructs the expression of each sentence in the positive expression at the time of normalization, and extracts affirmation and negation and intensity of the expression and stores it as positive / negative value.
감성 분석부는 정규화시, 각 문장에서 관형형 어미를 활용하여 속성을 전방에서 수식하는 형태를 가지는 관형형 표현이 있는 경우, 속성을 후방에서 수식하는 형태를 가지는 일반형 표현으로 재구성하는 것을 특징으로 한다. The emotion analyzing unit is characterized in that, when normalizing, in the case where there is a tubular expression having a form in which the attribute is forwardly modified by utilizing a tubular ending in each sentence, the emotion analyzing unit reconstructs the attribute into a general expression having a form of rearward modification.
감성 분석부는 정규화시, 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정하는 것을 특징으로 한다. The emotional analysis unit is characterized in that, at normalization, the relation between the attribute of the main clause and the expression of the subordinate clause is connected or disconnected according to the relationship between the main clause and the subordinate clause.
감성 분석부는 표현의 전방에 표현에 대응하는 속성이 존재 여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출하는 것을 특징으로 한다. The emotional analysis unit judges whether or not there is an attribute corresponding to the expression in front of the expression, and when there is no attribute corresponding to the expression, the emotional analysis unit derives the attribute from the expression.
주제어 추출부는 선택된 카테고리에 상응하는 주제어들을 포함하는 주제어 사전을 참조하여 상기 분석 대상 문서에서 각 문장의 주제어를 추출하는 것을 특징으로 한다. And the main word extracting unit extracts a main word of each sentence from the analysis target document by referring to a main word dictionary including main words corresponding to the selected category.
주제어 추출부는 문장에 비교문이 있는 경우, 비교문을 가지는 복수의 문형을 저장하는 문법 사전을 참조하여, 주제어를 추출하는 것을 특징으로 한다. The main word extracting unit extracts a main word by referring to a grammar dictionary storing a plurality of sentence patterns having a comparative sentence in a case where there is a comparative sentence in the sentence.
주제어 추출부는 분석 대상 문서에서 어느 하나의 문장에서 주제어를 탐색할 수 없는 경우, 하나의 문장의 이전 문장에서 주제어를 추정하고, 주제어를 추정할 수 없는 경우, 상기 분석 대상 문서의 타이틀에 관련된 타이틀 주제어, 문서 전체의 주제에 관련된 문서 주제어 중 어느 하나를 하나의 문장의 주제어로 할당하는 것을 특징으로 한다. The main word extracting unit estimates a main word in a previous sentence of one sentence when the main word can not be searched in any one sentence in the analysis target document and if the main word can not be estimated, And assigning one of the document subject terms related to the subject of the entire document as a subject word of one sentence.
상기 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석 및 복합어 인식을 포함하는 전처리를 수행하는 전처리부를 더 포함한다. And a preprocessor for performing preprocessing including sentence separation, spacing correction, morpheme analysis, and compound word recognition for each sentence of the analysis target document.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 감성 분석을 위한 방법은, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 상기 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 선택된 카테고리에 상응하는 분석 대상 문서를 수집하는 단계와, 분석 대상 문서의 각 문장에 대해 상기 카테고리에 상응하는 주제어들을 추출하는 단계와, 추출된 주제어를 포함하는 각 문장에서 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하는 정규화를 수행하는 단계 및 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함한다. According to an aspect of the present invention, there is provided a method for emotional analysis, the method comprising: a plurality of categories having a hierarchical structure of a tree structure; An expression representing an evaluation of the attribute of the main word and a positive / negative value representing the affirmation and the negation and strength of the expression, and an analysis corresponding to the selected category Extracting subject words corresponding to the category for each sentence of the document to be analyzed, extracting part of speech that can be attributed in each sentence including the extracted subject word, A step of performing normalization that reconstructs a sentence composed of only parts of speech and a step of reconstructing And a sentence analysis unit for deriving an attribute from the sentence and deriving a representation corresponding to the derived attribute.
정규화를 수행하는 단계는 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 한다. The step of performing the normalization is characterized by reconstructing the expression of each sentence as an affirmative expression, extracting affirmation and negation and intensity of the expression, and storing it as positive / negative values.
상술한 본 발명에 따르면, 카테고리 분류 체계를 활용하여 문서의 타입과 주제에 따른 정교한 감성 분석 결과를 기대할 수 있다. 감성/의견 정보의 대상인 주제어를 정교하게 매핑하는 기술로 인해 작성자의 작성의도와 감성/의견의 정도를 대상과 연계하여 정확하게 파악할 수 있다. 종래에 많은 부분을 지식에 의존하던 언어의 다양한 현상들을 정규화 과정을 통해 알고리즘화 함으로서, 지식 관리의 효율과 편의성을 높이고, 시스템의 성능을 향상시킬 수 있다. According to the present invention, it is possible to expect a sophisticated emotional analysis result according to the type and subject of a document by using the category classification system. It is possible to accurately grasp the degree of author's writing and emotion / opinion in connection with the object because of the technique of elaborately mapping the subject word which is the subject of emotion / opinion information. Algorithmization of the various phenomena of language which conventionally relied on a large amount of knowledge in the normalization process can improve the efficiency and convenience of knowledge management and enhance the performance of the system.
도 1은 본 발명의 실시 예에 따른 감성 사전의 카테고리의 트리 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 실시 예에 따른 감성 분석을 위한 장치를 설명하기 위한 도면이다.
도 3은 도 1의 서비스 장치(100)의 제어부(105)의 기능별 세부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 감성 분석을 위한 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시 예에 따른 감성 분석 중 주제어를 추출하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 감성 분석 중 감성 데이터를 완성하는 방법을 설명하기 위한 흐름도이다. FIG. 1 is a diagram for explaining a tree structure of categories in an emotion dictionary according to an embodiment of the present invention.
2 is a diagram for explaining an apparatus for emotional analysis according to an embodiment of the present invention.
FIG. 3 is a diagram for explaining the detailed configuration of functions of the
4 is a flowchart illustrating a method for emotional analysis according to an embodiment of the present invention.
FIG. 5 is a flowchart for explaining a method of extracting main words during emotional analysis according to an embodiment of the present invention.
6 is a flowchart illustrating a method for completing emotional data in emotional analysis according to an embodiment of the present invention.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description and the accompanying drawings, detailed description of well-known functions or constructions that may obscure the subject matter of the present invention will be omitted. It should be noted that the same constituent elements are denoted by the same reference numerals as possible throughout the drawings.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. The terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary meanings and the inventor is not limited to the meaning of the terms in order to describe his invention in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are merely the most preferred embodiments of the present invention and are not intended to represent all of the technical ideas of the present invention, so that various equivalents It should be understood that water and variations may be present.
본 발명의 실시 예에 따른 "감성 분석"은 분석 대상 문서의 주어진 텍스트에서 텍스트의 작성자가 표현한 감성 및 의견 표현의 존재를 인식하고 해당 표현이 긍정적인 내용인 지 부정적인 내용인지를 분석하며, 분석된 감성/의견 표현의 대상을 텍스트 내에서 탐지하여 해당하는 대상과 감성/의견 표현의 쌍을 제공하는 기능을 말한다. 예를 들어, “삼성 PAVV 7000은 디자인은 훌륭하지만, 화질은 떨어진다” 라는 텍스트가 주어졌을 때 “디자인이 훌륭하다”, “화질이 떨어진다” 라는 작성자의 감성/의견 정보를 추출하고, “디자인이 훌륭하다”는 긍정적인 의견, “화질이 떨어진다”는 부정적인 의견임을 분석하게 된다. 또한, 해당 감성/의견 정보들이 “삼성 PAVV 7000”에 대한 내용임을 최종적으로 판단하고 그 결과를 출력한다. "Emotional analysis" according to the embodiment of the present invention recognizes the existence of emotion and opinion expression expressed by the creator of the text in a given text of the analysis target document, analyzes whether the corresponding expression is positive or negative, It is a function to detect the object of emotion / opinion expression in text and to provide a pair of emotion / opinion expression with corresponding object. For example, when the text "Samsung PAVV 7000 is good in design, but the picture quality is poor" is given, the emotion / opinion information of the author "the design is excellent" and "the image quality is low" Good ", and" poor quality "is a negative opinion. In addition, it finally judges that the sensitivity / opinion information is about "Samsung PAVV 7000" and outputs the result.
주어진 예시를 기반으로 감성 분석 시 추출되는 요소들을 본 발명에서는 다음과 같이 정의 한다. Based on the given examples, the elements extracted in the emotion analysis are defined as follows in the present invention.
예컨대, 분석 대상 문서에서 “삼성 PAVV 7000은 디자인은 훌륭하지만, 화질은 떨어진다”와 같은 문장이 있다고 가정하면, 감성/의견 정보로 “디자인 훌륭하다 (긍정)”, “화질 떨어진다 (부정)”를 얻을 수 있으며, 감성 분석 시 추출되는 요소들은 다음의 <표 1>과 같다. For example, suppose that there is a sentence such as "Samsung PAVV 7000 is good in design, but picture quality is poor" in the document to be analyzed. "Design is excellent" (positive) The factors extracted from the emotional analysis are shown in Table 1 below.
(Object)Keyword
(Object)
(Feature)property
(Feature)
(Expression)expression
(Expression)
부정적인 평가 혹은 의견Affirmative or negative
Negative ratings or opinions
(Polarity)Positive / negative value
(Polarity)
약한 부정: -1
약한 긍정: 1
강한 긍정: 2 Strong negative: -2
Weak negation: -1
Weak affirmation: 1
Strong affirmation: 2
<표 1>에 보인 바와 같이, 감성 분석 시 추출되는 요소들은, 주제어, 속성, 표현 및 긍/부정값이며, 본 발명에서 이 요소들을 "감성 데이터"라고 칭하기로 한다. 주제어는 감성 표현의 대상이며, 속성은 주제어의 성격, 성질, 특징 등을 나타내며, 표현의 대상이 된다. 표현은 주제어의 속성에 대한 긍정 또는 부정의 의견 평가 등을 나타낸다. 긍/부정값은 표현이 긍정인지 부정인지 여부와 그 강도를 나타내는 값이다. <표 1>에서 긍/부정값은 -2에서 +2까지의 정수형으로 표현된다. 음수는 부정을 나타내고 양수는 긍정을 나타내며 절대값의 크기는 긍/부정의 강도를 나타낸다. 여기서 말하는 긍/부정의 강도란, 감성/의견 표현의 강도를 말하는 것으로서, 본 발명에서는 “일반감성”과 “강한감성”으로 구분하는 것으로 정의한다. "일반감성"이란 감성/의견을 표현하는 일반적인 표현의 형태로서, “훌륭하다”, “떨어진다”, “좋다”, “나쁘다” 와 같은 기본적인 형태이다. “강한감성” 이란 긍/부정을 표현함에 있어 작성자가 긍/부정에 대한 감성을 더욱 강조하기 위한 표현들을 말한다. “강한감성”을 표현하기 위한 방법은 크게 두 종류로 나뉘어 질 수 있으며 첫 번째는 정도/강도 부사를 이용하여 표현 하는 방법이다, 예를 들어, “디자인이 마음에 들다” 라는 감성/의견 정보가 있다고 할 때, “디자인이 정말 마음에 들다” 혹은 “디자인이 진짜 마음에 들다” 와 같이 정도/강도 부사를 추가하여 강한 감성을 나타낼 수 있다. 다른 방법으로는 표현 자체가 강한 감성을 표현하는 경우도 있다. 예를 들어, “좋다” 라는 감성을 표현함에 있어 “짱이다”, “최고다”등의 표현을 강한 감성의 표현이라고 볼 수 있다. As shown in Table 1, the elements extracted in the emotional analysis are the main word, attribute, expression, and positive / negative values, and these elements will be referred to as "emotional data" in the present invention. The main word is the object of emotional expression, and the attribute indicates the character, nature, and characteristics of the main word, and is the object of expression. Expression represents the evaluation of positive or negative opinion on the attributes of the main word. The positive / negative value is a value indicating whether the expression is affirmative or negative and its intensity. In Table 1, the positive / negative value is expressed as an integer between -2 and +2. Negative numbers indicate negative, positive numbers indicate positive, and magnitude of absolute value indicates positive / negative intensity. The intensity of positive / negative as used herein refers to the intensity of emotion / opinion expression. In the present invention, it is defined as distinguishing between "general emotion" and "strong emotion". "General emotion" is a form of general expression that expresses emotion / opinion and is a basic form such as "good", "decline", "good", "bad". "Strong emotions" refers to expressions that emphasize the emotion of positive / negative in the expression of positive / negative. The method for expressing "strong emotion" can be divided into two kinds, and the first is a method of expressing using degree / intensity adverbs. For example, "emotion / opinion information" I can express strong emotions by adding degree / intensity adverbs such as "I really like the design" or "I really like the design". In other ways, expressions themselves express strong emotions. For example, in expressing the feeling of "good", expressions such as "excellent" and "greatest" are expressions of strong emotion.
본 발명의 실시 예에 따른 감성 분석을 위한 장치는 감성/의견 구성 요소를 위와 같이 정의하고 정의된 구성 요소들의 집합을 추출한다. 본 발명에서 감성분석 시스템의 지식은 사전에 의해서 관리 되며, 이를 감성 사전이라 한다. 감성 사전은 앞서 정의한 속성과 표현, 그리고 속성과 표현 쌍에 해당하는 긍/부정값을 가지고 있다. 이러한 감성 사전은 미리 정해진 카테고리 별로 독립적으로 구축이 된다. 감성 사전의 구축에 있어 카테고리 별로 구축이 되어야 하는 이유는 각 카테고리가 포함하고 있는 주제어 군이 가지는 속성들의 집합이 다르기 때문이다. 예를 들어, “셔터 스피드”라는 속성은 “카메라”제품 집합에서는 통용되는 속성이지만, “냉장고”, “기저귀”등과 같은 제품 집합에서는 존재하지 않는 개념이다. 이러한 속성들을 카테고리의 구분 없이 사용하게 되면 오류를 유발 할 뿐 아니라, 감성 사전의 관리 역시 효율적이지 못하게 되며, 곧 감성 분석 시스템의 성능 저하를 가져 오게 된다. The apparatus for emotional analysis according to the embodiment of the present invention defines the emotional / opinion component as above and extracts a defined set of components. In the present invention, the knowledge of the emotional analysis system is managed by a dictionary, which is called an emotional dictionary. The emotion dictionary has positive / negative values corresponding to the attribute, expression, and attribute / expression pair defined above. These emotion dictionaries are constructed independently for each predetermined category. The construction of emotional dictionaries should be done by category because the set of attributes of the subject language group included in each category is different. For example, the attribute "shutter speed" is a commonly used attribute in the "camera" product set, but it does not exist in product sets such as "refrigerator", "diaper", and the like. Using these attributes without category identification will cause errors and management of emotional dictionaries will become inefficient, which will lead to performance degradation of emotional analysis system.
감성 사전의 카테고리는 트리(Tree) 구조이며, 복수의 레벨을 가진다. 도 1은 본 발명의 실시 예에 따른 감성 사전의 카테고리의 트리 구조를 설명하기 위한 도면이다. The category of the emotion dictionary is a tree structure and has a plurality of levels. FIG. 1 is a diagram for explaining a tree structure of categories in an emotion dictionary according to an embodiment of the present invention.
도시된 바와 같이, 예시적인 감성 사전의 카테고리는 3 뎁스(3-depth)의 트리 구조로 구성하였다. 본 발명의 실시 예에 따르면, 최상위 카테고리를 도메인이라고 칭하며, “인물”, “장소”, “제품” 의 3개의 도메인을 가진다. 도메인 이하의 카테고리의 구조는 부모 노드(상위 카테고리)의 특성에 따라 세부 분류로 나뉘어 지고 최하위 카테고리는 해당 도메인에서 가장 세분화된 개체군으로 이루어진다. 도 1은 “제품”도메인에 대한 감성 카테고리 구조의 예를 보인다. As shown, the category of the exemplary emotion dictionary is composed of a tree structure of 3-depth (3-depth). According to the embodiment of the present invention, the top category is called a domain, and has three domains of "person", "place", and "product". The structure of the categories below the domain is divided into the detailed classification according to the characteristics of the parent node (upper category), and the lowest category consists of the most detailed population in the domain. Figure 1 shows an example of an emotion category structure for the " product " domain.
각 카테고리는 독립적으로 속성과 표현의 엔트리로 구성되어 있지만, 유사한 카테고리 간에는 공통적으로 사용되는 엔트리 역시 존재 하기 때문이다. 예를 들어, 동일한 레벨의 카테고리에 “DSLR 카메라”와 “캠코더” 있다고 가정할 때, “DSLR 카메라”와 “캠코더” 카테고리는 모두 “액정”이라는 속성을 공통으로 가질 수 있다. 이러한 경우 속성 "액정"을 각 카테고리 별로 관리하게 되면 감성 데이터의 양이 불필요하게 많아지게 되며, 해당 속성에 대한 표현들 역시 따로 관리해야 되는 등, 효율이 떨어지게 된다. 이러한 경우, 본 발명의 실시 예에 따르면, 각 카테고리가 가지는 공통의 감성 데이터를 상위 카테고리에 통합하여 관리 하게 되며, 실제 감성 분석을 하는 시점에서는 해당 카테고리가 속하는 상위 카테고리의 감성 데이터를 상속하여 사용할 수 있다. Each category consists of entries of attributes and expressions independently, but there are also commonly used entries between similar categories. For example, assuming that "DSLR camera" and "camcorder" exist in the same level category, both the "DSLR camera" and "camcorder" categories can have a common property of "liquid crystal". In this case, if the attribute "liquid crystal" is managed for each category, the amount of emotional data becomes unnecessarily large, and the expressions for the attribute are also managed separately. In this case, according to the embodiment of the present invention, common emotion data belonging to each category is integrated and managed in the upper category. In actual emotion analysis, the emotion data of the upper category to which the category belongs can be inherited have.
정리하면, 본 발명의 실시 예에 따른 감성 분석은 트리 구조의 카테고리로 분류된 감성 사전에 각 카테고리 별로 주제어, 속성, 표현, 및 긍부정도를 포함하는 감성 데이터를 등록하는 과정이라고 할 수 있다. 그러면, 이러한 감성 분석을 위한 장치 및 방법에 대해서 설명하기로 한다. In summary, the emotional analysis according to the embodiment of the present invention can be regarded as a process of registering emotional data including a main word, attribute, expression, and degree of a certainty for each category in a sentence dictionary classified into a category of a tree structure. An apparatus and method for such sensitivity analysis will be described below.
도 2는 본 발명의 실시 예에 따른 감성 분석을 위한 장치를 설명하기 위한 도면이다. 2 is a diagram for explaining an apparatus for emotional analysis according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 장치, 즉, 서비스 장치(100)는 네트워크에 연결된 네트워크의 일 엔티티로 존재하거나, 네트워크에 접속하여 네트워크 상에 존재하는 다른 엔티티와 통신할 수 있다. 서비스 장치(100)는 네트워크에 존재하는 적어도 하나의 다른 엔티티로부터 데이터를 수집하여 감성 지식을 구축한다. 대표적으로, 다른 엔티티는 웹 서버를 예시할 수 있다. Referring to FIG. 1, an apparatus for constructing emotional knowledge according to an embodiment of the present invention, that is, a
이를 위하여, 서비스 장치(100)는 통신부(101), 입력부(102), 저장부(103), 표시부(104) 및 제어부(105)를 포함한다. To this end, the
통신부(101)는 네트워크에 접속하여, 다른 엔티티들과 통신하기 위한 장치이며, 이러한 통신부(101)는 네트워크의 종류 및 네트워크에 적용된 프로토콜에 따라서 데이터를 처리하는 기능을 더 포함할 수 있다. 예컨대, 통신부(101)는 웹 서버와 통신하여 웹 문서 등의 분석 대상 문서를 수신할 수 있다. The
입력부(103)는 서비스 장치(100) 사용자의 명령, 선택, 데이터, 정보 중에서 적어도 하나를 입력 받기 위한 수단으로서, 숫자 또는 문자 정보를 입력 받고 다양한 기능을 설정하기 위한 다수의 입력키 및 기능키를 포함할 수 있다. 그리고 입력부(101)는 사용자의 키 입력을 감지하여, 감지된 키 입력에 따른 입력 신호를 제어부(150)로 전달한다. 입력부(101)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 등을 예시할 수 있다. The
저장부(103)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조기억 장치를 포함한다. 이러한 저장부(103)는 운영 체제(OS, Operation System), 어플리케이션 등을 저장할 수 있다. 저장부(103)는 서비스 장치(100)가 수집하고, 생성하는 각 종 데이터를 저장할 수 있다. 예를 들면, 저장부(103)는 카테고리에 상응하는 주제어들을 포함하는 주제어 사전, 카테고리에 상응하는 속성, 표현, 긍/부정값 등이 저장된 감성 사전, 비교문을 가지는 복수의 문형을 저장하는 문법 사전, 등을 저장할 수 있다. 저장부(103)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다. The
표시부(104)는 서비스 장치(100)의 사용에 따라 발생되는 정보를 사용자가 인지할 수 있도록 표시하기 위한 것이다. 이러한 정보는 분석 대상 문서, 주제어, 속성, 표현, 긍/부정값, 키텀 등을 포함할 수 있다. The
제어부(105)는 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 방법을 수행하기 위해 필요한 동작을 수행하며, 이를 위하여, 필요한 경우, 통신부(101), 입력부(102), 저장부(103) 및 표시부(104)를 제어할 수 있다. 이를 위하여, 제어부(105)는 실제로 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 방법을 수행하도록 하기 위한 복수의 모듈을 포함할 수 있다. 이러한 모듈은 하드웨어 또는 소프트웨어로 구성될 수 있다. The
제어부(105)는 운영 체제를 구동시키는 프로세스 장치가 될 수 있다. 예컨대, 제어부(105)는 중앙처리장치(CPU, Central Processing Unit)가 될 수 있다. 제어부(105)는 운영 체제를 저장부(103)의 보조 기억 장치로부터 주 기억장치로 이동시킨 후, 운영 체제를 구동하는 부팅(booting)을 수행한다. 그리고, 제어부(105)는 본 발명의 실시 예에 따른 감성 분석을 수행하기 위해 필요한 필요한 어플리케이션을 구동시킬 수 있다. The
도 3은 도 1의 서비스 장치(100)의 제어부(105)의 기능별 세부 구성을 설명하기 위한 도면이다. FIG. 3 is a diagram for explaining the detailed configuration of functions of the
도 2를 참조하면, 제어부(105)는 전처리부(110), 주제어추출분(120) 및 감성 분석부(130)를 포함한다. Referring to FIG. 2, the
전처리부(110)는 주제어 추출 전 혹은 속성, 표현 등의 추출 이전에, 그 대상이 되는 분석 대상 문서에 대해 전처리를 수행한다. 이러한 전처리는 문장 분리, 띄어쓰기 교정, 형태소 분석, 복합어 인식, 등을 포함하며, 전처리부(110)는 전처리가 완료되면 문장 단위로 전처리된 문장을 출력한다. The
주제어추출분(120)는 전처리된 문장 각각에 대한 주제어를 추출하기 위한 것이다. 주제어 추출부(120)는 타이틀 주제어, 문서 주제어, 문장 주제어 중 적어도 하나를 주제어로 추출할 수 있다. The
감성 분석부(130)는 주제어 추출부(120)가 추출한 주제어에 대응하는 속성, 표현 및 긍/부정값을 추출하고, 주제어, 속성, 표현 및 긍/부정값을 포함하는 감성 데이터를 출력하기 위한 것이다. The
도 4는 본 발명의 실시 예에 따른 감성 분석을 위한 방법을 설명하기 위한 흐름도이다. 4 is a flowchart illustrating a method for emotional analysis according to an embodiment of the present invention.
감성 분석 장치(100)는 S410 단계에서 분석 대상 문서를 수집한다. 분석 대상 문서의 수집은 감성 분석이 수행될 카테고리에 따라 결정될 수 있다. 예컨대, 감성 분석이 수행될 카테고리가 "카메라"라면, 해당하는 웹 사이트로부터 분석 대상 문서를 수집할 수 있다. The
다음으로, 감성 분석 장치(100)는 S420 단계에서 상기 분석 대상 문서에서 문장 단위로 주제어를 추출한다. 이때, 감성 분석 장치(100)는 주제어 사전을 참조하여, 주제어를 추출할 수 있다. Next, in step S420, the
이어서, 감성 분석 장치(100)는 S430 단계에서 상기 추출된 주제어에 대응하는 속성, 표현, 및 긍/부정값을 추출하여 감성 데이터를 도출한다. Then, in step S430, the
그러면, 보다 상세히 상술한 주제어를 추출하는 단계와 속성 및 표현을 추출하여 감성 데이터를 도출하는 단계에서 대해서 살펴보기로 한다. Hereinafter, a description will be given of a step of extracting the above-mentioned main words and a step of extracting emotional data by extracting attributes and expressions.
도 5는 본 발명의 실시 예에 따른 감성 분석 중 주제어를 추출하는 방법을 설명하기 위한 흐름도이며, 앞서 설명된 S420 단계를 보다 상세하게 설명하기 위한 것이다. FIG. 5 is a flowchart for explaining a method of extracting a main word in emotional analysis according to an embodiment of the present invention, and explains the step S420 described above in more detail.
주제어는 주제어 사전에 의하여 관리 되며, 주제어 사전은 감성 사전과 마찬가지로 미리 정해진 카테고리 분류 체계에 따라 관리 된다. 이러한 본 발명의 실시 예와 같이, 일반적인 개체명에 대한 사전이 모든 엔트리들을 일괄 관리 하지 않고 세분화 된 카테고리 별로 관리 하게 되면, 주제어간 중의성과 카테고리에 해당하는 문서에 대하여 정교한 분석이 가능 하게 된다. The main words are managed by the main dictionary, and the main dictionary is managed according to the predetermined category classification system like the emotional dictionary. As in the embodiment of the present invention, if a dictionary for general object names is managed for each subdivided category without managing all the entries collectively, it is possible to perform a sophisticated analysis on the documents corresponding to the performance categories among the subject words.
주제어 추출은 기본적으로 다음과 같은 가정을 가지고 있다. Keyword extraction basically has the following assumptions.
1. 감성/의견을 가진 문서는 그것의 대상이 되는 주제어를 반드시 가지고 있다.1. The emotional / opinional document must have the subject language to which it relates.
2. 감성/의견을 가진 문서는 복수의 주제어가 나타날 수 있다.2. A document with emotion / opinion may have multiple keywords.
3. 문서에서 주제어는 혹은 주제어들은 그것이 지배하는 영역을 가지고 있다.3. In the document, subject words or subject words have areas that they control.
감성 분석은 주제어에 대한 의견, 평판 등을 제공하는 것임으로, 1 번 가정이 반드시 필요하며, 그렇지 않은 경우, 감성 분석을 제공할 수 없음으로, 모든 감성 표현의 대상인 주제어가 반드시 존재해야만 한다. 특히, 3 번 가정의 경우 본 발명에서는 단순하게 주제어만을 추출하지 않고, 추출된 주제어가 해당 문서에서 지배하는 구역까지 인식하여, 후에 감성 표현이 추출할 때, 해당 감성 표현의 대상을 정확히 매핑하는 근거가 된다. 주제어 추출 시, 다음의 3가지 종류의 주제어 추출 타입을 가지게 된다. Since emotional analysis provides opinions, reputation, etc. on the subject, it is essential that the first assumption is made. Otherwise, the emotional analysis can not be provided. In particular, in the case of the assumption No. 3, in the present invention, only the main word is extracted, and the extracted main word is recognized to the region governed by the document, and when the emotion expression is extracted later, . When extracting the main words, we have the following three types of main word extraction types.
1. 타이틀 주제어: 해당 문서의 제목에서 추출된 주제어(들)1. Title Keyword: The subject (s) extracted from the title of the document.
2. 문서 주제어: 해당 문서 본문에서 추출된 주제어 중, 가장 빈번히 발현한 주제어2. Document Keyword: Among the main words extracted from the body of the document, the most frequently expressed keywords
3. 문장 주제어: 해당 문서의 각 문장에서 추출된 주제어.3. Sentence Key words: Key words extracted from each sentence of the document.
문서에서 주제어 매치는 주제어 사전에 보유하고 있는 주제어와 단어가 정확히 일치하는 값을 찾는 정확한 매칭(Exact Match)을 최우선으로 하며, 그것이 실패한 경우, 미리 설정된 방식에 따라 조금의 차이를 인정하는 유연한 매칭(Relaxed Match) 역시 시도한다. 기본적으로 주제어 사전은 해당 주제어에 대한 대부분의 변형(variation)을 보유하고 있기 때문에, 유연한 매칭(Relaxed Match)까지 시도하는 경우 추출된 주제어에 대한 신뢰도 값을 감소 시킨다. In the document, subject match is given to the subject dictionary with the exact match (Exact Match) that finds the exact match of the word and the subject word held in the dictionary, and if it fails, a flexible matching Relaxed Match. Basically, since the subject dictionary has most variations on the subject word, it reduces the confidence value for the extracted subject word when attempting a flexible matching (Relaxed Match).
도 5에서 주제어 도출은 문장 단위로 이루어지며, 각 문장에 기술된 단어 중 주제어 사전에 등재된 주제어에 매치되는 것이 있는지를 탐색하여, 주제어를 추출하고, 추출이 완료되면 해당 문장과 해당 주제어에 대한 정보를 추가할 수 있다. 이를 위하여, 서비스 장치(100)는 먼저, 분석 대상 문서에 대한 타이틀 주제어 및 문서 주제어에 대해 도출한 후, 분석 대상 문서의 각 문장에 대해 다음과 같은 절차를 수행한다. In Fig. 5, the derivation of the main word is performed on a sentence unit basis. The main word search is searched to see whether any of the words described in the main word dictionary in the sentence dictionary matches with the main word dictionary, and when the extraction is completed, Information can be added. To this end, the
서비스 장치(100)는 S510 단계에서 하나의 문장이 입력되면, S515 단계에서 입력된 문장에 주제어가 존재하는지 판단한다. S515 단계의 판단 결과, 입력된 문장에 주제어가 존재하는 경우, S520 단계로 진행하고, 입력된 문장에 주제어가 존재하지 않는 경우, S535 단계로 진행한다. If one sentence is input in step S510, the
S520 단계에서 서비스 장치(100)는 문장에 비교(비교문)가 포함되어 있는지 여부를 판단한다. 이때, 문장에 비교가 있는 경우, 서비스 장치(100)는 S525 단계로 진행하고, 그렇지 않은 경우, S530 단계로 진행한다. 문장 주제어 추출에서 문제가 되는 것은 비교가 들어가 있는 문들이다. 단순한 문장에서는 주제어가 추출이 된 경우, 해당 주제어가 그 문장을 지배하는 경우가 대부분이다. 예를 들어, “캐논 600D 는 셔터 스피드가 빠르다”라는 문장에서 “캐논 600D” 라는 상품이 문장 전체를 지배하고 있어 그 문장에서 추출된 감성 표현, “셔터스피드 빠르다”, 가 “캐논 600D”를 지칭 함이 명확하다. 하지만, “캐논 600D는 니콘 D70에 비해 셔터 스피드가 느리다”라는 문장에서는 “캐논 600D” 와 “니콘 D70”이라는 두 개의 개체가 출현하고, 더군다나, “니콘 D70”이란 개체가 출현한 감성 표현에 거리상 더 가깝다. 하지만, 실제 “셔터스피드 느리다”라는 감성은 “캐논 600D”라는 개체를 주제어로 할당 해야만 한다. 따라서, 서비스 장치(100)는 비교문을 가지는 복수의 문형을 저장하는 문법 사전으로 관리하여 문장에서 쓰이는 비교와 관련한 표현에 대해서 적절한 주제어를 최종 할당 하게 된다. 따라서, 서비스 장치(100)는 S525 단계에서 해당 문장 내에서 문법 사전 및 주제어 사전을 이용하여, 비교 관련 표현을 고려하여 주제어를 추출한다. 한편, 서비스 장치(100)는 S530 단계에서 해당 문장 내에서 주제어 사전을 이용하여 해당 문장의 주제어를 추출한다. In step S520, the
입력된 문장에 주제어가 존재하지 않는 경우, 서비스 장치(100)는 S535 단계에서 주제어를 추정할 수 있는지 판단한다. 즉, 모든 문장이 주제어를 포함하고 있지는 않기 때문에, 해당 문장에서 주제어가 추출되지 않은 경우 서비스 장치(100)는 주제어를 추정해야 한다. If the subject sentence does not exist in the input sentence, the
따라서, S535 단계의 판단 결과, 주제어 추정이 가능한 경우, 서비스 장치(100)는 S540 단계로 진행하여, 주제어를 추정하여 추정된 주제어를 주제어로 추출한다. 주제어를 추정하는 것은 우선, 근거리에서 발견되는 주제어를 탐색한다. 본 발명의 실시 예에서는 입력된 문장의 이전 3 문장까지 탐색하여, 주제어를 추정한다. Accordingly, if it is determined in step S535 that the main language estimation is possible, the
반면, S535 단계의 판단 결과, 주제어 추정이 불가능한 경우, 즉, 전술한 바에 따라 문장에서 주제어를 추출할 수 없거나, 주변 문장을 통해 주제어를 추정할 수 없는 경우, 문서 주제어 혹은, 타이틀 주제어를 주제어로 할당해야 한다. On the other hand, if it is determined in step S535 that the subject term can not be estimated, that is, if the subject term can not be extracted in the sentence according to the above description, or the subject term can not be estimated through the surrounding sentence, Should be assigned.
따라서, 서비스 장치(100)는 S545 단계에서 문서 주제어를 주제어로 할지 혹은, 타이틀 주제어를 주제어로 할지 여부를 판단한다. 그 기준은 먼저 문서 주제어를 가장 우선 순위를 둔다. 문서 주제어의 추출은 우선 해당 문서에서 주제어 추출이 진행된 문장까지의 주제어들 중에서 가장 많이 추출된 주제어를 선정한다. 하지만, 복수의 주제어들 중의 가장 많이 추출된 주제어가 전체 추출된 주제어들의 50%를 초과 하지 않는다면, 문서 주제어를 주제어로 선정하지 않는다. 왜냐하면, 단문일 수록 해당 문서의 타이틀에 위치한 주제어에 대한 내용일 확률이 높고, 문서 초반에(타이틀 포함) 주제어가 추출될 확률이 높기 때문이다. 이러한 경우, 타이틀에서 추출된 주제어가 있다면, 문서 주제어 보다 높은 우선 순위를 가지게 된다. 타이틀 주제어의 추출은 문장 주제어 추출과 같은 방식을 취하고, 다른 점이 있다면, 문장 주제어 보다 낮은 신뢰도를 가진다는 것이다. Accordingly, the
따라서, 서비스 장치(100)는 상술한 기준에 따라 S545 단계에서 문서 주제어를 주제어로 할지 혹은, 타이틀 주제어를 주제어로 할지 여부를 결정하고, 결정된 바에 따라, S550 단계에서 문서 주제어를 주제어로 추출하거나, S560 단계에서 타이틀 주제어를 주제어로 추출한다. Accordingly, the
도 6은 본 발명의 실시 예에 따른 감성 분석 중 감성 데이터를 완성하는 방법을 설명하기 위한 흐름도이며, 앞서 설명된 S430 단계를 보다 상세하게 설명하기 위한 것이다. FIG. 6 is a flow chart for explaining a method for completing emotional data during emotional analysis according to an embodiment of the present invention, and explains the step S430 described above in more detail.
앞서 설명된 바와 같이, 분석 대상 문서에서 주제어를 모두 추출하게 되면, 서비스 장치(100)는 추출된 주제어에 상응하는 감성 데이터를 완성하기 위해 문장 단위의 처리를 수행한다. 이때, 서비스 장치(100)는 감성 사전을 참조하며, 감성 사전은 해당 분석 대상 문서가 속한 카테고리 별로 로딩이 되어 해당 속성과 표현들에 대한 지식을 가지고 각 문장을 분석 하게 된다. As described above, when all the subject words are extracted from the analysis target document, the
먼저, 전처리부(110)는 S610 단계에서 분석 대상 문서에서 전처리를 수행한다. 즉, 실제 감성 분석이 들어가기 전에 전처리부(110)는 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석, 복합어 인식 등을 포함하는 전처리를 수행한다. First, in step S610, the
이러한 전처리 과정이 완료되면, 서비스 장치(100)는 S620 단계에서 각 문장에 대해 정규화(normalize)를 수행하여, 각 문장 별로 키텀을 도출한다. 여기서 정규화는 분석 대상 문서의 작성자가 표현한 그대로의 문자열을 최대한 정규화된 표현으로 재구성하여, 불필요한 정보들을 제거하고 사전 검색을 용이하게 하며, 재구성 중에 분석을 위한 단서가 되는 단서(Clue) 정보를 추가하여, 보유하고 있는 감성 사전을 효율적으로 활용하기 위하여 이루어진다. When the preprocessing process is completed, the
즉, 정규화는, 분석 대상이 되는 각 문장을 속성 및 표현만으로 이루어진 형태로 일반화하고, 나머지 정보는 단서 정보로 구성한다는 작업을 말한다. 이러한 정규화는, 1) 감성 데이터를 도출하기 위해 필요한 형태소로만 이루어진 문장으로 재구성하는 것을 기본적으로 포함하며, 선택적으로, 2) 문장에서 속성과 표현간의 관계 처리 3) 관형형의 표현 처리 4) 긍/부정값 처리하는 것 중 적어도 하나를 더 포함할 수 있다. That is, the normalization refers to a task of generalizing each sentence to be analyzed as a form of only attributes and expressions, and constituting the remaining information as clue information. This normalization basically includes 1) reconstitution into a sentence consisting of only morpheme necessary to derive emotional data, 2) selectively processing the relationship between attributes and expressions in a sentence, 3) processing the expression of a tubular type, 4) Lt; RTI ID = 0.0 > and / or < / RTI >
1) 감성 데이터를 도출하기 위해 필요한 형태소로 이루어진 문장으로 재구성1) Reconstructing sentences composed of necessary morphemes to derive emotional data
서비스 장치(100)는 앞서(S610) 형태소 분석 및 복합어 인식 등의 전처리를 거친 문장을 감성 분석 시 필요로 하는 형태소와 복합어들만으로 재구성한다. 재구성된 문장은 속성으로 사용될 수 있는 일반명사, 고유명사, 등의 체언류, 체언구와 표현으로 사용될 수 있는 형용사, 동사 등의 용언류, 용언구를 포함하며, 원형을 복원한 형태로 재구성된다. 그 외 품사들은 속성과 표현을 추출함에 있어서 단서 정보로 사용 되고 재구성되는 문장에는 포함되지 않는다. 이와 같이, 재구성된 문장을 키텀(Key Terms)이라고 정의한다. The
2) 문장에서 속성과 표현간의 관계 처리2) Handling the relationship between attributes and expressions in sentences
감성 분석부(130)는 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정한다. 속성과 표현 간에는 실제 문장에서 복잡한 관계를 가지게 된다. 예를 들어, “디자인은 훌륭하지만, 크기는 부담스럽다” 라는 문장에서 “디자인 훌륭하다”와 “크기 부담스럽다”라는 두 개의 감성 표현을 추출할 수 있다. 여기서 “디자인”이라는 속성은 “훌륭하다”라는 표현에만 그 의미가 연결되고 “부담스럽다”라는 부분은 서로 관계가 끊어져있다. 이러한 경우, 감성 분석부(130)는 단서 정보로 “지만” 이라는 연결 어미를 저장하고, 이를 활용하여 해당 문장이 두 개의 절로 분리 될 수 있다는 것을 인지하고, 뒤에 따르는 절이 종속절인지 대등절인지에 대한 분석을 한 뒤에 최종적으로 “디자인”과 “부담스럽다”와의 관계를 끊게 된다. 만약, 뒤에 따르는 절이 종속절의 형태일 때는 감성 분석부(130)는 “디자인”과 “부담스럽다”의 관계를 끊지 않는다. 예를 들어, “디자인이 훌륭하고 아름답다”와 같은 문장에서는 “디자인”이 “훌륭하다”와 “아름답다” 두 표현에 대해서 관계를 가지기 때문이다. The
3) 관형형의 표현 처리 3) Expression processing of tubular type
감성 분석부(130)는 관형형 표현을 일반형 표현으로 재구성한다. 일반형 표현으로 재구성되는 경우 해당 문장은 키텀이 될 수 있다. 본 발명의 실시 예에서 관형형 표현이란 관형형 어미를 활용하여 대상 속성을 전방에서 수식하는 형태를 말한다. 예를 들어, “디자인이 좋다”와 같이 속성 디자인을 표현 좋다가 후방에서 수식하는 형태를 일반형 표현이라고 할 때, “좋은 디자인”은 관형형 표현이라고 정의 한다. 관형형 표현의 주요한 특징은 반드시 수식을 받는 속성이 존재하며, 속성과 표현의 구역이 문장에서 독립적으로 존재한다. 또한, 모든 관형형 표현은 일반형 표현으로 재구성 할 수 있다. 다음의 표 2는 이러한 관형형 표현을 일반형 표현으로 재구성하는 정규화의 예를 설명하기 위한 것이다. The
이와 같이, 정규화 과정에서, 감성 분석부(130)는 기본적으로 관형형 서술을 모두 일반형 서술로 바꾸어서 키텀을 생성한다. 그리고, 해당 속성과 표현의 매칭 구역을 관형형 표현 내로 한정한다. In this way, in the normalization process, the
4) 긍/부정값 처리; 4) positive / negative value processing;
감성 분석부(130)는 긍정 표현 및 부정 표현을 모두 긍정 표현으로 재구성하여 키텀을 생성하고, 긍정 및 부정 표현과 강도는 긍/부정값으로 저장한다. The
본 발명의 실시 예에 따르면, 정규화에 따라 키텀을 추출하는 과정에서, 표현의 부정 표현 처리와 표현의 강도 인식도 이루어 진다. 먼저, 단순한 부정 표현(부정문) 처리에 대해서 살펴보면, 기본적으로 감성 사전에는 표현의 부정 형태를 추가 하지 않는다. 각각의 표현에 대한 부정 표현 등을 모두 지식으로 가지가 있는 것을 매우 불필요하고 비효율적이기 때문이다. 따라서, 감성 사전은 모든 지식을 가장 단순화된 긍정문(긍정 표현)의 형태로 가지고 있으되, 실제 문장에서 부정 표현을 인식하여 긍/부정값을 조정하게 된다. 예를 들어, “디자인 좋다”라는 감성 지식이 기본 긍/부정값으로 “일반 긍정”, 즉 “1”의 값을 가진다고 가정했을 때, 실제 “디자인이 좋지 않다”라는 문장은 “디자인 좋다”라는 키텀으로 재구성하고, 부정 표현 및 강도는 긍/부정값을 통해 “일반부정”, 즉 “-1”로 매핑하여 저장한다. According to the embodiment of the present invention, in the process of extracting the kittens according to the normalization, the negative expression processing of the expression and the intensity recognition of the expression are also performed. First, when we look at simple negative expressions, we do not add negative expressions to emotion dictionaries basically. It is very unnecessary and inefficient to have all kinds of expressions such as negative expressions for each expression. Therefore, the emotional dictionary has all the knowledge in the form of the most simplified affirmative sentence (affirmative expression), but recognizes the negative expressions in the actual sentence and adjusts the positive / negative value. For example, assuming that the sensibility knowledge of "good design" has a value of "general affirmative" or "1" as the basic positive / negative value, the actual "bad design" And the negative expression and the intensity are stored by being mapped to " general negative ", that is, " -1 " through positive / negative values.
본 발명에서는 이러한 기본적인 부정 표현 처리와 함께, 다중 부정, 정도 부사와 부정문의 결합에서 나타나는 감성 강도 및 긍/부정 반전 역시 처리하게 된다. 다중 부정이란 부정이 다시 한번 부정이 되어 긍정이 되는 것과 같은 현상을 말하며, “디자인이 좋지 않은 것이 아니다”와 같은 문장을 말한다. 해당 문장에서는 부정어들이 출현하고 있지만, 그 부정어들이 서로를 상쇄 시켜 다시 긍정의 표현이 되고 있다. 또한, 이러한 부정문의 형태가 정도 부사와 결합되어 극성 및 강도가 변화 하는 현상도 처리한다. 전술한 바와 같이, 감성 표현은 정도 부사에 의해서 강한 감성을 표현할 수 있다고 정의 했다. 하지만, “디자인이 아주 좋다” 와 “디자인이 아주 좋지는 않다”의 해석은 달라 질 수 있다. 첫 번째 문장은 “디자인 좋다”의 “강한 긍정” 이 되지만, 두 번째 문장은 “약한 긍정” 즉, “디자인이 약간 좋다”라고 해석 될 수 있다. 또한, “디자인이 아주 안 좋은 것은 아니다”이 문장에서 “아주” 라는 정도 부사를 제외 하고 해석 하면, “디자인이 좋다”로 해석이 되지만 “아주”를 포함하여 해석을 하면, “디자인이 약간 나쁘다”, 즉 “약한 부정”으로 해석이 된다. 이러한 모든 경우에서, 감성 분석부(130)는 "디자인이 좋다"라는 키텀과 긍/부정값을 이용하여 재구성하여, 이때, 긍/부정값은 단서 정보가 된다. In the present invention, in addition to the basic negative expressive processing, the emotional intensity and positive / negative reversal appearing in the combination of multiple negation, degree adverb and negation are also handled. Multiple negation refers to a phenomenon in which negation becomes negative again and becomes affirmative, and it is a sentence such as "design is not bad". Negative words appear in the sentence, but these negative words cancel each other and become positive expressions again. In addition, this type of negation is combined with the degree adverb to deal with the change of polarity and intensity. As described above, the emotional expression is defined to be able to express strong emotion by degree adverb. However, the interpretation of "the design is very good" and "the design is not very good" can be changed. The first sentence becomes "strong positive" of "good design", but the second sentence can be interpreted as "weak positive", that is, "design is slightly better". In addition, "design is not very bad" in this sentence, "very" except for adverbs, except interpretation, "good design" is interpreted, but "very" including the interpretation, "the design is a little bad "Or" weak denial ". In all of these cases, the
상술한 바와 같이 정규화가 완료되면, 서비스 장치(100)는 S630 단계에서 "양태 분석"을 수행하여, 감성 분석을 수행할 수 없는 문장을 걸러낸다. When normalization is completed as described above, the
본 발명에서 정의하는 “양태 분석”을 시행 한다. 본 발명의 실시 예에서, 양태란, 분석 대상 문장, 혹은 절 등이 가정, 기대, 비교, 의문, 혹은 분석 대상 제외 형태 등인지를 말하며, 해당 타입에 따라 추출 된 키텀을 다시 재구성 하도록 하고 있다. 예를 들어, “디자인이 개선되면 좋을텐데…” 라는 문장은 본 시스템에서 “기대” 양태의 패턴으로 인식이 되고, 추출된 키텀인 “디자인 개선되다” 가 최종 키텀 리스트에서 삭제 처리가 된다. 이러한 양태에 대한 정보는 패턴화 하여 양태분석 사전으로 관리가 된다. &Quot; Analysis of Modes " defined in the present invention is carried out. In the embodiment of the present invention, the mode refers to whether the analysis target sentence, clause, or the like is assumed, expected, compared, questioned, or exempted from the analysis target, and the extracted keyword is reconfigured according to the type. For example, "It would be nice if the design improved ... Quot; is recognized in the system as a pattern of the " expectation " aspect, and the extracted keystore, " improved design " The information on this aspect is patterned and managed in a manner analysis dictionary.
다음으로, 감성 분석부(130)는 S640 단계에서 감성 사전 및 키텀을 이용하되, 문장 단위로 탐색하여 각 문장에 대해 속성 및 표현을 추출한다. 즉, 감성 분석부(130)는 먼저, 문장 내에서 해당 카테고리의 감성 사전에 등재된 속성들 중 매칭되는 속성을 추출한다. 그런 다음, 감성 분석부(130)는 해당 카테고리의 감성 사전에서 추출된 속성에 대한 표현들 중 매칭되는 매칭되는 표현을 추출한다. 또한, 감성 분석부(130)는 모든 탐색의 매치의 정확도에 따라 그 신뢰도 값을 반영하게 되어 있다. 키텀을 추출 하는 과정에서, 불필요한 정보들은 제거하고, 단서 정보도 따로 저장하였기 때문에, 특정 거리 이상으로 속성과 표현이 떨어져 있다면, 그들 사이에 관계를 끊을 만한 노이즈가 존재했을 가능성이 높다. 따라서, 감성 분석부(130)는 속성에 대한 표현을 추출할 때, 속성과 표현이 미리 설정된 거리 이상인 경우, 해당 속성에 대한 표현으로 추출하지 않는다. 예컨대, 속성과 표현의 매치에 있어 최대 5 토큰(token)의 거리 제약을 둘 수 있다. Next, in step S640, the
한편, 속성 및 표현의 추출 중 속성이 없고 표현만 있는 형태의 경우, 이를 본 발명에서는 “널(NULL) 속성 표현”이라고 정의한다. On the other hand, in the case of a form in which there is no attribute and extracting only attributes and expressions, it is defined as " null attribute expression " in the present invention.
감성 분석부(130)는 “널(NULL) 속성 표현”의 경우, 표현의 전방에 표현에 대응하는 속성이 존재여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출할 수 있다. In the case of the " NULL attribute expression ", the
기본적으로 감성이나 의견을 표현을 함에 있어 대상에 대한 특정 속성을 지칭하면서 작성을 하는 것이 일반적이지만, 대상에 대한 총평이나, 혹은, 굳이 속성을 언급하지 않아도 암묵적으로 속성이 드러나는 표현이 존재한다. 예를 들면, “완전 좋아요~” 와 같은 문장에서는 속성은 존재 하지 않지만, 특정 대상에 대한 의견을 말하고 있으며, 대상에 대한 총평과 같은 의견을 포함하고 있다. 또한, “이 제품은 비싸네요” 와 같이 “비싸다”는 암묵적으로 “가격” 이라는 속성을 포함 하는 표현이지만, 표면적으로 속성을 언급하지 않고 있다. 이러한 엔트리들은 감성 지식에서 “널(NULL) 속성 표현”으로 관리된다. 감성 분석부(130)는 감성 분석에서 속성 탐색이 실패하는 경우에 한하여 탐색을 진행 하게 된다. 탐색은 일반적인 표현 탐색과 동일하게 하지만, 제약 조건을 두고 있다. 탐색이 성공한 표현 전방에 속성이나 표현의 대상이 완벽하게 없어야만 추출을 하게 된다. 예를 들어, 카메라 리뷰 문서에서 “날씨가 상당히 좋네요” 라는 문장에서 “좋다”는 “날씨를 대상으로 하는 것이지만, “날씨”가 카메라 카테고리의 감성 지식에 존재 하지 않기 때문에 NULL 속성 표현인 “좋다”가 탐색 성공이 될 것이기 때문이다. Basically, in expressing emotion or opinion, it is common to make a specific attribute referring to an object, but there is a general evaluation of the object or an expression in which the attribute is implicitly expressed without mentioning the attribute. For example, in a sentence such as "FULLY GOOD", the attribute does not exist, but it expresses the opinion on the specific object and includes the comment such as the general comment on the object. Also, the expression "expensive" such as "this product is expensive" implicitly includes a property called "price", but does not refer to the property on the surface. These entries are managed as " null attribute representations " in emotion knowledge. The
다음으로, 감성 분석부(130)는 S650 단계에서 속성 및 표현이 추출된 문장에 대해 주제어, 속성, 표현 및 긍/부정값을 포함하는 감성 데이터를 출력한다. 이때, 긍/부정값은 정규화시 도출된 긍/부정값을 이용할 수 있다. Next, in step S650, the
본 발명에 따른 감성 분석을 위한 방법은, 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The method for emotional analysis according to the present invention may be implemented in a form of software readable by various computer means and recorded in a computer-readable recording medium. Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a recording medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Includes a hardware device that is specially configured to store and execute program instructions such as a magneto-optical medium such as a floppy disk and a ROM, a random access memory (RAM), a flash memory, do. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으나, 여기에 개시된 실시 예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art. Furthermore, although specific terms are used in this specification and the drawings, they are used in a generic sense only to facilitate the description of the invention and to facilitate understanding of the invention, and are not intended to limit the scope of the invention.
본 발명은 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법에 관한 것으로, 이러한 본 발명은, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 분석 대상 문서로부터 각 문장에 대해 선택된 카테고리에 상응하는 주제어들을 추출하는 주제어 추출부 및 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 속성이 될 수 있는 품사 및 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함하는 감성 분석을 위한 장치와 이에 따른 방법을 제공한다. 이러한 본 발명에 따르면, 카테고리 분류 체계를 활용하여 문서의 타입과 주제에 따른 정교한 감성 분석 결과를 기대할 수 있다. 감성/의견 정보의 대상인 주제어를 정교하게 매핑하는 기술로 인해 작성자의 작성의도와 감성/의견의 정도를 대상과 연계하여 정확하게 파악할 수 있다. 종래에 많은 부분을 지식에 의존하던 언어의 다양한 현상들을 정규화 과정을 통해 알고리즘화 함으로서, 지식 관리의 효율과 편의성을 높이고, 시스템의 성능을 향상시킬 수 있다. 이는 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다. The present invention relates to an apparatus and method for emotion analysis based on a hierarchical category, and a method for the same. The present invention relates to an apparatus and method for emotion analysis based on a hierarchical category, wherein a plurality of categories have a hierarchical structure of a tree structure, To extract the emotion data including the main word indicating the nature or the nature of the main word, the expression indicating the evaluation of the attribute of the main word, and the positive / negative value indicating the affirmation and the negation and the strength of the expression, A main word extracting unit for extracting main words corresponding to the selected category for each sentence from the sentence, and normalizing each sentence including the extracted main word to reconstruct a sentence consisting of only parts of speech that can be attributed in each sentence and parts of speech that can be expressed , Derives the attribute from the reconstructed sentence, An emotional analysis unit for deriving a corresponding expression, and an apparatus for emotional analysis. According to the present invention, it is possible to expect a sophisticated emotional analysis result according to the type and subject of a document by using a category classification system. It is possible to accurately grasp the degree of author's writing and emotion / opinion in connection with the object because of the technique of elaborately mapping the subject word which is the subject of emotion / opinion information. Algorithmization of the various phenomena of language which conventionally relied on a large amount of knowledge in the normalization process can improve the efficiency and convenience of knowledge management and enhance the performance of the system. This is not only a possibility of commercialization or sales, but also a possibility of being industrially applicable since it is practically possible to carry out clearly.
100: 서비스 장치 101: 통신부
102: 입력부 103: 저장부
104: 표시부 105: 제어부
110: 전처리부 120: 주제어 추출부
130: 감성 분석부100: service apparatus 101: communication unit
102: input unit 103: storage unit
104: Display unit 105:
110: preprocessing unit 120: main word extracting unit
130: Emotion analysis section
Claims (12)
상기 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 상기 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 상기 재구성된 문장으로부터 상기 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부;를 포함하는 것을 특징으로 하는 감성 분석을 위한 장치. A plurality of categories having a hierarchical structure of a tree structure, and each of the plurality of categories has a hierarchical structure of a plurality of categories, wherein the keywords include a main word indicating an object, an attribute indicating a nature or a property of the main word, A main word extracting unit for extracting emotional data including positive / negative values indicating affirmation and denial of expressions and strengths, and subject terms corresponding to the selected category for each sentence from an analysis target document;
Wherein each sentence including the extracted main word is normalized to reconstruct a phrase consisting of part-of-speech that can be the attribute and parts-of-speech that can be the expression in each sentence, deriving the attribute from the reconstructed sentence, And an emotion analyzing unit for deriving a representation corresponding to the attribute.
상기 감성 분석부는
상기 정규화시, 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The emotional analysis unit
Wherein the expression of each sentence is reconstructed as an affirmative expression at the time of normalization, and the positive and negative states and strengths of the expression are extracted and stored as a positive / negative value.
상기 감성 분석부는
상기 정규화시, 각 문장에서 관형형 어미를 활용하여 속성을 전방에서 수식하는 형태를 가지는 관형형 표현이 있는 경우, 속성을 후방에서 수식하는 형태를 가지는 일반형 표현으로 재구성하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The emotional analysis unit
Wherein, in the normalization, when there is a tubular expression having a form of modifying an attribute in front by using a tubular ending in each sentence, the attribute is rearranged into a general expression having a form of rearward modifying .
상기 감성 분석부는
상기 정규화시, 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The emotional analysis unit
Wherein the relationship between the attribute of the main clause and the expression of the subordinate clause is set to be connected or disconnected according to the relation between the main clause and the subordinate clause at the time of the normalization.
상기 감성 분석부는
표현의 전방에 표현에 대응하는 속성이 존재 여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The emotional analysis unit
Determining whether or not an attribute corresponding to the expression exists in front of the expression, and deriving an attribute from the expression when the attribute corresponding to the expression does not exist.
상기 주제어 추출부는
상기 선택된 카테고리에 상응하는 주제어들을 포함하는 주제어 사전을 참조하여 상기 분석 대상 문서에서 각 문장의 주제어를 추출하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The main word extracting unit
Wherein the main word of each sentence is extracted from the analysis target document by referring to a main word dictionary including main words corresponding to the selected category.
상기 주제어 추출부는
문장에 비교문이 있는 경우, 비교문을 가지는 복수의 문형을 저장하는 문법 사전을 참조하여, 주제어를 추출하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The main word extracting unit
Wherein a grammar dictionary storing a plurality of sentence patterns having a comparative sentence is referred to when a sentence has a comparative sentence, and the main word is extracted.
상기 주제어 추출부는
상기 분석 대상 문서에서 어느 하나의 문장에서 주제어를 탐색할 수 없는 경우,
상기 하나의 문장의 이전 문장에서 주제어를 추정하고,
주제어를 추정할 수 없는 경우,
상기 분석 대상 문서의 타이틀에 관련된 타이틀 주제어, 문서 전체의 주제에 관련된 문서 주제어 중 어느 하나를 상기 하나의 문장의 주제어로 할당하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
The main word extracting unit
If the subject term can not be searched in any sentence in the analysis target document,
Estimating a subject word in a previous sentence of the one sentence,
If the subject word can not be estimated,
Wherein one of the title key words related to the title of the document to be analyzed and the document key words related to the subject of the entire document is assigned as a key word of the one sentence.
상기 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석 및 복합어 인식 중 하나 이상을 포함하는 전처리를 수행하는 전처리부를 더 포함하는 것을 특징으로 하는 감성 분석을 위한 장치. The method according to claim 1,
Further comprising a preprocessor for performing preprocessing including at least one of sentence separation, spacing correction, morpheme analysis, and compound word recognition for each sentence of the analysis target document.
상기 분석 대상 문서의 각 문장에 대해 상기 카테고리에 상응하는 주제어들을 추출하는 단계;
상기 추출된 주제어를 포함하는 각 문장에서 상기 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하는 정규화를 수행하는 단계; 및
상기 재구성된 문장으로부터 상기 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 단계;
를 포함하는 것을 특징으로 하는 감성 분석을 위한 방법. A plurality of categories having a hierarchical structure of a tree structure, and each of the plurality of categories has a hierarchical structure of a plurality of categories, wherein the keywords include a main word indicating an object, an attribute indicating a nature or a property of the main word, Collecting analysis target documents corresponding to the selected category to extract emotional data including positive / negative values indicating affirmation and denial of expression and intensity;
Extracting subject terms corresponding to the category for each sentence of the analysis target document;
Performing normalization in each sentence including the extracted main word to reconstruct the sentence consisting of only parts of speech that can be the attribute and part of speech that can be the expression; And
Deriving the attribute from the reconstructed sentence and deriving a representation corresponding to the derived attribute;
The method comprising the steps of:
상기 정규화를 수행하는 단계는
각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 하는 감성 분석을 위한 방법. 11. The method of claim 10,
The step of performing the normalization comprises:
Wherein the expression of each sentence is reconstructed as an affirmative expression, and positive and negative indications and strengths of the expressions are extracted and stored as positive / negative values.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120122000A KR20140056715A (en) | 2012-10-31 | 2012-10-31 | An apparatus for opinion mining based on hierarchical categories and a method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120122000A KR20140056715A (en) | 2012-10-31 | 2012-10-31 | An apparatus for opinion mining based on hierarchical categories and a method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140056715A true KR20140056715A (en) | 2014-05-12 |
Family
ID=50887802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120122000A KR20140056715A (en) | 2012-10-31 | 2012-10-31 | An apparatus for opinion mining based on hierarchical categories and a method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20140056715A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951408A (en) * | 2017-03-17 | 2017-07-14 | 国信优易数据有限公司 | A kind of data digging method |
KR20200103168A (en) * | 2019-02-12 | 2020-09-02 | 주식회사 자이냅스 | An apparatus for learning documents |
CN112966074A (en) * | 2021-05-17 | 2021-06-15 | 华南师范大学 | Emotion analysis method and device, electronic equipment and storage medium |
-
2012
- 2012-10-31 KR KR1020120122000A patent/KR20140056715A/en not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951408A (en) * | 2017-03-17 | 2017-07-14 | 国信优易数据有限公司 | A kind of data digging method |
KR20200103168A (en) * | 2019-02-12 | 2020-09-02 | 주식회사 자이냅스 | An apparatus for learning documents |
CN112966074A (en) * | 2021-05-17 | 2021-06-15 | 华南师范大学 | Emotion analysis method and device, electronic equipment and storage medium |
CN112966074B (en) * | 2021-05-17 | 2021-08-03 | 华南师范大学 | Emotion analysis method and device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106537370B (en) | Method and system for robust tagging of named entities in the presence of source and translation errors | |
RU2686000C1 (en) | Retrieval of information objects using a combination of classifiers analyzing local and non-local signs | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
Sigletos et al. | Combining Information Extraction Systems Using Voting and Stacked Generalization. | |
Al-Kabi et al. | An opinion analysis tool for colloquial and standard Arabic | |
Bellaachia et al. | Ne-rank: A novel graph-based keyphrase extraction in twitter | |
US8645184B2 (en) | Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service | |
KR101136007B1 (en) | System and method for anaylyzing document sentiment | |
Linhares Pontes et al. | Impact of OCR quality on named entity linking | |
US20150112664A1 (en) | System and method for generating a tractable semantic network for a concept | |
TW200842614A (en) | Automatic disambiguation based on a reference resource | |
US9355372B2 (en) | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus | |
EP2635965A1 (en) | Systems and methods regarding keyword extraction | |
AU2014285073B9 (en) | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus | |
US8326833B2 (en) | Implementing metadata extraction of artifacts from associated collaborative discussions | |
Das et al. | Temporal analysis of sentiment events–a visual realization and tracking | |
Qian et al. | Detecting new Chinese words from massive domain texts with word embedding | |
Wang et al. | Toc-rwg: Explore the combination of topic model and citation information for automatic related work generation | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
González et al. | Siamese hierarchical attention networks for extractive summarization | |
CN114970516A (en) | Data enhancement method and device, storage medium and electronic equipment | |
US11816162B2 (en) | Methods and systems for search query language identification | |
KR20140056715A (en) | An apparatus for opinion mining based on hierarchical categories and a method thereof | |
Mishra et al. | VisualTextRank: Unsupervised Graph-based Content Extraction for Automating Ad Text to Image Search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |