KR20140056715A - An apparatus for opinion mining based on hierarchical categories and a method thereof - Google Patents

An apparatus for opinion mining based on hierarchical categories and a method thereof Download PDF

Info

Publication number
KR20140056715A
KR20140056715A KR1020120122000A KR20120122000A KR20140056715A KR 20140056715 A KR20140056715 A KR 20140056715A KR 1020120122000 A KR1020120122000 A KR 1020120122000A KR 20120122000 A KR20120122000 A KR 20120122000A KR 20140056715 A KR20140056715 A KR 20140056715A
Authority
KR
South Korea
Prior art keywords
sentence
expression
attribute
main word
emotional
Prior art date
Application number
KR1020120122000A
Other languages
Korean (ko)
Inventor
신동훈
이준섭
홍금원
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020120122000A priority Critical patent/KR20140056715A/en
Publication of KR20140056715A publication Critical patent/KR20140056715A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to an apparatus for sentiment analysis based on hierarchical categories and a method therefore, including collecting analysis target documents corresponding to a selected category in order to extract sensibility data including keywords representing a target, attributes representing character or property of the keywords, expression representing evaluation for the attributes of the keywords and positive/negative values representing whether the expression is positive or negative and intensity of the expression according to a selected category from among a plurality of categories having a hierarchical tree structure; extracting keywords corresponding to the category for each sentence of the analysis target document; performing normalization that each sentence including the extracted keywords is reconstructed with a sentence including parts of speech to form the attributes and parts of speech to form the expression; and deriving the attributes from the reconstructed sentence and deriving expression corresponding to the derived attributes.

Description

계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법{An apparatus for opinion mining based on hierarchical categories and a method thereof} [0001] APPARATUS FOR EMISSION ANALYSIS BASED ON HIERARCHICAL CATEGORY AND METHOD FOR THE SAME [0002]

본 발명은 감성 분석을 위한 기술에 관한 것으로, 보다 상세하게는 계층적 카테고리를 기초로 하여 감성 분석을 수행하기 위한 장치 및 이를 위한 방법에 관한 것이다. The present invention relates to a technique for emotional analysis, and more particularly, to an apparatus and method for performing emotional analysis based on a hierarchical category.

기계 학습 기술은 자연언어 처리의 다양한 분야에 적용되어 왔으며 그 성능이 검증되어 실제 다양한 상용 시스템에 적용되어 왔다. 하지만, 기계 학습 자체의 가장 치명적인 약점인 기계 학습을 위한 학습 셋을 구축 하기 위한 시간적/금전적 비용이 크고, 학습 셋의 질과 양에 성능이 의존되는 문제가 있다. 또한, 해당 분야에서 활발하게 연구가 진행중인 영어와 같은 언어에 대한 학습 셋에 비해 한국어와 같은 언어는 실제 상용시스템에 적용할 수준의 학습 셋이 구축되어 있지 않아 기술 연구 수준의 시스템에 한하여 적용되고 있는 수준이다. 더군다나, 감성/의견 추출 분야에 대한 연구 기간이 상대적으로 길지 않아 해당 리소스는 더욱 부족하다고 할 수 있다. Machine learning technology has been applied to various fields of natural language processing and its performance has been verified and applied to various real commercial systems. However, there is a problem that the time / monetary cost for constructing a learning set for machine learning, which is the most fatal weak point of the machine learning itself, is large, and the performance depends on the quality and amount of the learning set. In addition, compared with learning sets for languages such as English, which are actively under research in the field, language such as Korean is applied only to systems of technology research level because there is no built-in learning set that can be applied to actual commercial systems Level. Moreover, the research period for the emotion / opinion extraction field is relatively long, so the resources are not enough.

지식/규칙 기반의 감성/의견 추출은 현재까지 많은 상용 감성/의견 추출 시스템에서 채택하고 있는 기법으로, 기계 학습을 위한 학습 셋 구축을 위한 시간적/비용적 단점을 극복할 수 있으며, 시스템의 성능을 지식 및 규칙에 의하여 상대적으로 컨트롤 하기 용이하다. 하지만, 자연언어에서 감성/의견 표현의 다양성을 모두 규칙화 하는 것은 불가능하며, 모든 다양성에 대하여 지식을 구축하고 관리하는 것 또한 많은 비용을 필요로 하며 시스템의 정확도 향상에는 한계가 있다. 따라서, 기존의 감성/의견 추출 시스템은 주로 문서에서 발현하는 표현부 위주의 분석을 통한 문서 전체의 감성/의견 긍/부정 분류에 집중하고 있다. Knowledge / rule-based emotion / opinion extraction is a technique that has been adopted in many commercial emotion / opinion extraction systems so far. It can overcome the shortcoming of time / cost for building learning set for machine learning, It is relatively easy to control by knowledge and rules. However, it is impossible to regularize all kinds of emotions / expressions in natural language, and building and managing knowledge about all kinds of diversity also requires a lot of cost, and there is a limit to improving the accuracy of the system. Therefore, the existing emotion / opinion extraction system mainly focuses on emotion / opinion positive / negative classification of the entire document through the analysis of the expression part focused on the document.

상술한 바와 같은 점을 고려한 본 발명의 목적은 카테고리 기반 감성 지식 체계를 이용하여 감성 분석을 수행할 수 있는 장치 및 이를 위한 방법을 제공함에 있다. It is an object of the present invention to provide an apparatus and method for performing emotional analysis using a category-based emotional knowledge system.

또한, 본 발명의 다른 목적은, 감성 분석을 수행하기 전, 분석 대상 문서의 각 문장에 대해 전처리 및 정규화 등을 수행함으로써, 감성 분석의 정확도를 높일 수 있는 장치 및 이를 위한 방법을 제공함에 있다. Another object of the present invention is to provide an apparatus and method for enhancing the accuracy of emotional analysis by performing preprocessing and normalization on each sentence of a document to be analyzed before emotional analysis is performed.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 감성 분석을 위한 장치는, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 분석 대상 문서로부터 각 문장에 대해 선택된 카테고리에 상응하는 주제어들을 추출하는 주제어 추출부 및 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 속성이 될 수 있는 품사 및 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함한다. According to another aspect of the present invention, there is provided an apparatus for emotional analysis, the apparatus comprising: a plurality of categories having a hierarchical structure of a tree structure; An emotional data including an attribute indicating the nature or the nature of the main word, an expression indicating an evaluation of the attribute of the main word, and a positive / negative value indicating affirmation and denial and strength of the expression, A main word extracting unit for extracting main words corresponding to the selected category for each selected sentence, and normalizing each sentence including the extracted main word to reconstruct a sentence consisting of only parts of speech that can be attributes in each sentence and parts of speech that can be expressed, Derive an attribute from the sentence, and use the expression corresponding to the derived attribute And an emotional analysis unit for deriving emotional analysis.

감성 분석부는 정규화시, 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 한다. The emotion analyzing unit reconstructs the expression of each sentence in the positive expression at the time of normalization, and extracts affirmation and negation and intensity of the expression and stores it as positive / negative value.

감성 분석부는 정규화시, 각 문장에서 관형형 어미를 활용하여 속성을 전방에서 수식하는 형태를 가지는 관형형 표현이 있는 경우, 속성을 후방에서 수식하는 형태를 가지는 일반형 표현으로 재구성하는 것을 특징으로 한다. The emotion analyzing unit is characterized in that, when normalizing, in the case where there is a tubular expression having a form in which the attribute is forwardly modified by utilizing a tubular ending in each sentence, the emotion analyzing unit reconstructs the attribute into a general expression having a form of rearward modification.

감성 분석부는 정규화시, 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정하는 것을 특징으로 한다. The emotional analysis unit is characterized in that, at normalization, the relation between the attribute of the main clause and the expression of the subordinate clause is connected or disconnected according to the relationship between the main clause and the subordinate clause.

감성 분석부는 표현의 전방에 표현에 대응하는 속성이 존재 여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출하는 것을 특징으로 한다. The emotional analysis unit judges whether or not there is an attribute corresponding to the expression in front of the expression, and when there is no attribute corresponding to the expression, the emotional analysis unit derives the attribute from the expression.

주제어 추출부는 선택된 카테고리에 상응하는 주제어들을 포함하는 주제어 사전을 참조하여 상기 분석 대상 문서에서 각 문장의 주제어를 추출하는 것을 특징으로 한다. And the main word extracting unit extracts a main word of each sentence from the analysis target document by referring to a main word dictionary including main words corresponding to the selected category.

주제어 추출부는 문장에 비교문이 있는 경우, 비교문을 가지는 복수의 문형을 저장하는 문법 사전을 참조하여, 주제어를 추출하는 것을 특징으로 한다. The main word extracting unit extracts a main word by referring to a grammar dictionary storing a plurality of sentence patterns having a comparative sentence in a case where there is a comparative sentence in the sentence.

주제어 추출부는 분석 대상 문서에서 어느 하나의 문장에서 주제어를 탐색할 수 없는 경우, 하나의 문장의 이전 문장에서 주제어를 추정하고, 주제어를 추정할 수 없는 경우, 상기 분석 대상 문서의 타이틀에 관련된 타이틀 주제어, 문서 전체의 주제에 관련된 문서 주제어 중 어느 하나를 하나의 문장의 주제어로 할당하는 것을 특징으로 한다. The main word extracting unit estimates a main word in a previous sentence of one sentence when the main word can not be searched in any one sentence in the analysis target document and if the main word can not be estimated, And assigning one of the document subject terms related to the subject of the entire document as a subject word of one sentence.

상기 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석 및 복합어 인식을 포함하는 전처리를 수행하는 전처리부를 더 포함한다. And a preprocessor for performing preprocessing including sentence separation, spacing correction, morpheme analysis, and compound word recognition for each sentence of the analysis target document.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 감성 분석을 위한 방법은, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 상기 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 선택된 카테고리에 상응하는 분석 대상 문서를 수집하는 단계와, 분석 대상 문서의 각 문장에 대해 상기 카테고리에 상응하는 주제어들을 추출하는 단계와, 추출된 주제어를 포함하는 각 문장에서 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하는 정규화를 수행하는 단계 및 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함한다. According to an aspect of the present invention, there is provided a method for emotional analysis, the method comprising: a plurality of categories having a hierarchical structure of a tree structure; An expression representing an evaluation of the attribute of the main word and a positive / negative value representing the affirmation and the negation and strength of the expression, and an analysis corresponding to the selected category Extracting subject words corresponding to the category for each sentence of the document to be analyzed, extracting part of speech that can be attributed in each sentence including the extracted subject word, A step of performing normalization that reconstructs a sentence composed of only parts of speech and a step of reconstructing And a sentence analysis unit for deriving an attribute from the sentence and deriving a representation corresponding to the derived attribute.

정규화를 수행하는 단계는 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 한다. The step of performing the normalization is characterized by reconstructing the expression of each sentence as an affirmative expression, extracting affirmation and negation and intensity of the expression, and storing it as positive / negative values.

상술한 본 발명에 따르면, 카테고리 분류 체계를 활용하여 문서의 타입과 주제에 따른 정교한 감성 분석 결과를 기대할 수 있다. 감성/의견 정보의 대상인 주제어를 정교하게 매핑하는 기술로 인해 작성자의 작성의도와 감성/의견의 정도를 대상과 연계하여 정확하게 파악할 수 있다. 종래에 많은 부분을 지식에 의존하던 언어의 다양한 현상들을 정규화 과정을 통해 알고리즘화 함으로서, 지식 관리의 효율과 편의성을 높이고, 시스템의 성능을 향상시킬 수 있다. According to the present invention, it is possible to expect a sophisticated emotional analysis result according to the type and subject of a document by using the category classification system. It is possible to accurately grasp the degree of author's writing and emotion / opinion in connection with the object because of the technique of elaborately mapping the subject word which is the subject of emotion / opinion information. Algorithmization of the various phenomena of language which conventionally relied on a large amount of knowledge in the normalization process can improve the efficiency and convenience of knowledge management and enhance the performance of the system.

도 1은 본 발명의 실시 예에 따른 감성 사전의 카테고리의 트리 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 실시 예에 따른 감성 분석을 위한 장치를 설명하기 위한 도면이다.
도 3은 도 1의 서비스 장치(100)의 제어부(105)의 기능별 세부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 감성 분석을 위한 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시 예에 따른 감성 분석 중 주제어를 추출하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 감성 분석 중 감성 데이터를 완성하는 방법을 설명하기 위한 흐름도이다.
FIG. 1 is a diagram for explaining a tree structure of categories in an emotion dictionary according to an embodiment of the present invention.
2 is a diagram for explaining an apparatus for emotional analysis according to an embodiment of the present invention.
FIG. 3 is a diagram for explaining the detailed configuration of functions of the control unit 105 of the service apparatus 100 of FIG.
4 is a flowchart illustrating a method for emotional analysis according to an embodiment of the present invention.
FIG. 5 is a flowchart for explaining a method of extracting main words during emotional analysis according to an embodiment of the present invention.
6 is a flowchart illustrating a method for completing emotional data in emotional analysis according to an embodiment of the present invention.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description and the accompanying drawings, detailed description of well-known functions or constructions that may obscure the subject matter of the present invention will be omitted. It should be noted that the same constituent elements are denoted by the same reference numerals as possible throughout the drawings.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. The terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary meanings and the inventor is not limited to the meaning of the terms in order to describe his invention in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are merely the most preferred embodiments of the present invention and are not intended to represent all of the technical ideas of the present invention, so that various equivalents It should be understood that water and variations may be present.

본 발명의 실시 예에 따른 "감성 분석"은 분석 대상 문서의 주어진 텍스트에서 텍스트의 작성자가 표현한 감성 및 의견 표현의 존재를 인식하고 해당 표현이 긍정적인 내용인 지 부정적인 내용인지를 분석하며, 분석된 감성/의견 표현의 대상을 텍스트 내에서 탐지하여 해당하는 대상과 감성/의견 표현의 쌍을 제공하는 기능을 말한다. 예를 들어, “삼성 PAVV 7000은 디자인은 훌륭하지만, 화질은 떨어진다” 라는 텍스트가 주어졌을 때 “디자인이 훌륭하다”, “화질이 떨어진다” 라는 작성자의 감성/의견 정보를 추출하고, “디자인이 훌륭하다”는 긍정적인 의견, “화질이 떨어진다”는 부정적인 의견임을 분석하게 된다. 또한, 해당 감성/의견 정보들이 “삼성 PAVV 7000”에 대한 내용임을 최종적으로 판단하고 그 결과를 출력한다. "Emotional analysis" according to the embodiment of the present invention recognizes the existence of emotion and opinion expression expressed by the creator of the text in a given text of the analysis target document, analyzes whether the corresponding expression is positive or negative, It is a function to detect the object of emotion / opinion expression in text and to provide a pair of emotion / opinion expression with corresponding object. For example, when the text "Samsung PAVV 7000 is good in design, but the picture quality is poor" is given, the emotion / opinion information of the author "the design is excellent" and "the image quality is low" Good ", and" poor quality "is a negative opinion. In addition, it finally judges that the sensitivity / opinion information is about "Samsung PAVV 7000" and outputs the result.

주어진 예시를 기반으로 감성 분석 시 추출되는 요소들을 본 발명에서는 다음과 같이 정의 한다. Based on the given examples, the elements extracted in the emotion analysis are defined as follows in the present invention.

예컨대, 분석 대상 문서에서 “삼성 PAVV 7000은 디자인은 훌륭하지만, 화질은 떨어진다”와 같은 문장이 있다고 가정하면, 감성/의견 정보로 “디자인 훌륭하다 (긍정)”, “화질 떨어진다 (부정)”를 얻을 수 있으며, 감성 분석 시 추출되는 요소들은 다음의 <표 1>과 같다. For example, suppose that there is a sentence such as "Samsung PAVV 7000 is good in design, but picture quality is poor" in the document to be analyzed. "Design is excellent" (positive) The factors extracted from the emotional analysis are shown in Table 1 below.

구성요소Component 내용Contents 예문example 주제어
(Object)
Keyword
(Object)
감성 분석의 대상Subject of emotional analysis “삼성 PAVV 7000”"Samsung PAVV 7000"
속성
(Feature)
property
(Feature)
감성 분석에서 표현의 대상Target of Expression in Emotional Analysis “디자인”,“화질”"Design", "Quality"
표현
(Expression)
expression
(Expression)
속성에 대한 긍정 혹은
부정적인 평가 혹은 의견
Affirmative or negative
Negative ratings or opinions
“훌륭하다,“떨어진다”"It's amazing," "
긍/부정값
(Polarity)
Positive / negative value
(Polarity)
표현의 긍정 또는 부정 여부 및 그 강도를 나타내는 값Whether the expression is affirmative or not and its value 강한 부정: -2
약한 부정: -1
약한 긍정: 1
강한 긍정: 2
Strong negative: -2
Weak negation: -1
Weak affirmation: 1
Strong affirmation: 2

<표 1>에 보인 바와 같이, 감성 분석 시 추출되는 요소들은, 주제어, 속성, 표현 및 긍/부정값이며, 본 발명에서 이 요소들을 "감성 데이터"라고 칭하기로 한다. 주제어는 감성 표현의 대상이며, 속성은 주제어의 성격, 성질, 특징 등을 나타내며, 표현의 대상이 된다. 표현은 주제어의 속성에 대한 긍정 또는 부정의 의견 평가 등을 나타낸다. 긍/부정값은 표현이 긍정인지 부정인지 여부와 그 강도를 나타내는 값이다. <표 1>에서 긍/부정값은 -2에서 +2까지의 정수형으로 표현된다. 음수는 부정을 나타내고 양수는 긍정을 나타내며 절대값의 크기는 긍/부정의 강도를 나타낸다. 여기서 말하는 긍/부정의 강도란, 감성/의견 표현의 강도를 말하는 것으로서, 본 발명에서는 “일반감성”과 “강한감성”으로 구분하는 것으로 정의한다. "일반감성"이란 감성/의견을 표현하는 일반적인 표현의 형태로서, “훌륭하다”, “떨어진다”, “좋다”, “나쁘다” 와 같은 기본적인 형태이다. “강한감성” 이란 긍/부정을 표현함에 있어 작성자가 긍/부정에 대한 감성을 더욱 강조하기 위한 표현들을 말한다. “강한감성”을 표현하기 위한 방법은 크게 두 종류로 나뉘어 질 수 있으며 첫 번째는 정도/강도 부사를 이용하여 표현 하는 방법이다, 예를 들어, “디자인이 마음에 들다” 라는 감성/의견 정보가 있다고 할 때, “디자인이 정말 마음에 들다” 혹은 “디자인이 진짜 마음에 들다” 와 같이 정도/강도 부사를 추가하여 강한 감성을 나타낼 수 있다. 다른 방법으로는 표현 자체가 강한 감성을 표현하는 경우도 있다. 예를 들어, “좋다” 라는 감성을 표현함에 있어 “짱이다”, “최고다”등의 표현을 강한 감성의 표현이라고 볼 수 있다. As shown in Table 1, the elements extracted in the emotional analysis are the main word, attribute, expression, and positive / negative values, and these elements will be referred to as "emotional data" in the present invention. The main word is the object of emotional expression, and the attribute indicates the character, nature, and characteristics of the main word, and is the object of expression. Expression represents the evaluation of positive or negative opinion on the attributes of the main word. The positive / negative value is a value indicating whether the expression is affirmative or negative and its intensity. In Table 1, the positive / negative value is expressed as an integer between -2 and +2. Negative numbers indicate negative, positive numbers indicate positive, and magnitude of absolute value indicates positive / negative intensity. The intensity of positive / negative as used herein refers to the intensity of emotion / opinion expression. In the present invention, it is defined as distinguishing between "general emotion" and "strong emotion". "General emotion" is a form of general expression that expresses emotion / opinion and is a basic form such as "good", "decline", "good", "bad". "Strong emotions" refers to expressions that emphasize the emotion of positive / negative in the expression of positive / negative. The method for expressing "strong emotion" can be divided into two kinds, and the first is a method of expressing using degree / intensity adverbs. For example, "emotion / opinion information" I can express strong emotions by adding degree / intensity adverbs such as "I really like the design" or "I really like the design". In other ways, expressions themselves express strong emotions. For example, in expressing the feeling of "good", expressions such as "excellent" and "greatest" are expressions of strong emotion.

본 발명의 실시 예에 따른 감성 분석을 위한 장치는 감성/의견 구성 요소를 위와 같이 정의하고 정의된 구성 요소들의 집합을 추출한다. 본 발명에서 감성분석 시스템의 지식은 사전에 의해서 관리 되며, 이를 감성 사전이라 한다. 감성 사전은 앞서 정의한 속성과 표현, 그리고 속성과 표현 쌍에 해당하는 긍/부정값을 가지고 있다. 이러한 감성 사전은 미리 정해진 카테고리 별로 독립적으로 구축이 된다. 감성 사전의 구축에 있어 카테고리 별로 구축이 되어야 하는 이유는 각 카테고리가 포함하고 있는 주제어 군이 가지는 속성들의 집합이 다르기 때문이다. 예를 들어, “셔터 스피드”라는 속성은 “카메라”제품 집합에서는 통용되는 속성이지만, “냉장고”, “기저귀”등과 같은 제품 집합에서는 존재하지 않는 개념이다. 이러한 속성들을 카테고리의 구분 없이 사용하게 되면 오류를 유발 할 뿐 아니라, 감성 사전의 관리 역시 효율적이지 못하게 되며, 곧 감성 분석 시스템의 성능 저하를 가져 오게 된다. The apparatus for emotional analysis according to the embodiment of the present invention defines the emotional / opinion component as above and extracts a defined set of components. In the present invention, the knowledge of the emotional analysis system is managed by a dictionary, which is called an emotional dictionary. The emotion dictionary has positive / negative values corresponding to the attribute, expression, and attribute / expression pair defined above. These emotion dictionaries are constructed independently for each predetermined category. The construction of emotional dictionaries should be done by category because the set of attributes of the subject language group included in each category is different. For example, the attribute "shutter speed" is a commonly used attribute in the "camera" product set, but it does not exist in product sets such as "refrigerator", "diaper", and the like. Using these attributes without category identification will cause errors and management of emotional dictionaries will become inefficient, which will lead to performance degradation of emotional analysis system.

감성 사전의 카테고리는 트리(Tree) 구조이며, 복수의 레벨을 가진다. 도 1은 본 발명의 실시 예에 따른 감성 사전의 카테고리의 트리 구조를 설명하기 위한 도면이다. The category of the emotion dictionary is a tree structure and has a plurality of levels. FIG. 1 is a diagram for explaining a tree structure of categories in an emotion dictionary according to an embodiment of the present invention.

도시된 바와 같이, 예시적인 감성 사전의 카테고리는 3 뎁스(3-depth)의 트리 구조로 구성하였다. 본 발명의 실시 예에 따르면, 최상위 카테고리를 도메인이라고 칭하며, “인물”, “장소”, “제품” 의 3개의 도메인을 가진다. 도메인 이하의 카테고리의 구조는 부모 노드(상위 카테고리)의 특성에 따라 세부 분류로 나뉘어 지고 최하위 카테고리는 해당 도메인에서 가장 세분화된 개체군으로 이루어진다. 도 1은 “제품”도메인에 대한 감성 카테고리 구조의 예를 보인다. As shown, the category of the exemplary emotion dictionary is composed of a tree structure of 3-depth (3-depth). According to the embodiment of the present invention, the top category is called a domain, and has three domains of "person", "place", and "product". The structure of the categories below the domain is divided into the detailed classification according to the characteristics of the parent node (upper category), and the lowest category consists of the most detailed population in the domain. Figure 1 shows an example of an emotion category structure for the &quot; product &quot; domain.

각 카테고리는 독립적으로 속성과 표현의 엔트리로 구성되어 있지만, 유사한 카테고리 간에는 공통적으로 사용되는 엔트리 역시 존재 하기 때문이다. 예를 들어, 동일한 레벨의 카테고리에 “DSLR 카메라”와 “캠코더” 있다고 가정할 때, “DSLR 카메라”와 “캠코더” 카테고리는 모두 “액정”이라는 속성을 공통으로 가질 수 있다. 이러한 경우 속성 "액정"을 각 카테고리 별로 관리하게 되면 감성 데이터의 양이 불필요하게 많아지게 되며, 해당 속성에 대한 표현들 역시 따로 관리해야 되는 등, 효율이 떨어지게 된다. 이러한 경우, 본 발명의 실시 예에 따르면, 각 카테고리가 가지는 공통의 감성 데이터를 상위 카테고리에 통합하여 관리 하게 되며, 실제 감성 분석을 하는 시점에서는 해당 카테고리가 속하는 상위 카테고리의 감성 데이터를 상속하여 사용할 수 있다. Each category consists of entries of attributes and expressions independently, but there are also commonly used entries between similar categories. For example, assuming that "DSLR camera" and "camcorder" exist in the same level category, both the "DSLR camera" and "camcorder" categories can have a common property of "liquid crystal". In this case, if the attribute "liquid crystal" is managed for each category, the amount of emotional data becomes unnecessarily large, and the expressions for the attribute are also managed separately. In this case, according to the embodiment of the present invention, common emotion data belonging to each category is integrated and managed in the upper category. In actual emotion analysis, the emotion data of the upper category to which the category belongs can be inherited have.

정리하면, 본 발명의 실시 예에 따른 감성 분석은 트리 구조의 카테고리로 분류된 감성 사전에 각 카테고리 별로 주제어, 속성, 표현, 및 긍부정도를 포함하는 감성 데이터를 등록하는 과정이라고 할 수 있다. 그러면, 이러한 감성 분석을 위한 장치 및 방법에 대해서 설명하기로 한다. In summary, the emotional analysis according to the embodiment of the present invention can be regarded as a process of registering emotional data including a main word, attribute, expression, and degree of a certainty for each category in a sentence dictionary classified into a category of a tree structure. An apparatus and method for such sensitivity analysis will be described below.

도 2는 본 발명의 실시 예에 따른 감성 분석을 위한 장치를 설명하기 위한 도면이다. 2 is a diagram for explaining an apparatus for emotional analysis according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 장치, 즉, 서비스 장치(100)는 네트워크에 연결된 네트워크의 일 엔티티로 존재하거나, 네트워크에 접속하여 네트워크 상에 존재하는 다른 엔티티와 통신할 수 있다. 서비스 장치(100)는 네트워크에 존재하는 적어도 하나의 다른 엔티티로부터 데이터를 수집하여 감성 지식을 구축한다. 대표적으로, 다른 엔티티는 웹 서버를 예시할 수 있다. Referring to FIG. 1, an apparatus for constructing emotional knowledge according to an embodiment of the present invention, that is, a service apparatus 100 may exist as an entity of a network connected to a network, It can communicate with entities. The service device 100 builds emotional knowledge by collecting data from at least one other entity present in the network. Typically, another entity may illustrate a web server.

이를 위하여, 서비스 장치(100)는 통신부(101), 입력부(102), 저장부(103), 표시부(104) 및 제어부(105)를 포함한다. To this end, the service apparatus 100 includes a communication unit 101, an input unit 102, a storage unit 103, a display unit 104, and a control unit 105.

통신부(101)는 네트워크에 접속하여, 다른 엔티티들과 통신하기 위한 장치이며, 이러한 통신부(101)는 네트워크의 종류 및 네트워크에 적용된 프로토콜에 따라서 데이터를 처리하는 기능을 더 포함할 수 있다. 예컨대, 통신부(101)는 웹 서버와 통신하여 웹 문서 등의 분석 대상 문서를 수신할 수 있다. The communication unit 101 is a device for connecting to a network and communicating with other entities. The communication unit 101 may further include a function of processing data according to the type of the network and the protocol applied to the network. For example, the communication unit 101 can communicate with a web server and receive an analysis target document such as a web document.

입력부(103)는 서비스 장치(100) 사용자의 명령, 선택, 데이터, 정보 중에서 적어도 하나를 입력 받기 위한 수단으로서, 숫자 또는 문자 정보를 입력 받고 다양한 기능을 설정하기 위한 다수의 입력키 및 기능키를 포함할 수 있다. 그리고 입력부(101)는 사용자의 키 입력을 감지하여, 감지된 키 입력에 따른 입력 신호를 제어부(150)로 전달한다. 입력부(101)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 등을 예시할 수 있다. The input unit 103 is a means for receiving at least one of commands, selections, data, and information of a user of the service apparatus 100. The input unit 103 includes a plurality of input keys and function keys for inputting numeric or character information and setting various functions . The input unit 101 senses a key input of the user and transmits an input signal corresponding to the sensed key input to the controller 150. The input unit 101 may be an input device such as a keyboard, a keypad, a mouse, a joystick, and the like.

저장부(103)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조기억 장치를 포함한다. 이러한 저장부(103)는 운영 체제(OS, Operation System), 어플리케이션 등을 저장할 수 있다. 저장부(103)는 서비스 장치(100)가 수집하고, 생성하는 각 종 데이터를 저장할 수 있다. 예를 들면, 저장부(103)는 카테고리에 상응하는 주제어들을 포함하는 주제어 사전, 카테고리에 상응하는 속성, 표현, 긍/부정값 등이 저장된 감성 사전, 비교문을 가지는 복수의 문형을 저장하는 문법 사전, 등을 저장할 수 있다. 저장부(103)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다. The storage unit 103 is an apparatus for storing data, and includes a main storage device and an auxiliary storage device. The storage unit 103 may store an operating system (OS), applications, and the like. The storage unit 103 may store each species data that the service apparatus 100 collects and generates. For example, the storage unit 103 may store a keyword dictionary containing main words corresponding to categories, an emotion dictionary storing attributes, expressions, positive / negative values, etc. corresponding to the categories, a grammar dictionary , And so on. Each kind of data stored in the storage unit 103 can be deleted, changed, or added according to a user's operation.

표시부(104)는 서비스 장치(100)의 사용에 따라 발생되는 정보를 사용자가 인지할 수 있도록 표시하기 위한 것이다. 이러한 정보는 분석 대상 문서, 주제어, 속성, 표현, 긍/부정값, 키텀 등을 포함할 수 있다. The display unit 104 is for displaying information generated according to use of the service apparatus 100 so that the user can recognize the information. Such information may include a document to be analyzed, a keyword, an attribute, an expression, a positive / negative value, a keyword, and the like.

제어부(105)는 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 방법을 수행하기 위해 필요한 동작을 수행하며, 이를 위하여, 필요한 경우, 통신부(101), 입력부(102), 저장부(103) 및 표시부(104)를 제어할 수 있다. 이를 위하여, 제어부(105)는 실제로 본 발명의 실시 예에 따른 감성 지식을 구축하기 위한 방법을 수행하도록 하기 위한 복수의 모듈을 포함할 수 있다. 이러한 모듈은 하드웨어 또는 소프트웨어로 구성될 수 있다. The control unit 105 performs necessary operations to perform the method for building sensibility knowledge according to the embodiment of the present invention and may include a communication unit 101, an input unit 102, a storage unit 103, And the display unit 104 can be controlled. To this end, the control unit 105 may include a plurality of modules for realizing a method for building sensibility knowledge according to an embodiment of the present invention. Such a module may be composed of hardware or software.

제어부(105)는 운영 체제를 구동시키는 프로세스 장치가 될 수 있다. 예컨대, 제어부(105)는 중앙처리장치(CPU, Central Processing Unit)가 될 수 있다. 제어부(105)는 운영 체제를 저장부(103)의 보조 기억 장치로부터 주 기억장치로 이동시킨 후, 운영 체제를 구동하는 부팅(booting)을 수행한다. 그리고, 제어부(105)는 본 발명의 실시 예에 따른 감성 분석을 수행하기 위해 필요한 필요한 어플리케이션을 구동시킬 수 있다. The control unit 105 may be a processing apparatus that drives an operating system. For example, the control unit 105 may be a central processing unit (CPU). The control unit 105 moves the operating system from the auxiliary storage unit of the storage unit 103 to the main storage unit and then performs booting to drive the operating system. In addition, the control unit 105 can drive necessary applications necessary for performing emotional analysis according to an embodiment of the present invention.

도 3은 도 1의 서비스 장치(100)의 제어부(105)의 기능별 세부 구성을 설명하기 위한 도면이다. FIG. 3 is a diagram for explaining the detailed configuration of functions of the control unit 105 of the service apparatus 100 of FIG.

도 2를 참조하면, 제어부(105)는 전처리부(110), 주제어추출분(120) 및 감성 분석부(130)를 포함한다. Referring to FIG. 2, the control unit 105 includes a preprocessing unit 110, a main language extraction unit 120, and an emotion analysis unit 130.

전처리부(110)는 주제어 추출 전 혹은 속성, 표현 등의 추출 이전에, 그 대상이 되는 분석 대상 문서에 대해 전처리를 수행한다. 이러한 전처리는 문장 분리, 띄어쓰기 교정, 형태소 분석, 복합어 인식, 등을 포함하며, 전처리부(110)는 전처리가 완료되면 문장 단위로 전처리된 문장을 출력한다. The preprocessing unit 110 preprocesses the analysis target document before subject word extraction or before extraction of attributes, expressions, and the like. Such preprocessing includes sentence separation, spacing correction, morpheme analysis, compound word recognition, and the like, and the preprocessing unit 110 outputs a preprocessed sentence in units of sentences when the preprocessing is completed.

주제어추출분(120)는 전처리된 문장 각각에 대한 주제어를 추출하기 위한 것이다. 주제어 추출부(120)는 타이틀 주제어, 문서 주제어, 문장 주제어 중 적어도 하나를 주제어로 추출할 수 있다. The main word extractor 120 extracts the main word for each of the preprocessed sentences. The main word extracting unit 120 may extract at least one of a title main word, a document main word, and a sentence main word as a main word.

감성 분석부(130)는 주제어 추출부(120)가 추출한 주제어에 대응하는 속성, 표현 및 긍/부정값을 추출하고, 주제어, 속성, 표현 및 긍/부정값을 포함하는 감성 데이터를 출력하기 위한 것이다. The emotion analyzing unit 130 extracts attributes, expressions, and positive / negative values corresponding to the main word extracted by the main word extracting unit 120, and outputs emotional data including the main word, attribute, expression, and positive / negative values will be.

도 4는 본 발명의 실시 예에 따른 감성 분석을 위한 방법을 설명하기 위한 흐름도이다. 4 is a flowchart illustrating a method for emotional analysis according to an embodiment of the present invention.

감성 분석 장치(100)는 S410 단계에서 분석 대상 문서를 수집한다. 분석 대상 문서의 수집은 감성 분석이 수행될 카테고리에 따라 결정될 수 있다. 예컨대, 감성 분석이 수행될 카테고리가 "카메라"라면, 해당하는 웹 사이트로부터 분석 대상 문서를 수집할 수 있다. The sensitivity analysis apparatus 100 collects the document to be analyzed in step S410. The collection of documents to be analyzed may be determined by the category in which the emotional analysis is to be performed. For example, if the category in which emotional analysis is to be performed is "camera ", the analysis target document can be collected from the corresponding website.

다음으로, 감성 분석 장치(100)는 S420 단계에서 상기 분석 대상 문서에서 문장 단위로 주제어를 추출한다. 이때, 감성 분석 장치(100)는 주제어 사전을 참조하여, 주제어를 추출할 수 있다. Next, in step S420, the emotion analyzing apparatus 100 extracts a main language word for each sentence in the analysis target document. At this time, the emotion analyzing apparatus 100 can extract the main word referring to the main word dictionary.

이어서, 감성 분석 장치(100)는 S430 단계에서 상기 추출된 주제어에 대응하는 속성, 표현, 및 긍/부정값을 추출하여 감성 데이터를 도출한다. Then, in step S430, the emotional analysis apparatus 100 extracts attributes, expressions, and positive / negative values corresponding to the extracted main word to derive emotional data.

그러면, 보다 상세히 상술한 주제어를 추출하는 단계와 속성 및 표현을 추출하여 감성 데이터를 도출하는 단계에서 대해서 살펴보기로 한다. Hereinafter, a description will be given of a step of extracting the above-mentioned main words and a step of extracting emotional data by extracting attributes and expressions.

도 5는 본 발명의 실시 예에 따른 감성 분석 중 주제어를 추출하는 방법을 설명하기 위한 흐름도이며, 앞서 설명된 S420 단계를 보다 상세하게 설명하기 위한 것이다. FIG. 5 is a flowchart for explaining a method of extracting a main word in emotional analysis according to an embodiment of the present invention, and explains the step S420 described above in more detail.

주제어는 주제어 사전에 의하여 관리 되며, 주제어 사전은 감성 사전과 마찬가지로 미리 정해진 카테고리 분류 체계에 따라 관리 된다. 이러한 본 발명의 실시 예와 같이, 일반적인 개체명에 대한 사전이 모든 엔트리들을 일괄 관리 하지 않고 세분화 된 카테고리 별로 관리 하게 되면, 주제어간 중의성과 카테고리에 해당하는 문서에 대하여 정교한 분석이 가능 하게 된다. The main words are managed by the main dictionary, and the main dictionary is managed according to the predetermined category classification system like the emotional dictionary. As in the embodiment of the present invention, if a dictionary for general object names is managed for each subdivided category without managing all the entries collectively, it is possible to perform a sophisticated analysis on the documents corresponding to the performance categories among the subject words.

주제어 추출은 기본적으로 다음과 같은 가정을 가지고 있다. Keyword extraction basically has the following assumptions.

1. 감성/의견을 가진 문서는 그것의 대상이 되는 주제어를 반드시 가지고 있다.1. The emotional / opinional document must have the subject language to which it relates.

2. 감성/의견을 가진 문서는 복수의 주제어가 나타날 수 있다.2. A document with emotion / opinion may have multiple keywords.

3. 문서에서 주제어는 혹은 주제어들은 그것이 지배하는 영역을 가지고 있다.3. In the document, subject words or subject words have areas that they control.

감성 분석은 주제어에 대한 의견, 평판 등을 제공하는 것임으로, 1 번 가정이 반드시 필요하며, 그렇지 않은 경우, 감성 분석을 제공할 수 없음으로, 모든 감성 표현의 대상인 주제어가 반드시 존재해야만 한다. 특히, 3 번 가정의 경우 본 발명에서는 단순하게 주제어만을 추출하지 않고, 추출된 주제어가 해당 문서에서 지배하는 구역까지 인식하여, 후에 감성 표현이 추출할 때, 해당 감성 표현의 대상을 정확히 매핑하는 근거가 된다. 주제어 추출 시, 다음의 3가지 종류의 주제어 추출 타입을 가지게 된다. Since emotional analysis provides opinions, reputation, etc. on the subject, it is essential that the first assumption is made. Otherwise, the emotional analysis can not be provided. In particular, in the case of the assumption No. 3, in the present invention, only the main word is extracted, and the extracted main word is recognized to the region governed by the document, and when the emotion expression is extracted later, . When extracting the main words, we have the following three types of main word extraction types.

1. 타이틀 주제어: 해당 문서의 제목에서 추출된 주제어(들)1. Title Keyword: The subject (s) extracted from the title of the document.

2. 문서 주제어: 해당 문서 본문에서 추출된 주제어 중, 가장 빈번히 발현한 주제어2. Document Keyword: Among the main words extracted from the body of the document, the most frequently expressed keywords

3. 문장 주제어: 해당 문서의 각 문장에서 추출된 주제어.3. Sentence Key words: Key words extracted from each sentence of the document.

문서에서 주제어 매치는 주제어 사전에 보유하고 있는 주제어와 단어가 정확히 일치하는 값을 찾는 정확한 매칭(Exact Match)을 최우선으로 하며, 그것이 실패한 경우, 미리 설정된 방식에 따라 조금의 차이를 인정하는 유연한 매칭(Relaxed Match) 역시 시도한다. 기본적으로 주제어 사전은 해당 주제어에 대한 대부분의 변형(variation)을 보유하고 있기 때문에, 유연한 매칭(Relaxed Match)까지 시도하는 경우 추출된 주제어에 대한 신뢰도 값을 감소 시킨다. In the document, subject match is given to the subject dictionary with the exact match (Exact Match) that finds the exact match of the word and the subject word held in the dictionary, and if it fails, a flexible matching Relaxed Match. Basically, since the subject dictionary has most variations on the subject word, it reduces the confidence value for the extracted subject word when attempting a flexible matching (Relaxed Match).

도 5에서 주제어 도출은 문장 단위로 이루어지며, 각 문장에 기술된 단어 중 주제어 사전에 등재된 주제어에 매치되는 것이 있는지를 탐색하여, 주제어를 추출하고, 추출이 완료되면 해당 문장과 해당 주제어에 대한 정보를 추가할 수 있다. 이를 위하여, 서비스 장치(100)는 먼저, 분석 대상 문서에 대한 타이틀 주제어 및 문서 주제어에 대해 도출한 후, 분석 대상 문서의 각 문장에 대해 다음과 같은 절차를 수행한다. In Fig. 5, the derivation of the main word is performed on a sentence unit basis. The main word search is searched to see whether any of the words described in the main word dictionary in the sentence dictionary matches with the main word dictionary, and when the extraction is completed, Information can be added. To this end, the service apparatus 100 first derives a title main word and a document main word for an analysis target document, and then performs the following procedure for each sentence of the analysis target document.

서비스 장치(100)는 S510 단계에서 하나의 문장이 입력되면, S515 단계에서 입력된 문장에 주제어가 존재하는지 판단한다. S515 단계의 판단 결과, 입력된 문장에 주제어가 존재하는 경우, S520 단계로 진행하고, 입력된 문장에 주제어가 존재하지 않는 경우, S535 단계로 진행한다. If one sentence is input in step S510, the service apparatus 100 determines whether a main word exists in the sentence input in step S515. If it is determined in step S515 that the main word exists in the inputted sentence, the process proceeds to step S520, and if the main word does not exist in the inputted sentence, the process proceeds to step S535.

S520 단계에서 서비스 장치(100)는 문장에 비교(비교문)가 포함되어 있는지 여부를 판단한다. 이때, 문장에 비교가 있는 경우, 서비스 장치(100)는 S525 단계로 진행하고, 그렇지 않은 경우, S530 단계로 진행한다. 문장 주제어 추출에서 문제가 되는 것은 비교가 들어가 있는 문들이다. 단순한 문장에서는 주제어가 추출이 된 경우, 해당 주제어가 그 문장을 지배하는 경우가 대부분이다. 예를 들어, “캐논 600D 는 셔터 스피드가 빠르다”라는 문장에서 “캐논 600D” 라는 상품이 문장 전체를 지배하고 있어 그 문장에서 추출된 감성 표현, “셔터스피드 빠르다”, 가 “캐논 600D”를 지칭 함이 명확하다. 하지만, “캐논 600D는 니콘 D70에 비해 셔터 스피드가 느리다”라는 문장에서는 “캐논 600D” 와 “니콘 D70”이라는 두 개의 개체가 출현하고, 더군다나, “니콘 D70”이란 개체가 출현한 감성 표현에 거리상 더 가깝다. 하지만, 실제 “셔터스피드 느리다”라는 감성은 “캐논 600D”라는 개체를 주제어로 할당 해야만 한다. 따라서, 서비스 장치(100)는 비교문을 가지는 복수의 문형을 저장하는 문법 사전으로 관리하여 문장에서 쓰이는 비교와 관련한 표현에 대해서 적절한 주제어를 최종 할당 하게 된다. 따라서, 서비스 장치(100)는 S525 단계에서 해당 문장 내에서 문법 사전 및 주제어 사전을 이용하여, 비교 관련 표현을 고려하여 주제어를 추출한다. 한편, 서비스 장치(100)는 S530 단계에서 해당 문장 내에서 주제어 사전을 이용하여 해당 문장의 주제어를 추출한다. In step S520, the service device 100 determines whether a comparison (comparison) is included in the sentence. At this time, if there is a comparison in the sentence, the service apparatus 100 proceeds to step S525, and if not, proceeds to step S530. The problem with sentence subject word extraction is the comparison. In simple sentences, when a subject word is extracted, the subject word dominates the sentence in most cases. For example, in the sentence "Canon 600D has a faster shutter speed", a product called "Canon 600D" dominates the entire sentence, and the emotion expression extracted from that sentence, "Shutter speed fast", refers to "Canon 600D" This is clear. However, the sentence "The Canon 600D has a slower shutter speed than the Nikon D70" has two objects, the "Canon 600D" and the "Nikon D70", and moreover, the "Nikon D70" It is closer. However, the actual "shutter speed slow" sensibility must be assigned to the subject "Canon 600D". Accordingly, the service apparatus 100 manages the plurality of sentence patterns having the comparative sentence as a grammar dictionary for storing the sentence patterns, and finally assigns proper keywords to expressions related to the comparison used in the sentence. Accordingly, in step S525, the service apparatus 100 extracts the keyword using the grammar dictionary and the keyword dictionary in the corresponding sentence, considering the comparison related expressions. On the other hand, in step S530, the service device 100 extracts the main word of the sentence using the main word dictionary in the corresponding sentence.

입력된 문장에 주제어가 존재하지 않는 경우, 서비스 장치(100)는 S535 단계에서 주제어를 추정할 수 있는지 판단한다. 즉, 모든 문장이 주제어를 포함하고 있지는 않기 때문에, 해당 문장에서 주제어가 추출되지 않은 경우 서비스 장치(100)는 주제어를 추정해야 한다. If the subject sentence does not exist in the input sentence, the service apparatus 100 determines whether the main word can be estimated in step S535. That is, since all the sentences do not include the subject word, when the subject word is not extracted in the sentence, the service apparatus 100 must estimate the subject word.

따라서, S535 단계의 판단 결과, 주제어 추정이 가능한 경우, 서비스 장치(100)는 S540 단계로 진행하여, 주제어를 추정하여 추정된 주제어를 주제어로 추출한다. 주제어를 추정하는 것은 우선, 근거리에서 발견되는 주제어를 탐색한다. 본 발명의 실시 예에서는 입력된 문장의 이전 3 문장까지 탐색하여, 주제어를 추정한다. Accordingly, if it is determined in step S535 that the main language estimation is possible, the service device 100 proceeds to step S540 so as to extract the main word estimated by the main word estimation, as the main word. In order to estimate the main word, first, it searches the main word found in the near. In the embodiment of the present invention, the main word is searched by searching up to the previous three sentences of the inputted sentence.

반면, S535 단계의 판단 결과, 주제어 추정이 불가능한 경우, 즉, 전술한 바에 따라 문장에서 주제어를 추출할 수 없거나, 주변 문장을 통해 주제어를 추정할 수 없는 경우, 문서 주제어 혹은, 타이틀 주제어를 주제어로 할당해야 한다. On the other hand, if it is determined in step S535 that the subject term can not be estimated, that is, if the subject term can not be extracted in the sentence according to the above description, or the subject term can not be estimated through the surrounding sentence, Should be assigned.

따라서, 서비스 장치(100)는 S545 단계에서 문서 주제어를 주제어로 할지 혹은, 타이틀 주제어를 주제어로 할지 여부를 판단한다. 그 기준은 먼저 문서 주제어를 가장 우선 순위를 둔다. 문서 주제어의 추출은 우선 해당 문서에서 주제어 추출이 진행된 문장까지의 주제어들 중에서 가장 많이 추출된 주제어를 선정한다. 하지만, 복수의 주제어들 중의 가장 많이 추출된 주제어가 전체 추출된 주제어들의 50%를 초과 하지 않는다면, 문서 주제어를 주제어로 선정하지 않는다. 왜냐하면, 단문일 수록 해당 문서의 타이틀에 위치한 주제어에 대한 내용일 확률이 높고, 문서 초반에(타이틀 포함) 주제어가 추출될 확률이 높기 때문이다. 이러한 경우, 타이틀에서 추출된 주제어가 있다면, 문서 주제어 보다 높은 우선 순위를 가지게 된다. 타이틀 주제어의 추출은 문장 주제어 추출과 같은 방식을 취하고, 다른 점이 있다면, 문장 주제어 보다 낮은 신뢰도를 가진다는 것이다. Accordingly, the service apparatus 100 determines whether the document main language is the main language or the title main language is the main language in step S545. The criterion first places the document subject word as the highest priority. To extract the document subject words, the most frequently extracted subject words are selected from the subject words from the document to the sentences in which the subject word extraction is performed. However, if the most frequently extracted main word among multiple subject words does not exceed 50% of the extracted main words, the main word of the document is not selected as the main word. This is because the shorter the number of short sentences, the more likely it is to find the main word in the title of the document and the higher the probability that the main word (including the title) will be extracted at the beginning of the document. In this case, if there is a subject word extracted from the title, it has a higher priority than the document subject word. The extraction of the title main word takes the same way as the extraction of the sentence main word, and if there are differences, it has lower reliability than the sentence main word.

따라서, 서비스 장치(100)는 상술한 기준에 따라 S545 단계에서 문서 주제어를 주제어로 할지 혹은, 타이틀 주제어를 주제어로 할지 여부를 결정하고, 결정된 바에 따라, S550 단계에서 문서 주제어를 주제어로 추출하거나, S560 단계에서 타이틀 주제어를 주제어로 추출한다. Accordingly, the service apparatus 100 determines whether to use the document main language as a main language or the title main language as a main language in step S545 according to the above-described criteria, extracts the document main language as a main language in step S550, In step S560, the title main word is extracted as a main word.

도 6은 본 발명의 실시 예에 따른 감성 분석 중 감성 데이터를 완성하는 방법을 설명하기 위한 흐름도이며, 앞서 설명된 S430 단계를 보다 상세하게 설명하기 위한 것이다. FIG. 6 is a flow chart for explaining a method for completing emotional data during emotional analysis according to an embodiment of the present invention, and explains the step S430 described above in more detail.

앞서 설명된 바와 같이, 분석 대상 문서에서 주제어를 모두 추출하게 되면, 서비스 장치(100)는 추출된 주제어에 상응하는 감성 데이터를 완성하기 위해 문장 단위의 처리를 수행한다. 이때, 서비스 장치(100)는 감성 사전을 참조하며, 감성 사전은 해당 분석 대상 문서가 속한 카테고리 별로 로딩이 되어 해당 속성과 표현들에 대한 지식을 가지고 각 문장을 분석 하게 된다. As described above, when all the subject words are extracted from the analysis target document, the service apparatus 100 performs processing on a sentence unit basis to complete the emotion data corresponding to the extracted main word. At this time, the service apparatus 100 refers to the emotion dictionary, and the emotion dictionary is loaded according to the category to which the analysis subject document belongs, and analyzes each sentence with knowledge of the attributes and expressions.

먼저, 전처리부(110)는 S610 단계에서 분석 대상 문서에서 전처리를 수행한다. 즉, 실제 감성 분석이 들어가기 전에 전처리부(110)는 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석, 복합어 인식 등을 포함하는 전처리를 수행한다. First, in step S610, the preprocessing unit 110 performs preprocessing on the document to be analyzed. That is, before the actual emotional analysis is entered, the preprocessing unit 110 performs preprocessing including sentence separation, spacing correction, morphological analysis, compound word recognition, and the like for each sentence of the analysis target document.

이러한 전처리 과정이 완료되면, 서비스 장치(100)는 S620 단계에서 각 문장에 대해 정규화(normalize)를 수행하여, 각 문장 별로 키텀을 도출한다. 여기서 정규화는 분석 대상 문서의 작성자가 표현한 그대로의 문자열을 최대한 정규화된 표현으로 재구성하여, 불필요한 정보들을 제거하고 사전 검색을 용이하게 하며, 재구성 중에 분석을 위한 단서가 되는 단서(Clue) 정보를 추가하여, 보유하고 있는 감성 사전을 효율적으로 활용하기 위하여 이루어진다. When the preprocessing process is completed, the service apparatus 100 normalizes each sentence in step S620, and derives a keyword for each sentence. In this case, the normalization reconstructs the string as it is expressed by the creator of the document to be analyzed as the normalized expression as much as possible, removes unnecessary information, facilitates the advance search, and adds clue information as clues for analysis during reconstruction , And to utilize the emotional dictionary which is possessed efficiently.

즉, 정규화는, 분석 대상이 되는 각 문장을 속성 및 표현만으로 이루어진 형태로 일반화하고, 나머지 정보는 단서 정보로 구성한다는 작업을 말한다. 이러한 정규화는, 1) 감성 데이터를 도출하기 위해 필요한 형태소로만 이루어진 문장으로 재구성하는 것을 기본적으로 포함하며, 선택적으로, 2) 문장에서 속성과 표현간의 관계 처리 3) 관형형의 표현 처리 4) 긍/부정값 처리하는 것 중 적어도 하나를 더 포함할 수 있다. That is, the normalization refers to a task of generalizing each sentence to be analyzed as a form of only attributes and expressions, and constituting the remaining information as clue information. This normalization basically includes 1) reconstitution into a sentence consisting of only morpheme necessary to derive emotional data, 2) selectively processing the relationship between attributes and expressions in a sentence, 3) processing the expression of a tubular type, 4) Lt; RTI ID = 0.0 &gt; and / or &lt; / RTI &gt;

1) 감성 데이터를 도출하기 위해 필요한 형태소로 이루어진 문장으로 재구성1) Reconstructing sentences composed of necessary morphemes to derive emotional data

서비스 장치(100)는 앞서(S610) 형태소 분석 및 복합어 인식 등의 전처리를 거친 문장을 감성 분석 시 필요로 하는 형태소와 복합어들만으로 재구성한다. 재구성된 문장은 속성으로 사용될 수 있는 일반명사, 고유명사, 등의 체언류, 체언구와 표현으로 사용될 수 있는 형용사, 동사 등의 용언류, 용언구를 포함하며, 원형을 복원한 형태로 재구성된다. 그 외 품사들은 속성과 표현을 추출함에 있어서 단서 정보로 사용 되고 재구성되는 문장에는 포함되지 않는다. 이와 같이, 재구성된 문장을 키텀(Key Terms)이라고 정의한다. The service apparatus 100 reconstructs the sentences that have been subjected to the preprocessing such as morpheme analysis and compound word recognition (S610) by only morphemes and compound words required for emotional analysis. The reconstructed sentence is reconstructed into a restored form including a general noun which can be used as an attribute, a genitive term such as a proper noun, an adjective which can be used as a cognitive phrase and an expression, a verb such as a verb, and a verb phrase. Other parts of speech are used as clue information in extracting attributes and expressions and are not included in the reconstructed sentence. Thus, the reconstructed sentence is defined as a key term.

2) 문장에서 속성과 표현간의 관계 처리2) Handling the relationship between attributes and expressions in sentences

감성 분석부(130)는 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정한다. 속성과 표현 간에는 실제 문장에서 복잡한 관계를 가지게 된다. 예를 들어, “디자인은 훌륭하지만, 크기는 부담스럽다” 라는 문장에서 “디자인 훌륭하다”와 “크기 부담스럽다”라는 두 개의 감성 표현을 추출할 수 있다. 여기서 “디자인”이라는 속성은 “훌륭하다”라는 표현에만 그 의미가 연결되고 “부담스럽다”라는 부분은 서로 관계가 끊어져있다. 이러한 경우, 감성 분석부(130)는 단서 정보로 “지만” 이라는 연결 어미를 저장하고, 이를 활용하여 해당 문장이 두 개의 절로 분리 될 수 있다는 것을 인지하고, 뒤에 따르는 절이 종속절인지 대등절인지에 대한 분석을 한 뒤에 최종적으로 “디자인”과 “부담스럽다”와의 관계를 끊게 된다. 만약, 뒤에 따르는 절이 종속절의 형태일 때는 감성 분석부(130)는 “디자인”과 “부담스럽다”의 관계를 끊지 않는다. 예를 들어, “디자인이 훌륭하고 아름답다”와 같은 문장에서는 “디자인”이 “훌륭하다”와 “아름답다” 두 표현에 대해서 관계를 가지기 때문이다. The emotional analysis unit 130 sets the relation between the attribute of the main clause and the expression of the subordinate clause to be connected or disconnected according to the relationship between the main clause and the dependent clause. There is a complex relationship between attributes and expressions in actual sentences. For example, you can extract two expressions of emotion: "Design is great" and "Size is burdensome" in the sentence "The design is great, but the size is burdensome". Here, the attribute "design" is connected only to the expression "good", and the "burden" part is disconnected. In this case, the emotional analysis unit 130 stores the connection term "but" as the clue information, recognizes that the sentence can be separated into two clauses by utilizing it, and analyzes whether the following clause is a subordinate clause or a COP And finally ends the relationship between "design" and "burden". If the following clause is in the form of a subordinate clause, the emotional analysis unit 130 does not break the relationship between "design" and "burden". For example, in a sentence such as "Design is good and beautiful", "design" has a relationship with both "good" and "beautiful" expressions.

3) 관형형의 표현 처리 3) Expression processing of tubular type

감성 분석부(130)는 관형형 표현을 일반형 표현으로 재구성한다. 일반형 표현으로 재구성되는 경우 해당 문장은 키텀이 될 수 있다. 본 발명의 실시 예에서 관형형 표현이란 관형형 어미를 활용하여 대상 속성을 전방에서 수식하는 형태를 말한다. 예를 들어, “디자인이 좋다”와 같이 속성 디자인을 표현 좋다가 후방에서 수식하는 형태를 일반형 표현이라고 할 때, “좋은 디자인”은 관형형 표현이라고 정의 한다. 관형형 표현의 주요한 특징은 반드시 수식을 받는 속성이 존재하며, 속성과 표현의 구역이 문장에서 독립적으로 존재한다. 또한, 모든 관형형 표현은 일반형 표현으로 재구성 할 수 있다. 다음의 표 2는 이러한 관형형 표현을 일반형 표현으로 재구성하는 정규화의 예를 설명하기 위한 것이다. The sensitivity analysis unit 130 reconstructs the tubular expression as a general expression. If it is reconstructed as a regular expression, the sentence can be a keyterm. In the embodiment of the present invention, a tubular expression refers to a form in which a target attribute is modified from the front by utilizing a tubular ending. For example, "good design" is good expression of the attribute design, while the rear form is the general form expression, "good design" is defined as a tubular expression. The main feature of the tubular expression is that there is an attribute that receives the expression, and the attribute and the section of the expression exist independently in the sentence. In addition, all tubular expressions can be reconstructed as regular expressions. The following Table 2 is intended to illustrate an example of normalization that reconstructs this tubular representation as a generic representation.

Figure pat00001
Figure pat00001

이와 같이, 정규화 과정에서, 감성 분석부(130)는 기본적으로 관형형 서술을 모두 일반형 서술로 바꾸어서 키텀을 생성한다. 그리고, 해당 속성과 표현의 매칭 구역을 관형형 표현 내로 한정한다. In this way, in the normalization process, the emotion analyzer 130 basically converts the tubular description into the general description to generate the keyword. Then, the matching area of the attribute and the expression is limited to the tubular expression.

4) 긍/부정값 처리; 4) positive / negative value processing;

감성 분석부(130)는 긍정 표현 및 부정 표현을 모두 긍정 표현으로 재구성하여 키텀을 생성하고, 긍정 및 부정 표현과 강도는 긍/부정값으로 저장한다. The emotion analyzing unit 130 reconstructs positive and negative expressions as affirmative expressions to generate a keyword, and stores affirmative and negative expressions and intensities as positive / negative values.

본 발명의 실시 예에 따르면, 정규화에 따라 키텀을 추출하는 과정에서, 표현의 부정 표현 처리와 표현의 강도 인식도 이루어 진다. 먼저, 단순한 부정 표현(부정문) 처리에 대해서 살펴보면, 기본적으로 감성 사전에는 표현의 부정 형태를 추가 하지 않는다. 각각의 표현에 대한 부정 표현 등을 모두 지식으로 가지가 있는 것을 매우 불필요하고 비효율적이기 때문이다. 따라서, 감성 사전은 모든 지식을 가장 단순화된 긍정문(긍정 표현)의 형태로 가지고 있으되, 실제 문장에서 부정 표현을 인식하여 긍/부정값을 조정하게 된다. 예를 들어, “디자인 좋다”라는 감성 지식이 기본 긍/부정값으로 “일반 긍정”, 즉 “1”의 값을 가진다고 가정했을 때, 실제 “디자인이 좋지 않다”라는 문장은 “디자인 좋다”라는 키텀으로 재구성하고, 부정 표현 및 강도는 긍/부정값을 통해 “일반부정”, 즉 “-1”로 매핑하여 저장한다. According to the embodiment of the present invention, in the process of extracting the kittens according to the normalization, the negative expression processing of the expression and the intensity recognition of the expression are also performed. First, when we look at simple negative expressions, we do not add negative expressions to emotion dictionaries basically. It is very unnecessary and inefficient to have all kinds of expressions such as negative expressions for each expression. Therefore, the emotional dictionary has all the knowledge in the form of the most simplified affirmative sentence (affirmative expression), but recognizes the negative expressions in the actual sentence and adjusts the positive / negative value. For example, assuming that the sensibility knowledge of "good design" has a value of "general affirmative" or "1" as the basic positive / negative value, the actual "bad design" And the negative expression and the intensity are stored by being mapped to &quot; general negative &quot;, that is, &quot; -1 &quot; through positive / negative values.

본 발명에서는 이러한 기본적인 부정 표현 처리와 함께, 다중 부정, 정도 부사와 부정문의 결합에서 나타나는 감성 강도 및 긍/부정 반전 역시 처리하게 된다. 다중 부정이란 부정이 다시 한번 부정이 되어 긍정이 되는 것과 같은 현상을 말하며, “디자인이 좋지 않은 것이 아니다”와 같은 문장을 말한다. 해당 문장에서는 부정어들이 출현하고 있지만, 그 부정어들이 서로를 상쇄 시켜 다시 긍정의 표현이 되고 있다. 또한, 이러한 부정문의 형태가 정도 부사와 결합되어 극성 및 강도가 변화 하는 현상도 처리한다. 전술한 바와 같이, 감성 표현은 정도 부사에 의해서 강한 감성을 표현할 수 있다고 정의 했다. 하지만, “디자인이 아주 좋다” 와 “디자인이 아주 좋지는 않다”의 해석은 달라 질 수 있다. 첫 번째 문장은 “디자인 좋다”의 “강한 긍정” 이 되지만, 두 번째 문장은 “약한 긍정” 즉, “디자인이 약간 좋다”라고 해석 될 수 있다. 또한, “디자인이 아주 안 좋은 것은 아니다”이 문장에서 “아주” 라는 정도 부사를 제외 하고 해석 하면, “디자인이 좋다”로 해석이 되지만 “아주”를 포함하여 해석을 하면, “디자인이 약간 나쁘다”, 즉 “약한 부정”으로 해석이 된다. 이러한 모든 경우에서, 감성 분석부(130)는 "디자인이 좋다"라는 키텀과 긍/부정값을 이용하여 재구성하여, 이때, 긍/부정값은 단서 정보가 된다. In the present invention, in addition to the basic negative expressive processing, the emotional intensity and positive / negative reversal appearing in the combination of multiple negation, degree adverb and negation are also handled. Multiple negation refers to a phenomenon in which negation becomes negative again and becomes affirmative, and it is a sentence such as "design is not bad". Negative words appear in the sentence, but these negative words cancel each other and become positive expressions again. In addition, this type of negation is combined with the degree adverb to deal with the change of polarity and intensity. As described above, the emotional expression is defined to be able to express strong emotion by degree adverb. However, the interpretation of "the design is very good" and "the design is not very good" can be changed. The first sentence becomes "strong positive" of "good design", but the second sentence can be interpreted as "weak positive", that is, "design is slightly better". In addition, "design is not very bad" in this sentence, "very" except for adverbs, except interpretation, "good design" is interpreted, but "very" including the interpretation, "the design is a little bad "Or" weak denial ". In all of these cases, the emotion analyzing unit 130 reconstructs using the "design is good" and the positive / negative values, and the positive / negative value is the clue information.

상술한 바와 같이 정규화가 완료되면, 서비스 장치(100)는 S630 단계에서 "양태 분석"을 수행하여, 감성 분석을 수행할 수 없는 문장을 걸러낸다. When normalization is completed as described above, the service apparatus 100 performs "aspect analysis" in step S630, thereby filtering sentences that can not be subjected to emotional analysis.

본 발명에서 정의하는 “양태 분석”을 시행 한다. 본 발명의 실시 예에서, 양태란, 분석 대상 문장, 혹은 절 등이 가정, 기대, 비교, 의문, 혹은 분석 대상 제외 형태 등인지를 말하며, 해당 타입에 따라 추출 된 키텀을 다시 재구성 하도록 하고 있다. 예를 들어, “디자인이 개선되면 좋을텐데…” 라는 문장은 본 시스템에서 “기대” 양태의 패턴으로 인식이 되고, 추출된 키텀인 “디자인 개선되다” 가 최종 키텀 리스트에서 삭제 처리가 된다. 이러한 양태에 대한 정보는 패턴화 하여 양태분석 사전으로 관리가 된다. &Quot; Analysis of Modes &quot; defined in the present invention is carried out. In the embodiment of the present invention, the mode refers to whether the analysis target sentence, clause, or the like is assumed, expected, compared, questioned, or exempted from the analysis target, and the extracted keyword is reconfigured according to the type. For example, "It would be nice if the design improved ... Quot; is recognized in the system as a pattern of the &quot; expectation &quot; aspect, and the extracted keystore, &quot; improved design &quot; The information on this aspect is patterned and managed in a manner analysis dictionary.

다음으로, 감성 분석부(130)는 S640 단계에서 감성 사전 및 키텀을 이용하되, 문장 단위로 탐색하여 각 문장에 대해 속성 및 표현을 추출한다. 즉, 감성 분석부(130)는 먼저, 문장 내에서 해당 카테고리의 감성 사전에 등재된 속성들 중 매칭되는 속성을 추출한다. 그런 다음, 감성 분석부(130)는 해당 카테고리의 감성 사전에서 추출된 속성에 대한 표현들 중 매칭되는 매칭되는 표현을 추출한다. 또한, 감성 분석부(130)는 모든 탐색의 매치의 정확도에 따라 그 신뢰도 값을 반영하게 되어 있다. 키텀을 추출 하는 과정에서, 불필요한 정보들은 제거하고, 단서 정보도 따로 저장하였기 때문에, 특정 거리 이상으로 속성과 표현이 떨어져 있다면, 그들 사이에 관계를 끊을 만한 노이즈가 존재했을 가능성이 높다. 따라서, 감성 분석부(130)는 속성에 대한 표현을 추출할 때, 속성과 표현이 미리 설정된 거리 이상인 경우, 해당 속성에 대한 표현으로 추출하지 않는다. 예컨대, 속성과 표현의 매치에 있어 최대 5 토큰(token)의 거리 제약을 둘 수 있다. Next, in step S640, the emotional analysis unit 130 searches for sentences and extracts attributes and expressions for each sentence, using emotion dictionaries and kits. That is, the emotional analysis unit 130 first extracts matched attributes among the attributes registered in the emotion dictionary of the category in the sentence. Then, the emotional analysis unit 130 extracts matched matching expressions among expressions of attributes extracted from the emotion dictionary of the category. In addition, the emotion analyzing unit 130 reflects the reliability value according to the accuracy of the match of all searches. In the process of extracting the kittens, unnecessary information is removed, and cue information is also stored separately. Therefore, if there is a difference between the attribute and the expression over a certain distance, there is a high possibility that there is a noise to break the relationship between them. Accordingly, when extracting a representation of an attribute, the emotion analyzing unit 130 does not extract the expression of the attribute when the attribute and expression are greater than a predetermined distance. For example, you can have a distance constraint of up to five tokens in a match of attribute and expression.

한편, 속성 및 표현의 추출 중 속성이 없고 표현만 있는 형태의 경우, 이를 본 발명에서는 “널(NULL) 속성 표현”이라고 정의한다. On the other hand, in the case of a form in which there is no attribute and extracting only attributes and expressions, it is defined as &quot; null attribute expression &quot; in the present invention.

감성 분석부(130)는 “널(NULL) 속성 표현”의 경우, 표현의 전방에 표현에 대응하는 속성이 존재여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출할 수 있다. In the case of the &quot; NULL attribute expression &quot;, the emotion analysis unit 130 determines whether an attribute corresponding to the expression exists before the expression, and if there is no attribute corresponding to the expression, the attribute can be derived from the expression have.

기본적으로 감성이나 의견을 표현을 함에 있어 대상에 대한 특정 속성을 지칭하면서 작성을 하는 것이 일반적이지만, 대상에 대한 총평이나, 혹은, 굳이 속성을 언급하지 않아도 암묵적으로 속성이 드러나는 표현이 존재한다. 예를 들면, “완전 좋아요~” 와 같은 문장에서는 속성은 존재 하지 않지만, 특정 대상에 대한 의견을 말하고 있으며, 대상에 대한 총평과 같은 의견을 포함하고 있다. 또한, “이 제품은 비싸네요” 와 같이 “비싸다”는 암묵적으로 “가격” 이라는 속성을 포함 하는 표현이지만, 표면적으로 속성을 언급하지 않고 있다. 이러한 엔트리들은 감성 지식에서 “널(NULL) 속성 표현”으로 관리된다. 감성 분석부(130)는 감성 분석에서 속성 탐색이 실패하는 경우에 한하여 탐색을 진행 하게 된다. 탐색은 일반적인 표현 탐색과 동일하게 하지만, 제약 조건을 두고 있다. 탐색이 성공한 표현 전방에 속성이나 표현의 대상이 완벽하게 없어야만 추출을 하게 된다. 예를 들어, 카메라 리뷰 문서에서 “날씨가 상당히 좋네요” 라는 문장에서 “좋다”는 “날씨를 대상으로 하는 것이지만, “날씨”가 카메라 카테고리의 감성 지식에 존재 하지 않기 때문에 NULL 속성 표현인 “좋다”가 탐색 성공이 될 것이기 때문이다. Basically, in expressing emotion or opinion, it is common to make a specific attribute referring to an object, but there is a general evaluation of the object or an expression in which the attribute is implicitly expressed without mentioning the attribute. For example, in a sentence such as "FULLY GOOD", the attribute does not exist, but it expresses the opinion on the specific object and includes the comment such as the general comment on the object. Also, the expression "expensive" such as "this product is expensive" implicitly includes a property called "price", but does not refer to the property on the surface. These entries are managed as &quot; null attribute representations &quot; in emotion knowledge. The emotional analysis unit 130 performs the search only when the attribute search fails in the emotional analysis. The search is the same as a regular expression search, but has constraints. The extraction is performed only when the search is successful and the target of the attribute or expression is not completely present in front of the expression. For example, in the camera review document, "good" in the phrase "the weather is fairly good" refers to "weather", but since the "weather" does not exist in the sensitivity category knowledge of the camera category, Will be a successful search.

다음으로, 감성 분석부(130)는 S650 단계에서 속성 및 표현이 추출된 문장에 대해 주제어, 속성, 표현 및 긍/부정값을 포함하는 감성 데이터를 출력한다. 이때, 긍/부정값은 정규화시 도출된 긍/부정값을 이용할 수 있다. Next, in step S650, the emotional analysis unit 130 outputs emotional data including a main word, attribute, expression, and positive / negative values for the sentence from which the attribute and expression are extracted. In this case, the positive / negative value may be a positive / negative value derived from the normalization.

본 발명에 따른 감성 분석을 위한 방법은, 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The method for emotional analysis according to the present invention may be implemented in a form of software readable by various computer means and recorded in a computer-readable recording medium. Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a recording medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Includes a hardware device that is specially configured to store and execute program instructions such as a magneto-optical medium such as a floppy disk and a ROM, a random access memory (RAM), a flash memory, do. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으나, 여기에 개시된 실시 예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art. Furthermore, although specific terms are used in this specification and the drawings, they are used in a generic sense only to facilitate the description of the invention and to facilitate understanding of the invention, and are not intended to limit the scope of the invention.

본 발명은 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법에 관한 것으로, 이러한 본 발명은, 복수의 카테고리가 트리구조의 계층 구조를 가지며, 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 주제어의 성격 또는 성질을 나타내는 속성, 주제어의 속성에 대한 평가를 나타내는 표현 및 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 분석 대상 문서로부터 각 문장에 대해 선택된 카테고리에 상응하는 주제어들을 추출하는 주제어 추출부 및 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 속성이 될 수 있는 품사 및 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 재구성된 문장으로부터 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부를 포함하는 감성 분석을 위한 장치와 이에 따른 방법을 제공한다. 이러한 본 발명에 따르면, 카테고리 분류 체계를 활용하여 문서의 타입과 주제에 따른 정교한 감성 분석 결과를 기대할 수 있다. 감성/의견 정보의 대상인 주제어를 정교하게 매핑하는 기술로 인해 작성자의 작성의도와 감성/의견의 정도를 대상과 연계하여 정확하게 파악할 수 있다. 종래에 많은 부분을 지식에 의존하던 언어의 다양한 현상들을 정규화 과정을 통해 알고리즘화 함으로서, 지식 관리의 효율과 편의성을 높이고, 시스템의 성능을 향상시킬 수 있다. 이는 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다. The present invention relates to an apparatus and method for emotion analysis based on a hierarchical category, and a method for the same. The present invention relates to an apparatus and method for emotion analysis based on a hierarchical category, wherein a plurality of categories have a hierarchical structure of a tree structure, To extract the emotion data including the main word indicating the nature or the nature of the main word, the expression indicating the evaluation of the attribute of the main word, and the positive / negative value indicating the affirmation and the negation and the strength of the expression, A main word extracting unit for extracting main words corresponding to the selected category for each sentence from the sentence, and normalizing each sentence including the extracted main word to reconstruct a sentence consisting of only parts of speech that can be attributed in each sentence and parts of speech that can be expressed , Derives the attribute from the reconstructed sentence, An emotional analysis unit for deriving a corresponding expression, and an apparatus for emotional analysis. According to the present invention, it is possible to expect a sophisticated emotional analysis result according to the type and subject of a document by using a category classification system. It is possible to accurately grasp the degree of author's writing and emotion / opinion in connection with the object because of the technique of elaborately mapping the subject word which is the subject of emotion / opinion information. Algorithmization of the various phenomena of language which conventionally relied on a large amount of knowledge in the normalization process can improve the efficiency and convenience of knowledge management and enhance the performance of the system. This is not only a possibility of commercialization or sales, but also a possibility of being industrially applicable since it is practically possible to carry out clearly.

100: 서비스 장치  101: 통신부   
102: 입력부 103: 저장부 
104: 표시부 105: 제어부
110: 전처리부 120: 주제어 추출부
130: 감성 분석부
100: service apparatus 101: communication unit
102: input unit 103: storage unit
104: Display unit 105:
110: preprocessing unit 120: main word extracting unit
130: Emotion analysis section

Claims (12)

복수의 카테고리가 트리구조의 계층 구조를 가지며, 상기 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 상기 주제어의 성격 또는 성질을 나타내는 속성, 상기 주제어의 상기 속성에 대한 평가를 나타내는 표현 및 상기 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 분석 대상 문서로부터 각 문장에 대해 상기 선택된 카테고리에 상응하는 주제어들을 추출하는 주제어 추출부;
상기 추출된 주제어를 포함하는 각 문장을 정규화하여 각 문장에서 상기 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하며, 상기 재구성된 문장으로부터 상기 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 감성 분석부;를 포함하는 것을 특징으로 하는 감성 분석을 위한 장치.
A plurality of categories having a hierarchical structure of a tree structure, and each of the plurality of categories has a hierarchical structure of a plurality of categories, wherein the keywords include a main word indicating an object, an attribute indicating a nature or a property of the main word, A main word extracting unit for extracting emotional data including positive / negative values indicating affirmation and denial of expressions and strengths, and subject terms corresponding to the selected category for each sentence from an analysis target document;
Wherein each sentence including the extracted main word is normalized to reconstruct a phrase consisting of part-of-speech that can be the attribute and parts-of-speech that can be the expression in each sentence, deriving the attribute from the reconstructed sentence, And an emotion analyzing unit for deriving a representation corresponding to the attribute.
제1항에 있어서,
상기 감성 분석부는
상기 정규화시, 각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The emotional analysis unit
Wherein the expression of each sentence is reconstructed as an affirmative expression at the time of normalization, and the positive and negative states and strengths of the expression are extracted and stored as a positive / negative value.
제1항에 있어서,
상기 감성 분석부는
상기 정규화시, 각 문장에서 관형형 어미를 활용하여 속성을 전방에서 수식하는 형태를 가지는 관형형 표현이 있는 경우, 속성을 후방에서 수식하는 형태를 가지는 일반형 표현으로 재구성하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The emotional analysis unit
Wherein, in the normalization, when there is a tubular expression having a form of modifying an attribute in front by using a tubular ending in each sentence, the attribute is rearranged into a general expression having a form of rearward modifying .
제1항에 있어서,
상기 감성 분석부는
상기 정규화시, 주절과 종속절의 관계에 따라 주절의 속성과 종속절의 표현의 관계를 연결하거나 끊어지도록 설정하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The emotional analysis unit
Wherein the relationship between the attribute of the main clause and the expression of the subordinate clause is set to be connected or disconnected according to the relation between the main clause and the subordinate clause at the time of the normalization.
제1항에 있어서,
상기 감성 분석부는
표현의 전방에 표현에 대응하는 속성이 존재 여부를 판단하여, 표현에 대응하는 속성이 없는 경우, 표현으로부터 속성을 도출하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The emotional analysis unit
Determining whether or not an attribute corresponding to the expression exists in front of the expression, and deriving an attribute from the expression when the attribute corresponding to the expression does not exist.
제1항에 있어서,
상기 주제어 추출부는
상기 선택된 카테고리에 상응하는 주제어들을 포함하는 주제어 사전을 참조하여 상기 분석 대상 문서에서 각 문장의 주제어를 추출하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The main word extracting unit
Wherein the main word of each sentence is extracted from the analysis target document by referring to a main word dictionary including main words corresponding to the selected category.
제1항에 있어서,
상기 주제어 추출부는
문장에 비교문이 있는 경우, 비교문을 가지는 복수의 문형을 저장하는 문법 사전을 참조하여, 주제어를 추출하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The main word extracting unit
Wherein a grammar dictionary storing a plurality of sentence patterns having a comparative sentence is referred to when a sentence has a comparative sentence, and the main word is extracted.
제1항에 있어서,
상기 주제어 추출부는
상기 분석 대상 문서에서 어느 하나의 문장에서 주제어를 탐색할 수 없는 경우,
상기 하나의 문장의 이전 문장에서 주제어를 추정하고,
주제어를 추정할 수 없는 경우,
상기 분석 대상 문서의 타이틀에 관련된 타이틀 주제어, 문서 전체의 주제에 관련된 문서 주제어 중 어느 하나를 상기 하나의 문장의 주제어로 할당하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
The main word extracting unit
If the subject term can not be searched in any sentence in the analysis target document,
Estimating a subject word in a previous sentence of the one sentence,
If the subject word can not be estimated,
Wherein one of the title key words related to the title of the document to be analyzed and the document key words related to the subject of the entire document is assigned as a key word of the one sentence.
제1항에 있어서,
상기 분석 대상 문서의 각 문장에 대해 문장분리, 띄어쓰기 교정, 형태소 분석 및 복합어 인식 중 하나 이상을 포함하는 전처리를 수행하는 전처리부를 더 포함하는 것을 특징으로 하는 감성 분석을 위한 장치.
The method according to claim 1,
Further comprising a preprocessor for performing preprocessing including at least one of sentence separation, spacing correction, morpheme analysis, and compound word recognition for each sentence of the analysis target document.
복수의 카테고리가 트리구조의 계층 구조를 가지며, 상기 복수의 카테고리 중 선택된 카테고리에 따라, 대상을 나타내는 주제어, 상기 주제어의 성격 또는 성질을 나타내는 속성, 상기 주제어의 상기 속성에 대한 평가를 나타내는 표현 및 상기 표현의 긍정 및 부정 여부와 강도를 나타내는 긍/부정값을 포함하는 감성 데이터를 추출하기 위해, 상기 선택된 카테고리에 상응하는 분석 대상 문서를 수집하는 단계;
상기 분석 대상 문서의 각 문장에 대해 상기 카테고리에 상응하는 주제어들을 추출하는 단계;
상기 추출된 주제어를 포함하는 각 문장에서 상기 속성이 될 수 있는 품사 및 상기 표현이 될 수 있는 품사들로만 이루어진 문장으로 재구성하는 정규화를 수행하는 단계; 및
상기 재구성된 문장으로부터 상기 속성을 도출하고, 도출된 속성에 대응하는 표현을 도출하는 단계;
를 포함하는 것을 특징으로 하는 감성 분석을 위한 방법.
A plurality of categories having a hierarchical structure of a tree structure, and each of the plurality of categories has a hierarchical structure of a plurality of categories, wherein the keywords include a main word indicating an object, an attribute indicating a nature or a property of the main word, Collecting analysis target documents corresponding to the selected category to extract emotional data including positive / negative values indicating affirmation and denial of expression and intensity;
Extracting subject terms corresponding to the category for each sentence of the analysis target document;
Performing normalization in each sentence including the extracted main word to reconstruct the sentence consisting of only parts of speech that can be the attribute and part of speech that can be the expression; And
Deriving the attribute from the reconstructed sentence and deriving a representation corresponding to the derived attribute;
The method comprising the steps of:
제10항에 있어서,
상기 정규화를 수행하는 단계는
각 문장의 표현을 긍정 표현으로 재구성하며, 표현의 긍정 및 부정 여부 및 강도를 추출하여 긍/부정값으로 저장하는 것을 특징으로 하는 감성 분석을 위한 방법.
11. The method of claim 10,
The step of performing the normalization comprises:
Wherein the expression of each sentence is reconstructed as an affirmative expression, and positive and negative indications and strengths of the expressions are extracted and stored as positive / negative values.
제10항 또는 제11항에 기재된 감성 분석을 위한 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium recording a program for performing the method for emotional analysis according to claim 10 or 11.
KR1020120122000A 2012-10-31 2012-10-31 An apparatus for opinion mining based on hierarchical categories and a method thereof KR20140056715A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120122000A KR20140056715A (en) 2012-10-31 2012-10-31 An apparatus for opinion mining based on hierarchical categories and a method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120122000A KR20140056715A (en) 2012-10-31 2012-10-31 An apparatus for opinion mining based on hierarchical categories and a method thereof

Publications (1)

Publication Number Publication Date
KR20140056715A true KR20140056715A (en) 2014-05-12

Family

ID=50887802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120122000A KR20140056715A (en) 2012-10-31 2012-10-31 An apparatus for opinion mining based on hierarchical categories and a method thereof

Country Status (1)

Country Link
KR (1) KR20140056715A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951408A (en) * 2017-03-17 2017-07-14 国信优易数据有限公司 A kind of data digging method
KR20200103168A (en) * 2019-02-12 2020-09-02 주식회사 자이냅스 An apparatus for learning documents
CN112966074A (en) * 2021-05-17 2021-06-15 华南师范大学 Emotion analysis method and device, electronic equipment and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951408A (en) * 2017-03-17 2017-07-14 国信优易数据有限公司 A kind of data digging method
KR20200103168A (en) * 2019-02-12 2020-09-02 주식회사 자이냅스 An apparatus for learning documents
CN112966074A (en) * 2021-05-17 2021-06-15 华南师范大学 Emotion analysis method and device, electronic equipment and storage medium
CN112966074B (en) * 2021-05-17 2021-08-03 华南师范大学 Emotion analysis method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
CN106537370B (en) Method and system for robust tagging of named entities in the presence of source and translation errors
RU2686000C1 (en) Retrieval of information objects using a combination of classifiers analyzing local and non-local signs
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
Sigletos et al. Combining Information Extraction Systems Using Voting and Stacked Generalization.
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
KR101136007B1 (en) System and method for anaylyzing document sentiment
Linhares Pontes et al. Impact of OCR quality on named entity linking
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
TW200842614A (en) Automatic disambiguation based on a reference resource
US9355372B2 (en) Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
EP2635965A1 (en) Systems and methods regarding keyword extraction
AU2014285073B9 (en) Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
US8326833B2 (en) Implementing metadata extraction of artifacts from associated collaborative discussions
Das et al. Temporal analysis of sentiment events–a visual realization and tracking
Qian et al. Detecting new Chinese words from massive domain texts with word embedding
Wang et al. Toc-rwg: Explore the combination of topic model and citation information for automatic related work generation
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
González et al. Siamese hierarchical attention networks for extractive summarization
CN114970516A (en) Data enhancement method and device, storage medium and electronic equipment
US11816162B2 (en) Methods and systems for search query language identification
KR20140056715A (en) An apparatus for opinion mining based on hierarchical categories and a method thereof
Mishra et al. VisualTextRank: Unsupervised Graph-based Content Extraction for Automating Ad Text to Image Search

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application