KR101727686B1 - Method for extracting semantic entity topic - Google Patents

Method for extracting semantic entity topic Download PDF

Info

Publication number
KR101727686B1
KR101727686B1 KR1020140187010A KR20140187010A KR101727686B1 KR 101727686 B1 KR101727686 B1 KR 101727686B1 KR 1020140187010 A KR1020140187010 A KR 1020140187010A KR 20140187010 A KR20140187010 A KR 20140187010A KR 101727686 B1 KR101727686 B1 KR 101727686B1
Authority
KR
South Korea
Prior art keywords
entity
topic
distribution
emotion
extracting
Prior art date
Application number
KR1020140187010A
Other languages
Korean (ko)
Other versions
KR20160077446A (en
Inventor
이상근
류우종
Original Assignee
고려대학교 산학협력단
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단, 포항공과대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140187010A priority Critical patent/KR101727686B1/en
Publication of KR20160077446A publication Critical patent/KR20160077446A/en
Application granted granted Critical
Publication of KR101727686B1 publication Critical patent/KR101727686B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Abstract

시맨틱 엔티티 토픽 추출 방법이 개시된다. 상기 시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법으로서, (a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계, (b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계, (c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계, (d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계, (e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계, 및 (f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함한다.A semantic entity topic extraction method is disclosed. The semantic entity topic extraction method comprising the steps of: (a) extracting a semantic entity topic from a document set in which comments for one or more entities are described using a device capable of calculating a probability distribution, Extracting a vocabulary distribution for an emotion based entity that is a vocabulary distribution for an entity that reflects vocabulary distribution and emotion, (b) extracting a vocabulary distribution for a topic-emotion-based entity using a vocabulary distribution for the topic and a vocabulary distribution for the emotional- (C) extracting a topic distribution, an emotion distribution, and an entity distribution for each document included in the document set; (d) (E) determining, for each word of each document included in the document set, a topic, an emotion, and an entity And (f) selecting words corresponding to the topics, emotions, and entities extracted in the step (e) from the lexical distribution for the topic-emotion-based entity pair.

Description

시맨틱 엔티티 토픽 추출 방법{METHOD FOR EXTRACTING SEMANTIC ENTITY TOPIC}{METHOD FOR EXTRACTING SEMANTIC ENTITY TOPIC}

본 발명은 다양한 토픽 상에서 엔티티에 대한 감정이 반영된 의견을 추출하는 기술에 관한 것으로, 보다 상세하게는 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 다양한 측면에서 엔티티에 대한 의견을 추출하고, 추출된 의견을 감정에 따라 긍정 및 부정의 형태로 자동 분류하여 추출하는 시맨틱 엔티티 토픽 추출 방법에 관한 것이다.TECHNICAL FIELD The present invention relates to a technique for extracting opinions reflecting an emotion for an entity on various topics, and more particularly to a technique for extracting opinions on an entity from various sets of documents from a document set in which comments for one or more entities are described, To a semantic entity topic extraction method for automatically classifying and extracting opinions in the form of positive and negative according to emotion.

마이크로 블로깅 및 온라인 리뷰 서비스와 같은 다양한 웹 서비스의 보급과 웹 서비스의 사용자가 증가함에 따라, 사용자들은 웹 서비스를 통해 다양한 의견을 기술하고 있다. 이러한 의견들은 대부분 특정 이슈, 제품(또는 서비스), 인물과 같은 엔티티(entity)에 대해 기술하는 경우가 대부분이다. 엔티티란, 실제 또는 가상으로 존재하는 것으로 이름을 가짐으로써 하나의 독립적인 의미를 가질 수 있고, 물질로서 존재할 필요는 없는 것이다. 즉, 제품명, 서비스명, 회사명, 소설의 인물명, 인명, 사건명, 단체명 등이 엔티티에 해당할 수 있다. 따라서, 사용자들의 주된 관심의 대상인 엔티티에 대한 의견을 분석해 가치있는 정보를 추출하기 위한 다양한 연구가 진행되고 있다.As the popularity of various web services such as microblogging and online review services and the number of users of web services are increasing, users are expressing various opinions through web services. Most of these comments often describe entities such as a particular issue, product (or service), or person. An entity can have an independent meaning by having a name that is real or virtual, and does not have to exist as a substance. That is, the entity may correspond to a product name, a service name, a company name, a person's name, a personal name, an event name, and a corporate name. Therefore, various studies are being conducted to extract valuable information by analyzing opinions of entities that are the main interest of users.

엔티티 토픽 모델(Entity Topic Model)은 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 다양한 토픽(topic) 상에서 각 엔티티에 대한 의견을 추출하기 위한 기술이다. 하지만 종래의 엔티티 토픽 모델의 경우, 각 엔티티에 대한 의견을 추출함에 있어서, 의견에 반영된 감정(sentiment)을 고려하지 않는다. 따라서, 각 엔티티에게 가지는 의견을 긍정 및 부정의 형태로 분류하여 추출할 수 없고, 엔티티에 대한 선호도를 분석할 수 없는 한계점이 있다.An Entity Topic Model is a technique for extracting comments for each entity on various topics from a set of documents describing comments for one or more entities. However, in the case of the conventional entity topic model, in extracting opinions for each entity, the sentiment reflected in the opinion is not considered. Therefore, it is impossible to classify and extract the opinions of each entity in the form of affirmation and denial, and there is a limit point in that the preference for the entity can not be analyzed.

미합중국 공개특허 제2012/0095952호United States Patent Publication No. 2012/0095952 미합중국 등록특허 제7,853,596호United States Patent No. 7,853,596

본 발명은 전술한 문제를 해결하기 위해 안출된 것으로서, 다양한 측면에서 엔티티에 대한 의견을 추출하고, 추출된 의견을 감정에 따라 자동으로 분류하여 추출하는 시맨틱 엔티티 토픽 추출 방법을 제공하는 것이다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a semantic entity topic extraction method for extracting opinions on entities in various aspects and automatically classifying extracted opinions according to emotions.

본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법으로서, (a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계, (b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계, (c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계, (d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계, (e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계, 및 (f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함한다.The method of extracting a semantic entity topic according to an exemplary embodiment of the present invention is a method of extracting a semantic entity topic from a document set in which comments on one or more entities are described using a device capable of calculating a probability distribution, (a) extracting a vocabulary distribution for a topic and a vocabulary distribution for an emotional-based entity that is a vocabulary distribution for an entity that reflects emotions; (b) using a vocabulary distribution for the topic and a vocabulary distribution for the emotional- (C) extracting a topic distribution, an emotion distribution, and an entity distribution for each document included in the document set; (d) (C) performing statistical inference on each distribution extracted in step (c), (e) performing a statistical inference on each word of each document included in the document set (F) selecting words corresponding to the topics, emotions, and entities extracted in step (e) from the lexical distribution for the topic-emotion-based entity pair; .

본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 방법에 의할 경우, 토픽, 엔티티에 대한 의견 및 의견에 반영된 감정을 자동으로 추출함으로써, 다양한 측면에서 엔티티에 대한 의견을 감정에 따라 긍정 및 부정의 형태로 자동으로 분류하고 추출할 수 있다. 따라서, 엔티티에 대한 의견을 다양한 측면에서 분석 가능하고, 감정에 따라 분석 가능하기 때문에 엔티티에 대한 선호도를 분석할 수 있는 효과가 있다.According to the method of extracting a semantic entity topic according to the embodiment of the present invention, by automatically extracting emotions reflected on topics and opinions about entities and opinions, it is possible to extract opinions of entities in various aspects from affirmative and negative forms Can be automatically classified and extracted. Accordingly, since the opinion on the entity can be analyzed in various aspects and can be analyzed according to the emotion, the preference for the entity can be analyzed.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 엔티티 토픽 추출 장치를 도시하고 있다.
도 2는 도 1에 도시된 엔티티 토픽 모델 저장부를 도시한다.
도 3은 도 1에 도시된 엔티티 토픽 추출부를 도시한다.
도 4는 본 발명에서 사용된 표기에 대한 설명을 도시하고 있다.
도 5는 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법의 개념을 설명하기 위한 도면이다.
도 6은 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법을 설명하기 위한 흐름도이다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS In order to more fully understand the drawings recited in the detailed description of the present invention, a detailed description of each drawing is provided.
FIG. 1 illustrates an apparatus for extracting a semantic entity topic according to an embodiment of the present invention.
Fig. 2 shows the entity topic model storage shown in Fig.
Fig. 3 shows the entity topic extracting unit shown in Fig.
Fig. 4 shows a description of the notation used in the present invention.
5 is a diagram for explaining a concept of a semantic entity topic extraction method using the semantic entity topic extraction apparatus shown in FIG.
6 is a flowchart illustrating a method for extracting a semantic entity topic using the semantic entity topic extraction apparatus shown in FIG.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.It is to be understood that the specific structural or functional description of embodiments of the present invention disclosed herein is for illustrative purposes only and is not intended to limit the scope of the inventive concept But may be embodied in many different forms and is not limited to the embodiments set forth herein.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.The embodiments according to the concept of the present invention can make various changes and can take various forms, so that the embodiments are illustrated in the drawings and described in detail herein. It should be understood, however, that it is not intended to limit the embodiments according to the concepts of the present invention to the particular forms disclosed, but includes all modifications, equivalents, or alternatives falling within the spirit and scope of the invention.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.The terms first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms may be named for the purpose of distinguishing one element from another, for example, without departing from the scope of the right according to the concept of the present invention, the first element may be referred to as a second element, The component may also be referred to as a first component.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between. Other expressions that describe the relationship between components, such as "between" and "between" or "neighboring to" and "directly adjacent to" should be interpreted as well.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, the terms "comprises" or "having" and the like are used to specify that there are features, numbers, steps, operations, elements, parts or combinations thereof described herein, But do not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning of the context in the relevant art and, unless explicitly defined herein, are to be interpreted as ideal or overly formal Do not.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings attached hereto.

도 1은 본 발명의 일 실시예에 따른 시맨틱 엔티티 토픽 추출 장치를 도시하고 있다. 도 1을 참조하면, 시맨틱 엔티티 토픽 추출 장치(10)는 문서 저장부(100), 엔티티 토픽 모델 저장부(200), 문서 수집부(300), 및 엔티티 토픽 추출부(400)를 포함한다.FIG. 1 illustrates an apparatus for extracting a semantic entity topic according to an embodiment of the present invention. Referring to FIG. 1, the semantic entity topic extraction apparatus 10 includes a document storage unit 100, an entity topic model storage unit 200, a document collection unit 300, and an entity topic extraction unit 400.

문서 저장부(100)는 각각이 적어도 하나 이상의 엔티티에 대한 의견이 기술된 하나 이상의 문서를 포함하는 문서 집합을 저장하고, 문서 수집부(300)는 인터넷 등의 네트워크를 통해 하나 이상의 문서를 수집하여 문서 저장부(100)에 저장할 수 있다. 이때, 상기 문서 집합은 기존에 구축된 것일 수도 있다.The document storage unit 100 stores a set of documents each containing one or more documents describing opinions of at least one entity, and the document collection unit 300 collects one or more documents through a network such as the Internet And can be stored in the document storage unit 100. At this time, the document set may be an existing one.

엔티티 토픽 추출부(400)는 문서 저장부(100)에 저장된 문서 집합으로부터 시맨틱 엔티티 토픽(semantic entity topic)을 추출할 수 있다. 엔티티 토픽 추출부(400)는 엔티티 토픽 모델 저장부(200)에 저장되어 있는 내용을 이용하여 문서 집합에서 토픽, 상기 토픽과 관련한 엔티티에 대한 의견, 및 상기 의견에 반영된 감정을 추출하고 이 과정에서 엔티티 토픽 모델 저장부(200)의 내용을 갱신할 수 있다. 예를 들어, 엔티티 토픽 추출부(400)는 엔티티에 대한 의견을 감정에 따라 추출할 때 엔티티 토픽 모델 저장부(200)에 저장된 감정 어휘 집합을 사용할 수 있으며, 엔티티에 대한 의견을 추출할 때 엔티티 토픽 모델 저장부(200)에 저장된 엔티티 집합을 사용할 수 있다. 또한, 엔티티 토픽 추출부(400)는 엔티티 토픽 추출시 생성한 엔티티 토픽 모델 및 추출한 엔티티 토픽을 엔티티 토픽 모델 저장부(200)에 저장할 수 있다.The entity topic extracting unit 400 may extract a semantic entity topic from the document set stored in the document storage unit 100. [ The entity topic extracting unit 400 extracts a topic from the document set, an opinion on the entity related to the topic, and an emotion reflected on the opinion using the contents stored in the entity topic model storage unit 200, The contents of the entity topic model storage unit 200 can be updated. For example, the entity topic extraction unit 400 may use an emotional vocabulary set stored in the entity topic model storage unit 200 when extracting opinions on entities according to emotions. When extracting opinions on the entities, An entity set stored in the topic model storage unit 200 may be used. In addition, the entity topic extraction unit 400 may store the entity topic model generated at the time of extracting the entity topic and the extracted entity topic in the entity topic model storage unit 200.

엔티티 토픽 추출부(400)가 엔티티 토픽 추출을 위해 구축하고 사용하는 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축될 수 있다.Each probability distribution constructed and used by the entity topic extraction unit 400 for entity topic extraction can be constructed based on a Dirichlet prior probability.

확률 분포(probability distribution)를 이용하는 것은 문서에서 시맨틱 토픽을 추출하는 방법에 대한 연구의 한 부류이다. 이는 확률 분포를 이용하여 구축되고 통계적 추론을 통해 잠재 변수(latent variable)를 추정(estimate)가능한 토픽 생성 모델(topic generative model)을 사용하여 토픽을 추출하는 방법이다.Using a probability distribution is a kind of research on how to extract a semantic topic from a document. This is a method of extracting topics using a topic generative model that is constructed using probability distributions and can estimate latent variables through statistical inference.

특히, 디리클레 분포(Dirichlet distribution)를 사용한 토픽 생성 구축 방법인 LDA(Latent Dirichlet Allocation)가 주목을 받아왔으며, 이를 변형한 다양한 기법이 소개되었다.In particular, Latent Dirichlet Allocation (LDA), a method of constructing a topic using a Dirichlet distribution, has attracted much attention, and a variety of techniques have been introduced.

LDA는 각 문서는 다양한 토픽의 혼합체(mixture)이며, 토픽 분포는 디리클레 사전확률을 갖는다고 가정한다. 디리클레 사전확률은 각 문서에 대한 토픽 분포, 각 토픽에 대한 단어 분포를 추출 또는 구축하는데 파라미터(parameter)로서 사용된다. 문서에 포함되어 있는 단어는 유일한 관측 변수(observable variable)이며, 추출된 분포에 포함된 나머지 변수들은 모두 잠재 변수이다. 따라서, 전술한 바와 같이, 문서에 포함되어 있는 단어에 기초한 통계적 추론이 수행되는데, 본 발명의 일 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 깁스 샘플링(Gibbs sampling)을 사용하여 통계적 추론을 수행한다.The LDA assumes that each document is a mixture of various topics and that the topic distribution has a dirikler prior probability. The Dirichlet prior probability is used as a parameter to extract or construct the topic distribution for each document, the word distribution for each topic. The word contained in the document is the only observable variable, and the remaining variables included in the extracted distribution are all latent variables. Thus, as described above, statistical reasoning based on the words contained in the document is performed, wherein the semantic entity topic extraction apparatus 10 and method according to an embodiment of the present invention are statistically < RTI ID = 0.0 > Perform inference.

사용자가 엔티티에 대해 기술한 의견으로부터 다양한 측면에서의 엔티티에 대한 의견을 추출하고, 긍정 및 부정의 감정의 형태로 자동으로 분류하여 추출함으로써 각 측면에서의 각 엔티티에 대한 선호도 및 각 엔티티에 대한 종합적인 선호도를 추출할 수 있다면 유용할 것이다. 사용자들이 엔티티에 대해 기술한 의견은 엔티티에 대한 피드백으로 제품 제조업체 및 서비스 제공업체, 선거의 각 후보, 행정기관 등이 유용하게 사용할 수 있다. 하지만 마이크로 블로깅 및 온라인 리뷰 서비스와 같은 다양한 웹 서비스 등 다양한 사이트로부터 수집한 정보는 엔티티에 대한 감정이 반영된 의견이 기술되어 있을 뿐 엔티티의 어떤 측면에 대해 기술되었는지, 엔티티의 어떤 측면에 대해 긍정 및 부정의 감정을 가지는지 등으로 정리되어 있지 않은 경우가 많다.From the opinions described by the user about the entity, opinions of the entities in various aspects are extracted and automatically classified and extracted in the form of affirmative and negative feelings so that the preference for each entity in each aspect and the comprehensive It would be useful if you could extract preferences. Users' comments on entities can be useful to product manufacturers and service providers, election candidates, and administrations as feedback to entities. However, information gathered from various sites, such as microblogging and online review services, is not only an opinion reflecting the feelings of the entity but also describing what aspects of the entity are described, And whether they have emotions.

본 발명의 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 다양한 토픽과 관련해 각 엔티티에 대해 기술한 의견을 추출하고, 상기 의견을 감정에 따라 분류하여 추출하는 것을 목표로 한다. 예를 들어, 스마트폰에 관한 토픽에서 엔티티에 해당하는 각 스마트폰 제품에 대해 기술한 의견을 분류하여 추출하고, 각 스마트폰 제품에 대한 "구매하고 싶다", "구매하고 싶지 않다" 등의 선호도를 판단할 수 있는 감정을 추출하는 것이다. 또한 스마트폰의 속성(aspect)에 해당하는 화질에 대한 토픽에서 각 스마트폰 제품에 대해 기술한 의견을 분류하여 추출하고, 각 스마트폰 제품에 대한 "화질이 좋다", "화질이 나쁘다" 등의 엔티티가 가진 속성에 대한 선호도를 판단할 수 있는 감정을 추출하는 것이다. 세월호 사건에 대한 토픽의 경우, 엔티티에 해당하는 행정기관에 대한 의견을 감정에 따라 추출하고, 선거에 대한 토픽의 경우, 엔티티에 해당하는 각 후보에 대한 의견을 감정에 따라 추출하는 것이다.The semantic entity topic extraction apparatus 10 and the method of the present invention are aimed at extracting opinions described for each entity with respect to various topics, and classifying and extracting the opinions according to feelings. For example, in the topic on smart phones, opinions about each smartphone product corresponding to an entity are classified and extracted, and a preference such as "I want to buy" or "I do not want to buy" Is extracted from the emotion. In addition, the opinions about each smartphone product are classified and extracted from the topic about the image quality corresponding to the aspect of the smartphone, and the opinions such as "good image quality", "poor image quality" And extracts emotions that can determine the preference for the attributes of the entity. In the case of a topic for a year-round event, the opinion on the administrative institution corresponding to the entity is extracted according to the emotion, and in the case of the election, the opinion on each candidate corresponding to the entity is extracted according to the emotion.

따라서, 본 발명의 실시 예에 의한 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 종래 방법들과는 달리, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 각 토픽과 관련해 사용자들이 엔티티에게 가지는 의견을 추출하고, 상기 의견을 감정에 따라 분류하여 자동으로 추출할 수 있는 장점이 있다. Accordingly, the semantic entity topic extraction apparatus 10 and method according to the embodiment of the present invention extracts opinions of users about entities with respect to each topic in a document set in which opinions about one or more entities are described, , It is possible to automatically classify the opinions by classifying them according to emotions.

예컨대, 본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 하나 이상의 스마트폰 제품에 대한 의견이 기술된 문서 집합에서 스마트폰, 제조사, 통신사 등 각 토픽과 관련해 각 엔티티 "Galaxy Note 4", "iPhone 6"에 대해 기술한 의견을 분류하여 추출하고, 상기 의견으로부터 각 엔티티에 대해 사용자들이 가지는 감정을 긍정 및 부정의 형태로 분류하여 추출할 수 있다. 이렇게 추출한 각 엔티티에 대한 의견 및 감정으로부터 긍정 및 부정의 형태로 의견을 분류하여 추출할 수 있고, 이를 선호도를 분석하는데 사용할 수 있다.For example, the semantic entity topic extraction apparatus 10 and method according to the embodiment of the present invention may be implemented in a document set in which comments on one or more smartphone products are described, for each topic such as a smartphone, a manufacturer, Quot ;, " 4 "and" iPhone 6 " are classified and extracted, and emotions of users for each entity are classified and extracted in the form of positive and negative. From the opinions and feelings of each extracted entity, opinions can be classified and extracted in the form of affirmative and negative, and they can be used to analyze the preferences.

기존의 방법은 엔티티에 대한 의견을 긍정 및 부정의 감정에 따라 추출하지 못하거나, 자동 추출하지 못하는 단점이 있었다. 하지만 본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 다양한 토픽에서 엔티티에 대한 의견 및 의견에 반영된 감정을 모두 추출할 수 있다는 장점이 있다.The existing method has a disadvantage in that it can not extract the opinions of the entity according to affirmation and negative feelings, or can not extract automatically. However, the semantic entity topic extraction apparatus 10 and the method according to the embodiment of the present invention are advantageous in extracting emotions reflected in opinions and opinions of entities in various topics.

토픽, 엔티티 및 상기 엔티티에 대한 감정을 추출하기 위해 사용하는 각 확률 분포는 다항 분포(multinomial distribution)를 따르며, 이들 각 분포를 구축하는 데에는 전술한 바와 같이 디리클레 사전확률이 파라미터로 사용된다.Each probability distribution used for extracting the topic, entity and emotion for the entity follows a multinomial distribution, and the dirichlet prior probability is used as a parameter to construct each of the distributions.

도 2는 도 1에 도시된 엔티티 토픽 모델 저장부를 도시한다. 도 1과 도 2를 참조하면, 엔티티 토픽 모델 저장부(200)는 문서 저장부(100)에 저장된 문서 집합으로부터 추출한 엔티티 집합을 저장하는 엔티티 집합 저장부(203), 감정 어휘 집합을 저장하는 감정 어휘 집합 저장부(202), 및 엔티티 토픽을 저장하는 엔티티 토픽 저장부(201)를 포함한다. 상기 엔티티 집합은 엔티티 토픽 추출부(400)에서 엔티티 분포를 추출하기 위해 사용될 수 있고, 상기 감정 어휘 집합은 엔티티에 대한 의견을 감정에 따라 추출할 때 사용될 수 있다. 또한, 엔티티 토픽은 기존에 구축된 것일 수 있고, 엔티티 토픽의 추출이 완료되었을 때, 새롭게 생성되거나 기존 내용이 갱신될 수도 있다.Fig. 2 shows the entity topic model storage shown in Fig. 1 and 2, the entity topic model storage unit 200 includes an entity set storage unit 203 for storing an entity set extracted from a document set stored in the document storage unit 100, an emotion storing unit A vocabulary set storage unit 202, and an entity topic storage unit 201 for storing an entity topic. The entity set can be used to extract an entity distribution in the entity topic extraction unit 400, and the emotional vocabulary set can be used when extracting opinions on the entity emotionally. In addition, the entity topic may be an existing one and may be newly created or updated when the extraction of the entity topic is completed.

도 3은 도 1에 도시된 엔티티 토픽 추출부를 도시한다. 도 1 내지 도 3을 참조하면, 엔티티 토픽 추출부(400)는 토픽 분포 추출기(401), 감정 분포 추출기(402), 엔티티 분포 추출기(403), 토픽 어휘 분포 추출기(404), 감정 기반 엔티티 어휘 분포 추출기(405), 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406), 및 통계적 추론기(407)을 포함한다.Fig. 3 shows the entity topic extracting unit shown in Fig. 1 to 3, the entity topic extraction unit 400 includes a topic distribution extractor 401, an emotion distribution extractor 402, an entity distribution extractor 403, a topic lexical distribution extractor 404, A distribution extractor 405, a topic-emotion-based entity pair lexical distribution extractor 406, and a statistical inference unit 407.

엔티티 토픽 추출부(400)는 문서 저장부(100)에 저장된 문서 집합으로부터 토픽, 엔티티에 대한 의견 및 상기 의견이 가지는 감정을 추출한다.The entity topic extraction unit 400 extracts a topic, an opinion on the entity, and an emotion of the opinion from the document set stored in the document storage unit 100.

구체적으로, 토픽 어휘 분포 추출기(404)는 각 토픽에 대한 어휘 분포, 즉 토픽 어휘 분포를 추출하고, 감정 기반 엔티티 어휘 분포 추출기(405)는 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포, 즉 감정 기반 엔티티 어휘 분포를 추출한다. 상기와 같이, 감정 기반 엔티티 어휘 분포를 추출함으로써, 엔티티에 대한 어휘 분포와 감정에 대한 어휘 분포가 동시에 고려될 수 있다.Specifically, the topic lexical distribution extractor 404 extracts a lexical distribution, that is, a topic lexical distribution, for each topic, and the emotion-based entity lexical distribution extractor 405 extracts a lexical distribution for an emotion-based entity Extracts the lexical distribution, that is, the emotion-based entity lexical distribution. As described above, by extracting the emotion-based entity lexical distribution, the lexical distribution for the entity and the lexical distribution for the emotion can be simultaneously considered.

토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 추출된 토픽 어휘 분포와 추출된 감정 기반 엔티티 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포, 즉 토픽-감정 기반 엔티티 쌍 어휘 분포를 추출한다.The topic-emotion-based entity pair lexical distribution extractor 406 extracts a lexical distribution for the topic-emotion based entity pair, that is, a topic-emotion based entity pair lexical distribution, using the extracted topic lexical distribution and the extracted emotion based entity lexical distribution .

또한, 토픽 분포 추출기(401)는 문서 집합의 각 문서에 대해 토픽 분포(topic distribution)를 추출하고, 감정 분포 추출기(402)는 상기 문서 집합의 각 문서에 대해 감정 분포(sentiment distribution)를 추출하고, 엔티티 분포 추출기(403)는 상기 문서 집합의 각 문서에 대해 엔티티 분포(entity distribution)를 추출한다.In addition, the topic distribution extractor 401 extracts a topic distribution for each document in the document set, and the emotion distribution extractor 402 extracts a sentiment distribution for each document in the document set , The entity distribution extractor 403 extracts an entity distribution for each document in the document set.

다음으로, 통계적 추론기(407)는 추출된 각 분포, 즉 토픽 분포, 감정 분포, 엔티티 분포, 토픽 어휘 분포, 감정 기반 엔티티 어휘 분포, 및 토픽-감정 기반 엔티티 쌍 어휘 분포에 대해 통계적 추론을 수행한다. 또한, 통계적 추론기(407)는 문서 집합의 각 문서의 각 단어에 대해, 추출된 각 분포로부터 토픽, 감정, 및 감정이 반영된 엔티티를 추출한다.Next, the statistical inference unit 407 performs statistical inference on each extracted distribution, that is, the topic distribution, the emotion distribution, the entity distribution, the topic lexical distribution, the emotion-based entity lexical distribution, and the topic-emotion based entity pair lexical distribution. do. In addition, for each word of each document in the document set, the statistical inference unit 407 extracts the entities that reflect the topic, emotion, and emotion from each extracted distribution.

이와 같이, 시맨틱 엔티티 토픽 추출 장치(10)는 토픽, 엔티티, 감정으로 이루어진 3차원 공간에서 다양한 토픽 상에서 엔티티에 대한 의견을 감정에 따라 분류해 추출할 수 있다.As described above, the semantic entity topic extracting apparatus 10 can classify and extract opinions on entities on various topics in a three-dimensional space made up of topics, entities, and emotions.

도 4는 본 발명에서 사용된 표기에 대한 설명을 도시하고 있다. 도 4를 참조하면, 각 문서는 d, 토픽은 z, 엔티티는 e, 감정은 l, 단어는 w로 표기될 수 있으며, 일반적으로 개수 또는 횟수는 n으로 표기될 수 있다. 단어, 토픽, 엔티티, 감정 등에 대한 확률 분포는 각각 그리스 문자로 표기되어 있으며, 각 확률 분포의 디리클레 사전확률에도 해당 그리스 문자가 할당되어 있다. 또한, Dir() 는 괄호 안의 인수를 기초로 디리클레 분포를 생성하는 것을 의미한다.Fig. 4 shows a description of the notation used in the present invention. Referring to FIG. 4, each document may be denoted by d, topic z, entity e, emotion l, and word w, and in general, the number or frequency may be denoted by n. The probability distributions for words, topics, entities, emotions, etc. are represented by Greek letters, respectively, and the Greek letters are also assigned to the dirichlet prior probability of each probability distribution. Also, Dir () means to create a Dirichlet distribution based on the arguments in parentheses.

도 5는 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법의 개념을 설명하기 위한 도면이다. 도 5에는 각 확률 분포 및 변수가 구해지는 순서를 표기하고 있다. 도 5의 좌측을 보면, 단어의 다항 분포, 즉 어휘 분포(word distribution)는 다음과 같이 산출된다. 토픽에 대한 어휘 분포, 긍정 및 부정의 각 감정 기반의 엔티티에 대한 어휘 분포는 디리클레 사전확률로부터 산출되고, 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포는 앞서 산출한 어휘 분포 및 디리클레 사전확률로부터 산출되며, 최종적으로 단어를 추출하는데 사용된다.5 is a diagram for explaining a concept of a semantic entity topic extraction method using the semantic entity topic extraction apparatus shown in FIG. FIG. 5 shows the order in which the probability distributions and the variables are obtained. 5, the polynomial distribution of words, that is, the word distribution, is calculated as follows. The vocabulary distribution for the topic, the vocabulary distribution for each emotion-based entity of affirmation and negation is calculated from the Dirichlet prior probability, and the lexical distribution for the topic-emotion based entity pair is calculated from the previously calculated lexical distribution and diclip prior probability , And finally used to extract words.

이후 기술되는 시맨틱 엔티티 토픽 추출 방법의 각 단계는 도 5를 통하여 이해할 수 있으므로, 후술하는 내용을 읽을 때 참조할 수 있다. 그러나, 도 5는 도 6의 단계를 도면으로 요약한 것이므로 자세한 설명은 생략하기로 한다.Since each step of the semantic entity topic extraction method described later can be understood through FIG. 5, it can be referred to when reading the following contents. However, FIG. 5 summarizes the steps of FIG. 6 with reference to the drawings, so a detailed description thereof will be omitted.

도 6은 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법을 설명하기 위한 흐름도이다.6 is a flowchart illustrating a method for extracting a semantic entity topic using the semantic entity topic extraction apparatus shown in FIG.

시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치, 예컨대 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용하여 구현될 수 있다.The semantic entity topic extraction method can be implemented by using a device capable of calculating a probability distribution, for example, a semantic entity topic extraction apparatus shown in Fig.

단계 S110에서, 토픽 어휘 분포 추출기(404)는 토픽에 대한 어휘 분포를 추출하고, 감정 기반 엔티티 어휘 분포 추출기(405)는 감정 기반 엔티티에 대한 어휘 분포를 추출한다. 이때, 토픽 어휘 분포 추출기(404) 또는 감정 기반 엔티티 어휘 분포 추출기(405)는 토픽을 구성하는 어휘 또는 감정 기반 엔티티를 구성하는 어휘에 대해 디리클레 사전확률을 기초로 확률 분포를 추출할 수 있다.In step S110, the topic lexical distribution extractor 404 extracts a lexical distribution for the topic, and the emotion-based entity lexical distribution extractor 405 extracts a lexical distribution for the emotion-based entity. At this time, the topic lexical distribution extractor 404 or the emotion-based entity lexical distribution extractor 405 may extract a probability distribution based on the diclick prior probability for a lexicon constituting a topic or a vocabulary constituting an emotion-based entity.

단계 S120에서, 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 단계 S110에서 추출된 각 분포, 즉 추출된 토픽에 대한 어휘 분포와 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출한다. 이때, 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 단계 S110에서 추출된 확률 분포를 이용해 토픽-감정 기반 엔티티 쌍을 구성하는 어휘에 대해 디리클레 사전확률을 기초로 확률 분포를 추출할 수 있다.In step S120, the topic-emotion-based entity pair lexical distribution extractor 406 extracts the topic-emotion-based entity pair 406 using each distribution extracted in step S110, that is, the lexical distribution for the extracted topic and the lexical distribution for the emotion- And extracts the lexical distribution. At this time, the topic-emotion-based entity pair lexical distribution extractor 406 may extract the probability distribution based on the diclick prior probability for the vocabulary constituting the topic-emotion based entity pair using the probability distribution extracted in step S110.

아래의 수학식 1은 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 구하는 수식이다. 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 상기 수학식 1을 이용하여 토픽에 대한 엔티티의 감정이 반영된 의견을 추출할 수 있는 어휘 분포를 산출할 수 있고, 이를 통해 다양한 측면에서 엔티티에 대한 선호도를 분석할 수 있다.Equation 1 below is a formula for obtaining a vocabulary distribution for a topic-emotion-based entity pair. The topic-emotion-based entity pair lexical distribution extractor 406 can calculate a lexical distribution capable of extracting opinions reflecting an emotion of an entity with respect to a topic using Equation 1, Preference can be analyzed.

Figure 112014124992499-pat00001
Figure 112014124992499-pat00001

단계 S130에서, 각 문서에 대해 토픽 분포 추출기(401)는 토픽 분포를 추출하고, 감정 분포 추출기(402)는 감정 분포를 추출하고, 엔티티 분포 추출기(403)는 엔티티 분포를 추출한다. 즉, 엔티티 분포 추출기(403)는 사전에 문서 집합으로부터 추출한 엔티티 집합을 이용해 각 문서와 연관된 엔티티에 대한 엔티티 분포를 추출할 수 있다. 이때, 엔티티 분포를 추출함에 있어서, 각 문서는 엔티티 집합에 포함된 모든 엔티티에 연관되어 있지 않을 가능성이 크다. 따라서, 각 문서와 연관된 엔티티만을 고려하여 각 문서에 대한 엔티티 분포를 추출한다. 사전에 구축한 엔티티 집합은 각 엔티티가 어떤 문서에서 추출되었는지에 대한 출처 정보를 포함할 수 있다. 따라서, 상기 엔티티 집합을 이용해 각 문서에 연관된 엔티티에만 해당 문서에 대한 확률을 부여함으로써 보다 정확한 엔티티 분포를 구축할 수 있다.In step S130, for each document, the topic distribution extractor 401 extracts the topic distribution, the emotion distribution extractor 402 extracts the emotion distribution, and the entity distribution extractor 403 extracts the entity distribution. That is, the entity distribution extractor 403 can extract the entity distribution for the entities associated with each document using the entity set extracted from the document set in advance. At this time, in extracting the entity distribution, it is highly likely that each document is not associated with all the entities included in the entity set. Therefore, the entity distribution for each document is extracted considering only the entities associated with each document. The pre-built entity set may contain source information about which document each entity was extracted from. Thus, by using the set of entities, it is possible to construct a more accurate entity distribution by giving only the entities associated with each document a probability for the document.

또한, 문서 집합의 각 문서는 포함하는 엔티티와 연관되어있을 가능성이 크다. 예컨대, 특정 스마트폰 제품에 대한 의견이 기술되어 있는 문서에서 엔티티 "Note 4"를 확인함으로써, 해당 문서가 상기 엔티티와 연관되어 있다는 것을 알 수 있다.Also, each document in the document set is likely to be associated with the containing entity. For example, by identifying the entity "Note 4 " in a document in which comments for a particular smartphone product are described, it can be seen that the document is associated with the entity.

따라서, 엔티티 분포를 효과적으로 추출하기 위해, 사전에 구축한 엔티티 집합을 각 문서와 연관된 엔티티를 찾기 위한 명시적인 정보로서 사용할 수 있다. 이는 문서 내에 명시적으로 표현된 엔티티를 확인함으로써, 각 문서에 기술된 의견의 대상을 찾을 수 있다.Thus, in order to effectively extract the entity distribution, a pre-built entity set can be used as explicit information to find entities associated with each document. This identifies the entities explicitly represented in the document, thereby finding the object of the comments described in each document.

하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 각 문서가 포함하는 하나 이상의 엔티티를 추출해 엔티티 집합을 구축할 때, 상기 엔티티 집합은 자동화된 장치를 사용하거나 장치 관리자가 직접 추출해 구축할 수 있다.When extracting one or more entities included in each document from a set of documents describing comments for one or more entities to construct an entity set, the entity set may be automated or constructed by the device administrator.

단계 S140에서, 통계적 추론기(407)는 추출된 각 분포, 즉 토픽에 대한 어휘 분포, 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포, 토픽 분포, 감정 분포, 및 엔티티 분포에 대해 통계적 추론을 수행한다. 통계적 추론(statistical inference)을 수행하는 과정에서 깁스 샘플링(Gibbs sampling)이 이용될 수 있다.In step S140, the statistical inference unit 407 performs statistical inference on each extracted distribution, i.e., the lexical distribution for the topic, the lexical distribution for the topic-emotion based entity pair, the topic distribution, the emotional distribution, and the entity distribution . Gibbs sampling can be used in the process of performing statistical inference.

아래의 수학식 2는 감정에 대한 샘플링 분포를 나타낸다. 즉, 주어진 단어가 엔티티에 대한 의견을 표현함에 있어 나타나는 감정에 대한 확률을 나타내는 수식이다. Equation 2 below shows the sampling distribution for emotion. That is, it is a formula that expresses the probability of emotion that a given word has in expressing opinions about an entity.

Figure 112014124992499-pat00002
Figure 112014124992499-pat00002

아래의 수학식 3은 수학식 2로부터 주어진 단어의 엔티티에 대한 감정이 정해졌을 때, 주어진 단어가 표현하는 토픽 및 엔티티에 대한 확률을 나타내는 수식이다.Equation (3) below is a formula representing the probability of a topic represented by a given word and an entity when an emotion for an entity of a given word is determined from Equation (2).

Figure 112014124992499-pat00003
Figure 112014124992499-pat00003

단계 S150에서, 통계적 추론기(407)는 각 문서의 각 단어에 대해, 토픽 분포에서 토픽을 추출하고, 감정 분포에서 엔티티에 대한 감정을 추출하고, 추출된 감정과 엔티티 분포에서 엔티티를 선택 또는 추출한다. 단계 S150에서, 단어를 추출할 토픽, 엔티티, 및 엔티티에 대한 감정이 자동으로 선택된다.In step S150, the statistical inference unit 407 extracts the topic from the topic distribution, extracts the emotion for the entity from the emotion distribution, and selects or extracts the entity from the extracted emotion and entity distribution, do. In step S150, the emotion for the topic, entity, and entity from which the word is to be extracted is automatically selected.

단계 S160에서, 통계적 추론기(407)는 추출된 토픽, 감정, 및 엔티티를 기초로 토픽-감정 기반 엔티티 쌍에 대한 어취 분포에서 단어를 선택 또는 추출한다. 이로써 하나 이상의 엔티티에 대한 감정이 반영된 의견이 기술된 문서 집합으로부터 시맨틱 엔티티 토픽의 추출이 완료된다. In step S160, the statistical inference unit 407 selects or extracts the words in the catchment distribution for the topic-emotion-based entity pairs based on the extracted topics, emotions, and entities. This completes the extraction of the semantic entity topic from the document set describing the opinion reflecting the emotion for one or more entities.

10 : 시맨틱 엔티티 토픽 추출 장치
100 : 문서 저장부
200 : 엔티티 토픽 모델 저장부
300 : 문서 수집부
400 : 엔티티 토픽 추출부
401 : 토픽 분포 추출기
402 : 감정 분포 추출기
403 : 엔티티 분포 추출기
404 : 토픽 어휘 분포 추출기
405 : 감정 기반 엔티티 어휘 분포 추출기
406 : 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기
407 : 통계적 추론기
10: Semantic entity topic extracting device
100: Document storage unit
200: Entity topic model storage unit
300: Document collecting section
400: Entity topic extracting unit
401: Topic distribution extractor
402: Emotion distribution extractor
403: Entity distribution extractor
404: Topic lexical distribution extractor
405: emotion-based entity lexical distribution extractor
406: Topic-emotion-based entity pair lexical distribution extractor
407: Statistical inference

Claims (4)

확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법에 있어서,
(a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계;
(b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계;
(c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계;
(d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계;
(e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계; 및
(f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함하고,
상기 통계적 추론에는 깁스 샘플링(Gibbs sampling) 기법이 사용되고,
상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계는 수학식에 의해 정의되는 확률분포를 이용하여 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하고,
상기 수학식은,
Figure 112016113917193-pat00045
이고,
상기
Figure 112016113917193-pat00046
는 단어를 의미하고, 상기
Figure 112016113917193-pat00047
는 토픽을 의미하고, 상기
Figure 112016113917193-pat00048
는 엔티티를 의미하고, 상기
Figure 112016113917193-pat00049
은 감정을 의미하고, 상기
Figure 112016113917193-pat00050
는 토픽의 집합을 의미하고, 상기
Figure 112016113917193-pat00051
는 엔티티의 집합을 의미하고, 상기
Figure 112016113917193-pat00052
는 감정의 집합을 의미하고, 상기
Figure 112016113917193-pat00053
는 모델에 사용되는 변수의 집합을 의미하고, 상기
Figure 112016113917193-pat00054
은 토픽(
Figure 112016113917193-pat00055
)과 감정(
Figure 112016113917193-pat00056
)을 가진 엔티티(
Figure 112016113917193-pat00057
)에 할당된 단어(
Figure 112016113917193-pat00058
)의 개수를 의미하고, 상기
Figure 112016113917193-pat00059
은 토픽-감정 기반 엔티티 쌍의 어휘 분포를 위한 토픽의 디리클레 사전확률을 의미하고, 상기
Figure 112016113917193-pat00060
는 토픽(
Figure 112016113917193-pat00061
)에 할당된 단어(
Figure 112016113917193-pat00062
)의 개수를 의미하고, 상기
Figure 112016113917193-pat00063
는 토픽의 어휘 분포를 위한 디리클레 사전확률을 의미하고, 상기
Figure 112016113917193-pat00064
는 문서 집합 내의 단어의 개수를 의미하고, 상기
Figure 112016113917193-pat00065
는 문서 집합의 단어 중 토픽(
Figure 112016113917193-pat00066
)에 할당된 단어의 개수를 의미하고, 상기
Figure 112016113917193-pat00067
는 토픽-감정 기반 엔티티 쌍의 어휘 분포를 위한 감정 기반 엔티티의 디리클레 사전확률을 의미하고, 상기
Figure 112016113917193-pat00068
는 감정(
Figure 112016113917193-pat00069
)을 가진 엔티티(
Figure 112016113917193-pat00070
)에 할당된 단어(
Figure 112016113917193-pat00071
)의 개수를 의미하고, 상기
Figure 112016113917193-pat00072
는 엔티티의 어휘 분포를 위한 디리클레 사전확률을 의미하고, 상기
Figure 112016113917193-pat00073
는 문서 집합의 단어 중 감정(
Figure 112016113917193-pat00074
)을 가진 엔티티(
Figure 112016113917193-pat00075
)에 할당된 단어의 개수를 의미하고, 상기
Figure 112016113917193-pat00076
는 문서 집합의 단어 중 토픽(
Figure 112016113917193-pat00077
)과 감정(
Figure 112016113917193-pat00078
)을 가진 엔티티(
Figure 112016113917193-pat00079
)에 할당된 단어의 개수를 의미하는,
시맨틱 엔티티 토픽 추출 방법.
A method of extracting a semantic entity topic from a set of documents describing comments for one or more entities using a device capable of calculating a probability distribution,
(a) extracting a vocabulary distribution for a topic and a vocabulary distribution for an emotion-based entity that is a vocabulary distribution for the entity in which the emotion is reflected;
(b) extracting a vocabulary distribution for the topic-emotion-based entity pair using the lexical distribution for the topic and the lexical distribution for the emotion-based entity;
(c) for each document included in the document set, extracting a topic distribution, an emotion distribution, and an entity distribution;
(d) performing statistical inference on each distribution extracted in steps (a) to (c);
(e) extracting topics, emotions, and entities for each word of each document included in the document set; And
(f) selecting a word corresponding to the topic, emotion, and entity extracted in the step (e) in the lexical distribution for the topic-emotion-based entity pair,
The Gibbs sampling technique is used for the statistical reasoning,
Extracting a lexical distribution for the topic-emotion-based entity pair includes extracting a lexical distribution for the topic-emotion-based entity pair using a probability distribution defined by an equation,
The above-
Figure 112016113917193-pat00045
ego,
remind
Figure 112016113917193-pat00046
Means a word, and
Figure 112016113917193-pat00047
Means a topic,
Figure 112016113917193-pat00048
Means an entity,
Figure 112016113917193-pat00049
Means emotion, and
Figure 112016113917193-pat00050
Means a set of topics,
Figure 112016113917193-pat00051
Denotes a set of entities,
Figure 112016113917193-pat00052
Means a set of emotions,
Figure 112016113917193-pat00053
Denotes a set of variables used in the model,
Figure 112016113917193-pat00054
Is a topic (
Figure 112016113917193-pat00055
) And emotions
Figure 112016113917193-pat00056
) Entity (
Figure 112016113917193-pat00057
) ≪ / RTI >
Figure 112016113917193-pat00058
), ≪ / RTI >
Figure 112016113917193-pat00059
Means a dichroic prior probability of a topic for lexical distribution of a topic-emotion-based entity pair,
Figure 112016113917193-pat00060
Is a topic (
Figure 112016113917193-pat00061
) ≪ / RTI >
Figure 112016113917193-pat00062
), ≪ / RTI >
Figure 112016113917193-pat00063
Denotes a dirikler dictionary probability for lexical distribution of a topic,
Figure 112016113917193-pat00064
Denotes the number of words in the document set,
Figure 112016113917193-pat00065
Is the topic of a word in the document set (
Figure 112016113917193-pat00066
), ≪ / RTI >< RTI ID = 0.0 >
Figure 112016113917193-pat00067
Means a dirichlet prior probability of an emotion-based entity for lexical distribution of a topic-emotion-based entity pair,
Figure 112016113917193-pat00068
The emotion (
Figure 112016113917193-pat00069
) Entity (
Figure 112016113917193-pat00070
) ≪ / RTI >
Figure 112016113917193-pat00071
), ≪ / RTI >
Figure 112016113917193-pat00072
Means a dirikler dictionary probability for the lexical distribution of the entity,
Figure 112016113917193-pat00073
Is the emotion of the words in the document set (
Figure 112016113917193-pat00074
) Entity (
Figure 112016113917193-pat00075
), ≪ / RTI >< RTI ID = 0.0 >
Figure 112016113917193-pat00076
Is the topic of a word in the document set (
Figure 112016113917193-pat00077
) And emotions
Figure 112016113917193-pat00078
) Entity (
Figure 112016113917193-pat00079
), ≪ / RTI >< RTI ID = 0.0 >
Semantic entity topic extraction method.
제1항에 있어서,
상기 확률 분포는 다항 분포(multinomial distribution)인, 시맨틱 엔티티 토픽 추출 방법.
The method according to claim 1,
Wherein the probability distribution is a multinomial distribution.
제1항에 있어서,
상기 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축되는, 시맨틱 엔티티 토픽 추출 방법.
The method according to claim 1,
Wherein the probability distribution is constructed based on a Dirichlet prior probability.
삭제delete
KR1020140187010A 2014-12-23 2014-12-23 Method for extracting semantic entity topic KR101727686B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140187010A KR101727686B1 (en) 2014-12-23 2014-12-23 Method for extracting semantic entity topic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140187010A KR101727686B1 (en) 2014-12-23 2014-12-23 Method for extracting semantic entity topic

Publications (2)

Publication Number Publication Date
KR20160077446A KR20160077446A (en) 2016-07-04
KR101727686B1 true KR101727686B1 (en) 2017-04-20

Family

ID=56500895

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140187010A KR101727686B1 (en) 2014-12-23 2014-12-23 Method for extracting semantic entity topic

Country Status (1)

Country Link
KR (1) KR101727686B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287477B (en) * 2018-03-16 2021-05-25 北京国双科技有限公司 Entity emotion analysis method and related device
CN110765762B (en) * 2019-09-29 2023-04-18 杭州电子科技大学上虞科学与工程研究院有限公司 System and method for extracting optimal theme of online comment text under big data background
CN112612895B (en) * 2020-12-29 2021-12-07 中科院计算技术研究所大数据研究院 Method for calculating attitude index of main topic
KR102594734B1 (en) * 2021-06-24 2023-10-26 주식회사 렉스퍼 Text analysis method using lda topic modeling technique and text analysis apparatus performing the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198278A (en) 2009-02-25 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for classification of reputation information
JP2011150450A (en) 2010-01-20 2011-08-04 Sony Corp Apparatus, method and program for processing information

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510257B2 (en) 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198278A (en) 2009-02-25 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for classification of reputation information
JP2011150450A (en) 2010-01-20 2011-08-04 Sony Corp Apparatus, method and program for processing information

Also Published As

Publication number Publication date
KR20160077446A (en) 2016-07-04

Similar Documents

Publication Publication Date Title
Neogi et al. Sentiment analysis and classification of Indian farmers’ protest using twitter data
Shiha et al. The effects of emoji in sentiment analysis
Trupthi et al. Sentiment analysis on twitter using streaming API
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
KR101448228B1 (en) Apparatus and Method for social data analysis
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
US20130054638A1 (en) System for detecting and tracking topic based on opinion and social-influencer for each topic and method thereof
CN108305180B (en) Friend recommendation method and device
KR101727686B1 (en) Method for extracting semantic entity topic
KR20150086441A (en) Connecting people based on content and relational distance
US20140147048A1 (en) Document quality measurement
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
JP5318034B2 (en) Information providing apparatus, information providing method, and information providing program
Zou et al. Exploring user engagement strategies and their impacts with social media mining: the case of public libraries
Ulfa et al. Twitter Sentiment Analysis using Na¨ ive Bayes Classifier with Mutual Information Feature Selection
Laureate et al. A systematic review of the use of topic models for short text social media analysis
Dang et al. Adoption of social media search systems: An IS success model perspective
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
US20140019464A1 (en) Preference visualization system and censorship system
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Albalawi et al. Toward a real-time social recommendation system
Hossein et al. Predicting motion picture box office performance using temporal tweet patterns
CN108780660B (en) Apparatus, system, and method for classifying cognitive bias in a microblog relative to healthcare-centric evidence
Gascó et al. Evaluating noise perception through online social networks: A text mining approach to designing a noise-event alarm system based on social media content
Kiomourtzis et al. NOMAD: Linguistic Resources and Tools Aimed at Policy Formulation and Validation.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
E902 Notification of reason for refusal
GRNT Written decision to grant