KR20160077446A - 시맨틱 엔티티 토픽 추출 방법 - Google Patents

시맨틱 엔티티 토픽 추출 방법 Download PDF

Info

Publication number
KR20160077446A
KR20160077446A KR1020140187010A KR20140187010A KR20160077446A KR 20160077446 A KR20160077446 A KR 20160077446A KR 1020140187010 A KR1020140187010 A KR 1020140187010A KR 20140187010 A KR20140187010 A KR 20140187010A KR 20160077446 A KR20160077446 A KR 20160077446A
Authority
KR
South Korea
Prior art keywords
entity
distribution
topic
emotion
extracting
Prior art date
Application number
KR1020140187010A
Other languages
English (en)
Other versions
KR101727686B1 (ko
Inventor
이상근
류우종
Original Assignee
고려대학교 산학협력단
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단, 포항공과대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140187010A priority Critical patent/KR101727686B1/ko
Publication of KR20160077446A publication Critical patent/KR20160077446A/ko
Application granted granted Critical
Publication of KR101727686B1 publication Critical patent/KR101727686B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

시맨틱 엔티티 토픽 추출 방법이 개시된다. 상기 시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법으로서, (a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계, (b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계, (c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계, (d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계, (e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계, 및 (f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함한다.

Description

시맨틱 엔티티 토픽 추출 방법{METHOD FOR EXTRACTING SEMANTIC ENTITY TOPIC}
본 발명은 다양한 토픽 상에서 엔티티에 대한 감정이 반영된 의견을 추출하는 기술에 관한 것으로, 보다 상세하게는 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 다양한 측면에서 엔티티에 대한 의견을 추출하고, 추출된 의견을 감정에 따라 긍정 및 부정의 형태로 자동 분류하여 추출하는 시맨틱 엔티티 토픽 추출 방법에 관한 것이다.
마이크로 블로깅 및 온라인 리뷰 서비스와 같은 다양한 웹 서비스의 보급과 웹 서비스의 사용자가 증가함에 따라, 사용자들은 웹 서비스를 통해 다양한 의견을 기술하고 있다. 이러한 의견들은 대부분 특정 이슈, 제품(또는 서비스), 인물과 같은 엔티티(entity)에 대해 기술하는 경우가 대부분이다. 엔티티란, 실제 또는 가상으로 존재하는 것으로 이름을 가짐으로써 하나의 독립적인 의미를 가질 수 있고, 물질로서 존재할 필요는 없는 것이다. 즉, 제품명, 서비스명, 회사명, 소설의 인물명, 인명, 사건명, 단체명 등이 엔티티에 해당할 수 있다. 따라서, 사용자들의 주된 관심의 대상인 엔티티에 대한 의견을 분석해 가치있는 정보를 추출하기 위한 다양한 연구가 진행되고 있다.
엔티티 토픽 모델(Entity Topic Model)은 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 다양한 토픽(topic) 상에서 각 엔티티에 대한 의견을 추출하기 위한 기술이다. 하지만 종래의 엔티티 토픽 모델의 경우, 각 엔티티에 대한 의견을 추출함에 있어서, 의견에 반영된 감정(sentiment)을 고려하지 않는다. 따라서, 각 엔티티에게 가지는 의견을 긍정 및 부정의 형태로 분류하여 추출할 수 없고, 엔티티에 대한 선호도를 분석할 수 없는 한계점이 있다.
미합중국 공개특허 제2012/0095952호 미합중국 등록특허 제7,853,596호
본 발명은 전술한 문제를 해결하기 위해 안출된 것으로서, 다양한 측면에서 엔티티에 대한 의견을 추출하고, 추출된 의견을 감정에 따라 자동으로 분류하여 추출하는 시맨틱 엔티티 토픽 추출 방법을 제공하는 것이다.
본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법으로서, (a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계, (b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계, (c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계, (d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계, (e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계, 및 (f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함한다.
본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 방법에 의할 경우, 토픽, 엔티티에 대한 의견 및 의견에 반영된 감정을 자동으로 추출함으로써, 다양한 측면에서 엔티티에 대한 의견을 감정에 따라 긍정 및 부정의 형태로 자동으로 분류하고 추출할 수 있다. 따라서, 엔티티에 대한 의견을 다양한 측면에서 분석 가능하고, 감정에 따라 분석 가능하기 때문에 엔티티에 대한 선호도를 분석할 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 엔티티 토픽 추출 장치를 도시하고 있다.
도 2는 도 1에 도시된 엔티티 토픽 모델 저장부를 도시한다.
도 3은 도 1에 도시된 엔티티 토픽 추출부를 도시한다.
도 4는 본 발명에서 사용된 표기에 대한 설명을 도시하고 있다.
도 5는 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법의 개념을 설명하기 위한 도면이다.
도 6은 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 엔티티 토픽 추출 장치를 도시하고 있다. 도 1을 참조하면, 시맨틱 엔티티 토픽 추출 장치(10)는 문서 저장부(100), 엔티티 토픽 모델 저장부(200), 문서 수집부(300), 및 엔티티 토픽 추출부(400)를 포함한다.
문서 저장부(100)는 각각이 적어도 하나 이상의 엔티티에 대한 의견이 기술된 하나 이상의 문서를 포함하는 문서 집합을 저장하고, 문서 수집부(300)는 인터넷 등의 네트워크를 통해 하나 이상의 문서를 수집하여 문서 저장부(100)에 저장할 수 있다. 이때, 상기 문서 집합은 기존에 구축된 것일 수도 있다.
엔티티 토픽 추출부(400)는 문서 저장부(100)에 저장된 문서 집합으로부터 시맨틱 엔티티 토픽(semantic entity topic)을 추출할 수 있다. 엔티티 토픽 추출부(400)는 엔티티 토픽 모델 저장부(200)에 저장되어 있는 내용을 이용하여 문서 집합에서 토픽, 상기 토픽과 관련한 엔티티에 대한 의견, 및 상기 의견에 반영된 감정을 추출하고 이 과정에서 엔티티 토픽 모델 저장부(200)의 내용을 갱신할 수 있다. 예를 들어, 엔티티 토픽 추출부(400)는 엔티티에 대한 의견을 감정에 따라 추출할 때 엔티티 토픽 모델 저장부(200)에 저장된 감정 어휘 집합을 사용할 수 있으며, 엔티티에 대한 의견을 추출할 때 엔티티 토픽 모델 저장부(200)에 저장된 엔티티 집합을 사용할 수 있다. 또한, 엔티티 토픽 추출부(400)는 엔티티 토픽 추출시 생성한 엔티티 토픽 모델 및 추출한 엔티티 토픽을 엔티티 토픽 모델 저장부(200)에 저장할 수 있다.
엔티티 토픽 추출부(400)가 엔티티 토픽 추출을 위해 구축하고 사용하는 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축될 수 있다.
확률 분포(probability distribution)를 이용하는 것은 문서에서 시맨틱 토픽을 추출하는 방법에 대한 연구의 한 부류이다. 이는 확률 분포를 이용하여 구축되고 통계적 추론을 통해 잠재 변수(latent variable)를 추정(estimate)가능한 토픽 생성 모델(topic generative model)을 사용하여 토픽을 추출하는 방법이다.
특히, 디리클레 분포(Dirichlet distribution)를 사용한 토픽 생성 구축 방법인 LDA(Latent Dirichlet Allocation)가 주목을 받아왔으며, 이를 변형한 다양한 기법이 소개되었다.
LDA는 각 문서는 다양한 토픽의 혼합체(mixture)이며, 토픽 분포는 디리클레 사전확률을 갖는다고 가정한다. 디리클레 사전확률은 각 문서에 대한 토픽 분포, 각 토픽에 대한 단어 분포를 추출 또는 구축하는데 파라미터(parameter)로서 사용된다. 문서에 포함되어 있는 단어는 유일한 관측 변수(observable variable)이며, 추출된 분포에 포함된 나머지 변수들은 모두 잠재 변수이다. 따라서, 전술한 바와 같이, 문서에 포함되어 있는 단어에 기초한 통계적 추론이 수행되는데, 본 발명의 일 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 깁스 샘플링(Gibbs sampling)을 사용하여 통계적 추론을 수행한다.
사용자가 엔티티에 대해 기술한 의견으로부터 다양한 측면에서의 엔티티에 대한 의견을 추출하고, 긍정 및 부정의 감정의 형태로 자동으로 분류하여 추출함으로써 각 측면에서의 각 엔티티에 대한 선호도 및 각 엔티티에 대한 종합적인 선호도를 추출할 수 있다면 유용할 것이다. 사용자들이 엔티티에 대해 기술한 의견은 엔티티에 대한 피드백으로 제품 제조업체 및 서비스 제공업체, 선거의 각 후보, 행정기관 등이 유용하게 사용할 수 있다. 하지만 마이크로 블로깅 및 온라인 리뷰 서비스와 같은 다양한 웹 서비스 등 다양한 사이트로부터 수집한 정보는 엔티티에 대한 감정이 반영된 의견이 기술되어 있을 뿐 엔티티의 어떤 측면에 대해 기술되었는지, 엔티티의 어떤 측면에 대해 긍정 및 부정의 감정을 가지는지 등으로 정리되어 있지 않은 경우가 많다.
본 발명의 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 다양한 토픽과 관련해 각 엔티티에 대해 기술한 의견을 추출하고, 상기 의견을 감정에 따라 분류하여 추출하는 것을 목표로 한다. 예를 들어, 스마트폰에 관한 토픽에서 엔티티에 해당하는 각 스마트폰 제품에 대해 기술한 의견을 분류하여 추출하고, 각 스마트폰 제품에 대한 "구매하고 싶다", "구매하고 싶지 않다" 등의 선호도를 판단할 수 있는 감정을 추출하는 것이다. 또한 스마트폰의 속성(aspect)에 해당하는 화질에 대한 토픽에서 각 스마트폰 제품에 대해 기술한 의견을 분류하여 추출하고, 각 스마트폰 제품에 대한 "화질이 좋다", "화질이 나쁘다" 등의 엔티티가 가진 속성에 대한 선호도를 판단할 수 있는 감정을 추출하는 것이다. 세월호 사건에 대한 토픽의 경우, 엔티티에 해당하는 행정기관에 대한 의견을 감정에 따라 추출하고, 선거에 대한 토픽의 경우, 엔티티에 해당하는 각 후보에 대한 의견을 감정에 따라 추출하는 것이다.
따라서, 본 발명의 실시 예에 의한 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 종래 방법들과는 달리, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 각 토픽과 관련해 사용자들이 엔티티에게 가지는 의견을 추출하고, 상기 의견을 감정에 따라 분류하여 자동으로 추출할 수 있는 장점이 있다.
예컨대, 본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 하나 이상의 스마트폰 제품에 대한 의견이 기술된 문서 집합에서 스마트폰, 제조사, 통신사 등 각 토픽과 관련해 각 엔티티 "Galaxy Note 4", "iPhone 6"에 대해 기술한 의견을 분류하여 추출하고, 상기 의견으로부터 각 엔티티에 대해 사용자들이 가지는 감정을 긍정 및 부정의 형태로 분류하여 추출할 수 있다. 이렇게 추출한 각 엔티티에 대한 의견 및 감정으로부터 긍정 및 부정의 형태로 의견을 분류하여 추출할 수 있고, 이를 선호도를 분석하는데 사용할 수 있다.
기존의 방법은 엔티티에 대한 의견을 긍정 및 부정의 감정에 따라 추출하지 못하거나, 자동 추출하지 못하는 단점이 있었다. 하지만 본 발명의 실시 예에 따른 시맨틱 엔티티 토픽 추출 장치(10) 및 방법은 다양한 토픽에서 엔티티에 대한 의견 및 의견에 반영된 감정을 모두 추출할 수 있다는 장점이 있다.
토픽, 엔티티 및 상기 엔티티에 대한 감정을 추출하기 위해 사용하는 각 확률 분포는 다항 분포(multinomial distribution)를 따르며, 이들 각 분포를 구축하는 데에는 전술한 바와 같이 디리클레 사전확률이 파라미터로 사용된다.
도 2는 도 1에 도시된 엔티티 토픽 모델 저장부를 도시한다. 도 1과 도 2를 참조하면, 엔티티 토픽 모델 저장부(200)는 문서 저장부(100)에 저장된 문서 집합으로부터 추출한 엔티티 집합을 저장하는 엔티티 집합 저장부(203), 감정 어휘 집합을 저장하는 감정 어휘 집합 저장부(202), 및 엔티티 토픽을 저장하는 엔티티 토픽 저장부(201)를 포함한다. 상기 엔티티 집합은 엔티티 토픽 추출부(400)에서 엔티티 분포를 추출하기 위해 사용될 수 있고, 상기 감정 어휘 집합은 엔티티에 대한 의견을 감정에 따라 추출할 때 사용될 수 있다. 또한, 엔티티 토픽은 기존에 구축된 것일 수 있고, 엔티티 토픽의 추출이 완료되었을 때, 새롭게 생성되거나 기존 내용이 갱신될 수도 있다.
도 3은 도 1에 도시된 엔티티 토픽 추출부를 도시한다. 도 1 내지 도 3을 참조하면, 엔티티 토픽 추출부(400)는 토픽 분포 추출기(401), 감정 분포 추출기(402), 엔티티 분포 추출기(403), 토픽 어휘 분포 추출기(404), 감정 기반 엔티티 어휘 분포 추출기(405), 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406), 및 통계적 추론기(407)을 포함한다.
엔티티 토픽 추출부(400)는 문서 저장부(100)에 저장된 문서 집합으로부터 토픽, 엔티티에 대한 의견 및 상기 의견이 가지는 감정을 추출한다.
구체적으로, 토픽 어휘 분포 추출기(404)는 각 토픽에 대한 어휘 분포, 즉 토픽 어휘 분포를 추출하고, 감정 기반 엔티티 어휘 분포 추출기(405)는 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포, 즉 감정 기반 엔티티 어휘 분포를 추출한다. 상기와 같이, 감정 기반 엔티티 어휘 분포를 추출함으로써, 엔티티에 대한 어휘 분포와 감정에 대한 어휘 분포가 동시에 고려될 수 있다.
토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 추출된 토픽 어휘 분포와 추출된 감정 기반 엔티티 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포, 즉 토픽-감정 기반 엔티티 쌍 어휘 분포를 추출한다.
또한, 토픽 분포 추출기(401)는 문서 집합의 각 문서에 대해 토픽 분포(topic distribution)를 추출하고, 감정 분포 추출기(402)는 상기 문서 집합의 각 문서에 대해 감정 분포(sentiment distribution)를 추출하고, 엔티티 분포 추출기(403)는 상기 문서 집합의 각 문서에 대해 엔티티 분포(entity distribution)를 추출한다.
다음으로, 통계적 추론기(407)는 추출된 각 분포, 즉 토픽 분포, 감정 분포, 엔티티 분포, 토픽 어휘 분포, 감정 기반 엔티티 어휘 분포, 및 토픽-감정 기반 엔티티 쌍 어휘 분포에 대해 통계적 추론을 수행한다. 또한, 통계적 추론기(407)는 문서 집합의 각 문서의 각 단어에 대해, 추출된 각 분포로부터 토픽, 감정, 및 감정이 반영된 엔티티를 추출한다.
이와 같이, 시맨틱 엔티티 토픽 추출 장치(10)는 토픽, 엔티티, 감정으로 이루어진 3차원 공간에서 다양한 토픽 상에서 엔티티에 대한 의견을 감정에 따라 분류해 추출할 수 있다.
도 4는 본 발명에서 사용된 표기에 대한 설명을 도시하고 있다. 도 4를 참조하면, 각 문서는 d, 토픽은 z, 엔티티는 e, 감정은 l, 단어는 w로 표기될 수 있으며, 일반적으로 개수 또는 횟수는 n으로 표기될 수 있다. 단어, 토픽, 엔티티, 감정 등에 대한 확률 분포는 각각 그리스 문자로 표기되어 있으며, 각 확률 분포의 디리클레 사전확률에도 해당 그리스 문자가 할당되어 있다. 또한, Dir() 는 괄호 안의 인수를 기초로 디리클레 분포를 생성하는 것을 의미한다.
도 5는 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법의 개념을 설명하기 위한 도면이다. 도 5에는 각 확률 분포 및 변수가 구해지는 순서를 표기하고 있다. 도 5의 좌측을 보면, 단어의 다항 분포, 즉 어휘 분포(word distribution)는 다음과 같이 산출된다. 토픽에 대한 어휘 분포, 긍정 및 부정의 각 감정 기반의 엔티티에 대한 어휘 분포는 디리클레 사전확률로부터 산출되고, 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포는 앞서 산출한 어휘 분포 및 디리클레 사전확률로부터 산출되며, 최종적으로 단어를 추출하는데 사용된다.
이후 기술되는 시맨틱 엔티티 토픽 추출 방법의 각 단계는 도 5를 통하여 이해할 수 있으므로, 후술하는 내용을 읽을 때 참조할 수 있다. 그러나, 도 5는 도 6의 단계를 도면으로 요약한 것이므로 자세한 설명은 생략하기로 한다.
도 6은 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용한 시맨틱 엔티티 토픽 추출 방법을 설명하기 위한 흐름도이다.
시맨틱 엔티티 토픽 추출 방법은 확률 분포를 계산할 수 있는 장치, 예컨대 도 1에 도시된 시맨틱 엔티티 토픽 추출 장치를 이용하여 구현될 수 있다.
단계 S110에서, 토픽 어휘 분포 추출기(404)는 토픽에 대한 어휘 분포를 추출하고, 감정 기반 엔티티 어휘 분포 추출기(405)는 감정 기반 엔티티에 대한 어휘 분포를 추출한다. 이때, 토픽 어휘 분포 추출기(404) 또는 감정 기반 엔티티 어휘 분포 추출기(405)는 토픽을 구성하는 어휘 또는 감정 기반 엔티티를 구성하는 어휘에 대해 디리클레 사전확률을 기초로 확률 분포를 추출할 수 있다.
단계 S120에서, 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 단계 S110에서 추출된 각 분포, 즉 추출된 토픽에 대한 어휘 분포와 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출한다. 이때, 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 단계 S110에서 추출된 확률 분포를 이용해 토픽-감정 기반 엔티티 쌍을 구성하는 어휘에 대해 디리클레 사전확률을 기초로 확률 분포를 추출할 수 있다.
아래의 수학식 1은 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 구하는 수식이다. 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기(406)는 상기 수학식 1을 이용하여 토픽에 대한 엔티티의 감정이 반영된 의견을 추출할 수 있는 어휘 분포를 산출할 수 있고, 이를 통해 다양한 측면에서 엔티티에 대한 선호도를 분석할 수 있다.
Figure pat00001
단계 S130에서, 각 문서에 대해 토픽 분포 추출기(401)는 토픽 분포를 추출하고, 감정 분포 추출기(402)는 감정 분포를 추출하고, 엔티티 분포 추출기(403)는 엔티티 분포를 추출한다. 즉, 엔티티 분포 추출기(403)는 사전에 문서 집합으로부터 추출한 엔티티 집합을 이용해 각 문서와 연관된 엔티티에 대한 엔티티 분포를 추출할 수 있다. 이때, 엔티티 분포를 추출함에 있어서, 각 문서는 엔티티 집합에 포함된 모든 엔티티에 연관되어 있지 않을 가능성이 크다. 따라서, 각 문서와 연관된 엔티티만을 고려하여 각 문서에 대한 엔티티 분포를 추출한다. 사전에 구축한 엔티티 집합은 각 엔티티가 어떤 문서에서 추출되었는지에 대한 출처 정보를 포함할 수 있다. 따라서, 상기 엔티티 집합을 이용해 각 문서에 연관된 엔티티에만 해당 문서에 대한 확률을 부여함으로써 보다 정확한 엔티티 분포를 구축할 수 있다.
또한, 문서 집합의 각 문서는 포함하는 엔티티와 연관되어있을 가능성이 크다. 예컨대, 특정 스마트폰 제품에 대한 의견이 기술되어 있는 문서에서 엔티티 "Note 4"를 확인함으로써, 해당 문서가 상기 엔티티와 연관되어 있다는 것을 알 수 있다.
따라서, 엔티티 분포를 효과적으로 추출하기 위해, 사전에 구축한 엔티티 집합을 각 문서와 연관된 엔티티를 찾기 위한 명시적인 정보로서 사용할 수 있다. 이는 문서 내에 명시적으로 표현된 엔티티를 확인함으로써, 각 문서에 기술된 의견의 대상을 찾을 수 있다.
하나 이상의 엔티티에 대한 의견이 기술된 문서 집합으로부터 각 문서가 포함하는 하나 이상의 엔티티를 추출해 엔티티 집합을 구축할 때, 상기 엔티티 집합은 자동화된 장치를 사용하거나 장치 관리자가 직접 추출해 구축할 수 있다.
단계 S140에서, 통계적 추론기(407)는 추출된 각 분포, 즉 토픽에 대한 어휘 분포, 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포, 토픽 분포, 감정 분포, 및 엔티티 분포에 대해 통계적 추론을 수행한다. 통계적 추론(statistical inference)을 수행하는 과정에서 깁스 샘플링(Gibbs sampling)이 이용될 수 있다.
아래의 수학식 2는 감정에 대한 샘플링 분포를 나타낸다. 즉, 주어진 단어가 엔티티에 대한 의견을 표현함에 있어 나타나는 감정에 대한 확률을 나타내는 수식이다.
Figure pat00002
아래의 수학식 3은 수학식 2로부터 주어진 단어의 엔티티에 대한 감정이 정해졌을 때, 주어진 단어가 표현하는 토픽 및 엔티티에 대한 확률을 나타내는 수식이다.
Figure pat00003
단계 S150에서, 통계적 추론기(407)는 각 문서의 각 단어에 대해, 토픽 분포에서 토픽을 추출하고, 감정 분포에서 엔티티에 대한 감정을 추출하고, 추출된 감정과 엔티티 분포에서 엔티티를 선택 또는 추출한다. 단계 S150에서, 단어를 추출할 토픽, 엔티티, 및 엔티티에 대한 감정이 자동으로 선택된다.
단계 S160에서, 통계적 추론기(407)는 추출된 토픽, 감정, 및 엔티티를 기초로 토픽-감정 기반 엔티티 쌍에 대한 어취 분포에서 단어를 선택 또는 추출한다. 이로써 하나 이상의 엔티티에 대한 감정이 반영된 의견이 기술된 문서 집합으로부터 시맨틱 엔티티 토픽의 추출이 완료된다.
10 : 시맨틱 엔티티 토픽 추출 장치
100 : 문서 저장부
200 : 엔티티 토픽 모델 저장부
300 : 문서 수집부
400 : 엔티티 토픽 추출부
401 : 토픽 분포 추출기
402 : 감정 분포 추출기
403 : 엔티티 분포 추출기
404 : 토픽 어휘 분포 추출기
405 : 감정 기반 엔티티 어휘 분포 추출기
406 : 토픽-감정 기반 엔티티 쌍 어휘 분포 추출기
407 : 통계적 추론기

Claims (4)

  1. 확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법에 있어서,
    (a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계;
    (b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계;
    (c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계;
    (d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계;
    (e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계; 및
    (f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함하는,
    시맨틱 엔티티 토픽 추출 방법.
  2. 제1항에 있어서,
    상기 각 확률 분포는 다항 분포(multinomial distribution)인, 시맨틱 엔티티 토픽 추출 방법.
  3. 제1항에 있어서,
    상기 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축되는, 시맨틱 엔티티 토픽 추출 방법.
  4. 제1항에 있어서,
    상기 통계적 추론에는 깁스 샘플링(Gibbs sampling) 기법이 사용되는, 시맨틱 엔티티 토픽 추출 방법.
KR1020140187010A 2014-12-23 2014-12-23 시맨틱 엔티티 토픽 추출 방법 KR101727686B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140187010A KR101727686B1 (ko) 2014-12-23 2014-12-23 시맨틱 엔티티 토픽 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140187010A KR101727686B1 (ko) 2014-12-23 2014-12-23 시맨틱 엔티티 토픽 추출 방법

Publications (2)

Publication Number Publication Date
KR20160077446A true KR20160077446A (ko) 2016-07-04
KR101727686B1 KR101727686B1 (ko) 2017-04-20

Family

ID=56500895

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140187010A KR101727686B1 (ko) 2014-12-23 2014-12-23 시맨틱 엔티티 토픽 추출 방법

Country Status (1)

Country Link
KR (1) KR101727686B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
KR20230000397A (ko) * 2021-06-24 2023-01-02 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5224532B2 (ja) 2009-02-25 2013-07-03 日本電信電話株式会社 評判情報分類装置及びプログラム
JP2011150450A (ja) 2010-01-20 2011-08-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
미합중국 등록특허 제7,853,596호

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN110765762B (zh) * 2019-09-29 2023-04-18 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
KR20230000397A (ko) * 2021-06-24 2023-01-02 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치

Also Published As

Publication number Publication date
KR101727686B1 (ko) 2017-04-20

Similar Documents

Publication Publication Date Title
Shiha et al. The effects of emoji in sentiment analysis
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
Tuarob et al. Fad or here to stay: Predicting product market adoption and longevity using large scale, social media data
Shukri et al. Twitter sentiment analysis: A case study in the automotive industry
KR101695011B1 (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
KR101448228B1 (ko) 소셜 데이터 분석 장치 및 방법
CN104350490A (zh) 用于组织与产品相关的数据的方法、装置以及计算机可读介质
CN108305180B (zh) 一种好友推荐方法及装置
CN104111925B (zh) 项目推荐方法和装置
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
KR20150086441A (ko) 콘텐츠 및 상관 거리에 기반하는 사람 연결
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
KR101727686B1 (ko) 시맨틱 엔티티 토픽 추출 방법
Zou et al. Exploring user engagement strategies and their impacts with social media mining: the case of public libraries
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
Kaveri et al. A framework for recommending health-related topics based on topic modeling in conversational data (Twitter)
US10055487B2 (en) Preference visualization system and censorship system
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Nirmala et al. Twitter data analysis for unemployment crisis
Hossein et al. Predicting motion picture box office performance using temporal tweet patterns
Anwar et al. Social relationship analysis using state-of-the-art embeddings
Sharma et al. Sentiment analysis on social networking: A literature review
Pajo et al. Towards automatic and accurate lead user identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
E902 Notification of reason for refusal
GRNT Written decision to grant