KR101423544B1 - 시맨틱 토픽 추출 장치 및 방법 - Google Patents
시맨틱 토픽 추출 장치 및 방법 Download PDFInfo
- Publication number
- KR101423544B1 KR101423544B1 KR1020120141313A KR20120141313A KR101423544B1 KR 101423544 B1 KR101423544 B1 KR 101423544B1 KR 1020120141313 A KR1020120141313 A KR 1020120141313A KR 20120141313 A KR20120141313 A KR 20120141313A KR 101423544 B1 KR101423544 B1 KR 101423544B1
- Authority
- KR
- South Korea
- Prior art keywords
- topic
- distribution
- global
- extracting
- document
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/22—Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
- G06F7/24—Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/40—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for devices for accepting orders, advertisements, or the like
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 확률 분포를 계산할 수 있는 장치를 이용하여, 평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합에서 시맨틱 토픽(semantic topic)을 추출하는 방법에 있어서, (a) 전역 토픽-감상 쌍에 대한 어휘 분포 및 지역 토픽-감상 쌍에 대한 어휘 분포를 추출하는 단계; (b) 상기 문서 집합의 각 문서에 대해, 전역 토픽 분포(global topic distribution) 및 전역 토픽에 대한 감상 분포(sentiment distribution), 지역 토픽 분포(local topic distribution) 및 지역 토픽에 대한 감상 분포를 추출하는 단계; (c) 상기 (a) 및 (b) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계; 및 (d) 상기 문서 집합의 각 문서의 각 단어에 대해, 상기 전역 토픽 분포 및 전역 토픽에 대한 감상 분포 또는 지역 토픽 분포 및 지역 토픽에 대한 감상 분포로부터, 전역 또는 지역 토픽 및 상기 전역 또는 지역 토픽과 연관된 감상을 추출하고, 상기 추출된 토픽 및 감상을 기초로, 상기 전역 토픽-감상 쌍에 대한 어휘 분포 또는 지역 토픽-감상 쌍에 대한 어휘 분포로부터 단어를 추출하는 단계;를 포함하는 시맨틱 토픽 추출 방법을 제공한다.
Description
본 발명은 시맨틱 토픽 추출 장치 및 방법에 관한 것이다.
문서에서 시맨틱 토픽(semantic topic)을 추출하는 기술은 최근 가장 많은 주목을 받고 있는 분야 중 하나이다. 특히, 블로그나 소셜 네트워킹 서비스 사이트들이 인기를 얻음에 따라, 사용자가 인터넷에 올린 글에서 평가 대상에 대한 의견을 자동 추출하기 위한 연구가 많이 이루어지고 있다.
그러나 종래 방법으로는 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 상기 토픽에 대한 감상(sentiment)을 자동 추출하지 못하는 문제가 있다.
문서에서 토픽을 추출하는 문제와 관련하여 미국공개특허 제US 2012/0095952호("COLLAPSED GIBBS SAMPLER FOR SPARSE TOPIC MODELS AND DISCRETE MATRIX FACTORIZATION")에는 LDA(Latent Dirichlet Allocation)와 IBP(Indian Buffet Process)를 사용하여 Dirichlet 확률 분포를 생성하고, 일종의 깁스 샘플링(collapsed Gibbs sampling) 기법을 사용하여 추론함으로써 문서 코퍼스의 토픽을 추출하는 하는 구성이 개시되어 있다.
또한, 미국등록특허 제US 7,853,596호("Mining geographic knowledge using a location aware topic mode")에는 LDA(Latent Dirichlet Allocation)를 활용하여 확률 분포를 생성하고, EM(Expectation Maximazation) 기법을 사용하여 추론함으로써 문서가 포함하고 있는 위치 정보를 추출하는 하는 구성이 개시되어 있다.
본 발명은 전술한 문제를 해결하기 위한 것으로서, 그 목적은 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 상기 토픽에 대한 감상(sentiment)을 자동 추출하는 시맨틱 토픽 추출 장치 및 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 제 1 측면에 따른 확률 분포를 계산할 수 있는 장치를 이용하여, 평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합에서 시맨틱 토픽(semantic topic)을 추출하는 방법은, (a) 전역 토픽-감상 쌍에 대한 어휘 분포 및 지역 토픽-감상 쌍에 대한 어휘 분포를 추출하는 단계; (b) 상기 문서 집합의 각 문서에 대해, 전역 토픽 분포(global topic distribution) 및 전역 토픽에 대한 감상 분포(sentiment distribution), 지역 토픽 분포(local topic distribution) 및 지역 토픽에 대한 감상 분포를 추출하는 단계; (c) 상기 (a) 및 (b) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계; 및 (d) 상기 문서 집합의 각 문서의 각 단어에 대해, 상기 전역 토픽 분포 및 전역 토픽에 대한 감상 분포 또는 지역 토픽 분포 및 지역 토픽에 대한 감상 분포로부터, 전역 또는 지역 토픽 및 상기 전역 또는 지역 토픽과 연관된 감상을 추출하고, 상기 추출된 토픽 및 감상을 기초로, 상기 전역 토픽-감상 쌍에 대한 어휘 분포 또는 지역 토픽-감상 쌍에 대한 어휘 분포로부터 단어를 추출하는 단계;를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 제 2 측면에 따른 시맨틱 토픽(semantic topic)을 추출하는 장치는, 평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합을 저장하는 문서 저장부; 및 상기 문서 저장부에 저장된 문서 집합으로부터 상기 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 상기 토픽에 대한 감상(sentiment)을 추출하는 토픽 추출부;를 포함하되, 상기 토픽 추출부는 토픽-감상 쌍에 대한 어휘 분포를 추출하고, 상기 문서 집합의 각 문서에 대해, 토픽 분포(topic distribution) 및 감상 분포(sentiment distribution)를 추출하고, 상기 문서 집합의 각 문서의 각 단어에 대해, 상기 추출된 각 분포로부터 토픽 및 감상을 추출하는 것을 특징으로 한다.
본 발명은 시맨틱 토픽 추출 장치 및 방법에 있어, 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 상기 토픽에 대한 감상(sentiment)을 자동 추출하는 효과를 얻는다.
본 발명은 자동 추출한 감상 지향 등급 산정 가능 속성 및 대응하는 감상을 사용하여, 평가 대상 또는 평가 대상의 속성에 대한 등급을 자동 산정할 수 있는 시맨틱 토픽 추출 장치 및 방법을 제공할 수 있다는 장점을 가진다.
도 1은 본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치를 도시함.
도 2는 본 개시에 사용된 표기를 도시함.
도 3은 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 개념을 도시함.
도 4는 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 흐름을 도시함.
도 5는 본 발명의 일실시예에 따른 시맨틱 토픽 모델 생성 방법의 흐름을 도시함.
도 6은 본 발명의 일실시예에 따른 시맨틱 토픽 모델 사용 방법의 흐름을 도시함.
도 7은 본 발명의 일실시예에 따른 통계적 추론 수식을 도시함.
도 2는 본 개시에 사용된 표기를 도시함.
도 3은 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 개념을 도시함.
도 4는 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 흐름을 도시함.
도 5는 본 발명의 일실시예에 따른 시맨틱 토픽 모델 생성 방법의 흐름을 도시함.
도 6은 본 발명의 일실시예에 따른 시맨틱 토픽 모델 사용 방법의 흐름을 도시함.
도 7은 본 발명의 일실시예에 따른 통계적 추론 수식을 도시함.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치를 도시하고 있다.
본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치(10)는 평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합을 저장하는 문서 저장부(100)를 포함하며, 인터넷 등의 네트워크를 통해 문서 집합을 수집하여 문서 저장부(100)에 저장하는 문서 수집부(300)를 더 포함할 수 있다. 또는 상기 문서 집합은 기존에 구축된 것일 수 있다.
시맨틱 토픽 추출 장치(10)는 문서 저장부(100)에 저장된 문서 집합에서 평가 대상에 대한 시맨틱 토픽(semantic topic)을 추출하는 토픽 추출부(400)를 포함하며, 토픽 추출부(400)는 토픽 모델 저장부(200)에 저장되어 있는 내용을 사용하여 문서 집합에서 토픽을 추출하고 이 과정에서 토픽 모델 저장부(200)의 내용을 갱신할 수 있다. 예를 들어, 토픽 추출부(400)는 토픽 추출에 토픽 모델 저장부(200)에 저장된 감상(sentiment) 어휘 목록을 사용할 수 있으며, 토픽 추출시 생성한 토픽 모델 및 추출한 토픽을 토픽 모델 저장부(200)에 저장할 수 있다.
구체적으로, 토픽 추출부(400)는 문서 저장부(100)에 저장된 문서 집합으로부터 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 토픽에 대한 감상(sentiment)을 추출한다. 즉, 토픽 추출부(400)는 토픽-감상 쌍에 대한 어휘 분포를 추출하고, 문서 집합의 각 문서에 대해, 토픽 분포(topic distribution) 및 감상 분포(sentiment distribution)를 추출하고, 문서 집합의 각 문서의 각 단어에 대해, 추출된 각 분포로부터 토픽 및 감상을 추출한다.
이때, 본 발명의 일실시예에 따르면, 토픽 추출부(400)가 토픽 추출을 위해 구축하고 사용하는 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축될 수 있으며, 각 분포의 통계적 추론(statistical inference)에는 깁스 샘플링(Gibbs sampling)이 사용될 수 있다.
확률 분포를 이용하는 것은 문서에서 시맨틱 토픽을 추출하는 방법에 대한 연구의 한 부류이다. 이는 확률 분포(probability distribution)를 이용하여 구축되고 통계적 추론을 통해 잠재 변수(latent variable)가 추정(estimate)된 토픽 생성 모델(topic generative model)을 사용하여 토픽을 추출하는 방법이다.
특히 디리클레 분포(Dirichlet distribution)를 사용한 토픽 생성 구축 방법인 LDA(Latent Dirichlet Allocation)가 주목을 받아왔으며, 이를 변형한 다양한 기법이 소개되었다.
LDA는 각 문서는 다양한 토픽의 혼합체(mixture)이며, 토픽 분포는 디리클레 사전확률(Dirichlet prior)을 갖는다고 가정한다. 디리클레 사전확률은 각 문서에 대한 토픽 분포, 각 토픽에 대한 단어 분포를 추출 또는 구축하는 데 파라미터(parameter)로서 사용된다. 문서에 포함되어 있는 단어는 유일한 관측 변수(observable variable)이며, 추출된 분포에 포함된 나머지 변수들은 모두 잠재 변수이다. 따라서 전술한 바와 같이, 문서에 포함되어 있는 단어에 기초한 통계적 추론이 수행되는데, 본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치 및 방법은 깁스 샘플링(Gibbs sampling)을 사용하여 통계적 추론을 수행한다.
이러한 시맨틱 토픽 추출 방법들은 평가 대상의 속성(aspect)과 이에 대한 사용자의 감상(sentiment)을 추출하는 것을 목표로 하는 경우가 많다. 예를 들어, 평가 대상이 호텔이라면, 사용자의 의견이 기술된 문서에서 호텔의 위치, 교통 편의성, 서비스 등의 속성에 대해 "좋다", "나쁘다" 등의 감상을 추출하는 것이다.
사용자는 평가 대상에 대해 별점과 같은 등급을 매길 수 있을 것이다. 예를 들어, 사용자는 A 호텔에는 별 세개, B 호텔에는 별 다섯개를 줄 수 있다. 평가 대상의 속성에 대해 점수를 주는 것도 가능하다. 예를 들어, A 호텔의 서비스에는 10점을, B 호텔의 서비스에는 90점을 줄 수 있다.
이때, 사용자의 글에서 별점을 자동 추출할 수 있다면 유용할 것이다. 사용자가 평가 대상이나 평가 대상의 속성에 대해 평가한 등급은 평가 대상에 대한 사용자의 피드백으로 제품 및 서비스 제공 업체에게 유용하게 사용될 수 있다. 하지만 소셜 네트워킹 서비스 사이트 등 다양한 정보 원천으로부터 수집한 문서에는 사용자의 해당 평가 대상에 대한 의견 및 감상이 기술되어 있을 뿐 사용자가 해당 평가 대상 또는 평가 대상의 속성에 대해 매긴 등급은 포함되어 있지 않을 경우가 많을 것이다.
본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치 및 방법은 종래 방법들과 달리, 이러한 문서 집합에서 평가 대상의 감상 지향 등급 산정 가능 속성을 포함하는 토픽을 자동 추출할 수 있다는 장점을 가지고 있다.
등급 산정이 가능한 속성을 자동 추출하는 것은 사용자가 별점을 주지 않거나, 사용자가 매긴 별점과 사용자가 실제로 쓴 글의 감상이 일치하지 않을 경우에도 사용자의 감상 및 이에 기초한 적절한 등급을 산출할 수 있음을 의미한다.
예를 들어, 본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치 및 방법은 문서에서 호텔의 감상 지향 등급 산정 가능 속성인 시설 편의성 및 서비스 품질이라는 토픽 및 이에 대한 사용자의 감상을 추출할 수 있다. 이렇게 산출된 감상 지향 등급 산정 가능 속성 및 해당 속성에 대한 감상은 해당 속성에 대한 등급을 산출하는 데 사용될 수 있고, 이렇게 산출한 각 속성의 등급을 기초로 해당 평가 대상의 등급을 산출하는 데에도 사용될 수 있을 것이다.
기존의 방법은 감상 지향 등급 산정 가능 속성을 추출하지 못하거나, 자동 추출하지 못하는 단점이 있었다. 그러나 본 발명의 일실시예에 따른 시맨틱 토픽 추출 장치 및 방법은 전역 토픽(global topic) 및 지역 토픽(local topic)을 모두 추출할 수 있다.
전역 토픽은 평가 대상의 속성 중 평가 대상을 다른 평가 대상과 구분하여 분류하는 데 사용할 수 있는 속성을 나타내며, 지역 토픽은 평가 대상의 감상 지향 등급 산정 가능 속성을 나타낸다. 예를 들어, 호텔에 대한 의견이 기술되어 있는 문서에서 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법은 호텔이 서울에 있는지 제주에 있는지를 전역 토픽으로 추출할 수 있으며, 호텔의 서비스 품질을 지역 토픽으로 추출할 수 있다.
전역 또는 지역 토픽과 그에 대한 감상은 문서 내에서 근접해있을 가능성이 크다. 예를 들어, "냄새난다", "더럽다", "얼룩"과 같은 감상어는 호텔 객실의 청결도라는 속성과 관련되어 있을 것이다.
따라서 토픽과 대응하는 감상을 효과적으로 추출하기 위해, 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법은 문서 내에서 이동하는 하나 이상의 슬라이딩 윈도우(sliding window)를 사용할 수 있다. 이는 특히 지역 토픽 즉, 평가 대상의 감상 지향 등급 산정 가능 속성을 추출하는 데 유용할 것이다. 이들 속성은 문서 내에서 흩어져 기술되기보다는 근접하여 기술되어 있을 가능성이 크기 때문이다. 예를 들어, 문서의 전반부에서는 호텔의 접근 편의성이, 문서의 후반부에서는 호텔의 서비스 품질이 기술되어 있을 수 있다.
이들 전역 토픽 또는 지역 토픽 및 전역 토픽에 대한 감상 또는 지역 토픽에 대한 감상 등에 대해 추출되는 각 확률 분포는 다항 분포(multinomial distribution) 또는 카테고리 분포(categorical distribution)를 따르며, 이들 각 분포를 구축하는 데에는 전술한 바와 같이 디리클레 사전확률이 파라미터로 사용된다.
도 2는 본 개시에 사용된 표기를 도시하고 있다. 후술하는 내용은 도 2에 도시된 표기를 따르고 있다.
예를 들어, 각 문서는 d, 토픽은 z, 감상은 l, 단어는 w, 슬라이딩 윈도우는 v로 표기되어 있으며, 전역 토픽은 gl, 지역 토픽은 loc로 표기하고, 일반적으로 개수 또는 횟수는 n으로 표기한다. 단어, 토픽, 감상 등에 대한 확률 분포는 각각 그리스 문자로 표기되어 있으며, 각 확률 분포의 디리클레 사전확률에도 해당 그리스 문자가 할당되어 있다.
또한, 이후 기술에서 Dir()은 괄호 안의 인수를 기초로 디리클레 분포를 생성함을 의미한다.
도 3은 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 개념을 도시하고 있다.
도면에는 각 확률 분포 및 변수가 구해지는 순서가 표기되어 있다. 예를 들어, 도면의 하단을 보면, 단어의 다항 분포 즉, 어휘 분포(word distribution)는 어휘 분포에 대한 디리클레 사전확률로부터 산출되며, 최종적으로 단어를 추출하는 데 사용됨을 알 수 있다.
이후 기술하는 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 각 단계는 본 개념도를 통하여 이해할 수 있으므로, 후술하는 내용을 읽을 때 참조할 수 있다. 그러나 본 개념도는 도 4 내지 도 6의 단계를 도면으로 요약한 것이므로 자세한 설명은 생략한다.
도 4는 본 발명의 일실시예에 따른 시맨틱 토픽 추출 방법의 흐름을 도시하고 있다.
먼저, 전역 토픽-감상에 대한 어휘 분포 및 지역 토픽-감상에 대한 어휘 분포를 추출한다(S110). 즉, 전역 토픽을 구성하는 어휘, 전역 토픽에 대한 감상을 구성하는 어휘, 지역 토픽을 구성하는 어휘, 지역 토픽에 대한 감상을 구성하는 어휘에 대해, 디리클레 사전확률을 기초로 확률 분포를 구축한다. 예를 들어, 전역 또는 지역 토픽에 대한 감상을 구성하는 어휘는 "좋다", "나쁘다" 등을 포함할 수 있다.
다음, 각 문서에 대해, 전역 토픽 분포 및 전역 토픽에 대한 감상 분포, 지역 토픽 분포 및 지역 토픽에 대한 감상 분포를 추출한다(S120). 이 단계에 대한 자세한 내용은 도 5에서 후술한다.
다음, 추출된 각 분포에 대해 통계적 추론을 수행한다(S130). 이 단계에 대한 자세한 내용은 도 7의 수식을 통해 후술한다.
다음, 각 문서의 각 단어에 대해, 적절한 분포로부터 전역 또는 지역 토픽, 연관된 감상을 추출하고, 그에 따른 단어를 추출한다(S140). 이 단계에 대한 자세한 내용은 도 6에서 후술한다.
도 5는 본 발명의 일실시예에 따른 시맨틱 토픽 모델 생성 방법의 흐름을 도시하고 있다.
각 문서에 대해, 전역 토픽 분포 및 전역 토픽에 대한 감상 분포를 추출한다(S210). 전역 토픽 즉, 평가 대상의 다른 평가대상과 구별되는 속성은 문서 전체에 걸쳐 기술되어 있을 가능성이 많으므로, 슬라이딩 윈도우를 선택하여 이동시키기 전에 추출하는 것이 효율적이다. 전역 토픽에 대한 감상은 전역 토픽과 문서 내에서 가까운 위치에 기술되어 있을 가능성이 많으므로, 전역 토픽과 함께 추출된다.
다음, 각 문장에 대해, 슬라이딩 윈도우의 카테고리 분포를 추출하고(S220), 각 슬라이딩 윈도우에 대해, 지역 토픽 분포, 지역 토픽에 대한 감상 분포, 및 토픽 문맥 분포를 추출한다(S230). 슬라이딩 윈도우는 지역 토픽을 나타내는 단어 및 지역 토픽에 대한 감상을 나타내는 단어가 함께 추출될 수 있도록 크기가 설정된다.
토픽 문맥 분포는 전역 토픽인지 지역 토픽인지에 대한 선호도 분포이다. 즉, 전역 토픽은 주로 문서 전체에서, 지역 토픽은 주로 슬라이딩 윈도우의 범위 내에서 추출되지만, 슬라이딩 윈도우의 범위 내에서 전역 토픽 및 지역 토픽이 함께 추출될 수도 있다. 따라서 하나 이상의 슬라이딩 윈도우가 서로 중첩되도록 선택 및 이동된다. 이는 다양한 카테고리의 토픽을 모두 추출하기 위함이다.
도 6은 본 발명의 일실시예에 따른 시맨틱 토픽 모델 사용 방법의 흐름을 도시하고 있다.
각 문서의 각 단어에 대해, 슬라이딩 윈도우, 토픽 문맥을 선택한 후(S310), 토픽 문맥이 전역이면(S320), 전역 토픽 분포 및 전역 토픽에 대한 감상 분포에서 토픽 및 감상을 선택하고(S330), 아니면 지역 토픽 분포 및 지역 토픽에 대한 감상 분포에서 토픽 및 감상을 선택한다(S340). 전술한 바와 같이, 토픽 문맥은 전역 토픽인지 지역 토픽인지에 대한 선호도 분포이다. 따라서 상기 단계에 따라, 토픽 문맥에 따라 단어를 추출할 토픽 및 대응되는 감상이 전역 토픽 또는 지역 토픽 중에서 자동 선택된다.
다음, 어휘 분포에서 단어를 선택한다(S350). 이로써, 평가 대상 및 평가 대상의 속성에 대한 의견을 기술한 문서 집합에서 추출한 시맨틱 토픽 추출이 완료된다.
도 7은 본 발명의 일실시예에 따른 통계적 추론 수식을 도시하고 있다.
전술한 바와 같이, 본 발명의 일실시예에 따른 통계적 추론에는 깁스 샘플링이 사용된다.
도면의 수식 (1) 및 (2)는 각각 문맥이 전역 또는 지역일 때, 주어진 단어에 대한 샘플링 분포를 나타낸다. 즉, (1)은 슬라이딩 윈도우, 문맥, 감상 및 토픽이 각각 v, gl , l, z일 확률, (2)는 슬라이딩 윈도우, 문맥, 감상 및 토픽이 각각 v, loc , l, z일 확률을 나타낸 수식이다. v', r', l' 및 z'은 각각 슬라이딩 윈도우, 문맥, 감상 및 토픽에 대한 할당 벡터(assignment vector)로, 문서 d의 위치 i의 단어를 제외한 모든 단어에 대한 것이다.
P(w, v, r, z, l)은 P(w|r, z, l)P(v, r, z, l)이며, P(v, r, z, l)은 P(z|r, v, l)P(l|r, v)P(r|v)P(v)이므로, 이러한 조건 확률을 마코프 체인(Markov chain)으로 나타내면 해당 수식을 도출할 수 있다.
도면의 수식 (3)는 지역 토픽 z, 감상 l의 근사된 어휘 분포를 구하는 수식이다. 따라서 수식 (3)을 사용하면 감상 지향 등급 산정 가능 속성의 어휘 분포를 산출할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 시맨틱 토픽 추출 장치
100: 문서 저장부
200: 토픽 모델 저장부
300: 문서 수집부
400: 토픽 추출부
100: 문서 저장부
200: 토픽 모델 저장부
300: 문서 수집부
400: 토픽 추출부
Claims (11)
- 확률 분포를 계산할 수 있는 장치를 이용하여, 평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합에서 시맨틱 토픽(semantic topic)을 추출하는 방법에 있어서,
(a) 전역 토픽-감상 쌍에 대한 어휘 분포 및 지역 토픽-감상 쌍에 대한 어휘 분포를 추출하는 단계;
(b) 상기 문서 집합의 각 문서에 대해, 전역 토픽 분포(global topic distribution) 및 전역 토픽에 대한 감상 분포(sentiment distribution), 지역 토픽 분포(local topic distribution) 및 지역 토픽에 대한 감상 분포를 추출하는 단계;
(c) 상기 (a) 및 (b) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계; 및
(d) 상기 문서 집합의 각 문서의 각 단어에 대해, 상기 전역 토픽 분포 및 전역 토픽에 대한 감상 분포 또는 지역 토픽 분포 및 지역 토픽에 대한 감상 분포로부터, 전역 또는 지역 토픽을 추출하고 상기 전역 또는 지역 토픽과 연관된 감상을 추출하며, 상기 추출된 토픽 및 감상을 기초로, 상기 전역 토픽-감상 쌍에 대한 어휘 분포 또는 지역 토픽-감상 쌍에 대한 어휘 분포로부터 단어를 추출하는 단계;를 포함하되,
상기 전역 토픽은 상기 평가 대상의 속성(aspect) 중 상기 평가 대상을 다른 평가 대상과 구분하여 분류하는 데 사용할 수 있는 속성을 나타내며,
상기 지역 토픽은 상기 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 나타내는 시맨틱 토픽 추출 방법. - 삭제
- 제 1 항에 있어서,
상기 각 확률 분포는 다항 분포(multinomial distribution) 또는 카테고리 분포(categorical distribution)인 시맨틱 토픽 추출 방법. - 제 1 항에 있어서,
상기 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축되는 시맨틱 토픽 추출 방법. - 제 1 항에 있어서,
상기 통계적 추론에는 깁스 샘플링(Gibbs sampling) 기법이 사용되는 시맨틱 토픽 추출 방법. - 제 1 항에 있어서,
상기 (b) 단계는
상기 각 문서 내에서 서로 중첩(overlap)되는 하나 이상의 슬라이딩 윈도우(sliding window)를 이동시키는 단계; 및
상기 슬라이딩 윈도우 내 문장에서 추출한 단어에 기초하여 상기 지역 토픽 분포 및 지역 토픽에 대한 감상 분포를 추출하는 단계;를 포함하되,
상기 슬라이딩 윈도우는 상기 지역 토픽을 나타내는 단어 및 상기 지역 토픽에 대한 감상을 나타내는 단어가 함께 추출될 수 있도록 크기가 설정되는 시맨틱 토픽 추출 방법. - 시맨틱 토픽(semantic topic)을 추출하는 장치에 있어서,
평가 대상에 대한 의견이 기술된 하나 이상의 문서 집합을 저장하는 문서 저장부; 및
상기 문서 저장부에 저장된 문서 집합으로부터 상기 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 포함하는 토픽(topic) 및 상기 토픽에 대한 감상(sentiment)을 추출하는 토픽 추출부;를 포함하되,
상기 토픽 추출부는
토픽-감상 쌍에 대한 어휘 분포를 추출하고, 상기 문서 집합의 각 문서에 대해, 토픽 분포(topic distribution) 및 감상 분포(sentiment distribution)를 추출하고, 상기 문서 집합의 각 문서의 각 단어에 대해, 상기 추출된 각 분포로부터 토픽 및 감상을 추출하는 것이며,
상기 토픽-감상 쌍에 대한 어휘 분포는 전역 토픽-감상 쌍에 대한 어휘 분포 및 지역 토픽-감상 쌍에 대한 어휘 분포를 포함하고,
상기 토픽 분포는 전역 토픽 분포(global topic distribution) 및 지역 토픽 분포(local topic distribution)를 포함하며,
상기 감상 분포는 전역 토픽에 대한 감상 분포 및 지역 토픽에 대한 감상 분포를 포함하는 것이고,
상기 전역 토픽은 상기 평가 대상의 속성(aspect) 중 상기 평가 대상을 다른 평가 대상과 구분하여 분류하는 데 사용할 수 있는 속성을 나타내며,
상기 지역 토픽은 상기 평가 대상의 감상 지향 등급 산정 가능 속성(sentiment oriented ratable aspect)을 나타내는 것인 시맨틱 토픽 추출 장치. - 제 7 항에 있어서,
상기 각 확률 분포는 디리클레 사전확률(Dirichlet prior)에 기초하여 구축되는 시맨틱 토픽 추출 장치. - 제 7 항에 있어서,
상기 토픽 추출부는
기 추출된 각 분포의 통계적 추론에 깁스 샘플링(Gibbs sampling)을 사용하는 시맨틱 토픽 추출 장치. - 삭제
- 삭제
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120141313A KR101423544B1 (ko) | 2012-12-06 | 2012-12-06 | 시맨틱 토픽 추출 장치 및 방법 |
PCT/KR2013/011207 WO2014088335A1 (ko) | 2012-12-06 | 2013-12-05 | 시맨틱 토픽 추출 장치 및 방법 |
US14/729,306 US10423723B2 (en) | 2012-12-06 | 2015-06-03 | Apparatus and method for extracting semantic topic |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120141313A KR101423544B1 (ko) | 2012-12-06 | 2012-12-06 | 시맨틱 토픽 추출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140073717A KR20140073717A (ko) | 2014-06-17 |
KR101423544B1 true KR101423544B1 (ko) | 2014-08-01 |
Family
ID=50883700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120141313A KR101423544B1 (ko) | 2012-12-06 | 2012-12-06 | 시맨틱 토픽 추출 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10423723B2 (ko) |
KR (1) | KR101423544B1 (ko) |
WO (1) | WO2014088335A1 (ko) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185477B1 (en) | 2013-03-15 | 2019-01-22 | Narrative Science Inc. | Method and system for configuring automatic generation of narratives from data |
US10496929B2 (en) | 2013-09-30 | 2019-12-03 | Oracle International Corporation | Data-parallel probabilistic inference |
US10860829B2 (en) | 2015-01-16 | 2020-12-08 | Oracle International Corporation | Data-parallel parameter estimation of the Latent Dirichlet allocation model by greedy Gibbs sampling |
US10157346B2 (en) * | 2014-06-26 | 2018-12-18 | Oracle International Corporation | Parallel Gibbs sampler using butterfly-patterned partial sums |
US11238090B1 (en) | 2015-11-02 | 2022-02-01 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data |
US11475076B2 (en) | 2014-10-22 | 2022-10-18 | Narrative Science Inc. | Interactive and conversational data exploration |
US9767416B2 (en) | 2015-02-04 | 2017-09-19 | Oracle International Corporation | Sparse and data-parallel inference method and system for the latent Dirichlet allocation model |
US10140281B2 (en) | 2015-08-07 | 2018-11-27 | Oracle International Corporation | Method and system for distributed latent dirichlet allocation computation using addition of approximate counters |
US11188588B1 (en) | 2015-11-02 | 2021-11-30 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to interactively generate narratives from visualization data |
US11222184B1 (en) | 2015-11-02 | 2022-01-11 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts |
US11232268B1 (en) | 2015-11-02 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts |
KR101705804B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법 |
KR101705810B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법 |
CN105868186A (zh) * | 2016-06-01 | 2016-08-17 | 清华大学 | 简单高效的话题提取方法 |
US10853583B1 (en) | 2016-08-31 | 2020-12-01 | Narrative Science Inc. | Applied artificial intelligence technology for selective control over narrative generation from visualizations of data |
US11568148B1 (en) | 2017-02-17 | 2023-01-31 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US10585983B1 (en) | 2017-02-17 | 2020-03-10 | Narrative Science Inc. | Applied artificial intelligence technology for determining and mapping data requirements for narrative stories to support natural language generation (NLG) using composable communication goals |
US11954445B2 (en) | 2017-02-17 | 2024-04-09 | Narrative Science Llc | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US10943069B1 (en) | 2017-02-17 | 2021-03-09 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on a conditional outcome framework |
US11068661B1 (en) | 2017-02-17 | 2021-07-20 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on smart attributes |
US11042708B1 (en) * | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language generation |
US11023689B1 (en) | 2018-01-17 | 2021-06-01 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries |
KR102028487B1 (ko) * | 2018-02-13 | 2019-10-04 | 국민대학교산학협력단 | 문서의 토픽 모델링 장치 및 방법, 이를 기록한 기록매체 |
US10755046B1 (en) | 2018-02-19 | 2020-08-25 | Narrative Science Inc. | Applied artificial intelligence technology for conversational inferencing |
US11232270B1 (en) | 2018-06-28 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to numeric style features |
CN112926311B (zh) * | 2021-02-03 | 2022-08-02 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN113887198A (zh) * | 2021-10-11 | 2022-01-04 | 平安国际智慧城市科技股份有限公司 | 基于主题预测的项目拆分方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198278A (ja) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 評判情報分類装置、評判情報分類方法及びプログラム |
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7853596B2 (en) | 2007-06-21 | 2010-12-14 | Microsoft Corporation | Mining geographic knowledge using a location aware topic model |
US20090319342A1 (en) * | 2008-06-19 | 2009-12-24 | Wize, Inc. | System and method for aggregating and summarizing product/topic sentiment |
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
-
2012
- 2012-12-06 KR KR1020120141313A patent/KR101423544B1/ko active IP Right Grant
-
2013
- 2013-12-05 WO PCT/KR2013/011207 patent/WO2014088335A1/ko active Application Filing
-
2015
- 2015-06-03 US US14/729,306 patent/US10423723B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198278A (ja) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 評判情報分類装置、評判情報分類方法及びプログラム |
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
Also Published As
Publication number | Publication date |
---|---|
US20150268930A1 (en) | 2015-09-24 |
WO2014088335A1 (ko) | 2014-06-12 |
KR20140073717A (ko) | 2014-06-17 |
US10423723B2 (en) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101423544B1 (ko) | 시맨틱 토픽 추출 장치 및 방법 | |
Kirilenko et al. | Automated sentiment analysis in tourism: Comparison of approaches | |
Neogi et al. | Sentiment analysis and classification of Indian farmers’ protest using twitter data | |
González-Rodríguez et al. | Post-visit and pre-visit tourist destination image through eWOM sentiment analysis and perceived helpfulness | |
CN103853824B (zh) | 一种基于深度语义挖掘的内文广告发布方法与系统 | |
Li et al. | Impact of information timeliness and richness on public engagement on social media during COVID-19 pandemic: An empirical investigation based on NLP and machine learning | |
Raut et al. | Opinion mining and summarization of hotel reviews | |
CN105893582B (zh) | 一种社交网络用户情绪判别方法 | |
Dragoni | A three-phase approach for exploiting opinion mining in computational advertising | |
Maggiore et al. | In the travel bloggers’ wonderland: mechanisms of the blogger–follower relationship in tourism and hospitality management–a systematic literature review | |
CN110046228A (zh) | 短文本主题识别方法和系统 | |
Suresh et al. | Mining of customer review feedback using sentiment analysis for smart phone product | |
CN107103093A (zh) | 一种基于用户行为和情感分析的短文本推荐方法及装置 | |
Nguyen et al. | Analysing online customer experience in hotel sector using dynamic topic modelling and net promoter score | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
Brambilla et al. | Graph-based conversation analysis in social media | |
La et al. | Understanding consumers’ sentiment expressions in online reviews: a hybrid approach | |
Abu-Salih et al. | Natural language inference model for customer advocacy detection in online customer engagement | |
Calderón-Fajardo et al. | Understanding destination brand experience through data mining and machine learning | |
Lakshmi et al. | Sentiment analysis of twitter data | |
JP2018036756A (ja) | メッセージ分類システム、メッセージ分類方法及びプログラム | |
Heravi et al. | Tweet location detection | |
Ramadhanti et al. | Determining customer relationship management strategy with customer personality analysis using ontology model approach | |
Ibrahim et al. | Mining social network content of online retail brands: a machine learning approach | |
Jago | Algorithmic Manipulation: How Social Media is Shaping our Theology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170707 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180702 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190715 Year of fee payment: 6 |