KR20200026351A - Device and method for topic analysis using an enhanced latent dirichlet allocation model - Google Patents
Device and method for topic analysis using an enhanced latent dirichlet allocation model Download PDFInfo
- Publication number
- KR20200026351A KR20200026351A KR1020180102046A KR20180102046A KR20200026351A KR 20200026351 A KR20200026351 A KR 20200026351A KR 1020180102046 A KR1020180102046 A KR 1020180102046A KR 20180102046 A KR20180102046 A KR 20180102046A KR 20200026351 A KR20200026351 A KR 20200026351A
- Authority
- KR
- South Korea
- Prior art keywords
- allocation model
- dirichlet allocation
- latent dirichlet
- topic
- improved
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법에 관한 것이다. The present invention relates to a topical analysis apparatus and method using an improved latent Dirichlet allocation model.
인터넷의 발달로 웹 문서 양이 급격하게 증가함에 따라, 인터넷에서 생성되는 수많은 대용량의 문서를 토픽별로 분류하는 토픽 분석 기술은 최근 가장 많은 주목을 받고 있는 분야로 이에 대한 연구가 활발히 진행되고 있다. As the amount of web documents is rapidly increased due to the development of the Internet, a topic analysis technology for classifying a large amount of large documents generated by the Internet by topic has recently been actively researched.
특히, 토픽 분석 기술 중에서 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 모델이 가장 널리 이용되고 있다. In particular, the latent Dirichlet Allocation (LDA) model is the most widely used topic analysis technique.
도 1은 종래 잠재 디리클레 할당 모델의 구조이다. 1 is a structure of a conventional latent Dirichlet allocation model.
도 1을 참조하면, 종래 잠재 디리클레 할당 모델은 하이퍼파라미터(hyperparameters)라고 불리는 α 및 β값을 사전에 지정을 해주어야 하는데, α 및 β값은 문서마다 다를 수 있기 때문에 잘못된 α 및 β값의 지정은 잘못된 분석을 야기하는 문제점이 있다. Referring to FIG. 1, the conventional latent Dirichlet allocation model should specify the α and β values called hyperparameters in advance. Since the α and β values may vary from document to document, the incorrect assignment of α and β values There is a problem that causes false analysis.
또한, 종래의 잠재 디리클레 할당 모델은 이질적인 문서의 텍스트 데이터를 동질적인 텍스트 데이터로 취급하여 이질적인 문서의 토픽을 분석하는데 한계를 보이는 문제점이 있다. In addition, the conventional latent Dirichlet allocation model has a problem in that it treats text data of heterogeneous documents as homogeneous text data and shows limitations in analyzing topics of heterogeneous documents.
본 발명이 해결하고자 하는 기술적 과제는, 하이퍼파라미터 값을 자동으로 찾을 수 있는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 제공하는 데 있다. An object of the present invention is to provide an apparatus and method for topic analysis using an improved latent Dirichlet allocation model that can automatically find hyperparameter values.
본 발명이 해결하고자 하는 다른 기술적 과제는, 이질적인 문서의 토픽을 분석할 수 있는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 제공하는 데 있다. Another technical problem to be solved by the present invention is to provide an apparatus and method for topic analysis using an improved latent Dirichlet allocation model that can analyze topics of heterogeneous documents.
상기와 같은 기술적 과제를 해결하기 위해, 본 발명의 바람직한 일 측면에 따르면, 토픽 분석 방법에 있어서, 문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 및 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)모델 구조에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 상기 전처리된 텍스트 데이터에서 상기 토픽을 분석하는 단계;를 포함하되, 상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법을 제공한다. In order to solve the above technical problem, according to a preferred aspect of the present invention, a topic analysis method comprising: a preprocessing step of preprocessing text data included in a document; And analyzing the topic in the preprocessed text data using an enhanced latent Dirichlet allocation model that adds a hierarchical Dirichlet Process (DP) structure to a latent Dirichlet allocation (LDA) model structure. Include, but provide a topic analysis method using the enhanced latent Dirichlet allocation model to perform sampling using the Partially Collapsed Gibbs Samplers (PCG) for the enhanced latent Dirichlet allocation model.
여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터(hyperparameter)인 α 및 β는 사전에 지정된 상수가 아닐 수 있다. Here, α and β, which are hyperparameters of the enhanced latent Dirichlet allocation model, may not be a predetermined constant.
여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정될 수 있다. Here, the hyperparameters α and β of the improved latent Dirichlet allocation model can be estimated automatically.
여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터일 수 있다. Here, α and β, which are hyperparameters of the improved latent Dirichlet allocation model, may be different dimensional parameters of the Dirichlet distribution.
여기서, 상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당할 수 있다. Here, the improved latent Dirichlet allocation model clusters text data of the heterogeneous document and allocates hyperparameters to each cluster for analysis of the heterogeneous document.
본 발명의 바람직한 다른 측면에 따르면, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터를 잠재 디리클레 할당모델 구조에 계층적 디리클레 프로세스 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석하는 토픽 분석부; 및 상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 샘플링부;를 포함하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치를 제공한다. According to another preferred aspect of the invention, the pre-processing unit for pre-processing the text data contained in the document; A topic analyzer configured to analyze the topic using the enhanced latent Dirichlet allocation model in which the preprocessed text data is added to a hierarchical Dirichlet allocation model structure and a hierarchical Dirichlet process structure; And a sampling unit configured to perform sampling using the partially collapsed Gibbs Samplers (PCG) with respect to the enhanced latent Dirichlet allocation model.
본 발명의 바람직한 또 다른 측면에 따르면, 상기 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 제공할 수 있다. According to another preferred aspect of the present invention, a computer-readable recording medium having a computer program recorded thereon for performing the topic analysis method using the improved latent Dirichlet allocation model can be provided.
본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 통해 최적의 하이퍼파라미터 값을 자동으로 찾을 수 있는 효과가 있다. The present invention has the effect of automatically finding the optimal hyperparameter value through the topic analysis apparatus and method using the improved latent Dirichlet allocation model.
또한, 본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 통해 이질적인 문서의 토픽을 정교하게 분석할 수 있는 효과가 있다. In addition, the present invention has an effect that can accurately analyze the topics of heterogeneous documents through the topic analysis apparatus and method using the improved latent Dirichlet allocation model.
도 1은 종래 잠재 디리클레 할당 모델의 구조이다.
도 2는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에서 향상된 잠재 디리클레 할당 모델의 구조이다.
도 3은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법 순서도이다.
도 4는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 방법의 문서에 대한 토픽 기여도의 사후 분포를 비교한 그림이다.
도 5는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 θ(d)와 에 대한 평균 제곱 오차(MSE)의 성능을 비교한 그래프이다.
도 6은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 로그-가능도(log-likelihood) 및 퍼플렉서티(perplexity)와 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 로그-가능도 및 퍼플렉서티와 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 8은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 하이퍼파라미터 αd의 클러스터링과 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 9는 본 발명의 다른 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치의 구성도이다.1 is a structure of a conventional latent Dirichlet allocation model.
2 is a structure of an improved latent Dirichlet allocation model in a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
3 is a flowchart of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
4 is a diagram comparing the post-distribution of the topic contribution to the document of the topic analysis method and the conventional method using the improved latent Dirichlet allocation model according to an embodiment of the present invention.
5 is a θ (d) and the topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods This is a graph comparing the performance of the mean square error (MSE) for.
FIG. 6 is a graph comparing simulation performance with respect to log-likelihood and complexity of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods. to be.
FIG. 7 is a graph comparing topic performance using an improved latent Dirichlet allocation model according to an embodiment of the present invention and simulation performance with respect to log-likelihood and transparency of actual articles of various conventional methods.
FIG. 8 is a graph comparing simulation performances related to clustering of hyperparameters α d for actual articles of various conventional methods and a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
9 is a block diagram of a topic analysis apparatus using an improved latent Dirichlet allocation model according to another embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. As the inventive concept allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 이와 같은 용어들에 의해 한정되지는 않는다. 이 용어들은 하나의 구성요소들을 다른 구성요소로부터 구별하는 목적으로만 사용된다. Terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. These terms are only used to distinguish one component from another.
어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나, 또는 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나, '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is said to be 'connected' or 'connected' to another component, it may be directly connected to or connected to that other component, but other components may be present in between. It should be understood that. On the other hand, when a component is said to be 'directly connected' or 'directly connected' to another component, it should be understood that there is no other component in between.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함한다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, the term 'comprises' or 'having' is intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.
도 2는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에서 향상된 잠재 디리클레 할당 모델의 구조이다. 2 is a structure of an improved latent Dirichlet allocation model in a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
도 2를 참조하면, 향상된 잠재 디리클레 모델(200)의 구조는 잠재 디리클레 할당모델 구조(210)에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조(220)가 추가된 것이다.
Referring to FIG. 2, the structure of the enhanced
여기서, N은 n번째 문서의 단어 수, D는 말뭉치 전체 문서 개수, 는 n번째 d문서의 단어, 는 문서 d의 n 번째 단어에 대한 토픽 색인, θ(d)는 매개변수 αd를 가진 디리클레 분포에 뒤따르는 T차원 무작위 변수로 d문서에서 토픽의 확률, 는 T X M 차원 행렬로 토픽 t에서 단어의 확률, αd에서 α는 하이퍼파라미터 중 하나인 디리클레 분포의 T차원 파라미터로 사전에 지정된 상수가 아닌 θ(d)의 디리클레 분포의 스카라 파라미터, βt의 β는 하이퍼파라미터 중 하나인 디리클레 분포의 M차원 파라미터로 사전에 지정된 상수가 아닌 의 디리클레 분포의 스카라 파라미터, G 및 P는 α 와 β 각각의 농도 파라미터(concentration parameters), G0 및 P0는 α 와 β의 기본 분포(base measure), 및 는 디리클레 프로세스 이전 각각의 α 와 β 이며, a0 = 1, b0 = 1이다.Where N is the number of words in the nth document, D is the total number of documents in the corpus, Is the word of the nth d document, Is the topic index for the nth word of document d, θ (d) is the T-dimensional random variable following the Dirichlet distribution with parameter α d, and the probability of the topic in document d, Is the probability, α d of the words in the topic t to TXM-dimensional matrix α is a T-dimensional parameter of the Dirichlet distribution, one of the hyperparameters, and is a scalar parameter of the Dirichlet distribution of θ (d) , and β of t is the M-dimensional parameter of the Dirichlet distribution, one of the hyperparameters. Not a specified constant SCARA parameters of the Dirichlet distribution, G and P of α And the concentration parameters, G 0 and P 0 , respectively α Base measure of and β, And Α of each prior to the Dirichlet process And β, a 0 = 1, b 0 = 1.
α는 독립적이고 미지의 사전 분포 G에 따라 동일하게 분포되며, G는 정밀도 매개 변수 및 λ의 밑변 분포 G0를 갖는 디리클레 프로세스로부터 유도되며, β는 독립적이고 미지의 사전 분포 P에 따라 동일하게 분포되며, P는 정밀도 매개 변수 및 μ의 밑변 분포 P0를 갖는 디리클레 프로세스로부터 유도되어, α 및 β는 자동으로 추정된다.α is independent and equally distributed according to the unknown prior distribution G, where G is a precision parameter And a Dirichlet process with a base distribution G 0 of λ, β is independent and equally distributed according to an unknown prior distribution P, where P is a precision parameter And a Dirichlet process with base distribution P 0 of μ, α and β are automatically estimated.
향상된 잠재 디리클레 할당 모델(200)은 서로 문서 종류가 다른 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당해 이질적인 문서의 분석을 할 수 있는데, 이는 하이퍼파라미터인 α와 β가 사전에 지정된 상수가 아닌 사전 디리클레 분포의 디리클레 프로세스의 혼합물로 유도되기 때문이다.
The enhanced latent
향상된 잠재 디리클레 할당 모델(200)의 목표 분포는 p(Z, S, U, θ, , α*, β*, ,|W)이며, 목표 분포를 기반으로 θ, 는 Z에 대한 조건부 분포에서 부분적으로 붕괴 될 수 있기 때문에 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 실행해 θ, 를 붕괴시켜 샘플링 한다. 여기서, 부분 붕괴된 깁스 샘플러는 공지된 기술이므로 자세한 설명은 생략하도록 한다.The target distribution of the enhanced latent
부분 붕괴된 깁스 샘플러의 샘플링은 변수추출을 위한 6개의 과정으로 구성되어 있다. Sampling of a partially decayed Gibbs sampler consists of six steps for parameter extraction.
과정 1은 확률로 분리된 p(|Z-(n,d), S, U, α*, β*, , , W)로부터 를 추출하는데, 추출식은 아래 식 1과 같다.
식 1
p(=t*|Z-(n,d), S, U, α*, β*, , , W) ∝ , t* = 1, ... , Tp ( = t * Z- (n, d) , S, U, α * , β * , , , W) ∝ , t * = 1, ..., T
여기서, Z-(n,d) = Z \{}는 문서 d의 n 번째 단어를 제외한 토픽 색인의 집합을 나타내며, 는 단어 w가 Z-(n,d)에서 토픽 t에 할당 된 횟수를 나타내고, 는 문서 d 내의 단어가 토픽 t에 할당 된 횟수를 나타낸다. W는 말뭉치, Z는 토픽 t에서 단어 n이 나올 확률, S = {}, = , = , 는 αd가 문서 클러스터 i에 속하는 것을, 는 βt가 토픽 클러스터 t에 속하는 것을 나타내며, U = {}, = , = , M은 고유 단어, T는 잠재적인 토픽이다.Where Z- (n, d) = Z \ { } Represents a set of topic indices excluding the nth word of document d, Denotes the number of times the word w has been assigned to the topic t in Z- (n, d) , Denotes the number of times a word in document d has been assigned to topic t. W is the corpus, Z is the probability of the word n on topic t, S = { }, = , = , That α d belongs to document cluster i, Indicates that β t belongs to topic cluster t, U = { }, = , = , M is a unique word, and T is a potential topic.
과정 2는 p(, θ|Z, S, U, α*, β*, , , W)로부터 (θ, )를 추출하는데, 추출식은 아래 식 2 및 식 3과 같다. 식 2는 독립 T차원 디리클레 분포, 식 3은 T 독립 M 차원 디리클레 분포에 대한 것이다.
식 2
θ(d)|(Z, S, U, α*, β*, , , W) Dirichlet , d = 1, ... , D θ (d) | (Z, S, U, α * , β * , , , W) Dirichlet , d = 1, ..., D
식 3
|(Z, S, U, α*, β*, , , W) Dirichlet , t = 1, ... , T (Z, S, U, α * , β * , , , W) Dirichlet , t = 1, ..., T
여기서, 는 문서 d 내의 단어가 토픽 t에 할당 된 횟수를 나타내며, 는 단어 집합 w가 토픽 색인 집합 Z에서 토픽 t에 할당되는 횟수를 나타낸다.here, Denotes the number of times a word in document d has been assigned to topic t, Denotes the number of times word set w is assigned to topic t in topic index set Z.
과정 3은 p(S|Z, U, , θ, α*, β*, , , W)로부터 S를 추출하는데, 추출식은 아래 식 4 및 식 5와 같다. 식 4는 독립 이산 분포 D, 식 5는 독립 이산 분포 T에 관한 것이다.
식 4
p( = i|Z, U, , θ, α*, β*, , , W) ∝ , i = 1, ... , I p ( = i | Z, U, , θ, α * , β * , , , W) ∝ , i = 1, ..., I
식 5
p( = j|Z, U, , θ, α*, β*, , , W) ∝ , j = 1, ... ,Jp ( = j | Z, U, , θ, α * , β * , , , W) ∝ , j = 1, ..., J
과정 4는 p(U|Z, S, , θ, α*, β*, , , W)로부터 U를 추출하는데, 추출식은 아래 식 6 및 식 7과 같다. 식 6은 독립 베타 분포 I, 식 7은 독립 베타 분포 J에 관한 것이다.
식 6
|(Z, S, , θ, α*, β*, , , W) Beta , i = 1, ... , I-1 (Z, S, , θ, α * , β * , , , W) Beta , i = 1, ..., I-1
식 7
|(Z, S, , θ, α*, β*, , , W) Beta , j = 1, ... , J-1 (Z, S, , θ, α * , β * , , , W) Beta , j = 1, ..., J-1
여기서, = 1, = 1 이다.here, = 1, = 1
과정 5는 p(α*, β*|Z, S, U, , θ, , , W)로부터 (α*, β*)를 추출하는데, 추출식은 아래 식 8과 같다.
식 8
p(α*, β*|Z, S, U, , θ, , , W) = 이며,p (α * , β * | Z, S, U, , θ, , , W) = Is,
는 식 9로 추출된다. Is extracted by
식 9
는 식 10으로 추출된다. Is extracted by equation (10).
식 10
여기서, 이다.here, to be.
과정 6은 독립적인 감마 분포의 산물을 p(,|Z, S, U, , θ, α*, β*, W)로부터 (,)를 추출하는데, 추출식은 아래 식 11과 식 12와 같다.
식 11 Equation 11
|(Z, S, U, , θ, α*, β*, W) ~ Gamma (Z, S, U, , θ, α * , β * , W) to Gamma
식 12
|(Z, S, U, , θ, α*, β*, W) ~ Gamma (Z, S, U, , θ, α * , β * , W) to Gamma
도 3은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법 순서도이다. 3 is a flowchart of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
도 3을 참조하면, S310단계에서 문서에 포함된 텍스트 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽을 분석하기 위해서는 문서의 전처리를 하여야 한다. Referring to FIG. 3, in operation S310, text data included in a document is preprocessed. Since the data contained in the document is text data, the document must be preprocessed to analyze the topic.
구체적으로, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 또한, 형태소별로 태깅된 결과 중 명사만 추출할 수 있으며, 추출된 명사 중에서 불용어를 제거할 수 있다. Specifically, the sentences may be separated from the text data included in the document and tagged for each morpheme. Morphological means the smallest word with a meaning. In addition, only nouns may be extracted from the tagged results of each morpheme, and stopwords may be removed from the extracted nouns.
S320단계에서는 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석한다. 즉, 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석함으로써, 단어의 집합으로 표현할 수 있다. In step S320, the topic is analyzed on the preprocessed text data using an improved latent Dirichlet allocation model. That is, the preprocessed text data can be represented as a set of words by analyzing the topic using an improved latent Dirichlet allocation model.
이때, 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러를 이용해 샘플링을 실행한다. At this point, sampling is performed using a partially decayed Gibbs sampler for the enhanced latent Dirichlet allocation model.
본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. The topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention may be implemented in the form of program instructions that may be implemented as an application or executed through various computer components, and recorded in a computer-readable recording medium. .
컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는, 본 발명을 위한 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. The computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the computer-readable recording medium are those specially designed and constructed for the present invention, and may be known and available to those skilled in the computer software arts.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the processing according to the present invention, and vice versa.
도 4는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 방법의 문서에 대한 토픽 기여도의 사후 분포를 비교한 그림이다. 도 4(a)는 문서에 대한 토픽 기여도의 실제 분포, 도 4(b)는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에 기반한 토픽 기여도의 사후 분포, 도 4(c-1) 내지 도 4(c-9)는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 토픽 기여도의 사후 분포 그림이다. 4 is a diagram comparing the post-distribution of the topic contribution to the document of the topic analysis method and the conventional method using the improved latent Dirichlet allocation model according to an embodiment of the present invention. Figure 4 (a) is the actual distribution of topic contribution to the document, Figure 4 (b) is the post-distribution of topic contribution based on the topic analysis method using the improved latent Dirichlet allocation model, Figures 4 (c-1) to 4 ( c-9) is a posterior distribution diagram of the topic contribution of the topic analysis method using a conventional latent Dirichlet allocation model.
도 4는 100개의 문서로 구성된 말뭉치를 시뮬레이션한 결과로, 각 문서에는 평균 300개의 포아송(Poisson) 분포에서 생성된 단어 시퀀스가 포함되어 있으며, 100개의 고유 단어와 3개의 토픽을 가지고 있다. 단색점은 말뭉치의 모든 문서에 대해 예상되는 토픽 기여도를 나타낸다. 4 is a simulation result of a corpus composed of 100 documents. Each document includes word sequences generated from an average of 300 Poisson distributions, and has 100 unique words and 3 topics. Solid points represent topic contributions expected for all documents in the corpus.
도 4를 참조하면, 그림 4(a)의 실제 분포는 매우 복합적으로 나타났는데, 이는 도 4 (b)의 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에 의해 잘 예측된 것을 확인할 수 있다. Referring to FIG. 4, the actual distribution of FIG. 4 (a) appears to be very complex, which is well predicted by the topic analysis method using the improved latent Dirichlet allocation model of FIG. 4 (b).
반면, 도 4(c-1) 내지 도 4(c-9)는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법으로 하이퍼파라미터인 α와 β를 사전에 지정된 상수로 사용하는 한편, 붕괴된 깁스 샘플러(Collapsed Gibbs Samplers, CG)를 이용했기 때문에, α = 0.5와 β = 0.001인 도 4(c-4)만 토픽 기여도 사후 분포가 명백하게 편향되지 않은 추정치를 산출하고 나머지 다른 경우는 단봉적(unimodal)으로 나타난 것을 확인할 수 있다. On the other hand, Figures 4 (c-1) to 4 (c-9) is a topic analysis method using a conventional latent Dirichlet allocation model using the hyperparameters α and β as a predetermined constant, while the decayed Gibbs sampler ( Because of using Collapsed Gibbs Samplers (CG), only Figure 4 (c-4) with α = 0.5 and β = 0.001 yields an estimate with no apparent bias in the topic contribution post-distribution and the other cases ununiformally. You can see what appeared.
이는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 경우 이질적인 문서의 토픽 분석을 위한 멀티 모드 토픽 기여도 분포가 적절하게 매핑 되지 않을 수 있다는 것이다. 즉, 붕괴된 깁스 샘플러의 성능은 고정된 하이퍼파라미터 변수 선택에 따라 달라지기 때문에 큰 편향이 발생할 수 있다. This means that in the case of a topic analysis method using a conventional latent Dirichlet allocation model, the multi-mode topic contribution distribution for topic analysis of heterogeneous documents may not be properly mapped. That is, the performance of the decayed Gibbs sampler depends on the choice of fixed hyperparameter variables, which can lead to large deflections.
이와는 대조적으로, 도 4 (b)의 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 토픽 기여도의 사후 분포를 유연하게 모델링하며, 단어 기여도의 분포에 유연성을 부여하고, 데이터가 자동으로 하이퍼파라미터 값을 추정하도록 함으로써 강력한 결과를 산출할 수 있다. In contrast, the topic analysis method using the improved latent Dirichlet allocation model of FIG. 4 (b) flexibly models the post-distribution of topic contributions, gives flexibility to the distribution of word contributions, and automatically calculates the hyperparameter values. By estimating it can produce powerful results.
도 5는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 θ(d)와 에 대한 평균 제곱 오차(MSE)의 성능을 비교한 그래프이다.5 is a θ (d) and the topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods This is a graph comparing the performance of the mean square error (MSE) for.
도 6은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 로그-가능도(log-likelihood) 및 퍼플렉서티(perplexity)와 관련한 시뮬레이션 성능을 비교한 그래프이다. FIG. 6 is a graph comparing simulation performance with respect to log-likelihood and complexity of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods. to be.
도 5 및 도 6을 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(PCG)이 VB, CVB 및 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(CG)과 비교해 평균 제곱 오차(MSE)와 퍼플렉서티(perplexity)가 낮고, 로그-가능도(log-likelihood)가 높아 상대적으로 우수한 성능을 보이는 것을 확인할 수 있다. 5 and 6, the topic analysis method (PCG) using the enhanced latent Dirichlet allocation model is average squared error (MSE) and purple compared to the topic analysis method (CG) using VB, CVB and the conventional latent Dirichlet allocation model. It can be seen that the performance is relatively high because of the low complexity and high log-likelihood.
여기서, 도 5 및 도 6은 390개의 문서로 구성된 말뭉치를 시뮬레션한 결과로, 각 문서에는 평균 1000개의 포아송 분포에서 생성된 단어 시퀀스가 포함되어 있으며, 1200개의 고유 단어와 10개의 토픽을 가지고 있다. 5 and 6 are simulation results of a corpus consisting of 390 documents, each document containing word sequences generated from an average of 1000 Poisson distributions, and having 1200 unique words and 10 topics. .
또한, 390개의 문서는 300개의 교육 자료와 90개의 테스트 문서로 나뉘며, 시뮬레이션은 100번 반복했다. In addition, 390 documents were divided into 300 training materials and 90 test documents, and the simulation was repeated 100 times.
VB 및 CVB 방법은 수렴 될 때까지 실행되었으며, VB는 Newton-Raphson 방법을 사용하여 하이퍼파라미터 값을 계산하고 CVB는 α = 0.05, β = 0.005를 사용했다. The VB and CVB methods were run until convergence, VB used the Newton-Raphson method to calculate hyperparameter values, and CVB used α = 0.05, β = 0.005.
종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(CG) 및 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(PCG)은 500번의 번인 반복으로 2000번의 반복 작업을 수행했다. The topic analysis method (CG) using the conventional latent Dirichlet allocation model and the topic analysis method (PCG) using the improved latent Dirichlet allocation model performed 2000 iterations with 500 burn-in iterations.
또한, 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 CG (0.01), CG (0.05), CG (0.2), CG (0.5)로 표현 된 α = 0.01, 0.05, 0.2 및 0.5를 β = 0.005로 설정했으며, 향상된 잠재 디리클레 할당 모델은 θ(d)와 의 하이퍼파라미터에 대해 사전 디리클레 분포의 디리클레 프로세스의 혼합물로 유도되었고, 기본 분포 G0 및 P0는 각각 1과 10의 지수 분포로 설정했다.In addition, the topic analysis method using the conventional latent Dirichlet allocation model sets α = 0.01, 0.05, 0.2 and 0.5 expressed in CG (0.01), CG (0.05), CG (0.2), CG (0.5) to β = 0.005. And the improved latent Dirichlet allocation models are θ (d) and The hyperparameters of were derived into a mixture of dirichlet processes of prior dirichlet distribution, and the base distributions G 0 and P 0 were set to exponential distributions of 1 and 10, respectively.
도 7은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 로그-가능도 및 퍼플렉서티와 관련한 시뮬레이션 성능을 비교한 그래프이다. FIG. 7 is a graph comparing topic performance using an improved latent Dirichlet allocation model according to an embodiment of the present invention and simulation performance with respect to log-likelihood and transparency of actual articles of various conventional methods.
도 8은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 하이퍼파라미터 αd의 클러스터링과 관련한 시뮬레이션 성능을 비교한 그래프이다.FIG. 8 is a graph comparing simulation performances related to clustering of hyperparameters α d for actual articles of various conventional methods and a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
여기서, 실제 기사는 문서의 토픽과 크기면에서 다양한 스펙트럼을 얻기 위해 토픽과 크기가 다른 기사 388 개로 구성된 2000-2002년의 신경 정보 처리 시스템(NIPS) 회의 데이터와 BBC 기사 중 2004-2005년 스포츠 및 기술 섹션의 912개 기사를 분석했다. Here, the actual articles are the 2000-2002 Neuronal Information Processing System (NIPS) conference data of 388 articles of different topics and sizes, and the 2004-2005 sports and BBC articles, in order to obtain various spectra in terms of topics and sizes of documents. We analyzed 912 articles in the technology section.
도 7을 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 다른 방법과 비교해 가장 높은 로그-가능도를 보이는 것을 확인할 수 있다. Referring to FIG. 7, it can be seen that the topic analysis method using the improved latent Dirichlet allocation model shows the highest log-likelihood compared to other methods.
또한, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 다른 방법과 비교해 가장 작은 퍼플렉서티를 제공 하였지만, 토픽의 수가 증가함에 따라 다른 방법들과 차이는 줄어드는 것을 확인할 수 있다. In addition, although the topic analysis method using the improved latent Dirichlet allocation model provided the smallest transparency compared with other methods, it can be seen that as the number of topics increases, the difference with other methods decreases.
특히, 토픽의 수가 많을 때, α = 0.05 또는 0.2 인 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 비슷한 성능을 보여 α = 0.05 및 0.2는 최적에 가깝다는 것을 확인할 수 있는데, 이는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 자동으로 선택한 하이퍼파라미터 α가 최적에 가깝다는 것을 알 수 있다. In particular, when the number of topics is large, the topic analysis method using the conventional latent Dirichlet allocation model with α = 0.05 or 0.2 shows similar performance to the topic analysis method with the improved latent Dirichlet allocation model, indicating that α = 0.05 and 0.2 are near optimal. It can be seen that the topic analysis method using the improved latent Dirichlet allocation model automatically shows that the hyperparameter α selected is close to the optimum.
도 8을 참조하면, 하이퍼파라미터 클러스터링은 사전 디리클레 혼합물에서 샘플링 된 αd개의 원자가 유사한 클러스터 크기를 갖는 배수인 것을 보여주는데, 즉 θ(d)의 추정 분포가 여러 개의 최빈값을 갖는 경향이 있음을 보여준다. Referring to FIG. 8, hyperparameter clustering shows that the α d atoms sampled in the pre-Dillikle mixture are multiples with similar cluster sizes, ie , the estimated distribution of θ (d) tends to have several modes.
샘플링 된 αd의 가중 평균은 0.1와 0.2 사이이므로 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 최적 α는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 가중 평균에 가깝고, 서로 일치해 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 데이터에서 최적의 하이퍼파라미터를 자동으로 추정한다는 것을 확인할 수 있다.Since the weighted average of the sampled α d is between 0.1 and 0.2, the optimal α of the topic analysis method using the conventional latent Dirichlet allocation model is close to the weighted average of the topic analysis method using the enhanced latent Dirichlet allocation model, and coincident with each other to improve the latent Dirichlet allocation. We can see that the topic analysis method using the model automatically estimates the optimal hyperparameters from the data.
도 9는 본 발명의 다른 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치의 구성도이다. 9 is a block diagram of a topic analysis apparatus using an improved latent Dirichlet allocation model according to another embodiment of the present invention.
도 9를 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치(900)는 전처리부(910), 토픽 분석부(920) 및 샘플링부(930)를 포함한다.
Referring to FIG. 9, the
전처리부(910)는 문서에 포함된 텍스트 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽을 분석하기 위해서는 문서의 전처리를 하여야 한다. 즉, 전처리부(910)는 토픽을 분석하기 위해 텍스트 데이터를 전처리한다.
The
구체적으로, 전처리부(910)는 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅 할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 또한, 형태소별로 태깅된 결과 중 명사만 추출할 수 있으며, 추출된 명사 중에서 불용어를 제거할 수 있다.
In detail, the
토픽 분석부(920)는 전처리부(910)를 통해 전처리된 텍스트 데이터를 입력받아 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석한다. 즉, 토픽 분석부(920)가 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석함으로써, 단어의 집합으로 표현할 수 있다.
The
이때, 샘플링부(930)는 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러를 이용해 샘플링을 실행한다.
In this case, the
이상에서 본 발명에 따른 실시 예들이 설명되었으나, 이는 예시적인 것에 불과하며, 본 발명의 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 다음의 청구범위에 의해서 정해져야할 것이다. Although embodiments according to the present invention have been described above, these are merely exemplary, and those skilled in the art will understand that various modifications and equivalent embodiments of the present invention are possible therefrom. . Therefore, the true technical protection scope of the present invention will be defined by the following claims.
910 : 전처리부
920 : 토픽 분석부
930 : 샘플링부 910: preprocessor 920: topic analysis unit
930: sampling unit
Claims (11)
문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 및
잠재 디리클레 할당(Latent Dirichlet allocation, LDA)모델 구조에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 상기 전처리된 텍스트 데이터에서 상기 토픽을 분석하는 단계;를 포함하되,
상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
In the topic analysis method,
A preprocessing step of preprocessing the text data included in the document; And
Analyzing the topic in the preprocessed text data using an enhanced latent Dirichlet allocation model that adds a hierarchical Dirichlet Process (DP) structure to a latent Dirichlet allocation (LDA) model structure; But
Performing sampling using the Partially Collapsed Gibbs Samplers (PCG) on the enhanced latent Dirichlet allocation model.
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터(hyperparameter)인 α 및 β는 사전에 지정된 상수가 아닌 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The hyperparameters α and β of the enhanced latent Dirichlet allocation model are not predetermined constants
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정되는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The hyperparameters α and β of the improved latent Dirichlet allocation model are automatically estimated
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터인 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용하는 토픽 분석 방법.
The method of claim 1,
Hyperparameters α and β of the improved latent Dirichlet allocation model are different dimensional parameters of the Dirichlet distribution
Topic analysis method using an improved latent Dirichlet allocation model, characterized in that.
상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The improved latent Dirichlet allocation model clusters text data of heterogeneous documents and assigns hyperparameters to each cluster for analysis of heterogeneous documents.
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
상기 전처리된 텍스트 데이터를 잠재 디리클레 할당모델 구조에 계층적 디리클레 프로세스 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석하는 토픽 분석부; 및
상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 샘플링부;를 포함하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
A preprocessor for preprocessing the text data contained in the document;
A topic analyzer configured to analyze the topic using the enhanced latent Dirichlet allocation model in which the preprocessed text data is added to a hierarchical Dirichlet allocation model structure and a hierarchical Dirichlet process structure; And
And a sampling unit configured to perform sampling using the partially collapsed Gibbs Samplers (PCG) on the improved latent Dirichlet allocation model.
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 사전에 지정된 상수가 아닌 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
The method of claim 6,
Hyperparameters α and β of the enhanced latent Dirichlet allocation model are not predetermined constants
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정되는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
The method of claim 6,
The hyperparameters α and β of the improved latent Dirichlet allocation model are automatically estimated
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터인 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용하는 토픽 분석 장치.
The method of claim 6,
Hyperparameters α and β of the improved latent Dirichlet allocation model are different dimensional parameters of the Dirichlet distribution
Topic analysis device using the improved latent Dirichlet allocation model, characterized in that.
상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.The method of claim 6,
The improved latent Dirichlet allocation model clusters text data of heterogeneous documents and assigns hyperparameters to each cluster for analysis of heterogeneous documents.
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
A computer-readable recording medium having recorded thereon a computer program for performing a topical analysis method using the improved latent Dirichlet allocation model according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180102046A KR102181744B1 (en) | 2018-08-29 | 2018-08-29 | Device and method for topic analysis using an enhanced latent dirichlet allocation model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180102046A KR102181744B1 (en) | 2018-08-29 | 2018-08-29 | Device and method for topic analysis using an enhanced latent dirichlet allocation model |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200026351A true KR20200026351A (en) | 2020-03-11 |
KR102181744B1 KR102181744B1 (en) | 2020-11-25 |
Family
ID=69810074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180102046A KR102181744B1 (en) | 2018-08-29 | 2018-08-29 | Device and method for topic analysis using an enhanced latent dirichlet allocation model |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102181744B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813935A (en) * | 2020-06-22 | 2020-10-23 | 贵州大学 | Multi-source text clustering method based on hierarchical Dirichlet multinomial distribution model |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240130410A (en) | 2023-02-22 | 2024-08-29 | 성균관대학교산학협력단 | Apparatus, method, computer-readable storage medium and computer program for detecting zero-shot stance based on adversarial learning and meta-learning |
KR102592079B1 (en) | 2023-03-21 | 2023-10-23 | 부경대학교 산학협력단 | Apparatus and method for reviewing literature using latent dirichlet allocation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014030258A1 (en) * | 2012-08-24 | 2014-02-27 | 株式会社日立製作所 | Morphological analysis device, text analysis method, and program for same |
KR101616544B1 (en) | 2014-03-03 | 2016-04-28 | 고려대학교 산학협력단 | Method for analyzing patent documents using a latent dirichlet allocation |
JP2016095568A (en) * | 2014-11-12 | 2016-05-26 | Kddi株式会社 | Model construction device and program |
JP2017151678A (en) * | 2016-02-24 | 2017-08-31 | 国立研究開発法人情報通信研究機構 | Topic estimation device, topic estimation method, and program |
JP2017211783A (en) * | 2016-05-24 | 2017-11-30 | 日本電信電話株式会社 | Estimation device, prediction device, method, and program |
KR20170141570A (en) * | 2016-06-15 | 2017-12-26 | 숭실대학교산학협력단 | Method and device for extracting topic, recording medium for performing the method |
KR20180024582A (en) * | 2016-08-30 | 2018-03-08 | 네이버 주식회사 | Method for online learning and dynamic learning of topic model |
-
2018
- 2018-08-29 KR KR1020180102046A patent/KR102181744B1/en active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014030258A1 (en) * | 2012-08-24 | 2014-02-27 | 株式会社日立製作所 | Morphological analysis device, text analysis method, and program for same |
KR101616544B1 (en) | 2014-03-03 | 2016-04-28 | 고려대학교 산학협력단 | Method for analyzing patent documents using a latent dirichlet allocation |
JP2016095568A (en) * | 2014-11-12 | 2016-05-26 | Kddi株式会社 | Model construction device and program |
JP2017151678A (en) * | 2016-02-24 | 2017-08-31 | 国立研究開発法人情報通信研究機構 | Topic estimation device, topic estimation method, and program |
JP2017211783A (en) * | 2016-05-24 | 2017-11-30 | 日本電信電話株式会社 | Estimation device, prediction device, method, and program |
KR20170141570A (en) * | 2016-06-15 | 2017-12-26 | 숭실대학교산학협력단 | Method and device for extracting topic, recording medium for performing the method |
KR20180024582A (en) * | 2016-08-30 | 2018-03-08 | 네이버 주식회사 | Method for online learning and dynamic learning of topic model |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813935A (en) * | 2020-06-22 | 2020-10-23 | 贵州大学 | Multi-source text clustering method based on hierarchical Dirichlet multinomial distribution model |
CN111813935B (en) * | 2020-06-22 | 2024-04-30 | 贵州大学 | Multi-source text clustering method based on hierarchical dirichlet allocation model |
Also Published As
Publication number | Publication date |
---|---|
KR102181744B1 (en) | 2020-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019174422A1 (en) | Method for analyzing entity association relationship, and related apparatus | |
Gaddy et al. | What's going on in neural constituency parsers? an analysis | |
CN106897439B (en) | Text emotion recognition method, device, server and storage medium | |
CN108519971B (en) | Cross-language news topic similarity comparison method based on parallel corpus | |
CN113076734B (en) | Similarity detection method and device for project texts | |
KR20200026351A (en) | Device and method for topic analysis using an enhanced latent dirichlet allocation model | |
BR112012011091B1 (en) | method and apparatus for extracting and evaluating word quality | |
CN111597328B (en) | New event theme extraction method | |
Boudchiche et al. | A hybrid approach for Arabic lemmatization | |
WO2022042297A1 (en) | Text clustering method, apparatus, electronic device, and storage medium | |
KR101815309B1 (en) | Method and device for extracting topic, recording medium for performing the method | |
CN114265932A (en) | Event context generation method and system integrating deep semantic relation classification | |
CN113076748A (en) | Method, device and equipment for processing bullet screen sensitive words and storage medium | |
Natarajan et al. | s3-statistical sandhi splitting | |
CN108701126B (en) | Theme estimation device, theme estimation method, and storage medium | |
CN115146062A (en) | Intelligent event analysis method and system fusing expert recommendation and text clustering | |
Pimentel et al. | On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation | |
Satyam et al. | A statistical analysis approach to author identification using latent semantic analysis | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
CN111198934A (en) | Information processing method and related equipment | |
Subeno et al. | Optimisation towards Latent Dirichlet Allocation: Its Topic Number and Collapsed Gibbs Sampling Inference Process. | |
Salton et al. | Idiom type identification with smoothed lexical features and a maximum margin classifier | |
CN107943916B (en) | Webpage anomaly detection method based on online classification | |
CN115829712A (en) | Data information security classification method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |