KR20200026351A - Device and method for topic analysis using an enhanced latent dirichlet allocation model - Google Patents

Device and method for topic analysis using an enhanced latent dirichlet allocation model Download PDF

Info

Publication number
KR20200026351A
KR20200026351A KR1020180102046A KR20180102046A KR20200026351A KR 20200026351 A KR20200026351 A KR 20200026351A KR 1020180102046 A KR1020180102046 A KR 1020180102046A KR 20180102046 A KR20180102046 A KR 20180102046A KR 20200026351 A KR20200026351 A KR 20200026351A
Authority
KR
South Korea
Prior art keywords
allocation model
dirichlet allocation
latent dirichlet
topic
improved
Prior art date
Application number
KR1020180102046A
Other languages
Korean (ko)
Other versions
KR102181744B1 (en
Inventor
이영섭
박홍주
박태영
Original Assignee
동국대학교 산학협력단
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 연세대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020180102046A priority Critical patent/KR102181744B1/en
Publication of KR20200026351A publication Critical patent/KR20200026351A/en
Application granted granted Critical
Publication of KR102181744B1 publication Critical patent/KR102181744B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a topic analysis method using an enhanced latent Dirichlet allocation (LDA) model. A topic analysis method comprises: a pre-processing step of pre-processing text data included in a document; and a step of analyzing the topic from the pre-processed text data using an enhanced LDA model which adds a hierarchical Dirichlet Process (DP) structure to an LDA model structure. Sampling is executed using partially collapsed Gibbs samplers (PCG) for the enhanced LDA model.

Description

향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법{Device and method for topic analysis using an enhanced latent dirichlet allocation model} Device and method for topic analysis using an enhanced latent dirichlet allocation model}

본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법에 관한 것이다. The present invention relates to a topical analysis apparatus and method using an improved latent Dirichlet allocation model.

인터넷의 발달로 웹 문서 양이 급격하게 증가함에 따라, 인터넷에서 생성되는 수많은 대용량의 문서를 토픽별로 분류하는 토픽 분석 기술은 최근 가장 많은 주목을 받고 있는 분야로 이에 대한 연구가 활발히 진행되고 있다. As the amount of web documents is rapidly increased due to the development of the Internet, a topic analysis technology for classifying a large amount of large documents generated by the Internet by topic has recently been actively researched.

특히, 토픽 분석 기술 중에서 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 모델이 가장 널리 이용되고 있다. In particular, the latent Dirichlet Allocation (LDA) model is the most widely used topic analysis technique.

도 1은 종래 잠재 디리클레 할당 모델의 구조이다. 1 is a structure of a conventional latent Dirichlet allocation model.

도 1을 참조하면, 종래 잠재 디리클레 할당 모델은 하이퍼파라미터(hyperparameters)라고 불리는 α 및 β값을 사전에 지정을 해주어야 하는데, α 및 β값은 문서마다 다를 수 있기 때문에 잘못된 α 및 β값의 지정은 잘못된 분석을 야기하는 문제점이 있다. Referring to FIG. 1, the conventional latent Dirichlet allocation model should specify the α and β values called hyperparameters in advance. Since the α and β values may vary from document to document, the incorrect assignment of α and β values There is a problem that causes false analysis.

또한, 종래의 잠재 디리클레 할당 모델은 이질적인 문서의 텍스트 데이터를 동질적인 텍스트 데이터로 취급하여 이질적인 문서의 토픽을 분석하는데 한계를 보이는 문제점이 있다. In addition, the conventional latent Dirichlet allocation model has a problem in that it treats text data of heterogeneous documents as homogeneous text data and shows limitations in analyzing topics of heterogeneous documents.

한국등록특허 제10-1616544호(2016.04.28 공고)Korea Patent Registration No. 10-1616544 (Announcement on 2016.04.28)

본 발명이 해결하고자 하는 기술적 과제는, 하이퍼파라미터 값을 자동으로 찾을 수 있는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 제공하는 데 있다. An object of the present invention is to provide an apparatus and method for topic analysis using an improved latent Dirichlet allocation model that can automatically find hyperparameter values.

본 발명이 해결하고자 하는 다른 기술적 과제는, 이질적인 문서의 토픽을 분석할 수 있는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 제공하는 데 있다. Another technical problem to be solved by the present invention is to provide an apparatus and method for topic analysis using an improved latent Dirichlet allocation model that can analyze topics of heterogeneous documents.

상기와 같은 기술적 과제를 해결하기 위해, 본 발명의 바람직한 일 측면에 따르면, 토픽 분석 방법에 있어서, 문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 및 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)모델 구조에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 상기 전처리된 텍스트 데이터에서 상기 토픽을 분석하는 단계;를 포함하되, 상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법을 제공한다. In order to solve the above technical problem, according to a preferred aspect of the present invention, a topic analysis method comprising: a preprocessing step of preprocessing text data included in a document; And analyzing the topic in the preprocessed text data using an enhanced latent Dirichlet allocation model that adds a hierarchical Dirichlet Process (DP) structure to a latent Dirichlet allocation (LDA) model structure. Include, but provide a topic analysis method using the enhanced latent Dirichlet allocation model to perform sampling using the Partially Collapsed Gibbs Samplers (PCG) for the enhanced latent Dirichlet allocation model.

여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터(hyperparameter)인 α 및 β는 사전에 지정된 상수가 아닐 수 있다. Here, α and β, which are hyperparameters of the enhanced latent Dirichlet allocation model, may not be a predetermined constant.

여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정될 수 있다. Here, the hyperparameters α and β of the improved latent Dirichlet allocation model can be estimated automatically.

여기서, 상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터일 수 있다. Here, α and β, which are hyperparameters of the improved latent Dirichlet allocation model, may be different dimensional parameters of the Dirichlet distribution.

여기서, 상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당할 수 있다. Here, the improved latent Dirichlet allocation model clusters text data of the heterogeneous document and allocates hyperparameters to each cluster for analysis of the heterogeneous document.

본 발명의 바람직한 다른 측면에 따르면, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터를 잠재 디리클레 할당모델 구조에 계층적 디리클레 프로세스 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석하는 토픽 분석부; 및 상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 샘플링부;를 포함하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치를 제공한다. According to another preferred aspect of the invention, the pre-processing unit for pre-processing the text data contained in the document; A topic analyzer configured to analyze the topic using the enhanced latent Dirichlet allocation model in which the preprocessed text data is added to a hierarchical Dirichlet allocation model structure and a hierarchical Dirichlet process structure; And a sampling unit configured to perform sampling using the partially collapsed Gibbs Samplers (PCG) with respect to the enhanced latent Dirichlet allocation model.

본 발명의 바람직한 또 다른 측면에 따르면, 상기 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 제공할 수 있다. According to another preferred aspect of the present invention, a computer-readable recording medium having a computer program recorded thereon for performing the topic analysis method using the improved latent Dirichlet allocation model can be provided.

본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 통해 최적의 하이퍼파라미터 값을 자동으로 찾을 수 있는 효과가 있다. The present invention has the effect of automatically finding the optimal hyperparameter value through the topic analysis apparatus and method using the improved latent Dirichlet allocation model.

또한, 본 발명은 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법을 통해 이질적인 문서의 토픽을 정교하게 분석할 수 있는 효과가 있다. In addition, the present invention has an effect that can accurately analyze the topics of heterogeneous documents through the topic analysis apparatus and method using the improved latent Dirichlet allocation model.

도 1은 종래 잠재 디리클레 할당 모델의 구조이다.
도 2는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에서 향상된 잠재 디리클레 할당 모델의 구조이다.
도 3은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법 순서도이다.
도 4는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 방법의 문서에 대한 토픽 기여도의 사후 분포를 비교한 그림이다.
도 5는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 θ(d)

Figure pat00001
에 대한 평균 제곱 오차(MSE)의 성능을 비교한 그래프이다.
도 6은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 로그-가능도(log-likelihood) 및 퍼플렉서티(perplexity)와 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 로그-가능도 및 퍼플렉서티와 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 8은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 하이퍼파라미터 αd의 클러스터링과 관련한 시뮬레이션 성능을 비교한 그래프이다.
도 9는 본 발명의 다른 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치의 구성도이다.1 is a structure of a conventional latent Dirichlet allocation model.
2 is a structure of an improved latent Dirichlet allocation model in a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
3 is a flowchart of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
4 is a diagram comparing the post-distribution of the topic contribution to the document of the topic analysis method and the conventional method using the improved latent Dirichlet allocation model according to an embodiment of the present invention.
5 is a θ (d) and the topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods
Figure pat00001
This is a graph comparing the performance of the mean square error (MSE) for.
FIG. 6 is a graph comparing simulation performance with respect to log-likelihood and complexity of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods. to be.
FIG. 7 is a graph comparing topic performance using an improved latent Dirichlet allocation model according to an embodiment of the present invention and simulation performance with respect to log-likelihood and transparency of actual articles of various conventional methods.
FIG. 8 is a graph comparing simulation performances related to clustering of hyperparameters α d for actual articles of various conventional methods and a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.
9 is a block diagram of a topic analysis apparatus using an improved latent Dirichlet allocation model according to another embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. As the inventive concept allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 이와 같은 용어들에 의해 한정되지는 않는다. 이 용어들은 하나의 구성요소들을 다른 구성요소로부터 구별하는 목적으로만 사용된다. Terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. These terms are only used to distinguish one component from another.

어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나, 또는 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나, '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is said to be 'connected' or 'connected' to another component, it may be directly connected to or connected to that other component, but other components may be present in between. It should be understood that. On the other hand, when a component is said to be 'directly connected' or 'directly connected' to another component, it should be understood that there is no other component in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함한다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, the term 'comprises' or 'having' is intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.

도 2는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에서 향상된 잠재 디리클레 할당 모델의 구조이다. 2 is a structure of an improved latent Dirichlet allocation model in a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.

도 2를 참조하면, 향상된 잠재 디리클레 모델(200)의 구조는 잠재 디리클레 할당모델 구조(210)에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조(220)가 추가된 것이다. Referring to FIG. 2, the structure of the enhanced latent Dirichlet model 200 is a hierarchical Dirichlet process (DP) structure 220 added to the latent Dirichlet allocation model structure 210.

여기서, N은 n번째 문서의 단어 수, D는 말뭉치 전체 문서 개수,

Figure pat00002
는 n번째 d문서의 단어,
Figure pat00003
는 문서 d의 n 번째 단어에 대한 토픽 색인, θ(d)는 매개변수 αd를 가진 디리클레 분포에 뒤따르는 T차원 무작위 변수로 d문서에서 토픽의 확률,
Figure pat00004
는 T X M 차원 행렬로 토픽 t에서 단어의 확률, αd에서 α는 하이퍼파라미터 중 하나인 디리클레 분포의 T차원 파라미터로 사전에 지정된 상수가 아닌 θ(d)의 디리클레 분포의 스카라 파라미터, βt의 β는 하이퍼파라미터 중 하나인 디리클레 분포의 M차원 파라미터로 사전에 지정된 상수가 아닌
Figure pat00005
의 디리클레 분포의 스카라 파라미터, G 및 P는 α 와 β 각각의 농도 파라미터(concentration parameters), G0 및 P0 α 와 β의 기본 분포(base measure),
Figure pat00006
Figure pat00007
는 디리클레 프로세스 이전 각각의 α 와 β 이며, a0 = 1, b0 = 1이다.Where N is the number of words in the nth document, D is the total number of documents in the corpus,
Figure pat00002
Is the word of the nth d document,
Figure pat00003
Is the topic index for the nth word of document d, θ (d) is the T-dimensional random variable following the Dirichlet distribution with parameter α d, and the probability of the topic in document d,
Figure pat00004
Is the probability, α d of the words in the topic t to TXM-dimensional matrix α is a T-dimensional parameter of the Dirichlet distribution, one of the hyperparameters, and is a scalar parameter of the Dirichlet distribution of θ (d) , and β of t is the M-dimensional parameter of the Dirichlet distribution, one of the hyperparameters. Not a specified constant
Figure pat00005
SCARA parameters of the Dirichlet distribution, G and P of α And the concentration parameters, G 0 and P 0 , respectively α Base measure of and β,
Figure pat00006
And
Figure pat00007
Α of each prior to the Dirichlet process And β, a 0 = 1, b 0 = 1.

α는 독립적이고 미지의 사전 분포 G에 따라 동일하게 분포되며, G는 정밀도 매개 변수

Figure pat00008
및 λ의 밑변 분포 G0를 갖는 디리클레 프로세스로부터 유도되며, β는 독립적이고 미지의 사전 분포 P에 따라 동일하게 분포되며, P는 정밀도 매개 변수
Figure pat00009
및 μ의 밑변 분포 P0를 갖는 디리클레 프로세스로부터 유도되어, α 및 β는 자동으로 추정된다.α is independent and equally distributed according to the unknown prior distribution G, where G is a precision parameter
Figure pat00008
And a Dirichlet process with a base distribution G 0 of λ, β is independent and equally distributed according to an unknown prior distribution P, where P is a precision parameter
Figure pat00009
And a Dirichlet process with base distribution P 0 of μ, α and β are automatically estimated.

향상된 잠재 디리클레 할당 모델(200)은 서로 문서 종류가 다른 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당해 이질적인 문서의 분석을 할 수 있는데, 이는 하이퍼파라미터인 α와 β가 사전에 지정된 상수가 아닌 사전 디리클레 분포의 디리클레 프로세스의 혼합물로 유도되기 때문이다. The enhanced latent Dirichlet assignment model 200 clusters text data of heterogeneous documents with different document types, and assigns hyperparameters to each cluster to analyze heterogeneous documents, in which hyperparameters α and β are predefined. This is because it is derived from a mixture of Dirichlet processes of prior dirichlet distribution, not constant.

향상된 잠재 디리클레 할당 모델(200)의 목표 분포는 p(Z, S, U, θ,

Figure pat00010
, α*, β*,
Figure pat00011
,
Figure pat00012
|W)이며, 목표 분포를 기반으로 θ,
Figure pat00013
는 Z에 대한 조건부 분포에서 부분적으로 붕괴 될 수 있기 때문에 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 실행해 θ,
Figure pat00014
를 붕괴시켜 샘플링 한다. 여기서, 부분 붕괴된 깁스 샘플러는 공지된 기술이므로 자세한 설명은 생략하도록 한다.The target distribution of the enhanced latent Dirichlet allocation model 200 is p (Z, S, U, θ,
Figure pat00010
, α * , β * ,
Figure pat00011
,
Figure pat00012
W), based on the target distribution θ,
Figure pat00013
Since Partially Collapsed in the conditional distribution for Z, we run Partially Collapsed Gibbs Samplers (PCG).
Figure pat00014
Collapse and sample. Here, the partially collapsed Gibbs sampler is a well-known technique, so a detailed description thereof will be omitted.

부분 붕괴된 깁스 샘플러의 샘플링은 변수추출을 위한 6개의 과정으로 구성되어 있다. Sampling of a partially decayed Gibbs sampler consists of six steps for parameter extraction.

과정 1은 확률로 분리된 p(

Figure pat00015
|Z-(n,d), S, U, α*, β*,
Figure pat00016
,
Figure pat00017
, W)로부터
Figure pat00018
를 추출하는데, 추출식은 아래 식 1과 같다.Process 1 is a probability separated p (
Figure pat00015
Z- (n, d) , S, U, α * , β * ,
Figure pat00016
,
Figure pat00017
From W)
Figure pat00018
To extract, the extraction formula is shown in Equation 1.

식 1 Equation 1

p(

Figure pat00019
=t*|Z-(n,d), S, U, α*, β*,
Figure pat00020
,
Figure pat00021
, W) ∝
Figure pat00022
, t* = 1, ... , Tp (
Figure pat00019
= t * Z- (n, d) , S, U, α * , β * ,
Figure pat00020
,
Figure pat00021
, W) ∝
Figure pat00022
, t * = 1, ..., T

여기서, Z-(n,d) = Z \{

Figure pat00023
}는 문서 d의 n 번째 단어를 제외한 토픽 색인의 집합을 나타내며,
Figure pat00024
는 단어 w가 Z-(n,d)에서 토픽 t에 할당 된 횟수를 나타내고,
Figure pat00025
는 문서 d 내의 단어가 토픽 t에 할당 된 횟수를 나타낸다. W는 말뭉치, Z는 토픽 t에서 단어 n이 나올 확률, S = {
Figure pat00026
},
Figure pat00027
=
Figure pat00028
,
Figure pat00029
=
Figure pat00030
,
Figure pat00031
는 αd가 문서 클러스터 i에 속하는 것을,
Figure pat00032
는 βt가 토픽 클러스터 t에 속하는 것을 나타내며, U = {
Figure pat00033
},
Figure pat00034
=
Figure pat00035
,
Figure pat00036
=
Figure pat00037
, M은 고유 단어, T는 잠재적인 토픽이다.Where Z- (n, d) = Z \ {
Figure pat00023
} Represents a set of topic indices excluding the nth word of document d,
Figure pat00024
Denotes the number of times the word w has been assigned to the topic t in Z- (n, d) ,
Figure pat00025
Denotes the number of times a word in document d has been assigned to topic t. W is the corpus, Z is the probability of the word n on topic t, S = {
Figure pat00026
},
Figure pat00027
=
Figure pat00028
,
Figure pat00029
=
Figure pat00030
,
Figure pat00031
That α d belongs to document cluster i,
Figure pat00032
Indicates that β t belongs to topic cluster t, U = {
Figure pat00033
},
Figure pat00034
=
Figure pat00035
,
Figure pat00036
=
Figure pat00037
, M is a unique word, and T is a potential topic.

과정 2는 p(

Figure pat00038
, θ|Z, S, U, α*, β*,
Figure pat00039
,
Figure pat00040
, W)로부터 (θ,
Figure pat00041
)를 추출하는데, 추출식은 아래 식 2 및 식 3과 같다. 식 2는 독립 T차원 디리클레 분포, 식 3은 T 독립 M 차원 디리클레 분포에 대한 것이다.Process 2 is p (
Figure pat00038
, θ | Z, S, U, α * , β * ,
Figure pat00039
,
Figure pat00040
, W) from (θ,
Figure pat00041
), And the extraction equations are as shown in Equations 2 and 3 below. Equation 2 is for independent T-dimensional Dirichlet distribution, and Equation 3 is for T independent M-dimensional Dirichlet distribution.

식 2 Equation 2

θ(d)|(Z, S, U, α*, β*,

Figure pat00042
,
Figure pat00043
, W)
Figure pat00044
Dirichlet
Figure pat00045
, d = 1, ... , D θ (d) | (Z, S, U, α * , β * ,
Figure pat00042
,
Figure pat00043
, W)
Figure pat00044
Dirichlet
Figure pat00045
, d = 1, ..., D

식 3 Expression 3

Figure pat00046
|(Z, S, U, α*, β*,
Figure pat00047
,
Figure pat00048
, W)
Figure pat00049
Dirichlet
Figure pat00050
, t = 1, ... , T
Figure pat00046
(Z, S, U, α * , β * ,
Figure pat00047
,
Figure pat00048
, W)
Figure pat00049
Dirichlet
Figure pat00050
, t = 1, ..., T

여기서,

Figure pat00051
는 문서 d 내의 단어가 토픽 t에 할당 된 횟수를 나타내며,
Figure pat00052
는 단어 집합 w가 토픽 색인 집합 Z에서 토픽 t에 할당되는 횟수를 나타낸다.here,
Figure pat00051
Denotes the number of times a word in document d has been assigned to topic t,
Figure pat00052
Denotes the number of times word set w is assigned to topic t in topic index set Z.

과정 3은 p(S|Z, U,

Figure pat00053
, θ, α*, β*,
Figure pat00054
,
Figure pat00055
, W)로부터 S를 추출하는데, 추출식은 아래 식 4 및 식 5와 같다. 식 4는 독립 이산 분포 D, 식 5는 독립 이산 분포 T에 관한 것이다.Process 3 is p (S | Z, U,
Figure pat00053
, θ, α * , β * ,
Figure pat00054
,
Figure pat00055
, S) is extracted, and the extraction equation is as shown in equations 4 and 5. Equation 4 relates to the independent discrete distribution D, and Equation 5 relates to the independent discrete distribution T.

식 4 Equation 4

p(

Figure pat00056
= i|Z, U,
Figure pat00057
, θ, α*, β*,
Figure pat00058
,
Figure pat00059
, W) ∝
Figure pat00060
, i = 1, ... , I p (
Figure pat00056
= i | Z, U,
Figure pat00057
, θ, α * , β * ,
Figure pat00058
,
Figure pat00059
, W) ∝
Figure pat00060
, i = 1, ..., I

식 5 Equation 5

p(

Figure pat00061
= j|Z, U,
Figure pat00062
, θ, α*, β*,
Figure pat00063
,
Figure pat00064
, W) ∝
Figure pat00065
, j = 1, ... ,Jp (
Figure pat00061
= j | Z, U,
Figure pat00062
, θ, α * , β * ,
Figure pat00063
,
Figure pat00064
, W) ∝
Figure pat00065
, j = 1, ..., J

과정 4는 p(U|Z, S,

Figure pat00066
, θ, α*, β*,
Figure pat00067
,
Figure pat00068
, W)로부터 U를 추출하는데, 추출식은 아래 식 6 및 식 7과 같다. 식 6은 독립 베타 분포 I, 식 7은 독립 베타 분포 J에 관한 것이다.Process 4 is p (U | Z, S,
Figure pat00066
, θ, α * , β * ,
Figure pat00067
,
Figure pat00068
U is extracted from W), and the extraction equations are as shown in Equations 6 and 7 below. Equation 6 relates to the independent beta distribution I and Equation 7 relates to the independent beta distribution J.

식 6 Equation 6

Figure pat00069
|(Z, S,
Figure pat00070
, θ, α*, β*,
Figure pat00071
,
Figure pat00072
, W)
Figure pat00073
Beta
Figure pat00074
, i = 1, ... , I-1
Figure pat00069
(Z, S,
Figure pat00070
, θ, α * , β * ,
Figure pat00071
,
Figure pat00072
, W)
Figure pat00073
Beta
Figure pat00074
, i = 1, ..., I-1

식 7 Equation 7

Figure pat00075
|(Z, S,
Figure pat00076
, θ, α*, β*,
Figure pat00077
,
Figure pat00078
, W)
Figure pat00079
Beta
Figure pat00080
, j = 1, ... , J-1
Figure pat00075
(Z, S,
Figure pat00076
, θ, α * , β * ,
Figure pat00077
,
Figure pat00078
, W)
Figure pat00079
Beta
Figure pat00080
, j = 1, ..., J-1

여기서,

Figure pat00081
= 1,
Figure pat00082
= 1 이다.here,
Figure pat00081
= 1,
Figure pat00082
= 1

과정 5는 p(α*, β*|Z, S, U,

Figure pat00083
, θ,
Figure pat00084
,
Figure pat00085
, W)로부터 (α*, β*)를 추출하는데, 추출식은 아래 식 8과 같다.Process 5 is defined by p (α * , β * | Z, S, U,
Figure pat00083
, θ,
Figure pat00084
,
Figure pat00085
, W) is extracted from (α * , β * ).

식 8 Equation 8

p(α*, β*|Z, S, U,

Figure pat00086
, θ,
Figure pat00087
,
Figure pat00088
, W) =
Figure pat00089
이며,p (α * , β * | Z, S, U,
Figure pat00086
, θ,
Figure pat00087
,
Figure pat00088
, W) =
Figure pat00089
Is,

Figure pat00090
는 식 9로 추출된다.
Figure pat00090
Is extracted by equation 9.

식 9 Equation 9

Figure pat00091
Figure pat00091

Figure pat00092
는 식 10으로 추출된다.
Figure pat00092
Is extracted by equation (10).

식 10 Equation 10

Figure pat00093
Figure pat00093

여기서,

Figure pat00094
이다.here,
Figure pat00094
to be.

과정 6은 독립적인 감마 분포의 산물을 p(

Figure pat00095
,
Figure pat00096
|Z, S, U,
Figure pat00097
, θ, α*, β*, W)로부터 (
Figure pat00098
,
Figure pat00099
)를 추출하는데, 추출식은 아래 식 11과 식 12와 같다.Process 6 extracts the product of the independent gamma distribution p (
Figure pat00095
,
Figure pat00096
Z, S, U,
Figure pat00097
, θ, from α * , β * , W) (
Figure pat00098
,
Figure pat00099
) Is extracted, as shown in Equations 11 and 12 below.

식 11 Equation 11

Figure pat00100
|(Z, S, U,
Figure pat00101
, θ, α*, β*, W) ~ Gamma
Figure pat00102
Figure pat00100
(Z, S, U,
Figure pat00101
, θ, α * , β * , W) to Gamma
Figure pat00102

식 12 Equation 12

Figure pat00103
|(Z, S, U,
Figure pat00104
, θ, α*, β*, W) ~ Gamma
Figure pat00105
Figure pat00103
(Z, S, U,
Figure pat00104
, θ, α * , β * , W) to Gamma
Figure pat00105

도 3은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법 순서도이다. 3 is a flowchart of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.

도 3을 참조하면, S310단계에서 문서에 포함된 텍스트 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽을 분석하기 위해서는 문서의 전처리를 하여야 한다. Referring to FIG. 3, in operation S310, text data included in a document is preprocessed. Since the data contained in the document is text data, the document must be preprocessed to analyze the topic.

구체적으로, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 또한, 형태소별로 태깅된 결과 중 명사만 추출할 수 있으며, 추출된 명사 중에서 불용어를 제거할 수 있다. Specifically, the sentences may be separated from the text data included in the document and tagged for each morpheme. Morphological means the smallest word with a meaning. In addition, only nouns may be extracted from the tagged results of each morpheme, and stopwords may be removed from the extracted nouns.

S320단계에서는 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석한다. 즉, 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석함으로써, 단어의 집합으로 표현할 수 있다. In step S320, the topic is analyzed on the preprocessed text data using an improved latent Dirichlet allocation model. That is, the preprocessed text data can be represented as a set of words by analyzing the topic using an improved latent Dirichlet allocation model.

이때, 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러를 이용해 샘플링을 실행한다. At this point, sampling is performed using a partially decayed Gibbs sampler for the enhanced latent Dirichlet allocation model.

본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. The topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention may be implemented in the form of program instructions that may be implemented as an application or executed through various computer components, and recorded in a computer-readable recording medium. .

컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는, 본 발명을 위한 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. The computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the computer-readable recording medium are those specially designed and constructed for the present invention, and may be known and available to those skilled in the computer software arts.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the processing according to the present invention, and vice versa.

도 4는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 방법의 문서에 대한 토픽 기여도의 사후 분포를 비교한 그림이다. 도 4(a)는 문서에 대한 토픽 기여도의 실제 분포, 도 4(b)는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에 기반한 토픽 기여도의 사후 분포, 도 4(c-1) 내지 도 4(c-9)는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 토픽 기여도의 사후 분포 그림이다. 4 is a diagram comparing the post-distribution of the topic contribution to the document of the topic analysis method and the conventional method using the improved latent Dirichlet allocation model according to an embodiment of the present invention. Figure 4 (a) is the actual distribution of topic contribution to the document, Figure 4 (b) is the post-distribution of topic contribution based on the topic analysis method using the improved latent Dirichlet allocation model, Figures 4 (c-1) to 4 ( c-9) is a posterior distribution diagram of the topic contribution of the topic analysis method using a conventional latent Dirichlet allocation model.

도 4는 100개의 문서로 구성된 말뭉치를 시뮬레이션한 결과로, 각 문서에는 평균 300개의 포아송(Poisson) 분포에서 생성된 단어 시퀀스가 포함되어 있으며, 100개의 고유 단어와 3개의 토픽을 가지고 있다. 단색점은 말뭉치의 모든 문서에 대해 예상되는 토픽 기여도를 나타낸다. 4 is a simulation result of a corpus composed of 100 documents. Each document includes word sequences generated from an average of 300 Poisson distributions, and has 100 unique words and 3 topics. Solid points represent topic contributions expected for all documents in the corpus.

도 4를 참조하면, 그림 4(a)의 실제 분포는 매우 복합적으로 나타났는데, 이는 도 4 (b)의 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법에 의해 잘 예측된 것을 확인할 수 있다. Referring to FIG. 4, the actual distribution of FIG. 4 (a) appears to be very complex, which is well predicted by the topic analysis method using the improved latent Dirichlet allocation model of FIG. 4 (b).

반면, 도 4(c-1) 내지 도 4(c-9)는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법으로 하이퍼파라미터인 α와 β를 사전에 지정된 상수로 사용하는 한편, 붕괴된 깁스 샘플러(Collapsed Gibbs Samplers, CG)를 이용했기 때문에, α = 0.5와 β = 0.001인 도 4(c-4)만 토픽 기여도 사후 분포가 명백하게 편향되지 않은 추정치를 산출하고 나머지 다른 경우는 단봉적(unimodal)으로 나타난 것을 확인할 수 있다. On the other hand, Figures 4 (c-1) to 4 (c-9) is a topic analysis method using a conventional latent Dirichlet allocation model using the hyperparameters α and β as a predetermined constant, while the decayed Gibbs sampler ( Because of using Collapsed Gibbs Samplers (CG), only Figure 4 (c-4) with α = 0.5 and β = 0.001 yields an estimate with no apparent bias in the topic contribution post-distribution and the other cases ununiformally. You can see what appeared.

이는 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 경우 이질적인 문서의 토픽 분석을 위한 멀티 모드 토픽 기여도 분포가 적절하게 매핑 되지 않을 수 있다는 것이다. 즉, 붕괴된 깁스 샘플러의 성능은 고정된 하이퍼파라미터 변수 선택에 따라 달라지기 때문에 큰 편향이 발생할 수 있다. This means that in the case of a topic analysis method using a conventional latent Dirichlet allocation model, the multi-mode topic contribution distribution for topic analysis of heterogeneous documents may not be properly mapped. That is, the performance of the decayed Gibbs sampler depends on the choice of fixed hyperparameter variables, which can lead to large deflections.

이와는 대조적으로, 도 4 (b)의 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 토픽 기여도의 사후 분포를 유연하게 모델링하며, 단어 기여도의 분포에 유연성을 부여하고, 데이터가 자동으로 하이퍼파라미터 값을 추정하도록 함으로써 강력한 결과를 산출할 수 있다. In contrast, the topic analysis method using the improved latent Dirichlet allocation model of FIG. 4 (b) flexibly models the post-distribution of topic contributions, gives flexibility to the distribution of word contributions, and automatically calculates the hyperparameter values. By estimating it can produce powerful results.

도 5는 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 θ(d)

Figure pat00106
에 대한 평균 제곱 오차(MSE)의 성능을 비교한 그래프이다.5 is a θ (d) and the topic analysis method using the improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods
Figure pat00106
This is a graph comparing the performance of the mean square error (MSE) for.

도 6은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 로그-가능도(log-likelihood) 및 퍼플렉서티(perplexity)와 관련한 시뮬레이션 성능을 비교한 그래프이다. FIG. 6 is a graph comparing simulation performance with respect to log-likelihood and complexity of a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention and various conventional methods. to be.

도 5 및 도 6을 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(PCG)이 VB, CVB 및 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(CG)과 비교해 평균 제곱 오차(MSE)와 퍼플렉서티(perplexity)가 낮고, 로그-가능도(log-likelihood)가 높아 상대적으로 우수한 성능을 보이는 것을 확인할 수 있다. 5 and 6, the topic analysis method (PCG) using the enhanced latent Dirichlet allocation model is average squared error (MSE) and purple compared to the topic analysis method (CG) using VB, CVB and the conventional latent Dirichlet allocation model. It can be seen that the performance is relatively high because of the low complexity and high log-likelihood.

여기서, 도 5 및 도 6은 390개의 문서로 구성된 말뭉치를 시뮬레션한 결과로, 각 문서에는 평균 1000개의 포아송 분포에서 생성된 단어 시퀀스가 포함되어 있으며, 1200개의 고유 단어와 10개의 토픽을 가지고 있다. 5 and 6 are simulation results of a corpus consisting of 390 documents, each document containing word sequences generated from an average of 1000 Poisson distributions, and having 1200 unique words and 10 topics. .

또한, 390개의 문서는 300개의 교육 자료와 90개의 테스트 문서로 나뉘며, 시뮬레이션은 100번 반복했다. In addition, 390 documents were divided into 300 training materials and 90 test documents, and the simulation was repeated 100 times.

VB 및 CVB 방법은 수렴 될 때까지 실행되었으며, VB는 Newton-Raphson 방법을 사용하여 하이퍼파라미터 값을 계산하고 CVB는 α = 0.05, β = 0.005를 사용했다. The VB and CVB methods were run until convergence, VB used the Newton-Raphson method to calculate hyperparameter values, and CVB used α = 0.05, β = 0.005.

종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(CG) 및 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법(PCG)은 500번의 번인 반복으로 2000번의 반복 작업을 수행했다. The topic analysis method (CG) using the conventional latent Dirichlet allocation model and the topic analysis method (PCG) using the improved latent Dirichlet allocation model performed 2000 iterations with 500 burn-in iterations.

또한, 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법은 CG (0.01), CG (0.05), CG (0.2), CG (0.5)로 표현 된 α = 0.01, 0.05, 0.2 및 0.5를 β = 0.005로 설정했으며, 향상된 잠재 디리클레 할당 모델은 θ(d)

Figure pat00107
의 하이퍼파라미터에 대해 사전 디리클레 분포의 디리클레 프로세스의 혼합물로 유도되었고, 기본 분포 G0 및 P0는 각각 1과 10의 지수 분포로 설정했다.In addition, the topic analysis method using the conventional latent Dirichlet allocation model sets α = 0.01, 0.05, 0.2 and 0.5 expressed in CG (0.01), CG (0.05), CG (0.2), CG (0.5) to β = 0.005. And the improved latent Dirichlet allocation models are θ (d) and
Figure pat00107
The hyperparameters of were derived into a mixture of dirichlet processes of prior dirichlet distribution, and the base distributions G 0 and P 0 were set to exponential distributions of 1 and 10, respectively.

도 7은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 로그-가능도 및 퍼플렉서티와 관련한 시뮬레이션 성능을 비교한 그래프이다. FIG. 7 is a graph comparing topic performance using an improved latent Dirichlet allocation model according to an embodiment of the present invention and simulation performance with respect to log-likelihood and transparency of actual articles of various conventional methods.

도 8은 본 발명의 일 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 종래 다양한 방법의 실제 기사에 대한 하이퍼파라미터 αd의 클러스터링과 관련한 시뮬레이션 성능을 비교한 그래프이다.FIG. 8 is a graph comparing simulation performances related to clustering of hyperparameters α d for actual articles of various conventional methods and a topic analysis method using an improved latent Dirichlet allocation model according to an embodiment of the present invention.

여기서, 실제 기사는 문서의 토픽과 크기면에서 다양한 스펙트럼을 얻기 위해 토픽과 크기가 다른 기사 388 개로 구성된 2000-2002년의 신경 정보 처리 시스템(NIPS) 회의 데이터와 BBC 기사 중 2004-2005년 스포츠 및 기술 섹션의 912개 기사를 분석했다. Here, the actual articles are the 2000-2002 Neuronal Information Processing System (NIPS) conference data of 388 articles of different topics and sizes, and the 2004-2005 sports and BBC articles, in order to obtain various spectra in terms of topics and sizes of documents. We analyzed 912 articles in the technology section.

도 7을 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 다른 방법과 비교해 가장 높은 로그-가능도를 보이는 것을 확인할 수 있다. Referring to FIG. 7, it can be seen that the topic analysis method using the improved latent Dirichlet allocation model shows the highest log-likelihood compared to other methods.

또한, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 다른 방법과 비교해 가장 작은 퍼플렉서티를 제공 하였지만, 토픽의 수가 증가함에 따라 다른 방법들과 차이는 줄어드는 것을 확인할 수 있다. In addition, although the topic analysis method using the improved latent Dirichlet allocation model provided the smallest transparency compared with other methods, it can be seen that as the number of topics increases, the difference with other methods decreases.

특히, 토픽의 수가 많을 때, α = 0.05 또는 0.2 인 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법과 비슷한 성능을 보여 α = 0.05 및 0.2는 최적에 가깝다는 것을 확인할 수 있는데, 이는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 자동으로 선택한 하이퍼파라미터 α가 최적에 가깝다는 것을 알 수 있다. In particular, when the number of topics is large, the topic analysis method using the conventional latent Dirichlet allocation model with α = 0.05 or 0.2 shows similar performance to the topic analysis method with the improved latent Dirichlet allocation model, indicating that α = 0.05 and 0.2 are near optimal. It can be seen that the topic analysis method using the improved latent Dirichlet allocation model automatically shows that the hyperparameter α selected is close to the optimum.

도 8을 참조하면, 하이퍼파라미터 클러스터링은 사전 디리클레 혼합물에서 샘플링 된 αd개의 원자가 유사한 클러스터 크기를 갖는 배수인 것을 보여주는데, 즉 θ(d)의 추정 분포가 여러 개의 최빈값을 갖는 경향이 있음을 보여준다. Referring to FIG. 8, hyperparameter clustering shows that the α d atoms sampled in the pre-Dillikle mixture are multiples with similar cluster sizes, ie , the estimated distribution of θ (d) tends to have several modes.

샘플링 된 αd의 가중 평균은 0.1와 0.2 사이이므로 종래 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 최적 α는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법의 가중 평균에 가깝고, 서로 일치해 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법이 데이터에서 최적의 하이퍼파라미터를 자동으로 추정한다는 것을 확인할 수 있다.Since the weighted average of the sampled α d is between 0.1 and 0.2, the optimal α of the topic analysis method using the conventional latent Dirichlet allocation model is close to the weighted average of the topic analysis method using the enhanced latent Dirichlet allocation model, and coincident with each other to improve the latent Dirichlet allocation. We can see that the topic analysis method using the model automatically estimates the optimal hyperparameters from the data.

도 9는 본 발명의 다른 실시예에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치의 구성도이다. 9 is a block diagram of a topic analysis apparatus using an improved latent Dirichlet allocation model according to another embodiment of the present invention.

도 9를 참조하면, 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치(900)는 전처리부(910), 토픽 분석부(920) 및 샘플링부(930)를 포함한다. Referring to FIG. 9, the topic analysis apparatus 900 using the improved latent Dirichlet allocation model includes a preprocessor 910, a topic analyzer 920, and a sampling unit 930.

전처리부(910)는 문서에 포함된 텍스트 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽을 분석하기 위해서는 문서의 전처리를 하여야 한다. 즉, 전처리부(910)는 토픽을 분석하기 위해 텍스트 데이터를 전처리한다. The preprocessor 910 preprocesses the text data included in the document. Since the data contained in the document is text data, the document must be preprocessed to analyze the topic. In other words, the preprocessor 910 preprocesses the text data to analyze the topic.

구체적으로, 전처리부(910)는 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅 할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 또한, 형태소별로 태깅된 결과 중 명사만 추출할 수 있으며, 추출된 명사 중에서 불용어를 제거할 수 있다. In detail, the preprocessor 910 may separate the sentences from the text data included in the document and tag them by morpheme. Morphological means the smallest word with a meaning. In addition, only nouns may be extracted from the tagged results of each morpheme, and stopwords may be removed from the extracted nouns.

토픽 분석부(920)는 전처리부(910)를 통해 전처리된 텍스트 데이터를 입력받아 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석한다. 즉, 토픽 분석부(920)가 전처리된 텍스트 데이터를 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석함으로써, 단어의 집합으로 표현할 수 있다. The topic analyzer 920 receives the preprocessed text data through the preprocessor 910 and analyzes the topic using the improved latent Dirichlet allocation model. That is, the topic analyzer 920 may express the preprocessed text data as a set of words by analyzing the topic using the improved latent Dirichlet allocation model.

이때, 샘플링부(930)는 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러를 이용해 샘플링을 실행한다. In this case, the sampling unit 930 performs sampling using the partially decayed Gibbs sampler for the improved latent Dirichlet allocation model.

이상에서 본 발명에 따른 실시 예들이 설명되었으나, 이는 예시적인 것에 불과하며, 본 발명의 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 다음의 청구범위에 의해서 정해져야할 것이다. Although embodiments according to the present invention have been described above, these are merely exemplary, and those skilled in the art will understand that various modifications and equivalent embodiments of the present invention are possible therefrom. . Therefore, the true technical protection scope of the present invention will be defined by the following claims.

910 : 전처리부 920 : 토픽 분석부
930 : 샘플링부
910: preprocessor 920: topic analysis unit
930: sampling unit

Claims (11)

토픽 분석 방법에 있어서,
문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 및
잠재 디리클레 할당(Latent Dirichlet allocation, LDA)모델 구조에 계층적 디리클레 프로세스(Dirichlet Process, DP) 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 상기 전처리된 텍스트 데이터에서 상기 토픽을 분석하는 단계;를 포함하되,
상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
In the topic analysis method,
A preprocessing step of preprocessing the text data included in the document; And
Analyzing the topic in the preprocessed text data using an enhanced latent Dirichlet allocation model that adds a hierarchical Dirichlet Process (DP) structure to a latent Dirichlet allocation (LDA) model structure; But
Performing sampling using the Partially Collapsed Gibbs Samplers (PCG) on the enhanced latent Dirichlet allocation model.
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
제1항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터(hyperparameter)인 α 및 β는 사전에 지정된 상수가 아닌 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The hyperparameters α and β of the enhanced latent Dirichlet allocation model are not predetermined constants
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
제1항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정되는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The hyperparameters α and β of the improved latent Dirichlet allocation model are automatically estimated
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
제1항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터인 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용하는 토픽 분석 방법.
The method of claim 1,
Hyperparameters α and β of the improved latent Dirichlet allocation model are different dimensional parameters of the Dirichlet distribution
Topic analysis method using an improved latent Dirichlet allocation model, characterized in that.
제1항에 있어서,
상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법.
The method of claim 1,
The improved latent Dirichlet allocation model clusters text data of heterogeneous documents and assigns hyperparameters to each cluster for analysis of heterogeneous documents.
Topic analysis method using an improved latent Dirichlet allocation model characterized in that.
문서에 포함된 텍스트 데이터를 전처리하는 전처리부;
상기 전처리된 텍스트 데이터를 잠재 디리클레 할당모델 구조에 계층적 디리클레 프로세스 구조를 추가한 향상된 잠재 디리클레 할당 모델을 이용하여 토픽을 분석하는 토픽 분석부; 및
상기 향상된 잠재 디리클레 할당 모델에 대해 부분 붕괴된 깁스 샘플러(Partially Collapsed Gibbs Samplers, PCG)를 이용해 샘플링을 실행하는 샘플링부;를 포함하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
A preprocessor for preprocessing the text data contained in the document;
A topic analyzer configured to analyze the topic using the enhanced latent Dirichlet allocation model in which the preprocessed text data is added to a hierarchical Dirichlet allocation model structure and a hierarchical Dirichlet process structure; And
And a sampling unit configured to perform sampling using the partially collapsed Gibbs Samplers (PCG) on the improved latent Dirichlet allocation model.
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
제6항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 사전에 지정된 상수가 아닌 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
The method of claim 6,
Hyperparameters α and β of the enhanced latent Dirichlet allocation model are not predetermined constants
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
제6항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 자동으로 추정되는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
The method of claim 6,
The hyperparameters α and β of the improved latent Dirichlet allocation model are automatically estimated
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
제6항에 있어서,
상기 향상된 잠재 디리클레 할당 모델의 하이퍼파라미터인 α 및 β는 디리클레 분포의 서로 다른 차원 파라미터인 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용하는 토픽 분석 장치.
The method of claim 6,
Hyperparameters α and β of the improved latent Dirichlet allocation model are different dimensional parameters of the Dirichlet distribution
Topic analysis device using the improved latent Dirichlet allocation model, characterized in that.
제6항에 있어서,
상기 향상된 잠재 디리클레 할당 모델은 이질적인 문서의 분석을 위해 상기 이질적인 문서의 텍스트 데이터를 군집화하여 각 군집마다 하이퍼파라미터를 할당하는 것
을 특징으로 하는 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치.
The method of claim 6,
The improved latent Dirichlet allocation model clusters text data of heterogeneous documents and assigns hyperparameters to each cluster for analysis of heterogeneous documents.
Topic analysis device using an improved latent Dirichlet allocation model, characterized in that.
제1항 내지 제5항 중 어느 한 항에 따른 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
A computer-readable recording medium having recorded thereon a computer program for performing a topical analysis method using the improved latent Dirichlet allocation model according to any one of claims 1 to 5.
KR1020180102046A 2018-08-29 2018-08-29 Device and method for topic analysis using an enhanced latent dirichlet allocation model KR102181744B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180102046A KR102181744B1 (en) 2018-08-29 2018-08-29 Device and method for topic analysis using an enhanced latent dirichlet allocation model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180102046A KR102181744B1 (en) 2018-08-29 2018-08-29 Device and method for topic analysis using an enhanced latent dirichlet allocation model

Publications (2)

Publication Number Publication Date
KR20200026351A true KR20200026351A (en) 2020-03-11
KR102181744B1 KR102181744B1 (en) 2020-11-25

Family

ID=69810074

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180102046A KR102181744B1 (en) 2018-08-29 2018-08-29 Device and method for topic analysis using an enhanced latent dirichlet allocation model

Country Status (1)

Country Link
KR (1) KR102181744B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813935A (en) * 2020-06-22 2020-10-23 贵州大学 Multi-source text clustering method based on hierarchical Dirichlet multinomial distribution model

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240130410A (en) 2023-02-22 2024-08-29 성균관대학교산학협력단 Apparatus, method, computer-readable storage medium and computer program for detecting zero-shot stance based on adversarial learning and meta-learning
KR102592079B1 (en) 2023-03-21 2023-10-23 부경대학교 산학협력단 Apparatus and method for reviewing literature using latent dirichlet allocation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014030258A1 (en) * 2012-08-24 2014-02-27 株式会社日立製作所 Morphological analysis device, text analysis method, and program for same
KR101616544B1 (en) 2014-03-03 2016-04-28 고려대학교 산학협력단 Method for analyzing patent documents using a latent dirichlet allocation
JP2016095568A (en) * 2014-11-12 2016-05-26 Kddi株式会社 Model construction device and program
JP2017151678A (en) * 2016-02-24 2017-08-31 国立研究開発法人情報通信研究機構 Topic estimation device, topic estimation method, and program
JP2017211783A (en) * 2016-05-24 2017-11-30 日本電信電話株式会社 Estimation device, prediction device, method, and program
KR20170141570A (en) * 2016-06-15 2017-12-26 숭실대학교산학협력단 Method and device for extracting topic, recording medium for performing the method
KR20180024582A (en) * 2016-08-30 2018-03-08 네이버 주식회사 Method for online learning and dynamic learning of topic model

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014030258A1 (en) * 2012-08-24 2014-02-27 株式会社日立製作所 Morphological analysis device, text analysis method, and program for same
KR101616544B1 (en) 2014-03-03 2016-04-28 고려대학교 산학협력단 Method for analyzing patent documents using a latent dirichlet allocation
JP2016095568A (en) * 2014-11-12 2016-05-26 Kddi株式会社 Model construction device and program
JP2017151678A (en) * 2016-02-24 2017-08-31 国立研究開発法人情報通信研究機構 Topic estimation device, topic estimation method, and program
JP2017211783A (en) * 2016-05-24 2017-11-30 日本電信電話株式会社 Estimation device, prediction device, method, and program
KR20170141570A (en) * 2016-06-15 2017-12-26 숭실대학교산학협력단 Method and device for extracting topic, recording medium for performing the method
KR20180024582A (en) * 2016-08-30 2018-03-08 네이버 주식회사 Method for online learning and dynamic learning of topic model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813935A (en) * 2020-06-22 2020-10-23 贵州大学 Multi-source text clustering method based on hierarchical Dirichlet multinomial distribution model
CN111813935B (en) * 2020-06-22 2024-04-30 贵州大学 Multi-source text clustering method based on hierarchical dirichlet allocation model

Also Published As

Publication number Publication date
KR102181744B1 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
WO2019174422A1 (en) Method for analyzing entity association relationship, and related apparatus
Gaddy et al. What's going on in neural constituency parsers? an analysis
CN106897439B (en) Text emotion recognition method, device, server and storage medium
CN108519971B (en) Cross-language news topic similarity comparison method based on parallel corpus
CN113076734B (en) Similarity detection method and device for project texts
KR20200026351A (en) Device and method for topic analysis using an enhanced latent dirichlet allocation model
BR112012011091B1 (en) method and apparatus for extracting and evaluating word quality
CN111597328B (en) New event theme extraction method
Boudchiche et al. A hybrid approach for Arabic lemmatization
WO2022042297A1 (en) Text clustering method, apparatus, electronic device, and storage medium
KR101815309B1 (en) Method and device for extracting topic, recording medium for performing the method
CN114265932A (en) Event context generation method and system integrating deep semantic relation classification
CN113076748A (en) Method, device and equipment for processing bullet screen sensitive words and storage medium
Natarajan et al. s3-statistical sandhi splitting
CN108701126B (en) Theme estimation device, theme estimation method, and storage medium
CN115146062A (en) Intelligent event analysis method and system fusing expert recommendation and text clustering
Pimentel et al. On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation
Satyam et al. A statistical analysis approach to author identification using latent semantic analysis
Dotan et al. Effect of tokenization on transformers for biological sequences
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
CN111198934A (en) Information processing method and related equipment
Subeno et al. Optimisation towards Latent Dirichlet Allocation: Its Topic Number and Collapsed Gibbs Sampling Inference Process.
Salton et al. Idiom type identification with smoothed lexical features and a maximum margin classifier
CN107943916B (en) Webpage anomaly detection method based on online classification
CN115829712A (en) Data information security classification method and device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant