WO2018092936A1 - 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법 - Google Patents

딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법 Download PDF

Info

Publication number
WO2018092936A1
WO2018092936A1 PCT/KR2016/013244 KR2016013244W WO2018092936A1 WO 2018092936 A1 WO2018092936 A1 WO 2018092936A1 KR 2016013244 W KR2016013244 W KR 2016013244W WO 2018092936 A1 WO2018092936 A1 WO 2018092936A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
word
vector
similarity
text data
Prior art date
Application number
PCT/KR2016/013244
Other languages
English (en)
French (fr)
Inventor
김문종
한규열
최현수
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Publication of WO2018092936A1 publication Critical patent/WO2018092936A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present invention relates to a method of grouping documents of unstructured text data, and more particularly, to a method of grouping documents of similar types from unstructured text data using deep learning.
  • Deep learning is a machine learning technology based on artificial neural networks (ANNs) that enable computers to learn from their own data like humans. Deep learning is used to group or classify objects and data, and it stands out in the fields of signal processing, image processing, and natural language processing. In particular, in the field of natural language processing, it is possible to apply the existing supervised learning algorithm while automatically performing feature extraction for language by generating probabilistic models from document sets through unsupervised learning. Attention in the spot. Through such natural language processing, it is used in various fields such as document retrieval, summary, and related information analysis.
  • ANNs artificial neural networks
  • An object of the present invention is to provide a document clustering method of unstructured text data using deep learning that can increase the quality of document clustering by increasing the similarity between documents in the cluster with respect to the unstructured text data.
  • a document clustering method of unstructured text data using deep learning may include: a word vector through word images from the atypical text data collected from a plurality of documents. Generating; Extracting a main word for each document and expressing the main word as a main word vector with reference to the word vector; Constructing a document feature for the document using the document vector for the document and the main control vector; And performing document clustering on a plurality of documents according to the similarity of the document features.
  • the extracting the main word may include generating candidate words from each document; Determining importance by weighting each candidate word; And selecting the candidate word corresponding to a predetermined upper rank according to the importance.
  • the importance may be defined by the following equation.
  • the configuring of the document feature may combine the main control vector and the document vector corresponding to each document by a concatenation technique based on a distributed memory model.
  • the document clustering may include defining one or more clusters to which one or more documents are assigned; Calculating a Chinese Restaurant Process (CRP) probability and an information radius (IRad) similarity using a document quality of the document for a document not assigned to the cluster; And comparing the CRP probability and the IRad similarity to determine a cluster to which the document is assigned.
  • CRP Chinese Restaurant Process
  • IRad information radius
  • the document may be assigned to a new cluster if the CRP probability is greater than the IRad similarity, and the document may be assigned to an existing cluster if the CRP probability is less than or equal to the IRad similarity.
  • the feature information of the document can be well represented in the document quality by extracting the main word for each document and constructing the document quality based on the document. Can be.
  • the document features By using the document features to measure the similarity between the various documents, it is possible to cluster the similar documents more accurately can improve the quality of the clustering.
  • clustering large amounts of unstructured text data between documents of a similar type has an advantage of obtaining required information more quickly. For example, by using document cluster statistics, trend analysis, etc., a great contribution can be made in a company's decision making.
  • FIG. 1 is a schematic diagram showing a document clustering system according to an embodiment of the present invention.
  • FIG. 2 is a flowchart sequentially illustrating a document clustering method according to an embodiment of the present invention.
  • FIG. 3 is a conceptual diagram illustrating steps of configuring document features in FIG. 2.
  • FIG. 4 is a flowchart specifically showing a step of performing document clustering in FIG. 2.
  • FIG. 1 is a schematic diagram showing a document clustering system according to an embodiment of the present invention.
  • the document clustering system 100 of the present invention includes a word vector module 10, a main control module 20, a document vector module 30, and a document clustering module 40.
  • the document clustering system 100 of the present invention clusters unstructured text data.
  • the unstructured text data refers to data that is not stored in the standardized data field.
  • the unstructured text data may include social data, a web document, and an e-mail generated from a social networking service (SNS).
  • SNS social networking service
  • the word vector module 10 generates a word vector through word embedding from the collected unstructured text data.
  • word mapping uses a distributed word representation, which is a feature vector of tens to hundreds of dimensions representing words appearing in a document set through dimension reduction and abstraction by learning corpus. It is.
  • the learned word vector represents a high level of meaning for syntactic and semantic use. For example, the results of "Queens"-"Queen” in the learning results for a set of English documents can be thought of as a feature vector representing grammar information about the plural, very similar to the results of "Kings"-"King". Do. Through this, it can be seen that the word vector through learning expresses a regular pattern with respect to the use of similar words and also reflects grammatical relationship information.
  • the main module 20 extracts a main word for a specific document and expresses it as a word vector to generate a main word vector.
  • the main word refers to a semantic unit or word that can express the characteristics of a specific document well.
  • the main keyword module 20 generates candidate words for subject word extraction, and then assigns weights to each candidate word to determine importance, and selects candidate words corresponding to a predetermined upper rank according to the importance of each candidate word of the document. Select the key word.
  • the selected main word is expressed as a main word vector with reference to the word vector.
  • the document vector module 30 configures a document feature of a corresponding document by using a document vector and a main keyword vector for each document using a distributed memory model. Specifically, the document vector module 30 adds a document vector for storing the order and context information of the document to the main keyword vector to express the document feature which is the only feature vector of the document by the concatenation technique.
  • the document clustering module 40 defines one or more clusters composed of groups of similar documents, and performs grouping of documents according to the similarity of the character features of each document.
  • FIG. 2 is a flowchart sequentially illustrating a document clustering method according to an embodiment of the present invention.
  • FIG. 3 is a conceptual diagram illustrating steps of configuring document features in FIG. 2.
  • FIG. 4 is a flowchart specifically showing a step of performing document clustering in FIG. 2.
  • the word vector module 10 generates a word vector through word mapping from unstructured text data collected from a plurality of documents (S10).
  • the main word module 20 extracts a main word for each document and expresses it as a main word vector with reference to the word vector (S20). Specifically, the following order is followed.
  • the main keyword module 20 analyzes words and morphemes of a specific document and generates candidate words corresponding to the document.
  • the candidate word refers to a word prefixed with a prefix and / or a suffix as shown in Equation 1 below.
  • Candidate words in the above examples are foreign, famous sites, Korean history, and still. As such, when the unstructured text data is based on Korean language, the quality of subsequent document clustering may be deteriorated due to the complicated grammatical structure such as Korean vocabulary, morpheme, and part-of-speech. Because of this, more accurate keywords can be selected, which can contribute to the quality of document clustering.
  • the main control module 20 weights each candidate word to calculate the importance of each candidate word in the document.
  • the importance for the candidate word t is defined by Equation 2 below.
  • f field number
  • TL t length of word t
  • TF t number of occurrences of word t
  • ISF t 1 / (number of sentences where word t appears)
  • w f weight for each field.
  • the importance of the word t in a specific document is proportional to the length of the word t (TL t ), the number of occurrences of the word t (TF t ), the weight of each field (w f ), and the sentence in which the word t appears Inversely proportional to the number of (1 / ISF t ).
  • the field f refers to an area in which a text document is disposed, and may include, for example, a title field, a body field, a comment field, and an advertisement field.
  • w f means a predetermined weight for each field. For example, the weight of the body field may be set large and the weight of the title field may be set low.
  • TL t is the length or number of words t.
  • TF t is the number or frequency of occurrences of the word t.
  • ISF t represents the degree of uniqueness of word t in a document. Since the uniqueness decreases as word t appears in multiple sentences, ISF t is proportional to the inverse of the number of sentences in which word t appears.
  • the main keyword module 20 arranges each candidate word in the order of high importance, and then selects candidate words corresponding to a predetermined upper predetermined rank as a main word, and selects each main word by referring to a word vector. Expressed as the main vector.
  • the document vector module 30 configures a document feature for each document by using a document vector and a main keyword vector corresponding to each document based on a distributed memory model (S30).
  • the distributed memory model of the present invention is a PV-DM ("Distributed Memory Model of Paragraph Vector" by Quoc Le and Tomas Mikolov), and extends a paragraph vector into document units to express a unique document vector expressing characteristics of a document. Obtain and apply this vector to a document clustering system. Referring to FIG. 3, a main word corresponding to one document is mapped to a main word vector (W: Xi, Xi + 1, ..., Xn), and a document id corresponding to the document is a document vector D.
  • W main word vector
  • the document vector D represents contextual information between words or paragraphs, arrangement of words or paragraphs, features, and the like.
  • the document feature is constructed by combining the document vector D and the main keyword vector W in a concatenation technique.
  • spaces inserted between words or morpheme separation information within a word are separated from the spaces by the reserved word "SPACE", and the morpheme and the morpheme are combined with "_” so that the morpheme information is also included to be learned.
  • the document clustering module 40 performs document clustering on the plurality of documents according to the similarity of the document features (S40).
  • the document clustering module 40 may perform clustering for each word as used in a sentence, or select a cluster including a main word that expresses a feature of a document.
  • the document is assumed to be word streaming, and clustering is performed using the Chinese Restaurant Process (CRP) method.
  • CRP Chinese Restaurant Process
  • the document clustering module 40 defines one or more clusters, and each cluster may be assigned one or more documents of a similar type (S410).
  • the document clustering module 40 calculates a probability of a Chinese Restaurant Process (CRP) using a document quality of a corresponding document for a document not assigned to a cluster (S420). See known methods for CRP probabilities.
  • CRP probability (Pr) is an indicator that indicates whether the document is assigned to an existing cluster or to create a new cluster, and can be defined by Equation 3 below.
  • the number of clusters is automatically determined, and the number of clusters generated by adjusting the parameters ⁇ and ⁇ can be adjusted.
  • the probability that the document is generated from the CRP probability Pr is allocated to the new cluster is first determined and used in the subsequent process. In this case, before creating a new cluster, the document is designed to be assigned to a cluster having a certain degree of similarity or higher, thereby preventing overproduction of the cluster.
  • the document clustering module 40 calculates an IRad (Information Radius) similarity between the document P and the document Q belonging to the existing cluster (S430).
  • IRad similarity is defined as Equation 4 below.
  • IRad similarity is a measure of dissimilarity between data based on the amount of information of each subject that appears between document P and document Q. That is, pi is the probability distribution of the main words of document P, and qi is the probability distribution of the main words of document Q. Since IRad similarity has a value between 0 and 2log2, it is preferable to normalize it to have a value between 0 and 1.
  • the document clustering module 40 compares the CRP probability and the IRad similarity to determine a cluster to which the corresponding document is assigned (S440). If the CRP probability is greater than the IRad similarity, a new cluster is created and then the document is assigned to the new cluster (S450).
  • the document is assigned to the existing cluster. In this case, it is preferable to assign the document to the cluster in which the document having the highest IRad similarity among the plurality of documents in the existing cluster exists.
  • the document clustering module 40 may further use heuristic information as an additional feature to select a cluster that has the most meaning or the most similarity to the document.
  • Heuristic information may be composed of information that can be obtained in the document as shown in Table 2 below.
  • modules refers to a hardware component such as software or a field programmable gate array (FPGA) or application specific integrated circuit (ASIC), and the module performs certain roles. .
  • modules are not meant to be limited to software or hardware.
  • the module may be configured to be in an addressable storage medium and may be configured to execute one or more processors.
  • a module may include components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, procedures, subroutines. , Segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, or variables.
  • the functionality provided by the components and modules may be combined into a smaller number of components and modules or further separated into additional components and modules.

Abstract

비정형 텍스트 데이터에 대하여 군집 내 문서들 간의 유사도를 높여 문서 군집화의 품질을 높일 수 있는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법이 제공된다. 이러한 문서 군집화 방법은, 문서 군집화 시스템이: 다수의 문서로부터 수집된 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계; 각 문서에 대한 주제어를 추출한 후 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계; 문서에 대한 문서 벡터와 주제어 벡터를 이용하여 문서에 대한 문서 자질을 구성하는 단계; 및 복수의 문서에 대하여 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함한다.

Description

딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
본 발명은 비정형 텍스트 데이터의 문서 군집화 방법에 관한 것으로서, 더욱 상세하게는 딥러닝을 이용하여 비정형 텍스트 데이터로부터 유사한 형태의 문서들을 군집화하는 방법에 관한 것이다.
딥러닝(deep learning)은 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하기 위해 인공 신경망(ANN: artificial neural network)을 기반으로 한 기계 학습 기술을 말한다. 딥러닝은 사물이나 데이터를 군집화하거나 분류하는 데 사용되는데, 신호 처리, 이미지 처리, 자연언어처리 등의 분야에서 두각을 나타내고 있다. 특히, 자연언어처리 분야에서 비감독학습(unsupervised learning)을 통하여 문서 집합에서의 확률 모델을 생성함으로써 언어에 대한 자질 추출을 자동으로 수행하면서 기존 감독학습(supervised learning)의 알고리즘을 그대로 적용할 수 있다는 점에서 주목을 받고 있다. 이와 같은 자연언어처리를 통하여 문서의 검색, 요약, 연관정보 분석 등 다양한 분야에서 활용되고 있다.
종래에도 딥러닝을 이용하여 문서 군집화를 시도한 예들이 있으나, 대부분은 문서의 특징 정보를 제대로 파악하지 못하여 군집 내 문서들 간에 유사도가 낮아서 이를 실무적으로 활용하기는 어려웠다.
본 발명이 해결하고자 하는 과제는, 비정형 텍스트 데이터에 대하여 군집 내 문서들 간의 유사도를 높여 문서 군집화의 품질을 높일 수 있는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법을 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법은, 문서 군집화 시스템이: 다수의 문서로부터 수집된 상기 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계; 각 문서에 대한 주제어를 추출한 후 상기 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계; 상기 문서에 대한 문서 벡터와 상기 주제어 벡터를 이용하여 상기 문서에 대한 문서 자질을 구성하는 단계; 및 복수의 문서에 대하여 상기 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함한다.
상기 주제어를 추출하는 단계는, 각 문서로부터 후보 단어를 생성하는 단계; 상기 후보 단어마다 가중치를 부여하여 중요도를 결정하는 단계; 및 상기 중요도에 따라 기설정된 상위 순위에 해당하는 상기 후보 단어를 주제어로 선정하는 단계를 포함할 수 있다.
상기 중요도는 아래의 수식에 의해 정의될 수 있다.
[수식]
Figure PCTKR2016013244-appb-I000001
(여기서, f: 필드 번호, TLt: 단어 t의 길이, TFt: 단어 t의 출현 수, ISFt: 1 / (단어 t가 출현한 문장의 수), wf: 필드 별 가중치)
상기 문서 자질을 구성하는 단계는, 각 문서에 대응하는 상기 주제어 벡터와 상기 문서 벡터를 분산 메모리 모델을 기반으로 연관(concatenation) 기법으로 결합시킬 수 있다.
상기 문서 군집화를 수행하는 단계는, 하나 이상의 문서가 할당된 하나 이상의 클러스터를 정의하는 단계; 상기 클러스터에 할당되지 않은 문서에 대하여 그 문서의 문서 자질을 이용하여 CRP (Chinese Restaurant Process) 확률 및 IRad (Information Radius) 유사도를 연산하는 단계; 및 상기 CRP 확률과 상기 IRad 유사도를 비교하여 상기 문서가 할당될 클러스터를 결정하는 단계를 포함할 수 있다.
상기 CRP 확률이 상기 IRad 유사도보다 큰 경우 상기 문서는 새로운 클러스터에 할당되고, 상기 CRP 확률이 상기 IRad 유사도보다 작거나 같은 경우 상기 문서는 기존 클러스터에 할당될 수 있다.
기타 실시예들의 구체적인 사항들은 구체적인 내용 및 도면들에 포함되어 있다.
상술한 바와 같이 본 발명에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법에 의하면, 각 문서에 대한 주제어를 추출하여 이를 기반으로 문서 자질을 구성함으로써 문서 자질에 해당 문서의 특징정보가 잘 표현될 수 있다. 이러한 문서 자질을 이용하여 여러 문서 간의 유사도를 측정함으로써, 보다 정확하게 유사한 문서끼리 군집화할 수 있게 되어 군집화의 품질을 높일 수 있다.
이와 같이 방대한 비정형 텍스트 데이터를 유사한 형태의 문서끼리 군집화를 하면, 필요한 정보를 보다 빠르게 얻을 수 있는 장점이 있다. 예컨대, 문서 군집 별 통계, 트렌드 분석 등을 활용함으로써, 기업의 의사 결정에 있어서 많은 기여를 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 문서 군집화 시스템을 개략적으로 나타낸 구성도이다.
도 2는 본 발명의 일 실시예에 따른 문서 군집화 방법을 순차적으로 나타낸 순서도이다.
도 3은 도 2에서 문서 자질을 구성하는 단계를 나타낸 개념도이다.
도 4는 도 2에서 문서 군집화를 수행하는 단계를 구체적으로 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하 첨부된 도면들을 참조하여 본 발명의 일 실시예에 따른 문서 군집화 시스템 및 이를 이용한 문서 군집화 방법을 자세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 문서 군집화 시스템을 개략적으로 나타낸 구성도이다.
본 발명의 문서 군집화 시스템(100)은 단어 벡터 모듈(10), 주제어 모듈(20), 문서 벡터 모듈(30) 및 문서 군집화 모듈(40)을 포함한다. 본 발명의 문서 군집화 시스템(100)은 비정형 텍스트 데이터를 군집화한다. 여기서, 비정형 텍스트 데이터는 규격화된 데이터 필드에 저장되지 않은 데이터를 말하며, 예를 들어, 소셜 네트워킹 서비스(SNS)에서 발생되는 소셜 데이터, 웹 문서, 이메일 등이 이에 해당될 수 있다.
단어 벡터 모듈(10)은 수집된 비정형 텍스트 데이터로부터 단어 사상(word embedding)을 통하여 단어 벡터를 생성한다. 여기서, 단어 사상은 분산 단어 표현(distributed word representation)을 사용하는데, 말뭉치(corpus)를 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(feature vector)로 표현하는 것이다. 학습된 단어 벡터는 통사적(syntactic), 의미적(semantic) 쓰임에 대한 높은 수준의 의미를 표현한다. 예를 들어, 영어 문서 집합에 대한 학습 결과에서 "Queens" - "Queen"의 결과는 복수에 대한 문법 정보를 의미하는 특징 벡터로 생각될 수 있는데, "Kings" - "King"의 결과와 매우 유사하다. 이를 통해, 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영되는 것을 알 수 있다.
주제어 모듈(20)은 특정 문서에 대한 주제어를 추출한 후 이를 단어 벡터로 표현하여 주제어 벡터를 생성한다. 여기서, 주제어는 특정 문서의 특징을 잘 표현할 수 있는 의미단위 또는 단어를 나타낸다. 주제어 모듈(20)은 주제어 추출을 위하여 후보 단어를 생성한 후, 각 후보 단어 별 가중치를 부여하여 중요도를 결정하고, 각 후보 단어의 중요도에 따라 기설정된 상위 순위에 해당하는 후보 단어들을 해당 문서의 주제어로 선정한다. 선정된 주제어는 상기 단어 벡터를 참조하여 주제어 벡터로 표현된다.
문서 벡터 모듈(30)은 분산메모리모델(distributed memory model)을 이용하여 각 문서에 대한 문서 벡터와 주제어 벡터를 이용하여 해당 문서의 문서 자질(document feature)을 구성한다. 구체적으로, 문서 벡터 모듈(30)은 주제어 벡터에, 문서의 순서 및 문맥 정보를 기억하기 위한 문서 벡터를 추가하여 연관(concatenate) 기법에 의해 해당 문서의 유일한 자질 벡터인 문서 자질을 표현한다.
문서 군집화 모듈(40)은 유사한 문서들의 집단으로 구성된 하나 이상의 클러스터(cluster)를 정의하고, 각 문서의 문자 자질의 유사도에 따라 문서의 군집화를 수행한다.
이하, 도 2 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법을 자세히 설명한다. 도 2는 본 발명의 일 실시예에 따른 문서 군집화 방법을 순차적으로 나타낸 순서도이다. 도 3은 도 2에서 문서 자질을 구성하는 단계를 나타낸 개념도이다. 도 4는 도 2에서 문서 군집화를 수행하는 단계를 구체적으로 나타낸 순서도이다.
먼저, 단어 벡터 모듈(10)은 다수의 문서로부터 수집된 비정형 텍스트 데이터로부터 단어 사상을 통하여 단어 벡터를 생성한다(S10).
이어서, 주제어 모듈(20)은 각 문서에 대한 주제어를 추출하고 상기 단어 벡터를 참조하여 이를 주제어 벡터로 표현한다(S20). 구체적으로 다음과 같은 순서를 따른다.
(1) 주제어 모듈(20)은 특정 문서의 어절 및 형태소를 분석하여 해당 문서에 대응하는 후보 단어를 생성한다. 여기서, 후보 단어는 아래 수식 1과 같이 접두사 및/또는 접미사가 명사에 붙은 단어를 말한다.
[수식 1]
후보 단어 = (접두사)*(명사 류)+(접미사)*
(여기서, *: 해당 품사가 0 내지 N개 반복, +: 해당 품사가 1 내지 N개 반복)
예를 들어, 특정 문서 내에 "외국 유명사이트, 잘못된 한국사 여전"이라는 예문이 포함된 경우를 가정해 보자. 이 문장으로부터 아래 표 1과 같은 후보 단어가 결정될 수 있다.
어절 형태소 분석 후보 단어 명사
외국 외국/명사 외국
유명사이트 유명/명사+사이트/명사 유명사이트
, ,/문장기호
잘못된 잘못되/동사+ㄴ/어미
한국사 한국/명사+사/접사 한국사
여전 여전/명사 여전
상기 예문에서 후보 단어는, 외국, 유명사이트, 한국사, 여전이 된다. 이와 같이, 비정형 텍스트 데이터가 한국어를 기반으로 하는 경우, 한국어 특유의 어휘, 형태소, 품사 등의 복잡한 문법구조로 인하여 후속하는 문서 군집화의 품질이 떨어질 수 있는데, 본 발명에서는 한국어 특성에 맞춰 형태소 분석을 거치기 때문에 보다 정확한 주제어를 선정할 수 있고, 이는 문서 군집화의 품질을 높이는 원인으로 작용할 수 있다.
(2) 이어서, 주제어 모듈(20)은 상기 후보 단어마다 가중치를 부여하여 각 후보 단어가 해당 문서 내에서 가지는 중요도를 산출한다. 후보 단어 t에 대한 중요도는 아래 수식 2에 의해 정의된다.
[수식 2]
Figure PCTKR2016013244-appb-I000002
여기서, f: 필드 번호, TLt: 단어 t의 길이, TFt: 단어 t의 출현 수, ISFt: 1 / (단어 t가 출현한 문장의 수), wf: 필드 별 가중치.
수식 2에 따르면, 특정 문서 내에서 단어 t의 중요도는 단어 t의 길이(TLt), 단어 t의 출현 수(TFt), 필드 별 가중치(wf)에 비례하고, 단어 t가 출현한 문장의 수(1/ ISFt)에 반비례한다. 구체적으로, 필드(f)는 텍스트 문서가 배치된 영역을 의미하며, 예를 들어 제목 필드, 본문 필드, 댓글 필드, 광고 필드 등을 포함할 수 있다. wf는 기설정된 각 필드 별 가중치를 의미하는데, 예컨대 본문 필드의 가중치는 크게 설정하고, 제목 필드의 가중치는 낮게 설정할 수 있다. TLt는 단어 t의 길이 또는 글자수로서, 명사에 접두사나 접미사가 많을 수록 뜻이 좀더 명확해지기 때문에 단어의 길이가 길수록 중요도가 커진다. TFt는 단어 t의 출현 수 또는 출현 빈도(term frequency)로서 한 문서 내에 해당 단어가 많이 출현할수록 중요도가 커진다. ISFt는 문서 내에서 단어 t의 독특함의 정도를 나타내는데, 단어 t가 여러 문장에 출현할수록 그 독특함이 떨어지기 때문에 ISFt는 단어 t가 출현한 문장의 수의 역수에 비례한다.
(3) 이와 같이 주제어 모듈(20)은 각 후보 단어에 대하여 중요도가 높은 순서로 배열한 뒤, 기설정된 상위 소정의 순위에 해당하는 후보 단어들을 주제어로 선정하고, 단어 벡터를 참조하여 각 주제어를 주제어 벡터로 표현한다.
이어서, 문서 벡터 모듈(30)은 분산 메모리 모델(distributed memory model)을 기반으로 각 문서에 대응하는 문서 벡터와 주제어 벡터를 이용하여 각 문서에 대한 문서 자질(document feature)을 구성한다(S30). 본 발명의 분산 메모리 모델은 PV-DM("Distributed Memory Model of Paragraph Vector" by Quoc Le and Tomas Mikolov)를 응용한 것으로서, 단락 벡터를 문서 단위로 확장하여 문서에 대한 특징을 표현하는 유일한 문서 벡터를 얻을 수 있고, 이 벡터를 문서 군집화 시스템에 적용한다. 도 3을 참조하면, 하나의 문서에 대응하는 주제어는 주제어 벡터(W: Xi, Xi+1, …, Xn)에 매핑되고, 해당 문서에 대응하는 문서 id(Document id)는 문서 벡터(D)에 매핑된다. 문서 벡터(D)는 단어 또는 단락 간의 문맥 정보, 단어 또는 단락의 배열, 특징 등을 표현한 것이다. 문서 자질은 문서 벡터(D)와 주제어 벡터(W)를 연관(concatenation) 기법으로 결합시켜 구성된다. 본 발명의 분산 메모리 모델을 적용할 때, 어절이 어려 개의 형태소로 구성되어 있는 한국어의 특징을 잘 반영하기 위하여 어절 안에 모든 형태소를 사용하는 것이 바람직하다. 또한, 어절 간에 삽입되는 띄어쓰기나 어절 내의 형태소 분리정보와 구분되도록 띄어쓰기에 의한 공백은 예약어 "SPACE"로 치환하고, 형태소와 해당 형태소는 "_"로 결합하여 형태소 정보도 포함되어 학습되도록 하는 것이 바람직하다.
이어서, 문서 군집화 모듈(40)은 복수의 문서에 대하여 문서 자질의 유사도에 따라 문서 군집화를 수행한다(S40). 문서 군집화 모듈(40)은 문장에서의 쓰임에 따라 단어 별로 군집화(clustering)을 수행할 수도 있고, 문서의 특징을 표현하는 주제어가 포함된 클러스터를 선별할 수도 있다. 이를 위해, 문서를 단어의 흐름(word streaming)으로 가정하고 CRP(Chinese Restaurant Process) 방식으로 군집화를 수행한다.
구체적으로 도 4를 참조하면, 문서 군집화 모듈(40)은 하나 이상의 클러스터(cluster)를 정의하는데, 각 클러스터에는 유사한 형태의 하나 이상의 문서가 할당될 수 있다(S410).
문서 군집화 모듈(40)은 클러스터에 할당되지 않은 문서에 대해서는 해당 문서의 문서 자질을 이용하여 CRP(Chinese Restaurant Process) 확률을 연산한다(S420). CRP 확률에 관해서는 공지된 방법을 참조한다. CRP 확률(Pr)은 해당 문서가 기존 클러스터에 할당될지, 새로운 클러스터를 생성하여 이에 할당될지는 알려주는 지표로서, 아래 수식 3에 의해 정의될 수 있다.
[수식 3]
Figure PCTKR2016013244-appb-I000003
본 실시예에서는 클러스터의 수를 자동으로 결정하는 특징이 있고, 파라미터 α와 θ를 조정하여 생성되는 클러스터의 수를 조절할 수 있다. 본 실시예에서는 CRP확률(Pr) 중 해당 문서가 새로운 클러스터를 생성하여 이에 할당될 확률을 우선적으로 결정하여 이후 과정에서 사용한다. 이때 새로운 클러스터를 생성하기 전에, 해당 문서가 일정 유사도 이상을 갖는 클러스터에 우선 할당되도록 설계하여 클러스터의 과생성을 방지한다.
이를 위해, 문서 군집화 모듈(40)은 해당 문서(P)와 기존 클러스터에 속한 문서(Q) 간에 IRad (Information Radius) 유사도를 연산한다(S430). IRad 유사도는 아래 수식 4와 같이 정의된다.
[수식 4]
Figure PCTKR2016013244-appb-I000004
IRad 유사도는 문서 P와 문서 Q 간에 출현하는 각 주제어의 정보량을 기준으로 데이터간 비유사도를 측정한 것이다. 즉, pi는 문서 P의 주제어들의 확률분포이고, qi는 문서 Q의 주제어들의 확률분포이다. IRad 유사도는 0과 2log2 사이의 값을 가지므로, 이를 정규화하여 0 내지 1 사이의 값을 가지도록 하는 것이 바람직하다. 문서 군집화 모듈(40)은 CRP 확률과 IRad 유사도를 비교하여 해당 문서가 할당될 클러스터를 결정한다(S440). 만일 CRP 확률이 IRad 유사도보다 큰 경우 새로운 클러스터를 생성한 후 해당 문서를 새로운 클러스터에 할당하고(S450), 만일 CRP 확률이 IRad 유사도보다 작거나 같은 경우 해당 문서는 기존 클러스터에 할당된다. 이 때 기존 클러스터에 있는 다수의 문서 중 가장 IRad 유사도가 큰 문서가 존재하는 클러스터에 해당 문서를 할당하는 것이 바람직하다.
또한, 문서 군집화 모듈(40)은 특정 문서에 대응하는 클러스터를 결정할 때, 추가로 휴리스틱 정보를 추가 자질로 사용하여 해당 문서에 가장 의미가 있거나 가장 유사도가 큰 클러스터를 선택할 수 있다. 휴리스틱 정보는 아래 표 2와 같이 문서 내에서 얻을 수 있는 정보로 구성될 수 있다.
항목 설명
TF-ISF 클러스터 내 단어의 빈도 / 단어가 출현한 문장 수
Title Vector 클러스터와 제목과의 유사도
본 발명의 실시예에서 사용된 용어 중 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 또는 변수들을 포함한다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (6)

  1. 딥러닝을 이용하여 비정형 텍스트 데이터를 군집화하는 문서 군집화 시스템이:
    다수의 문서로부터 수집된 상기 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계;
    각 문서에 대한 주제어를 추출한 후 상기 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계;
    상기 문서에 대한 문서 벡터와 상기 주제어 벡터를 이용하여 상기 문서에 대한 문서 자질을 구성하는 단계; 및
    복수의 문서에 대하여 상기 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함하는, 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
  2. 제1항에 있어서, 상기 주제어를 추출하는 단계는,
    각 문서로부터 후보 단어를 생성하는 단계;
    상기 후보 단어마다 가중치를 부여하여 중요도를 결정하는 단계; 및
    상기 중요도에 따라 기설정된 상위 순위에 해당하는 상기 후보 단어를 주제어로 선정하는 단계를 포함하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
  3. 제2항에 있어서,
    상기 중요도는 아래의 수식에 의해 정의되는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
    [수식]
    Figure PCTKR2016013244-appb-I000005
    (여기서, f: 필드 번호, TLt: 단어 t의 길이, TFt: 단어 t의 출현 수, ISFt: 1 / (단어 t가 출현한 문장의 수), wf: 필드 별 가중치)
  4. 제1항에 있어서,
    상기 문서 자질을 구성하는 단계는, 각 문서에 대응하는 상기 주제어 벡터와 상기 문서 벡터를 분산 메모리 모델을 기반으로 연관(concatenation) 기법으로 결합시키는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
  5. 제1항에 있어서, 상기 문서 군집화를 수행하는 단계는,
    하나 이상의 문서가 할당된 하나 이상의 클러스터를 정의하는 단계;
    상기 클러스터에 할당되지 않은 문서에 대하여 그 문서의 문서 자질을 이용하여 CRP (Chinese Restaurant Process) 확률 및 IRad (Information Radius) 유사도를 연산하는 단계; 및
    상기 CRP 확률과 상기 IRad 유사도를 비교하여 상기 문서가 할당될 클러스터를 결정하는 단계를 포함하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
  6. 제5항에 있어서,
    상기 CRP 확률이 상기 IRad 유사도보다 큰 경우 상기 문서는 새로운 클러스터에 할당되고,
    상기 CRP 확률이 상기 IRad 유사도보다 작거나 같은 경우 상기 문서는 기존 클러스터에 할당되는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
PCT/KR2016/013244 2016-11-15 2016-11-17 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법 WO2018092936A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160151940A KR101847847B1 (ko) 2016-11-15 2016-11-15 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
KR10-2016-0151940 2016-11-15

Publications (1)

Publication Number Publication Date
WO2018092936A1 true WO2018092936A1 (ko) 2018-05-24

Family

ID=61969135

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/013244 WO2018092936A1 (ko) 2016-11-15 2016-11-17 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Country Status (2)

Country Link
KR (1) KR101847847B1 (ko)
WO (1) WO2018092936A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102019194B1 (ko) * 2017-11-22 2019-09-06 주식회사 와이즈넛 문서 내 핵심 키워드 추출 시스템 및 방법
KR101974521B1 (ko) * 2017-11-29 2019-05-07 (주)위세아이텍 인공지능 기반의 보험금 부당청구 탐지 장치 및 방법
KR101999152B1 (ko) * 2017-12-28 2019-07-11 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
KR101938212B1 (ko) * 2018-05-29 2019-01-15 전남대학교산학협력단 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN110032639B (zh) 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
KR102376489B1 (ko) * 2019-11-22 2022-03-18 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
KR20230014530A (ko) 2021-07-21 2023-01-30 서울대학교산학협력단 심층 의미 유사성 모델 기반 건설공사 계약서 조항 출처 식별 기술
KR102363958B1 (ko) 2021-08-05 2022-02-16 재단법인차세대융합기술연구원 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101035037B1 (ko) * 2010-09-01 2011-05-19 한국과학기술정보연구원 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
KR20130043905A (ko) * 2011-10-21 2013-05-02 숭실대학교산학협력단 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치
KR20160081604A (ko) * 2014-12-31 2016-07-08 건국대학교 산학협력단 특징벡터 기반 전자문서 분류 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101035037B1 (ko) * 2010-09-01 2011-05-19 한국과학기술정보연구원 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
KR20130043905A (ko) * 2011-10-21 2013-05-02 숭실대학교산학협력단 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치
KR20160081604A (ko) * 2014-12-31 2016-07-08 건국대학교 산학협력단 특징벡터 기반 전자문서 분류 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM, TONY: "Content Clustering Using Word2vec", BUZZVIL, TECH BLOG, 16 June 2016 (2016-06-16), XP055485471, Retrieved from the Internet <URL:https://www.buzzvil.com/2016/16/16/word2vec_content__clusterings> *
LE, QUOC ET AL.: "Distributed Representations of Sentences and Documents", PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 22 May 2014 (2014-05-22), XP055192720, Retrieved from the Internet <URL:bttps://arxiv.org/pdf/1405.4053v2.pdf> *

Also Published As

Publication number Publication date
KR101847847B1 (ko) 2018-04-12

Similar Documents

Publication Publication Date Title
WO2018092936A1 (ko) 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
JP2019125343A (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
Menai Word sense disambiguation using evolutionary algorithms–Application to Arabic language
CN111597314A (zh) 推理问答方法、装置以及设备
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN112765355A (zh) 基于改进的量子行为粒子群优化算法的文本对抗攻击方法
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN111241824A (zh) 一种用于中文隐喻信息识别的方法
CN112446217A (zh) 情感分析方法、装置及电子设备
CN110334204B (zh) 一种基于用户记录的习题相似度计算推荐方法
Duque et al. CO-graph: A new graph-based technique for cross-lingual word sense disambiguation
US20230153335A1 (en) Searchable data structure for electronic documents
CN106776590A (zh) 一种获取词条译文的方法及系统
US20150154198A1 (en) Method for in-loop human validation of disambiguated features
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Saeidi et al. Context-enhanced concept disambiguation in Wikification
CN113535945B (zh) 文本类别的识别方法、装置、设备及计算机可读存储介质
CN112434174A (zh) 多媒体信息的发布账号的识别方法、装置、设备及介质
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
JP2005267397A (ja) 語句分類システム、語句分類方法、および語句分類プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16921688

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16921688

Country of ref document: EP

Kind code of ref document: A1