WO2019103224A1 - 문서 내 핵심 키워드 추출 시스템 및 방법 - Google Patents

문서 내 핵심 키워드 추출 시스템 및 방법 Download PDF

Info

Publication number
WO2019103224A1
WO2019103224A1 PCT/KR2017/013869 KR2017013869W WO2019103224A1 WO 2019103224 A1 WO2019103224 A1 WO 2019103224A1 KR 2017013869 W KR2017013869 W KR 2017013869W WO 2019103224 A1 WO2019103224 A1 WO 2019103224A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
document
keywords
words
weight
Prior art date
Application number
PCT/KR2017/013869
Other languages
English (en)
French (fr)
Inventor
김문종
장정훈
Original Assignee
(주)와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)와이즈넛 filed Critical (주)와이즈넛
Publication of WO2019103224A1 publication Critical patent/WO2019103224A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the present invention relates to a system and a method for extracting key words in a document, and more particularly, to a system and a method for extracting key words from a plurality of words obtained by using different keyword selection algorithms,
  • the present invention relates to a system and method for extracting key words in a document.
  • Keywords are important elements for understanding the meaning of unstructured text data in the form of words or phrases that can represent sentences.
  • keywords have become more important because various application analyzes such as document clustering, summarization, classification, and searching are being performed utilizing keywords.
  • Korean Patent Publication No. 10-2013-0045054 A system for extracting and refining a keyword, and a method thereof
  • Korean Patent Laid-Open Publication No. 10-2013-0142124 Korean Patent Laid-Open Publication No. 10-2013-0142124 (disclosed system and method for extracting keywords, December 27, 2013).
  • the quality of the text rank is improved by performing a preprocessing process for eliminating abstractions.
  • the text rank is weighted by the link relation between words, there is a disadvantage that the semantic based analysis can not be performed.
  • the keywords extracted by the text rank are analyzed semantically by word2vec to select the similar semantic keywords, and the disadvantages of the text rank are supplemented.
  • the analysis results are extracted as the final keywords through the ensemble technique, And the quality of the analysis result can be expected to be improved.
  • the problem of the result of extracting the keyword by each algorithm and the part of the quality of the keyword extraction which is low due to the result can be compensated. That is, in the text rank, the quality is improved through the process of selecting the candidate word through the text rank between the qualities removed from the abbreviations.
  • the weight is calculated. We can calculate the weighting factor. All candidate words thus selected pass through the weighted normalization element of the ensemble algorithm, and the final keyword of improved quality can be extracted.
  • the above object may be accomplished by a method for searching a text word in a text document, the method comprising: selecting a candidate word by analyzing keywords in a plurality of unstructured text documents; A similar meaning word selection unit for grouping words through word embedding in the plurality of irregular text documents and analyzing the meaning of the selected words in the candidate word selection unit to select a similar meaning word among the words; A keyword extracting unit for extracting final keywords by normalizing a weight applied to the candidate word and the similar semantic word; And a key word extraction system in the document.
  • the candidate word selection unit may include a preprocessing part for removing an idiomatic keyword among keywords included in the irregular text document; And a first weight calculation unit for calculating a first weight of each of the keywords by linking links between the keywords whose idle words have been removed through the preprocessing unit; .
  • the preprocessing unit is configured to remove abbreviations using an RIDF (Residual Inverse Document Frequency) algorithm, and the RIDF algorithm is implemented using an IDF (Inverse Document Frequency) and a Poisson distribution, Keyword is used as the quality of the first weight calculation part.
  • RIDF Residual Inverse Document Frequency
  • IDF Inverse Document Frequency
  • Keyword is used as the quality of the first weight calculation part.
  • the similar-term word selection unit may include an embedding unit for processing a word appearing in the plurality of atypical de- text documents into a feature vector and learning through a neural network model to select a similar semantic word candidate; And a second weight calculation part for assigning a second weight to the similar semantic word candidates selected through the embedding part; .
  • the second weight is calculated as the closer the distance between the qualitative vectors of the similar semantic word is, or the more frequently the occurrence frequency is in the sentence, the higher the second weight.
  • the keyword extracting unit may include: a word-set merging unit that merges a candidate word set selected by the candidate word selecting unit and a similar-semantic word set selected by the similar-word selecting unit; And a weight normalization part for giving a normalized final weight to the merged word set from the word aggregation part; .
  • a method of searching a text document comprising: a first step of analyzing keywords in a plurality of unstructured text documents to select candidate words; A second step of grouping the words through word embedding in the plurality of irregular text documents and analyzing the meaning of the selected words through the first step to select a similar semantic word among the words; And a third step of normalizing the candidate word through the first step and the weight applied to the similar semantic word through the second step to extract final keywords. And extracting a keyword from the extracted keyword.
  • the first step may include a first step of removing an idiomatic keyword among the keywords included in the irregular text document, And a 1-2 step of calculating a first weight value of each keyword by linking links between keywords in which the stopwords are removed through the step 1-1. .
  • the second step may include: (2-1) selecting a similar semantic word candidate by processing a word appearing in the plurality of atypical dextuments into a feature vector and learning it through a neural network model; And (2-2) assigning a second weight to the similar semantic word candidates selected through the second step (1). .
  • the third step may include a third step of merging a candidate word set selected through the first step and a similar semantic word set selected through the second step.
  • the extraction quality can be improved by performing keyword extraction using normalized weights for word sets obtained using different keyword selection algorithms.
  • weights are weighted by the link relation of the words in the document, and the selected candidate word set and the related word set having the similar meaning in the document are appropriately embedded and the weight applied to each word set is corrected (weight normalization) It is possible to implement extraction of related words related to important words as well as a lot of links (many links).
  • Keywords can be extracted from the accumulated unstructured text data to obtain the subject of the document more quickly, thereby contributing to corporate decision making. Extracting a word with a similar meaning to a keyword has the advantage of not only obtaining new keyword information that has not been obtained yet, but also associating information between the keywords.
  • FIG. 1 is a block diagram showing the structure of a core keyword extraction system in a document according to the present invention
  • FIG. 2 is a general flowchart of a key keyword extraction method in a document according to the present invention
  • FIG. 3 is a flowchart illustrating a detailed process of a key keyword extraction method in a document according to the present invention.
  • the core keyword extraction system described below is basically composed of a data operation configuration for data storage configuration, data processing, analysis, and processing. Data transmission, coding, computation flow, Circuit design, and so on are combined to form a keyword extraction system for the ensemble technique in the document.
  • FIG. 1 is a block diagram showing the structure of a key keyword extraction system in a document according to the present invention.
  • a key word extraction system 100 in a document according to the present invention includes a candidate word selection unit 10, a similar word selection unit 20, and a keyword extraction unit 30.
  • the candidate word selection unit 10 selects a candidate word through a text rank algorithm by analyzing a keyword in a plurality of irregular text documents and selecting a candidate word.
  • the text rank is a graph-based ranking model using Google's page rank algorithm proposed by Mihalcea (2004).
  • the page rank is a method of weighting a web document having a link according to the relative importance
  • the text rank is an algorithm that uses a page rank algorithm to weight according to a link between documents.
  • the basic formula of the text rank is as follows.
  • Equation 1 A word with a vertex Text rank value for The weight between words i and j The probability of moving from page rank to another page, usually fixed at 0.85
  • the candidate word selection unit 10 uses a text rank to select a candidate word, To each word in the document, thereby linking the word to the word and calculating the weight through it.
  • the candidate word selecting unit 10 is included in the irregular text document
  • a preprocessing part 12 for eliminating an abbreviated keyword among the keywords and a link between keywords that have been excluded from the abbreviated terms through the preprocessing part 12 are connected to each other, that is, a first weight of each keyword is calculated using a text rank algorithm And a first weight calculation section 14.
  • the stopping word removal process performed in the preprocessing part 12 is a process of selecting an object to be excluded in the process of extracting the qualities in the text document.
  • the user does not directly select an idiom, but automatically eliminates the idiomatic language through the algorithm, and selects the qualities to be used in the text rank.
  • the abstraction elimination algorithm uses IDF (Inverse Document Frequency) and Poisson distribution.
  • IDF is a value indicating how common a word appears in the entire text data.
  • the number of documents of the entire text data can be obtained by dividing the number of documents including the word by the number of documents and then taking a log.
  • Equation 2 The size of the text document D, or the total number of documents The number of documents containing the word t, if the word is not in the entire corpus, results in the denominator being zero. To prevent this, 1 + Lt; / RTI >
  • Poisson is a distribution given the probability that the value of t appears when the word t is 0 or a discrete variable taking a positive integer value.
  • the distribution [lambda] represents the mean value and variance in this distribution in this distribution. When the probability of occurrence in this distribution is very small, its distribution approximates the Poisson distribution.
  • RIDF is defined as the difference between the IDF and the Poisson distribution of IDF.
  • the ⁇ value of the Poisson distribution uses the mean value of the frequency of occurrence of the word t in the entire document.
  • Equation 4 Explanation word The average value of the frequency shown in the entire document The Poisson probability value of the document that appeared at least once
  • the candidate word selection unit 10 removes the stop words through the preprocessing unit 12, and then calculates a candidate word (important weight) by obtaining a text rank weight (first weight) between the words through the first weight calculation unit 14 Words).
  • the similar-term word selecting unit 20 groups words through word embedding in the plurality of irregular text documents, analyzes the meaning of the words selected in the candidate word selecting unit 10, An embedding part 22 for processing a word appearing in a plurality of atypical deext documents into a feature vector and learning through a neural network model to select a similar semantic word candidate, And a second weight calculation part (24) for assigning a second weight to the similar semantic word candidates selected through the embedding part (22).
  • similar-term word is used herein to mean a word, a sub-concept or a semantic relationship, such as " tool " It is defined as a generic term that includes all concepts of sexuality.
  • the word selection based on the text rank based on the candidate word selection unit 10 does not perform the semantic-based analysis because it determines the weight based on the link relation between the words.
  • the second weight is applied to words having similar meaning to the candidate word analyzed through the text rank algorithm And a similar semantic word candidate is selected.
  • the embedding part 22 uses Distributed Word Representation, which learns corpus based on data mining and extracts words appearing in the document set through dimension reduction and abstraction from a feature vector of tens to hundreds of dimensions Feature Vector).
  • Distributed Word Representation which learns corpus based on data mining and extracts words appearing in the document set through dimension reduction and abstraction from a feature vector of tens to hundreds of dimensions Feature Vector).
  • the initial NNLM (Neural Net Language Model) has a disadvantage that it takes a lot of time to learn the qualities of these words. However, it shortens the learning time of the word qualities by removing the hidden layer and simplifying the neural network model .
  • the learned word vector has a remarkable feature in that words of similar meaning form similar clusters, and the formula for calculating the distance between similar meaning words is as follows.
  • similar meanings between words in the space in which words are embedded can be calculated by calculating the distance between words.
  • the results of "Korea” and “Japan” in the learning results of the experimented document set are feature vectors with close distance.
  • the distance between "Seoul” and “Tokyo” we can deduce two words in similar meaning.
  • the second weight calculation part 24 performs a weighting operation on the similar semantic words analyzed in the embedding part 22 and the similar semantic word candidates selected through the embedding part 22 are classified into the candidates And assigns a second weight to the word selection unit 10 to merge with the selected candidate word through the text rank algorithm.
  • the method of calculating the second weight is as follows.
  • Equation 6 Explanation Number of occurrences of word t 1 / the number of sentences in which the word t appeared Length of word t N Weight normalization factor
  • the weight (the second weight) of the similar semantic word for the candidate word becomes higher the closer the distance is, the higher the frequency is in the sentence.
  • the calculated second weight is used as an updated weight to extract the final keyword by merging and normalizing the first weight calculated by the text rank.
  • the keyword extracting unit 30 normalizes the weight of the candidate word selected by the candidate word selecting unit 10 and the similarity word selected by the similar word selecting unit 20 to extract final keywords It is a configuration that performs a role.
  • the keyword extracting unit 30 may include a word aggregation part 32 for merging a candidate word set selected by the candidate word selecting part 10 and a similar semantic word set selected by the similar semantic word selecting part 20 And a weight normalization part (34) for giving a normalized final weight to the merged word set from the word set merging part (32). .
  • a candidate word set selected based on the text rank algorithm and a similar-word set selected based on the word2vec algorithm have respective weights.
  • Each of these word sets (clusters) is a set of words selected by different algorithms and the weights are not normalized. Therefore, in order to extract the final keyword, it is necessary to merge two word sets and normalize the weights.
  • an ensemble algorithm is applied to each set of words, and then a normalized weight is applied to the result, and the final keyword is extracted.
  • Equation 8 Explanation A set K with a keyword T in the document Candidate word in text ranks excluding abbreviations Similar words in candidate words Lt; / RTI >
  • a candidate is selected by assigning a link to features other than the abbreviation and weighting each feature (first weight).
  • the normalization factor is calculated as follows
  • the text rank, the word2vec, and the TF-ISF have a high weight of one word, and the weight of the other word becomes relatively low. Therefore, if the boundary is drawn based on the weight, another word is likely to be omitted from the keyword candidate.
  • the value of the normalization factor is set in the direction of reducing the weight difference of the normalization factor.
  • the candidate words are selected through the text rank among the features removed from the abbreviations.
  • similar words of candidate words are weighted according to their use in the document, so the weights for the analyzed similar words can be calculated. All candidate words selected in this way are classified into normalization elements It is extracted as final keywords of improved quality.
  • FIG. 2 is an overall flowchart of a key keyword extraction method in a document according to the present invention
  • FIG. 3 is a flowchart illustrating a detailed process of a key keyword extraction method in a document according to the present invention.
  • a key keyword extraction method in a document includes: a first step (S10) of analyzing keywords in a plurality of irregular text documents to select candidate words; A second step (S20) of grouping the words through word embedding in the plurality of irregular text documents, and analyzing the meaning of the selected words through the first step (S10) to select a similar semantic word among the words; And a third step (S30) of normalizing the weight values applied to the similar words through the first step (S10) and the similar words through the second step (S20) and extracting the final keywords. .
  • the first step S10 and the second step S20 may be performed separately or simultaneously.
  • a stopword to be described later is removed (S12), a first weight is applied (S14) Is transferred to the second step S20 so that the similar semantic analysis step for the candidate word can be performed.
  • the first step (S10) includes a first step (S12) of removing an idiomatic keyword among the keywords included in the irregular text document; And a 1-2 step (S14) of calculating a first weight of each of the keywords by linking links between the keywords whose idle words have been removed through the step 1-1). .
  • a similarity word candidate is selected by processing a word appearing in the plurality of atypical deex documents into a feature vector and learning through a neural network model (S22); And a second step (S24) of assigning a second weight to the similar semantic word candidates selected through the second step (S22). .
  • the third step S30 includes a third step S32 of merging a set of candidate words selected through the first step S10 and a set of similar semantic words selected through the second step S20 ); A third-2 step (S34) of giving a normalized final weight to the merged word set through the 3-1 step (S32); .
  • the first step S10 is performed based on a text rank algorithm
  • the second step S20 is performed based on word2vec and the TF-ISF algorithm
  • the third step S30 is performed based on an ensemble algorithm .
  • the detailed description of this process is omitted because it is the same as the description of the core keyword extraction system 100 in the previous document.
  • the key keyword extraction system and method in the document according to the present invention can enhance the extraction quality by performing keyword extraction using normalized weights for word sets obtained using different keyword selection algorithms .
  • weights are weighted by the link relation of the words in the document, and the selected candidate word set and the related word set having the similar meaning in the document are appropriately embedded and the weight applied to each word set is corrected (weight normalization) It is possible to implement extraction of related words related to important words as well as a lot of links (many links).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서 내 핵심 키워드 추출 시스템에 관한 것으로서, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 것을 특징으로 한다.

Description

문서 내 핵심 키워드 추출 시스템 및 방법
본 발명은 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있는 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것이다.
키워드는 문장을 대표할 수 있는 단어나 구의 형태로써 비정형 텍스트 데이터의 의미를 파악하기 위한 중요한 요소이다.
키워드를 추출하기 위한 연구는 1950년 한스 피터 룬 교수가 고안한 TF-IDF(Term Frequency - Inverse Document Frequency)가 대표적이며, 이후에는 그래프 기반, 계층 구조 및 단어 임베딩을 통한 키워드 추출 방법들이 등장하였다.
최근에는 키워드를 활용하여 문서 군집화, 요약, 분류 및 검색 등과 같은 다양한 응용 분석이 수행되고 있기 때문에 키워드의 중요성은 더욱 커지고 있다.
키워드 구성에 따라 문서의 분류나 요약이 달라지게 되고 그 결과에 따라 사용자에게 얼마나 더 가치 있고 유용한 정보를 주는지가 결정된다.
또한, 텍스트 분석을 통해 원하는 정보를 빠르게 파악하고 의사결정에 도움을 주기 때문에 키워드 추출 및 응용 분석에 대한 연구가 계속적으로 진행되고 있다.
한편, 키워드를 추출하기 위한 방법으로 TF-IDF 알고리즘뿐 아니라, 그래프 기반의 텍스트랭크 및 계층 구조 방법 등의 연구가 진행되어 왔고 최근에는 word2vec와 같은 단어 임베딩을 통해 유사한 의미를 군집하고 이를 통해 단어의 관계를 분석하는 방법 등이 연구되고 있다.
또한 키워드 추출의 품질을 높이기 위해 분석 알고리즘뿐 아니라 키워드 후보 단어의 가중치 조정, 불용어 처리 등 다양한 방법이 병행되고 있으며, 관련 선행기술로는 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 및 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법) 등이 있었다.
그러나 상기 선행기술들은 특정 알고리즘 및 추출 기법을 통해 키워드를 추출하는 방식을 채택하고 있었으며, 단일의 특정 알고리즘을 사용하여 키워드를 추출하게 되면 그 알고리즘의 특성에 맞게 단어의 가중치를 계산하기 때문에 가중치가 낮은 단어는 키워드로 추출하지 못하게 되는 문제점이 있었다.
본 발명의 목적은, 텍스트랭크 알고리즘 기반의 키워드 추출과 word2vec 알고리즘 기반의 키워드 추출을 앙상블 기법으로 융합시킴과 동시에 각 알고리즘의 장점을 부각시키고 단점을 최소화시킨 문서 내 핵심 키워드 추출 시스템 및 방법을 제공하는 데 있다.
구체적으로 텍스트랭크에서는 불용어를 제거하는 전처리 과정을 수행하여 텍스트랭크의 품질을 향상시켰으나 텍스트랭크는 단어 간의 링크 관계로 가중치가 결정되기 때문에 의미 기반의 분석은 수행하지 못한다는 단점이 있었다. 이를 해결하기 위하여 텍스트랭크에 의해 추출된 키워드를 word2vec를 통해 의미 기반으로 분석하여 유사 의미 키워드를 선정하도록 하여 텍스트랭크의 단점을 보완하였고 각각의 분석 결과를 앙상블 기법을 통해 최종 키워드로 추출함으로써 키워드 추출 및 분석 결과의 품질의 향상을 기대할 수 있다.
정리하면, 앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다. 즉 텍스트랭크에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상시키고, word2vec에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘의 가중치 정규화 요소를 거치게 되어 향상된 품질의 최종 키워드를 추출할 수 있다.
상기 목적은, 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 문서 내 핵심 키워드 추출 시스템에 의해 달성될 수 있다.
여기서, 상기 후보단어선정부는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및 상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함한다.
또한, 상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용된다.
여기서, 상기 유사의미단어선정부는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및 상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함한다.
또한, 상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출된다.
여기서, 상기 키워드추출부는, 상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및 상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함한다.
한편, 상기 목적은 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및 상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 문서 내 핵심 키워드 추출 방법에 의해서도 달성될 수 있다.
여기서, 상기 제1단계는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및 상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함한다.
또한, 상기 제2단계는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및 상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함한다.
또한, 상기 제3단계는, 상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계; 상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함한다.
본 발명에 의해, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.
또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.
또한, 오늘날 비정형 데이터에 대한 수가 방대해짐에 따라 기업뿐만 아니라 사회 전반적으로 효율적인 업무 관리를 하기 위한 요구가 계속적으로 증가하고 있다. 이에 따라 축적된 비정형 텍스트 데이터에서 키워드를 추출하여 문서의 주제를 보다 빠르게 얻을 수 있고, 이를 통해 기업 의사 결정에 기여 할 수 있다. 키워드와 유사한 의미의 단어를 같이 키워드로 추출하면 기존에 얻지 못했던 새로운 키워드 정보를 얻을 수 있을 뿐 아니라 키워드 간의 연관 정보도 같이 파악할 수 있는 장점이 있다.
결과적으로, 문서 요약, 분류, 군집화, 색인 및 검색 등 다양한 응용분석 기법들이 키워드를 활용하고 있기 때문에 키워드 추출 품질을 향상시킴으로써 응용분석 분석 결과의 품질의 향상을 기대할 수 있다.
도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이며,
도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며,
도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 구성을 상세히 설명하기로 한다.
이에 앞서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 본 명세서 및 청구범위에 사용된 용어는 사전적인 의미로 한정 해석되어서는 아니되며, 발명자는 자신의 발명을 최선의 방법으로 설명하기 위해 용어의 개념을 적절히 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.
따라서, 본 명세서에 기재된 실시예 및 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 표현하는 것은 아니므로, 본 출원 시점에 있어 이들을 대체할 수 있는 다양한 균등물과 변형예들이 존재할 수 있음을 이해하여야 한다.
1. 문서 내 핵심 키워드 추출 시스템에 대한 구체적인 설명
이하에서 설명하는 문서 내 핵심 키워드 추출 시스템은 기본적으로 데이터 저장 구성과 데이터 가공, 분석 및 처리를 담당하는 데이터 연산 구성으로 이루어지며, 이를 소프트웨어 및 하드웨어 형태로 구현하기 위한 데이터 전달, 코딩, 연산 흐름, 회로 설계 등의 기술이 복합적으로 융합되어 문서 내의 앙상블 기법의 키워드 추출 시스템이 구축됨을 밝혀둔다.
도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이다.
도 1 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템(100)은, 후보단어선정부(10)와 유사의미단어선정부(20) 및 키워드추출부(30)를 포함한다.
후보단어선정부(10)는 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 역할을 수행하는 구성으로 텍스트랭크 알고리즘을 통해 후보 단어를 선정한다.
텍스트랭크는 Mihalcea(2004)이 제안한 알고리즘으로 구글의 페이지랭크를 활용한 그래프 기반의 랭킹 모델이다. 페이지랭크는 링크를 가지는 웹 문서에 상대적 중요도의 따라 가중치를 부여하는 방법인데 텍스트랭크는 페이지랭크의 알고리즘을 활용하여 문서 간의 링크에 따라 가중치를 부여하는 알고리즘이다. 텍스트랭크의 기본 수식은 다음과 같다.
Figure PCTKR2017013869-appb-I000001
[수식 1]
수식1 설명
Figure PCTKR2017013869-appb-I000002
정점을 갖는 단어
Figure PCTKR2017013869-appb-I000003
에 대한 텍스트랭크 값
Figure PCTKR2017013869-appb-I000004
단어 i와 j사이의 가중치
Figure PCTKR2017013869-appb-I000005
페이지랭크에서 다른 페이지로 이동할 확률, 일반적으로는 0.85로 고정하여 사용
상기 후보단어선정부(10)는 텍스트랭크를 활용하여 후보 단어 선정하며, 정점
Figure PCTKR2017013869-appb-I000006
를 문서 내의 각 단어로 설정함으로써 단어와 단어간의 링크를 연결하고 이를 통해 가중치를 계산한다.
여기서, 텍스트랭크에서는 모든 단어들간의 링크를 연결하여 가중치를 계산하기 때문에 텍스트랭크 결과로서 불용어가 후보 단어로 선정될 수 있기 때문에 이를 방지하기 위하여 후보단어선정부(10)는 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분(12)과 상기 전처리부분(12)을 통해 불용어가 제거된 키워드들 간의 링크를 연결, 즉, 텍스트랭크 알고리즘을 이용하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분(14)를 포함한다.
여기서, 상기 전처리부분(12)에서 수행되는 불용어 제거 과정은 텍스트 문서 내의 자질을 추출하는 과정에서 제외되는 대상을 선정하는 과정이다. 또한 사용자가 직접 불용어를 선정하는 것이 아닌 알고리즘을 통해 자동적으로 불용어를 제거하고, 이를 통해 텍스트랭크에 사용할 자질을 선정한다. 불용어 제거 알고리즘은 IDF(Inverse Document Frequency)와 Poisson 분포를 활용하여 계산한다.
먼저 IDF는 한 단어가 텍스트 데이터 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 텍스트 데이터 전체의 문서 수를 해당 단어를 포함한 문서의 수로 나뉜 뒤 로그를 취하여 얻을 수 있다.
Figure PCTKR2017013869-appb-I000007
[수식 2]
수식2 설명
Figure PCTKR2017013869-appb-I000008
텍스트 문서 D의 크기, 또는 전체 문서의 수
Figure PCTKR2017013869-appb-I000009
단어 t가 포함된 문서의 수, 단어가 전체 말뭉치 안에 존재하지 않을 경우 이는 분모가 0이 되는 결과를 가져온다. 이를 방지하기 위해 1 +
Figure PCTKR2017013869-appb-I000010
를 사용한다.
Poisson은 단어 t를 0또는 양의 정수 값을 취하는 이산적 변수로 할 때 t의 값이 출현하는 확률로 주어 지는 분포이다.
Figure PCTKR2017013869-appb-I000011
[수식 3]
분포 λ는 이 분포에서의 이 분포에서의 평균값 및 분산을 나타낸다. 이분포에서 발생확률이 매우 작을 때 그 분포는 Poisson 분포에 근사하다.
RIDF는 IDF와 IDF의 Poisson 분포와의 차이로 정의한다. 이때, Poisson 분포의 λ값은 단어 t가 전체 문서에 나타난 빈도의 평균값을 사용한다.
Figure PCTKR2017013869-appb-I000012
[수식 4]
수식4 설명
Figure PCTKR2017013869-appb-I000013
단어
Figure PCTKR2017013869-appb-I000014
가 전체 문서에 나타난 빈도의 평균 값
Figure PCTKR2017013869-appb-I000015
적어도 한번이라도 나타난 문서의 Poisson 확률 값
즉, 후보단어선정부(10)는 전처리부분(12)을 통하여 불용어를 제거한 후, 제1가중치계산부분(14)을 통해 단어들 간의 텍스트랭크 가중치(제1가중치)를 구함으로써 후보 단어(중요 단어)를 선정한다.
한편, 상기 유사의미단어선정부(20)는 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부(10)에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 역할을 수행하는 구성으로, 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분(22) 및 상기 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분(24)를 포함한다.
여기서 상기 "유사 의미 단어"는 단어의 문언적 의미가 유사한 사례 외에 "공구" 및 "드라이버" 또는 "한국" 및 일본" 또는 "상승" 및 "하락" 등과 같이 단어의 상, 하위 개념 또는 의미 관계성을 가지는 개념을 모두 포함하는 포괄적 용어로서 정의됨을 밝혀둔다.
전술한 후보단어선정부(10)를 통한 텍스트랭크 기반의 단어 선정은 단어 간의 링크 관계로 가중치를 결정하기 때문에 의미 기반의 분석을 수행하지 않는다.
즉, 단어들 간의 링크로 키워드를 추출하게 되면 키워드와 유사한 의미를 갖는 다른 키워드를 추출할 수 없기 때문에 앞서 텍스트랭크 알고리즘을 통해 분석한 후보 단어와 유사 의미를 갖는 단어들에 대해 제2가중치를 적용하여 유사 의미 단어 후보를 선정한 것이다.
여기서, 임베딩부분(22)은 분산 단어 표현(Distributed Word Representation)을 사용하는데, 이는 말뭉치를 데이터 마이닝 기반으로 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(Feature Vector)로 표현하는 것이다.
초기 NNLM(Neural Net Language Model)은 이런 단어의 자질을 학습하기 위해서 많은 시간이 필요한 단점이 있었으나, 은닉층(Hidden layer)을 제거하고 신경망 모델을 단순화하는 방법으로 단어 자질의 학습 시간을 비약적으로 단축시켰다.
학습된 단어 벡터는 유사 의미의 단어들이 비슷한 군집을 이룬다는 점에서 주목할 만한 특징을 보이며, 유사 의미 단어 간의 거리를 계산하는 수식은 다음과 같다.
Figure PCTKR2017013869-appb-I000016
[수식 5]
수식5 설명
Figure PCTKR2017013869-appb-I000017
단어
Figure PCTKR2017013869-appb-I000018
와 단어
Figure PCTKR2017013869-appb-I000019
Figure PCTKR2017013869-appb-I000020
단어
Figure PCTKR2017013869-appb-I000021
Figure PCTKR2017013869-appb-I000022
의 원소
Figure PCTKR2017013869-appb-I000023
,
Figure PCTKR2017013869-appb-I000024
의 거리
Figure PCTKR2017013869-appb-I000025
정규 분포 표현
즉, 단어들이 인베딩된 공간에서의 단어 간의 유사 의미는 단어 간의 거리를 계산하여 나태 낼 수 있다. 예를 들어, 실험한 문서 집합에 대한 학습 결과에서 "한국"과 "일본"의 결과는 가까운 거리를 갖는 특징 벡터를 이루었다. 마찬가지로 "서울"과 "도쿄"의 거리를 계산해 볼 때 두 단어를 유사 의미로 유추할 수 있다. 이를 통해, 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영되는 것을 알 수 있다.
상기 제2가중치계산부분(24)은 상기 임베딩부분(22)에서 분석된 유사 의미 단어에 대하여 가중치를 부여하는 역할을 수행하며, 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들은 전술한 후보단어 선정부(10)에서 텍스트랭크 알고리즘을 통해 선정된 후보 단어와 병합하기 위해 제2가중치를 부여한다. 이러한 제2가중치의 계산 방법은 아래의 수식과 같다.
Figure PCTKR2017013869-appb-I000026
[수식 6]
수식6 설명
Figure PCTKR2017013869-appb-I000027
단어 t의 출현 수
Figure PCTKR2017013869-appb-I000028
1/단어 t가 출현한 문장의 수
Figure PCTKR2017013869-appb-I000029
단어 t의 길이
N 가중치 정규화 요소
여기서, 특정 단어의 빈도(Term Frequency)와 그 단어의 독특함의 정도(여러 문장에 많이 나타날수록 그 독특함이 떨어진다 간주할 수 있으므로, 그 역수인 Inverse Sentence Frequency를 곱하여 준다), 단어의 조합이 많고 길이가 길수록 뜻이 명확해지는 특징(Term Length)을 조합하여 유사 의미 단어의 제2가중치를 부여한다. 유사 의미 단어에 대한 전체 가중치 계산 수식은 다음과 같다.
Figure PCTKR2017013869-appb-I000030
[수식 7]
즉, 후보 단어에 대한 유사 의미 단어의 가중치(제2가중치)는 거리가 가까울수록, 문장 내에서 빈도가 많이 발생할수록 높아지게 된다. 이렇게 계산한 제2가중치는 기존에 텍스트랭크로 계산한 제1가중치와 병합 및 정규화되어 최종 키워드를 추출하는 갱신된 가중치로 이용된다.
한편, 키워드추출부(30)는 상기 후보단어선정부(10)에서 선정된 후보 단어와 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 역할을 수행하는 구성이다.
여기서, 상기 키워드추출부(30)는, 상기 후보단어선정부(10)에서 선정된 후보 단어 집합과 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분(32) 및 상기 단어집합병합부분(32)으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분(34); 을 포함한다.
즉, 텍스트랭크 알고리즘 기반으로 선정된 후보 단어 집합과 word2vec 알고리즘 기반으로 선정된 유사 의미 단어 집합이 각각의 가중치를 갖는다. 이러한 각 단어 집합(군집)은 각각 다른 알고리즘에 의해 선정된 단어 집합이고 가중치가 정규화 되어 있지 않다. 때문에 최종 키워드를 추출하기 위해서는 두 단어 집합을 병합하고 가중치를 정규화 시키는 과정이 필요하다. 두 단어 집합을 병합하기 위해서는 각 단어 집합에 대해 앙상블 알고리즘을 적용한 후, 이 결과에 정규화된 가중치가 적용되어 최종 키워드가 추출되게 되는 것이다.
앙상블 알고리즘으로 각 단어 집합을 병합하는 수식은 다음과 같다.
Figure PCTKR2017013869-appb-I000031
[수식 8]
수식8 설명
Figure PCTKR2017013869-appb-I000032
문서내의 키워드 T를 갖는 집합 K
Figure PCTKR2017013869-appb-I000033
Figure PCTKR2017013869-appb-I000034
불용어를 제외한 텍스트랭크의 후보 단어
Figure PCTKR2017013869-appb-I000035
후보 단어의 유사 의미 단어
Figure PCTKR2017013869-appb-I000036
는 정규화 요소
먼저 텍스트랭크 알고리즘에서는 불용어를 제외한 자질들에 대해서 링크를 걸고 각 자질들에 가중치를 계산(제1가중치)함으로써 후보 단어를 선정하지만, 각 문서 내의 링크로는 각 후보 단어가 어떠한 군집을 이루고 있는지, 어떤 유사 의미를 가지고 있는지 알 수 없다. 따라서 각 후보 단어의 유사 의미 단어
Figure PCTKR2017013869-appb-I000037
를 통해 유사 단어의 가중치(제2가중치)를 계산하고 정규화 요소
Figure PCTKR2017013869-appb-I000038
를 곱해줌에 따라 텍스트랭크에서 보완하지 못했던 키워드의 품질을 보완할 수 있게 된다. 두 알고리즘을 앙상블 알고리즘으로 병합하는 과정에서 정규화 요소
Figure PCTKR2017013869-appb-I000039
를 어느 정도로 하느냐에 따라 후보 단어의 영향을 받게 된다. 정규화 요소는 다음과 같이 계산한다
Figure PCTKR2017013869-appb-I000040
[수식 9]
텍스트랭크와 word2vec 및 TF-ISF는 하나의 단어가 높은 가중치를 갖게 되면 다른 단어의 가중치는 상대적으로 낮아지게 되므로 가중치 기반으로 경계선을 그으면 다른 단어가 키워드의 후보에서 탈락될 가능성이 높다. 때문에 후보 단어를 병합하는 과정에서는 후보 단어
Figure PCTKR2017013869-appb-I000041
Figure PCTKR2017013869-appb-I000042
의 가중치의 격차를 줄이는 방향으로 정규화 요소의 값을 정한다.
앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다.
Figure PCTKR2017013869-appb-I000043
단계에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상 시키고,
Figure PCTKR2017013869-appb-I000044
단계에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘에서 정규화 요소
Figure PCTKR2017013869-appb-I000045
를 거치게 되면 향상된 품질의 최종 키워드들로 추출되는 것이다.
2. 문서 내 핵심 키워드 추출 방법에 대한 구체적인 설명
도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며, 도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.
도 2 내지 도 3 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 방법은, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계(S10); 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계(S10)를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계(S20); 및 상기 제1단계(S10)를 통한 후보 단어와 상기 제2단계(S20)를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계(S30); 로 이루어진다.
여기서, 상기 제1단계(S10)와 제2단계(S20)는 개별적 또는 동시에 이루어질 수 있으며, 바람직하게는 후술할 불용어가 제거(S12)되고, 제1가중치가 적용(S14)되어 선정된 후보 단어가 제2단계(S20)로 전달되어 후보 단어에 대한 유사 의미 분석 단계가 이루어질 수 있다.
여기서, 상기 제1단계(S10)는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계(S12); 및 상기 제1-1단계(S12)를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계(S14); 를 포함한다.
또한, 상기 제2단계(S20)는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계(S22); 및 상기 제2-1단계(S22)를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계(S24); 를 포함한다.
또한, 상기 제3단계(S30)는, 상기 제1단계(S10)를 통해 선정된 후보 단어 집합과 상기 제2단계(S20)를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계(S32); 상기 제3-1단계(S32)를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계(S34); 를 포함한다.
여기서, 상기 제1단계(S10)는 텍스트랭크 알고리즘 기반으로 수행되며, 제2단계(S20)는 word2vec 및 TF-ISF 알고리즘을 기반으로 수행되며, 제3단계(S30)는 앙상블 알고리즘 기반으로 수행된다. 이에 대한 구체적 과정에 대한 상세한 설명은 앞선 문서 내 핵심 키워드 추출 시스템(100)에 대한 설명과 동일함으로 생략하였음을 밝혀둔다.
전술한 바와 같이, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템 및 방법은, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.
또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.
이상, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 기술적 사상은 이러한 것에 한정되지 않으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해, 본 발명의 기술적 사상과 하기 될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형 실시가 가능할 것이다.
다양한 종류의 문서 검색에 광범위하게 사용될 수 있다.

Claims (10)

  1. 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부;
    상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및
    상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  2. 제1항에 있어서,
    상기 후보단어선정부는,
    상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및
    상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  3. 제2항에 있어서,
    상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용되는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  4. 제1항에 있어서,
    상기 유사의미단어선정부는,
    상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및
    상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  5. 제4항에 있어서,
    상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출되는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  6. 제1항에 있어서,
    상기 키워드추출부는,
    상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및
    상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  7. 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계;
    상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및
    상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
  8. 제7항에 있어서,
    상기 제1단계는,
    상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및
    상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
  9. 제7항에 있어서,
    상기 제2단계는,
    상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및
    상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
  10. 제7항에 있어서,
    상기 제3단계는,
    상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계;
    상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
PCT/KR2017/013869 2017-11-22 2017-11-30 문서 내 핵심 키워드 추출 시스템 및 방법 WO2019103224A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170156375A KR102019194B1 (ko) 2017-11-22 2017-11-22 문서 내 핵심 키워드 추출 시스템 및 방법
KR10-2017-0156375 2017-11-22

Publications (1)

Publication Number Publication Date
WO2019103224A1 true WO2019103224A1 (ko) 2019-05-31

Family

ID=66631612

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/013869 WO2019103224A1 (ko) 2017-11-22 2017-11-30 문서 내 핵심 키워드 추출 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102019194B1 (ko)
WO (1) WO2019103224A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046141A (zh) * 2019-12-03 2020-04-21 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
CN111899832A (zh) * 2020-08-13 2020-11-06 东北电力大学 基于上下文语义分析的医疗主题管理系统与方法
CN112905771A (zh) * 2021-02-10 2021-06-04 北京邮电大学 基于词性和位置的特征关键词提取方法
KR20220067183A (ko) * 2020-11-17 2022-05-24 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
US11842160B2 (en) 2021-07-14 2023-12-12 International Business Machines Corporation Keyword extraction with frequency—inverse document frequency method for word embedding

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102278020B1 (ko) * 2019-05-31 2021-07-15 주식회사 아티프렌즈 챗봇을 이용한 질의응답 처리 장치 및 방법
KR102188553B1 (ko) * 2019-10-24 2020-12-09 김형민 애니메이션 기반의 스토리텔링을 통한 한글 교육 시스템
KR20210099431A (ko) 2020-02-04 2021-08-12 성균관대학교산학협력단 Html 태그 정보를 이용한 웹 문서 임베딩 방법 및 장치
KR102570285B1 (ko) * 2020-02-17 2023-08-24 주식회사 엘지유플러스 Vod 컨텐츠의 키워드를 출력하는 방법 및 장치
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
KR102579890B1 (ko) * 2020-11-27 2023-09-15 건국대학교 산학협력단 사용자 생성 데이터 기반의 사용자 경험 분석 장치 및 방법
KR102639979B1 (ko) * 2020-12-08 2024-02-22 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램
KR102323667B1 (ko) * 2021-03-24 2021-11-09 이경수 인공지능을 이용한 신체 관리 시술 시뮬레이션 정보 제공 방법 및 그 장치
KR102347386B1 (ko) * 2021-09-10 2022-01-05 주식회사 애자일소다 단어 정의 기반 헤더 추출 장치 및 방법
KR20230062251A (ko) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 텍스트 기반의 문서분류 방법 및 문서분류 장치
US20230139397A1 (en) * 2021-10-29 2023-05-04 Oracle International Corporation Deep learning techniques for extraction of embedded data from documents
KR20240008631A (ko) 2022-07-12 2024-01-19 망고클라우드 주식회사 문서 검색 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672579B1 (ko) 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR101353521B1 (ko) * 2012-05-10 2014-01-23 경북대학교 산학협력단 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
KR101847847B1 (ko) * 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046141A (zh) * 2019-12-03 2020-04-21 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
CN111046141B (zh) * 2019-12-03 2023-07-18 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
CN111899832A (zh) * 2020-08-13 2020-11-06 东北电力大学 基于上下文语义分析的医疗主题管理系统与方法
CN111899832B (zh) * 2020-08-13 2024-03-29 东北电力大学 基于上下文语义分析的医疗主题管理系统与方法
KR20220067183A (ko) * 2020-11-17 2022-05-24 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
KR102500725B1 (ko) 2020-11-17 2023-02-16 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
CN112905771A (zh) * 2021-02-10 2021-06-04 北京邮电大学 基于词性和位置的特征关键词提取方法
US11842160B2 (en) 2021-07-14 2023-12-12 International Business Machines Corporation Keyword extraction with frequency—inverse document frequency method for word embedding

Also Published As

Publication number Publication date
KR20190058935A (ko) 2019-05-30
KR102019194B1 (ko) 2019-09-06

Similar Documents

Publication Publication Date Title
WO2019103224A1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
CN107451126B (zh) 一种近义词筛选方法及系统
CN104899322B (zh) 搜索引擎及其实现方法
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
Padigela et al. Investigating the successes and failures of BERT for passage re-ranking
CN109241277B (zh) 基于新闻关键词的文本向量加权的方法及系统
CN109885675B (zh) 基于改进lda的文本子话题发现方法
US10474747B2 (en) Adjusting time dependent terminology in a question and answer system
WO2022116324A1 (zh) 搜索模型训练方法、装置、终端设备及存储介质
WO2010123264A2 (en) Online community post search method and apparatus based on interactions between online community users and computer readable storage medium storing program thereof
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
Chandra et al. A literature survey on various approaches of word sense disambiguation
Barla et al. From ambiguous words to key-concept extraction
Fan-Jiang et al. Spoken document retrieval leveraging bert-based modeling and query reformulation
Deguchi et al. Argument component classification by relation identification by neural network and TextRank
Ballerini et al. SPIDER Retrieval System at TREC-5.
Ngo et al. Wordnet-based information retrieval using common hypernyms and combined features
Alhelbawy et al. Collective named entity disambiguation using graph ranking and clique partitioning approaches
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
Gero et al. Word centrality constrained representation for keyphrase extraction
Wei et al. A mining-based category evolution approach to managing online document categories
Liu et al. Keyword extraction using language network
CN108846094A (zh) 一种基于分词检索交互的方式
Shinoda et al. Query-focused Scientific Paper Summarization with Localized Sentence Representation.
Bechikh Ali et al. Multi-word terms selection for information retrieval

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17932748

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17932748

Country of ref document: EP

Kind code of ref document: A1