KR102217248B1 - Feature extraction and learning method for summarizing text documents - Google Patents
Feature extraction and learning method for summarizing text documents Download PDFInfo
- Publication number
- KR102217248B1 KR102217248B1 KR1020190020265A KR20190020265A KR102217248B1 KR 102217248 B1 KR102217248 B1 KR 102217248B1 KR 1020190020265 A KR1020190020265 A KR 1020190020265A KR 20190020265 A KR20190020265 A KR 20190020265A KR 102217248 B1 KR102217248 B1 KR 102217248B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- group
- unstructured text
- text document
- embedding
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 텍스트 문서 요약을 위한 자질 추출 및 학습 방법에 관한 것으로, 본 발명의 실시예에 따르는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법은, 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 상기 비정형 텍스트 문서의 상태를 판별하는 단계와, 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함한다. 본 발명의 일 실시예에 따르면, 요약 대상이 되는 비정형 텍스트 데이터를 제안하는 문서 상태 결정 방법에 따라 적합한 임베딩을 한 후에 조사, 어미로 인해 학습 효과가 떨어지는 것을 보완하기 위해 변형된 시퀀스-투-시퀀스(Sequence to sequence) 방법을 적용하여 향상된 요약문을 생성할 수 있다. The present invention relates to a feature extraction and learning method for summarizing a text document. The feature extraction and learning method for summarizing a text document according to an embodiment of the present invention includes reading at least one unstructured text document, and the unstructured text document The step of determining the state of the unstructured text document and the step of vectorizing the sentence in the unstructured text document by applying a different embedding method according to the state of the determined unstructured text document, and the case of investigation or ending of the vectorized sentence are considered. And generating a summary from the unstructured text document by applying a sequence-to-sequence model. According to an embodiment of the present invention, a modified sequence-to-sequence is modified to compensate for the deterioration of learning effect due to investigation and ending after appropriate embedding according to the document state determination method that proposes unstructured text data to be summarized. An improved summary can be generated by applying the (Sequence to sequence) method.
Description
본 발명은 텍스트 문서 요약을 위한 자질 추출 및 학습 방법에 관한 것으로, 보다 상세하게는 요약 대상이 되는 비정형 텍스트 데이터를 제안하는 문서 상태 결정 방법에 따라 적합한 임베딩을 한 후에 조사, 어미로 인해 학습 효과가 떨어지는 것을 보완하기 위해 변형된 시퀀스-투-시퀀스(Sequence to sequence) 방법을 적용하여 향상된 요약문을 생성하는 방식의 텍스트 문서 요약을 위한 자질 추출 및 학습 방법에 관한 것이다.The present invention relates to a feature extraction and learning method for summarizing a text document, and more specifically, a learning effect due to investigation and ending after appropriate embedding according to a document state determination method that proposes unstructured text data to be summarized. The present invention relates to a feature extraction and learning method for summarizing text documents in a way that generates an improved summary by applying a modified sequence-to-sequence method to compensate for falling.
최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 비정형 데이터 문서를 효율적으로 요약하기 위해 다양한 문서요약 기술에 대한 연구가 진행되고 있다. Recently, due to the rapid development and spread of smart devices, the data of documents appearing on the Internet web is increasing day by day. Due to this increase in information, a large number of documents are increasing on the Internet web, and users are having difficulty in understanding the data of the document. For this reason, studies on various document summary techniques are being conducted in order to efficiently summarize unstructured data documents.
종래의 대표적인 문서요약 방식인 텍스트랭크(TextRank) 알고리즘이다. 이 텍스트랭크(TextRank) 알고리즘은 문서 내 문장 추출 방식 요약 기법이기 때문에 몇 가지 문제점을 가지고 있다. It is a text rank algorithm, which is a typical document summary method in the related art. This TextRank algorithm has several problems because it is a summary method of extracting sentences in documents.
텍스트랭크(TextRank) 방식은 문서를 그래프로 변환한 후, 단어의 빈도수를 카운트하여 문장을 정점으로 잡고 문장 간의 유사도를 간선으로 표현한다. 이 경우 텍스트랭크(TextRank) 값은 각 문장의 중요도를 표현하게 되고, 중요도가 높은 문장이 요약 문장이 되는데, 텍스트랭크(TextRank) 값을 계산하는 방식이 문장 간 겹치는 단어가 높을수록 커지는 방법이기 때문에 겹치는 단어가 적은 경우 에 중요 문장을 찾기 어려워지는 문제점이 있다. In the TextRank method, after converting a document into a graph, the frequency of words is counted, the sentence is set as a vertex, and the similarity between sentences is expressed as a trunk line. In this case, the TextRank value expresses the importance of each sentence, and the sentence with high importance becomes the summary sentence.Because the method of calculating the TextRank value is a method of increasing the number of overlapping words between sentences. There is a problem that it becomes difficult to find important sentences when there are few overlapping words.
또한, 텍스트랭크(TextRank) 방식은 요약 문장을 문서 내에서 그대로 추출하는 방식이기 때문에 적절한 문장이 없다면 요약 성능이 떨어지며 또한 원하는 요약 문장 크기도 지정할 수 없다는 문제점도 가지고 있다.In addition, since the TextRank method extracts summary sentences from within the document as they are, summary performance is degraded if there is no appropriate sentence, and there is also a problem in that the desired summary sentence size cannot be specified.
최근 시퀀스-투-시퀀스(Sequence to sequence, 이하 Seq2seq) 모델의 순환신경망(Recurrent Neural Networks, 이하 RNN)은 많은 작업에서 폭넓게 응용되고 있다. 이러한 Seq2seq 모델은 딥러닝 모델 중 하나이며, 시간의 흐름에 따라 변화하는 데이터를 학습하는 RNN 기술을 사용한다. Recently, Recurrent Neural Networks (RNNs) of a sequence to sequence (Seq2seq) model have been widely applied in many tasks. This Seq2seq model is one of the deep learning models, and uses an RNN technique that learns data that changes over time.
본 발명에서는 종래의 대표적인 문서요약 방식인 텍스트랭크(TextRank)의 문제점을 해소하기 위해 RNN을 사용한 딥러닝 모델인 Seq2seq 모델을 사용하여 요약문을 추출하는 방식 대신에 요약문을 생성하는 방식을 택한다. Seq2seq 모델은 RNN cell을 깊게 쌓아서 인코딩으로 요약할 문서, 디코딩으로 요약 문장을 넣어 학습한 후 요약을 원하는 문서만을 넣었을 때 기존의 학습 정보를 통해 요약 문장을 생성하므로 문서 내에 특정 문장이 문서를 대표하지 않더라도 요약이 가능해진다. 하지만 이러한 딥러닝 방식의 요약은 초기 데이터 정제에 따라 성능의 차이가 커지며, 단어와 조사가 결합된 언어들은 문장 생성을 위한 학습 효과가 떨어지는 문제가 있다.In the present invention, in order to solve the problem of TextRank, which is a typical document summary method in the related art, a method of generating a summary sentence is selected instead of a method of extracting the summary sentence using the Seq2seq model, a deep learning model using RNN. In the Seq2seq model, when RNN cells are deeply stacked, a document to be summarized by encoding and a summary sentence by decoding are added and learned, a summary sentence is generated through the existing learning information, so a specific sentence within the document does not represent the document. If not, a summary becomes possible. However, in the summary of this deep learning method, the difference in performance increases according to the initial data refinement, and languages in which words and surveys are combined have a problem that the learning effect for sentence generation is inferior.
결론적으로, 종래의 문장 추출 방식의 요약은 문서 내 문장을 그대로 추출하는 방식이기 때문에 요약문은 자연스럽지만, 문서를 대표할 수 있는 적절한 문장이 없는 경우에는 요약 기능을 상실한다. In conclusion, the summary of the conventional sentence extraction method is a method of extracting the sentences in the document as they are, so the summary sentence is natural, but if there is no appropriate sentence representing the document, the summary function is lost.
또한, 텍스트의 경우 문법상 단어와 조사가 결합된 형태로 되어 있다. 추출 방식의 요약 방법을 대체할 수 있는 요약 문장 생성 모델의 중심 방법인 Seq2seq는 인풋으로 형태소를 넣고 나오는 결과 값을 다시 인풋으로 쓰는 시퀀스가 존재한다. 이때, 조사 또는 어미 형태소가 인풋으로 들어갈 경우 많은 아웃풋이 예상 값으로 나올 수 있기 때문에 학습 효과가 떨어지는 문제가 있으며, 시퀀스가 진행될수록 잘못된 문장을 완성할 확률이 생긴다. Also, in the case of text, words and surveys are combined in grammar. Seq2seq, the central method of the summary sentence generation model that can replace the extraction method summary method, has a sequence that inserts morphemes as inputs and writes the result values again as inputs. In this case, if the survey or the morpheme is entered as an input, there is a problem that the learning effect decreases because many outputs may come out as expected values, and as the sequence progresses, the probability of completing an incorrect sentence occurs.
뿐만 아니라, 데이터의 질에 따라 요약 성능이 크게 바뀌는 점도 함께 착안하여 원본 문서의 핸들링 방법에 대해서도 고민이 필요하다. 종래의 요약 기술에서는 전처리 및 임베딩 시에, 모든 문서를 하나의 임베딩 방법으로만 처리한다. 이 경우 해당 임베딩 방법에 적합하지 않은 문서일 경우 아무리 좋은 알고리즘 방법을 써도 성능이 나오지 않는 문제점이 생긴다.In addition, it is also necessary to consider how to handle the original document as the summary performance greatly changes depending on the quality of the data. In the conventional summary technique, at the time of pre-processing and embedding, all documents are processed by only one embedding method. In this case, if the document is not suitable for the embedding method, no matter how good the algorithm method is used, there is a problem that performance does not come out.
이에, 본 발명에서는 요약 문장 생성을 위해 Seq2seq 기법을 사용하고, TF-IDF와 TextRank를 사용한 문서의 상태를 판단하는 모델을 고안하여, 해당 모델이 결정하는 문서의 상태에 따라 각각 FastText, Glove, Word2vec 세 가지의 서로 다른 임베딩 방법을 사용하여 문장을 벡터화하는 자질 추출 방법을 제안하고자 한다. 또한 문서를 학습할 때 조사, 어미 등으로 인해 학습 효과가 떨어지는 것을 보완하기 위한 강화 학습 방법도 제안하고자 한다.Accordingly, in the present invention, the Seq2seq technique is used to generate a summary sentence, and a model for determining the state of the document using TF-IDF and TextRank is devised, and FastText, Glove, and Word2vec respectively according to the state of the document determined by the model. We propose a feature extraction method that vectorizes sentences using three different embedding methods. In addition, when learning a document, it is intended to propose a reinforcement learning method to compensate for the lack of learning effect due to investigations and endings.
상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 기술적 과제가 착안된 것으로 본 발명의 목적은 비정형 텍스트 데이터로부터 요약 품질이 향상된 텍스트 문서 요약을 위한 자질 추출 및 학습 방법을 제공하는데 그 목적이 있다. In order to solve the problems of the prior art described above, the technical problem of the present invention was conceived, and an object of the present invention is to provide a feature extraction and learning method for summarizing text documents with improved summary quality from unstructured text data. .
또한, 본 발명의 다른 목적은 비정형 텍스트 문서의 요약 품질을 높이기 위해 원본 문서인 비정형 텍스트를 문서의 상태에 따라 그룹핑하여 서로 다른 임베딩 방법을 적용하는 자질 추출 방법과, 요약을 위한 학습 시 조사 및 어미를 고려할 수 있는 딥러닝 방법을 제공하는데 그 목적이 있다.In addition, another object of the present invention is a feature extraction method in which different embedding methods are applied by grouping unstructured text, which is an original document, according to the state of the document in order to improve the summary quality of an unstructured text document, and a survey and ending when learning for summarization. Its purpose is to provide a deep learning method that can take into account.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다. The technical problems to be achieved in the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned are clearly understood by those of ordinary skill in the technical field to which the present invention belongs from the following description. Can be.
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법은, 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 상기 비정형 텍스트 문서의 상태를 판별하는 단계와, 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함할 수 있다.The feature extraction and learning method for summarizing a text document according to an embodiment of the present invention for achieving the above task includes the steps of reading at least one unstructured text document and determining a state of the unstructured text document, and the determined unstructured text document. Vectorizing a sentence in the unstructured text document by applying an appropriate embedding method differently according to the state of the text document, and a sequence-to-sequence considering the case of investigation or ending with the vectorized sentence It may include generating a summary from the unstructured text document by applying the model.
또한, 상기 비정형 텍스트 문서의 상태를 판별하는 단계 이전에, 상기 읽어 들인 비정형 텍스트 문서 내 특수문자를 제거하는 단계와, 상기 특수문자가 제거된 비정형 텍스트 문서에 대하여 형태소 분석을 수행하고, 수행 결과 사전에 존재하지 않아 형태소 분석이 되지 않는 신조어, 자음 및 모음만 가진 단어를 추출하는 단계와, 상기 특수문자의 개수와, 상기 추출된 상기 신조어, 자음 및 모음만 가진 단어의 개수를 카운트하고, 이를 더한 총 개수가 상기 비정형 텍스트 문서의 전체 단어의 개수에 대하여 기설정된 퍼센트의 값을 초과하면 상기 특수문자와 상기 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류하는 단계를 더 포함할 수 있다.In addition, before the step of determining the state of the unstructured text document, removing special characters in the read unstructured text document, performing morpheme analysis on the unstructured text document from which the special characters have been removed, and performing a result dictionary Extracting words that have only new words, consonants, and vowels that do not exist in the morpheme analysis, and the number of the special characters and the number of words that have only the extracted new words, consonants, and vowels are counted and added. If the total number exceeds a value of a preset percentage with respect to the total number of words in the unstructured text document, the step of classifying words having only the special characters and the new words, consonants, and vowels as noise may be further included.
또한, 상기 비정형 텍스트 문서의 상태를 판별하는 단계는, TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 상기 비정형 텍스트 문서 내의 각 단어의 중요도에 대한 가중치를 부여하는 단계와, 텍스트랭크(TextRank) 알고리즘을 이용하여 상기 비정형 텍스트 문서 내의 각 단어들 간의 가중치를 산출하며, 산출된 가중치를 통해 단어들 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 확인하는 단계를 포함할 수 있다.In addition, the step of determining the state of the unstructured text document may include assigning a weight to the importance of each word in the unstructured text document through a Term Frequency-Inverse Document Frequency (TF-IDF), and a text rank (TextRank). And calculating a weight between words in the unstructured text document using an algorithm, and confirming a text rank size distribution indicating a similarity and distribution between words through the calculated weight.
또한, 상기 비정형 텍스트 문서의 상태를 판별하는 단계는, 상기 적어도 하나 이상의 비정형 텍스트 문서 중에서 상기 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 신조어, 자음 및 모음이 많이 포함된 문서의 경우, 상기 문서를 제1 그룹으로 판별하는 단계와, 상기 제1 그룹에 속하지 않으면서 상기 텍스트랭크 크기 분포가 완만한 문서의 경우, 상기 문서를 제2 그룹으로 판별하는 단계와, 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서의 경우, 상기 문서를 제3 그룹으로 판별하는 단계를 포함할 수 있다.In addition, the determining of the state of the unstructured text document may include, among the at least one unstructured text document, in the case of a document containing a large number of special characters classified as the noise or new words, consonants, and vowels that cannot be analyzed by the morpheme, the Discriminating a document as a first group; in the case of a document not belonging to the first group and having a smooth text rank size distribution, determining the document as a second group; and the first group and the first group In the case of a document that does not belong to the second group, the step of determining the document as a third group may be included.
또한, 상기 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계는, 상기 비정형 텍스트 문서의 상태가 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 비정형 텍스트 문서의 상태가 제2 그룹으로 판별되면, 상기 제2 그룹에 해당하는 문서에 전체적인 단어 정보를 포함하는 Glove 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계와, 상기 비정형 텍스트 문서의 상태가 제3 그룹으로 판별되면, 상기 제3 그룹에 해당하는 문서에 중심 단어 기준으로 주변 단어를 학습하는 Word2vec 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계를 포함할 수 있다.In addition, the step of vectorizing sentences in the unstructured text document by differently applying an appropriate embedding method according to the determined state of the unstructured text document may include, if the state of the unstructured text document is determined as a first group, the first group Vectorizing sentences in the unstructured text document by applying a FastText embedding method for learning in syllable units to a corresponding document, and when the state of the unstructured text document is determined as a second group, the document corresponding to the second group is Vectorizing a sentence in the unstructured text document by applying a glove embedding method including overall word information, and when the state of the unstructured text document is determined as a third group, the central word is based on the document corresponding to the third group. By applying the Word2vec embedding method for learning the surrounding words, it may include the step of vectorizing the sentences in the unstructured text document.
여기서, 상기 비정형 텍스트 문서의 상태가 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계는, 조사 또는 어미를 구분하기 위하여 제1 그룹에 해당하는 문서에 대하여 형태소 분석을 수행한 후, 상기 조사 또는 어미를 제외한 부분에 대하여 음절 단위로 학습하는 FastText 임베딩 방법을 적용함으로써 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계를 포함할 수 있다. Here, when the state of the unstructured text document is determined as the first group, the step of vectorizing the sentences in the unstructured text document by applying the FastText embedding method for learning in syllable units to the document corresponding to the first group may include: After morpheme analysis is performed on the document corresponding to the first group in order to distinguish endings, the sentence in the unstructured text document is vectorized by applying the FastText embedding method in which the survey or the part except the ending is learned in syllable units. It may include steps.
또한, 상기 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계는, 상기 벡터화된 문장에서 단어와 결합 가능한 조사 또는 어미가 있는 경우, 상기 조사 또는 어미 이전의 인풋(input)값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 추론하는 변형된 시퀀스-투-시퀀스(Sequence to sequence) 모델의 RNN(Recurrent Neural Networks) 학습을 수행함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함할 수 있다.In addition, the step of generating a summary sentence from the unstructured text document by applying a sequence-to-sequence model in which the investigation or ending of the vectorized sentence is considered may include: RNN of a modified sequence-to-sequence model that infers the next state value of the survey or ending by being affected by the input value before the survey or ending if there is a combinable survey or ending (Recurrent Neural Networks) may include generating a summary from the unstructured text document by performing learning.
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치는, 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 상기 비정형 텍스트 문서의 상태를 판별하는 문서 상태판별부와, 상기 문서 상태판별부에 의해 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 임베딩부와, 상기 임베딩부에 의해 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 요약문 생성부를 포함할 수 있다.A feature extraction and learning apparatus for summarizing a text document according to an embodiment of the present invention for achieving the above object includes a document state determination unit that reads at least one unstructured text document and determines a state of the unstructured text document, An embedding unit that vectorizes a sentence in the unstructured text document by applying a different embedding method according to the state of the unstructured text document determined by the document state determination unit, and a sentence vectorized by the embedding unit is examined or ending It may include a summary statement generator for generating a summary statement from the unstructured text document by applying a sequence-to-sequence model in which a case is considered.
또한, 상기 과제를 달성하기 위한 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치는, 상기 읽어 들인 비정형 텍스트 문서 내 특수문자를 제거하고, 상기 특수문자가 제거된 비정형 텍스트 문서에 대하여 형태소 분석을 수행하며, 수행 결과 사전에 존재하지 않아 형태소 분석이 되지 않는 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류하는 텍스트 정제부를 더 포함할 수 있다.In addition, the feature extraction and learning apparatus for summarizing a text document according to an embodiment of the present invention for achieving the above task is to remove special characters in the read unstructured text document, and to the unstructured text document from which the special characters are removed. The morpheme analysis is performed, and a text refiner for classifying words having only new words, consonants, and vowels for which morpheme analysis is not performed because they do not exist in the dictionary as a result of the execution may be further included.
또한, 상기 문서 상태판별부는, TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 상기 비정형 텍스트 문서 내의 각 단어의 중요도에 대한 가중치를 부여하고, 텍스트랭크(TextRank) 알고리즘을 이용하여 상기 비정형 텍스트 문서 내의 각 단어들 간의 가중치를 산출하며, 산출된 가중치를 통해 단어들 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 확인함으로써 상기 비정형 텍스트 문서의 상태를 판별하는 것을 특징으로 한다.In addition, the document status determination unit assigns a weight to the importance of each word in the unstructured text document through TF-IDF (Term Frequency-Inverse Document Frequency), and uses a text rank algorithm to provide the unstructured text document A weight is calculated between each of the words in the inside, and a state of the unstructured text document is determined by checking a text rank size distribution indicating similarity and distribution between words through the calculated weight.
또한, 상기 문서 상태판별부는 상기 텍스트 정제부에 의해 상기 적어도 하나 이상의 비정형 텍스트 문서 중에서 상기 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 신조어, 자음 및 모음이 많이 포함된 문서의 경우, 상기 문서를 제1 그룹으로 판별하는 것을 특징으로 한다. In addition, in the case of a document containing a large number of special characters classified as the noise or new words, consonants and vowels that cannot be analyzed by the morpheme among the at least one unstructured text document by the text refiner, the document status determination unit It is characterized in that it is determined as the first group.
또한, 상기 문서 상태판별부는 상기 제1 그룹에 속하지 않으면서 상기 텍스트랭크 크기 분포가 완만한 문서의 경우, 상기 문서를 제2 그룹으로 판별하고, 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서의 경우, 상기 문서를 제3 그룹으로 판별하는 것을 특징으로 한다.In addition, in the case of a document that does not belong to the first group and has a smooth text rank size distribution, the document state determination unit determines the document as a second group, and does not belong to the first group and the second group. In the case of, the document is identified as a third group.
또한, 상기 임베딩부는, 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하고, 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 제2 그룹으로 판별되면, 상기 제2 그룹에 해당하는 문서에 전체적인 단어 정보를 포함하는 Glove 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하며, 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 제3 그룹으로 판별되면, 상기 제3 그룹에 해당하는 문서에 중심 단어 기준으로 주변 단어를 학습하는 Word2vec 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 것을 특징으로 한다.In addition, when the state of the unstructured text document is determined as a first group by the document status determination unit, the embedding unit applies a FastText embedding method that learns in syllable units to the document corresponding to the first group to provide the unstructured text. When the sentence in the document is vectorized and the state of the unstructured text document is determined as a second group by the document state determination unit, a glove embedding method including whole word information is applied to the document corresponding to the second group, Word2vec embedding that vectorizes sentences in an unstructured text document and, when the state of the unstructured text document is determined as a third group by the document state determination unit, learns surrounding words based on the central word in the document corresponding to the third group It characterized in that the sentence in the unstructured text document is vectorized by applying the method.
또한, 상기 임베딩부는, 조사 또는 어미를 구분하기 위하여 상기 제1 그룹에 해당하는 문서에 대하여 형태소 분석을 수행한 후, 상기 조사 또는 어미를 제외한 부분에 대하여 음절 단위로 학습하는 FastText 임베딩 방법을 적용함으로써 상기 비정형 텍스트 문서 내 문장을 벡터화하는 것을 특징으로 한다.In addition, the embedding unit performs a morpheme analysis on the document corresponding to the first group in order to identify the survey or ending, and then applies a FastText embedding method that learns the survey or excluding the ending in syllable units. It characterized in that the vectorized sentences in the unstructured text document.
또한, 상기 요약문 생성부는, 상기 벡터화된 문장에서 단어와 결합 가능한 조사 또는 어미가 있는 경우, 상기 조사 또는 어미 이전의 인풋(input)값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 추론하는 변형된 시퀀스-투-시퀀스(Sequence to sequence) 모델의 RNN(Recurrent Neural Networks) 학습을 수행함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 것을 특징으로 한다.In addition, when there is a search or ending that can be combined with a word in the vectorized sentence, the summary statement generation unit is affected by the input value before the search or ending and infers the next state value of the search or ending. It is characterized in that the summary is generated from the unstructured text document by performing RNN (Recurrent Neural Networks) learning of the sequence-to-sequence model.
개시된 기술의 실시 예들은 다음의 효과를 가질 수 있다. 본 발명에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법을 적용하면 축적된 비정형 텍스트 데이터에서 문서의 주제를 보다 빠르게 얻을 수 있고, 이를 통해 기업 의사 결정에 기여 할 수 있다. Embodiments of the disclosed technology may have the following effects. When the feature extraction and learning method for summarizing text documents according to the present invention is applied, the subject of the document can be obtained more quickly from the accumulated unstructured text data, thereby contributing to corporate decision making.
또한, 다양한 텍스트 분석 분야에서 정보를 압축하여 제공할 수 있을 뿐만 아니라 요약 정보에 따라 문서 간의 연관 정보도 같이 파악할 수 있는 효과가 있다. In addition, in various text analysis fields, information can be compressed and provided, and related information between documents can also be grasped according to summary information.
뿐만 아니라, 종래 기본적인 RNN을 사용한 Seq2seq 모델을 적용하는 것이 아닌 벡터화된 문장에서 조사 또는 어미를 고려하는 변형된 Seq2seq 모델을 적용함으로써 조사 또는 어미가 결합된 여러 언어들에 대한 요약문 생성을 위한 학습 효과가 떨어지는 것을 방지하는 효과가 있다. In addition, by applying a modified Seq2seq model that considers investigations or endings in a vectorized sentence, rather than applying the Seq2seq model using the conventional basic RNN, there is a learning effect for generating summaries for several languages with a combination of investigations or endings. It has the effect of preventing falling.
다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.However, since it does not mean that the embodiments of the disclosed technology should include all of them, the scope of the rights of the disclosed technology should not be understood as being limited thereto.
도 1은 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치(100)의 구성을 도시한 개략도이다.
도 2는 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 전체적인 흐름도이다.
도 3은 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 세부 과정이 표현된 흐름도이다.
도 4는 종래 RNN 기본 구조를 설명하는 도면이다.
도 5는 종래 RNN을 사용한 Seq2seq 모델의 일련의 과정을 설명하는 도면이다.
도 6은 본 발명의 실시예에 따른 벡터화된 문장에서 조사 또는 어미가 있는 경우가 고려된 Seq2seq 모델의 RNN(Recurrent Neural Networks) 학습 방법을 설명하기 위한 도면이다. 1 is a schematic diagram showing the configuration of a feature extraction and
2 is an overall flowchart of a feature extraction and learning method for summarizing a text document according to an embodiment of the present invention.
3 is a flowchart illustrating a detailed process of a method for extracting features and learning to summarize a text document according to an embodiment of the present invention.
4 is a diagram illustrating a basic structure of a conventional RNN.
5 is a diagram illustrating a series of processes of a Seq2seq model using a conventional RNN.
FIG. 6 is a diagram for explaining a method of learning recurrent neural networks (RNN) of a Seq2seq model in which a case of investigation or ending in a vectorized sentence according to an embodiment of the present invention is considered.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.Hereinafter, the present invention will be described in detail so that those skilled in the art can easily understand and reproduce the present invention through preferred embodiments described with reference to the accompanying drawings.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.In describing the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the embodiments of the present invention, the detailed description thereof will be omitted.
이하 도 1을 참조하여, 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치(100)를 설명한다. 도 1은 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치(100)의 구성을 도시한 개략도이다. Hereinafter, a feature extraction and learning
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치(100)는 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여, 비정형 텍스트 문서의 상태를 판별하기 전에 사용할 수 있는 데이터로 바꾸기 위한 정제 작업을 수행하는 텍스트 정제부(10)와, 정제된 비정형 텍스트 문서의 상태를 판별하는 문서 상태판별부(20)와, 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 임베딩부(30)와, 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 비정형 텍스트 문서로부터 요약문을 생성하는 요약문 생성부(40)와, 상기 구성부에 의해 수행되는 작업 전후 데이터를 저장하는 저장부(50)를 포함할 수 있다.As shown in FIG. 1, the feature extraction and learning
본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 장치(100)를 구성하는 각 구성부의 역할은 도 2 및 도 3을 참조하여 자세히 설명하기로 한다. 도 2는 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 전체적인 흐름도이며, 도 3은 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 세부 과정이 표현된 흐름도이다. The role of each component constituting the feature extraction and learning
도 2를 참조하면, 본 발명의 실시예에 따른 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 과정은 크게 4가지 과정으로 나누어 볼 수 있다. Referring to FIG. 2, the process of the feature extraction and learning method for summarizing a text document according to an embodiment of the present invention can be divided into four processes.
구체적으로, 텍스트 문서 요약을 위한 자질 추출 및 학습 방법의 과정은 적어도 하나 이상의 비정형 텍스트 문서를 읽어 들여 상기 비정형 텍스트 문서의 상태를 판별하기 전에 사용할 수 있는 데이터로 바꾸기 위한 정제 작업을 수행하는 제1과정(S10), 정제된 비정형 텍스트 문서의 상태를 판별하는 제2과정(S20), 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 제3과정(S30), 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델의 RNN학습을 수행하여 비정형 텍스트 문서로부터 요약문을 생성하는 제4과정(S40)으로 구성된다. 이하 각 과정에 대하여 구체적으로 설명하고자 한다.Specifically, the process of feature extraction and learning method for summarizing text documents is the first process of reading at least one unstructured text document and performing a refinement operation to convert it into usable data before determining the state of the unstructured text document. (S10), the second process of determining the state of the refined unstructured text document (S20), the third process of vectorizing the sentences in the unstructured text document by applying differently suitable embedding methods according to the state of the determined unstructured text document ( S30) Consists of a fourth process (S40) of generating a summary from an unstructured text document by performing RNN learning of a sequence-to-sequence model in which a vectorized sentence is investigated or has a ending. do. Hereinafter, each process will be described in detail.
1. 제1과정(S10) : 비정형 텍스트 전처리 과정1. Process 1 (S10): Pre-processing of unstructured text
텍스트 정제부(10)는 비정형 텍스트 문서를 읽어 들여, 비정형 텍스트 문서의 상태를 판별하는 제2과정(S20)을 수행하기 전에 비정형 텍스트를 분석 방법을 사용할 수 있는 데이터로 바꾸기 위한 정제 작업을 수행한다. The
텍스트 정제부(10)는 정제 작업으로 특수 문자 제거 및 형태소 분석을 수행한다. 텍스트 정제부(10)는 비정형 텍스트내 문서를 요약하는 데 사용할 수 없는 특수문자를 제거한 후, 제거한 특수문자의 개수를 카운트 한다. 이후 텍스트 정제부(10)는 특수문자가 제거된 비정형 텍스트 문서에 대하여 형태소 분석을 수행하고, 형태소 분석을 통해 형태소 단위로 문장을 분리하되, 사전에 존재하지 않는 신조어, 자음 및 모음만 가진 단어를 추출하고 추출된 신조어, 자음 및 모음만 가진 단어의 개수를 카운트한다.The
텍스트 정제부(10)는 카운트된 특수문자의 개수와, 상기 추출된 상기 신조어, 자음 및 모음만 가진 단어의 개수를 더한 총 개수가 상기 비정형 텍스트 문서의 전체 단어의 개수에 대하여 기설정된 퍼센트의 값을 초과하면 카운트된 특수문자와 상기 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류한다. 이때, 출원인의 경험상 노이즈가 문서 전체 단어의 30%를 초과한다면 텍스트 정제부(10)가 카운트된 특수문자와 사전에 존재하지 않는 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류하여 저장부(50)에 저장하도록 한다. 여기서, 특수문자를 노이즈로 분류하는 이유는 특수 문자가 제거됨으로 인해 단어 혹은 문장의 형태가 어그러져서 전혀 다른 의미가 될 수 있기 때문이다.In the
2. 제2과정(S20) : 정제된 비정형 텍스트 문서의 상태 판별 과정2. Second process (S20): process of determining the status of refined unstructured text documents
문서 상태판별부(20)는 상술한 제1과정(S10)을 통해 정제된 비정형 텍스트 문서의 상태를 판별하기 위해, TF-IDF(Term Frequency-Inverse Document Frequency)와 텍스트랭크(TextRank) 알고리즘을 이용한다.The document
문서 상태판별부(20)는 TF-IDF를 통해 정제된 비정형 텍스트 문서 내의 각 단어의 중요도에 대한 가중치를 부여하고, 텍스트랭크(TextRank) 알고리즘을 이용하여 정제된 비정형 텍스트 문서 내의 각 단어들 간의 가중치를 산출하며, 산출된 가중치를 통해 단어들 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 확인함으로써 비정형 텍스트 문서의 상태를 판별할 수 있다.The document
먼저, TF-IDF에 대해 이해를 돕고자, TF와 IDF의 기본 개념을 설명하고자 한다. 여기서, TF(Term Frequency)는 단어 빈도를 의미하는 것으로, 해당 단어(Term)가 문서에 나오는 총 빈도(Frequency)수를 나타낸다. 문서 d 내에서 단어 t의 총 빈도를 TF(t,d) 값으로 표현한다. 그리고, IDF(Inverse Document Frequency)는 역문서 빈도를 의미하는 것으로, 한 단어가 텍스트 데이터 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 텍스트 데이터 전체의 문서 수를 해당 단어를 포함한 문서의 수로 나눈 뒤 로그를 취하여 IDF값을 얻는다. 문서 D 내에서 단어 t의 IDF를 구하는 수식은 다음과 같다.First, to help understand the TF-IDF, I will explain the basic concepts of TF and IDF. Here, TF (Term Frequency) means word frequency, and represents the total number of frequencies in which a corresponding word (Term) appears in a document. The total frequency of word t in document d is expressed as TF(t,d) value. In addition, IDF (Inverse Document Frequency) refers to an inverse document frequency, and is a value indicating how common a word appears in the entire text data. The IDF value is obtained by dividing the number of documents in the entire text data by the number of documents including the word and taking the log. The formula for finding the IDF of the word t in document D is as follows.
[수식 1][Equation 1]
이를 방지하기 위해 1 + {d ∈D : t∈d }를 사용할 수도 있다.The number of documents containing the word t, and if the word does not exist in the entire corpus, this results in a denominator of 0.
You can also use 1 + {d ∈D: t∈d} to prevent this.
또한, 하기 [수식 2]에 기재된 바와 같이, 상술한 단어 빈도인 TF와 역문서 빈도인 IDF를 곱한 것이 TF-IDF이다.In addition, as described in the following [Equation 2], TF-IDF is obtained by multiplying the above-described word frequency TF and the reverse document frequency IDF.
[수식 2][Equation 2]
TF-IDF는 포함되어 있는 단어의 중요성에 따라, 그 단어와 문서의 연관성을 계산하고, 이 값은 문서 내 단어의 빈도가 높을수록, 전체 문서 중 그 단어를 포함한 문서가 적을수록 높다. 이에 따라, TF-IDF의 값이 클수록 의미있는 중요 단어가 되며, TF-IDF 값을 통해서 텍스트랭크(TextRank) 알고리즘에서 사용되는 그래프를 만들 수 있다. TF-IDF calculates the relationship between the word and the document according to the importance of the word it contains, and this value is higher as the frequency of the word in the document is higher and the number of documents including the word in the entire document is smaller. Accordingly, the larger the value of TF-IDF becomes, the more important words become meaningful, and a graph used in the TextRank algorithm can be created through the value of TF-IDF.
상기 텍스트랭크(TextRank) 알고리즘은 Mihalcea(2004)이 제안한 알고리즘으로 구글의 페이지랭크를 활용한 그래프 기반의 랭킹 모델이다. 여기서, 페이지랭크는 링크를 가지는 웹 문서에 상대적 중요도의 따라 가중치를 부여하는 방법인데 텍스트랭크는 페이지랭크의 알고리즘을 활용하여 문서간의 링크에 따라 가중치를 부여하는 알고리즘이다.The TextRank algorithm is an algorithm proposed by Mihalcea (2004) and is a graph-based ranking model using Google's PageRank. Here, pagerank is a method of assigning weights to web documents having links according to their relative importance, while text rank is an algorithm that assigns weights according to links between documents using the pagerank algorithm.
택스트랭크의 기본 수식은 다음과 같다.The basic formula for text rank is as follows.
[수식 3][Equation 3]
일반적으로는 0.85로 고정하여 사용Probability of moving from page rank to another page,
Generally, it is fixed at 0.85 and used.
문서 상태판별부(20)는 텍스트랭크의 정점 를 문서내 단어로 가정하고, 단어와 단어 간의 링크를 연결하여 이를 통해 가중치를 계산한다. 텍스트랭크는 주어진 모든 단어들 간의 링크를 연결하여 가중치를 계산하면서도 간단한 수식계산으로 단어 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 빠르게 확인할 수 있다. The document
또한, 문서 상태판별부(20)는 제1과정(S10)에서 텍스트 정제부(10)에의한 형태소 분석 및 기본적인 전처리시 특수문자나 신조어 등의 사전에 속하지 않는 단어가 많은 문서를 제1 그룹으로 판별한다. 즉, 문서 상태판별부(20)는 텍스트 정제부(10)에 의해 적어도 하나 이상의 비정형 텍스트 문서 중에서 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 사전에 속하지 않는 신조어, 자음 및 모음을 포함하는 단어가 많은 문서를 제1 그룹으로 판별한다. In addition, the document
그리고, 문서 상태판별부(20)는 제1 그룹에 속하지 않으면서 문서 내 단어들의 텍스트랭크 크기 분포가 완만한 문서, 즉 평범한 단어들로 이루어진 문서들은 제2 그룹으로 판별하고, 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서를 제3 그룹으로 판별할 수 있다. In addition, the document
상술한 바와 같은 방법으로 그룹을 나누어 문서의 상태를 판별하는 이유는 문서의 데이터 질과 단어 데이터 분포에 따라 임베딩 성능이 달라지기 때문이다. 예를 들면, 제1 그룹은 오타가 많거나 인터넷상에서 사용하는 언어 등 노이즈가 많기 때문에 같은 의미로 사용된 단어라도 잘못된 표기로 인해서 어절 단위로 임베딩시 다른 단어로 인식할 것이다. 따라서 해당의 경우에는 음절 단위로 임베딩하는 FastText를 사용하는 것이 좋다. 이렇듯 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용할 수 있다. 이에 대한 자세한 내용은 제3과정에서 설명하고자 한다.The reason why the status of the document is determined by dividing the group by the above-described method is because the embedding performance varies depending on the data quality of the document and the distribution of word data. For example, since the first group has many typos or a lot of noise, such as a language used on the Internet, even a word that has the same meaning will be recognized as another word when embedding in a word unit due to incorrect notation. Therefore, in this case, it is better to use FastText, which is embedded in syllable units. A suitable embedding method can be applied differently according to the state of the determined unstructured text document. Details on this will be explained in the third process.
3. 제3과정(S30) : 그룹별 임베딩 적용 과정3. 3rd process (S30): process of applying embedding by group
임베딩부(30)는 상술한 제2과정에서 문서 상태판별부(20)에 의해 판별된 그룹에 따라 서로 다른 임베딩 방식을 적용한다. The embedding
임베딩부(30)는 문서 상태판별부(20)에 의해 비정형 텍스트 문서의 상태가 제1 그룹으로 판별되면, 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 비정형 텍스트 문서 내 문장을 벡터화한다. 여기서, 상기 제1 그룹에 해당하는 문서는 특수 문자나 사전에 없는 신조어 등 노이즈가 많은 문서이다. 이러한 문서로 요약을 진행하는 경우에는 처음부터 잘못된 단어 시퀀스로 시작하게 되므로, 학습부터 결과가 정상적인 문장이 나올 확률이 줄어든다. 따라서 제1 그룹에는 어절 단위로 임베딩하는 방법을 적용하지 않고, 음절 단위로 임베딩하는 FastText 임베딩 방법을 적용한다. When the state of the unstructured text document is determined as a first group by the document
FastText 임베딩 방법에 대하여 구체적으로 설명하면, FastText 임베딩 방법은 페이스북에서 개발된 방법으로 하나의 단어 안에도 여러 단어들이 존재하는 것으로 간주한다. FastText 임베딩 방법에서 중심단어 가 주어졌을 때 주변 단어 가 나타날 확률을 구하는 수식은 다음과 같다.When describing the FastText embedding method in detail, the FastText embedding method is a method developed by Facebook, and it is considered that several words exist in one word. Key words in FastText embedding method Surrounding words when given The formula to find the probability of appearing is as follows.
[수식 4][Equation 4]
상기 수식 4에서 분자, 분모는 모두 벡터로 표현되며, 분자는 중심 단어와 주변 단어의 벡터 내적 코사인 값이므로 내적 값을 높이면 단어 간 유사도를 높인다는 의미이기 때문에 분자가 커지도록 학습한다. 자연히 중심 단어를 기준으로 주변 단어가 나타날 확률을 높이려면 분모도 줄이는 방향으로 학습이 이루어지나 유사도의 합산이므로 합산에 포함되어 있는 각 단어들의 벡터 값에 큰 변동은 이루어지지 않는다. In Equation 4, both the numerator and the denominator are expressed as vectors, and since the numerator is the vector dot product cosine value of the central word and the surrounding word, increasing the dot product value means that the similarity between words is increased, so the numerator is learned to increase. Naturally, to increase the probability of the occurrence of surrounding words based on the central word, learning is performed in the direction of reducing the denominator, but since the similarity is summed, there is no significant fluctuation in the vector value of each word included in the summation.
또한, FastText 임베딩 방법에서는 각 단어를 글자들의 n-gram으로 나타낸다. n이 2인 경우 예를 들어 호랑이, 셔틀버스일 때 각각 호랑+이, 셔틀+버스로 분리될 것이다. 이렇게 분리하여 임베딩을 한다면 희귀한 단어, 노이즈 등 데이터 셋에 존재하지 않는 단어에 대해서도 단어의 유사도를 계산할 수 있다. 또한 노이즈가 아주 심할 경우에도 초/중/종성 단위까지 분리할 수 있기 때문에 활용 폭이 넓다. 예를 들어‘호랑말코’라는 단어의 경우는 FastText 이외의 다른 인베딩 방법에서는 해당 단어의 유사도를 찾기 어렵다. 그러나, FastText 임베딩 방법을 적용한다면 호랑이와 유사하다는 결론을 내릴 수 있다. Also, in the FastText embedding method, each word is represented by n-grams of letters. If n is 2, for example, tiger and shuttle bus will be separated into tiger+i and shuttle+bus respectively. By separating and embedding in this way, the similarity of words can be calculated for words that do not exist in the data set, such as rare words and noise. In addition, even when the noise is very severe, the application range is wide because it can be divided into elementary/medium/final units. For example, in the case of the word “horangmalko”, it is difficult to find the similarity of the word in other inbedding methods other than FastText. However, if you apply the FastText embedding method, you can conclude that it is similar to a tiger.
다음 [표 4]의 예시는 Word2vec 임베딩 방법과 다르게 FastText 임베딩 방식을 적용하여 음절 단위로 임베딩하는 방법을 보여준다.The following example of [Table 4] shows a method of embedding in syllable units by applying the FastText embedding method differently from the Word2vec embedding method.
N grams of W (n=3) = <O마다, 마다가, 다가스, 가스카, 스카르, 카르O>W: Madagascar
N grams of W (n = 3 ) = <O e is, the are done, the gas, the Scarborough, Scarborough Le, car le O>
[표 4]를 참조하면, 예를 들어 마다가스카르라는 단어에 대해 FastText 임베딩 방법을 적용할 경우, n이 3인 경우 3음절로 분리되며 이때 중심 단어를 기준으로 주변 단어를 구성하는 3음절 단위로 임베딩이 이루어질 수 있다. Referring to [Table 4], for example, when the FastText embedding method is applied to the word Madagascar, when n is 3, it is separated into 3 syllables, and at this time, it is embedded in units of 3 syllables that constitute the surrounding word based on the center word. This can be done.
또한, 임베딩부(30)는 후술하는 제4과정(S40)을 수행함에 있어 조사 또는 어미를 구분하기 위하여 제1 그룹에 해당하는 문서에 대하여 형태소 분석을 수행한 후, 상기 조사 또는 어미를 제외한 부분에 대하여 음절 단위로 학습하는 FastText 임베딩 방법을 적용함으로써 비정형 텍스트 문서 내 문장을 벡터화할 수 있다.In addition, the embedding
또한, 임베딩부(30)는 문서 상태판별부(20)에 의해 비정형 텍스트 문서의 상태가 제2 그룹으로 판별되면, 제2 그룹에 해당하는 문서에 전체적인 단어 정보를 포함하는 Glove 임베딩 방법을 적용하여 비정형 텍스트 문서 내 문장을 벡터화할 수 있다. 여기서, Glove 임베딩 방법은 가장 일반적으로 알려진 Word2vec 임베딩 방법의 문제점을 보완하는 방법이다. In addition, when the state of the unstructured text document is determined as the second group by the document
가장 일반적으로 알려진 Word2vec 임베딩 방법은 앞서 언급한 FastText나 Glove 임베딩 방법의 기준이 된다. Word2vec은 기본적으로 단어 혹은 띄어쓰기 단위 기준으로 중심 단어에서 사용자 지정한 윈도우 n개를 통해 주변 단어를 학습한다. 이러한 경우 윈도우 만큼만 중점적으로 학습되기 때문에 전체적인 단어의 정보를 특정 단어에 반영하기 어렵다는 문제점을 가진다. 이에, Glove 임베딩 방법은 이러한 Word2vec 임베딩 방법의 문제점을 보완하고자 전체 말뭉치의 동시등장확률을 학습에 반영한다. The most commonly known Word2vec embedding method is the standard for the FastText or Glove embedding method mentioned above. Word2vec basically learns surrounding words through n windows specified in the center word based on the word or spacing unit. In this case, it is difficult to reflect the entire word information to a specific word because it is learned only as much as the window. Therefore, the Glove embedding method reflects the simultaneous appearance probability of the entire corpus in learning to compensate for the problem of the Word2vec embedding method.
따라서, 문서 상태판별부(20)에 의해 판별된 제1 그룹에 속하지 않으면서 문서 내 단어의 텍스트랭크 크기 분포가 완만한 문서, 즉 평범한 단어들로 이루어진 문서인 제2 그룹에 해당하는 문서들은 중심 단어 기준이 아니라 전체적인 단어 정보를 포함하는 것이 유리하므로, 제2 그룹에 해당하는 문서의 경우에는 전체 문서내 공기정보 반영에 충실한 임베딩 방법인 Glove 임베딩 방법을 적용한다. Accordingly, documents that do not belong to the first group determined by the document
반대로, 문서 상태판별부(20)에 의해 판별된 제1 그룹 및 상기 제2 그룹에 속하지 않는 제3 그룹에 해당하는 문서의 경우는 중심 단어 기준으로 주변 단어를 학습하는 Word2vec 임베딩 방법을 적용한다.On the contrary, in the case of documents corresponding to the first group determined by the document
4. 제4과정(S40) : Seq2seq를 통한 요약 기법에서 조사, 어미를 고려한 강화 학습 방법4. The 4th process (S40): In the summary method through Seq2seq, the reinforcement learning method considering the ending and investigation
본 발명의 실시예에 따른 비정형 텍스트 문서로부터 요약문을 생성하는 방법으로 번역에 널리 쓰이는 방법인 Seq2seq 모델을 사용한다. Seq2seq모델은 RNN Cell을 깊게 쌓아서 복잡하고 많은 시퀀스 데이터를 처리하는데 특화되어 있다. 또한 인풋과 아웃풋의 설정이 자유롭다. 따라서 인풋 값인 요약해야 할 문장은 길고 아웃풋인 요약 문장은 짧지만 seq2seq에서는 충분히 처리가 가능하다. As a method of generating a summary from an unstructured text document according to an embodiment of the present invention, a Seq2seq model, a method widely used in translation, is used. The Seq2seq model is specialized in processing complex and large sequence data by deeply stacking RNN cells. Also, input and output settings are free. Therefore, the input value, the sentence to be summarized, is long and the output, the summary sentence, is short, but seq2seq can be sufficiently processed.
종래 Seq2seq에서 사용되는 RNN cell의 기본 구조는 도 4로 표현할 수 있다. 도 4에서 의 수식의 내용을 부연하면, h는 히든 state를 의미하고 x는 인풋, y는 아웃풋이다. 현재 상태의 히든 state 는 직전 시점의 히든 state 을 받아 갱신 된다. 또한 state의 활성 함수는 비선형 함수인 tanh로 이루어져 있다.The basic structure of the RNN cell used in the conventional Seq2seq can be represented by FIG. 4. In Figure 4 To amplify the content of the equation of, h means hidden state, x is input, y is output. Hidden state of the current state Is the hidden state of the previous point Is updated. In addition, the state's activation function consists of a nonlinear function, tanh.
앞서 언급했듯이 Seq2Seq는 도4의 RNN cell을 깊게 쌓되, 핵심 아이디어는 도 5에 도시된 바와 같이 입력 부분인 encoder와 출력 부분인 decoder를 나누어 cell을 구성하는 것이다. Seq2seq 모델의 수행 순서를 과정으로 표현하면 다음과 같다.As mentioned above, Seq2Seq deeply stacks the RNN cells of FIG. 4, but the core idea is to construct a cell by dividing an encoder as an input part and a decoder as an output part as shown in FIG. 5. The order of execution of the Seq2seq model is expressed as a process as follows.
1단계: 요약할 언어로 작성된 비정형 텍스트를 형태소 분석하여 쪼개어 임베딩 한다.Step 1: The unstructured text written in the language to be summarized is morphologically analyzed, split, and embedded.
2단계: 1단계에서 임베딩된 내용을 RNN의 인풋으로 넣는다. Step 2: Put the contents embedded in
3단계: 텍스트의 가장 마지막 단어를 인풋으로 넣고 나온 RNN 상태 값을 타겟 문장의 첫 번째 단어의 예측을 시작할 때 초기 상태 값으로 지정한다.Step 3: Put the last word of the text as an input, and designate the resulting RNN state value as the initial state value when starting prediction of the first word of the target sentence.
4단계: <s>는 문장의 시작을 의미하는 특수 키워드로, 요약 문장의 첫 번째 시작 단어로 사용한다.Step 4: <s> is a special keyword that means the beginning of a sentence, and is used as the first word of the summary sentence.
5단계: <s>를 넣고 RNN이 다음에 올 수 있는 타겟 단어 후보군을 Softmax 행렬 형태로 예측한 후 가장 큰 값을 선택하여 다음 단어의 인풋으로 선택한다.Step 5: After inserting <s>, the RNN predicts the next possible target word candidate group in the form of a Softmax matrix, and then selects the largest value as the input of the next word.
6단계: 다시 5단계에서 선택한 값을 인풋으로 넣고 같은 행위를 반복한다.Step 6: Put the value selected in Step 5 as an input and repeat the same action.
7단계: 6단계의 행위를 문장의 끝을 의미하는 </s>가 나올 때까지 반복한다.Step 7: Repeat the action of step 6 until the </s>, which means the end of the sentence, appears.
이러한 과정을 수행하는 Seq2seq 모델을 사용하면 문서 내에서 문장을 추출하는 방식이 아니라 시퀀스를 진행하면서 문장을 생성해낼 수 있다. 하지만 이러한 방법은 조사와 어미가 있을 경우 학습에 문제가 생길 수가 있다. 여기서 조사란 명사, 부사 따위에 붙어 문법 관계를 맺어주는 품사로써 대표적으로‘을/를’,‘이/가’,‘와/과’,‘에서’,‘에게’,‘로’,‘부터’,‘까지’,‘조차’등이 있다. 어미란 용언 및 서술격 조사가 활용하여 변하는 부분으로써 접사의 일종이다. 대표적으로‘-게’,‘-겠-‘,‘-고’,‘-다’,‘-서’,‘-었-‘,‘-려고’,‘-면’등이 있다. By using the Seq2seq model that performs this process, it is possible to generate sentences while proceeding through a sequence rather than extracting sentences from within the document. However, this method can cause problems in learning if there is an investigation and a mother. Here, investigation is a part of speech that connects to nouns and adverbs to form a grammatical relationship, typically starting from'e/e','i/ga','wa/wa','in','to','ro',' There are',' until' and'even'. The ending is a part that changes by utilizing the verbal and narrative investigation, and is a kind of affix. Representatively, there are'-게','- okay-‘,‘-고’, ‘-다’, ‘-서’, ‘-는-’, ‘-려’, and ‘-면’.
도 5에 도시된 바와 같이,‘나’라는 단어 이후‘는’은 조사이며, 종래 seq2seq 모델에 적용했을 경우‘는’이후에 나올 수 있는 단어가 많은 문장을 학습하였을 때,‘나비’라는 제대로 된 아웃풋이 나오지 않는 경우의 수가 많아진다. 이 경우에 요약 문장은 시퀀스로 문장을 만들어 낼수록 엉뚱하게 요약문을 완성 하게 된다. 따라서, 본 발명은 종래의 Seq2seq 모델의 RNN cell의 학습 방식에서 조사와 어미가 있을 경우 도 6과 같이 학습하도록 하였다.As shown in FIG. 5,'after the word'I' is a survey, and when applied to the conventional seq2seq model,'when a sentence with many words that can appear later is learned,'butterfly' is properly The number of cases where the output does not come out increases. In this case, the more the summary sentence is made in a sequence, the wrongly the summary sentence is completed. Therefore, in the case of the RNN cell learning method of the conventional Seq2seq model, the present invention is to learn as shown in FIG.
이를 위해, 본 발명의 요약문 생성부(40)는 제3과정(S30)을 통해 벡터화된 문장에서 조사 또는 어미가 있는 경우, 조사 또는 어미 이전의 인풋(input)값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 추론하는 변형된 Seq2seq 모델의 RNN 학습을 수행함으로써 비정형 텍스트 문서로부터 요약문을 생성할 수 있다. To this end, when there is an investigation or ending in a sentence vectorized through the third process (S30), the
도 4 대비 도 5에서 추가되는 수식인 값은 조사, 어미 이전의 인풋 값을 state를 결정하는 인자로 사용한다. 값은 향후 RNN의 역전파를 진행할 때 학습되는 부분은 아니며, bias의 형태로 더해진다. 다만, 도 5에 기재된 값은 값의 영향, 즉 라는 조사, 어미 이전의 인풋 값에 영향을 받아 계속 학습될 수 있다. Compared to FIG. 4, the formula added in FIG. 5 Value is the input value before the probe, ending It is used as an argument to determine the state. The value is not learned when the RNN is backpropagated in the future, but is added in the form of a bias. However, as described in Figure 5 Value is The effect of the value, i.e. Is influenced by the input value before the ending, so that learning can continue.
예를 들어,‘음식은 맛’이라는 벡터화된 문장이 RNN의 인풋으로 입력되면 은 음식이며, 은‘은’이라는 조사이고, 는 ‘맛’이라는 형태소가 된다. 여기서, 는‘은’이라는 조사는 종래 Seq2seq 모델의 RNN 학습 방법에서 다른 어떤 단어와도 매칭이 가능하여 조사 또는 어미의 다음 상태 값을 추론하는 학습이 매우 불리한 문제점이 있다. For example, if the vectorized sentence'food is taste' is input as input of RNN, Is food, Silver is a survey called'silver', Becomes the morpheme of'taste'. here, Investigation of'silver' can be matched with any other word in the RNN learning method of the conventional Seq2seq model, so there is a very disadvantageous problem in learning to infer the next state value of the investigation or ending.
그러나, 본 발명의 일 실시예에 따르면 조사 이전의 인풋 값인‘음식’을 통해 ‘은’이라는 조사 다음의 상태 값을 제대로 추론할 수 있다. 이와 같이, 본 발명에서는 종래 Seq2seq 모델의 단점을 해소하고 조사 또는 어미 이전의 인풋 값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 제대로 추론할 수 있어 충분한 강화 학습 효과를 얻을 수 있을 뿐만 아니라, 문서를 학습할 때 조사, 어미 등으로 인해 학습 효과가 떨어지는 것을 예방할 수 있다.However, according to an embodiment of the present invention, the state value after the survey of "silver" can be properly inferred from the input value of "food" before the survey. As described above, in the present invention, the shortcomings of the conventional Seq2seq model can be solved, and the next state value of the corresponding survey or ending can be properly inferred by being influenced by the input value before the survey or ending, thereby obtaining a sufficient reinforcement learning effect. When learning a document, it is possible to prevent the learning effect from being deteriorated due to investigations, mothers, etc.
이상, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 기술적 사상은 이러한 것에 한정되지 않으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해, 본 발명의 기술적 사상과 하기 될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형 실시가 가능할 것이다.In the above, although the present invention has been described by the limited embodiments and drawings, the technical idea of the present invention is not limited to these, and by those of ordinary skill in the art to which the present invention pertains, the technical idea of the present invention and Various modifications and variations will be possible within the scope of the following claims.
100 : 텍스트 문서 요약을 위한 자질 추출 및 학습 장치
10 : 텍스트 정제부 20 : 문서 상태판별부
30 : 임베딩부 40 :요약문 생성부
50 : 저장부100: Feature extraction and learning device for text document summary
10: text refinement unit 20: document status determination unit
30: embedding unit 40: summary statement generation unit
50: storage
Claims (15)
임베딩부는 상기 문서 상태판별부에 의해 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계; 및
요약문 생성부는 상기 임베딩부에 의해 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함하되,
상기 임베딩부는 상기 문서 상태판별부에 의해 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계는,
상기 임베딩부는 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 사전에 속하지 않는 신조어, 자음 및 모음을 포함하는 단어가 많은 문서그룹인 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계;
상기 임베딩부는 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 상기 제1 그룹에 속하지 않으면서 문서 내 단어들의 텍스트랭크 크기 분포가 완만한 문서그룹인 제2 그룹으로 판별되면, 상기 제2 그룹에 해당하는 문서에 전체적인 단어 정보를 포함하는 Glove 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계; 및
상기 임베딩부는 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서그룹인 제3 그룹으로 판별되면, 상기 제3 그룹에 해당하는 문서에 중심 단어 기준으로 주변 단어를 학습하는 Word2vec 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계를 포함하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법.The document status determination unit reads at least one unstructured text document and determines a state of the unstructured text document;
The embedding unit vectorizes the sentences in the unstructured text document by applying a different embedding method according to the state of the unstructured text document determined by the document state determination unit; And
The summary statement generation unit includes the step of generating a summary statement from the unstructured text document by applying a sequence-to-sequence model in which a case in which a sentence vectorized by the embedding unit is examined or has a ending is considered,
The embedding unit vectorizes the sentence in the unstructured text document by applying a different embedding method suitable for the state of the unstructured text document determined by the document state determination unit,
The embedding unit is a first document group having a large number of words including new words, consonants, and vowels that do not belong to a dictionary in which the state of the unstructured text document is classified as noise by the document state determination unit. If it is determined as a group, vectorizing sentences in the unstructured text document by applying a FastText embedding method for learning in syllable units to a document corresponding to the first group;
When the embedding unit determines that the state of the unstructured text document does not belong to the first group and the text rank size distribution of the words in the document is determined as a second group, which is a smooth document group, the second group Vectorizing a sentence in the unstructured text document by applying a glove embedding method including overall word information to the document corresponding to the text; And
When the embedding unit determines the status of the unstructured text document as a third group, which is a document group that does not belong to the first group and the second group, a central word in the document corresponding to the third group. And vectorizing sentences in the unstructured text document by applying the Word2vec embedding method for learning surrounding words as a reference.
상기 문서 상태판별부가 상기 비정형 텍스트 문서의 상태를 판별하는 단계 이전에,
텍스트 정제부는 상기 읽어 들인 비정형 텍스트 문서 내 특수문자를 제거하는 단계;
상기 텍스트 정제부는 상기 특수문자가 제거된 비정형 텍스트 문서에 대하여 형태소 분석을 수행하고, 수행 결과 사전에 존재하지 않아 형태소 분석이 되지 않는 신조어, 자음 및 모음만 가진 단어를 추출하는 단계; 및
상기 텍스트 정제부는 상기 특수문자의 개수와, 상기 추출된 상기 신조어, 자음 및 모음만 가진 단어의 개수를 카운트하고, 이를 더한 총 개수가 상기 비정형 텍스트 문서의 전체 단어의 개수에 대하여 기설정된 퍼센트의 값을 초과하면 상기 특수문자와 상기 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류하는 단계;를 더 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법.The method of claim 1,
Before the step of determining the state of the unstructured text document by the document state determination unit,
Removing the special characters in the read unstructured text document;
The text refiner performing a morpheme analysis on the unstructured text document from which the special characters have been removed, and extracting words having only new words, consonants, and vowels that do not exist in a dictionary as a result of the execution; And
The text refiner counts the number of the special characters and the number of words having only the extracted new words, consonants, and vowels, and the total number of them is a value of a preset percentage with respect to the total number of words in the unstructured text document If exceeds, the step of classifying a word having only the special character and the new words, consonants and vowels as noise; feature extraction and learning method for text document summary further comprising.
상기 문서 상태판별부가 상기 비정형 텍스트 문서의 상태를 판별하는 단계는,
상기 문서 상태판별부는 TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 상기 비정형 텍스트 문서 내의 각 단어의 중요도에 대한 가중치를 부여하는 단계; 및
상기 문서 상태판별부는 텍스트랭크(TextRank) 알고리즘을 이용하여 상기 비정형 텍스트 문서 내의 각 단어들 간의 가중치를 산출하며, 산출된 가중치를 통해 단어들 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 확인하는 단계;
를 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법.The method of claim 1,
The step of determining the state of the unstructured text document by the document state determination unit,
The document status determination unit assigning a weight to the importance of each word in the unstructured text document through a TF-IDF (Term Frequency-Inverse Document Frequency); And
The document status determination unit calculating weights between words in the unstructured text document using a text rank algorithm, and checking a text rank size distribution indicating similarity and distribution between words through the calculated weights;
Feature extraction and learning method for a text document summary comprising a.
상기 문서 상태판별부가 상기 비정형 텍스트 문서의 상태를 판별하는 단계는,
상기 문서 상태판별부는 상기 적어도 하나 이상의 비정형 텍스트 문서 중에서 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 신조어, 자음 및 모음이 많이 포함된 문서의 경우, 상기 문서를 제1 그룹으로 판별하는 단계;
상기 문서 상태판별부는 상기 제1 그룹에 속하지 않으면서 텍스트랭크 크기 분포가 완만한 문서의 경우, 상기 문서를 제2 그룹으로 판별하는 단계; 및
상기 문서 상태판별부는 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서의 경우, 상기 문서를 제3 그룹으로 판별하는 단계;
를 더 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법. The method according to claim 2 or 3,
The step of determining the state of the unstructured text document by the document state determination unit,
In the case of a document including a large number of special characters classified as noise or new words, consonants, and vowels that cannot be analyzed morpheme among the at least one unstructured text document, determining the document as a first group;
In the case of a document not belonging to the first group and having a smooth text rank size distribution, determining the document as a second group; And
In the case of documents not belonging to the first group and the second group, determining the document as a third group;
Feature extraction and learning method for a text document summary further comprising a.
상기 임베딩부는 상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계는,
상기 임베딩부는 조사 또는 어미를 구분하기 위하여 상기 문서 상태판별부에 의해 판별된 제1 그룹에 해당하는 문서에 대하여 형태소 분석을 수행한 후, 상기 조사 또는 어미를 제외한 부분에 대하여 음절 단위로 학습하는 FastText 임베딩 방법을 적용함으로써 상기 비정형 텍스트 문서 내 문장을 벡터화하는 단계를 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법. The method of claim 1,
When the state of the unstructured text document is determined as the first group by the document status determination unit, the embedding unit applies a FastText embedding method for learning in syllable units to the document corresponding to the first group, and the sentence in the unstructured text document The steps to vectorize are,
The embedding unit performs a morpheme analysis on the document corresponding to the first group determined by the document status determination unit in order to identify the survey or ending, and then FastText that learns the survey or parts excluding the ending in syllable units. Feature extraction and learning method for summarizing text documents, comprising the step of vectorizing sentences in the unstructured text document by applying an embedding method.
상기 요약문 생성부가 상기 임베딩부에 의해 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계는,
상기 요약문 생성부가 상기 임베딩부에 의해 벡터화된 문장에서 단어와 결합 가능한 조사 또는 어미가 있는 경우, 상기 조사 또는 어미 이전의 인풋(input)값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 추론하는 변형된 시퀀스-투-시퀀스(Sequence to sequence) 모델의 RNN(Recurrent Neural Networks) 학습을 수행함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 단계를 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 방법. The method of claim 1,
The step of generating a summary from the unstructured text document by applying a sequence-to-sequence model in which the summary generation unit investigates or considers a case where there is a ending to the vectorized sentence by the embedding unit,
When the summary sentence generator has a search or ending that can be combined with a word in a sentence vectorized by the embedding unit, the search or ending is affected by the input value before the search or ending to infer the next state value of the search or ending. Feature extraction and learning method for text document summary comprising the step of generating a summary from the unstructured text document by performing RNN (Recurrent Neural Networks) training of a modified sequence-to-sequence model.
상기 문서 상태판별부에 의해 판별된 비정형 텍스트 문서의 상태에 따라 적합한 임베딩 방식을 달리 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 임베딩부; 및
상기 임베딩부에 의해 벡터화된 문장에 대하여 조사 또는 어미가 있는 경우가 고려된 시퀀스-투-시퀀스(Sequence to sequence) 모델을 적용함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 요약문 생성부를 포함하되,
상기 임베딩부는,
상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 사전에 속하지 않는 신조어, 자음 및 모음을 포함하는 단어가 많은 문서그룹인 제1 그룹으로 판별되면, 상기 제1 그룹에 해당하는 문서에 음절 단위로 학습하는 FastText 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하고,
상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 상기 제1 그룹에 속하지 않으면서 문서 내 단어들의 텍스트랭크 크기 분포가 완만한 문서그룹인 제2 그룹으로 판별되면, 상기 제2 그룹에 해당하는 문서에 전체적인 단어 정보를 포함하는 Glove 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하며,
상기 문서 상태판별부에 의해 상기 비정형 텍스트 문서의 상태가 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서그룹인 제3 그룹으로 판별되면, 상기 제3 그룹에 해당하는 문서에 중심 단어 기준으로 주변 단어를 학습하는 Word2vec 임베딩 방법을 적용하여 상기 비정형 텍스트 문서 내 문장을 벡터화하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.A document state determination unit that reads at least one unstructured text document and determines a state of the unstructured text document;
An embedding unit for vectorizing sentences in the unstructured text document by applying a different embedding method according to the state of the unstructured text document determined by the document state determination unit; And
Including a summary statement generator for generating a summary statement from the unstructured text document by applying a sequence-to-sequence model in which a case in which a sentence vectorized by the embedding unit has an investigation or ending is considered,
The embedding part,
The state of the unstructured text document is determined by the document state determination unit as a first group, which is a document group with many words including special characters classified as noise or new words, consonants, and vowels that do not belong to the dictionary for which the morpheme analysis is not performed. Then, by applying the FastText embedding method of learning in syllable units to the document corresponding to the first group, the sentences in the unstructured text document are vectorized,
If the state of the unstructured text document does not belong to the first group and the text rank size distribution of words in the document is determined to be a second group, which is a smooth document group, by the document state determination unit, corresponding to the second group Vectorize the sentences in the unstructured text document by applying a glove embedding method including overall word information in the document,
When the status of the unstructured text document is determined by the document status determination unit as a third group, which is a document group that does not belong to the first group and the second group, surrounding documents corresponding to the third group based on the central word A feature extraction and learning device for summarizing a text document, characterized in that the sentence in the unstructured text document is vectorized by applying a Word2vec embedding method for learning words.
상기 읽어 들인 비정형 텍스트 문서 내 특수문자를 제거하고, 상기 특수문자가 제거된 비정형 텍스트 문서에 대하여 형태소 분석을 수행하며, 수행 결과 사전에 존재하지 않아 형태소 분석이 되지 않는 신조어, 자음 및 모음만 가진 단어를 노이즈로 분류하는 텍스트 정제부;를 더 포함하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.The method of claim 8,
Words with only new words, consonants, and vowels that do not exist in the dictionary as a result of performing morpheme analysis by removing special characters in the read unstructured text document, performing morpheme analysis on the unstructured text document from which the special characters have been removed Feature extraction and learning device for text document summarization further comprising a; text refiner for classifying as noise.
상기 문서 상태판별부는,
TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 상기 비정형 텍스트 문서 내의 각 단어의 중요도에 대한 가중치를 부여하고, 텍스트랭크(TextRank) 알고리즘을 이용하여 상기 비정형 텍스트 문서 내의 각 단어들 간의 가중치를 산출하며, 산출된 가중치를 통해 단어들 간의 유사도 및 분포를 나타내는 텍스트랭크 크기 분포를 확인함으로써 상기 비정형 텍스트 문서의 상태를 판별하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.The method of claim 8,
The document status determination unit,
A weight is assigned to the importance of each word in the unstructured text document through TF-IDF (Term Frequency-Inverse Document Frequency), and a weight between each word in the unstructured text document is calculated by using a TextRank algorithm. And determining a state of the unstructured text document by checking a text rank size distribution indicating a similarity and distribution between words through the calculated weight.
상기 문서 상태판별부는 상기 텍스트 정제부에 의해 상기 적어도 하나 이상의 비정형 텍스트 문서 중에서 상기 노이즈로 분류된 특수문자 또는 상기 형태소 분석이 되지 않는 신조어, 자음 및 모음이 많이 포함된 문서의 경우, 상기 문서를 제1 그룹으로 판별하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.The method of claim 9,
In the case of a document containing a large number of special characters classified as noise or new words, consonants, and vowels that cannot be analyzed by the morpheme, among the at least one unstructured text document by the text refiner, the document status determination unit determines the document. Feature extraction and learning device for summarizing text documents, characterized in that it is determined in one group.
상기 문서 상태판별부는 제1 그룹에 속하지 않으면서 텍스트랭크 크기 분포가 완만한 문서의 경우, 상기 문서를 제2 그룹으로 판별하고, 상기 제1 그룹 및 상기 제2 그룹에 속하지 않는 문서의 경우, 상기 문서를 제3 그룹으로 판별하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.The method of claim 10 or 11,
In the case of a document not belonging to the first group and having a smooth text rank size distribution, the document status determination unit determines the document as a second group, and in the case of a document not belonging to the first group and the second group, the Feature extraction and learning apparatus for summarizing text documents, characterized in that the documents are identified as a third group.
상기 임베딩부는,
조사 또는 어미를 구분하기 위하여 상기 제1 그룹에 해당하는 문서에 대하여 형태소 분석을 수행한 후, 상기 조사 또는 어미를 제외한 부분에 대하여 음절 단위로 학습하는 FastText 임베딩 방법을 적용함으로써 상기 비정형 텍스트 문서 내 문장을 벡터화하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.The method of claim 8,
The embedding part,
Sentences in the unstructured text document by applying a FastText embedding method that learns in syllable units for the part except for the survey or ending after performing morpheme analysis on the document corresponding to the first group to identify the survey or ending. Feature extraction and learning device for a text document summary, characterized in that to vectorize.
상기 요약문 생성부는,
상기 벡터화된 문장에서 단어와 결합 가능한 조사 또는 어미가 있는 경우, 상기 조사 또는 어미 이전의 인풋(input)값에 영향을 받아 해당 조사 또는 어미의 다음 상태 값을 추론하는 변형된 시퀀스-투-시퀀스(Sequence to sequence) 모델의 RNN(Recurrent Neural Networks) 학습을 수행함으로써 상기 비정형 텍스트 문서로부터 요약문을 생성하는 것을 특징으로 하는 텍스트 문서 요약을 위한 자질 추출 및 학습 장치.
The method of claim 8,
The summary statement generation unit,
When there is a search or ending that can be combined with a word in the vectorized sentence, a modified sequence-to-sequence that infers the next state value of the search or ending is affected by the input value before the search or ending ( Sequence to sequence) feature extraction and learning device for text document summary, characterized in that by performing RNN (Recurrent Neural Networks) learning of the model to generate a summary from the unstructured text document.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190020265A KR102217248B1 (en) | 2019-02-21 | 2019-02-21 | Feature extraction and learning method for summarizing text documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190020265A KR102217248B1 (en) | 2019-02-21 | 2019-02-21 | Feature extraction and learning method for summarizing text documents |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200102095A KR20200102095A (en) | 2020-08-31 |
KR102217248B1 true KR102217248B1 (en) | 2021-02-18 |
Family
ID=72234266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190020265A KR102217248B1 (en) | 2019-02-21 | 2019-02-21 | Feature extraction and learning method for summarizing text documents |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102217248B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102458457B1 (en) | 2021-12-21 | 2022-10-26 | 주식회사 티맥스에이아이 | Techniques for retrieving document data |
KR102465571B1 (en) | 2021-12-21 | 2022-11-11 | 주식회사 티맥스에이아이 | Techniques for performing subject word classification of document data |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102593884B1 (en) * | 2020-11-12 | 2023-10-26 | 주식회사 포스코인재창조원 | System and method for automatically generating documents and computer-readable recording medium storing of the same |
KR102462758B1 (en) | 2020-12-16 | 2022-11-02 | 숭실대학교 산학협력단 | Method for document summarization based on coverage with noise injection and word association, recording medium and device for performing the method |
KR102540665B1 (en) * | 2021-04-15 | 2023-06-13 | 동국대학교 산학협력단 | Apparatus and method extracting core sentence based on korean language model |
KR102677843B1 (en) * | 2021-05-03 | 2024-06-25 | 고려대학교 산학협력단 | Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium |
CN113888760B (en) * | 2021-09-29 | 2024-04-23 | 平安银行股份有限公司 | Method, device, equipment and medium for monitoring violation information based on software application |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102618483B1 (en) * | 2016-09-30 | 2023-12-27 | 주식회사 넥슨코리아 | Device and method to filter text |
KR102630668B1 (en) * | 2016-12-06 | 2024-01-30 | 한국전자통신연구원 | System and method for expanding input text automatically |
-
2019
- 2019-02-21 KR KR1020190020265A patent/KR102217248B1/en active IP Right Grant
Non-Patent Citations (2)
Title |
---|
https://deeplearning4j.org/word2vec.html |
김희찬, 의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약, 숭실대학교 대학원 컴퓨터학과 석사학위 논문 (2014.12.) 1부. |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102458457B1 (en) | 2021-12-21 | 2022-10-26 | 주식회사 티맥스에이아이 | Techniques for retrieving document data |
KR102465571B1 (en) | 2021-12-21 | 2022-11-11 | 주식회사 티맥스에이아이 | Techniques for performing subject word classification of document data |
KR20230094955A (en) | 2021-12-21 | 2023-06-28 | 주식회사 티맥스에이아이 | Techniques for retrieving document data |
KR20230094956A (en) | 2021-12-21 | 2023-06-28 | 주식회사 티맥스에이아이 | Techniques for performing subject word classification of document data |
Also Published As
Publication number | Publication date |
---|---|
KR20200102095A (en) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102217248B1 (en) | Feature extraction and learning method for summarizing text documents | |
JP6721179B2 (en) | Causal relationship recognition device and computer program therefor | |
Rahman et al. | Classifying non-functional requirements using RNN variants for quality software development | |
KR20180048624A (en) | A training device of the Q & A system and a computer program for it | |
Fonseca et al. | A two-step convolutional neural network approach for semantic role labeling | |
CN107357895B (en) | Text representation processing method based on bag-of-words model | |
Ordoñez et al. | Will longformers PAN out for authorship verification | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
CN110633456B (en) | Language identification method, language identification device, server and storage medium | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
CN113780418A (en) | Data screening method, system, equipment and storage medium | |
CN111639189B (en) | Text graph construction method based on text content features | |
CN107729509B (en) | Discourse similarity determination method based on recessive high-dimensional distributed feature representation | |
CN115129818A (en) | Knowledge-driven multi-classification-based emotion reason pair extraction method and system | |
Guo et al. | A machine-generated text detection model based on text multi-feature fusion | |
KR101318674B1 (en) | Word recongnition apparatus by using n-gram | |
Banovic et al. | How Soon Can We Detect Depression? | |
JP2009140411A (en) | Text summarization device and text summarization method | |
Nehar et al. | Rational Kernels for Arabic Stemming and Text Classification | |
Songram et al. | Opinion mining of Thai politics on Facebook status updates | |
Karunarathna et al. | Learning to Use Normalization Techniques for Preprocessing and Classification of Text Documents | |
ÖZTÜRK et al. | Turkish lexicon expansion by using finite state automata | |
CN110427613B (en) | Method and system for finding similar meaning words and computer readable storage medium | |
US20240086768A1 (en) | Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method | |
El Bakly et al. | A Proposed Stylometric Approach for Measuring the Similarity between different Islamic Jurisprudence Doctrines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right |