KR20230066828A - System for summarizing automatically arbitrary sentences - Google Patents

System for summarizing automatically arbitrary sentences Download PDF

Info

Publication number
KR20230066828A
KR20230066828A KR1020210152256A KR20210152256A KR20230066828A KR 20230066828 A KR20230066828 A KR 20230066828A KR 1020210152256 A KR1020210152256 A KR 1020210152256A KR 20210152256 A KR20210152256 A KR 20210152256A KR 20230066828 A KR20230066828 A KR 20230066828A
Authority
KR
South Korea
Prior art keywords
model
sentences
sentence
generation model
summary sentence
Prior art date
Application number
KR1020210152256A
Other languages
Korean (ko)
Inventor
구명완
최예린
홍현의
이정필
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020210152256A priority Critical patent/KR20230066828A/en
Publication of KR20230066828A publication Critical patent/KR20230066828A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a system for automatically summarizing documents in Korean. The system for automatically summarizing documents comprises: a model training device for pre-training using training data and completing a short summary generation model and a long summary generation model; and a summary generating device generating a summary including an arbitrary number of sentences for an original text. The summary generating device comprises: an input module receiving the number of sentences in the original text and summary; a model decision module selecting one of the short summary generation model and the long summary generation model according to the number of input summary sentences; a summary generation module using a model selected by the model decision module and generating the summary of the original text; and a summary completion module, if the number of sentences forming the summary is greater than the number of sentences in the input summary, extracting sentences corresponding to the number of sentences in the input summary from the front of the summary and completing the summary. Accordingly, a summary including a number of sentences determined by a user can be automatically generated with excellent performance.

Description

문서 자동 요약 시스템{System for summarizing automatically arbitrary sentences}System for summarizing automatically arbitrary sentences}

본 발명은 문서 자동 요약 시스템에 관한 것으로서, 더욱 구체적으로는 사전 학습에 의해 생성된 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 이용하여, 원문에 대하여 사용자로부터 입력된 문장 개수를 갖는 요약문을 우수한 성능으로 자동 생성할 수 있도록 하는 문서 자동 요약 시스템에 관한 것이다.The present invention relates to an automatic document summary system, and more particularly, to generate a summary with excellent performance using a short summary generation model and a long summary generation model generated by prior learning, having the number of sentences input from a user with respect to the original text. It is about an automatic document summary system that enables automatic creation.

문서 자동 요약 기술은 텍스트로 작성된 문서(즉, 원문)에서 중요한 문장을 추출하여 요약하는 기술로서, 딥러닝 기술을 이용하여 원문의 텍스트를 이해하고 원문을 구성하는 문장들의 중요도를 분석하여 핵심 내용을 자동으로 요약할 뿐만 아니라, 문서가 작성된 형식에 따라 적절한 요약 결과를 추출하여 요약문을 생성하게 된다. Automatic document summary technology is a technology that extracts and summarizes important sentences from textual documents (i.e., the original text). Deep learning technology is used to understand the text of the original text and analyze the importance of the sentences constituting the original text to extract key contents. In addition to automatically summarizing, a summary is created by extracting appropriate summary results according to the format in which the document was written.

문서 자동 요약 시스템은 인코더와 디코더 구조로 이루어진 변환 모델(transformer medel)로 구성되어, 원문의 텍스트가 입력되면 인코더에 의해 원문의 문장의 문맥을 이해한 후, 디코더에 의해 요약된 문장으로 이루어진 요약문을 출력하게 된다. The automatic document summary system consists of a transformer medel consisting of an encoder and a decoder structure. When the original text is input, the context of the original sentence is understood by the encoder, and then a summary consisting of the sentence summarized by the decoder is generated. will output

최근, 문서 자동 요약 기법으로는 순환 신경망 모델을 이용하는 방법이 제안되었는데, 이러한 딥러닝 기술을 이용함으로써 자동 요약문의 품질을 향상시킬 수 있게 된다. 한국등록특허 제 10-1944661호는 “순환신경망을 이용한 문서요약 시스템 및 방법”에 관한 것으로서, 순환신경망 모델을 이용하여 문서의 문장 단위로 인코딩 벡터를 재귀적으로 생성하고, 최종적으로 도출된 문서 임베딩 벡터를 이용하여 문서를 요약하는 것을 특징으로 하는 문서 자동 요약 시스템에 대한 기술이 개시되어 있다. Recently, a method using a recurrent neural network model has been proposed as an automatic document summary technique, and the quality of an automatic summary can be improved by using such deep learning technology. Korean Patent Registration No. 10-1944661 relates to “a document summary system and method using a recurrent neural network,” recursively generating an encoding vector for each sentence of a document using a recurrent neural network model, and finally embedding the resulting document. A technology for an automatic document summarization system characterized in summarizing documents using vectors is disclosed.

하지만, 전술한 종래의 문서 자동 요약 시스템들은 요약하여야 할 텍스트가 하나의 시퀀스로 입력되기 때문에, 입력되는 원문을 구성하는 문장의 개수를 알 수 없는 상태에서 요약문을 생성하게 된다. 따라서, 종래의 문서 자동 요약 시스템들은 요약의 결과인 요약문에서 생성되는 문장의 개수를 조절하기가 어려운 문제점이 있다. However, since the text to be summarized is input as a sequence in the conventional automatic document summary systems described above, a summary is generated in a state in which the number of sentences constituting the input original text is unknown. Accordingly, conventional automatic document summary systems have a problem in that it is difficult to control the number of sentences generated in a summary, which is a result of summary.

또한, 기존의 문서 요약을 위한 신경망 모델은, 훈련 데이터의 정답 문장 개수에 따라 요약문의 문장 개수가 고정되는 모델이거나 훈련 데이터의 정답 문장 개수와는 관계없이 생성되는 요약문의 문장 개수가 일정하지 않은 모델이다. 따라서, 기존의 문서 자동 요약 시스템들은 사용자가 원하는 임의의 개수의 문장들로 이루어진 요약문을 자동으로 생성할 수 없는 단점이 있다. In addition, the existing neural network model for document summarization is a model in which the number of sentences in the summary sentence is fixed according to the number of correct sentences in the training data, or a model in which the number of sentences in the generated summary sentence is not constant regardless of the number of correct sentences in the training data. am. Therefore, existing automatic document summary systems have a disadvantage in that they cannot automatically generate a summary consisting of an arbitrary number of sentences desired by a user.

한국등록특허 제 10-1944661호Korea Patent No. 10-1944661 한국공개특허공보 제 10-2021-0125275호Korean Patent Publication No. 10-2021-0125275

전술한 문제점을 해결하기 위한 본 발명의 목적은 요약할 문서에 대하여 사용자에 의해 정해진 개수의 문장들로 이루어진 요약문을 우수한 성능으로 자동으로 생성할 수 있도록 한 문서 자동 요약 시스템 및 방법을 제공하는 것이다. An object of the present invention to solve the above problems is to provide an automatic document summarization system and method capable of automatically generating a summary consisting of a number of sentences determined by a user with respect to a document to be summarized with excellent performance.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 문서 자동 요약 시스템은, 훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습하여 짧은 요약문 생성 모델을 완성하고, 훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습하여 긴 요약문 생성 모델을 완성하는 모델 학습 장치; 및 원문에 대하여, 임의의 개수의 문장으로 이루어진 요약문을 생성하는 요약문 생성 장치;를 구비하고,An automatic document summary system according to a first aspect of the present invention for achieving the above-described technical problem completes a short summary generation model by learning a first neural network model in advance using training data, and using the training data 2 A model learning device that completes a long summary generation model by pre-learning the neural network model; And with respect to the original text, a summary generating device for generating a summary consisting of an arbitrary number of sentences;

상기 요약문 생성 장치는, 외부로부터 요약할 문서인 원문 및 요약문 문장 개수를 입력받는 입력 모듈; 상기 입력된 요약문 문장 개수에 따라 짧은 요약문 생성 모델 및 긴 요약문 생성 모델 중 하나를 선택하는 모델 결정 모듈; 짧은 요약문 생성 모델과 상기 긴 요약문 생성 모델을 구비하고, 상기 모델 결정 모듈에 의해 선택된 모델을 이용하여 원문에 대한 요약문을 생성하는 요약문 생성 모듈; 및 상기 요약문 생성 모듈로부터 생성된 요약문을 제공받고, 상기 요약문을 구성하는 문장 개수가 상기 입력된 요약문 문장 개수보다 크면 요약문의 앞에서부터 상기 입력된 요약문 문장 개수에 대응되는 문장들까지 추출하여 요약문을 완성하는 요약문 완성 모듈;을 구비한다. The apparatus for generating a summary sentence may include an input module that receives an input of the number of sentences of the original text and the summary sentence, which are documents to be summarized, from the outside; a model determination module selecting one of a short summary sentence generation model and a long summary sentence generation model according to the input number of summary sentences; a summary sentence generation module having a short summary sentence generation model and the long summary sentence generation model, and generating a summary of the original text using the model selected by the model determination module; and if the summary sentence generated by the summary sentence generating module is provided, and the number of sentences constituting the summary sentence is greater than the number of input summary sentence sentences, the summary sentence is completed by extracting sentences corresponding to the input summary sentence number from the beginning of the summary sentence. It is provided with a summary statement completion module that does.

전술한 제1 특징에 따른 문서 자동 요약 시스템에 있어서, 상기 모델 결정 모듈은 모델 선택을 위한 사전 설정된 기준값을 구비하며, 상기 입력된 요약문 문장개수정보가 상기 기준값 이하이면 짧은 요약문 생성 모델을 선택하고, 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하는 것이 바람직하다. In the automatic document summary system according to the first aspect described above, the model determination module has a preset reference value for model selection, and selects a short summary generation model when the input summary sentence number information is less than or equal to the reference value; If the above reference value is exceeded, it is preferable to select a long summary generation model.

전술한 제1 특징에 따른 문서 자동 요약 시스템에 있어서, 상기 짧은 요약문 생성 모델은 원문에 대하여 고정된 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델이며, 상기 긴 요약문 생성 모델은 원문에 대하여 일정하지 않은 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델인 것이 바람직하다. In the automatic document summary system according to the first feature described above, the short summary generation model is a neural network model that generates a summary consisting of a fixed number of sentences with respect to the original text, and the long summary generation model is not constant with respect to the original text. It is desirable that the neural network model generate a summary consisting of an unspecified number of sentences.

전술한 제1 특징에 따른 문서 자동 요약 시스템에 있어서, 상기 모델 학습 장치는, 훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습시켜 짧은 요약문 생성 모델을 완성하는 제1 학습 모듈; 및 훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습시켜 긴 요약문 생성 모델을 완성하는 제2 학습 모듈;을 구비하는 것이 바람직하다. In the automatic document summary system according to the first feature described above, the model learning device includes: a first learning module that completes a short summary generation model by pre-learning a first neural network model using training data; and a second learning module that completes a long summary generation model by pre-learning a second neural network model using training data.

본 발명의 제2 특징에 따른 문서 자동 요약 방법은, (a) 훈련 데이터를 이용하여 제1 신경망 모델 및 제2 신경망 모델을 각각 사전에 학습시켜 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 완성하는 단계; (b) 외부로부터 요약할 문서인 원문 및 요약문 문장 개수를 입력받는 단계; (c) 상기 입력된 요약문 문장 개수에 따라 상기 짧은 요약문 생성 모델 및 상기 긴 요약문 생성 모델 중 하나를 선택하는 단계; (d) 상기 선택된 모델을 이용하여 요약문을 생성하는 단계; (e) 상기 생성된 요약문을 구성하는 문장 개수가 상기 입력된 요약문 문장개수보다 크면, 요약문의 앞에서부터 요약문 문장개수에 대응되는 문장들까지 추출하여 요약문을 완성하는 단계;를 구비한다. A method for automatically summarizing documents according to a second feature of the present invention includes the steps of (a) completing a short summary sentence generation model and a long summary sentence generation model by pre-training a first neural network model and a second neural network model using training data, respectively. ; (b) receiving an input of the number of sentences of the original text and summary text, which are documents to be summarized, from the outside; (c) selecting one of the short summary sentence generation model and the long summary sentence generation model according to the input number of summary sentences; (d) generating a summary using the selected model; (e) if the number of sentences constituting the generated summary sentence is greater than the input number of sentences in the summary sentence, extracting sentences corresponding to the number of sentences in the summary sentence from the beginning of the summary sentence to complete the summary sentence;

전술한 제2 특징에 따른 문서 자동 요약 방법에 있어서, 상기 (c) 단계는 모델 선택을 위한 기준값을 설정하고, 상기 입력된 요약문 문장 개수 정보가 상기 기준값 이하이면 짧은 요약문 생성 모델을 선택하고, 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하는 것이 바람직하며, 상기 기준값은 상기 짧은 요약문 생성 모델을 사전 학습시킨 훈련 데이터의 고정된 정답 문장 개수와 동일하게 설정된 것이 바람직하다. In the method for automatically summarizing documents according to the second feature described above, step (c) sets a reference value for model selection, selects a short summary sentence generating model when the input summary sentence number information is less than or equal to the reference value, and If the reference value is exceeded, it is preferable to select a long summary sentence generation model, and the reference value is preferably set equal to the fixed number of correct answer sentences in the training data obtained by pretraining the short summary sentence generation model.

전술한 제1 특징에 따른 문서 자동 요약 시스템에 있어서, 상기 짧은 요약문 생성 모델은 원문에 대하여 고정된 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델이며, 상기 긴 요약문 생성 모델은 원문에 대하여 일정하지 않은 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델인 것이 바람직하다. In the automatic document summary system according to the first aspect described above, the short summary generation model is a neural network model that generates a summary consisting of a fixed number of sentences with respect to the original text, and the long summary generation model is not constant with respect to the original text. It is preferable that the neural network model generates a summary sentence consisting of an unspecified number of sentences.

전술한 제1 특징에 따른 문서 자동 요약 시스템에 있어서, 상기 (a) 단계는, (a1) 훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습시켜 짧은 요약문 생성 모델을 완성하는 단계; 및 (a2) 훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습시켜 긴 요약문 생성 모델을 완성하는 단계;를 구비하는 것이 바람직하다. In the automatic document summary system according to the first feature described above, step (a) includes: (a1) completing a short summary generation model by pre-training a first neural network model using training data; and (a2) completing a long summary sentence generating model by pre-training the second neural network model using the training data.

전술한 구성을 갖는 본 발명에 따른 문서 자동 요약 시스템은 신문기사, 칼럼 등과 같은 텍스트 형태의 각종 글에 대한 요약 서비스를 제공할 수 있게 된다. The automatic document summary system according to the present invention having the above configuration can provide a summary service for various articles in the form of texts such as newspaper articles and columns.

특히, 본 발명에 따른 문서 자동 요약 시스템은, 사용자 또는 외부로부터 요약문 문장개수정보를 입력받고, 이에 대응되는 문장들로 이루어진 요약문을 자동 생성하여 제공하게 된다. 이를 통해 다양한 층위의 요약을 자동 생성하여 제공하게 된다.In particular, the automatic document summary system according to the present invention receives information on the number of sentences in the summary sentence from the user or the outside, and automatically generates and provides summary sentences composed of sentences corresponding to the input. Through this, summaries of various layers are automatically generated and provided.

본 발명에 따른 시스템에서는 짧은 요약문 생성 모델과 긴 요약문 생성 모델의 성능을 평가하기 위하여 평가 코퍼스를 자체 제작하였는데, AI Hub 신문기사 요약 데이터 중 원문의 문장 개수가 20개 이상인 100개의 문서를 무작위로 선정하였고, 이 문서들에서 중요 문장 10개를 선정하였다. In the system according to the present invention, an evaluation corpus was self-produced to evaluate the performance of the short summary generation model and the long summary generation model, and 100 documents with 20 or more sentences in the original text were randomly selected from AI Hub newspaper article summary data. and 10 important sentences were selected from these documents.

먼저, 정량 평가를 위하여, Rouge 및 문장개수별 성능 평가를 하였다. Rouge는 자동 요약을 평가할 때 가장 많이 사용하는 지표로서, 아래의 수학식들로 표시되는 N-gram별 Precision, recall 점수의 F score를 사용한다. First, for quantitative evaluation, performance evaluation was performed by Rouge and the number of sentences. Rouge is the most frequently used indicator when evaluating automatic summarization, and uses the F score of the precision and recall scores for each N-gram represented by the equations below.

Figure pat00001
Figure pat00001

Figure pat00002
Figure pat00002

Figure pat00003
Figure pat00003

여기서, reference는 평가 코퍼스에 있는 정답 요약문이고, hypothesis는 모델이 생성한 요약문이다. 결과는 rouge 1 기준으로, 짧은 요약문 생성 모델(t5)은 50.23 이며, 긴 요약문 생성 모델(kobart)은 43.49 가 나왔다. Here, the reference is the summary of the correct answers in the evaluation corpus, and the hypothesis is the summary generated by the model. As a result, based on rouge 1, the short summary generation model (t5) was 50.23, and the long summary generation model (kobart) was 43.49.

다음, 문장 개수별 성능 평가를 위하여, 수학식 3의 정확도(Acc)를 계산하였다. Next, in order to evaluate the performance for each number of sentences, the accuracy (Acc) of Equation 3 was calculated.

Figure pat00004
Figure pat00004

여기서, n은 모델이 생성한 문장의 개수이다. 즉, 모델이 생성한 문장 중 몇 개가 정답 문장과 일치하는지로 정확도를 계산하게 된다. 정답과의 일치 기준은 rouge score = 0.55로 선정하였다. 그 이유는 reference가 사람이 원문에서 추출한 요약문, hypothesis가 사람이 생성한 요약문일 때의 rouge score =0.55이기 때문이다. 도 3은 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 있어서, 긴 요약문 생성 모델과 짧은 요약문 생성 모델에 대한 문장 개수별 성능 평가 결과를 도시한 그래프이다. Here, n is the number of sentences generated by the model. That is, accuracy is calculated by determining how many of the sentences generated by the model match the correct sentence. The criterion for agreement with the correct answer was selected as rouge score = 0.55. The reason is that the rouge score = 0.55 when the reference is a human summary extracted from the original text and the hypothesis is a human generated summary. 3 is a graph showing performance evaluation results for each number of sentences for a long summary sentence generation model and a short summary sentence generation model in the automatic document summary system according to a preferred embodiment of the present invention.

다음, 정성 평가를 정량 평가와 마찬가지로 100개의 문서에 대하여 실시하였다. 정량 평가뿐만 아니라 정성 평가가 필요한 이유는 다음과 같다. 요약문의 품질을 평가한다는 것은 근본적으로 글의 품질을 평가하는 것이기 때문에, 정량 평가로는 한계가 있다. 사람이 직접 보고 이것이 잘 짜여진 글인지, 중요한 문장을 잘 채택한 요약문인지 판단하는 과정이 필요하다. 서비스의 대상이 사람이기 때문에 사람이 그 결과를 보고 판단한 기준도 평가 기준에 포함되어야 한다. 정성 평가를 거쳐야 실제 서비스를 제공하였을 때의 사용자의 만족도를 높일 수 있게 된다. 정성 평가의 평가 항목은 (1) 일관성, (2) 사실성, (3) 유창성 및 (4) 연관성이다. 일관성은 요약문 자체가 잘 짜여진 글인지, 하나의 글로서 구조를 갖췄는지에 대하여 평가한다. 사실성은 요약문에 원문과 다른 사실이 있는지 없는지에 대하여 평가한다. 유창성은 각 문장이 얼마나 유창한지에 대하여 평가한다. 연관성은 요약문의 내용이 원문에서 진짜 중요한 내용인지 여부를 평가한다. Next, qualitative evaluation was conducted on 100 documents in the same way as quantitative evaluation. The reasons for qualitative evaluation as well as quantitative evaluation are as follows. Since evaluating the quality of a summary is fundamentally evaluating the quality of writing, quantitative evaluation has limitations. It is necessary for a person to directly see and judge whether this is a well-organized article or a well-adapted summary of important sentences. Since the target of the service is a person, the criterion for judging the result by a person should also be included in the evaluation criteria. Only through qualitative evaluation can the user's satisfaction be increased when the actual service is provided. The evaluation items of the qualitative evaluation are (1) consistency, (2) realism, (3) fluency, and (4) relevance. Consistency evaluates whether the summary itself is well-organized or structured as a single text. Factuality is evaluated whether or not there are facts different from the original text in the abstract. Fluency is an evaluation of how fluent each sentence is. Relevance evaluates whether the contents of the summary are really important in the original text.

도 4는 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 있어서, 긴 요약문 생성 모델과 짧은 요약문 생성 모델에 대하여 정성 평가의 항목별 평가 결과를 도시한 그래프이다. 도 4에서는 4 가지 정성 평가 항목에 대하여 100개의 문서에 대하여 각 항목당 4점 만점으로 평가한 결과를 도시한 그래프이다. 4 is a graph showing evaluation results for each item of qualitative evaluation for a long summary sentence generation model and a short summary sentence generation model in the automatic document summary system according to a preferred embodiment of the present invention. FIG. 4 is a graph showing the results of evaluation of 100 documents with a perfect score of 4 for each of the 4 qualitative evaluation items.

본 발명에 따른 시스템에 있어서, 모델이 생성한 요약문보다 적은 문장 개수로 요약하여야 할 경우, 생성된 문장 순서대로 앞에서부터 추출한다. 이러한 문장 추출 방식은 실험 결과, 통계적인 방식으로 중요도를 계산하여 추출한 경우보다 더 좋은 성능의 요약문을 추출해 낼 수 있었다. In the system according to the present invention, when it is necessary to summarize with fewer sentences than the summaries generated by the model, the sentences are extracted from the beginning in the order of generated sentences. As a result of the experiment, this method of extracting sentences was able to extract summary sentences with better performance than those obtained by calculating the importance using a statistical method.

도 1은 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템을 전체적으로 도시한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 따른 문서 자동 요약 방법을 순차적으로 도시한 흐름도이다.
도 3은 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 있어서, 긴 요약문 생성 모델과 짧은 요약문 생성 모델에 대한 문장 개수별 성능 평가 결과를 도시한 그래프이다.
도 4는 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 있어서, 긴 요약문 생성 모델과 짧은 요약문 생성 모델에 대하여 정성 평가의 항목별 평가 결과를 도시한 그래프이다.
1 is a block diagram showing an automatic document summary system according to a preferred embodiment of the present invention as a whole.
2 is a flowchart sequentially illustrating a method for automatically summarizing a document according to an automatic document summary system according to a preferred embodiment of the present invention.
3 is a graph showing performance evaluation results for each number of sentences for a long summary sentence generation model and a short summary sentence generation model in the automatic document summary system according to a preferred embodiment of the present invention.
4 is a graph showing evaluation results for each item of qualitative evaluation for a long summary sentence generation model and a short summary sentence generation model in the automatic document summary system according to a preferred embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템 및 그 방법에 대하여 구체적으로 설명한다. 본 발명에 따른 문서 자동 요약 시스템은 컴퓨터 또는 서버에 설치되어 실행되는 프로그램에 의해 구현될 수 있다. Hereinafter, an automatic document summary system and method according to a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings. The automatic document summary system according to the present invention may be implemented by a program installed and executed on a computer or server.

본 발명에 따른 문서 자동 요약 시스템은 사전 학습에 의해 모델링된 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 구비하고, 사용자 또는 외부로부터 요약문을 구성할 문장 개수 정보와 요약하고자 할 문서(이하, '원문'이라 한다)를 입력받고, 사용자로부터 입력된 문장 개수 정보에 따라 짧은 요약문 생성 모델과 긴 요약문 생성 모델 중 하나를 선택하여 실행하여 최종적으로 요약문을 생성하여 출력하게 된다. The automatic document summary system according to the present invention includes a short summary sentence generation model and a long summary sentence generation model modeled by prior learning, information on the number of sentences to be composed of a summary sentence from the user or the outside, and a document to be summarized (hereinafter referred to as 'original text'). ) is input, and either a short summary sentence generation model or a long summary sentence generation model is selected and executed according to the number of sentences input from the user, and a summary sentence is finally generated and output.

도 1은 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템을 전체적으로 도시한 블록도이다. 도 1을 참조하면, 본 발명에 따른 문서 자동 요약 시스템(1)은 훈련 데이터를 이용하여 사전에 학습하여 짧은 요약문 생성 모델과 긴 요약문 생성 모델을 완성하는 모델 학습 장치(10) 및 상기 짧은 요약문 생성 모델과 긴 요약문 생성 모델을 이용하여 원문에 대한 요약문을 생성하여 출력하는 요약문 생성 장치(20)를 구비한다. 상기 모델 학습 장치(10)는 짧은 요약문 생성 모델을 완성하는 제1 학습 모듈(100)과 긴 요약문 생성 모델을 완성하는 제2 학습 모듈(110)을 구비한다. 상기 요약문 생성 장치(20)는 입력 모듈(200), 모델 결정 모듈(210), 요약문 생성 모듈(220) 및 요약문 완성 모듈(230)을 구비하여, 인공 지능을 기반으로 하여 원문에 대하여 사용자에 의해 결정된 문장 개수를 갖는 요약문을 생성하여 출력하는 것을 특징으로 한다. 1 is a block diagram showing an automatic document summary system according to a preferred embodiment of the present invention as a whole. Referring to FIG. 1, the automatic document summary system 1 according to the present invention is trained in advance using training data to complete a short summary generation model and a long summary generation model, and the model learning device 10 and the short summary generation model. A summary sentence generating device 20 for generating and outputting a summary sentence for the original text using the model and the long summary sentence generation model is provided. The model learning device 10 includes a first learning module 100 that completes a short summary generation model and a second learning module 110 that completes a long summary generation model. The summary sentence generation device 20 includes an input module 200, a model determination module 210, a summary sentence generation module 220, and a summary sentence completion module 230, and based on artificial intelligence, the original text is generated by the user. It is characterized in that a summary sentence having a determined number of sentences is generated and outputted.

상기 모델 학습 장치(10)는 사전 설정된 훈련 데이터를 이용하여 제1 및 제2 신경망 모델들을 각각 사전에 학습하여 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 완성하여 출력한다. 이하, 모델 학습 장치의 각 구성 요소에 대하여 구체적으로 설명한다. The model learning device 10 trains the first and second neural network models in advance using preset training data, and completes and outputs a short summary generation model and a long summary statement generation model. Hereinafter, each component of the model learning device will be described in detail.

상기 제1 학습 모듈(100)은 훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습시켜 짧은 요약문 생성 모델을 완성하는 모듈이다. 따라서, 상기 짧은 요약문 생성 모델은 요약문의 문장 개수가 훈련 데이터의 정답 데이터의 문장 개수를 따라가도록 구성된 신경망 모델로서, 원문에 대하여 사전에 정해진 고정된 개수의 문장들로 이루어진 요약문을 생성하도록 학습된다. 짧은 요약문 생성 모델을 이루는 제1 신경망 모델은 인코더-디코더를 구비하는 transformer 모델로 이루어지며, 이 모델의 특징은 다른 transformer 모델보다 많은 파라미터를 사용하여 모델의 크기를 키운 것이다. 인코더로 들어온 원문은 그 sequence에서 가장 중요한 값을 찾아내는 attention module을 거치고, feed forward module을 거쳐 인코더가 문맥을 이해하는 과정을 수행한다. 그리고 디코더에서 인코더에서 이해한 내용을 바탕으로 인코더와 같이 attention module과 feed forward module을 거쳐 어떤 토큰을 생성할지 결정하게 된다.The first learning module 100 is a module that completes a short summary generation model by pre-learning a first neural network model using training data. Therefore, the short summary generation model is a neural network model configured so that the number of sentences in the summary follows the number of sentences in the correct answer data of the training data, and is trained to generate a summary consisting of a fixed number of sentences determined in advance with respect to the original text. The first neural network model constituting the short summary generation model is composed of a transformer model having an encoder-decoder, and a feature of this model is that the size of the model is increased by using more parameters than other transformer models. The original text entered into the encoder goes through the attention module that finds the most important value in the sequence, and the encoder performs the process of understanding the context through the feed forward module. And based on the information understood by the encoder, the decoder decides which token to generate through the attention module and the feed forward module like the encoder.

상기 제2 학습 모듈(110)은 훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습시켜 긴 요약문 생성 모델을 생성하는 모듈이다. 따라서, 상기 긴 요약문 생성 모델은 요약문의 문장 개수가 일정하지 않은 신경망 모델로서, 원문에 대하여 정해지지 않은 개수의 문장들로 이루어진 요약문을 생성하도록 학습된다. 긴 요약문 생성 모델을 이루는 제2 신경망 모델은 양방향 인코더(Bidirectional encoder)와 자동회귀 디코더(Autoregressive decode)의 구조로 이루어질 수 있다. 상기 양방향 인코더가 원문을 받아 내용을 이해하고, 자동 회귀 디코더가 인코더가 이해한 내용을 바탕으로 요약문을 생성한다. 자동회귀 디코더는 학습 시에는 디코더의 결과값을 디코더가 생성한 값이 아닌 실제 정답으로 학습하는 것을 특징으로 한다. 양방향 인코더와 자동회귀 디코더는 가장 중요한 내용을 가려내는 attention module을 거친 후, Feed Forward module을 거쳐 최종 토큰을 선정한다. 이때 활성화 함수는 gelu-function을 사용한다. The second learning module 110 is a module for generating a long summary sentence generation model by pre-learning a second neural network model using training data. Therefore, the long summary generation model is a neural network model in which the number of sentences in the summary is not constant, and is trained to generate a summary consisting of an undetermined number of sentences with respect to the original text. The second neural network model constituting the long summary sentence generation model may have a structure of a bidirectional encoder and an autoregressive decode. The bidirectional encoder receives the original text and understands the content, and the autoregressive decoder generates a summary based on the content understood by the encoder. The autoregressive decoder is characterized in that during learning, the decoder result value is learned as an actual correct answer rather than a value generated by the decoder. The bidirectional encoder and autoregressive decoder select the final token through the Feed Forward module after going through the attention module that identifies the most important content. At this time, the activation function uses gelu-function.

현재 사용 가능한 훈련 데이터로는 한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼인 AI Hub에서 제공하는 문서 요약 데이터와 국립국어원에서 제공하는 모두의 말뭉치의 문서 요약 데이터가 있으며, AI Hub의 문서 요약 데이터는 추출 요약 데이터의 정답이 3문장으로 구성되며, 모두의 말뭉치의 문서 요약 데이터는 생성 요약의 정답이 3문장으로 구성된다. 따라서, 본 발명에 따른 일실시예에서는, 짧은 요약문 생성 모델은 3개의 정답 문장 데이터를 갖는 훈련 데이터로 학습하게 되고, 3개의 문장을 이루어진 요약문을 생성하게 된다. 이러한 짧은 요약문 생성 모델에 의해 생성되는 문장은 한정적이기는 하지만 생성되는 요약문의 질이 좋다는 장점을 가진다. 실험 결과, 후술되는 긴 요약문 생성 모델이 문장을 추출한 결과 보다 짧은 요약문 생성 모델의 요약문이 더 좋은 성능을 보여주었다. Currently available training data include document summary data provided by AI Hub, an AI integration platform operated by the Korea Institute for Intelligence and Information Society Promotion, and document summary data of Everyone's corpus provided by the National Institute of the Korean Language. The correct answer of the extraction summary data consists of 3 sentences, and the correct answer of the creation summary of the document summary data of all corpus consists of 3 sentences. Therefore, in one embodiment according to the present invention, the short summary sentence generation model learns with training data having three correct sentence data, and generates a summary sentence consisting of three sentences. Although the sentences generated by this short summary generation model are limited, they have the advantage that the quality of the generated summary is good. As a result of the experiment, the summary of the short summary generation model showed better performance than the result of extracting sentences from the long summary generation model described later.

한편, 4개 이상의 문장으로 요약할 경우 생성되는 문장의 개수가 다양한 긴 요약문 생성 모델을 사용한다. 긴 요약문 생성 모델은 문장의 개수와는 상관없이 중요한 내용을 담아낼 수 있으며, 같은 원문에 대해 전술한 짧은 요약문 생성 모델보다 대체로 많은 문장들로 구성된 요약문을 생성하게 된다. 이와 같이, 긴 요약문 생성 모델은 문장의 개수와 무관하게 요약문에 포괄적인 내용 및 중요 내용을 담기 위해 사용되므로, 요약문에 생성되는 문장의 개수가 유연하다.On the other hand, when summarizing with four or more sentences, a long summary sentence generation model in which the number of generated sentences varies is used. The long summary generation model can contain important content regardless of the number of sentences, and generally generates a summary consisting of more sentences than the short summary generation model described above for the same original text. As such, since the long summary generation model is used to include comprehensive and important content in the summary regardless of the number of sentences, the number of sentences generated in the summary is flexible.

긴 요약문 생성 모델과 짧은 요약문 생성 모델은 신문 기사 요약 데이터들을 훈련 데이터로 하여 학습하였으며, 훈련 데이터는 AI Hub에 공개되어 있는 문서 요약 데이터 중 신문기사 데이터와 국립국어원의 모두의 말뭉치의 문서 요약 데이터를 사용하였다. 도메인으로 신문 기사를 선택한 이유는 일반인 사용자가 일상 생활에서 가장 많이 접하는 글이 신문기사이기 때문이다. 논문이나 판결문 등의 도메인도 존재하지만 이들은 특정 집단으로 사용자가 한정된다. 따라서, 본 발명에 따른 시스템은 보다 많은 사용자에게 공급할 수 있는 시스템을 만들기 위하여, 신문 기사를 훈련 데이터와 평가 데이터의 도메인으로 채택하였다. The long summary generation model and the short summary generation model were trained using newspaper article summary data as training data, and the training data included newspaper article data and document summary data from both the corpus of the National Institute of the Korean Language among document summary data published in AI Hub. used The reason why newspaper articles were selected as a domain name is that newspaper articles are the most frequently encountered articles by ordinary users in their daily lives. Domains such as theses and judgments also exist, but these domains are limited to a specific group of users. Therefore, the system according to the present invention adopts newspaper articles as domains of training data and evaluation data in order to create a system that can be supplied to more users.

여러 가지 실험 결과, 짧은 요약문 생성 모델은 t5를 사용하였으며, AI Hub 추출 요약 데이터 25만개, 국립국어원 생성 요약 데이터 약 4400개로 훈련하는 것이 가장 좋은 성능을 내었다. 긴 요약문 생성 모델은 kobart 모델을 사용하였으며 각각 8만개 및 약 4400개로 훈련하였을 때에 가장 좋은 성능을 얻을 수 있었다. As a result of various experiments, the short summary generation model used t5, and training with 250,000 summary data extracted from AI Hub and about 4400 summary data generated by the National Institute of the Korean Language produced the best performance. The long summary sentence generation model used the kobart model, and the best performance was obtained when trained with 80,000 and about 4400, respectively.

AI Hub에 의해 제공되는 문서 데이터의 경우, 훈련 데이터로 요약 데이터(abstractive data)가 아닌 추출 데이터(extractive data)를 사용하였다. 이는 생성 결과를 관찰하였을 때 요약 데이터로 훈련시켰을 때의 결과는 추출 데이터로 훈련시켰을 때의 내용을 하나의 문장으로 만든 것에 불과하였다. 문장의 개수는 요약 데이터의 경우 하나의 문장으로만 생성되고, 추출 데이터의 경우 3 문장 이상으로 생성된다. 이 두 경우의 내용은 유사하고 문장 개수만이 차이가 있었기 때문에, 본 발명에서는 문장 개수의 다양화가 용이한 추출 데이터를 사용하였다. In the case of document data provided by AI Hub, extractive data, not abstract data, was used as training data. This means that when observing the generation result, the result of training with summary data is only a sentence made from the contents of training with extraction data. The number of sentences is generated with only one sentence in the case of summary data and three or more sentences in the case of extracted data. Since the contents of these two cases were similar and only the number of sentences was different, the present invention used extracted data that can be easily diversified in the number of sentences.

한편, 상기 요약문 생성 장치(20)는 사용자로부터 요약할 문서(즉, 원문) 및 요약문 문장 개수를 입력받고, 요약문 문장 개수에 따라 전술한 짧은 요약문 생성 모델과 긴 요약문 생성 모델 중 하나를 선택하여 요약문을 생성한 후, 요약문 문장 개수에 맞게 요약문의 문장을 추출하여 요약문을 완성하여 출력한다. 이하, 요약문 생성 장치의 각 구성 요소들에 대하여 구체적으로 설명한다. Meanwhile, the summary sentence generation device 20 receives a document to be summarized (ie, the original text) and the number of summary sentences input from the user, selects one of the short summary sentence generation model and the long summary sentence generation model described above according to the number of summary sentences, and selects a summary sentence. After generating, extract the sentences of the summary sentence according to the number of sentences of the summary sentence, complete the summary sentence, and output it. Hereinafter, each component of the summary sentence generator will be described in detail.

상기 입력 모듈(200)은 사용자 또는 외부로부터 원문 및 요약문 문장 개수를 입력받는다.The input module 200 receives the number of sentences of the original text and summary text from the user or the outside.

상기 모델 결정 모듈(210)은 상기 입력 모듈을 통해 입력된 요약문 문장 개수에 따라 짧은 요약문 생성 모델 및 긴 요약문 생성 모델 중 하나를 결정하여 선택하고, 선택된 모델로 원문을 제공한다. 여기서, 상기 모델 결정 모듈은 요약문 문장 개수가 사전 설정된 기준값(자연수 N임)이하이면 짧은 요약문 생성 모델을 선택하고, 요약문 문장 개수가 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하게 된다. 상기 기준값은 짧은 요약문 생성 모델의 학습 과정에서 사용된 훈련 데이터의 고정된 정답 문장 개수와 동일하게 설정되는 것이 바람직하다. 따라서, 본 발명에서는 상기 기준값을 '3'으로 설정하였다. The model determination module 210 determines and selects one of a short summary sentence generation model and a long summary sentence generation model according to the number of summary sentences input through the input module, and provides the original text as the selected model. Here, the model determining module selects a short summary sentence generation model when the number of summary sentences is less than or equal to a preset reference value (N is a natural number), and selects a long summary sentence generation model when the number of summary sentences exceeds the reference value. Preferably, the reference value is set equal to the fixed number of correct answer sentences of training data used in the learning process of the short summary sentence generation model. Therefore, in the present invention, the reference value is set to '3'.

상기 요약문 생성 장치(220)은 상기 모델 학습 장치(10)에 의해 학습된 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 구비하고, 상기 모델 결정 모듈에 의해 선택된 모델로 원문이 제공되고, 선택된 모델이 요약문을 생성하여 상기 요약문 완성 모듈(230)로 출력한다. 이 경우, 짧은 요약문 생성 모델은 고정된 개수의 문장들로 이루어진 요약문을 생성하여 출력하게 되고, 긴 요약문 생성 모델은 일정하지 않는 개수의 문장들로 이루어진 요약문을 생성하여 출력하게 된다. The summary sentence generation device 220 includes a short summary sentence generation model and a long summary sentence generation model learned by the model learning apparatus 10, the original text is provided to the model selected by the model determination module, and the selected model is a summary sentence is generated and output to the summary sentence completion module 230. In this case, the short summary generation model generates and outputs a summary consisting of a fixed number of sentences, and the long summary sentence generation model generates and outputs a summary consisting of an inconsistent number of sentences.

상기 요약문 완성 모듈(230)은 상기 요약문 생성 모듈에 의해 생성된 요약문을 제공받고, 상기 생성된 요약문의 문장 개수를 측정하고, 측정된 요약문 문장 개수와 상기 입력 모듈에 의해 입력된 요약문 문장 개수를 비교한다. 비교 결과, 측정된 요약문 문장 개수가 입력된 요약문 문장 개수를 초과하면, 요약문의 앞에서부터 상기 입력된 요약문 문장 개수만큼 문장들을 획득하고 상기 입력된 요약문 문장 개수를 초과하는 문장들은 버림으로써, 요약문의 앞에서부터 문장들을 추출하여 요약문을 완성함으로써, 입력된 요약문 문장 개수의 문장들로 이루어진 요약문을 최종 완성하여 출력한다. The summary sentence completion module 230 receives the summary sentence generated by the summary sentence generating module, measures the number of sentences in the generated summary sentence, and compares the measured number of summary sentence sentences with the number of summary sentence sentences input by the input module. do. As a result of the comparison, if the measured number of summary sentences exceeds the input number of summary sentences, sentences are acquired from the front of the summary sentence as many as the input summary sentences and sentences exceeding the input summary sentence number are discarded, By extracting the sentences from and completing the summary sentence, the summary sentence consisting of the sentences of the number of input summary sentence sentences is finally completed and output.

전술한 본 발명에 따른 문서 자동 요약 시스템에 따른 문서 자동 요약 방법을 순차적으로 설명한다. 도 2는 본 발명의 바람직한 실시예에 따른 문서 자동 요약 시스템에 따른 문서 자동 요약 방법을 순차적으로 도시한 흐름도이다. The automatic document summary method according to the automatic document summary system according to the present invention described above will be sequentially described. 2 is a flowchart sequentially illustrating a method for automatically summarizing a document according to an automatic document summary system according to a preferred embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 문서 자동 요약 방법은, 크게 사전 학습 단계와 요약문 생성 단계로 구성된다. 먼저, 사전 학습 단계에서, 훈련 데이터를 이용하여 신경망 모델들을 사전에 학습하여 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 완성한다(단계 200 및 단계 202). 제1 학습 단계에서는 훈련 데이터를 이용하여 사전에 학습하여 짧은 요약문 생성 모델을 완성하며, 제2 학습 단계에서는 훈련 데이터를 이용하여 사전에 학습하여 긴 요약문 생성 모델을 완성한다. 구체적인 학습 과정은 문서 자동 요약 시스템의 모델 학습 장치에서 설명한 바와 동일하므로, 중복되는 설명은 생략한다. Referring to FIG. 2 , the automatic document summary method according to the present invention is largely composed of a preliminary learning step and a summary sentence generation step. First, in the pre-learning step, neural network models are pre-learned using training data to complete a short summary sentence generation model and a long summary sentence generation model (steps 200 and 202). In the first learning step, a short summary generating model is completed by learning in advance using training data, and in the second learning step, a long summary generating model is completed by learning in advance using training data. Since the specific learning process is the same as that described in the model learning device of the automatic document summary system, duplicate descriptions are omitted.

여기서, 상기 짧은 요약문 생성 모델은 훈련 데이터를 이용하여 제1 신경망 모델을 사전 학습시켜 완성된 신경망 모델로서, 원문에 대하여 고정된 개수의 문장들로 이루어진 요약문을 생성하도록 학습된다. 상기 긴 요약문 생성 모델은 훈련 데이터를 이용하여 제2 신경망 모델을 사전 학습시켜 완성된 신경망 모델로서, 원문에 대하여 일정하지 않은 개수의 문장들로 이루어진 요약문을 생성하도록 학습된다. Here, the short summary generation model is a neural network model completed by pre-training the first neural network model using training data, and is trained to generate a summary consisting of a fixed number of sentences with respect to the original text. The long summary sentence generation model is a neural network model completed by pre-training a second neural network model using training data, and is trained to generate a summary sentence consisting of a non-constant number of sentences with respect to the original text.

다음, 요약문 생성 단계는 아래와 같이 진행된다. Next, the summary statement generation step proceeds as follows.

먼저, 사용자 또는 외부로부터 요약할 문서인 원문 및 요약문 문장 개수 정보를 입력받는다(단계 210).First, information on the number of sentences of the original text and summary sentences, which are documents to be summarized, is input from the user or the outside (step 210).

다음, 상기 입력된 요약문 문장 개수 정보에 따라 상기 짧은 요약문 생성 모델 및 상기 긴 요약문 생성 모델 중 하나를 선택하고, 상기 선택된 모델로 상기 원문을 제공한다(단계 220). 여기서, 모델 선택을 위한 사전 설정된 기준값을 저장하고, 상기 입력된 요약문 문장 개수 정보가 상기 기준값 이하이면 짧은 요약문 생성 모델을 선택하고, 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하도록 구성할 수 있다. 여기서, 상기 기준값은 짧은 요약문 생성 모델에 대한 학습 단계에서 사용된 훈련 데이터를 구성하는 고정된 정답 문장 개수와 동일하도록 설정하는 것이 바람직하다. Next, one of the short summary sentence generation model and the long summary sentence generation model is selected according to the input summary sentence number information, and the original text is provided as the selected model (step 220). Here, a preset reference value for model selection may be stored, and a short summary sentence generation model may be selected if the input summary sentence number information is less than or equal to the reference value, and a long summary sentence generation model may be selected if the information exceeds the reference value. Here, it is preferable to set the reference value equal to the fixed number of correct answer sentences constituting the training data used in the learning step for the short summary sentence generation model.

다음, 상기 선택된 모델을 이용하여 요약문을 생성한다(단계 230).Next, a summary is generated using the selected model (step 230).

다음, 상기 선택된 모델에 의해 생성된 요약문을 구성하는 문장 개수가 상기 입력된 요약문 문장 개수 정보보다 크면, 요약문의 앞에서부터 요약문 문장개수정보에 대응되는 문장들까지 추출하여 요약문을 완성한다(단계 240). Next, if the number of sentences constituting the summary sentence generated by the selected model is greater than the input summary sentence number information, the summary sentence is completed by extracting sentences corresponding to the summary sentence number information from the beginning of the summary sentence (step 240). .

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다. Although the present invention has been described above with reference to preferred embodiments, this is only an example and does not limit the present invention, and those skilled in the art to which the present invention belongs will not deviate from the essential characteristics of the present invention. It will be appreciated that various modifications and applications not exemplified above are possible within the range. And, differences related to these variations and applications should be construed as being included in the scope of the present invention defined in the appended claims.

1 : 문서 자동 요약 시스템
10 : 모델 학습 장치
100 : 제1 학습 모듈
110 : 제2 학습 모듈
20 : 요약문 생성 장치
200 : 입력 모듈
210 : 모델 결정 모듈
220 : 요약문 생성 모듈
230 : 요약문 완성 모듈
1: Document automatic summary system
10: model learning device
100: first learning module
110: second learning module
20: summary sentence generating device
200: input module
210: model determination module
220: summary statement generation module
230: summary statement completion module

Claims (10)

훈련 데이터를 이용하여 사전에 학습시켜 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 완성하는 모델 학습 장치; 및
원문에 대하여, 임의의 개수의 문장으로 이루어진 요약문을 생성하는 요약문 생성 장치;를 구비하고,
상기 요약문 생성 장치는,
외부로부터 요약할 문서인 원문 및 요약문 문장 개수를 입력받는 입력 모듈;
상기 입력된 요약문 문장 개수에 따라 짧은 요약문 생성 모델 및 긴 요약문 생성 모델 중 하나를 선택하는 모델 결정 모듈;
사전 학습된 상기 짧은 요약문 생성 모델과 상기 긴 요약문 생성 모델을 구비하고, 상기 모델 결정 모듈에 의해 선택된 모델을 이용하여 원문에 대한 요약문을 생성하는 요약문 생성 모듈; 및
상기 요약문 생성 모듈로부터 생성된 요약문을 제공받고, 상기 요약문을 구성하는 문장 개수가 상기 입력된 요약문 문장 개수보다 크면 요약문의 앞에서부터 상기 입력된 요약문 문장 개수에 대응되는 문장들까지 추출하여 요약문을 완성하는 요약문 완성 모듈;
를 구비하는 것을 특징으로 하는 문서 자동 요약 시스템.
A model learning device that completes a short summary generation model and a long summary generation model by pre-learning using training data; and
With respect to the original text, a summary sentence generating device for generating a summary consisting of an arbitrary number of sentences;
The summary sentence generating device,
an input module that receives an input of the number of sentences of the original text and summary text, which are documents to be summarized, from the outside;
a model determination module selecting one of a short summary sentence generation model and a long summary sentence generation model according to the input number of summary sentences;
a summary sentence generating module having the pretrained short summary sentence generating model and the long summary sentence generating model, and generating a summary sentence for the original text using the model selected by the model determination module; and
The summary sentence generated by the summary sentence generation module is provided, and if the number of sentences constituting the summary sentence is greater than the input summary sentence sentence number, extracting sentences corresponding to the input summary sentence number from the front of the summary sentence to complete the summary sentence summary statement completion module;
Document automatic summary system, characterized in that comprising a.
제1항에 있어서, 상기 모델 결정 모듈은 모델 선택을 위한 사전 설정된 기준값을 구비하며,
상기 입력된 요약문 문장개수정보가 상기 기준값 이하이면 짧은 요약문 생성 모델을 선택하고, 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하는 것을 특징으로 하는 문서 자동 요약 시스템.
The method of claim 1, wherein the model determination module has a preset reference value for model selection,
The automatic document summary system, characterized in that, if the information on the number of sentences in the input summary sentence is less than or equal to the reference value, a short summary sentence generation model is selected, and if it exceeds the reference value, a long summary sentence generation model is selected.
제1항에 있어서, 상기 짧은 요약문 생성 모델은 원문에 대하여 고정된 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델이며,
상기 긴 요약문 생성 모델은 원문에 대하여 일정하지 않은 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델인 것을 특징으로 하는 문서 자동 요약 시스템.
The method of claim 1, wherein the short summary generation model is a neural network model that generates a summary consisting of a fixed number of sentences with respect to the original text,
The automatic document summary system, characterized in that the long summary generation model is a neural network model that generates a summary consisting of an inconsistent number of sentences with respect to the original text.
제1항에 있어서, 상기 모델 학습 장치는
훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습시켜 짧은 요약문 생성 모델을 완성하는 제1 학습 모듈을 구비하고,
상기 제1 신경망 모델은 인코더와 디코더를 구비하는 것을 특징으로 하는 문서 자동 요약 시스템.
The method of claim 1, wherein the model learning device
A first learning module for completing a short summary generation model by pre-learning a first neural network model using training data;
The first neural network model includes an encoder and a decoder.
제1항에 있어서, 상기 모델 학습 장치는
훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습시켜 긴 요약문 생성 모델을 완성하는 제2 학습 모듈을 구비하고,
상기 제2 신경망 모델은 양방향 인코더와 자동회귀 디코더를 구비하는 것을 특징으로 하는 문서 자동 요약 시스템.
The method of claim 1, wherein the model learning device
A second learning module for completing a long summary generation model by pre-learning a second neural network model using training data;
The automatic document summary system, characterized in that the second neural network model comprises a bi-directional encoder and an auto-regressive decoder.
(a) 훈련 데이터를 이용하여 사전에 학습시켜 짧은 요약문 생성 모델 및 긴 요약문 생성 모델을 완성하는 단계;
(b) 외부로부터 요약할 문서인 원문 및 요약문 문장 개수를 입력받는 단계;
(c) 상기 입력된 요약문 문장 개수에 따라 상기 짧은 요약문 생성 모델 및 상기 긴 요약문 생성 모델 중 하나를 선택하는 단계;
(d) 상기 선택된 모델을 이용하여 요약문을 생성하는 단계;
(e) 상기 생성된 요약문을 구성하는 문장 개수가 상기 입력된 요약문 문장 개수보다 크면, 요약문의 앞에서부터 요약문 문장 개수에 대응되는 문장들까지 추출하여 요약문을 완성하는 단계;
을 구비하는 것을 특징으로 하는 문서 자동 요약 방법.
(a) completing a short summary sentence generation model and a long summary sentence generation model by pretraining using training data;
(b) receiving an input of the number of sentences of the original text and summary text, which are documents to be summarized, from the outside;
(c) selecting one of the short summary sentence generation model and the long summary sentence generation model according to the input number of summary sentences;
(d) generating a summary using the selected model;
(e) if the number of sentences constituting the generated summary sentence is greater than the input number of summary sentence sentences, extracting sentences corresponding to the number of summary sentences from the beginning of the summary sentence to complete the summary sentence;
A method for automatically summarizing a document, comprising:
제6항에 있어서, 상기 (c) 단계는 모델 선택을 위한 기준값을 설정하고,
상기 입력된 요약문 문장 개수 정보가 상기 기준값 이하이면 짧은 요약문 생성 모델을 선택하고, 상기 기준값을 초과하면 긴 요약문 생성 모델을 선택하는 것을 특징으로 하는 문서 자동 요약 방법.
The method of claim 6, wherein step (c) sets a reference value for model selection,
and selecting a short summary sentence generation model when the information on the number of sentences in the input summary is less than or equal to the reference value, and selecting a long summary sentence generation model when the information exceeds the reference value.
제7항에 있어서, 상기 (c) 단계의 모델 선택을 위하여 설정된 기준값은,
상기 짧은 요약문 생성 모델을 사전 학습시킨 훈련 데이터의 고정된 정답 문장 개수와 동일하게 설정된 것을 특징으로 하는 문서 자동 요약 방법.
The method of claim 7, wherein the reference value set for model selection in step (c) is,
Automatic document summary method, characterized in that set equal to the fixed number of correct answer sentences of the training data in which the short summary generation model is pre-trained.
제6항에 있어서, 상기 짧은 요약문 생성 모델은 원문에 대하여 고정된 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델이며,
상기 긴 요약문 생성 모델은 원문에 대하여 일정하지 않은 개수의 문장들로 이루어진 요약문을 생성하는 신경망 모델인 것을 특징으로 하는 문서 자동 요약 방법.
The method of claim 6, wherein the short summary generation model is a neural network model that generates a summary consisting of a fixed number of sentences with respect to the original text,
The method of automatically summarizing documents, characterized in that the long summary generation model is a neural network model that generates a summary consisting of an inconsistent number of sentences with respect to the original text.
제6항에 있어서, 상기 (a) 단계는,
(a1) 훈련 데이터를 이용하여 제1 신경망 모델을 사전에 학습시켜 짧은 요약문 생성 모델을 완성하는 단계; 및
(a2) 훈련 데이터를 이용하여 제2 신경망 모델을 사전에 학습시켜 긴 요약문 생성 모델을 완성하는 단계;
를 구비하고, 상기 제1 신경망 모델은 인코더와 디코더를 구비하며, 상기 제2 신경망 모델은 양방향 인코더와 자동회귀 디코더를 구비하는 것을 특징으로 하는 문서 자동 요약 방법.
The method of claim 6, wherein step (a),
(a1) completing a short summary generation model by pre-training a first neural network model using training data; and
(a2) completing a long summary sentence generation model by pre-training a second neural network model using training data;
wherein the first neural network model includes an encoder and a decoder, and the second neural network model includes a bidirectional encoder and an autoregressive decoder.
KR1020210152256A 2021-11-08 2021-11-08 System for summarizing automatically arbitrary sentences KR20230066828A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210152256A KR20230066828A (en) 2021-11-08 2021-11-08 System for summarizing automatically arbitrary sentences

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210152256A KR20230066828A (en) 2021-11-08 2021-11-08 System for summarizing automatically arbitrary sentences

Publications (1)

Publication Number Publication Date
KR20230066828A true KR20230066828A (en) 2023-05-16

Family

ID=86546143

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210152256A KR20230066828A (en) 2021-11-08 2021-11-08 System for summarizing automatically arbitrary sentences

Country Status (1)

Country Link
KR (1) KR20230066828A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101944661B1 (en) 2018-02-07 2019-01-31 한국미쓰비시엘리베이터 주식회사 Stroke setting method and setting apparatus of solenoid and electronic brake
KR20210125275A (en) 2020-04-08 2021-10-18 에스케이 주식회사 Deep Learning based Document Summarization Method and System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101944661B1 (en) 2018-02-07 2019-01-31 한국미쓰비시엘리베이터 주식회사 Stroke setting method and setting apparatus of solenoid and electronic brake
KR20210125275A (en) 2020-04-08 2021-10-18 에스케이 주식회사 Deep Learning based Document Summarization Method and System

Similar Documents

Publication Publication Date Title
US20220129621A1 (en) Bert-based machine-learning tool for predicting emotional response to text
CN108733837B (en) Natural language structuring method and device for medical history text
CN114565104A (en) Language model pre-training method, result recommendation method and related device
CN107247751B (en) LDA topic model-based content recommendation method
CN105205124B (en) A kind of semi-supervised text sentiment classification method based on random character subspace
CN110795552A (en) Training sample generation method and device, electronic equipment and storage medium
CN107590127A (en) A kind of exam pool knowledge point automatic marking method and system
CN108491515B (en) Sentence pair matching degree prediction method for campus psychological consultation
CN113672731B (en) Emotion analysis method, device, equipment and storage medium based on field information
CN111145914B (en) Method and device for determining text entity of lung cancer clinical disease seed bank
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
González-Corbelle et al. Dealing with hallucination and omission in neural Natural Language Generation: A use case on meteorology.
CN114218379A (en) Intelligent question-answering system-oriented method for attributing questions which cannot be answered
CN110852071B (en) Knowledge point detection method, device, equipment and readable storage medium
Fang et al. A method of automatic text summarisation based on long short-term memory
CN114780723B (en) Portrayal generation method, system and medium based on guide network text classification
CN117332789A (en) Semantic analysis method and system for dialogue scene
CN111125323A (en) Chat corpus labeling method and device, electronic equipment and storage medium
Park et al. Automatic analysis of thematic structure in written English
CN115617974B (en) Dialogue processing method, device, equipment and storage medium
KR20230066828A (en) System for summarizing automatically arbitrary sentences
KR20230080849A (en) Content specific captioning method and system for real time online professional lectures
CN115238711A (en) Data processing method, device, equipment, program product and storage medium
KR102188553B1 (en) The System For Providing Korean Language Education System with Animation
CN114048309A (en) Question-driven social network answer abstract automatic generation method and device