KR101717230B1 - 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 - Google Patents

재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 Download PDF

Info

Publication number
KR101717230B1
KR101717230B1 KR1020150190005A KR20150190005A KR101717230B1 KR 101717230 B1 KR101717230 B1 KR 101717230B1 KR 1020150190005 A KR1020150190005 A KR 1020150190005A KR 20150190005 A KR20150190005 A KR 20150190005A KR 101717230 B1 KR101717230 B1 KR 101717230B1
Authority
KR
South Korea
Prior art keywords
sentence
score
sentence vector
modeling
vector
Prior art date
Application number
KR1020150190005A
Other languages
English (en)
Inventor
김다해
이재동
김누리
방한별
김수아
이지형
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020150190005A priority Critical patent/KR101717230B1/ko
Application granted granted Critical
Publication of KR101717230B1 publication Critical patent/KR101717230B1/ko

Links

Images

Classifications

    • G06F17/211
    • G06F17/2705
    • G06F17/2715
    • G06F17/30964

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템을 제공한다. 상기 방법은 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통한 문장 벡터를 모델링하는 단계, 상기 문장 벡터에 대해 텍스트 랭크를 적용하는 단계, 핵심 키워드를 포함하는 문장을 파악하는 단계와 상기 텍스트 랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 단계를 포함한다.

Description

재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템{DOCUMENT SUMMARIZATION METHOD USING RECURSIVE AUTOENCODER BASED SENTENCE VECTOR MODELING AND DOCUMENT SUMMARIZATION SYSTEM}
본 발명은 문서 요약에 관한 것으로 더 구체적으로는 문장 벡터 모델링 및 이를 이용한 문서 요약에 관한 것이다.
인터넷을 통한 정보 공유 및 전달이 증가하면서 웹문서의 양이 급증하고 있다. 이는 같은 주제를 다루는 문서들이 많다는 것을 의미하기도 한다. 따라서 사람들이 너무 많은 정보의 양으로 인해 어떠한 이슈를 이해하거나 그에 관한 결정을 내리는 데에 어려움을 겪는 정보 과다 현상(Information load)이 초래된다. 이러한 문제를 해결하기 위해서 대량의 정보들을 이해하기 쉬운 요약문의 형태로 제공해주기 위한 다중문서요약 연구가 활발히 수행되고 있다(O. Gross, et al, “Document summarization based on word associations,” ACM SIGIR conference on Research & development in information retrieval, pp. 1023-1026, 2014, W. Yih, et al, “Multi-Document Summarization by Maximizing Informative Content-Words,” IJCAI. Vol. 2007. pp. 1776-1782, 2007).
다중문서요약이란 한 문서 집합으로부터 문서의 내용을 잘 나타내는 문장들을 추출하여 요약문을 생성하는 방식으로 이루어진다. 문서 집합에서 중요한 문장을 파악하기 위해 문서에서 나타난 단어에 대해 TFIDF(Text Frequency-Inverse Document Frequency)를 계산하거나 Bag-of-words를 기반으로 문장 간 단어의 유사도를 계산하는 연구들이 수행되어 왔다. 그러나 다중문서 내 개별 문서들은 저자에 따라 다양한 단어 선택 또는 구문 표현을 통해 작성될 수 있다. 따라서 단순히 단어의 일치나 어휘 사전을 기반으로 하는 종래 방식은 단어나 구문이 다른 의역된 문장들을 파악하기에 한계가 있으며, 이는 문장 간의 유사도 판별을 어렵게 한다.
R. Collobert와 J. Weston은 인공 신경망을 이용해 단어의 구분을 학습함으로써 단어가 의미와 사용된 문맥을 나타내는 새로운 단어 벡터 모델링에 관한 연구를 수행하였고, R. Socher 등은 재귀 오토인코더(Recursive Autoencoder(RAE))를 기반으로 문장의 구문을 학습하여 인공신경망을 이용한 벡터 모델링 기법이 의역된 문장을 찾는 데 효과가 있음을 검증하였다. 그러나 다중 문서는 특정 주제에 대해 작성된 개별 문서들의 집합이기 때문에, 위 벡터로 문서의 주제를 대표하는 단어나 문장을 파악하기에는 어려움이 있다.
본 발명의 목적은 상기 문제점을 해결하기 위해 재귀 오토인코더(Recursive Autoencoder(RAE)) 기반의 문장 벡터 모델링 방법과 함께 문서 집합의 특징을 반영하여 효과적으로 다중문서를 요약하는 문서 요약 방법 및 문서 요약 시스템을 제공하는 것이다.
본 발명의 일 측면에 따르면, 본 발명은 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법을 제공한다. 상기 방법은 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통한 문장 벡터를 모델링하는 단계, 상기 문장 벡터에 대해 텍스트 랭크를 적용하는 단계, 핵심 키워드를 포함하는 문장을 파악하는 단계와 상기 텍스트 랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 단계를 포함한다.
상기 핵심 키워드를 포함하는 문장을 파악하는 단계는 특정 단어가 텍스트에 나타나는 빈도 및 상기 특정 단어가 나타나는 문서 수를 고려하여 가중치를 부여하는 것을 특징으로 할 수 있다.
상기 문장 벡터를 모델링하는 단계는 문장을 구문에 따라 파싱하여 이진 트리로 표현하는 단계, 상기 이진 트리를 이용하여 부모 노드마다 오토 인코딩 학습을 재귀적으로 진행하는 단계를 포함할 수 있다.
상기 문장 벡터를 모델링하는 단계는 모든 비단말 노드에서 복원 에러의 합이 최소화 되도록 학습을 진행하는 것을 특징으로 할 수 있다.
상기 문장 벡터를 모델링하는 단계는 상기 학습을 통해 최상위 노드의 문장 벡터가 모든 자식 노드의 의미 및 구문 정보를 포함하는 고차원적인 벡터가 되는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용할 수 있다.
상기 문장 벡터에 대해 텍스트 랭크를 적용하는 단계는 각 문장 벡터를 그래프의 정점으로, 정점 간 간선을 문장 간의 유사도로 표현하는 단계와 각 문장벡터의 점수를 계산하는 단계를 포함할 수 있다.
상기 각 문장 벡터의 점수를 계산하는 단계는 연결된 다른 정점들의 점수가 클수록 각 문장 벡터의 점수가 증가하게 하여 정점들에 대한 반복 계산을 통해 수렴된 값으로 결정하는 것을 특징으로 할 수 있다.
상기 최종 문장 점수를 계산하는 단계는 다음 수학식
Figure 112015128953839-pat00001
(
Figure 112015128953839-pat00002
: 문장
Figure 112015128953839-pat00003
의 최종 문장 점수,
Figure 112015128953839-pat00004
: 주어진 문서에서 단어 w의 TF-IDF 값,
Figure 112015128953839-pat00005
: 가중치 파라미터)를 통해 최종 점수를 계산하는 것을 특징으로 할 수 있다.
상기 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법은 상기 최종 문장 점수를 기준으로 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성하는 단계를 더 포함할 수 있다.
상기 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법은 사용자가 입력한 질의에 해당하는 문서 및 문장을 추출하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 본 발명은 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템을 제공한다. 상기 시스템은 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통해 문장 벡터를 모델링하고, 상기 문장 벡터에 대해 텍스트랭크를 적용하고, 핵심 키워드를 포함하는 문장을 파악하고, 상기 텍스트랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 문장 점수 계산부를 포함한다.
상기 문장 점수 계산부는 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통한 문장 벡터를 모델링하는 문장 벡터 모델링 수단, 상기 문장 벡터에 대해 텍스트 랭크를 적용하는 텍스트랭크 적용 수단, 핵심 키워드를 포함하는 문장을 파악하기 위한 TF-IDF 계산 수단과 상기 텍스트랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 최종 점수 계산 수단을 포함하는 것을 특징으로 할 수 있다.
상기 TF-IDF 계산 수단 특정 단어가 텍스트에 나타나는 빈도 및 특정 단어가 나타나는 문서 수를 고려하여 핵심 키워드를 포함하는 문장을 파악하는 것을 특징으로 할 수 있다.
상기 텍스트랭크 적용 수단은 각 문장 벡터를 그래프의 정점으로, 정점 간 간선을 문장 간의 유사도로 표현하고, 연결된 다른 정점들의 점수가 클수록 각 문장 벡터의 점수가 증가하게 하여 정점들에 대한 반복 계산을 통해 수렴된 값으로 각 문장벡터의 점수를 계산하는 것을 특징으로 할 수 있다.
상기 최종 문장 점수 계산 수단은 다음 수학식
Figure 112015128953839-pat00006
(
Figure 112015128953839-pat00007
: 문장
Figure 112015128953839-pat00008
의 최종 문장 점수,
Figure 112015128953839-pat00009
: 주어진 문서에서 단어 w의 TF-IDF 값,
Figure 112015128953839-pat00010
: 가중치 파라미터)를 통해 최종 점수를 계산하는 것을 특징으로 할 수 있다.
상기 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템은 상기 최종 문장 점수를 기준으로 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성하는 요약문 생성부를 더 포함할 수 있다.
상기 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템은 사용자가 입력한 요약문 생성을 위한 질의를 수신하는 사용자 요청 수신부를 더 포함할 수 있다.
상기 점수 계산부는 상기 사용자 질의에 해당하는 문서 및 문장을 추출하는 문서 및 문장 추출 수단을 더 포함할 수 있다.
본 발명의 재귀 오토인코더(Recursive Autoencoder(RAE)) 기반의 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템에 따르면 각 문장당 다른 문장들과 의미 및 구문적으로 유사한 정도와 해당 문서 세트의 특징을 잘 나타내는 단어를 포함하는 정도를 모두 표현할 수 있는 문장 점수 계산을 통해 주어진 문서들의 내용을 포괄할 수 있는 요약문을 생성할 수 있다.
도 1은 본 발명의 일 실시예에 따른 재귀 오토인코더(Recursive Autoencoder(RAE)) 기반의 문장 벡터 모델링을 이용하는 문서 요약 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 이진 구문 트리의 예이다.
도 3은 본 발명의 일 실시예에 따른 주어진 트리에 적용되는 재귀 오토인코더(RAE)의 예이다.
도 4은 본 발명의 일 실시예에 따른 텍스트랭크 알고리즘의 표현이다.
도 5는 본 발명의 일 실시예에 따른 재귀 오토인코더(RAE) 기반의 문장 벡터 모델링을 이용하는 문서 요약 시스템의 개략적인 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등을 포함하는 용어가 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여 본 발명에 바람직한 실시 예를 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어 도면 부호에 상관없이 동일하거나 대응하는 구성요소는 동일한 참조번호를 부여하고 이에 대해 중복되는 설명은 생략하기로 한다.
재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법
도 1은 본 발명의 일 실시예에 따른 재귀 오토인코더(Recursive Autoencoder(RAE)) 기반의 문장 벡터 모델링을 이용하는 문서 요약 방법의 순서도이다. 도 1을 참조하면, 재귀 오토인코더(Recursive Autoencoder(RAE)) 기반의 문장 벡터 모델링을 이용하는 문서 요약 방법은 URAE를 통한 문장 벡터 모델링 단계(S12), 텍스트랭크를 통한 문장 중요도 파악 단계(S13), 핵심 키워드를 포함하는 문장에 대한 가중치 부여 단계(S14) 및 최종 문장 점수 계산 단계(S15)를 포함한다. 또한 문서 및 문장 추출 단계(S11) 및 요약문 생성 단계(S16)를 더 포함할 수 있다.
상기 문서 및 문장 추출 단계(S11)는 사용자가 요청한 요약문 생성을 위한 문서들을 추출하고 문서 내의 각 문장들을 추출하는 단계이다.
상기 URAE 문장 벡터 모델링 단계(S12)에서는 상기 추출한 문장들을 구문에 따라 파싱하여 이진 트리로 표현한다. 도 2는 예시 문장에 대한 이진 구문 트리의 예를 나타낸다. 도 2를 참조하면 각 단말 노드는 파싱된 각 단어에 대응된다. 이러한 이진 트리와 유사한 구조를 가지는 재귀 오토인코더(Recursive Autoencoder)는 재귀 신경망(Recursive Neural Network) 기법 중 하나이며 모든 부모 노드마다 오토인코더의 학습 방법을 재귀적으로 적용하는 것이다. 도 3은 주어진 트리에 적용되는 재귀 오토인코더(RAE)의 예를 도시한다. 도 3에서 각 단말 노드는 각 단어 벡터가 되며, 모든 비단말노드에서 반복적으로 오토인코더의 학습을 진행한다. 재귀 오토인코더(RAE)는 파스 트리로부터 피쳐들(features)을 학습하는데 사용되며, 파스 트리의 각 노드에 의해 스팬되는(spanned) 가변 크기 어구의 벡터 표현을 발견하는 것을 목표로 한다. 재귀 오토인코더(RAE)의 학습방법은 다음과 같다. 재귀 오토인코더는 수학식 1을 이용하여 자식 노드
Figure 112015128953839-pat00011
에서 부모노드
Figure 112015128953839-pat00012
로의 인코딩 과정을, 수학식 2를 이용하여 자식노드에서 부모노드로의 디코딩 과정을 진행한다.
Figure 112015128953839-pat00013
Figure 112015128953839-pat00014
Figure 112015128953839-pat00015
Figure 112015128953839-pat00016
는 전체 트리에서 공유하는 파라미터로 재귀 오토인코더(RAE)의 학습을 통해 결정된다.
부모노드
Figure 112015128953839-pat00017
로부터의 복원 에러
Figure 112015128953839-pat00018
는 수학식 3과 같이 계산할 수 있으며, 모든 비단말노드에서의
Figure 112015128953839-pat00019
의 합이 최소화되도록 학습을 진행한다.
Figure 112015128953839-pat00020
본 발명의 실시예에서는 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)의 학습 방법을 통해 문장 벡터를 모델링한다. 이는 기존 재귀 오토인코더(RAE)의 디코딩 과정을 변형하여 부모 노드
Figure 112015128953839-pat00021
에 연결된 모든 자식 노드들
Figure 112015128953839-pat00022
을 복원시키는 방법으로, 복원 에러
Figure 112015128953839-pat00023
는 수학식 4와 같이 계산한다. 구문 이진 트리(
Figure 112015128953839-pat00024
)에 존재하는 모든 비단말 노드에서의 에러의 합
Figure 112015128953839-pat00025
(수학식 5)이 최소가 되도록 학습을 진행한다. 이를 통해 최상위노드(문장벡터)는 모든 자식노드의 의미 및 구문 정보를 포함하는 고차원적인 문장 벡터가 된다.
Figure 112015128953839-pat00026
Figure 112015128953839-pat00027
상기 텍스트랭크를 통한 문장 중요도 파악 단계(S13)에서는 상기 URAE를 통한 문장 벡터 모델링 단계(S12)의 결과 얻어진 문장 벡터를 정점으로, 각 문장간 유사도를 간선으로 표시하는 그래프로 모델링한다. 본 발명의 일 실시예에 따르면, 문장 벡터 간의 유클리드 거리(Euclidean Distance)가 가까운 문장일수록 유사하다고 판단한다. 텍스트랭크(TextRank)는 문장과 문장 간의 유사도를 기반으로 문서에서 중요한 문장을 랭킹하는 알고리즘으로 도 4는 텍스트랭크(TextRank)로 모델링된 문장 벡터의 예를 나타낸다. 이와 같이 그래프로 모델링된 각 문장 벡터들의 중요도는 수학식 6을 통해 계산할 수 있다.
Figure 112015128953839-pat00028
Figure 112015128953839-pat00029
는 정점
Figure 112015128953839-pat00030
의 점수를 의미하며,
Figure 112015128953839-pat00031
는 damping factor로 0.85로 설정한다.
Figure 112015128953839-pat00032
Figure 112015128953839-pat00033
에 들어오는 간선들에 연결된 정점들의 집합을 의미하고,
Figure 112015128953839-pat00034
Figure 112015128953839-pat00035
에서 나가는 정점들의 집합을 의미한다. 각 정점의 점수는 연결된 다른 정점들의 점수가 클수록 증가하며, 알고리즘의 반복을 통해 수렴된 값이 각 문장 벡터의 점수로 결정된다.
상기 핵심 키워드를 포함하는 문장 파악 단계(S14)에서는 특정 단어가 텍스트에 나타나는 빈도 및 특정 단어가 나타나는 문서의 수가 그 단어를 포함하는 문장이 중요 문장인지를 결정하는 데 영향을 미칠 수 있으므로 이를 고려하여 문서의 핵심 키워드를 포함하는 문장을 파악한다. 본 발명의 일 실시예에 따르면, 다음 수학식 7을 이용하여 문장 내 단어들의 TF-IDF(Text Frequency-Inverse Document Frequency)값의 평균을 계산하여 핵심 키워드를 포함하는 문장을 파악한다.
Figure 112015128953839-pat00036
(
Figure 112015128953839-pat00037
: 주어진 문서에서 단어 w의 빈도 수,
Figure 112015128953839-pat00038
: 전체 문서 중 단어 w가 나타난 문서 수,
Figure 112015128953839-pat00039
: 전체 문서의 수)
상기 최종 문장 점수 계산 단계(S15)에서는 수학식 8과 같이 상기 TextRank를 적용하여 계산한 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 각각 가중치를 두어 합산하여 계산한다.
Figure 112015128953839-pat00040
(
Figure 112015128953839-pat00041
: 문장
Figure 112015128953839-pat00042
의 최종 문장 점수,
Figure 112015128953839-pat00043
: 주어진 문서에서 단어 w의 TF-IDF 값,
Figure 112015128953839-pat00044
: 가중치 파라미터)
Figure 112015128953839-pat00045
는 문장
Figure 112015128953839-pat00046
가 다른 문장들과 의미 및 구문적으로 유사한 정도와 해당 문서 세트의 특징을 잘 나타내는 단어를 포함하는 정보를 모두 반영하고 있다.
상기 요약문 생성 단계(S16)는 상기 최종 문장 점수를 기준으로 중요 문장을 추출하는 단계이다. 이 단계에서는 상기 최종 문장 점수가 높은 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성한다. 이미 추출된 문장과 유사도가 높은 문장을 포함하는 것은 유사한 문장들을 중복해서 포함하는 결과가 되어 좋은 요약문이 될 수 없기 때문이다.
이하에서는, 본 발명의 또다른 실시예에 따른 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템에 관해 설명한다.
재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템
도 5는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템의 개략적인 블록도의 예이다. 도 5를 참조하면, 상기 문서 요약 시스템은 사용자 질의 수신부(100), 문장 점수 계산부(200) 및 요약문 생성부(300)를 포함한다.
상기 사용자 질의 수신부(100)는 요약문 생성을 위한 사용자 질의를 수신한다. 자주 요청되는 사항은 미리 질의 목록을 제공하여 사용자가 선택하여 입력한 것을 수신할 수도 있다.
상기 문장 점수 계산부(200)는 문서 및 문장 추출 수단(210), URAE 문장 벡터 모델링 수단(220), 텍스트랭크 적용 수단(230), TF-IDF 계산 수단(240) 및 최종 문장 점수 계산 수단(250)을 포함한다.
상기 문서 및 문장 추출 수단(210)은 사용자가 질의한 요약문 생성을 위한 문서들을 추출하고 문서 내의 각 문장들을 추출한다.
상기 URAE 문장 벡터 모델링 수단(220)은 상기 추출한 문장들을 구문에 따라 파싱하여 이진 트리로 표현한다. 상기 이진 트리에서 각 단말 노드는 각 단어 벡터가 되며, 모든 비단말노드에서 반복적으로 오토인코더의 학습을 진행한다. 상기 오토인코더의 학습은 구문 이진 트리(
Figure 112015128953839-pat00047
)에 존재하는 모든 비단말 노드에서의 에러의 합
Figure 112015128953839-pat00048
이 최소가 되도록 진행한다. 이를 통해 최상위노드(문장벡터)는 모든 자식노드의 의미 및 구문 정보를 포함하는 고차원적인 문장 벡터가 된다.
상기 텍스트랭크(TextRank) 적용 수단(230)은 상기 URAE를 통한 문장 벡터 모델링 수단(220)을 통해 얻어진 문장 벡터를 정점으로, 각 문장간 유사도를 간선으로 표시하는 그래프로 모델링한다. 이와 같이 그래프로 모델링된 각 문장 벡터들의 중요도를 계산한다. 각 정점의 점수는 연결된 다른 정점들의 점수가 클수록 증가하며, 알고리즘의 반복을 통해 수렴된 값이 최종적인 문장의 택스트랭크 점수로 결정된다.
상기 TF-IDF 계산 수단(240)은 특정 단어가 텍스트에 나타나는 빈도 및 특정 단어가 나타나는 문서의 수가 그 단어를 포함하는 문장이 중요 문장인지를 결정하는 데 영향을 미칠 수 있으므로 이를 고려하여 문서의 핵심 키워드를 포함하는 문장을 파악한다. 더 구체적으로는, 문장 내 단어들의 TF-IDF(Text Frequency-Inverse Document Frequency)값의 평균을 계산하여 핵심 키워드를 포함하는 문장을 파악한다.
상기 최종 문장 점수 계산 수단(250)은 상기 TextRank를 적용하여 계산한 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 각각 가중치를 두어 합산하여 계산한다.
상기 요약문 생성부(300)는 상기 최종 문장 점수를 기준으로 중요 문장을 추출한다. 추출시에는 상기 최종 문장 점수가 높은 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성한다. 이미 추출된 문장과 유사도가 높은 문장을 포함하는 것은 유사한 문장들을 중복해서 포함하는 결과가 되어 좋은 요약문이 될 수 없기 때문이다.
이하에서는 본 발명의 일 실시예에 따른 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법과 기존 문서 요약 방법과의 성능 비교 실험의 예를 설명한다.
실험 예
본 실험에서는 실험 데이터로 DUC(Document Understanding Conference)에서 제공하는 DUC 2002의 문서 세트를 사용하였다. 데이터 세트내에는 총 59개의 문서 집합이 존재한다. 구문의 정확한 학습을 위해 불용어 등의 전처리 과정을 수행하지 않고 원문 그대로 사용하였다. 단, 한 문장에서 불용어를 포함한 단어 수가 15개 이하인 것은 제외하였다. 또한 수학식 1 및 수학식 2의 활성 함수
Figure 112015128953839-pat00049
Figure 112015128953839-pat00050
를 이용하였다. 수학식 8의 문장 점수 계산 파라미터
Figure 112015128953839-pat00051
는 실험적으로 0.7로 설정하였다.
실험 결과의 평가를 위해 DUC에서 제공하는 참조 요약문과 제안 기법의 요약문을 비교하였다. 평가 지표로는 ROUGE-N을 사용하였으며 수학식 9와 같이 계산한다.
Figure 112015128953839-pat00052
Figure 112015128953839-pat00053
은 두 문서의 유사도를 측정하기 위한 N-그램 알고리즘 기반의 지표이며,
Figure 112015128953839-pat00054
Figure 112015128953839-pat00055
의 길이이고,
Figure 112015128953839-pat00056
은 참조 요약문과 제안한 시스템의 요약문에서 동시 발생한
Figure 112015128953839-pat00057
의 수이다.
표 1은 실험 결과 평가 지표
Figure 112015128953839-pat00058
의 복원(Recall), 정확도(Precision), F-Score 평균이다.
방법 ROUGE-1 ROUGE-2
R P F R P F
URAE-V 0.327 0.361 0.342 0.065 0.074 0.069
TFIDF-V 0.333 0.377 0.349 0.071 0.083 0.076
본발명
방법
0.349 0.387 0.375 0.079 0.09 0.083
여기서 URAE-V는 언폴딩 재귀 오토인코더(URAE)만 사용한 경우이고, TFIDF-V는 TF-IDF 기법만 사용한 경우이다. 각 기법에 적용한 TextRank의 정점 벡터 표현과 간선 계산 방식을 다음과 같다. URAE-V는 URAE로 학습시킨 문장 벡터를 정점으로 표현하고, 간선은 유클리디안 거리를 이용하였다. TFIDF-V는 TFIDF의 값을 Bag-of-word로 표현한 문장 벡터를 정점으로 표현하고, 간선은 코사인 유사도를 이용하였다.
상기 표 1을 참조하면 본 발명에서 제안하는 방법이 언폴딩 재귀 오토인코더(URAE)만 사용한 경우 또는 TF-IDF 기법만 사용한 경우에 비해 더 뛰어난 복원(Recall), 정확도(Precision) 및 F-Score 평균 값을 가지는 것을 볼 수 있다. 즉, 언폴딩 재귀 오토인코더(URAE)기법과 TF-IDF 기법을 결합한 경우 더 뛰어난 다중 문서 요약문 생성 성능을 보임을 알 수 있다.

Claims (18)

  1. 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법에 있어서, 상기 방법은
    다중 문서에 대해 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통한 문장 벡터를 모델링하는 단계;
    상기 문장 벡터에 대해 텍스트 랭크를 적용하는 단계;
    핵심 키워드를 포함하는 문장을 파악하는 단계;
    상기 텍스트 랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 단계; 및
    상기 최종 문장 점수를 기준으로 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성하는 단계를 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  2. 제1항에 있어서,
    상기 핵심 키워드를 포함하는 문장을 파악하는 단계는
    특정 단어가 텍스트에 나타나는 빈도 및 상기 특정 단어가 나타나는 문서 수를 고려하여 가중치를 부여하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  3. 제2항에 있어서,
    상기 문장 벡터를 모델링하는 단계는
    문장을 구문에 따라 파싱하여 이진 트리로 표현하는 단계;
    상기 이진 트리를 이용하여 부모 노드마다 오토 인코딩 학습을 재귀적으로 진행하는 단계를 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  4. 제3항에 있어서,
    상기 문장 벡터를 모델링하는 단계는
    모든 비단말 노드에서 복원 에러의 합이 최소화 되도록 학습을 진행하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  5. 제4항에 있어서,
    상기 문장 벡터를 모델링하는 단계는
    상기 학습을 통해 최상위 노드의 문장 벡터가 모든 자식 노드의 의미 및 구문 정보를 포함하는 고차원적인 벡터가 되는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  6. 제5항에 있어서,
    상기 문장 벡터에 대해 텍스트 랭크를 적용하는 단계는
    각 문장 벡터를 그래프의 정점으로, 정점 간 간선을 문장 간의 유사도로 표현하는 단계; 및
    각 문장벡터의 점수를 계산하는 단계를 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  7. 제6항에 있어서,
    상기 각 문장 벡터의 점수를 계산하는 단계는
    연결된 다른 정점들의 점수가 클수록 각 문장 벡터의 점수가 증가하게 하여 정점들에 대한 반복 계산을 통해 수렴된 값으로 결정하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  8. 제7항에 있어서,
    상기 최종 문장 점수를 계산하는 단계는
    다음 수학식
    Figure 112015128953839-pat00059

    (
    Figure 112015128953839-pat00060
    : 문장
    Figure 112015128953839-pat00061
    의 최종 문장 점수,
    Figure 112015128953839-pat00062
    : 주어진 문서에서 단어 w의 TF-IDF 값,
    Figure 112015128953839-pat00063
    : 가중치 파라미터)
    를 통해 최종 점수를 계산하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 방법은
    사용자가 입력한 질의에 해당하는 문서 및 문장을 추출하는 단계를 더 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법.
  11. 다중 문서에 대해 언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통해 문장 벡터를 모델링하고, 상기 문장 벡터에 대해 텍스트랭크를 적용하고, 핵심 키워드를 포함하는 문장을 파악하고, 상기 텍스트랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 문장 점수 계산부; 및
    상기 최종 문장 점수를 기준으로 문장을 추출하되, 이미 추출된 문장과의 유사도가 낮은 문장을 우선적으로 추출하여 요약문을 생성하는 요약문 생성부를 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  12. 제 11항에 있어서,
    상기 문장 점수 계산부는
    언폴딩 재귀 오토인코더(Unfolding Recursive Autoencoder, URAE)를 통한 문장 벡터를 모델링하는 문장 벡터 모델링 수단;
    상기 문장 벡터에 대해 텍스트 랭크를 적용하는 텍스트랭크 적용 수단;
    핵심 키워드를 포함하는 문장을 파악하기 위한 TF-IDF 계산 수단; 및
    상기 텍스트랭크를 적용하여 계산된 각 문장 벡터의 점수와 상기 핵심 키워드를 포함하는 문장의 점수를 합산하여 최종 문장 점수를 계산하는 최종 점수 계산 수단을 포함하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  13. 제12항에 있어서,
    상기 TF-IDF 계산 수단은
    특정 단어가 텍스트에 나타나는 빈도 및 특정 단어가 나타나는 문서 수를 고려하여 핵심 키워드를 포함하는 문장을 파악하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  14. 제13항에 있어서,
    상기 텍스트랭크 적용 수단은
    각 문장 벡터를 그래프의 정점으로, 정점 간 간선을 문장 간의 유사도로 표현하고, 연결된 다른 정점들의 점수가 클수록 각 문장 벡터의 점수가 증가하게 하여 정점들에 대한 반복 계산을 통해 수렴된 값으로 각 문장벡터의 점수를 계산하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  15. 제14항에 있어서,
    상기 최종 문장 점수 계산 수단은
    다음 수학식
    Figure 112015128953839-pat00064

    (
    Figure 112015128953839-pat00065
    : 문장
    Figure 112015128953839-pat00066
    의 최종 문장 점수,
    Figure 112015128953839-pat00067
    : 주어진 문서에서 단어 w의 TF-IDF 값,
    Figure 112015128953839-pat00068
    : 가중치 파라미터)
    를 통해 최종 점수를 계산하는 것을 특징으로 하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  16. 삭제
  17. 제15항에 있어서,
    상기 시스템은
    사용자가 입력한 요약문 생성을 위한 질의를 수신하는 사용자 질의 수신부를 더 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
  18. 제17항에 있어서,
    상기 점수 계산부는
    상기 사용자 질의에 해당하는 문서 및 문장을 추출하는 문서 및 문장 추출 수단을 더 포함하는 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 시스템.
KR1020150190005A 2015-12-30 2015-12-30 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 KR101717230B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150190005A KR101717230B1 (ko) 2015-12-30 2015-12-30 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150190005A KR101717230B1 (ko) 2015-12-30 2015-12-30 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템

Publications (1)

Publication Number Publication Date
KR101717230B1 true KR101717230B1 (ko) 2017-03-16

Family

ID=58497917

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150190005A KR101717230B1 (ko) 2015-12-30 2015-12-30 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템

Country Status (1)

Country Link
KR (1) KR101717230B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180120570A (ko) * 2017-04-27 2018-11-06 재단법인대구경북과학기술원 그래프 생성 방법 및 장치
CN110516145A (zh) * 2019-07-10 2019-11-29 中国人民解放军国防科技大学 一种基于句向量编码的信息搜索方法
US10593080B2 (en) 2017-04-27 2020-03-17 Daegu Gyeongbuk Institute Of Science And Technology Graph generating method and apparatus
KR20200047272A (ko) * 2018-10-25 2020-05-07 펄스나인 주식회사 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
CN113468318A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 摘要自动生成方法、装置和计算机可读存储介质
KR20220086259A (ko) 2020-12-16 2022-06-23 숭실대학교산학협력단 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
KR101548096B1 (ko) * 2015-02-02 2015-08-27 숭실대학교산학협력단 문서 자동 요약 방법 및 서버

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
KR101548096B1 (ko) * 2015-02-02 2015-08-27 숭실대학교산학협력단 문서 자동 요약 방법 및 서버

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180120570A (ko) * 2017-04-27 2018-11-06 재단법인대구경북과학기술원 그래프 생성 방법 및 장치
KR101998020B1 (ko) * 2017-04-27 2019-07-08 재단법인대구경북과학기술원 그래프 생성 방법 및 장치
US10593080B2 (en) 2017-04-27 2020-03-17 Daegu Gyeongbuk Institute Of Science And Technology Graph generating method and apparatus
KR20200047272A (ko) * 2018-10-25 2020-05-07 펄스나인 주식회사 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법
KR102156249B1 (ko) 2018-10-25 2020-09-15 펄스나인 주식회사 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
KR102196583B1 (ko) * 2019-03-12 2020-12-31 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
CN110516145A (zh) * 2019-07-10 2019-11-29 中国人民解放军国防科技大学 一种基于句向量编码的信息搜索方法
CN110516145B (zh) * 2019-07-10 2020-05-01 中国人民解放军国防科技大学 一种基于句向量编码的信息搜索方法
CN113468318A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 摘要自动生成方法、装置和计算机可读存储介质
KR20220086259A (ko) 2020-12-16 2022-06-23 숭실대학교산학협력단 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치

Similar Documents

Publication Publication Date Title
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
US9613024B1 (en) System and methods for creating datasets representing words and objects
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
Verberne et al. Evaluation and analysis of term scoring methods for term extraction
Tayal et al. ATSSC: Development of an approach based on soft computing for text summarization
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
Toshevska et al. Comparative analysis of word embeddings for capturing word similarities
Lan Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method
US20240265041A1 (en) Methods and Systems for Improved Document Processing and Information Retrieval
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
Lee Natural Language Processing: A Textbook with Python Implementation
Zhang et al. Chinese-English mixed text normalization
RU2563148C2 (ru) Система и метод семантического поиска
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
Deshmukh et al. Sentiment analysis of Marathi language
Sun et al. Entity disambiguation with decomposable neural networks
US20140372106A1 (en) Assisted Free Form Decision Definition Using Rules Vocabulary
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
Wang et al. Query construction based on concept importance for effective patent retrieval

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200217

Year of fee payment: 4