KR101944331B1

KR101944331B1 - 순환신경망을 이용한 문서요약시스템 및 방법

Info

Publication number: KR101944331B1
Application number: KR1020170018843A
Authority: KR
Inventors: 김학수; 이현구; 김민경
Original assignee: 강원대학교 산학협력단
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2019-01-31
Also published as: KR20180092732A

Abstract

본 발명은 순환신경망(RNN) 모델을 이용하여 문서의 문장 단위로 인코딩 벡터를 재귀적으로 생성하고, 최종적으로 도출된 문서 임베딩 벡터를 이용하여 문서를 요약하는 것을 특징으로 하는 문서요약시스템 및 방법에 관한 것으로, 생성된 인코딩 벡터를 다음 문장에 대한 RNN 모델의 입력으로 적용하는 과정을 반복하는 재귀 적용부; 및 문서의 마지막 문장에서 문서 임베딩 벡터를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하는 문서 임베딩 생성부;를 포함한다.

Description

순환신경망을 이용한 문서요약시스템 및 방법{Document summarization system and method using RNN model}

본 발명은 순환신경망을 이용한 문서요약시스템 및 방법에 관한 것으로서, RNN 모델을 이용하여 문서의 문장 단위로 인코딩 벡터를 재귀적으로 생성하고, 최종적으로 도출된 문서 임베딩 벡터를 이용하여 문서를 요약하는 것을 특징으로 하는 문서요약시스템 및 방법에 관한 것이다.

종래의 문서 요약 또는 제목 생성 기술은 문서에 나타나는 단어를 추출하여 나열하는 방식을 사용하였다. 따라서 언어의 특정 및 자질을 사람이 직접 찾고 반영해야 하여 인력과 시간이 많이 필요하다.

또한 신경망을 통한 생성 기술은 문서 요약용 모델，제목 생성용 모델을 학습하기 위해 문서와 요약문이 있는 데이터，문서와 제목이 있는 데이터가 필요한바, SNS 글과 같이 제목이나 요약이 없는 문서，블로그 글과 같이 요약이 없는 문서 등을 다루기가 어렵다는 단점이 있다.

선행문헌1(한국공개특허 제2016-0058587호), 선행문헌2(한국등록특허 제1508260호) 및 선행문헌3(한국등록특허 제1116478호)은 문서 요약 방법에 관한 것으로서, 본 발명과 기술분야가 유사하나, 구체적인 구현방법을 살펴보면, 본 발명은 문서의 한 문장 단위로 인코딩하여 재귀적으로 다음 문장에 이를 반영하여 요약하는 방식이나, 선행문헌1과 선행문헌2는 전체 문서에 대한 특정 가중치를 적용하여 요약을 수정하는 방법이며 선행문헌3은 자질값을 기반으로 문장 단위로 평가하면서 요약을 완성하는 방법이어서 본 발명과는 발명의 구성 및 효과에서 상이하다.

본 발명은 순환신경망 모델을 이용하여 문장단위의 인코딩벡터를 재귀적으로 적용하고 문서 끝에서 문서 임베딩 벡터를 생성하여 요약에 이용하는 문서요약시스템 및 방법을 제공한다.

본 발명은 RNN(Recurrent Neutral Network)모델 기반의 문서요약시스템에 있어서, 문서의 첫 문장을 RNN 모델에 적용하여 인코딩 벡터를 생성하는 문장 인코딩부; 생성된 인코딩 벡터를 다음 문장에 대한 RNN 모델의 입력으로 적용하는 과정을 반복하는 재귀 적용부; 문서의 마지막 문장에서 문서 임베딩 벡터를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하는 문서 임베딩 생성부; 및 상기 문서 임베딩 벡터와 학습문장을 RNN 모델에 적용하여 학습하고 요약문을 생성하는 요약 학습부; 를 포함하여, 문서의 내용을 RNN 모델에 의해 문장단위로 해석하여 최종 생성된 문서 임베딩 벡터를 요약문 생성에 이용하는 것을 특징으로 하는 문서요약시스템을 제공한다.

또한, 상기 문서 임베딩 벡터와 상기 요약문을 RNN 모델에 적용하여 요약문을 추가생성하고, 상기 추가 생성된 요약문을 다시 상기 문서 임베딩 벡터와 함께 후속하는 RNN 모델에 재귀적으로 N회 적용하여 요약을 완성하는 반복 생성부;를 더 포함할 수 있다.

본 발명의 다른 특징에 의하면, RNN(Recurrent Neutral Network)모델 기반의 문서요약방법에 있어서, 문서의 첫 문장을 RNN 모델에 적용하여 인코딩 벡터를 생성하는 단계; 생성된 인코딩 벡터를 다음 문장에 대한 RNN 모델의 입력으로 적용하고 새로운 인코딩 벡터를 생성하는 재귀적 루핑을 마지막 문장을 만날 때까지 반복하는 인코딩 벡터 재귀적용 단계; 최종 생성된 인코딩 벡터를 마지막 문장에 대한 RNN 모델의 입력으로 적용하여 문서 임베딩 벡터를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하는 문서 임베딩 생성단계; 및 상기 문서 임베딩 벡터와 학습문장을 RNN 모델에 적용하여 학습하고 요약문을 생성하는 요약 학습단계; 를 포함하여, 문서의 내용을 RNN 모델에 의해 문장단위로 해석하여 최종 생성된 문서 임베딩 벡터를 요약에 이용하는 것을 특징으로 하는 문서요약방법을 제공한다.

또한, 상기 요약학습단계 이후에, 상기 문서 임베딩 벡터와 상기 요약문을 RNN 모델에 적용하여 요약문을 추가 생성하고, 상기 추가 생성된 요약문을 다시 상기 문서 임베딩 벡터와 함께 후속하는 RNN 모델에 재귀적으로 N회 적용하여 요약을 완성하는 반복 생성단계;를 더 포함할 수 있다.

본 발명에 따르면, 데이터에 제목, 요약 문장이 없는 문서를 요약할 수 있어 데이터 수집에 용이하며, 신경망 기반으로 수행되기 때문에 자질 추출 등에 인력 자원이 소모되지 않아 효율적이다.

도 1은 본 발명에 따른 문서요약시스템의 구성 블록도이다.
도 2는 본 발명에 따른 문서요약방법의 처리 흐름도이다.
도 3은 문장 단위의 인코딩과 문서 임베딩 벡터를 생성하는 과정을 설명한 개념도이다.
도 4는 문서 임베딩 벡터를 이용하여 요약문을 생성하는 과정에 대한 개념도이다.
도 5는 문서 임베딩 벡터를 이용하여 요약문을 선택하는 과정에 대한 개념도이다.
도 6은 디스플레이부에서 화면크기를 조절하여 요약문의 양을 조절하는 과정에 대한 개념도이다.

본 발명은 사람이 문서를 읽고 요약 및 제목 생성을 하는 방법에서 착안하여 문서를 읽는 방법을 신경망 모델 중 하나인 순환신경망(RNN, Recurrent Neural Network)의 다양한 셀(LSTM, GRU 등)을 사용한 Recurrent Neural Encoder-Decoder(혹은 Sequence to Sequence)로 문서의 벡터를 생성한다.

Recurrent Neural Encoder-Decoder는 문장이 입력되었을 때 다른 형태의 문장이 나오도록 학습하는 방식이며 이를 이용한 문서 벡터 생성은 현재 문장을 넣었을 때 다음 문장이 출력되게 하여 생긴 인코딩 벡터를 다음 문장을 인코딩할 때 함께 사용하여 문서를 한 줄씩 이해하게 하는 방식이다.

생성된 문서 벡터에 다음 문장으로 제목을 출력하게 되면 제목 생성을 할 수 있으며, 문서요약을 생성하기 위해 두괄식 문서에는 첫째 문장, 미괄식 문서에는 마지막 문장을 출력하게 한다.

마지막으로 원문에서 요약문장을 선택하기 위해 문장 점수를 계산하여 원하는 요약률 만큼의 문장을 구할 수 있고 이로 인해 스마트폰 줌인, 줌아웃을 통해 실시간으로 문서요약의 길이를 변경할 수 있다.

이하, 도면을 참조하여 본 발명에 따른 문서요약시스템 및 방법의 기술적 특징을 상세히 설명한다.

도 1은 데이터 흐름을 포함한 시스템 구성 블록도로서, 문장인코딩부(10), 재귀적용부(20), 문서임베딩생성부(30), 요약학습부(40), 반복생성부(50) 및 디스플레이부(60)를 포함하며, 도 2는 본 발명에 따른 문서요약방법의 처리 순서를 나타낸다.

문장인코딩부(10)는 문서 내용 중 첫 문장을 RNN(Recurrent Neutral Network)모델에 적용하여 문장 단위의 인코딩 벡터를 생성하며 도 2의 인코딩벡터 생성단계(s10)에 해당한다.

구체적인 처리 과정은 도 3의 A부분에 도시된 바와 같으며, 첫 문장(snt1)이 요소별로 학습되어 문장 단위의 인코딩 벡터("Pre-sentence encoding")를 생성한다.

재귀적용부(20)는 생성된 인코딩 벡터를 이후 문장에 대한 RNN 모델의 입력으로 적용하고 이를 마지막 문장에 이르기까지 재귀적으로 반복 수행하며, 도 2의 재귀적용단계(s20, s201)에 해당한다.

재귀적용단계(s20)는 도 3의 B부분에 도시된 바와 같이, 이전 문장의 인코딩벡터(Pre-sentence encoding)를 생성하여 이를 후속 문장의 RNN 모델에 대한 입력으로 적용하는 과정을 마지막 문장에 도달할 때까지(s201) 반복한다.

문서임베딩생성부(30)는 문서의 마지막 문장에서 이전 문장의 인코딩 벡터(Pre-sentence encoding)를 입력받아 RNN 모델을 거쳐 문서 임베딩 벡터(Document embedding)를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하며, 이는 도 2의 문서임베딩 생성단계(s30)에 해당하며 도 3에 도시된 바와 같은 과정을 수행한다.

요약학습부(40)는, 도 4의 A 부분에 도시한 바와 같이, 상기 문서 임베딩 벡터(Document embedding)와 학습문장을 RNN 모델에 적용하여 학습하고 첫번째 요약문을 생성하며, 상기 학습문장은 상기 생성된 제목(Title)일 수 있는바, 이는 도 2의 요약학습단계(s40)를 수행한다.

반복생성부(50)는, 도 4의 B 부분에 도시한 바와 같이, 상기 문서 임베딩 벡터(Document embedding)와 상기 요약 학습부(40)에서 생성된 요약문을 RNN 모델에 적용하여 요약문을 추가생성하고, 상기 추가 생성된 요약문을 다시 상기 문서 임베딩 벡터와 함께 후속하는 RNN 모델에 재귀적으로 N회 적용하여 요약을 완성하며, 도 2의 반복생성단계(s401)를 수행한다.

도 5는 요약문 생성의 다른 방법으로서, 요약학습부(40)가 소프트 맥스 기법을 이용하여 요약문을 선택하는 과정을 나타내는바, RNN모델의 출력단에서 추가적으로 소프트맥스 기법인 문장요소별 확률평가의 합(

)을 기준으로 랭킹하여 요약문을 선택함으로써 반복생성부(50) 없이 요약을 완성할 수 있다.

따라서 도 2의 요약학습단계(s40)에서 첫 요약문을 기반으로 반복생성단계(s401) 또는 소프트맥스선택단계(s402)를 선택할 수 있다.

도 6은 요약문을 화면에 표시하는 실시예로서, 디스플레이부(60)는 스마트폰 이나 컴퓨터 등의 표시부에 해당한다.

디스플레이부(60)는 상기 생성된 요약문을 화면에 표시하되, 사용자가 선택하는(e.g. 줌인/줌아웃) 화면크기에 따라 요약문의 양을 조절하여 표시한다. 이때 요약문의 양은 요약문의 갯수로 정의될 수 있다.

요약문은 요약학습단계(s40), 반복생성단계(s401) 또는 소프트맥스선택단계(s402)에서 생성되므로 이들 중 선택된 단계 이후에 도 2의 디스플레이단계(s50)가 수행되고, 선택된 화면 크기에 맞도록 요약문의 양이 가감되면서 생성된 요약문을 화면에 표시한다.

10 : 문장인코딩부 20 : 재귀적용부
30 : 문서임베딩생성부 40 : 요약학습부
50 : 반복생성부 60 : 디스플레이부

Claims

RNN(Recurrent Neutral Network)모델 기반의 문서요약시스템에 있어서,
문서의 첫 문장을 RNN 모델에 적용하여 인코딩 벡터를 생성하는 문장 인코딩부;
생성된 인코딩 벡터를 다음 문장에 대한 RNN 모델의 입력으로 적용하는 과정을 반복하는 재귀 적용부;
문서의 마지막 문장에서 문서 임베딩 벡터를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하는 문서 임베딩 생성부; 및
상기 문서 임베딩 벡터와 학습문장을 RNN 모델에 적용하여 학습하고 요약문을 생성하는 요약 학습부; 를 포함하여,
문서의 내용을 RNN 모델에 의해 문장단위로 해석하여 최종 생성된 문서 임베딩 벡터를 요약문 생성에 이용하도록 구비되고,
상기 문서 임베딩 벡터와 생성된 요약문을 RNN 모델에 재적용하여 요약문을 추가 생성하고, 상기 추가 생성된 요약문을 다시 상기 문서 임베딩 벡터와 함께 후속하는 RNN 모델에 재귀적으로 N회 적용하여 요약문을 증가하는 반복 생성부를 더 포함하는 것을 특징으로 하는 문서요약시스템.
삭제
제1항에 있어서,
상기 요약학습부는 상기 생성된 제목을 학습문장에 적용하는 문서요약시스템.
제1항에 있어서,
상기 요약학습부는 RNN모델의 출력단에서 소프트맥스 기법인 문장요소별 확률평가에 의해 요약문을 선택하는 문서요약시스템.
제1항 및 제4항 중 어느 한 항에 있어서,
상기 생성된 요약문을 화면에 표시하되, 사용자가 선택하는 화면크기에 따라 요약문의 양을 조절하여 표시하는 디스플레이부;를 더 포함하는 문서요약시스템.
Recurrent Neural Encoder-Decoder에 연결된 문서요약시스템의 RNN(Recurrent Neutral Network)모델 기반의 문서요약방법에 있어서,
문서의 첫 문장을 RNN 모델에 적용하여 인코딩 벡터를 생성하는 인코딩 벡터 생성단계;
생성된 인코딩 벡터를 다음 문장에 대한 RNN 모델의 입력으로 적용하는 과정을 반복하는 인코딩 벡터 재귀적용 단계;
문서의 마지막 문장에서 문서 임베딩 벡터를 생성하고, RNN 모델의 마지막 학습단에서 문서의 끝(EOF) 또는 제목을 생성하는 문서 임베딩 생성단계; 및
상기 문서 임베딩 벡터와 학습문장을 RNN 모델에 적용하여 학습하고 요약문을 생성하는 요약 학습단계; 를 포함하여,
문서의 내용을 RNN 모델에 의해 문장단위로 해석하여 최종 생성된 문서 임베딩 벡터를 요약문 생성에 이용하도록 구비되고,
상기 요약학습단계 이후에, 상기 문서 임베딩 벡터와 생성된 요약문을 RNN 모델에 재적용하여 요약문을 추가 생성하고, 상기 추가 생성된 요약문을 다시 상기 문서 임베딩 벡터와 함께 후속하는 RNN 모델에 재귀적으로 N회 적용하여 요약문을 증가하는 반복 생성단계;를 더 포함하는 것을 특징으로 하는 문서요약방법.
삭제
제6항에 있어서,
상기 요약학습단계는 상기 생성된 제목을 학습문장에 적용하는 문서요약방법.
제6항에 있어서,
상기 요약학습단계는 RNN모델의 출력단에서 소프트맥스 기법인 문장요소별 확률평가에 의해 요약문을 선택하는 문서요약방법.
제6항 및 제9항 중 어느 한 항에 있어서,
상기 생성된 요약문을 화면에 표시하되, 사용자가 선택하는 화면크기에 따라 요약문의 양을 조절하여 표시하는 디스플레이단계;를 더 포함하는 문서요약방법.