KR102501446B1

KR102501446B1 - 문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102501446B1
Application number: KR1020190160422A
Authority: KR
Inventors: 이수원; 김희찬
Original assignee: 숭실대학교 산학협력단
Priority date: 2019-10-11
Filing date: 2019-12-05
Publication date: 2023-02-21
Also published as: KR20210043406A; KR102501446B9

Abstract

문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, LSTM(Long-short term memory network) 셀 기반의 양방향 인코더에서 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산하는 단계; 단방향 디코더에서 매 디코딩 스텝마다 상기 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산하는 단계; 상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산하는 단계; 상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로, 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하는 단계; 및 계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하여 상기 단어를 나열하는 단계;를 포함한다. 이에 따라, 문서의 의미를 중심적으로 요약을 도출할 수 있다.

Description

문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR ABSTRACTIVE DOCUMENT SUMMARIZATION BASED ON A CONTEXT BASED COVERAGE MECHANISM, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 문서 맥락 기반 커버리지를 이용한 자동 요약 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 요약 생성 시 입력 본문을 참조할 때 단어의 위치만 고려하는 것이 아니라 중요한 단어가 가지는 의미를 중심적으로 고려하는 맥락 커버리지 매커니즘에 관한 것이다.

문서 자동 요약은 문서 내에서 중요한 정보를 추출하는 자연어 처리 분야 중 하나로 기계 번역과 더불어 활발히 연구되고 있다. 특히 빠른 속도로 늘어나는 텍스트 데이터의 처리 측면에서 그 연구의 중요도가 높아지고 있다.

자동 요약은 단일 문서 요약과 다중 문서 요약으로 입력 데이터의 형태에 따라 문제를 세분화할 수 있으며, 중요한 내용을 추출하는 방식에 따라 추출 요약과 생성 요약으로 구분할 수 있다.

추출 요약은 입력 문서에서 문장의 중요도를 측정한 후, 중요도에 따라 문장을 추출하여 요약을 구성하는 방법이다. 생성 요약은 입력 문서를 기반으로 요약을 위한 단어를 순차적으로 생성하는 방법으로, 주로 Sequence-to-Sequence 모델을 기반한 여러 variant 모델이 제안되었다.

Sequence-to-Sequence 모델에서 사용되는 Attention mechanism은 디코딩 스텝에서 입력 단어의 중요도를 평가하는 방법 중 하나이다. 기계 번역 도메인에서 사용되는 Attention 기반 Coverage mechanism는 입력 단어 전체가 충분히 잘 고려되었는지를 판단하기 위하여 제안되었다. 이러한 단어 위치 중심의 방법은 기계 번역 도메인의 특성에 따른 것으로, 입력 문서의 가능한 모든 단어의 정보를 번역하기 때문이다.

추출 또는 생성된 요약이 입력 문서의 중심 내용을 중점으로 잘 커버하고 있다면 좋은 요약이라고 할 수 있다. 그러므로, 요약은 입력 문서에서 중요한 내용만 담겨있는 문장 집합으로, 필연적으로 정보의 손실이 발생한다. 이 특성으로부터, Attention 기반 Locational Coverage mechanism를 자동 요약에 적용하는 것은 적합하지 않다.

단일 문서 자동 요약은 입력된 문서의 중요한 내용을 대표하는 요약을 자동으로 생성하는 문제이다. 현재의 생성 요약은 입력 문서에서 문장을 선택하는 것이 아닌, 문서 기반으로 입력 단어의 순서를 생성해나가는 방법이다.

생성 요약에서 많이 사용되는 Sequence-to-Sequence 모델은 디코더에서 동일한 Sub pattern을 반복하여 생성하는 Repetition 문제를 가지고 있다. 이 Repetition 문제를 해결하기 위하여, 기계 번역 도메인에서 다양한 Coverage mechanism이 제안되었다.

자동 요약은 기계 번역과 다르게, 입력 문서와 요약 문서의 길이의 차가 크다. 요약 문서는 본문의 여러 단어가 의미하는 바를 하나 또는 몇 단어로 축약하여 표현된 형태이기 때문이다. 이러한 문제의 특성 때문에, 기계 번역에서의 입력 단어의 위치 기반의 Coverage mechanism을 바로 요약에 적용하기 어렵다.

정리하면, 기존의 생성 요약 기술은 Sequence-to-Sequence 모델 기반으로, 단어 생성 시 입력 문서를 참조할 때 단어의 위치만 참조하는 커버러지 방법을 사용한다. 이 방법은 출력 문서와 입력 문서의 길이가 유사한 기계 번역에서 사용하던 방법으로, 출력된 요약이 입력 문서에 비하여 매우 짧은 자동 요약에 최적의 방법은 아니다.

JP 2018-181343 A KR 10-1944331 B1 KR 10-2018-0119406 A

I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks." Advances in Neural Information Processing Systems, pp. 3104-3112, 2014. D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," Proceedings of the 3rd International Conference on Learning Representations, 2015.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 중요한 단어가 가지는 의미를 중심적으로 고려하는 문서 맥락 기반 커버리지를 이용한 자동 요약 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 문서 맥락 기반 커버리지를 이용한 자동 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 문서 맥락 기반 커버리지를 이용한 자동 요약 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, LSTM(Long-short term memory network) 셀 기반의 양방향 인코더에서 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산하는 단계; 단방향 디코더에서 매 디코딩 스텝마다 상기 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산하는 단계; 상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산하는 단계; 상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로, 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하는 단계; 및 계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하여 상기 단어를 나열하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 입력 스텝의 히든 스테이트를 계산하는 단계는, 상기 인코더의 최종 스텝의 히든 스테이트를 전방향 스텝의 히든 스테이트와 후방향 히든 스테이트의 연접(concatenation) 벡터로 정의하고, 상기 인코더의 최초 스텝의 히든 스테이트를 제로 벡터로 정의할 수 있다.

본 발명의 실시예에서, 상기 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, 상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습하는 단계를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습하는 단계는, 상기 디코더의 최초 스텝을 상기 인코더의 최종 스테이트로 정의할 수 있다.

본 발명의 실시예에서, 상기 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, 상기 인코더의 차원 수가 상기 디코더의 차원 보다 클 경우, 상기 디코더의 최초 스텝의 가중치 행렬을 이용하여 차원을 축소할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 장치는, 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산하는 LSTM(Long-short term memory network) 셀 기반의 양방향 인코더; 매 디코딩 스텝마다 상기 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산하는 중요도 계산부; 상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산하는 콘텍스트 벡터부; 상기 콘텍스트 벡터부에서 계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하는 콘텍스트 커버리지부; 및 상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하고, 상기 콘텍스트 커버리지 벡터와 상기 정렬 에너지를 기초로 상기 단어를 나열하는 단방향 디코더;를 포함한다.

본 발명의 실시예에서, 상기 양방향 인코더는, 상기 인코더의 최종 스텝의 히든 스테이트를 전방향 스텝의 히든 스테이트와 후방향 히든 스테이트의 연접(concatenation) 벡터로 정의하고, 상기 인코더의 최초 스텝의 히든 스테이트를 제로 벡터로 정의할 수 있다.

본 발명의 실시예에서, 상기 단방향 디코더는, 상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습할 수 있다.

본 발명의 실시예에서, 상기 단방향 디코더는, 상기 디코더의 최초 스텝을 상기 인코더의 최종 스테이트로 정의할 수 있다.

본 발명의 실시예에서, 상기 단방향 디코더는, 상기 인코더의 차원 수가 상기 디코더의 차원 보다 클 경우, 상기 디코더의 최초 스텝의 가중치 행렬을 이용하여 차원을 축소할 수 있다.

이와 같은 문서 맥락 기반 커버리지를 이용한 자동 요약 방법에 따르면, 요약 생성 시 입력 본문을 참조할 때 단어의 위치만 고려하는 것이 아니라 중요한 단어가 가지는 의미를 중심적으로 고려하는 맥락 커버리지 매커니즘을 제안함에 따라 문서의 적합한 요약을 도출할 수 있다.

도 1은 본 발명에 따른 문서 맥락 기반 커버리지의 모델 내 전파 과정을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 장치의 블록도이다.
도 3은 종래 기술들과 본 발명의 모델의 실험을 통하여 성능을 평가한 표이다.
도 4는 본 발명에 따른 모델과 종래 기술에 의한 요약서의 길이를 비교한 그래프이다.
도 5는 본 발명의 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 문서 맥락 기반 커버리지의 모델 내 전파 과정을 나타낸 도면이다. 도 2는 본 발명의 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 장치의 블록도이다.

본 발명은, 문서의 요약 생성 시 입력 본문을 참조할 때, 단어의 위치만 고려하는 것이 아니라 중요한 단어가 가지는 의미를 중심적으로 고려하는 맥락 커버리지 방법을 사용한다. 이를 통하여 본 발명의 제안 방법은 기 생성된 단어와 중복된 단어를 생성하지 않고, 입력 문서의 내용과 일맥상통하는 단어를 생성한다.

구체적으로, 본 발명은 매 디코딩 시 입력 문서 단어에 대한 중요도의 일종으로 볼 수 있는 중요도(attention weight)와 해당 단어의 정보(

)를 가중합하여 현재 디코딩 스텝에 유의미한 맥락 기반 커버리지를 정의한다. 정의된 커버리지를 중요 매커니즘(attention mechanism)에 통합하여, 요약 단어 생성 시 이 입력 문서의 맥락을 중점으로한 커버리지를 고려한다.

도 1은 맥락 기반 커버리지의 모델 내 전파 과정을 도식화한 도면이며, 이에 대한 자세한 설명은 아래에서 도 2와 함께 기술한다.

본 발명에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 장치(10, 이하 장치)는 입력 문서의 압축된 의미를 중심으로 커버리지(Coverage)를 고려하는 문서 맥락 기반 커버리지 매커니즘(Context based Coverage mechanism)을 제안한다. 문서 맥락 기반 커버리지(Context based Coverage)는 인코딩된 단어 의미의 중요(Attention) 기반 가중 평균 누적으로 정의되며, 이것은 본문의 단어의 위치 기반이 아닌 단어의 의미를 중점으로 고려한다.

도 1을 참조하면, 본 발명에 따른 장치(10)는 양방향 인코더(110), 중요도 계산부(130), 콘텍스트 벡터부(150), 콘텍스트 커버리지부(170) 및 단방향 디코더(190)를 포함한다.

본 발명의 상기 장치(10)는 문서 맥락 기반 커버리지를 이용한 자동 요약을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 양방향 인코더(110), 상기 중요도 계산부(130), 상기 콘텍스트 벡터부(150), 상기 콘텍스트 커버리지부(170) 및 상기 단방향 디코더(190)의 구성은 상기 장치(10)에서 실행되는 상기 문서 맥락 기반 커버리지를 이용한 자동 요약을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 양방향 인코더(110), 상기 중요도 계산부(130), 상기 콘텍스트 벡터부(150), 상기 콘텍스트 커버리지부(170) 및 상기 단방향 디코더(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

본 발명은 시퀀스-투-시퀀스 모델(Sequence-to-Sequence Model)의 확장된 구성을 가지며 RNN 셀(cell)을 기반으로 한다. 상기 RNN 셀은 LSTM(Long-short term memory network)을 사용한다.

먼저 본 발명에서 사용하는 변수들을 정의한다.

는 입력 토큰의 단어 임베딩 벡터를,

와

는 각각 히든 스테이트(hidden state)와 셀 스테이트(cell state)를 나타낸다.

및

는 각각 인코더와 디코더의 히든 스테이트 차원 수(Hidden state dimenionality)를 나타낸다.

은 단어 임베딩 차원(word embedding dimension)의 크기를 나타낸다. 본 발명에서 제안하는 모델이 사용하는 사전은

로 표현한다. 이때,

는 입력 문서 집합을 가리킨다.

상기 장치(10)는 LSTM 셀(cell) 기반의 양방향 인코더(Bi-directional Encoder, 110)와 단방향 디코더(Uni-directional decoder, 190)를 사용한다.

상기 인코더(110)는 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산한다.

상기 인코더(110)의 히든 스테이트(hidden state,

)는 입력 단어(

))와 그 단어 임베딩 (

) 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 계산된다. 여기서, 최종 히든 스테이트(

)는, 전방향과 후방향 인코더가 있으므로, 전방향(

)과 후방향(

) 히든 스테이트의 연접(concatenation,

)으로 정의된다. 상기 연접 벡터는 전방향과 후방향 은닉 상태 벡터의 결합을 의미한다. 인코더의 최초 셀 스테이트(initial cell state,

)는 제로 벡터(zero vector)이다.

상기 디코더(190)의 히든 스테이트(

)는, 상기 인코더(110)와 마찬가지로, 입력 단어(

)와 그 단어의 임베딩(

))을 이용하여 학습된다. 상기 디코더(190)의 최초 셀 스테이트(

)는 상기 인코더(110)의 마지막 셀 스테이트(

)로 정의된다.

이때, 상기 인코더(110)의 차원 수가 상기 디코더(190)의 차원 수보다 클 경우, 상기 디코더(190) 최초 셀 스테이트(

)는

와 같이 차원 축소를 위한 가중치 행렬을 이용하여 정의된다.

Vanilla Sequence-to-Sequence model은 입력 데이터의 길이가 긴 경우, 인코딩된 입력 데이터의 fixed size representation만으로는 디코더에서 정확한 단어를 생성하기 어려운 문제가 있다.

이 문제를 해결하기 위하여, 본 발명에서는 인코더 내의 정보를 매 디코딩 스텝마다 추가적으로 고려하는 중요도 매커니즘(Attention mechanism)을 적용한다. 중요도 매커니즘은 디코딩 스텝

시, 이전

스텝의 디코더 스테이트(state) 뿐만 아니라 인코더의 각 스텝

의 중요도를 측정하여 해당 단어의 정보를 고려하는 방법이다.

상기 중요도 계산부(130)는 매 디코딩 스텝마다 상기 디코더(190)의 셀 스테이트와 상기 인코더(110)의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산한다.

구체적으로, 디코더 스텝

시 인코더 스텝

에 대한 정렬 에너지(Alignment energy)

와 중요도(Attention weight)

는 다음의 수학식 1 및 수학식 2와 같이 정의된다.

[수학식 1]

[수학식 2]

수학식 2에서, 정렬 에너지

는 디코더의 t-th 셀 스테이트

와 인코더의 i-th 히든 스테이트

를 이용하여 정의된다. 이때,

는 학습 가능한 파라미터들(learnable parameters)이다. 본 발명에서는 간단한 표기를 위하여, 바이어스(Biases)는 아래 첨자를 생략하여 표기한다.

중요도

는 디코딩 스텝 t에서 어느 입력 스텝

가 현재 디코딩 스텝에 가장 영향을 많이 주는 지 판단할 수 있는 지표이다. 이를 기반으로 입력 데이터에 대한 콘텍스트 벡터(context vector)

는 상기 인코더(110) 히든 스테이트(hidden state)와 중요도(attention weight)의 가중합으로 다음의 수학식 3과 같이 정의된다.

[수학식 3]

즉, 상기 콘텍스트 벡터부(150)는 상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산한다.

콘텍스트 벡터의 디코딩 시 입력 임베딩과 동시에 고려하기 위하여 새로운 디코더 RNN 셀의 입력

은 아래의 수학식 4와 같이 정의된다.

[수학식 4]

수학식 4에서,

는 학습 가능한 파라미터이다.

스텝

의 단어

의 생성 확률

는 스텝

의 콘텍스트 벡터

와 히든 스테이트

을 기반으로 다음의 수학식 5와 같이 정의된다.

[수학식 5]

수학식 5에서,

및

는 학습 가능한 파라미터들이고,

는 단어에 대한 분류별 분포(categorical distribution)를 위한 값을 제공한다.

는 계산된 분류별 분포에서 단어

를 나타내는 차원의 확률 값을 나타낸다. 디코딩 스텝

의 단어는 가장 확률이 높은 단어

로 생성된다.

모델 학습 시 사용하는 로스 함수

는 다음과 같이 타겟 단어

에 대한 네거티브 로그 공산(negative log likelihood)으로 다음의 수학식 6과 같이 정의된다.

[수학식 6]

전체 로스

는 각 스텝 로스

의 평균으로 다음의 수학식 7과 같이 정의된다.

[수학식 7]

Attentional Sequence-to-Sequence model은 이미 디코딩되었던 단어가 다시 디코딩될 경우, 이후 디코딩되는 단어 또한 기 디코딩되었던 단어와 동일한 서브 시퀀스(sub-sequence)를 재생성하는 반복성(repetition) 문제를 가지고 있다. 반복된 서브 시퀀스는 요약의 품질(quality)에 영향을 미치기 때문에, 이러한 반복성 문제는 해결해야 하는 문제 중 하나이다.

이러한 반복성 문제를 해결하기 위하여, 중요도(Attention)를 이용하여 디코딩 시 영향을 주었던 입력 토큰의 위치를 지속적으로 확인하는 커버리지 매커니즘(Coverage mechanism)이 제안되었다.

이 방법은 매 디코딩 스텝 t시, 이전 스텝까지 영향력을 미친 입력 토큰들의 정보를 중요도 분포(Attention distribution)를 누적하는 것으로 측정하였고, 이 누적된 정보를 추가적으로 이용하여 다음 단어 확률을 계산하였다. 이 방법은 현재까지 자동 요약이나 기계 학습 태스크에 동일한 아이디어로 적용되었다. 기계 번역의 경우, 입력 문서의 모든 단어에 대한 정보를 최대한 로스 없이 번역을 수행해야 하므로, 단어 단위의 커버리지는 타당하다.

요약은 입력 문서에서 중요한 내용만 담겨있는 문장 집합으로, 이 역할을 수행하기 위하여 자동 요약 모델은 입력 문서의 내용 중 중요한 부분만 추려내도록 학습된다. 기존 커버리지 매커니즘은 입력 단어의 위치에 대한 가중치를 고려하는 Locational coverage의 역할을 수행하기 때문에, 이는 중요한 정보만 추려내는 생성 요약 태스크에서 적합하지 않다.

이 문제를 해결하기 위하여, 본 발명은 입력 문서 내의 의미를 중심적으로 고려하기 위한 문서 맥락 기반 커버리지 매커니즘(Context based Coverage mechanism)을 제안한다. 제안 방법은 현재까지 디코딩된 단어를 생성할 때 영향을 주었던 입력 단어들의 의미를 누적하여, 다음 단어 생성 시 이 누적된 의미를 고려하는 방법이다. 제안된 콘텍스트 커버리지 벡터

는 다음의 수학식 8과 같이 정의된다.

[수학식 8]

수학식 8에서, 콘텍스트 커버리지 벡터의 내부 요약 항(inner-summation term)은 기존 콘텍스트 벡터의 정의와 일치한다. 콘텍스트 커버리지는 이전 스텝까지의 콘텍스트를 누적하고, 이것을 문서 내용에 대한 커버리지로 사용하는 것과 같다. 다음 디코딩 스텝에 영향을 미치기 위하여, 이 커버리지 특성은 Attention mechanism에 플러그 인(plugin) 되며, 그에 따라 정렬 에너지(alignment energy)는 다음의 수학식 9와 같이 정의된다.

[수학식 9]

수학식 9에서,

는 학습 가능한 파라미터이다. 제안 방법은 별도의 추가적인 커버리지 로스(Coverage loss)는 사용하지 않는다.

상기 단방향 디코더(190)는 상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하고, 상기 콘텍스트 커버리지 벡터와 상기 정렬 에너지를 기초로 상기 단어를 나열한다.

본 발명의 비교 실험을 위하여 CNN/DailyMail News dataset [Hermann et. al]을 사용하였다. 이 데이터셋의 각 뉴스는 뉴스 본문과 하이라이트(highlights)로 구성되어 있으며, 이 하이라이트는 뉴스의 저자가 직접 작성한 요약 문장이다. 학습 시, 뉴스의 본문은 입력 문서로, 하이라이트는 요약 문서로 사용된다. 학습, 검증 및 평가를 위한 데이터 분할은 [See et al. 2017]의 연구에서 사용한 것과 동일하며, 각각 287,226 쌍을 트레이닝하고, 13,368 쌍을 검증하고, 11,490 쌍을 테스트하였다.

데이터셋 내 문장은 PTBTokenizer를 이용하여 분할되었으며, 자연어 처리를 통한 전처리는 수행되지 않았다. 제안 모델의 하이퍼파라미터들(hyperparameters)은 다음과 같이 설정하였다. 모델 내 히든 차원(hidden dimension)의 차원 수 n_e, n_d는 각각 256, 단어 임베딩 차원 수 m은 128, 어휘 사이즈(vocabulary size)는 50k개로 설정하였다. 단어 임베딩은 truncated normal 0, 1^-4로 초기화하였다.

최적 모델은 매 epoch 마다 검증(validation)을 수행하여 가장 낮은 검증 로스(validation loss)를 가지는 epoch까지 학습된 모델로 선택되었다. 모델 학습은 30 epochs까지 진행되었고, 선택된 최적 모델은 27 epochs까지 학습된 모델이다. 도 3은 epoch에 따른 검증 로스를 시각화한 것이다.

본 발명의 제안 모델의 성능을 평가하기 위하여 ROUGE metric [Lin 2004]을 사용하였다. ROUGE metric의 여러 variation 중 ROUGE-1 (R-1), ROUGE-2 (R-2), ROUGE-L (R-L), uni-gram, bi-gram 및 longest common subsequence, respectively, between the generated summary and the golden standard을 이용하여 제안 방법을 평가하였다. 사용한 구현체는 Perl 기반의 ROUGE-1.5.5 module과 pyrouge package이며 평가 시 파라미터는 "-a -n 2"로 설정하였다.

비교 평가를 위한 baseline 모델로 다음 모델들을 사용하였다. Baseline 모델로 본문의 처음 세 문장을 요약으로 사용하는 모델 (Lead-3) [Nallapati 2017]을 사용하였다. 이전 state-of-the-art 모델들로 SummaRuNNer-abs and SummaRuNNer [Nallapati 2017], Reinforcement Learning based intra-attention model (RL and ML+RL with intra-attention)[Paulus], Pointer-Generator with and without coverage [See et al. 2017]를 제안 모델과 비교하였다.

실험을 통하여 평가된 각 모델의 성능은 도 3의 표와 같으며, 제안 모델은 컨텍스트 커버리지(Context Coverage)로 표기되었다. 모델들은 R-2 를 기준으로 내림차순 정렬되었다. 제안 방법은 R-1, R-2, and R-L의 점수를 각각 39.64, 17.54, 36.52를 달성하여 이전의 state-of-the-art를 뛰어넘는 결과를 보였다.

구체적으로, 본 발명의 제안 모델은 Pointer-generator with coverage 모델보다 R-1, R-2, and R-L 점수에서 각각 0.11, 0.26, and 0.14 높은 점수를 기록하였다.

이에 따라, 본 발명은 요약 문제에 적합한 커버리지 매커니즘(Coverage mechanism)을 위하여 문서 맥락 기반 커버리지 매커니즘(Context based Coverage Mechanism)을 제안하였다. 제안 방법은 CNN/Daily News Dataset을 통한 비교 평가에서 기존 state-of-the-art를 넘어서는 성능을 보였다.

특히 제안 모델은 별도의 손실(loss) 설정 없이도 목표하는 바와 같이 동작하는 것을 확인할 수 있었다. 제안 모델이 생성한 요약은 본문을 하이라이트하는 것과 같아, 제안 모델은 extractive summarization을 수행하는 경향이 강하다고 볼 수 있다.

또한, 생성된 두 요약이 동일한 ROUGE 점수로 표시되면 중요한 단어가 본 발명의 모델에 의해 보다 정확하게 생성되므로, 짧은 요약이 다른 요약보다 우수하다는 것을 나타낸다. 이는 유사한 ROUGE 점수로 간단한 요약을 생성하는 모델이 더 우수하다는 것을 의미한다. 이 관점에서, 본 발명에서 제안된 모델과 기존 모델에 의해 생성된 두 요약을 비교했다.

ROUGE로 표시된 모델이 본 발명과 유사한 점수를 얻었고 저자가 웹에 게시한 요약을 사용했기 때문에 비교 범위를 갖는 포인터 생성기 모델을 선택하였다. 요약의 길이는 요약의 단어 수로 측정된다. 두 요약의 길이는 도 4에 도시되어있다. CC는 본 발명에서 제안된 문맥 기반 커버리지 모델을 나타내고, PGC는 커버리지를 갖는 포인터 생성기 모델을 나타낸다.

박스 가운데에 있는 회색 마름모꼴은 요약 길이의 평균을 나타낸다. 본 발명에서 제안된 모델과 기존 모델에 의해 생성된 요약의 길이의 평균은 53.93과 61.59이며, 길이의 분산은 각각 153.74와 278.50이다. F-검정 및 T-검정 결과에서 요약이 다른 것보다 짧다는 결론을 내릴 수 있다. 이는 본 발명에서 제안된 모델이 보다 간결하고 정확한 요약을 생성 함을 의미한다.

본 발명에서 제안된 모델은 네거티브 로그 공산(negative log likelihood) 손실만 사용한다. 그러나 적용 범위 모델이 있는 포인터 생성기는 적용 범위에 대한 추가 손실과 네거티브 로그 공산 손실에 대한 적용 범위 손실 가중치에 대한 하이퍼 파라미터가 있다. 이러한 설정에서 본 발명에서 제안된 모델이 더 우수한 성능으로 간결하게 요약된다는 결론을 내릴 수 있다.

도 5는 본 발명의 일 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법의 흐름도이다.

본 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, 도 2의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은 문서 맥락 기반 커버리지를 이용한 자동 요약을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 5를 참조하면, 본 실시예에 따른 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은, LSTM(Long-short term memory network) 셀 기반의 양방향 인코더에서 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산한다(단계 S1).

이때, 상기 인코더의 최종 스텝의 히든 스테이트를 전방향 스텝의 히든 스테이트와 후방향 히든 스테이트의 연접(concatenation) 벡터로 정의하고, 상기 인코더의 최초 스텝의 히든 스테이트를 제로 벡터로 정의한다.

단방향 디코더에서 매 디코딩 스텝마다 상기 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산한다(단계 S2).

상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산한다(단계 S3).

상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로, 현재 스텝에서 생성 확률이 가장 높은 단어를 생성한다(단계 S4).

계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하여 상기 단어를 나열한다(단계 S5).

본 발명에서 입력 문서의 압축된 의미를 중심으로 커버리지를 고려하는 문서 맥락 기반 커버리지 매커니즘(Context based Coverage mechanism)을 제안하였다. 문서 맥락 기반 커버리지는 인코딩된 단어 의미의 중요도 기반 가중 평균 누적으로 정의되며, 이것은 본문의 단어의 위치 기반이 아닌 단어의 의미를 중점으로 고려한다. CNN/Daily Mail dataset을 이용한 성능 평가에서 본 발명에서 제안된 모델은 기존 연구보다 뛰어난 성능을 보였다.

이와 같은, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 요약 도메인에서 널리 사용되는 CNN/DailyMail Dataset을 기반한 벤치마크를 통하여, 기존 모델에 비하여 높은 성능을 보이는 것을 확인하였다. 이를 통하여 제안한 맥락 기반 커버리지가 기존의 단어 위치 기반 커버리지 보다 요약에 더욱 적합한 방법이라고 판단할 수 있다.

10: 문서 맥락 기반 커버리지를 이용한 자동 요약 장치
110: 양방향 인코더
130: 중요도 계산부
150: 콘텍스트 벡터부
170: 콘텍스트 커
190: 단방향 디코더

Claims

LSTM(Long-short term memory network) 셀 기반의 양방향 인코더가 입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산하는 단계;
중요도 계산부가 단방향 디코더에서 매 디코딩 스텝마다 상기 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산하는 단계;
콘텍스트 벡터부가 상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산하는 단계;
단방향 디코더가 상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로, 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하는 단계; 및
콘텍스트 커버리지부가 계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하여 상기 단어를 나열하는 단계;를 포함하고
상기 중요도는 어느 입력 스텝이 현재 디코딩 스텝에 가장 많은 영향을 주는지의 지표이고,
상기 단어를 나열하는 단계는, 현재까지 디코딩된 단어를 생성할 때 영향을 주었던 입력단어들의 의미를 누적하여 다음 단어 생성시 누적된 의미를 고려하는 문서 맥락 기반 커버리즘 매커니즘에 기초하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법.
제1항에 있어서, 상기 입력 스텝의 히든 스테이트를 계산하는 단계는,
상기 인코더의 최종 스텝의 히든 스테이트를 전방향 스텝의 히든 스테이트와 후방향 히든 스테이트의 연접(concatenation) 벡터로 정의하고,
상기 인코더의 최초 스텝의 히든 스테이트를 제로 벡터로 정의하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법.
제1항에 있어서,
상기 단방향 디코더가,
상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습하는 단계를 더 포함하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법.
제3항에 있어서, 상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습하는 단계는,
상기 디코더의 최초 스텝을 상기 인코더의 최종 스테이트로 정의하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법.
제4항에 있어서,
상기 인코더의 차원 수가 상기 디코더의 차원 보다 클 경우, 상기 디코더의 최초 스텝의 가중치 행렬을 이용하여 차원을 축소하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 방법.
제1항에 따른,
상기 문서 맥락 기반 커버리지를 이용한 자동 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
입력 단어와 상기 입력 단어의 임베딩 벡터 및 이전 스텝의 히든 스테이트와 셀 스테이트를 이용하여 입력 스텝의 히든 스테이트를 계산하는 LSTM(Long-short term memory network) 셀 기반의 양방향 인코더;
매 디코딩 스텝마다 디코더의 셀 스테이트와 상기 인코더의 히든 스테이드를 기초로, 상기 입력 스텝의 중요도(Attention weight)를 계산하는 중요도 계산부;
상기 입력 스텝의 중요도와 상기 입력 스텝의 히든 스테이트의 가중합을 기초로, 상기 입력 단어에 대한 콘텍스트 벡터(context vector)를 계산하는 콘텍스트 벡터부;
상기 콘텍스트 벡터부에서 계산된 모든 스텝의 콘텍스트 벡터를 누적한 콘텍스트 커버리지 벡터(Context Coverage vector)를 기초로, 정렬 에너지를 계산하는 콘텍스트 커버리지부; 및
상기 콘텍스트 벡터와 상기 디코더의 히든 스테이트를 기초로 현재 스텝에서 생성 확률이 가장 높은 단어를 생성하고, 상기 콘텍스트 커버리지 벡터와 상기 정렬 에너지를 기초로 상기 단어를 나열하는 단방향 디코더;를 포함하고,
상기 중요도는 어느 입력 스텝이 현재 디코딩 스텝에 가장 많은 영향을 주는지의 지표이고,
상기 단방향 디코더는,
현재까지 디코딩된 단어를 생성할 때 영향을 주었던 입력단어들의 의미를 누적하여 다음 단어 생성시 누적된 의미를 고려하는 문서 맥락 기반 커버리즘 매커니즘에 기초하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 장치.
제7항에 있어서, 상기 양방향 인코더는,
상기 인코더의 최종 스텝의 히든 스테이트를 전방향 스텝의 히든 스테이트와 후방향 히든 스테이트의 연접(concatenation) 벡터로 정의하고,
상기 인코더의 최초 스텝의 히든 스테이트를 제로 벡터로 정의하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 장치.
제7항에 있어서, 상기 단방향 디코더는,
상기 입력 단어와 상기 입력 단어의 임베딩 벡터를 이용하여 상기 디코더의 히든 스테이트를 학습하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 장치.
제9항에 있어서, 상기 단방향 디코더는,
상기 디코더의 최초 스텝을 상기 인코더의 최종 스테이트로 정의하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 장치.
제10항에 있어서, 상기 단방향 디코더는,
상기 인코더의 차원 수가 상기 디코더의 차원 보다 클 경우, 상기 디코더의 최초 스텝의 가중치 행렬을 이용하여 차원을 축소하는, 문서 맥락 기반 커버리지를 이용한 자동 요약 장치.