KR102462758B1

KR102462758B1 - 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102462758B1
Application number: KR1020200176550A
Authority: KR
Inventors: 이수원; 김희찬
Original assignee: 숭실대학교 산학협력단
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-11-02
Also published as: WO2022131450A1; KR102462758B9; KR20220086259A

Abstract

노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은, 여러 층의 LSTM 층으로 구성된 양방향 인코더부를 통해 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력하는 단계; 단방향 디코더부를 통해 목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산하는 단계; 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택하는 단계; 상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화하는 단계; 및 상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더부와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산하는 단계;를 포함한다. 이에 따라, 신속하고 정확한 문서의 생성 요약이 가능하다.

Description

노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR DOCUMENT SUMMARIZATION BASED ON COVERAGE WITH NOISE INJECTION AND WORD ASSOCIATION, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 주어진 자연어처리 분야 중 단일 문서 내에서 중요한 내용인 요약을 생성하는 방법에 대한 관한 것이다.

자연어처리 분야 중 문서 자동 요약은 문서 내에서 중요한 정보를 추출하는 연구 분야 중 하나이다. 특히, 빠른 속도로 텍스트 데이터가 늘어나는 상황에서, 중요한 정보만 추려낼 수 있다는 측면에서 요약 연구의 중요도는 높아지고 있다.

자동 요약은 입력 데이터의 형태에 따라 단일 문서 요약과 다중 문서 요약으로 세분화된다. 단일 문서 요약은 하나의 문서에 대하여 하나의 요약을 생성하는 문제이며, 다중 문서 요약은 동일한 주제에 대한 다수의 문서들에 대하여 하나의 요약을 생성하는 문제이다.

또한, 자동 요약은 요약을 만들어내는 방식에 따라 생성 요약(Abstractive summarization)과 추출 요약(Extractive summarization)으로 구분할 수 있다. 생성 요약은 입력된 문서를 기반으로 이와 관련된 중요 단어의 서열을 생성하여 요약을 구성하는 방법이다. 추출 요약은 문서 내에서 문장이나 단어의 중요도(Salience)를 측정하고 중요 문장을 선택하여 요약을 구성하는 방법이다.

딥 러닝 기반 생성 요약 모델은 입력 문서와 요약 문서를 직결하여 학습시킬 수 있는 End-to-End의 구조를 가진다. 이 구조는 Encoder-Decoder의 구조이며, Attentional Sequence-to-Sequence 모델이나 Transformer based Encoder-Decoder 모델을 통하여 주로 구현된다.

그러나, 기존의 생성 요약 기술은 세 가지 측면에 문제가 있다. 첫째는 요약 모델이 동일한 단어를 반복 생성하는 문제이다. 요약은 입력 문서의 중요 정보만 담겨있는 단어 서열이기 때문에 요약 내의 중복된 정보는 최소화되어야만 한다. Sequence-to-Sequence 모델에 기반한 생성 요약 모델에서는 디코딩할 때, 기생성된 단어 서열과 동일한 하위 서열을 재생성하는 반복 생성 문제가 존재한다.

이 문제는 Sequence-to-Sequence 모델의 내부에서 사용되는 순환신경망의 특성에 기인한 것으로, 기생성된 단어를 디코딩할 때 주어졌던 정보와 유사한 정보가 다시 주어질 경우 이미 생성되었던 단어를 또다시 생성하게 되는 문제이다. 이 반복 생성 문제를 해결하기 위하여, 디코딩 단계에 영향을 준 입력 단어들의 정보를 배제하기 위하여 Attention distribution 기반 positional 정보를 응용한 모델이 제안되었다.

이 모델은 영향을 준 단어의 Positional 정보를 기반으로 기 사용된 단어는 선택되지 않도록 Attention mechanism을 갱신하는 Positional Coverage method 을 사용하였다. 본문보다 짧은 요약 때문에 요약을 위한 모델은 중요하지 않은 단어를 선택할 가능성이 존재한다는 문제점을 가지고 있다. 이를 완화하기 위하여, Context based Coverage method를 이용한 모델이 제안되었으며, context는 디코딩 단계에 영향을 미친 입력 문서에 대한 정보이다. 이 모델은 Positional coverage method를 사용한 모델에 비하여 좋은 성능을 보였다.

둘째는 요약 단어 생성 시 생성된 단어의 조합에 따른 각 단어의 의미 변화를 모델링하지 않는 문제이다. 단어의 의미는 단어의 조합에 따라 그 의미가 변한다. 이것은 요약 내에서도 마찬가지이다. 초기의 Sequence-to-Sequence 구조의 요약 모델은 요약 생성 시 생성된 단어 조합에 따른 의미의 변화를 모델링하기에는 어려운 구조를 가지고 있다.

이 모델은 해당 단계에 디코딩된 정보를 이용하여 단어 생성 및 선택 확률을 계산하기 때문이다. 이 문제를 해결하기 위하여 기존의 인코더와 디코더 사이의 Inter-Attention mechanism을 디코더 내부에서 동작할 수 있도록 한 Intra-attention mechanism을 적용한 모델이 제안되었다.

이러한 Intra-attention mechanism의 동작 구조는 Transformer 기반의 모델에서도 인코더와 디코더 각각 내부적으로 동작한다. 그러나 이 방법들은 Attention에 초점이 맞추어져 있어, 조합에 따른 단어 의미 변화의 모델링과는 다소 거리가 있다.

셋째는 분류 모델이 one-hot encoded answer를 통하여 학습되기 때문에 정답이 아닌 단어 확률이 학습에 직접적으로 반영되지 않는다는 문제이다. 요약 모델은 정답 단어의 등장 확률이 최대가 되도록 a negative log likelihood function이 최소가 되도록 학습된다. One-hot encoded 정답을 이용할 경우 the negative log likelihood function은 정답 단어의 likelihood만이 반영되기 때문에, 오분류에 대한 반영이 필요하다는 문제가 있다.

KR 10-2020-0102095 A KR 10-1717230 B1 KR 10-1944331 B1

A. See, P. J. Liu, and C. D. Manning, "Get to the point: summarization with pointer-generator networks," in Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2017. H. Kim, and S. Lee, "Document Summarization Model based on General Context in RNN," Journal of Information Processing Systems, vol. 15, no. 6, pp. 1378-1391, 2019. S. Hochreiter, and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은, 여러 층의 LSTM 층으로 구성된 양방향 인코더부를 통해 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력하는 단계; 단방향 디코더부를 통해 목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산하는 단계; 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택하는 단계; 상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화하는 단계; 및 상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더부와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은, 오답 단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 학습 데이터 셋에 반영하는 단계는, 정답이 아닌 단어의 수는 전체 단어의 수와 입력 문서에만 등장하는 단어의 수의 합에서 정답 단어를 제외한 수의 평균을 이용하여 계산하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 일반 맥락은, 상기 양방향 인코더부의 모든 은닉 상태의 평균으로 정의될 수 있다.

본 발명의 실시예에서, 상기 지역 맥락은, 입력 단어의 정보와 현재 디코딩 단계의 정보와의 관련도에 대한 주의 집중 점수를 주의집중 메커니즘을 통하여 계산하고, 상기 주의 집중 점수를 가중 평균한 정보일 수 있다.

본 발명의 실시예에서, 상기 일반 맥락(general context)으로 출력하는 단계는, 입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하는 단계; 및 입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 중요 단어를 선택하는 단계는, 현재 단계의 단어 정보와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치는, 여러 층의 LSTM 층으로 구성되어 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력하는 양방향 인코더부; 목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산하는 단방향 디코더부; 상기 양방향 인코더부와 상기 단방향 디코더부 사이에서 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택하는 노이즈 추가 기반 커버리지부; 상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화하는 단어 연관부; 및 상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더부와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산하는 최종 단어 확률 분포부;를 포함한다.

본 발명의 실시예에서, 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치는, 오답 단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 억제 손실 함수부;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 손실 함수는 정답이 아닌 단어 양의 로그 우도의 평균으로 정의될 수 있다.

본 발명의 실시예에서, 상기 정답이 아닌 단어의 수는 전체 단어의 수와 입력 문서에만 등장하는 단어의 수의 합에서 정답 단어를 제외한 수를 이용하여 계산할 수 있다.

본 발명의 실시예에서, 상기 양방향 인코더부는, 입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하는 낮은 층; 및 입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출하는 높은 층;을 포함할 수 있다.

본 발명의 실시예에서, 상기 단어 연관부는, 현재 단계의 단어 정보와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링할 수 있다.

이와 같은 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법에 따르면, 맥락 정보 기반 적응형 노이즈 추가(Adaptive noise injection) 기법으로 중요한 정보만 추려내는 방법으로 종래의 생성 요약 기술에서 문서의 맥락 정보가 과도하게 입력되는 문제를 해결하였다.

또한, 기 생성된 단어 정보를 이번 단계의 정보에 따라 새로이 갱신하는 방법과 오답단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 종래의 생성 요약 기술의 문제점을 해결하였다.

본 발명은 요약 도메인에서 널리 사용되는 CNN/DailyMail Dataset을 기반한 벤치마크를 통하여, 기존 state-of-the-art 모델과 비교하여 몇몇 척도에 있어 높은 성능을 보였다. 또한, 본 발명은 매우 빠른 속도로 수렴하여 적은 학습 절차 만으로 우수한 효과를 얻을 수 있다.

도 1은 본 발명의 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치의 블록도이다.
도 2는 도 1의 양방향 인코더부의 세부 연산 과정을 보여주는 도면이다.
도 3은 도 1의 노이즈 추가 기반 커버리지부의 세부 연산 과정을 보여주는 도면이다.
도 4는 도 1의 단어 연관부의 세부 연산 과정을 보여주는 도면이다.
도 5는 본 발명의 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법의 흐름도이다.
도 6은 본 발명의 학습에 사용된 데이터의 예시를 보여주는 도면이다.
도 7은 본 발명에 따른 손실함수 정규화 초매개변수 및 주기별 검증 성능 결과를 보여주는 도면이다.
도 8은 길이 불이익 초 매개변수에 따른 ROUGE-L 점수를 보여주는 그래프이다.
도 9는 본 발명과 기존 방법이 생성한 요약 길이의 상자그림이다.
도 10은 본 발명과 기존 방법이 생성한 요약의 본문 Copy 위치의 상자그림이다.
도 11은 본 발명과 기존 방법이 생성한 요약의 본문 참조 길이의 상자그림이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치의 블록도이다.

본 발명에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치(10, 이하 장치)는 기존의 생성 요약 기술의 아래 세 가지 문제를 해결하기 위한 새로운 요약 모델을 제안한다. 첫 번째 문제점은 요약 모델이 동일한 단어를 반복 생성하는 것이다. 본 발명에서는 이 문제를 해결하기 위하여 a coverage method based on noise injection을 제안한다. The proposed coverage는 이전 맥락(context) 정보를 노이즈(noise)로 정의하여 attention mechanism이 중요한 정보만을 선택하도록 만드는 방법이다.

두 번째 문제점은 요약 단어 생성 시 생성된 단어의 조합에 따른 각 단어의 의미 변화를 모델링하지 않는 것이다. 이 문제를 해결하기 위하여 본 발명은 a word association method를 제안한다. The proposed word association method는 현재 단계의 단어 의미를 이용하여 모든 디코딩 단계의 단어 의미를 새로운 차원으로 모델링하여 단어 조합에 따른 각 단어의 의미 변화를 모델링한다.

세 번째 문제점은 분류 모델이 one-hot encoded answer를 통하여 학습되기 때문에 정답이 아닌 단어 확률이 학습에 직접적으로 반영되지 않는다는 점이다. 이 문제점을 해결하기 위하여, 정답이 아닌 단어의 등장 확률을 명시적으로 최소화하는 Suppression loss function을 제안한다. 본 발명의 제안 요약 모델은 위 세 가지 방법을 포함하여 Pointer-Generator에서 확장된 네트워크 구조로 구현되었다.

도 1을 참조하면, 본 발명에 따른 장치(10)는 양방향 인코더부(100), 단방향 디코더부(200), 노이즈 추가 기반 커버리지부(300), 단어 연관부(400) 및 최종 단어 확률 분포부(500)를 포함한다.

다른 실시예에서 본 발명에 따른 장치(10)는 오답단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 억제 손실 함수부(600)를 더 포함할 수 있다.

본 발명의 상기 장치(10)는 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 양방향 인코더부(100), 상기 단방향 디코더부(200), 상기 노이즈 추가 기반 커버리지부(300), 상기 단어 연관부(400) 및 상기 최종 단어 확률 분포부(500)의 구성은 상기 장치(10)에서 실행되는 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 양방향 인코더부(100), 상기 단방향 디코더부(200), 상기 노이즈 추가 기반 커버리지부(300), 상기 단어 연관부(400) 및 상기 최종 단어 확률 분포부(500)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 양방향 인코더부(100)는 여러 층의 LSTM 층으로 구성되어 입력 문서의 단어 서열과 임베딩 벡터(110)를 각 층의 은닉 벡터(130)의 결합인 일반 맥락(general context)으로 출력한다.

본 발명에서는 요약의 측면에서 보다 효과적인 커버리지(Coverage)의 측정을 위하여, 기존 Context based Coverage method이 필요 없는 정보에 강인하도록 개량한다. 이 Coverage method의 한계점을 극복하기 위하여, 본 발명은 a coverage method based on noise injection를 제안한다.

The coverage method based on noise injection에서, 노이즈(noise)는 임의적 변수(random variable)가 아닌 지역 맥락(local context) 정보에 따라 변하는 적응적 노이즈(adaptive noise)를 의미하며 이를 기반으로 커버리지가 정의된다. 이 커버리지는 attention mechanism에 추가되어, attention mechanism이 중요하지 않은 정보에 강인하도록 만든다(force to robust). 이를 통하여 요약 모델은 지역 맥락 내 중요한 정보만을 취할 수 있도록 학습된다.

도 1을 참조하면, 상기 장치(10)는 다층 양방향 인코더부(100)와 단층 단방향 디코더부(200)를 포함한다. 기존 인코더와 디코더 사이의 intra-attention mechanism과 그에 따른 지역 맥락은 the coverage method에 의하여 갱신된다. The proposed coverage method는 요약 단어 생성시 사용된 이전 단계의 정보를 배제시켜 Attention mechanism이 아직 요약되지 않은 정보를 가진 단어를 중점으로 가리킬 수 있도록 만든다.

상기 단방향 디코더부(200)의 정보는 the word association method를 통하여 하나의 벡터인 연관 맥락(associated context)으로 추상화된다. The word association method는 현재 단계의 단어 정보(250)와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링한다.

단어 확률 분포는 인코더 정보만 담긴 일반 맥락, 인코더와 디코더의 정보가 결합된 지역 맥락과 디코더의 정보만 담긴 연관 맥락을 이용하여 계산된다. 본 발명에서 제안한 모델의 학습을 위한 training objective는 Maximum likelihood loss function 과 더불어 추가적인 Suppression Loss function 을 이용하여 정의된다.

도 1에서 본 발명이 새로이 제안한 부분은 회색으로 표현되었다. 벡터나 분포는 점선으로 표시된 사각형으로 표현되었다. 가중치를 이용한 네트워크 구조는 굵은 사각형으로 표현되었다. 단일 벡터가 입력/출력되는 경우는 가는 선으로 표시되었다. 여러 벡터가 입력/출력되는 경우는 굵은 선으로 표시되었다. 예를 들어, 모든 은닉 벡터를 이용하여 계산되는 지역 맥락의 경우 입력은 굵은 선으로 표시되었다.

본 발명의 제안 모델은 Long Short-Term Memory network(LSTM) 셀 기반의 다층(Multi layers)의 양방향(Bi-directional) 인코더와 단층(Single layer)의 단방향(Uni-directional) 디코더를 가진 Pointer-Generator와 General Context

가 결합된 네트워크를 기본으로 구성된다.

입력 문서의 단어의 색인은

로 표현되고, 그 마지막 순번은

로 표현된다. 양방향 인코더의 입력으로, 입력 문서의 단어의 서열

과 그에 따른 임베딩 벡터

가 주어진다. 인코더는 전방향 LSTM

과 후방향 LSTM

으로 구성된다.

은닉 상태

는 전방향 은닉 상태

와 후방향 은닉 상태

의 결합(Concatenation)

으로 정의된다. 마찬가지로 셀 상태

는 전방향 셀 상태

와 후방향 셀 상태

의 결합으로 정의된다. 자세한 LSTM 셀의 연산은 아래의 수학식 1과 같이 표현된다. 각 방향의 인코더의 은닉 상태는

차원의 실수 벡터이다.

[수학식 1]

본 발명의 제안 모델에서 양방향 인코더는 여러 층의 LSTM 층으로 구성되어 있으므로, 인코더의

번째 층의 은닉 상태는

로 표현되며, 전체 층의 수는

로 표현된다. 셀 상태와 은닉 상태를 계산하기 위하여 주어지는 입력 벡터는 각 층마다 다르게 정의된다. 첫 번째 층의 입력은 단어의 임베딩 벡터

가 주어지며, 그 이후의 층에서는 이전 단계의 은닉 상태

와 임베딩 벡터

의 결합으로 Residual connection과 같이 주어진다. 인코더의 최종 은닉 상태

는 각 층의 은닉 벡터의 결합으로 정의된다. 인코더의 구체적인 계산 방식은 수학식 2 및 도 2와 같다.

[수학식 2]

심층학습 기반 단어 임베딩 연구에서와 같이, 이 다층 인코더는 낮은 층의 인코더는 입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하고, 높은 층의 인코더는 입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출한다. 인코더의 초기 셀 상태

와 은닉 상태

는

로 설정한다.

상기 단방향 디코더부(200)는 목표 문서의 단어 순서

를 입력받고, 해당 단어의 임베딩 벡터

(210)와 이전 단계의 셀 상태

와 은닉 상태

를 이용하여 이번 단계의 셀 상태

와 은닉 상태

(250)를 계산한다. 디코더의 최종 은닉 상태는

차원의 실수 벡터이다.

순번의 단층 디코더의 은닉 상태와 셀 상태는 아래의 수학식 3과 같이 정의된다.

[수학식 3]

각 층의 인코더와 디코더에 사용된 LSTM 셀은 서로 다른 셀로 셀 내부의 가중치는 모두 독립적으로 정의된다. 디코더의 초기 셀 상태와 은닉 상태

,

는 인코더의 마지막 셀 상태와 은닉 상태

,

벡터로 초기화된다. 인코더의 셀 상태와 은닉 상태의 차원 수는

이므로 디코더의 셀 상태와 은닉 상태의 차원 수와 맞지 않는다.

인코더의 셀 상태와 은닉 상태를 적합한 차원 수로 축소시켜 추상화하기 위하여, 디코더의 초기 셀 상태와 은닉 상태

,

는 아래의 수학식 4와 같이 인코더의 셀 상태와 은닉 상태의 아핀 변환(Affine transformation)으로 정의된다.

[수학식 4]

본 발명의 제안 방법에서는 다층 인코더를 사용하므로 인코더와 디코더의 Inter-Attention mechanism의 변형이 필요하다. 여러 가지 변형이 존재할 수 있으나, 본 발명에서는 문법적인 구조부터 의미적인 구조까지 각각에 대하여 별도로 모델링하기 위하여 각 층 마다 독립적으로 동작하는 주의집중 메카니즘을 정의한다. 지역 맥락

은 각

층의 지역 맥락

의 결합으로 수학식 5와 같이 정의된다

[수학식 5]

요약은 입력 문서의 의미와 요약이 동일한 의미를 내포하고 있어야 한다. 심층학습 기반 인공신경망에서 입력 문서의 전체 의미를 고려하려면, 인코더의 정보를 매 요약 단어 생성 시 고려하는 절차가 필수적으로 필요하다. 이를 위하여 입력 문서의 전반적인 맥락에서 동일한 의미를 가지는지 판단하기 위한 일반 맥락(General context)이 제안되었다. 해당 연구에서는 일반 맥락은 인코더의 모든 은닉 상태의 평균으로 정의되었다.

본 발명에서는 다층 인코더를 사용하므로, 일반 맥락

은 각 층마다 일반 맥락을 각각 계산한 후 결합하는 형태로 아래의 수학식 6과 같이 정의된다.

[수학식 6]

기존 연구에서는 일반 맥락을 주의집중 메카니즘을 통하여 반영하였으나, 최종 단어 생성 단계까지 그 정보가 충분히 전달되지 못하는 한계점이 존재하였다. 본 발명에서는 이 문제를 해결하고 보다 직접적으로 단어 생성에 영향을 미치기 위하여 최종 단어 확률 분포

, 단어 선택 확률

와 단어 생성 확률 분포

를 아래의 수학식 7과 같이 재정의한다.

[수학식 7]

수학식 7에서, 인코더의 각 층마다 주의집중 점수를 계산하므로 각 층의 해당 단어에 주의집중 점수의 합을 최종 포인팅 확률로 계산한다. The associated context

의 세부 사항은 후술된다.

상기 노이즈 추가 기반 커버리지부(300)는 상기 양방향 인코더부(100)와 상기 단방향 디코더부(200) 사이에서 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택한다.

요약 모델은 주어진 입력 문서와 요약 쌍을 이용하여 중요한 정보만 추려낼 수 있도록 학습된다. 이 특성은 요약 내의 반복 생성 문제를 해결하기 위한 커버리지 메커니즘과도 그 관계가 있다. 커버리지 메커니즘은 입력 단어 중에서 이미 요약된 의미를 가진 단어를 걸러내는 역할을 수행하는데, 이 역할은 중요한 단어 위주로 선택하는 것이라고 보여질 수 있다.

기존 커버리지 메커니즘을 이용한 요약 모델은 positional coverage method을 사용하거나, 입력 단어의 의미인 지역 맥락을 이용한 커버리지를 사용하였다. Context based Coverage는 요약의 정보 축약의 관점에서 재정의된 커버리지이며, Positional coverage와 비교하여 조금 나은 성능을 보였다.

이 문제점은 요약 단어 생성 시 누적되는 맥락 정보가 과도하여 Inter-Attention mechanism이 중요 단어를 선택하기 위하여 필요한 정보를 놓치고 있기 때문에 발생하는 것으로 판단된다. 이 문제를 해결하기 위하여 본 발명은 coverage method based on noise injection를 제안한다.

이 coverage method based on noise injection은 요약 모델이 디코딩 단계에 따라 지역 맥락 내의 관련 없는 정보에 force to robust 하도록 만들어 보다 효과적으로 커버리지가 동작할 수 있도록 만드는 방법이다. 본 발명에서 다층 인코더에 대응되는 다층 주의집중 메커니즘을 사용하므로 커버리지는 아래의 수학식 8과 같이 각 층 마다 별도로 정의된다.

[수학식 8]

수학식 8과 같이,

층의 coverage based on noise injection

는 현재 단계에 필요 없을 가능성이 존재하는 정보인 노이즈

와 바로 이전 단계의 지역 맥락

의 합으로 정의된다. 학습 시

단계에서 필요한 정보는 바로 이전 단계에 요약 단어 생성에 영향을 미쳤던 지역 맥락 정보

이다. 필요 없는 정보인 노이즈

는

단계부터 초기 단계까지의 지역 맥락

의 합으로 정의된다. 이 노이즈

에는 입력된 단어 임베딩과 디코딩 단계에 따라 요약에 필요하거나 필요치 않은 정보가 함께 뒤섞여 있다고 볼 수 있다.

이러한 지역 맥락에 의존적인 특성에서 이 노이즈

는 입력 정보에 따라 변하는 Context based Adaptive Noise의 일종으로 볼 수 있다. 이 노이즈는 학습 시에만 적용된다. 이 커버리지는 inter-attention mechanism에 추가되어 inter-attention mechanism(310)이 중요 단어만을 선택하도록 유도한다. 이 연산 과정은 도 3과 같이 도식화할 수 있다.

Context based Adaptive Noise

는 다음과 같은 방식으로 모델 내에서 동작한다고 볼 수 있다. 지역 맥락은 입력 단어의 정보를 현재 디코딩 단계의 정보와의 관련도를 주의집중 메커니즘을 통하여 계산하고, 이 주의 집중 점수를 이용하여 가중 평균된 정보이다. 이때 지역 맥락 벡터의 값의 범위는 이론적으로는 음의 무한대에서 양의 무한대까지이다.

이 지역 맥락의 누적을 본 발명의 제안 방법과 같은 노이즈로 사용할 경우, 모델의 가중치들은 요약 단어 생성에 필요한 정보를 가진 차원을 제외하고 나머지 차원은 억제되도록 학습되어, the intra-attention mechanism이 불필요한 맥락 정보에 강인한(Robust) 특징을 추출할 수 있게 만든다. 결과적으로, 인코더와 디코더의 양측 정보를 모두 활용하는 inter-attention machanism의 특성에 따라 양 인코더와 디코더 내의 가중치 또한 필요한 특성만 반영될 수 있도록 학습될 것이다.

상기 단어 연관부(400)는 상기 단방향 디코더부(200)가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화한다.

기존 자동 요약 모델들은 디코더에서 생성되는 단어의 조합에 따른 단어 의미를 파악하기 위하여 자기-주의집중(Self-attention) 메카니즘이나 내부-주의집중(Intra-attention) 메카니즘을 사용한다. 이 방법들은 단어 의미 사이의 관계를 중점적으로 다루기 때문에 단어 조합에 따른 단어의 의미 변화를 디코더의 은닉 상태에 직접적으로 모델링할 수 없다는 한계점이 존재한다.

본 발명에서는 이러한 한계점을 극복하고 단어의 조합과 그 관계에 따라 단어의 의미를 구체화하는 word association method를 제안한다. The word association method는 현재 단계의 단어 의미를 이용하여 모든 디코딩 단계의 단어 의미를 갱신하고, 이 갱신된 전체 디코딩 단계의 정보를 하나의 벡터인 연관 맥락으로 추상화하는 방법이다.

The word association method는 현재 단계의 단어 의미와 이전 단계의 단어 의미를 각각 비교하여 각 단계의 단어들을 새로운 차원으로 투영(projection)하여 단어 의미를 교정한다. 수정된 각 단어들의 정보는 하나의 벡터로써 연관 맥락으로 모델링된다. 연관 맥락은 적합한 요약 단어가 생성되도록 최종 단어 확률 분포에 영향을 미친다.

이를 위하여 word association method는 기본 구조로 기존의 Intra-Attention mechanism을 사용한다. 내부-주의집중 메카니즘은 인코더와 디코더 사이의 Inter-주의집중 메카니즘과 다르게, 디코더 내에서 동작하는 주의집중 메카니즘이다. 이를 통하여

순번의 연관 맥락(associated context)

은 아래의 수학식 9와 같이 정의된다.

[수학식 9]

수학식 9에서, 디코딩

순번의 associated context

는 각 순번

에 따라 updated hidden state

와 내부 주의집중 점수

의 가중 합으로 정의된다. 디코더 내 순번

와

사이의 내부 주의집중 점수

는 내부 주의집중 에너지

의 소프트맥스로 정의된다.

내부 주의집중 에너지

는 디코더

순번의 은닉 상태

와

순번의 은닉 상태

를 이용하여 정의된다. 디코더 내부의 주의집중 메카니즘이기 때문에 순번

와

는 항상 순번

보다 작거나 같다. 각 단어의 조합에 따라 디코딩

순번에서 각 순번에 따라 updated hidden state

는 아래의 수학식 10과 같이 정의된다.

[수학식 10]

수학식 10에서 updated hidden state

는

순번의 단어 정보인 은닉 상태

와

순번의 은닉 상태

를 이용하여 정의된다. 이때 updated hidden state

는, 내부 주의집중 점수

와 다르게, 기존 디코더의 은닉 상태와 동일한

차원의 벡터이다. 함수

는 활성함수를 나타낸다.

상기 최종 단어 확률 분포부(500)는 상기 양방향 인코더부(100)로부터 출력된 일반 맥락(150), 상기 양방향 인코더(100)와 상기 단방향 디코더부(200)의 정보가 결합된 지역 맥락(330) 및 상기 단방향 디코더부(200)의 연관 맥락(410)을 이용하여 단어 확률 분포를 계산한다.

상기 억제 손실 함수부(600)는 오답단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋(700)에 반영한다.

일반적으로 분류 모델은 주어진 데이터에 대하여 정답 클래스의 확률은 높고, 정답이 아닌 클래스의 확률은 낮도록 학습되는 것이 좋은 모델이라고 판단할 수 있다. 카테고리 분포를 통하여 분류하는 인공신경망 모델은 기본적으로 주어진 데이터의 예측된 클래스가 정답 클래스일 확률이 높아지도록 학습된다. 요약 문제의 경우에는 요약 모델은 정답 요약 단어

가 생성될 확률이 최대가 되도록(610), 수학식 11의 Negative Log Likelihood(NLL) loss를 이용하여 학습된다.

[수학식 11]

요약 모델은 category distribution을 추정하기 때문에, 이 손실은 모델이 출력한 분포에서 정답 단어의 확률만을 이용하게 된다. 이 경우, 정답이 아닌 단어에 대한 확률 정보는 이용되지 않는 문제가 존재한다. 오분류 확률 또한 학습에 이용하기 위하여 우리는 오분류에 대한 패널티(penalty)인 억제 손실 함수(Suppression Loss function)를 제안한다.

Suppression Loss function

는 정답이 아닌 단어의 등장 확률을 최소화시키고, 기존 NLL loss function 과 더불어 요약 모델을 학습하는데 사용되며, 수학식 12와 같이 정의된다.

[수학식 12]

수학식 12에서, Suppression Loss function

는 정답이 아닌 단어

의 양의 로그 우도의 평균으로 정의된다. 평균 계산 시 정답이 아닌 단어의 수는 전체 Vocabulary

의 수

와 입력 문서에만 등장하는 단어의 수

의 합에서 정답 단어를 제외한 수를 이용하여 계산된다. 단어 사전 크기가 충분히 크기 때문에, 평균 계산 시 단어의 수는 포인팅(pointing)하는 경우는 제외하고 단어 사전의 크기로 고려되었다. 단어

는 정답이 아닌 단어 집합

의 원소이다.

본 발명에서 사용하는 최종 손실 함수

은 아래의 수학식 13과 같이 정의된다. 최종 손실 함수 은 기존 NLL loss

와 Suppression Loss

의 합으로 정의되며, Suppression Loss

의 영향력은 정규화 매개변수

를 통하여 제어된다. 최적의 정규화 매개변수

는 검증을 통하여 선택된다.

[수학식 13]

본 발명에서 요약 생성을 위하여 사용된 빔 탐색 알고리즘은 제안된 기 생성된 Trigram을 제외하는 변형된 빔 탐색 알고리즘이다. 자세히는, 이 방법은 이번 단계에서 생성된 단어가 포함된 Trigram이 기존 디코딩된 서열에 존재하는 Trigram인 경우 해당 단어 이후의 탐색을 배제하는 방법이다.

본 발명에서는 이 제약 조건 이외에도 추가적으로 동일한 Unigram 이나 Bigram이 연속적으로 생성되는 것을 차단하기 위하여 바로 이어서 동일한 Unigram 이나 Bigram이 생성된 경우는 향후 탐색에서 배제되었다. Unknown token이 생성되는 경우도 마찬가지로 배제되었다. 빔 탐색 알고리즘을 통하여 요약을 생성할 때, 탐색된 경로에 대한 점수는 단어 등장 확률의 로그 우도의 합으로 평가된다.

이러한 설정에서는 경로가 긴 경우, 보다 등장 확률이 높은 단어들로 구성되어있어도 상대적으로 평가절하될 가능성이 존재한다. 즉, 디코딩되는 문장의 길이가 짧은 쪽이 긴 쪽 보다 유리하게 평가되는 경향이 존재한다. 이 문제를 해결하기 위하여, 본 발명에서는 디코딩된 단어 서열

을 기반으로 기 제안된 길이 불이익(Length penalty)

을 이용한 빔 탐색 알고리즘의 경로 평가 함수를 사용하며, 그 정의는 아래의 수학식 14와 같다.

[수학식 14]

수학식 14에서, 길이 불이익은 단어의 수가 많을수록 그 값이 커지도록 설정되어있으며, 그 값의 영향력은 길이 불이익 초매개변수

에 의하여 결정된다. 길이 불이익은 결과적으로 다수의 단어에 대한 음의 로그 우도의 합을 길이에 대하여 정규화하는 형태이다.

도 5는 본 발명의 일 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법의 흐름도이다.

본 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 5를 참조하면, 본 실시예에 따른 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은, 여러 층의 LSTM 층으로 구성된 양방향 인코더부를 통해 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력한다(단계 S10).

상기 일반 맥락은, 상기 양방향 인코더부의 모든 은닉 상태의 평균으로 정의될 수 있다. 상기 일반 맥락(general context)으로 출력하는 단계는, 입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하는 단계 및 입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출하는 단계를 포함할 수 있다.

단방향 디코더부를 통해 목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산한다(단계 S20).

현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택한다(단계 S30).

상기 중요 단어를 선택하는 단계는, 현재 단계의 단어 정보와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링할 수 있다.

상기 지역 맥락은, 입력 단어의 정보와 현재 디코딩 단계의 정보와의 관련도에 대한 주의 집중 점수를 주의집중 메커니즘을 통하여 계산하고, 상기 주의 집중 점수를 가중 평균한 정보일 수 있다.

상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화한다(단계 S40).

상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산한다(단계 S50).

본 발명은 오답단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 단계를 더 포함할 수 있다.

상기 손실 함수는 정답이 아닌 단어 양의 로그 우도의 평균으로 정의될 수 있다. 구체적으로, 정답이 아닌 단어의 수는 전체 단어의 수와 입력 문서에만 등장하는 단어의 수의 합에서 정답 단어를 제외한 수의 평균을 이용하여 계산할 수 있다.

이하에서는, 본 발명이 제안한 방법의 타당성 검증을 위한 실험의 세부 사항에 대하여 설명한다. 본 발명의 학습과 성능 검증을 위하여, 영문으로 구성된 CNN/Daily Mail 데이터 셋[K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, "Teaching machines to read and comprehend," Advances in Neural Information Processing Systems, pp. 1693-1701, 2011.]을 사용하였다. 이 데이터 셋은 심층학습 기반 생성 요약과 추출 요약 모델의 학습에 널리 사용되어, 제안 모델의 성능은 객관적으로 측정될 수 있다.

각 데이터는 뉴스 본문과 요약이 한 쌍으로 구성되어있으며, 학습 시 입력 문서로 제목은 사용되지 않고 본문만 사용된다. 요약 문서는 뉴스 저자가 작성한 중요 내용(Highlight)으로 구성된다. 본 발명에서는 개체명 인식 등의 자연어처리 기술을 통한 전처리를 수행하지 않은 버전(Non-anonymized version)을 학습 및 검증과 평가에 사용하였다.

자세히는, 뉴스 문서는 띄어쓰기를 기준으로 토큰화(Tokenization)되었고, 전부 소문자화되었다. 특수 문자는 문장 부호인 마침표, 따옴표, 쌍따옴표 및 괄호를 제외하고 모두 제거되었다. 이때 따옴표와 쌍따옴표는 여는 따옴표와 닫는 따옴표가 구분되었다. 불용어 처리는 따로 수행되지 않았다. 모델 학습 시 학습 데이터는 매 주기마다 임의로 섞은 후 사용되었다. 학습에 사용된 데이터의 예시는 도 6과 같다.

인코더와 디코더의 입력 단어

,

는 인코더의 입력인지 디코더의 입력인지를 구분하기 위하여 다르게 표기된 것으로, 동일한 단어라면 두 단어의 임베딩 벡터는 동일하다. 본 발명의 제안 모델을 위한 초매개변수는, 다른 연구들과 유사하게, 실험 환경이 허락하는 한에서 가장 크게 설정되었고, 자세한 설정은 다음과 같다.

인코더는 두 개의 층으로 구성된다. 단어 임베딩 차원 수은 128로 설정되었다. 인코더의 LSTM 내 상태의 차원 수는 128로 설정되었고, 디코더의 LSTM 내 상태의 차원 수는 256으로 설정되었다. 또한, 주의집중 메카니즘에 대한 차원 수는 128로 설정되었으며, 단어 생성 확률을 위한 다층 퍼셉트론의 은닉 층의 차원 수는 256으로 설정되었다. 학습 시 사용된 단어 사전은 학습 데이터에서 가장 많이 등장하는 상위 5 만 개의 단어로 정의되었다.

인코더와 디코더에 모두 동일한 단어 사전과 임베딩 벡터가 사용되었다. 최대 입력 문서의 길이 와 최대 요약 문서의 길이는 각각 400, 100으로 설정되었다. 이 단어 사전과 입출력 문서의 길이는 CNN/Daily Mail 데이터셋을 사용하여 학습되는 모델들과 공통적인 설정 방법이다. 빔 탐색은 최대 출력 문서 길이 보다 20 만큼 더 깊게 수행되었다.

타 모델과의 객관적인 비교를 위하여 검증 및 평가 시에는 요약은 다른 모델과 동일하게 앞 100 단어 만으로 구성되었다. 학습 가능한 매개변수들은 초기화되었다.

자세히는, Inter and Intra주의집중 메카니즘에 사용되는 가중치는 최소, 최대가 각각 -0.02, 0.02 인 균등 분포(Random uniform distribution)를 이용하여 초기화되었고, 단어 임베딩 등 그 이외의 가중치는 평균 0, 표준편차 0.0001인 절단 정규 분포(Truncated normal distribution)로 초기화되었다. 모든 편향(Bias)은 0으로 초기화되었다.

학습 시 배치 크기는 32 로 설정되었고, 최대 학습 주기(Epoch)는 7로 설정되었다. 본 발명의 제안 모델에서 학습 시 사용한 최적화 알고리즘(Optimizer)은 Adam 최적화 알고리즘[D. P. Kingma, and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.]이다. Adam 최적화 알고리즘을 위하여 사용된 초매개변수로 학습률은 0.001,

는 0.9,

는 0.999 로 설정되었다. 그래디언트 폭발 문제를 억제하기 위하여 2를 기준으로 글로벌 노름을 이용한 그래디언트 클리핑을 적용하였다. 또한, 단어 생성 확률의 계산 안전성을 위하여 최소 확률 1e-10 을 기준으로 확률 클리핑을 적용하였다.

모델 학습 및 평가 시 사용된 실험 환경은 단일 GeForce RTX 2080 Ti GPU로 구성된 워크스테이션으로 설정되었다. 실험은 1 epoch 학습 시 약 105 분 정도가 소요되었다.

자동 요약 문제에서, 요약 모델의 최종 목표는 사람이 작성한 요약과 같은 수준의 요약을 생성하는 것이기 때문에 정답 단어 서열로 사람이 작성한 요약을 사용한다. 이러한 환경에서는 자동으로 생성된 요약이 얼마나 우수한 것인지 정량적으로 판단하기 어렵다. 요약 모델의 성능에 대한 정량적 평가를 위하여 Recall-Oriented Understudy for Gisting Evaluation(ROUGE) 척도가 제안되었다.

ROUGE 척도는 사람이 작성한 단어 서열과 얼마만큼 일치하는가를 비율로 표현한 척도이며, 일치하는 단위에 따라 여러 변형이 존재한다. 본 발명에서는 그 중 ROUGE-1, ROUGE-2 와 ROUGE-L 척도를 사용한다. ROUGE-1 과 ROUGE-2 는 ROUGE-N 의 일종으로, ROUGE-N 은 모델로부터 생성된 요약과 정답 요약 사이의 n-gram 단위의 일치 비율로 평가하는 척도이며, 아래의 수학식 15와 같이 F1 점수 형태로 정의된다.

[수학식 15]

수학식 15에서

와

은 각각 정답 요약(Golden standard)과 모델이 생성한 요약을 나타내며,

와

은 각 요약 내의 문장 집합을 나타낸다.

은 문장 내에 존재하는 n-gram을 나타낸다.

은 n-gram

이 정답 요약과 생성된 요약 양쪽에서 동시에 등장한 횟수를 나타낸다.

과

은 각각 ngram

이 각각 정답 요약과 생성된 요약에 등장한 횟수를 나타낸다.

ROUGE-N의 재현율(Recall)

은 정답 요약과 생성된 요약 양쪽에서 등장한 n-gram의 수에서 정답 요약에서 등장한 n-gram의 수를 나눈 것으로 정의되며, ROUGE-N의 정밀도(Precision)

은 정답 요약과 생성된 요약 양쪽에서 등장한 n-gram의 수에서 생성된 요약에서 등장한 n-gram의 수를 나눈 것으로 정의된다.

N-gram 을 이용한 방법 이외에도, ROUGE-L은 정답과 생성된 요약 사이에서 단어의 최장 공통 부분 수열(Longest Common Subsequence; LCS)을 기반한 척도로 수학식 16과 같이 F1 점수 형태로 정의된다.

[수학식 16]

수학식 16에서,

은 두 문장

와

사이의 최장 공통 부분 수열을 나타낸다. 두 요약 사이의 최장 공통 부분 수열의 재현율

은 모든

의 합집합의 원소 수의 합을 정답 요약

의 전체 단어의 수

로 나눈 것으로 정의되며, 두 요약 사이의 최장 공통 부분 수열의 정밀도

는 모든

의 합집합의 원소 수의 합을 생성된 요약 의 전체 단어의 수

으로 나눈 것으로 정의된다.

본 발명에서는 비교 실험에서 객관적인 ROUGE 척도 계산을 위하여 실험은 공개된 펄 기반의 ROUGE-1.5.5 모듈과 이 모듈을 래핑(Wrapping)한 파이썬 패키지인 pyrouge 패키지를 사용하여 진행되었다. ROUGE 척도 계산에 사용된 매개변수는 '-n 2 -l 10'로 설정되었다. 이 매개변수는 ROUGE-2 까지만 계산하고, 100 단어 까지만 사용한다는 의미이다. ROUGE 점수는 F1 점수를 기준으로 측정되었다.

인공신경망은 과적합(Overfitting)의 가능성이 높은 모델 중 하나로, 인공신경망의 확장된 형태인 심층학습 모델 또한 마찬가지이다. 본 발명에서는 과적합을 방지하기 위하여, 최적 매개변수는 학습 조기 종료(Early stopping) 방식으로 선택된다.

본 발명의 제안 모델 내 학습된 매개변수는 매 주기의 학습이 끝날 때마다 저장되었다. 손실 함수 내 정규화 초 매개변수

와 주기에 따른 최적의 모델 매개변수와 빔 탐색 알고리즘에서 사용되는 길이 불이익을 위한 초매개변수

를 찾기 위하여 가능한 모든 조합을 탐색하는 것은 많은 시간이 소요되는 과정이다. 이 문제를 완화하기 위하여 우리는 빔 크기를 3, 길이 불이익 초매개변수

를 0으로 고정한 후 우선적으로 정규화 초매개변수와 주기에 따른 최적 모델의 매개변수를 탐색하였다.

최적 모델은 매 주기의 매개변수 마다 검증을 수행하여 가장 높은 ROUGE-L 성능을 달성한 모델로 선택된다. 검증은, 평가와 마찬가지로, 검증 데이터로 실제 요약 생성을 통한 ROUGE 점수 측정으로 이루어진다. 손실함수 정규화 초매개변수

는 0.1 부터 1.1 까지 0.1 의 단위로 설정되었고, 주기는 2 주기부터 7 주기까지 평가되었다. 검증 데이터를 통한 탐색 결과, ROUGE-L (RL)점수는 표 1 과 도 7과 같다.

[표 1]

검증을 위한 그리드 탐색 결과 최적 정규화 매개변수는 38.73 of ROUGE-L 을 달성한 0.5 of Suppression loss 의 최적 정규화 파라미터

와 3 of 최적 주기로 확인되었다. 빔 탐색 알고리즘의 최적 길이 불이익 초매개변수

는 앞서 찾아낸 최적 모델의 매개변수를 기반으로 탐색된다. 길이 불이익 초매개변수

은 0.7 에서 1.7 까지의 값을 가지며, 0.1 단위마다 검증을 수행하였다. 이때 빠른 탐색을 위하여 최대 빔 길이는 3으로 고정되었다. 검증 데이터를 통한 탐색 결과, ROUGE-1, ROUGE-2 와 ROUGE-L (R-1, R-2, R-L)는 표 2 와 도 8과 같다.

[표 2]

검증을 위한 그리드 탐색 결과, 최적 길이 불이익

은 38.88 of ROUGE-L로 가장 높은 점수를 달성한 1.4 로 확인되었다. 빔 크기는 10으로 설정된다. 본 발명에서 제안한 모델의 최종 성능 평가는 찾아낸 최적 매개변수와 초매개변수를 기반으로 이루어진다.

비교 평가를 위하여 선택된 모델들은 문서의 첫 세 문장을 요약으로 제공하는 베이스 라인(Lead-3), Pointer-Generator without and with coverage[A. See, P. J. Liu, and C. D. Manning, "Get to the point: summarization with pointer-generator networks," in Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2017.], Reinforcement Learning- based model (RL and ML+RL with intra-attention)[ R. Paulus, C. Xiong, and R. Socher, "A deep reinforced model for abstractive summarization," in Proceedings of the International Conference on Learning Representations, 2018.], Deep Communicating Agents[A. Celikyilmaz, A. Bosselut, X. He, and Y. Choi, "Deep communicating agents for abstractive summarization," in Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018.], Bottom-up Summarization[S. Gehrmann, Y. Deng, and A. M. Rush, "Bottom-up abstractive summarization," in Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2018.], ETADS[Y. You, W. Jia, T. Liu, and W. Yang, "Improving abstractive document summarization with salient information modeling," in Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2019.], Monotonic Alignments [T. Chung, Y. Liu and B. Xu, "Monotonic alignments for summarization,"Knowledge-based Systems, vol. 192, 105363, 2020.]이다.

본 발명의 제안 모델과 다른 모델들의 ROUGE F1 점수는 표 3과 같다. 본 발명의 제안 모델 및 다른 모델은 실선으로 구분되어있으며, 다른 연구들과 마찬가지로 ROUGE-2 점수를 기준으로 오름차순 정렬되었다.

[표 3]

실험 결과 본 발명의 제안 방법은 과거의 State-of-the-art 모델들보다 우수한 성능을 보였으며, 가장 최근의 State-of-the-Art와 비교하였을 때 몇몇 척도에서는 우수하며 다른 척도에서는 비교할만한 성능을 내었다. ETADS와 비교하여 제안 방법은 ROUGE-2를 기준으로 0.13 점 상승한 19.14 를 기록하였고, 다른 ROUGE-1 이나 ROUGE-L는 각각 0.12 점 낮은 41.63 과 0.05 점 낮은 38.84를 기록하였다. ETADS는 모델 네트워크에 대한 Dropout [REF]과 학습률에 대한 Noam decay strategy[REF]을 추가적으로 적용하여 학습되었다.

본 발명의 제안 방법은 Dropout 이나 추가적인 학습률에 대한 전략을 적용하지 않고 상대적으로 단순한 학습 방식을 통하여 이와 같은 성능을 기록하였다. Deep communicating agents (ML+RL)와 비교하여 제안 방법은 ROUGE-L를 기준으로 0.92 점 상승한 점수를 기록하였다. 다른 ROUGE-1 이나 ROUGE-2는 각각 0.06 점과 0.33 이 낮은 점수를 기록하였다. the deep communicating agents (ML+RL)은 ROUGE metric을 reward로써 직접 최대화를 하는 강화학습 기반 방법이며, embedding matrix을 pretrained된 GloVe를 이용하여 초기화하였다.

본 발명의 제안 모델은 Maximum likelihood 만을 이용하여 최적화하였고, embedding matrix 또한 random 으로 초기화하여, 보다 간단한 설정을 기반으로 이와 같은 성능을 기록하였다. 이러한 상황에서 제안 모델의 성능은 remarkable 하다.

본 발명의 제안 모델은 수렴 속도에 있어서는 기존 State-of-the-art 를 뛰어넘는다. ETADS와 Deep communicating agents는 모두 200,000 steps까지 학습한 후 평가에 사용되었다. 제안 모델은 배치 크기를 32로 설정하였기 때문에 주기 당 8,971 단계가 학습된다. 표 1 에서와 같이 검증을 통하여 최적 주기는 3 주기로 확인되었는데, 이는 26,913 단계만 학습된 파라미터를 통하여 달성된 성능이다.

즉, 본 발명의 제안 모델은 기존 state-of-the-art의 13% 수준의 training steps 만으로도 경쟁력 있는 성능을 달성하였다. 이러한 빠른 수렴 속도와 기타 정규화 방법을 사용하지 않은 점을 비추어보아, 제안 모델은 자동 요약에 특화된 특성을 매우 적절하게 새로이 정의되었다고 판단할 수 있다. 본 발명의 제안 방법과 기존 방법이 생성한 요약의 길이는 표 4 와 도 9과 같다. 이 길이는 단어의 수를 기준으로 측정되었다.

[표 4]

표 4의 가독성을 위하여 정답 요약은 Reference로, 기존 방법인 Pointer Generator with coverage는 PG 로, Bottom-up Summarization는 Bottomup 으로 표현되었다. 본 발명이 제안 방법은 Proposed 로 표현되었다. 도 9의 상자 그림에서 평균은 붉은 원으로 표현되었다. 정답 요약의 길이가 매우 긴 경우도 존재하여, 도 9에는 최대 100 까지만 표현되었다.

본 발명의 제안 방법이 생성한 요약은 기존 방법이 생성한 요약과 정답 요약 대비 평균적으로 더 긴 요약을 생성하는 것으로 판단된다. 제안 방법이 입력 문서를 얼마나 다양한 위치의 단어를 카피하고, 한 번에 몇 단어나 카피하는지 판단하기 위하여, 생성된 요약 구와 일치하는 입력 본문의 위치와 해당 구의 길이를 조사하였다.

만약, 요약 구가 입력 본문 내에 다수 존재한다면, 해당 위치의 평균을 요약 구의 본문 위치로 정의하였다. 요약 구의 참조 위치는 표 5 와 도 10과 같다.

[표 5]

참조 위치는 입력 본문 내 위치이기 때문에, 최대 입력 문서 길이가 400 이므로 0 부터 399 사이의 값을 가진다. 도 10의 상자그림에서 평균은 붉은 원으로 표현되었다. 표 5에서 정답 요약의 평균 위치인 160.39는 정답 요약은 평균적으로 본문 내 160 번째 위치를 참조한다는 것을 나타낸다. 제안 방법의 평균 참조 위치는 104.19 로 기존 Bottom-up summarization 방법의 평균 참조 위치인 113.95 보다 입력 문서의 앞부분을 참조하지만, Pointer-generator with coverage 방법의 평균 참조 위치인 96.08 보다는 뒷부분을 참조한다.

본 발명에서 제안한 방법의 참조 길이의 표준 편차는 38.42로 이 두 방법들보다 작은 것을 확인할 수 있으며, 이를 통하여 제안 방법은 문서 내 중요 내용이 담긴 일정한 영역을 다른 기존 모델에 비하여 집중적으로 참조하였다고 볼 수 있다. 요약 구의 copy 길이의 결과는 표 6과 도 11과 같다.

[표 6]

짧은 길이는 본문의 내용을 그대로 복사하는 경우가 적다는 의미이다. 표 6에서 정답 요약의 평균 길이인 2.38은 연속으로 참조한 단어의 수가 약 2.38 개라는 것을 나타낸다. 본 발명의 제안 방법이 생성한 요약의 참조 길이의 평균은 12.31로 정답 요약의 2.38 에 비하여 길다.

또한, 본 발명의 제안 방법의 평균 참조 길이는 기존 Bottom-up summarization 방법의 평균 참조 길이인 10.13 보다 길며, Pointer-generator with coverage 방법의 평균 참조 길이인 18.07 보다는 짧은 것을 확인하였다. 본 발명의 제안 방법의 참조 길이의 표준 편차는 5.59 로 이 두 방법들 보다 작은 것으로 확인할 수 있으며, 이를 통하여 상대적으로 일관된 길이로 본문을 참조한다고 판단할 수 있다.

본 발명에서 제안한 방법은 총 세 가지로, the coverage method based on noise injection, the word association method and the suppression loss function 이다. 이 세 제안 방법이 성능 향상에 각각 어느정도 영향을 주었는지 파악하기 위하여, 일부의 제안 방법만으로 구성된 모델들 이용하여 실험을 수행하였다.

모델은 총 세 가지이다. 첫 번째 모델은 the coverage method 로만 구성된 모델(C model)이다. 두 번째 모델은 the coverage method 와 the word association method 로 구성된 모델(C-A model)이다. 세 번째 모델은 the coverage method 와 the suppression loss function 으로 구성된 모델(C-L model)이다. 이 세 모델은 각 제안 방법에 따라 성능에 대한 영향력을 판단할 수 있는 지표가 된다.

세 모델의 학습과 최적 모델 선택은 상기 설명한 방법과 동일하게 진행되었다. 이때 C model 과 C-A 모델은 the suppression loss function이 사용되지 않았으므로, loss 정규화 매개변수

는 탐색되지 않았다. 탐색된 세 모델의 최적 매개변수는 표 7과 같다.

[표 7]

검증을 위한 그리드 탐색 결과 각 모델의 최적 매개변수는 다음과 같이 확인되었다. C model 은 37.67 of ROUGE-L을 달성한 5 주기에서 최적의 매개변수를 가진다. C-A model 은 37.89 of ROUGE-L 을 달성한 3 주기에서 최적의 매개변수를 가진다. C-L model은 모델의 최적 매개면수를 기준으로 각 모델을 위한 최적 길이 불이익 초매개변수

가 탐색되었다. 검증 데이터를 통한 탐색 결과, 모델 별 최적 길이 불이익 초매개변수에 따른 R-1, R-2 and R-L 은 표 8과 같다

[표 8]

C-A model 의 탐색에서 동일한 R-L 을 기록한 경우가 존재하였다. C-A model의 최적 길이 불이익 초매개변수는 그 중 R-2 가 가장 높은 길이 불이익 초매개변수로 선택되었다. 비교를 위한 Baseline은 the pointer generator with general context와 거의 유사한 [H. Kim, and S. Lee, "Document Summarization Model based on General Context in RNN," Journal of Information Processing Systems, vol. 15, no. 6, pp. 1378-1391, 2019.]이다. 실험 결과는 표 9와 같다.

[표 9]

표 9에서 C model 의 결과로부터, 커버리지 방법은 베이스라인에 비하여 ROUGE1 에서 1.11, ROUGE-2 에서 0.91, ROUGE-L 에서 1.39 를 향상시켰다. C-A 모델의 결과로부터 word association method 는 C-model과 비교하여 ROUGE-2 에서 0.16 를 향상시켰고 ROUGE-1 에서 0.2, ROUGE-L 에서 0.22 만큼 낮은 점수를 기록하였다.

CL 모델의 결과로부터, suppression loss 는 C model 과 비교하여, 각 ROUGE 점수에서 0.66, 0.38, 0.60 을 향상시켰다. 모든 제안 방법이 사용된 경우, C-L 모델과 비교하여, ROUGE-1 은 0.07 떨어졌지만, ROUGE-2 와 ROUGE-L 은 각각 0.14 와 0.17 향상하였다. 이러한 결과로부터 본 발명의 제안 방법 사이의 시너지는 좋다고 판단할 수 있다

본 발명은 주어진 뉴스 데이터에서 중요한 내용인 요약을 생성하는 방법에 대한 것이다. 본 발명에서는 요약의 기존 문제를 해결하기 위하여 the coverage method based on noise injection과 the word association method을 제안하였다. 또한 오분류 정보를 추가로 이용하기 위하여 Suppression loss function을 제안하였다.

본 발명의 제안 모델은 CNN/Daily Mail 데이터셋을 통한 벤치마크에서 19.14의 ROUGE-2 점수와 38.84의 ROUGE-L 점수를 달성하여 기존 State-of-the-art를 일정 부분 뛰어넘는 성능을 보였다.

또한, 본 발명의 제안 모델은 기존 state-of-the-art와 비교하여 13% 수준의 학습 단계만으로 비교할만한 성능을 달성하여, 그 수렴 속도가 매우 빠른 것을 확인할 수 있었다. 이러한 결과로부터 본 발명의 방법과 그 손실 함수와의 시너지가 매우 효과적이라는 결론을 내릴 수 있다.

이와 같은, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 주어진 뉴스 데이터에서 중요한 내용인 요약을 생성하는 방법에 대한 것이다. 본 발명에서는 요약의 기존 문제를 해결하기 위하여 the coverage method based on noise injection과 the word association method을 제안하였다. 또한, 오분류 정보를 추가로 이용하기 위하여 Suppression loss function을 제안하였다.

본 발명의 제안 모델은 CNN/Daily Mail 데이터셋을 통한 벤치마크에서 19.14 의 ROUGE-2 점수와 38.84 의 ROUGE-L 점수를 달성하여 기존 State-of-the-art 를 일정 부분 뛰어넘는 성능을 보였다. 또한, 본 발명의 제안 모델은 기존 state-of-the-art 와 비교하여 13% 수준의 학습 단계만으로 비교할만한 성능을 달성하여, 그 수렴 속도가 매우 빠른 것을 확인할 수 있었다. 이러한 결과로부터 본 발명에서 제안된 방법과 그 손실 함수와의 시너지가 매우 효과적임을 증명한 바, 최근 활발히 연구되고 있는 자연어 처리 연구 분야에서 유용하게 활용될 수 있을 것으로 기대된다.

10: 문서 요약 장치
100: 양방향 인코더부
200: 단방향 디코더부
300: 노이즈 추가 기반 커버리지부
400: 단어 연관부
500: 최종 단어 확률 분포부
600: 억제 손실 함수부

Claims

문서 요약 장치에서의 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법에 있어서,
양방향 인코더부에서 여러 층의 LSTM 층으로 구성된 양방향 인코더부를 통해 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력하는 단계;
단방향 디코더부에서 목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산하는 단계;
노이즈 추가 기반 커버리지부에서 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택하는 단계;
단어 연관부에서 상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화하는 단계; 및
최종 단어 확률 분포부에서 상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더부와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산하는 단계;를 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 있어서, 억제 손실 함수부에서,
오답 단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 단계;를 더 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제2항에 있어서, 상기 학습 데이터 셋에 반영하는 단계는,
정답이 아닌 단어의 수는 전체 단어의 수와 입력 문서에만 등장하는 단어의 수의 합에서 정답 단어를 제외한 수의 평균을 이용하여 계산하는 단계;를 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 있어서,
상기 일반 맥락은, 상기 양방향 인코더부의 모든 은닉 상태의 평균으로 정의되는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 있어서,
상기 지역 맥락은, 입력 단어의 정보와 현재 디코딩 단계의 정보와의 관련도에 대한 주의 집중 점수를 주의집중 메커니즘을 통하여 계산하고, 상기 주의 집중 점수를 가중 평균한 정보인, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 있어서, 상기 일반 맥락(general context)으로 출력하는 단계는,
입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하는 단계; 및
입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출하는 단계;를 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 있어서, 상기 중요 단어를 선택하는 단계는,
현재 단계의 단어 정보와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법.
제1항에 따른 상기 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
여러 층의 LSTM 층으로 구성되어 입력 문서의 단어 서열과 임베딩 벡터를 각 층의 은닉 벡터의 결합인 일반 맥락(general context)으로 출력하는 양방향 인코더부;
목표 단어의 단어 순서를 입력 받아 현재 단계의 셀 상태와 은닉 상태를 계산하는 단방향 디코더부;
상기 양방향 인코더부와 상기 단방향 디코더부 사이에서 현재 단계의 노이즈 정보와 이전 단계의 지역 맥락(local context)을 기초로 중요 단어를 선택하는 노이즈 추가 기반 커버리지부;
상기 단방향 디코더부가 출력하는 정보를 하나의 벡터인 연관 맥락(associated context)으로 추상화하는 단어 연관부; 및
상기 양방향 인코더부로부터 출력된 일반 맥락, 상기 양방향 인코더부와 상기 단방향 디코더부의 정보가 결합된 지역 맥락 및 상기 단방향 디코더부의 연관 맥락을 이용하여 단어 확률 분포를 계산하는 최종 단어 확률 분포부;를 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제9항에 있어서,
오답 단어의 확률이 최소화되도록 오분류에 대한 추가적인 페널티를 적용한 손실 함수를 이용하여 학습 데이터 셋에 반영하는 억제 손실 함수부;를 더 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제10항에 있어서,
상기 손실 함수는 정답이 아닌 단어 양의 로그 우도의 평균으로 정의되는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제11항에 있어서,
상기 정답이 아닌 단어의 수는 전체 단어의 수와 입력 문서에만 등장하는 단어의 수의 합에서 정답 단어를 제외한 수를 이용하여 계산하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제9항에 있어서,
상기 일반 맥락은, 상기 양방향 인코더부의 모든 은닉 상태의 평균으로 정의되는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제9항에 있어서,
상기 지역 맥락은, 입력 단어의 정보와 현재 디코딩 단계의 정보와의 관련도에 대한 주의 집중 점수를 주의집중 메커니즘을 통하여 계산하고, 상기 주의 집중 점수를 가중 평균한 정보인, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제9항에 있어서, 상기 양방향 인코더부는,
입력 단어 서열의 문법적인 구조를 기반한 의미를 추출하는 낮은 층; 및
입력 단어 서열의 문법 구조로부터 보다 추상적인 의미를 추출하는 높은 층;을 포함하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.
제9항에 있어서, 상기 단어 연관부는,
현재 단계의 단어 정보와 이전 모든 단계의 단어 정보를 이용하여 각 단어 의미를 변경하여 조합에 따른 의미 변화를 모델링하는, 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 장치.