KR20220043505A

KR20220043505A - 문서 요약장치 및 방법

Info

Publication number: KR20220043505A
Application number: KR1020200126977A
Authority: KR
Inventors: 차정원; 성수진
Original assignee: 창원대학교 산학협력단
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-04-05

Abstract

본 발명은 추출기반 요약 방식과 신경망을 이용한 생성기반 요약 방식을 조합하여 요약문을 작성하는 장치 및 방법을 제안한다. 본 발명에 따르면, 입력된 문서에 포함된 불필요한 특수 문자를 제거하는 문서 전처리부와, 상기 전처리된 문서의 문장에 중요도를 부여하고 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 제1 요약 작성부가 제공된다. 그리고 첫 번째 요약문에 대해 지정된 단위의 토큰을 순서대로 생성하여 다시 두 번째 요약문을 작성하는 제2 요약 작성부와, 상기 두 번째 요약문에 기재된 반복 어구 등을 미리 정의된 규칙에 따라 제거하는 문서 후처리부를 포함한다.

Description

문서 요약장치 및 방법{Document summary device and method thereof}

본 발명은 문서의 요약문 작성 시스템에 관한 것으로, 특히 추출기반 요약 방식과 신경망을 이용한 생성기반 요약 방식을 조합하여 요약문을 작성하는 장치 및 방법에 관한 것이다.

종래의 문서 요약방법은 주로 입력문서에서 문장을 그대로 추출하여 문서의 요약문을 구성하는 방식이 주로 사용되었다. 그러나 이러한 방법은 문서의 가독성이 떨어지고 또 생성할 수 있는 표현이 극히 제한적이라는 한계가 있다. 이럴 경우 문서에 대한 요약이 충실하지 못하는 문제를 초래한다.

이에 근래에는 딥러닝 모델을 이용하여 요약문을 생성하는 연구가 진행되고 있고, 예를 들어 선행문헌으로 공개특허 10-2019-0013426호(2019. 2. 11일 공개, 인공지능 학습모델을 이용하여 요약정보를 제공하기 위한 전자장치 및 이의 제어방법)는 기계 학습 알고리즘을 활용하여 요약정보를 제공하는 기술을 공개하고 있다.

상기 선행문헌은 인공지능 학습모델을 이용하기 때문에 종래보다 상대적으로 우수한 성능을 달성할 수 있다. 반면 학습에 필요한 연산량이 많을 수밖에 없고 대용량의 데이터가 요구되기 때문에, 그만큼 대용량의 메모리가 반드시 필요한 문제가 있다. 물론 용량이 작은 메모리를 사용할 수도 있지만, 이 경우 제한적인 보유 자원 내에서 딥러닝 모델을 실행시켜야 하기 때문에 학습에 제약이 있고, 특히 모델 입력 크기에 제한을 둘 경우에는 정보 손실이 발생하여 태스크(task)에 대한 결정적인 정보를 모델이 고려하지 못하게 된다. 이는 정확한 요약문 작성이 어렵다는 것을 의미할 수 있다.

본 발명의 목적은, 딥러닝 학습모델과 비교하여 상대적으로 작은 메모리 용량을 가지면서도 더 효과적으로 문서의 요약문을 작성할 수 있도록 하는 문서 요약장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은, 문서 내용의 정보 손실은 최소화하고 반복 어구는 제거하여 충실한 요약문 작성이 가능토록 한 문서 요약 장치 및 방법을 제공하는 것이다.

이와 같은 목적을 달성하기 위한 본 발명은, 입력된 문서에 포함된 불필요한 특수 문자를 제거하는 문서 전처리부; 상기 전처리된 문서의 문장에 중요도를 부여하고 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 제1 요약 작성부; 상기 첫 번째 요약문에 대해 지정된 단위의 토큰을 순서대로 생성하여 두 번째 요약문을 작성하는 제2 요약 작성부; 및 상기 두 번째 요약문에 기재된 반복 어구를 미리 정의된 규칙에 따라 제거하는 문서 후처리부를 포함하는 문서 요약장치를 제공한다.

상기 문서 전처리부는, 최종 생성된 요약서에 메타데이터(metadata)가 포함되게 한다.

상기 제1 요약 작성부는, 통계 기반 학습 방법을 이용하고, 상기 통계 기반 학습 방법은, 'LexRank' 알로리즘 방식이다.

상기 첫 번째 요약문은, 상기 전처리된 문서에서 미리 지정된 수만큼의 핵심 문장을 포함하거나, 또는 상기 전처리된 문서 대비 일정 비율의 길이를 가지면서 작성된다.

상기 제2 요약 작성부는, 신경망 모델을 이용하여 두 번째 요약문을 작성하고, 상기 신경망 모델은 사전에 대상이 되는 도메인의 데이터로 요약문을 생성할 수 있도록 학습된 모델이다.

상기 제2 요약 작성부는, 상기 첫 번째 요약문을 사전 학습된 토크나이저(tokenizer)를 사용하여 토큰으로 분리하는 토큰 분리부; 신경망 모델을 통해 각 토큰 단위로 문서의 구성 및 특징을 분석하고 가중치를 부여하는 엔코더 모델부; 및 기 지정된 토큰 단위로 문장을 생성하는 디코더 모델부를 포함한다.

본 발명의 다른 특징에 따르면, 문서 요약 장치가, 입력된 문서의 문장에서 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 제1 단계; 및 상기 첫 번째 요약문에 대하여 지정된 단위의 토큰을 순서대로 생성하여 두 번째 요약문을 작성하는 제2 단계를 포함하는 문서 요약방법을 제공한다.

상기 첫 번째 요약문 작성 전에, 상기 입력된 문서에서 불필요한 특수 문자, 광고 문자를 제거하는 단계를 더 포함한다.

상기 두 번째 요약문에서 나타날 수 있는 반복 어구를 제거하는 단계를 더 포함한다.

상기 제2 단계는, 상기 첫 번째 요약문을 사전학습 된 토크나이저(tokenizer)를 사용하여 토큰으로 분리하고 고유 인덱스 값으로 치환하는 치환 단계; 신경망 모델을 통해 분리된 각 토큰 단위로 문서의 구성 및 특징을 분석하고, 사전에 학습된 가중치를 부여하는 엔코더 단계; 상기 가중치에 따라 토큰 단위로 문장을 생성하는 디코더 단계를 포함한다.

상기 엔코더 단계 및 디코더 단계는 동시에 처리될 수 있다.

이상과 같은 본 발명의 문서 요약장치 및 방법에 따르면, 먼저 추출 요약 방식으로 핵심문장을 추출하여 첫 번째 요약문을 작성하고, 이후에 첫 번째 요약문을 대상으로 신경망을 이용하여 두 번째 요약문을 작성하고 있다. 따라서 제한된 메모리로 인해 전체 문서 내용을 사용할 수 없는 길이가 긴 문서에 대한 요약문을 효과적으로 작성할 수 있다.

본 발명에 따르면, 문서의 요약문 작성시 발생할 수 있는 정보 손실을 최대한 방지할 수 있어, 충실한 요약문 작성이 가능하다.

본 발명에 따르면, 정보 손실을 최대한 억제하면서 1차 및 2차 요약과정을 수행하기 때문에, 요약문의 가독성을 향상시킬 수 있다.

도 1은 본 발명의 실시 예에 따른 문서 요약장치를 보인 구성도
도 2는 본 발명의 실시 예에 따른 문서 요약방법을 보인 흐름도

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.

그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하에서는 도면에 도시한 실시 예에 기초하면서 본 발명에 대하여 더욱 상세하게 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 문서 요약장치를 보인 구성도이다. 도 1에 도시된 바와 같이 문서 요약장치(10)는 문서 전처리부(100), 제1 요약 작성부(200), 제2 요약 작성부(300), 문서 후처리부(400)를 포함한다. 구성에서 보듯이 본 발명은 2개의 요약 작성부(200, 300)에 의해 요약문을 작성하는 것이고, 아래에서 살펴보겠지만 요약 작성부(200, 300) 각각은 서로 다른 요약 방식이 적용되어, 각각 이전에 입력받은 문서 및 요약문을 요약하는 구성이다.

본 발명에 따른 상기 문서 전처리부(100)는, 입력된 문서에서 문서 내용을 파악하는데 필요하지 않는 특수한 문자나 기호, 광고성 문장 등을 제거하는 역할을 한다. 이러한 문자나 기호 등을 제거하지 않으면, 요약문에 불필요한 내용 등이 포함될 수 있기 때문이다. 그리고 상기 입력되는 문서는 자연어로 작성된 문서를 말하고, 예를 들면 단일 뉴스 기사나 다수의 뉴스 기사로 구성된 뉴스 군집의 기사 내용, 특허 본문 등을 포함할 수 있다.

본 발명에 따른 상기 제1 요약 작성부(200)는, 입력된 문서에서 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 역할을 한다. 본 실시 예에서 첫 번째 요약문의 작성방법은 문장에 중요도를 부여하여 핵심문장을 추출하는 추출 방식으로, 예를 들면 'LexRank'와 같은 통계 기반 학습 방법이 사용되어 추출하게 된다. 그리고 제1 요약 작성부(200)는 작성할 요약문의 문장 개수나 비율을 결정할 수 있다. 예컨대 첫 번째 요약문의 문장 개수를 일정 개수(ex. 3개)로 지정할 수 있거나, 입력된 문서 대비 일정 비율(ex. 10%)로 내용을 요약할 수 있다.

본 발명에 따른 상기 제2 요약 작성부(300)는 상기 제1 요약 작성부(200)가 작성한 첫 번째 요약문을 입력으로 하여 새로운 문장의 두 번째 요약문을 작성하는 역할을 수행한다. 상기 제2 요약 작성부(300)는, 토큰 분리부(310), 엔코더 모델부(320), 디코더 모델부(330)를 포함한다. 토큰 분리부(310)는 상기 첫 번째 요약문을 사전 학습된 토크나이저(tokenizer)를 사용하여 토큰으로 분리하는 것이다. 그리고 엔코더 모델부(320)는 신경망 모델을 통해 각 토큰 단위로 문서의 구성 및 특징을 분석하고 가중치를 부여하는 언어 모델이고, 디코더 모델부(330)는 지정된 토큰 단위로 문장을 생성하는 언어 모델이다.

상기 엔코더 모델부(320) 및 디코더 모델부(330)에서 사용되는 신경망 모델은 사전에 대상이 되는 도메인의 데이터로 요약문을 생성할 수 있도록 학습된 모델일 수 있고, 예를 들면 'transformer encoder-decoder 모델'과 같은 'sequence-to-sequence'일 수 있다. 이와 같은 신경망 모델은, 학습시 파라미터는 랜덤 초기화될 수 있고, 대용량 텍스트 데이터를 이용해 'MaskedLM'과 같은 방식으로 사전 학습된 모델의 파라미터로 초기화해 사용할 수 있다.

실시 예에서 상기 제2 요약 작성부(300)는 상기 엔코더 모델부(320)와 디코더 모델부(330)가 별개의 모델로 구분하여 포함하고 있지만, 상기 엔코더 모델부와 디코더 모델부가 하나의 구조에 포함되는 모델일 경우, 엔코더 기능과 디코더 기능이 동시에 수행될 수도 있을 것이다.

본 발명에 따른 문서 후처리부(400)는 최종 출력된 요약문에서 반복 어구 등을 제거하는 역할을 수행한다. 여기서 최종 출력된 요약문은 원칙적으로 제2 요약 작성부(300)가 작성한 두 번째 요약문일 수 있지만, 첫 번째 요약문이 제2 요약 작성부(300)에서 다시 요약되거나 수정되지 않는다면 제1 요약 작성부(200)이 작성한 첫 번째 요약문이 최종 요약문이 될 수 있다. 이 경우 문서 후처리부(400)는 첫 번째 요약문에 기재된 반복 어구 등을 제거하게 될 것이다.

이러한 구성을 가지는 본 발명의 문서 요약장치(10)는 입력받은 문서에서 일련의 과정을 거쳐 요약문을 작성할 수 있는데, 이의 작용에 대핸 구체적으로 살펴본다.

문서 전처리부(100)가 요약하고자 하는 문서를 입력받는다(s100). 입력된 문서는 뉴스기사나 특허 본문 등을 포함하는 문서일 수 있다. 문서가 입력되면 문서 전처리부(100)는 사용자가 미리 정의한 규칙에 따라 불필요한 부분들을 제거하는 전처리 과정을 수행한다(s110). 예를 들면 문서에서 내용을 파악하는데 필요하지 않은 특수한 기호나 문장, 광고성 문장 등을 제거하게 된다. 아울러 문서 전처리부(100)는 입력된 문서에 작성자의 이름, 이메일 또는 뉴스 플랫폼 이름 등의 메타 데이터(metadata)를 포함시키기도 한다. 즉, 문서 전처리부(100)는 단순히 불필요한 부분을 삭제하는 것에 더하여 최종 결과물인 요약서를 설명하는데 필요한 메타데이터(metadate)를 포함하는 작업도 수행하는 것이다.

제1 요약 작성부(200)는 문서 전처리부(100)에 의해 처리된 문서를 전달받는다. 그리고 제1 요약 작성부(200)는 추출 기반 방식을 적용하여 문장에 중요도를 부여하는 방식으로 핵심 문장을 추출하여 첫 번째 요약문을 작성한다(s120). 이때 중요도에 따라 핵심문장을 추출하는 방식은 다양한 방식이 적용될 수 있을 것이다. 즉 처리된 문서에서 빈번하고 반복적으로 가장 많이 기재되는 문장을 추출할 수 있거나, 특정 키워드 및 키워드와 관련된 단어가 포함된 문장을 추출할 수 있을 것이다.

그리고 제1 요약 작성부(200)가 추출하는 핵심 문장의 길이는 문서 요약 장치(10)의 성능이나 환경에 따라 미리 정해지는 것이 바람직하다. 진다. 즉 제1 요약 작성부(200)에 전달된 입력 문서와 비교할 때 길이나 양이 비슷하면 문서가 요약되었다고 할 수 없고 이 경우 제1 요약 작성부(200)가 제대로 기능했다고 볼 수 없기 때문이다. 그래서 본 실시 예는 추출되는 핵심문장의 개수를 일정 개수로 지정하거나, 또는 입력 문서의 전체에서 일정 비율만큼 요약 추출되게 한다.

이러한 과정에 따라 첫 번째 요약문이 작성된다. 그리고 첫 번째 요약문을 다시 요약하게 된다. 물론 상기 첫 번째 요약문이 최종적으로 작성된 요약문이 될 수 있지만, 본 실시 예는 기본적으로 2단계의 요약문 작성 방법을 제안하는 바, 첫 번째 요약문이 최종 요약문이 되는 경우는 생략하기로 한다.

제2 요약 작성부(300)는 제1 요약 작성부(200)가 요약 작성한 첫 번째 요약문을 전달받고 두 번째 요약문을 작성하게 된다(s130). 이를 살펴보면, 토큰 분리부(310)는 상기 첫 번째 요약문을 전달받게 되면 사전 학습된 토크나이저를 사용하여 토큰으로 분리하고 고유 인덱스 값으로 치환한다(s132). 이는 지정된 단위의 토큰을 순서대로 생성하여 문장을 구성하여 요약문을 작성하기 위해서이다.

이후 엔코더 모델부(320)가 신경망 모델을 통해 각 토큰 단위로 분리된 문서의 구성 및 특징을 분석하고 사전에 학습된 가중치를 각각 부여한다(s134). 엔코더 모델부(320)에서 사용되는 신경망 모델은 사전에 대상이 되는 도메인의 데이터로 요약문을 생성할 수 있도록 학습된 모델이다. 그런 다음 문장을 생성하는 언어 모델인 디코더 모델부(330)가 토큰 단위로 문장을 생성하여 두 번째 요약문을 작성한다(s136).

이와 같은 과정에 의해 작성된 두 번째 요약문은 첫 번째 요약문보다 길이나 양이 상대적으로 작아야 함은 당연할 것이다.

상기 제2 요약 작성부(300)에 의해 두 번째 요약문이 작성 완료되면, 문서 후처리부(400)가 소정 규칙에 따라 불필요한 공백이나 반복되는 어구 등을 제거하는 과정을 수행한다(s140). 상기 규칙은 사용자가 문서의 요약 과정에서 발생할 수 있는 오류 등을 학습 등을 통해 사전에 파악한 후 그에 대응되게 처리할 수 있도록 미리 작성된 규칙일 수 있다. 이러한 규칙은 지속적으로 문서 후처리부(400)에 제공되며, 학습에 의해 새로 발생하는 오류 등은 실시간 반영되어, 최종 요약문이 더 충실하게 작성되도록 한다.

이상에서 살펴본 바와 같이 본 발명은 일정 길이(양)를 가지는 문서에 대해 추출 요약 방식으로 핵심문장을 추출하여 첫 번째 요약문을 작성하고, 그 첫 번째 요약문을 대상으로 신경망을 이용하는 생성 요약 방식으로 두 번째 요약문을 작성하고 있음을 알 수 있다. 그리고 내용 중복을 최소화하여 요약성능을 향상시키도록 요약문의 작성 전/후로 입력 문서에 대한 전처리 과정과 후처리 과정을 더 수행하고 있다.

이상과 같이 본 발명의 도시된 실시 예를 참고하여 설명하고 있으나, 이는 예시적인 것들에 불과하며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 요지 및 범위에 벗어나지 않으면서도 다양한 변형, 변경 및 균등한 타 실시 예들이 가능하다는 것을 명백하게 알 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적인 사상에 의해 정해져야 할 것이다.

100: 문서 전처리부
200: 제1 요약 작성부
300: 제2 요약 작성부
310: 토큰 분리부
320: 엔코더 모델부
330: 디코더 모델부
400: 문서 후처리부

Claims

입력된 문서에 포함된 불필요한 특수 문자를 제거하는 문서 전처리부;
상기 전처리된 문서의 문장에 중요도를 부여하고 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 제1 요약 작성부;
상기 첫 번째 요약문에 대해 지정된 단위의 토큰을 순서대로 생성하여 두 번째 요약문을 작성하는 제2 요약 작성부; 및
상기 두 번째 요약문에 기재된 반복 어구를 미리 정의된 규칙에 따라 제거하는 문서 후처리부를 포함하는 것을 특징으로 하는 문서 요약장치.
제 1 항에 있어서,
상기 문서 전처리부는,
최종 생성된 요약서에 메타데이터(metadata)가 포함되게 하는 문서 요약장치.
제 1 항에 있어서,
상기 제1 요약 작성부는,
통계 기반 학습 방법을 이용하고, 상기 통계 기반 학습 방법은, 'LexRank' 알로리즘 방식인 문서 요약장치.
제 1 항에 있어서,
상기 첫 번째 요약문은,
상기 전처리된 문서에서 미리 지정된 수만큼의 핵심 문장을 포함하거나, 또는 상기 전처리된 문서 대비 일정 비율의 길이를 가지면서 작성되는 문서 요약장치.
제 1 항에 있어서,
상기 제2 요약 작성부는,
신경망 모델을 이용하여 두 번째 요약문을 작성하고,
상기 신경망 모델은 사전에 대상이 되는 도메인의 데이터로 요약문을 생성할 수 있도록 학습된 모델인 문서 요약장치.
제 1 항에 있어서,
상기 제2 요약 작성부는,
상기 첫 번째 요약문을 사전 학습된 토크나이저(tokenizer)를 사용하여 토큰으로 분리하는 토큰 분리부;
신경망 모델을 통해 각 토큰 단위로 문서의 구성 및 특징을 분석하고 가중치를 부여하는 엔코더 모델부; 및
기 지정된 토큰 단위로 문장을 생성하는 디코더 모델부를 포함하는 문서 요약장치.
문서 요약 장치가,
입력된 문서의 문장에서 핵심 문장을 추출하여 첫 번째 요약문을 작성하는 제1 단계; 및
상기 첫 번째 요약문에 대하여 지정된 단위의 토큰을 순서대로 생성하여 두 번째 요약문을 작성하는 제2 단계를 포함하는 것을 특징으로 하는 문서 요약방법.
제 7 항에 있어서,
상기 첫 번째 요약문 작성 전에,
상기 입력된 문서에서 불필요한 특수 문자, 광고 문자를 제거하는 단계를 더 포함하는 문서 요약방법.
제 7 항에 있어서,
상기 두 번째 요약문에서 나타날 수 있는 반복 어구를 제거하는 단계를 더 포함하는 문서 요약방법.
제 7 항에 있어서,
상기 제2 단계는,
상기 첫 번째 요약문을 사전학습된 토크나이저(tokenizer)를 사용하여 토큰으로 분리하고 고유 인덱스 값으로 치환하는 치환 단계;
신경망 모델을 통해 분리된 각 토큰 단위로 문서의 구성 및 특징을 분석하고, 사전에 학습된 가중치를 부여하는 엔코더 단계; 및
상기 가중치에 따라 토큰 단위로 문장을 생성하는 디코더 단계를 포함하는 문서 요약방법.
제 10 항에 있어서,
상기 엔코더 단계 및 디코더 단계는 동시에 처리될 수 있는 문서 요약방법.