KR102539601B1

KR102539601B1 - 텍스트 요약 성능 개선 방법 및 시스템

Info

Publication number: KR102539601B1
Application number: KR1020200167223A
Authority: KR
Inventors: 김동환; 김한수; 정우태; 이승현; 임창현
Original assignee: 주식회사 포티투마루
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-06-02
Also published as: EP4009193A1; KR20220078082A; KR20230084108A; US20220179893A1; US11727041B2; US20230325423A1

Abstract

본 발명은 텍스트 요약 성능 개선 방법 및 시스템에 관한 것으로, 주어진 문단에서 요약문을 생성하는 기술의 성능을 향상시키는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은 자연어 기반의 컨텍스트를 벡터화하여 임베딩 벡터를 생성하는 a 단계, 상기 임베딩 벡터를 이용하여 그래프를 생성하는 b 단계, 상기 그래프에 포함된 적어도 하나의 노드에 대응하는 키워드가 상기 컨텍스트에 존재하는 지의 여부에 따라 가중치를 부여하는 c 단계 및 상기 그래프에서 가장 가능도가 높은 경로를 선택하여 상기 경로를 기반으로 요약문을 생성하는 d 단계를 포함하는 것을 특징으로 한다.

Description

텍스트 요약 성능 개선 방법 및 시스템{METHOD AND SYSTEM FOR IMPROVING PERFORMANCE OF TEXT SUMMARIZATION}

본 발명은 텍스트 요약 성능 개선 방법 및 시스템에 관한 것으로, 보다 자세하게는 일반적으로 사용되는 텍스트 요약 알고리즘에 추상화를 더하여 성능을 개선하는 방법 및 시스템에 관한 것이다.

인터넷의 발전 및 스마트 기기의 보급률 증가에 따라 텍스트 데이터가 증가하고 있어, 방대한 양의 텍스트 데이터로부터 주요 내용을 추출하는 문서 요약 기술의 중요성이 대두되고 있다. 문서 요약 기술은 생성 요약 기술과 추출 요약 기술로 분류되는데, 생성 요약 기술의 경우 텍스트의 문맥을 이해하고 새로운 텍스트를 생성함에 따라 난이도가 높아 대부분의 문서 요약 기술은 기존의 문서에서 사용된 단어를 추출하여 요약하는 추출 요약 기술을 주로 사용하기 때문에 그 표현력 및 어휘에 있어서 한계가 존재한다.

본 발명은 전술한 문제점을 해결하기 위한 것으로서, 주어진 문단에서 요약문을 생성하는 기술의 성능을 향상시키는 것을 일 목적으로 한다.

또한 본 발명은 요약문을 생성함에 있어서 텍스트의 추상적 특성을 강화하여 성능을 향상시키는 것을 일 목적으로 한다.

이러한 목적을 달성하기 위한 본 발명은 요약문 생성 장치에 의하여 수행되는 텍스트 요약 성능을 개선하기 위한 방법에 있어서, 자연어 기반의 컨텍스트를 벡터화하여 임베딩 벡터를 생성하는 a 단계, 상기 임베딩 벡터를 이용하여 그래프를 생성하는 b 단계, 상기 그래프에 포함된 적어도 하나의 노드에 대응하는 키워드가 상기 컨텍스트에 존재하는 지의 여부에 따라 가중치를 부여하는 c 단계, 및 상기 그래프에서 가장 가능도가 높은 경로를 선택하여 상기 경로를 기반으로 요약문을 생성하는 d 단계를 포함하는 것을 일 특징으로 한다.

또한 본 발명은 텍스트 요약 성능 개선 시스템에 있어서, 자연어 기반의 컨텍스트를 벡터화하여 임베딩 벡터를 생성하고, 상기 임베딩 벡터를 이용하여 그래프를 생성하며, 상기 그래프에 포함된 적어도 하나의 노드에 대응하는 키워드가 상기 컨텍스트에 존재하는 지의 여부에 따라 가중치를 부여하고, 상기 그래프에서 가장 가능도가 높은 경로를 선택하여 상기 경로를 기반으로 요약문을 생성하며, 요약문 평가 장치로부터 상기 요약문에 대한 피드백을 수신하면 상기 피드백을 기반으로 상기 가중치를 결정하는 학습 파라미터를 조정하는 요약문 생성 장치 및 상기 컨텍스트에 대하여 사람이 미리 생성한 요약문과 상기 요약문 생성 장치에 의해 생성된 요약문의 유사도를 연산하여 상기 유사도가 기 설정된 임계 값 이상인 지에 따라 피드백을 생성하는 요약문 평가 장치를 포함하는 것을 일 특징으로 한다.

전술한 바와 같은 본 발명에 의하면, 문서 내 포함된 단어 뿐 아니라 기존에 학습된 단어를 이용하여 요약문을 생성함으로써 텍스트의 추상적 특성을 강화하여 주어진 문단에서 요약문을 생성하는 기술의 성능을 향상시킬 수 있다. 또한 본 발명은 요약문을 생성하는 모델의 출력 값을 평가하여 가중치를 부여함으로써 요약문 생성 모델의 성능을 보다 강화할 수 있다.

도 1은 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 장치의 구성을 도시한 도면,
도 2는 기존의 Greedy Search 알고리즘을 통해 생성된 그래프를 도시한 도면,
도 3은 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 장치에 의해 생성된 그래프를 도시한 도면,
도 4는 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 방법을 나타내는 순서도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.

도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.

본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.

또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 장치의 구성을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 텍스트 요약 성능 개선 장치는 요약문 생성 장치(10)와 요약문 평가 장치(20)로 구성되어, 학습 데이터 세트를 이용하여 요약문 생성 장치(10)를 학습한 후, 테스트 데이터 세트를 이용하여 요약문 생성 장치(10)에서 생성한 요약문을 요약문 평가 장치(20)에서 평가하는 과정을 통해 학습될 것이다. 이러한 과정을 통해 본 발명은 요약문 생성 장치(10)의 성능을 향상시켜 요약문의 질을 높이는 효과를 가질 수 있다.

또한 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 장치는 테스터 데이터 세트를 이용하여 생성된 요약문을 평가하여 요약문 생성 장치(10)의 성능을 향상시키는 것을 주요 기술적 특징으로 함에 따라, 학습 데이터 세트를 이용한 요약문 생성 장치(10)의 학습은 종래의 기술을 사용할 수 있다.

요약문 생성 장치(10)

통상적으로 문서에 대한 요약문을 생성하는 방법으로 Greedy Search 알고리즘과 Beam Search 알고리즘이 사용되는데, Greedy Search 알고리즘은 요약문을 생성하기 위해 키워드(단어)를 선택함에 있어서 각 단계에서 가장 가능도(우도, likelihood)가 높은 키워드를 선택하기 때문에 단계 별로는 가장 좋은 키워드를 선택하나 최종적으로 출력되는 요약문에 있어서 가장 좋은 결과가 아닐 경우가 존재한다.

도 2는 기존의 Greedy Search 알고리즘을 통해 생성된 그래프를 도시한 도면으로, 도 2를 참조하면 Greedy Search 알고리즘을 통해 문장을 생성하는 경우 "dog", "nice", "car" 노드 중 가장 가능도가 높은 "nice" 노드를 선택하고 이후 "nice" 노드의 자식 노드 "woman", "house", "guy" 중 가장 가능도가 높은 "woman"이 선택되어 "The nice woman"의 경로가 선택될 것이다. 그러나 전체적으로 모든 경로의 가능도를 연산하였을 때 "The nice woman"의 경로(가능도: 0.2)보다 "The dog has"의 경로(가능도: 0.36)가 가능도가 더 높기 때문에 "The nice woman"이 최적의 선택이 아니었음을 알 수 있다.

따라서 본 발명의 일 실시 예에 의한 요약문 생성 모듈(10)은 Greedy Search 알고리즘의 단점을 보완한 Beam Search 알고리즘을 채택하여 요약문을 생성할 것이다.

본 발명의 일 실시 예에 의한 요약문 생성 장치(10)는 인코더(110), 그래프 생성부(120), 요약문 생성부(130)로 구성되어 테스트 데이터 세트를 기반으로 요약문을 생성할 수 있다.

인코더(110)는 적어도 하나로 구성되어, 테스트 데이터 세트의 컨텍스트에 대응하는 임베딩 벡터(embedding vector)를 생성할 것이다. 임베딩 벡터는 자연어로 표현된 문서의 구조와 의미를 나타내는 벡터이다. 인코더(110)는 신경망으로 구성될 수 있으며, 임베딩 벡터를 생성하기 위해 학습된 신경망 모델일 수 있다.

그래프 생성부(120)는 임베딩 벡터를 기반으로 그래프를 생성할 수 있다. 그래프 생성부(120)는 Beam Search 알고리즘을 기반으로 하는 그래프를 생성함에 따라, 복수 개의 단계(Step)를 거쳐 그래프를 생성할 수 있다.

그래프 생성부(120)는 제1 단계에서 제1 키워드를 선택하여 제1 키워드에 대응하는 제1 노드를 생성할 수 있다. 그래프 생성부(120)는 제2 단계에서 제1 노드의 자식 노드인 제2 노드를 m개 생성하고, 제3 단계에서 제2 노드의 자식 노드인 제3 노드를 m개 생성할 수 있다. 요약문 생성 모듈(120)은 그래프를 생성함에 있어서, 기 설정된 그래프의 깊이까지 상기 과정을 반복하여 그래프를 확장할 것이다.

본 발명의 일 실시 예에 의한 m은 Beam Search 알고리즘의 beam 사이즈로 사용자의 설정에 따라 달라질 수 있으며, m개의 beam 노드를 추출하는 과정은 종래의 기술을 사용할 것이다.

그래프 생성부(120)에서 생성된 그래프에 포함된 제1 내지 제n 노드(n=number of step)는 고유한 제1 가능도가 존재하며, 이는 종래의 기술에 따라 설정될 것이다. 본 발명의 일 실시 예에 의한 제1 가능도는 본 발명의 일 실시 예에 의한 요약문 생성 장치(120)가 요약문을 생성하기 위한 키워드를 선택하는 기반이 될 것이다.

본 발명의 일 실시 예에 의한 그래프 생성부(120)는 그래프의 제1 내지 제n 노드를 생성함에 있어서, 노드의 추상화를 위해 문서(컨텍스트)에 각 노드에 대응하는 키워드가 존재하는 지의 여부를 판단하여 가중치를 부여함으로써 각 노드 별 제2 가능도를 연산할 수 있다.

구체적으로 그래프 생성부(120)는 노드와 컨텍스트 대응하는 임베딩 벡터와의 비교를 통해 컨텍스트에 각 노드에 대응하는 키워드가 존재하는 지를 판단할 수 있다. 그래프 생성부(120)은 노드에 대응하는 키워드가 컨텍스트에 포함되면, 즉 노드와 동일한 임베딩 벡터가 존재하면 해당 노드에 가중치를 부여하지 않고, 키워드가 존재하지 않으면 가중치(예를 들어, 1)를 부여할 수 있다. 이를 통해 본 발명의 일 실시 예에 따라 생성되는 요약문은 문서에 존재하지 않는 키워드를 포함하도록 학습되어 추상성이 강화될 것이다.

도 3을 참조하여 가중치를 부여하는 과정을 설명하면, 문서에서 "runs", "has", "woman", "house", "car"의 단어(키워드)가 사용된 경우, 그래프 생성부 (120)는 문서 내 포함된 단어(키워드)인 "runs", "has", "woman", "house", "car"에 대응하는 노드에 가중치 0을, 문서 내 포함되지 않은 단어(키워드)인 "dog", "and", "nice", "guy", "is", "drives", "turns"에 대응하는 노드에 가중치 1을 부여할 것이다.

그래프 생성부(120)는 노드에 가중치를 부여함에 있어서, 노드에 기 연산된 제1 가능도(점수)에 가중치를 더하여 노드의 제2 가능도를 생성할 수 있다. 예를 들어 제2 노드 "dog"의 제1 가능도가 0.4이고 가중치가 1이 부여되면, 그래프 생성부(120)는 제2 노드 "dog"의 제2 가능도를 1.4로 설정할 수 있다.

요약문 생성부(130)는 생성된 노드의 제2 가능도를 기반으로 가장 높은 제3 가능도를 갖는 경로를 선택할 수 있다. 요약문 생성부(130)는 제1 노드부터 제n 노드까지의 모든 후보 경로에 대한 제3 가능도를 연산하여, 제3 가능도가 가장 높은 경로를 선택할 수 있다.

요약문 생성부(130)는 제1 내지 제n 노드의 제2 가능도(점수)을 기반으로 모든 후보 경로의 제3 가능도를 연산할 것이다. 요약문 생성부(130)는 각 노드(제1 내지 제n 노드)의 제2 가능도에 대한 곱연산을 통해 제1 노드부터 제n 노드까지의 후보 경로에 대한 제3 가능도를 연산할 수 있다. 예를 들어 도 3을 참조하면, 요약문 생성부(130)는 제1 노드 "The" - 제2 노드 "dog" - 제3 노드 "and"의 후보 경로에 대한 제3 가능도를 1.4*1.05=1.47로 연산할 수 있고, 제1 노드 "The" - 제2 노드 "dog" - 제3 노드 "has"의 후보 경로에 대한 제3 가능도를 1.4*0.9=1.26으로 연산할 수 있다. 요약문 생성부(130)는 Beam Search 알고리즘을 통해 생성된 그래프에서 모든 후보 경로에 대한 제3 가능도를 연산할 수 있다.

요약문 생성부(130)는 후보 경로 중 제3 가능도가 가장 높은 경로에 포함된 노드를 기반으로 요약문의 문장을 생성할 수 있다. 도 3의 예시에 따르면 제1 노드 "The" - 제2 노드 "nice" - 제3 노드 "guy"의 경로의 제3 가능도가 1.95로 가장 높아 "The nice guy"를 요약문의 문장으로 생성할 것이다. 요약문 생성부(130)는 적어도 하나의 문장이 포함된 요약문을 생성하면, 요약문 평가 장치(20)에 전송할 것이다.

요약문 생성부(130)는 요약문 평가 장치(20)로부터 수신한 요약문에 대한 피드백을 기반으로 노드의 가중치를 결정하는 학습 파라미터를 조정함으로써 요약문을 보다 잘 생성할 수 있게 학습할 수 있다.

요약문 평가 장치(20)

요약문 평가 장치(20)는 요약문 생성 장치(10)가 생성한 요약문을 평가할 수 있다. 요약문 평가 장치(20)는 요약문을 평가함에 있어서 기 저장된 테스트 데이터 세트의 컨텍스트(문서)에 대한 사람의 요약문과 요약문 생성 장치(10)가 생성한 요약문을 비교하여 요약문을 평가할 수 있다.

요약문 평가 장치(20)는 사람의 요약문과 생성된 요약문의 유사도를 연산하여, 연산된 유사도가 기 설정된 임계 값 이상이면 요약문 생성 장치(10)에 긍정적인 피드백을, 임계 값 이하이면 부정적인 피드백을 제공할 수 있다.

도 4는 본 발명의 일 실시 예에 의한 텍스트 요약 성능 개선 방법을 설명하기 위한 순서도이다. 이하에서는 도 4를 참조하여 텍스트 요약 성능 개선 방법을 설명한다. 텍스트 요약 성능 개선 방법을 설명함에 있어서 전술한 텍스트 요약 성능 개선 시스템과 중복되는 세부 실시 예는 생략할 수 있다.

요약문 생성 장치(10)는 테스트 데이터 세트에서 컨텍스트(문서)를 획득할 수 있다(S110). 테스트 데이터 세트의 컨텍스트는 자연어로 표현되는 문장 단위일 수 있다.

요약문 생성 장치(10)는 테스트 데이터 세트의 컨텍스트를 벡터화 할 수 있다(S120). 요약문 생성 장치(10)는 인코더를 사용하여 컨텍스트를 벡터표현으로 변환하여 임베딩 벡터를 생성할 수 있다.

요약문 생성 장치(10)는 임베딩 벡터를 이용하여 Beam Search 알고리즘을 기반으로 하는 그래프를 생성(S130)할 수 있다. 요약문 생성 장치(10)는 Beam Search 알고리즘을 기반으로 함에 따라 복수 개의 단계를 거쳐 그래프를 생성할 수 있다. 구체적으로 요약문 생성 장치(10)는 제1 단계에서 제1 키워드를 선택하여 제1 키워드에 대응하는 제1 노드를 생성하고, 제2 단계에서 제1 노드의 자식 노드인 제2 노드를 m개 생성할 수 있다. 이 때, m은 Beam Search 알고리즘의 beam 사이즈로 사용자의 설정에 따라 달라질 수 있으며, 노드를 추출하는 과정은 종래의 기술을 따를 수 있다.

요약문 생성 장치(10)에서 생성된 그래프에 포함된 제1 내지 제n 노드(n=number of step)는 고유한 제1 가능도가 존재하며, 이는 종래의 기술에 따라 설정될 것이다. 본 발명의 일 실시 예에 의한 가능도는 본 발명의 일 실시 예에 의한 요약문 생성 장치(10)가 요약문을 생성하기 위한 키워드를 선택함에 있어서 기준이 될 것이다.

또한 요약문 생성 장치(10)는 그래프의 제1 내지 제n 노드를 생성함에 있어서, 노드의 추상화를 위해 문서(컨텍스트)에 각 노드에 대응하는 키워드가 존재하는 지의 여부를 판단하여 가중치를 부여(S140)함으로써 각 노드 별 제2 가능도를 연산할 수 있다.

구체적으로 요약문 생성 장치(10)는 노드와 컨텍스트 대응하는 임베딩 벡터와의 비교를 통해 각 노드에 대응하는 키워드가 존재하는 지를 판단할 수 있다. 요약문 생성 장치(10)는 노드와 동일한 임베딩 벡터가 존재하면 해당 노드에 가중치를 부여하지 않고, 키워드가 존재하지 않으면 가중치(예를 들어, 1)를 부여할 수 있다. 이를 통해 본 발명의 일 실시 예에 따라 생성되는 요약문은 문서에 존재하지 않는 키워드를 포함하도록 학습되어 추상성이 강화될 것이다.

요약문 생성 장치(10)는 노드에 가중치를 부여함에 있어서, 노드에 기 연산된 제1 가능도(점수)에 가중치를 더하여 노드의 제2 가능도를 생성할 수 있다. 예를 들어 제2 노드 “dog”의 제1 가능도가 0.4이고 가중치가 1이 부여되면, 요약문 생성 장치(10)는 제2 노드 “dog”의 제2 가능도를 1.4로 설정할 수 있다.

요약문 생성 장치(10)는 노드의 제2 가능도를 기반으로 가장 높은 제3 가능도를 갖는 경로를 선택(S150)할 수 있다. 요약문 생성 장치(10)는 제1 노드부터 제n 노드까지의 모든 후보 경로에 대한 제3 가능도를 연산하여, 후보 경로 중 제3 가능도가 가장 높은 경로를 선택할 수 있다.

구체적으로 요약문 생성 장치(10)는 제1 내지 제n 노드의 제2 가능도(점수)을 기반으로 모든 후보 경로의 제3 가능도를 연산할 것이다. 요약문 생성 장치(10)는 각 노드(제1 내지 제n 노드)의 가중치에 대한 곱연산을 통해 제1 노드부터 제n 노드까지의 후보 경로에 대한 제3 가능도를 연산할 수 있다. 요약문 생성 장치(10)는 Beam Search 알고리즘을 통해 생성된 그래프에서 모든 후보 경로에 대한 제3 가능도를 연산할 수 있다.

요약문 생성 장치(10)는 후보 경로 중 제3 가능도가 가장 높은 경로에 포함된 노드를 기반으로 요약문의 문장을 생성하고, 상기 과정을 통해 복수 개의 문장이 포함된 요약문을 생성(S160)할 것이다.

요약문 생성 장치(10)는 요약문을 요약문 평가 장치(20)에 전송(S169)할 것이다.

요약문 평가 장치(20)는 요약문 생성 장치(10)가 생성한 요약문을 평가(S170)할 수 있다. 요약문 평가 장치(20)는 요약문을 평가함에 있어서 기 저장된 테스트 데이터 세트의 컨텍스트(문서)에 대한 사람의 요약문과 요약문 생성 장치(10)가 생성한 요약문을 비교하여 요약문을 평가할 수 있다.

구체적으로, 요약문 평가 장치(20)는 사람의 요약문과 생성된 요약문의 유사도를 연산하여, 연산된 유사도가 기 설정된 임계 값 이상이면 요약문 생성 장치(10)에 긍정적인 피드백을, 임계 값 이하이면 부정적인 피드백을 제공(S179)할 수 있다.

요약문 생성 장치(10)는 요약문 평가 장치(20)로부터 요약문에 대한 피드백을 수신하면, 피드백을 기반으로 가중치를 결정하는 학습 파라미터를 조정(S180)할 수 있다. 요약문 생성 장치(10)는 요약문을 생성함에 있어서 사용되는 학습 파라미터를 조정함으로써 요약문을 보다 잘 생성할 수 있게 학습하여 품질 높은 요약문을 생성할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

요약문 생성 장치에 의하여 수행되는 텍스트 요약 성능을 개선하기 위한 방법에 있어서,
자연어 기반의 컨텍스트를 벡터화하여 임베딩 벡터를 생성하는 a 단계;
상기 임베딩 벡터를 이용하여 그래프를 생성하되, 상기 그래프에 포함된 적어도 하나의 노드 각각의 제1 가능도를 연산하는 b 단계;
상기 그래프에 포함된 적어도 하나의 노드에 대응하는 키워드가 상기 컨텍스트에 존재하는 지의 여부에 따라 가중치를 부여하되, 상기 컨텍스트에 상기 노드에 대응하는 키워드가 존재하지 않으면 상기 노드의 제1 가능도에 가중치를 부여하여 제2 가능도를 생성하는 c 단계; 및
상기 그래프에서 가장 가능도가 높은 경로를 선택하여 상기 경로를 기반으로 요약문을 생성하는 d 단계를 포함하는 것을 특징으로 하는 텍스트 요약 성능 개선 방법.
제1항에 있어서, 상기 그래프는,
Beam Search 알고리즘을 기반으로 하는 것을 특징으로 하는 텍스트 요약 성능 개선 방법.
삭제
삭제
제1 항에 있어서, 상기 d 단계는,
상기 노드의 제2 가능도를 기반으로 상기 그래프에서 존재하는 모든 후보 경로에 대한 제3 가능도를 연산하는 단계;
가장 높은 제3 가능도를 갖는 상기 경로를 선택하는 단계를 포함하되,
상기 경로에 포함된 노드의 제2 가능도를 곱연산하여 제3 가능도를 연산하는 텍스트 요약 성능 개선 방법.
제1항에 있어서,
생성된 요약문을 요약문 평가 장치에 전송하는 단계;
상기 요약문 평가 장치로부터 요약문에 대한 피드백을 수신하는 단계;
상기 피드백을 기반으로 상기 가중치를 결정하는 학습 파라미터를 조정하는 단계를 더 포함하는 텍스트 요약 성능 개선 방법.
제6항에 있어서, 상기 피드백은,
상기 컨텍스트에 대하여 사람이 미리 생성한 요약문과 상기 생성된 요약문의 유사도를 연산하여 상기 유사도가 기 설정된 임계 값 이상인 지에 따라 생성되는 텍스트 요약 성능 개선 방법.
텍스트 요약 성능 개선 시스템에 있어서,
자연어 기반의 컨텍스트를 벡터화하여 임베딩 벡터를 생성하고, 상기 임베딩 벡터를 이용하여 그래프를 생성하며, 상기 그래프에 포함된 적어도 하나의 노드에 대응하는 키워드가 상기 컨텍스트에 존재하는 지의 여부에 따라 가중치를 부여하고, 상기 그래프에서 가장 가능도가 높은 경로를 선택하여 상기 경로를 기반으로 요약문을 생성하며, 요약문 평가 장치로부터 상기 요약문에 대한 피드백을 수신하면 상기 피드백을 기반으로 상기 가중치를 결정하는 학습 파라미터를 조정하는 요약문 생성 장치; 및
상기 컨텍스트에 대하여 사람이 미리 생성한 요약문과 상기 요약문 생성 장치에 의해 생성된 요약문의 유사도를 연산하여 상기 유사도가 기 설정된 임계 값 이상인 지에 따라 피드백을 생성하는 요약문 평가 장치를 포함하되,
상기 요약문 생성 장치는,
상기 그래프에 포함된 적어도 하나의 노드 각각의 제1 가능도를 기반으로, 상기 컨텍스트에 상기 노드에 대응하는 키워드가 존재하지 않으면 상기 노드의 제1 가능도에 가중치를 부여하여 제2 가능도를 생성하도록 구성된,
텍스트 요약 성능 개선 시스템.
제8항에 있어서, 상기 요약문 생성 장치는,
상기 노드의 제2 가능도를 기반으로 상기 그래프에서 존재하는 모든 후보 경로에 대한 제3 가능도를 연산하여 상기 후보 경로 중 가장 높은 제3 가능도를 갖는 상기 경로를 선택하되,
상기 후보 경로에 포함된 노드의 제2 가능도를 곱연산하여 제3 가능도를 연산하는 텍스트 요약 성능 개선 시스템.