KR101548096B1

KR101548096B1 - 문서 자동 요약 방법 및 서버

Info

Publication number: KR101548096B1
Application number: KR1020150015803A
Authority: KR
Inventors: 이수원; 김희찬
Original assignee: 숭실대학교산학협력단
Priority date: 2015-02-02
Filing date: 2015-02-02
Publication date: 2015-08-27
Also published as: WO2016125949A1

Abstract

문서 자동 요약 방법 및 서버가 제공된다. 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(G_word)를 생성하는 단계, (b) 상기 제 1 그래프(G_word)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(G_sentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(G_sentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.

Description

문서 자동 요약 방법 및 서버{METHOD AND SERVER FOR AUTOMATICALLY SUMMARIZING DOCUMENTS}

본 발명은 문서 내에서 가장 영향력 있는 문장들을 해당 문서의 요약으로서 추출하는 기술에 관한 것이다.

문서 자동 추출 요약 기술은 텍스트 마이닝 분야의 한 부분으로서, 문서 내에서 가장 중요한 문장을 추출하여 이를 요약으로 제시하는 연구 분야이다.

문서 요약의 초창기에는 가장 중요한 문서를 뽑기 위한 랭크 알고리즘 위주로 연구가 진행되었으나, 이는 결국 그래프에 문서의 중요한 정보가 전부 담겨있어야 원활이 작동되는 것이기 때문에 최근에는 문서를 그래프화 할 때 생기는 정보의 손실을 최소화하는 방법을 활발히 연구 중이다.

그러나, 종래의 문서 요약 방식은 문서 요약을 위해 랭크 알고리즘에 주로 초점이 맞추어져 있으며, 문장간 유사도를 계산할 때 문장 내 단어간의 의미적 유사성을 충분히 고려하지 못하는 문제가 있다.

한국공개특허공보 특2000-0054268, 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서 분류 검색 시스템(2000.09.05.)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있는 방안을 제안하고자 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(G_word)를 생성하는 단계, (b) 상기 제 1 그래프(G_word)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(G_sentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(G_sentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서를 자동으로 요약하는 서버는 문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(G_word)를 생성하는 단어간 관계 그래프 생성부, 상기 제 1 그래프(G_word)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(G_sentence)를 생성하는 문장간 관계 그래프 생성부 및 상기 제 2 그래프(G_sentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부를 포함하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있다.

또한, 문장에 등장하는 단어들의 관계(유사도)를 그래프로 표현함으로써 직관적으로 이해할 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(G_word)를 도시한 도면이다.
도 3은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(G_word)를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.
도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.

또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.

본 발명의 일 실시예에 따른 문서 요약 서버(100)는 단어간 관계 그래프 생성부(110), 단어 유의어 추출부(120), 문장간 관계 그래프 생성부(130) 및 랭크 알고리즘 적용부(140)를 포함할 수 있다.

각 구성 요소를 설명하면, 단어간 관계 그래프 생성부(110)는 문서 요약을 위해 입력된 문서 D를 문장 단위로 나누고 각 문장에 대한 형태소 분석을 수행하여 명사, 형용사 및 동사를 추출할 수 있다.

이하, 상기 형태소 분석을 통해 추출된 명사, 형용사 및 동사를 Wi라 칭하도록 한다.

이후, 단어간 관계 그래프 생성부(110)는 형태소 분석으로 추출된 각 단어들을 노드(node)로 표현하고, 같은 문장에 동시 출현한 관계를 나타내는 가중치 weight_{co-occurrence}를 가지는 엣지(edge)로 연결하여 단어간 동시 출현 관계를 나타내는 그래프(이하, ‘단어간 관계 그래프’라 칭함)(G_word)를 생성할 수 있다.

또한, 단어간 관계 그래프 생성부(110)는 각 노드가 표현하고 있는 단어들의 유의어를 새로운 노드로서 단어간 관계 그래프(G_word)에 추가로 반영할 수 있다.

참고로, 상기 유의어는 후술하는 유의어 추출부(120)에 의해 추출될 수 있다.

또한, 단어간 관계 그래프 생성부(110)는 단어간 관계 그래프(G_word) 내의 두 단어를 표현하고 있는 노드간의 최단 경로(shortest path)를 이용하여 단어간 유사도를 계산할 수 있다.

참고로, 단어간 관계 그래프(G_word)의 엣지 가중치는 단어 사이의 유사도를 나타내는 가중치이므로 거리로 정의할 수 없다. 따라서 단어간 관계 그래프 생성부(110)는 최단 경로를 계산하기 위해 단어간 관계 그래프(G_word)의 노드간 거리를 1-weight로 정의한다.

단어간 관계 그래프 생성부(110)는 두 단어 w_e와 w_n의 의미적 유사도 Sim_word(w_i, w_j)를 단어간 관계 그래프(G_word) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지 e_k의 가중치들을 곱하여 계산할 수 있으며, 이는 아래의 [수학식 1]과 같이 표현할 수 있다.

[수학식 1]

한편, 유의어 추출부(120)는 상기 단어간 관계 그래프(G_word)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출할 수 있다.

이를 위해 유의어 추출부(120)는 유의어 사전(미도시)과 연결될 수 있으며, 각 단어에 대한 유의어를 유의어 사전(미도시)에서 검색하고 추출할 수 있다.

유의어 추출부에 의해 추출된 각 단어의 유의어는 단어간 관계 그래프 생성부(110)에 의해 새로운 노드로서 단어간 관계 그래프(G_word)에 추가로 반영될 수 있다.

이때, 특정 단어를 나타내는 노드와, 해당 특정 단어의 유의어로서 추가 반영되는 노드는 유의 정도를 나타내는 가중치 weight_synonym를 가지는 엣지로 연결될 수 있다.

참고로, 유의어 추출부(120)는 상기 추가로 반영된 유의어의 유의어를 더 추가로 반영할 수도 있는데, 유의어 관계가 연속해서 추가로 반영될 경우 실제 의미가 전혀 다른 경우가 발생할 수 있으므로 유의어의 추가 반영 횟수(깊이)는 특정 회수(예를 들어 3회)로 설정될 수 있다.

한편, 문장간 관계 그래프 생성부(130)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(G_sentence)를 생성할 수 있다.

여기서 문장간 관계 그래프 생성부(130)는 문장간 유사도를 계산 시 상기 단어간 관계 그래프(G_word)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.

문서에서 가장 영향력 있는 문장을 추출하기 위해 생성하는 문장간 관계 그래프(G_sentence)는 각 문장 Si를 노드로 하며, 이때 노드간 유사도를 나타내는 엣지는 아래의 [수학식 2]를 이용하여 계산할 수 있다.

참고로, 문장간 관계 그래프 생성부(130)는 코사인 유사도 Similarity_cosine를 이용하여 문장간 유사도를 계산할 수 있다.

[수학식 2]

여기서 두 문장 S_i와 S_j의 유사도 계산을 위한 벡터 함수

는 단어간 관계 그래프(G_word)의 단어간 유사도를 문장간 유사도에 반영하기 위한 것(이하, ‘문장 벡터 함수’라 칭함)으로서, 한 문장 내에 같이 등장하는 단어들은 상호 연관 관계가 존재하고, 특정 단어의 유의어들은 같은 의미는 아니지만 상호 유사한 의미를 가진다는 전제하에 정의될 수 있다.

문장 벡터 함수는 두 문장에 각각 등장한 단어의 횟수와 등장하지 않은 단어 간의 유사도를 계산하고 이를 평균 낸 값을 합하여 하나의 벡터를 반환할 수 있다.

문장간 관계 그래프 생성부(130)가 상기 [수학식 2]를 이용하여 문장 벡터 함수

를 계산하는 방법은 다음과 같다.

먼저, 문장 벡터 함수에 의해 반환된 벡터의 단어 차원은 S_i와 S_j에 등장한 단어들의 합집합의 크기 n개의 차원을 가지고, 각 단어 차원에 S_i에 등장한 단어의 등장 빈도를 채워 넣는다.

이후, 등장 빈도를 채우고 난 벡터에서 값이 0으로 채워진 차원의 단어와 S_i에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정한다.

이를 수학식으로 표현하면 아래의 [수학식 3]과 같다.

[수학식 3]

한편, 랭크 알고리즘 적용부(140)는 그래프 기반의 랭크 알고리즘을 사용하여 문장간 관계 그래프 생성부(130)에 의해 생성된 문장간 관계 그래프(G_sentence)에서 가장 영향력 있는 문장을 추출할 수 있다.

본 발명의 일 실시예서는 TextRank 랭크 알고리즘을 사용하여 상위 N개의 문장을 요약으로서 추출할 수 있다.

참고로, TextRank에서 사용하는 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 문장 간의 유사성, 즉 노드 간의 엣지의 가중치를 반영하여 해당 문장의 랭크 점수를 계산할 수 있으며, 이를 수학식으로 표현하면 아래의 [수학식 4]와 같다.

[수학식 4]

랭크 알고리즘 적용부(140)는 문장간 관계 그래프(G_sentence)에 [수학식 4]의 알고리즘을 적용한 후 문장들의 랭크 점수를 내림차순 정렬하여 상위 N개의 문장을 추출하여 문서 D의 요약으로 제시할 수 있다.

도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(G_word)를 도시한 도면이다.

도 2에 도시된 단어간 관계 그래프(G_word)는 두 문장 S₁과 S₂에서 각 문장 별로 형태소 분석을 수행하여 추출된 명사, 형용사, 동사를 노드로 하고, 문장 내에서 동시 출현 관계를 나타내는 가중치 weight_co _- _occurrence를 엣지로 단어간 관계를 표현한 것이다.

여기서, 두 문장 S₁과 S₂는 다음과 같다.

S₁=“의존 관계를 가지는 어절은 다음 단계에서는 삭제되어 더 이상 다른 어절의 의존 구조에 영향을 미치지 못한다.”

S₂=“성능 측정은 의존 구조와 의존 관계명이 모두 일치하는 경우만 정답으로 하였다.”

도 3은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(G_word)를 도시한 도면이다.

도 3은 도 2에 도시된 단어간 관계 그래프(G_word)에 유의어를 추가한 것으로서, 특정 단어를 나타내는 노드와 유의어로 추가되는 노드가 유의 정도를 나타내는 가중치 weight_synonym을 가지는 엣지로 연결되어 있음을 볼 수 있다.

두 단어의 의미적 유사도는 단어간 관계 그래프(G_word) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지의 가중치들을 곱하여 계산할 수 있으며, 이는 전술한 [수학식 1]을 이용하여 계산할 수 있다.

예를 들어 실험 데이터로 사용된 입력으로부터 생성한 단어간 관계 그래프(G_word)에서 가중치 weight_co _- _occurrence와 weight_synonym가 각각 0.2와 0.7이라고 가정할 때 특정 두 단어의 의미적 유사도는 아래와 같다.

Sim_word(관계명(310), 성능(320)) = 0.2

Sim_word(성능(320), 기능(330)) = 0.7

Sim_word(성능(320), 영향(340)) = 0.7 * 0.7 * 0.7 = 0.343

도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.

도 4의 [표 1]은 도 3에 도시된 단어간 관계 그래프(G_word)에서 가중치 weight_{co-occurrence}와 weight_synonym를 각각 0.2와 0.7이라 할 때 [수학식 3]을 이용하여 계산된 두 문장(S₁과 S₂)의 문장 벡터이다.

그리고, 도 4의 [표 1]에 근거하여 [수학식 2]를 통해 계산된 문장 S₁과 S₂의 코사인 유사도 Simialrity_cosine(S₁, S₂)는 0.295가 된다.

참고로, 종래의 문장 S₁과 S₂에 대한 단어 차원의 벡터 표현은 도 4의 [표 2]와 같다.

[표 2]를 보면, 동일한 단어가 많지 않기 때문에 코사인 유사도를 계산하면 유사도가 0.167로 높지 않게 산출된다.

그러나 두 문장 벡터의 차원을 보면 서로 자주 사용되는 단어들이기 때문에 문장간 유사도는 이를 고려하여 보다 높은 수치로 산출되어야 한다(본 발명의 일 실시예에 따른 두 문장간의 유사도는 0.295로서 종래의 0.167보다 높게 산출되었다).

도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.

도 5의 과정은 도 1에 도시된 문서 요약 서버(100)에 의해 수행될 수 있으며, 이하에서는 문서 요약 서버(100)를 수행 주체로 도 5의 과정을 설명하도록 한다.

문서 요약 서버(100)는 문서 요약을 위해 입력된 문서를 문장 단위로 나누고 각 문장에 대하여 형태소 분석을 수행한다(S501).

S501 후, 문서 요약 서버(100)는 형태소 분석을 통해 추출된 각 단어들(명사, 형용사 및 동사)을 노드(node)로 표현하고, 같은 문장에 동시 출현한 관계를 나타내는 가중치 weight_co _- _occurrence를 가지는 엣지(edge)로 연결하여 단어간 관계 그래프(G_word)를 생성한다(S502).

S502 후, 문서 요약 서버(100)는 단어간 관계 그래프(G_word)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출하여 새로운 노드로서 단어간 관계 그래프(G_word)에 추가로 반영한다(S503).

참고로, S502 및 S503에서 문서 요약 서버(100)는 단어간 관계 그래프(G_word) 내의 두 단어간(유의어도 포함) 유사도를 계산할 수 있다.

S503 후, 문서 요약 서버(100)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(G_sentence)를 생성한다(S504).

이때 문서 요약 서버(100)는 문장간 유사도를 계산할 수 있으며, 문장간 유사도 계산 시 단어간 관계 그래프(G_word)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.

S504 후, 문서 요약 서버(100)는 그래프 기반의 랭크 알고리즘을 사용하여 S504에서 생성된 문장간 관계 그래프(G_sentence)에서 가장 영향력 있는 문장을 추출한다(S505).

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 문서 요약 서버
110 : 단어간 관계 그래프 생성부
120 : 유의어 추출부
130 : 문장간 관계 그래프 생성부
140 : 랭크 알고리즘 적용부

Claims

서버가 문서를 자동으로 요약하는 방법에 있어서,
(a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(G_word)를 생성하는 단계;
(b) 상기 제 1 그래프(G_word)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(G_sentence)를 생성하는 단계; 및
(c) 상기 제 2 그래프(G_sentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계
를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
제 1 항에 있어서,
상기 (a) 단계는,
상기 제 1 그래프(G_word)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하는 단계
를 포함하고,
상기 (b) 단계는,
상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 단계
를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
제 2 항에 있어서,
상기 (a) 단계는,
상기 단어들의 유의어를 추출하는 단계; 및
상기 유의어를 나타내는 노드를 상기 제 1 그래프(G_word)에 추가하는 단계
를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
제 3 항에 있어서,
상기 유의어를 나타내는 노드를 상기 제 1 그래프(G_word)에 추가하는 단계는,
상기 제 1 그래프(G_word)에 기 포함된 노드와 상기 유의어를 나타내는 노드를 제 3 엣지로 연결하되,
상기 제 3 엣지는 노드간 유의 정도를 나타내는 가중치를 가지는 것을 특징으로 하는 문서 자동 요약 방법.
제 2 항에 있어서,
상기 (a) 단계는,
상기 제 1 그래프(G_word) 내에서 노드간 최단 경로를 구한 후 해당 노드들을 연결하는 엣지의 가중치들을 곱하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
제 2 항에 있어서,
상기 (b) 단계는,
코사인 유사도를 이용하여 상기 문장간 유사도를 계산하되,
벡터 함수를 이용하여 상기 단어간 의미적 유사도를 상기 문장간 유사도에 적용하는 단계
를 포함하며,
상기 벡터 함수로부터 반환되는 벡터의 단어 차원은,
제 1 문장과 제 2 문장에 등장한 단어들의 합집합의 크기인 n개의 차원을 가지고, 각 단어의 차원에 상기 제 1 문장에 등장한 단어의 등장 빈도를 카운트하는 단계; 및
상기 등장 빈도를 카운트한 벡터에서 값이 0인 차원의 단어와 상기 제 1 문장에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정하는 단계
를 통해 반환되는 것을 특징으로 하는 문서 자동 요약 방법.
제 2 항에 있어서,
상기 (c) 단계는,
TextRank의 랭킹 알고리즘을 사용하여 문장들의 랭크 점수를 내림차순으로 정렬한 후 상위 n개의 문장을 추출하여 상기 문서의 요약으로 제공하되,
상기 TextRank의 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 상기 제 2 엣지를 반영하여 문장의 랭크 점수를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
문서를 자동으로 요약하는 서버에 있어서,
문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(G_word)를 생성하는 단어간 관계 그래프 생성부;
상기 제 1 그래프(G_word)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(G_sentence)를 생성하는 문장간 관계 그래프 생성부; 및
상기 제 2 그래프(G_sentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부
를 포함하는 것을 특징으로 하는 서버.
제 8 항에 있어서,
상기 단어간 관계 그래프 생성부는,
상기 제 1 그래프(G_word)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하고,
상기 문장간 관계 그래프 생성부는,
상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 것을 특징으로 하는 서버.
제 9 항에 있어서,
상기 단어들의 유의어를 추출하는 유의어 추출부
를 더 포함하되,
상기 단어간 관계 그래프 생성부는 상기 유의어를 나타내는 노드를 상기 제 1 그래프(G_word)에 추가하며,
상기 제 1 그래프(G_word)에 추가되는 상기 유의어를 나타내는 노드는 상기 제 1 그래프(G_word)에 기 포함된 노드와 유의 정도를 나타내는 가중치를 가지는 제 3 엣지로 연결되는 것을 특징으로 하는 서버.