KR101548096B1 - 문서 자동 요약 방법 및 서버 - Google Patents

문서 자동 요약 방법 및 서버 Download PDF

Info

Publication number
KR101548096B1
KR101548096B1 KR1020150015803A KR20150015803A KR101548096B1 KR 101548096 B1 KR101548096 B1 KR 101548096B1 KR 1020150015803 A KR1020150015803 A KR 1020150015803A KR 20150015803 A KR20150015803 A KR 20150015803A KR 101548096 B1 KR101548096 B1 KR 101548096B1
Authority
KR
South Korea
Prior art keywords
word
sentence
graph
similarity
words
Prior art date
Application number
KR1020150015803A
Other languages
English (en)
Inventor
이수원
김희찬
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020150015803A priority Critical patent/KR101548096B1/ko
Priority to PCT/KR2015/004566 priority patent/WO2016125949A1/ko
Application granted granted Critical
Publication of KR101548096B1 publication Critical patent/KR101548096B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • G06F17/21
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

문서 자동 요약 방법 및 서버가 제공된다. 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계, (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.

Description

문서 자동 요약 방법 및 서버{METHOD AND SERVER FOR AUTOMATICALLY SUMMARIZING DOCUMENTS}
본 발명은 문서 내에서 가장 영향력 있는 문장들을 해당 문서의 요약으로서 추출하는 기술에 관한 것이다.
문서 자동 추출 요약 기술은 텍스트 마이닝 분야의 한 부분으로서, 문서 내에서 가장 중요한 문장을 추출하여 이를 요약으로 제시하는 연구 분야이다.
문서 요약의 초창기에는 가장 중요한 문서를 뽑기 위한 랭크 알고리즘 위주로 연구가 진행되었으나, 이는 결국 그래프에 문서의 중요한 정보가 전부 담겨있어야 원활이 작동되는 것이기 때문에 최근에는 문서를 그래프화 할 때 생기는 정보의 손실을 최소화하는 방법을 활발히 연구 중이다.
그러나, 종래의 문서 요약 방식은 문서 요약을 위해 랭크 알고리즘에 주로 초점이 맞추어져 있으며, 문장간 유사도를 계산할 때 문장 내 단어간의 의미적 유사성을 충분히 고려하지 못하는 문제가 있다.
한국공개특허공보 특2000-0054268, 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서 분류 검색 시스템(2000.09.05.)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있는 방안을 제안하고자 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계, (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서를 자동으로 요약하는 서버는 문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단어간 관계 그래프 생성부, 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 문장간 관계 그래프 생성부 및 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있다.
또한, 문장에 등장하는 단어들의 관계(유사도)를 그래프로 표현함으로써 직관적으로 이해할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 3은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.
도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 문서 요약 서버(100)는 단어간 관계 그래프 생성부(110), 단어 유의어 추출부(120), 문장간 관계 그래프 생성부(130) 및 랭크 알고리즘 적용부(140)를 포함할 수 있다.
각 구성 요소를 설명하면, 단어간 관계 그래프 생성부(110)는 문서 요약을 위해 입력된 문서 D를 문장 단위로 나누고 각 문장에 대한 형태소 분석을 수행하여 명사, 형용사 및 동사를 추출할 수 있다.
이하, 상기 형태소 분석을 통해 추출된 명사, 형용사 및 동사를 Wi라 칭하도록 한다.
이후, 단어간 관계 그래프 생성부(110)는 형태소 분석으로 추출된 각 단어들을 노드(node)로 표현하고, 같은 문장에 동시 출현한 관계를 나타내는 가중치 weightco-occurrence를 가지는 엣지(edge)로 연결하여 단어간 동시 출현 관계를 나타내는 그래프(이하, ‘단어간 관계 그래프’라 칭함)(Gword)를 생성할 수 있다.
또한, 단어간 관계 그래프 생성부(110)는 각 노드가 표현하고 있는 단어들의 유의어를 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영할 수 있다.
참고로, 상기 유의어는 후술하는 유의어 추출부(120)에 의해 추출될 수 있다.
또한, 단어간 관계 그래프 생성부(110)는 단어간 관계 그래프(Gword) 내의 두 단어를 표현하고 있는 노드간의 최단 경로(shortest path)를 이용하여 단어간 유사도를 계산할 수 있다.
참고로, 단어간 관계 그래프(Gword)의 엣지 가중치는 단어 사이의 유사도를 나타내는 가중치이므로 거리로 정의할 수 없다. 따라서 단어간 관계 그래프 생성부(110)는 최단 경로를 계산하기 위해 단어간 관계 그래프(Gword)의 노드간 거리를 1-weight로 정의한다.
단어간 관계 그래프 생성부(110)는 두 단어 we와 wn의 의미적 유사도 Simword(wi, wj)를 단어간 관계 그래프(Gword) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지 ek의 가중치들을 곱하여 계산할 수 있으며, 이는 아래의 [수학식 1]과 같이 표현할 수 있다.
[수학식 1]
Figure 112015010773963-pat00001
한편, 유의어 추출부(120)는 상기 단어간 관계 그래프(Gword)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출할 수 있다.
이를 위해 유의어 추출부(120)는 유의어 사전(미도시)과 연결될 수 있으며, 각 단어에 대한 유의어를 유의어 사전(미도시)에서 검색하고 추출할 수 있다.
유의어 추출부에 의해 추출된 각 단어의 유의어는 단어간 관계 그래프 생성부(110)에 의해 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영될 수 있다.
이때, 특정 단어를 나타내는 노드와, 해당 특정 단어의 유의어로서 추가 반영되는 노드는 유의 정도를 나타내는 가중치 weightsynonym를 가지는 엣지로 연결될 수 있다.
참고로, 유의어 추출부(120)는 상기 추가로 반영된 유의어의 유의어를 더 추가로 반영할 수도 있는데, 유의어 관계가 연속해서 추가로 반영될 경우 실제 의미가 전혀 다른 경우가 발생할 수 있으므로 유의어의 추가 반영 횟수(깊이)는 특정 회수(예를 들어 3회)로 설정될 수 있다.
한편, 문장간 관계 그래프 생성부(130)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(Gsentence)를 생성할 수 있다.
여기서 문장간 관계 그래프 생성부(130)는 문장간 유사도를 계산 시 상기 단어간 관계 그래프(Gword)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.
문서에서 가장 영향력 있는 문장을 추출하기 위해 생성하는 문장간 관계 그래프(Gsentence)는 각 문장 Si를 노드로 하며, 이때 노드간 유사도를 나타내는 엣지는 아래의 [수학식 2]를 이용하여 계산할 수 있다.
참고로, 문장간 관계 그래프 생성부(130)는 코사인 유사도 Similaritycosine를 이용하여 문장간 유사도를 계산할 수 있다.
[수학식 2]
Figure 112015010773963-pat00002
여기서 두 문장 Si와 Sj의 유사도 계산을 위한 벡터 함수
Figure 112015010773963-pat00003
는 단어간 관계 그래프(Gword)의 단어간 유사도를 문장간 유사도에 반영하기 위한 것(이하, ‘문장 벡터 함수’라 칭함)으로서, 한 문장 내에 같이 등장하는 단어들은 상호 연관 관계가 존재하고, 특정 단어의 유의어들은 같은 의미는 아니지만 상호 유사한 의미를 가진다는 전제하에 정의될 수 있다.
문장 벡터 함수는 두 문장에 각각 등장한 단어의 횟수와 등장하지 않은 단어 간의 유사도를 계산하고 이를 평균 낸 값을 합하여 하나의 벡터를 반환할 수 있다.
문장간 관계 그래프 생성부(130)가 상기 [수학식 2]를 이용하여 문장 벡터 함수
Figure 112015010773963-pat00004
를 계산하는 방법은 다음과 같다.
먼저, 문장 벡터 함수에 의해 반환된 벡터의 단어 차원은 Si와 Sj에 등장한 단어들의 합집합의 크기 n개의 차원을 가지고, 각 단어 차원에 Si에 등장한 단어의 등장 빈도를 채워 넣는다.
이후, 등장 빈도를 채우고 난 벡터에서 값이 0으로 채워진 차원의 단어와 Si에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정한다.
이를 수학식으로 표현하면 아래의 [수학식 3]과 같다.
[수학식 3]
Figure 112015010773963-pat00005
한편, 랭크 알고리즘 적용부(140)는 그래프 기반의 랭크 알고리즘을 사용하여 문장간 관계 그래프 생성부(130)에 의해 생성된 문장간 관계 그래프(Gsentence)에서 가장 영향력 있는 문장을 추출할 수 있다.
본 발명의 일 실시예서는 TextRank 랭크 알고리즘을 사용하여 상위 N개의 문장을 요약으로서 추출할 수 있다.
참고로, TextRank에서 사용하는 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 문장 간의 유사성, 즉 노드 간의 엣지의 가중치를 반영하여 해당 문장의 랭크 점수를 계산할 수 있으며, 이를 수학식으로 표현하면 아래의 [수학식 4]와 같다.
[수학식 4]
Figure 112015010773963-pat00006
랭크 알고리즘 적용부(140)는 문장간 관계 그래프(Gsentence)에 [수학식 4]의 알고리즘을 적용한 후 문장들의 랭크 점수를 내림차순 정렬하여 상위 N개의 문장을 추출하여 문서 D의 요약으로 제시할 수 있다.
도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 2에 도시된 단어간 관계 그래프(Gword)는 두 문장 S1과 S2에서 각 문장 별로 형태소 분석을 수행하여 추출된 명사, 형용사, 동사를 노드로 하고, 문장 내에서 동시 출현 관계를 나타내는 가중치 weightco - occurrence를 엣지로 단어간 관계를 표현한 것이다.
여기서, 두 문장 S1과 S2는 다음과 같다.
S1=“의존 관계를 가지는 어절은 다음 단계에서는 삭제되어 더 이상 다른 어절의 의존 구조에 영향을 미치지 못한다.”
S2=“성능 측정은 의존 구조와 의존 관계명이 모두 일치하는 경우만 정답으로 하였다.”
도 3은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 3은 도 2에 도시된 단어간 관계 그래프(Gword)에 유의어를 추가한 것으로서, 특정 단어를 나타내는 노드와 유의어로 추가되는 노드가 유의 정도를 나타내는 가중치 weightsynonym을 가지는 엣지로 연결되어 있음을 볼 수 있다.
두 단어의 의미적 유사도는 단어간 관계 그래프(Gword) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지의 가중치들을 곱하여 계산할 수 있으며, 이는 전술한 [수학식 1]을 이용하여 계산할 수 있다.
예를 들어 실험 데이터로 사용된 입력으로부터 생성한 단어간 관계 그래프(Gword)에서 가중치 weightco - occurrence와 weightsynonym가 각각 0.2와 0.7이라고 가정할 때 특정 두 단어의 의미적 유사도는 아래와 같다.
Simword(관계명(310), 성능(320)) = 0.2
Simword(성능(320), 기능(330)) = 0.7
Simword(성능(320), 영향(340)) = 0.7 * 0.7 * 0.7 = 0.343
도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.
도 4의 [표 1]은 도 3에 도시된 단어간 관계 그래프(Gword)에서 가중치 weightco-occurrence와 weightsynonym를 각각 0.2와 0.7이라 할 때 [수학식 3]을 이용하여 계산된 두 문장(S1과 S2)의 문장 벡터이다.
그리고, 도 4의 [표 1]에 근거하여 [수학식 2]를 통해 계산된 문장 S1과 S2의 코사인 유사도 Simialritycosine(S1, S2)는 0.295가 된다.
참고로, 종래의 문장 S1과 S2에 대한 단어 차원의 벡터 표현은 도 4의 [표 2]와 같다.
[표 2]를 보면, 동일한 단어가 많지 않기 때문에 코사인 유사도를 계산하면 유사도가 0.167로 높지 않게 산출된다.
그러나 두 문장 벡터의 차원을 보면 서로 자주 사용되는 단어들이기 때문에 문장간 유사도는 이를 고려하여 보다 높은 수치로 산출되어야 한다(본 발명의 일 실시예에 따른 두 문장간의 유사도는 0.295로서 종래의 0.167보다 높게 산출되었다).
도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
도 5의 과정은 도 1에 도시된 문서 요약 서버(100)에 의해 수행될 수 있으며, 이하에서는 문서 요약 서버(100)를 수행 주체로 도 5의 과정을 설명하도록 한다.
문서 요약 서버(100)는 문서 요약을 위해 입력된 문서를 문장 단위로 나누고 각 문장에 대하여 형태소 분석을 수행한다(S501).
S501 후, 문서 요약 서버(100)는 형태소 분석을 통해 추출된 각 단어들(명사, 형용사 및 동사)을 노드(node)로 표현하고, 같은 문장에 동시 출현한 관계를 나타내는 가중치 weightco - occurrence를 가지는 엣지(edge)로 연결하여 단어간 관계 그래프(Gword)를 생성한다(S502).
S502 후, 문서 요약 서버(100)는 단어간 관계 그래프(Gword)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출하여 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영한다(S503).
참고로, S502 및 S503에서 문서 요약 서버(100)는 단어간 관계 그래프(Gword) 내의 두 단어간(유의어도 포함) 유사도를 계산할 수 있다.
S503 후, 문서 요약 서버(100)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(Gsentence)를 생성한다(S504).
이때 문서 요약 서버(100)는 문장간 유사도를 계산할 수 있으며, 문장간 유사도 계산 시 단어간 관계 그래프(Gword)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.
S504 후, 문서 요약 서버(100)는 그래프 기반의 랭크 알고리즘을 사용하여 S504에서 생성된 문장간 관계 그래프(Gsentence)에서 가장 영향력 있는 문장을 추출한다(S505).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 문서 요약 서버
110 : 단어간 관계 그래프 생성부
120 : 유의어 추출부
130 : 문장간 관계 그래프 생성부
140 : 랭크 알고리즘 적용부

Claims (10)

  1. 서버가 문서를 자동으로 요약하는 방법에 있어서,
    (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계;
    (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계; 및
    (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는,
    상기 제 1 그래프(Gword)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하는 단계
    를 포함하고,
    상기 (b) 단계는,
    상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  3. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 단어들의 유의어를 추출하는 단계; 및
    상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  4. 제 3 항에 있어서,
    상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하는 단계는,
    상기 제 1 그래프(Gword)에 기 포함된 노드와 상기 유의어를 나타내는 노드를 제 3 엣지로 연결하되,
    상기 제 3 엣지는 노드간 유의 정도를 나타내는 가중치를 가지는 것을 특징으로 하는 문서 자동 요약 방법.
  5. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 제 1 그래프(Gword) 내에서 노드간 최단 경로를 구한 후 해당 노드들을 연결하는 엣지의 가중치들을 곱하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  6. 제 2 항에 있어서,
    상기 (b) 단계는,
    코사인 유사도를 이용하여 상기 문장간 유사도를 계산하되,
    벡터 함수를 이용하여 상기 단어간 의미적 유사도를 상기 문장간 유사도에 적용하는 단계
    를 포함하며,
    상기 벡터 함수로부터 반환되는 벡터의 단어 차원은,
    제 1 문장과 제 2 문장에 등장한 단어들의 합집합의 크기인 n개의 차원을 가지고, 각 단어의 차원에 상기 제 1 문장에 등장한 단어의 등장 빈도를 카운트하는 단계; 및
    상기 등장 빈도를 카운트한 벡터에서 값이 0인 차원의 단어와 상기 제 1 문장에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정하는 단계
    를 통해 반환되는 것을 특징으로 하는 문서 자동 요약 방법.
  7. 제 2 항에 있어서,
    상기 (c) 단계는,
    TextRank의 랭킹 알고리즘을 사용하여 문장들의 랭크 점수를 내림차순으로 정렬한 후 상위 n개의 문장을 추출하여 상기 문서의 요약으로 제공하되,
    상기 TextRank의 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 상기 제 2 엣지를 반영하여 문장의 랭크 점수를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  8. 문서를 자동으로 요약하는 서버에 있어서,
    문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단어간 관계 그래프 생성부;
    상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 문장간 관계 그래프 생성부; 및
    상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부
    를 포함하는 것을 특징으로 하는 서버.
  9. 제 8 항에 있어서,
    상기 단어간 관계 그래프 생성부는,
    상기 제 1 그래프(Gword)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하고,
    상기 문장간 관계 그래프 생성부는,
    상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 것을 특징으로 하는 서버.
  10. 제 9 항에 있어서,
    상기 단어들의 유의어를 추출하는 유의어 추출부
    를 더 포함하되,
    상기 단어간 관계 그래프 생성부는 상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하며,
    상기 제 1 그래프(Gword)에 추가되는 상기 유의어를 나타내는 노드는 상기 제 1 그래프(Gword)에 기 포함된 노드와 유의 정도를 나타내는 가중치를 가지는 제 3 엣지로 연결되는 것을 특징으로 하는 서버.
KR1020150015803A 2015-02-02 2015-02-02 문서 자동 요약 방법 및 서버 KR101548096B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150015803A KR101548096B1 (ko) 2015-02-02 2015-02-02 문서 자동 요약 방법 및 서버
PCT/KR2015/004566 WO2016125949A1 (ko) 2015-02-02 2015-05-07 문서 자동 요약 방법 및 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150015803A KR101548096B1 (ko) 2015-02-02 2015-02-02 문서 자동 요약 방법 및 서버

Publications (1)

Publication Number Publication Date
KR101548096B1 true KR101548096B1 (ko) 2015-08-27

Family

ID=54062184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150015803A KR101548096B1 (ko) 2015-02-02 2015-02-02 문서 자동 요약 방법 및 서버

Country Status (2)

Country Link
KR (1) KR101548096B1 (ko)
WO (1) WO2016125949A1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
KR101717230B1 (ko) * 2015-12-30 2017-03-16 성균관대학교산학협력단 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
KR101842274B1 (ko) * 2016-09-05 2018-03-27 주식회사 위버플 문장 추출 방법 및 시스템
KR20190121727A (ko) * 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템
KR20200042767A (ko) * 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR20210114740A (ko) * 2020-03-11 2021-09-24 삼성생명보험주식회사 상담 데이터 분석 방법
KR20220078082A (ko) * 2020-12-03 2022-06-10 주식회사 포티투마루 텍스트 요약 성능 개선 방법 및 시스템
KR20240019992A (ko) 2022-08-05 2024-02-14 (주)메인라인 문서 요약 장치 및 그 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577665B (zh) * 2017-09-11 2020-11-03 电子科技大学 文本情感倾向的判别方法
CN109033066B (zh) * 2018-06-04 2022-05-17 浪潮软件股份有限公司 一种摘要形成方法及装置
CN110852110B (zh) * 2018-07-25 2023-08-04 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN109684630B (zh) * 2018-12-05 2023-03-24 南京邮电大学 专利相似性的对比分析方法
CN112287080B (zh) * 2020-10-23 2023-10-03 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN113254593B (zh) * 2021-06-18 2021-10-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308318A (ja) 2002-04-17 2003-10-31 Hitachi Ltd 文書読解支援方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308318A (ja) 2002-04-17 2003-10-31 Hitachi Ltd 文書読解支援方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
CN107025216A (zh) * 2015-09-09 2017-08-08 Uberple有限公司 句子提取方法及系统
US10430468B2 (en) 2015-09-09 2019-10-01 Uberple Co., Ltd. Method and system for extracting sentences
US20200004790A1 (en) * 2015-09-09 2020-01-02 Uberple Co., Ltd. Method and system for extracting sentences
KR101717230B1 (ko) * 2015-12-30 2017-03-16 성균관대학교산학협력단 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
KR101842274B1 (ko) * 2016-09-05 2018-03-27 주식회사 위버플 문장 추출 방법 및 시스템
KR102128659B1 (ko) * 2018-10-16 2020-06-30 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR20200042767A (ko) * 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR102125407B1 (ko) 2019-10-14 2020-06-22 주식회사 딥서치 문장 추출 방법 및 시스템
KR20190121727A (ko) * 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템
KR20210114740A (ko) * 2020-03-11 2021-09-24 삼성생명보험주식회사 상담 데이터 분석 방법
KR102540562B1 (ko) * 2020-03-11 2023-06-05 삼성생명보험주식회사 상담 데이터 분석 방법
KR20220078082A (ko) * 2020-12-03 2022-06-10 주식회사 포티투마루 텍스트 요약 성능 개선 방법 및 시스템
KR102539601B1 (ko) * 2020-12-03 2023-06-02 주식회사 포티투마루 텍스트 요약 성능 개선 방법 및 시스템
US11727041B2 (en) 2020-12-03 2023-08-15 42Maru Inc. Method and system for improving performance of text summarization
KR20240019992A (ko) 2022-08-05 2024-02-14 (주)메인라인 문서 요약 장치 및 그 방법

Also Published As

Publication number Publication date
WO2016125949A1 (ko) 2016-08-11

Similar Documents

Publication Publication Date Title
KR101548096B1 (ko) 문서 자동 요약 방법 및 서버
Vilares et al. A syntactic approach for opinion mining on Spanish reviews
Ferreira et al. Assessing sentence scoring techniques for extractive text summarization
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US9547640B2 (en) Ontology-driven annotation confidence levels for natural language processing
US10133731B2 (en) Method of and system for processing a text
US10496756B2 (en) Sentence creation system
Kanerva et al. Syntactic n-gram collection from a large-scale corpus of internet finnish
US20160292153A1 (en) Identification of examples in documents
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
JP6729095B2 (ja) 情報処理装置及びプログラム
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Alami et al. Automatic texts summarization: Current state of the art
JP2011118689A (ja) 検索方法及びシステム
Yang et al. Sentiment analysis for Chinese reviews of movies in multi-genre based on morpheme-based features and collocations
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
Bella et al. Domain-based sense disambiguation in multilingual structured data
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
Silva et al. Automatic expansion of a social judgment lexicon for sentiment analysis
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
Fauzi et al. Image understanding and the web: a state-of-the-art review
JP6106489B2 (ja) 語義解析装置、及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 5