KR100751295B1 - 질의 기반의 문서요약 장치 및 그 방법 - Google Patents

질의 기반의 문서요약 장치 및 그 방법 Download PDF

Info

Publication number
KR100751295B1
KR100751295B1 KR1020060035268A KR20060035268A KR100751295B1 KR 100751295 B1 KR100751295 B1 KR 100751295B1 KR 1020060035268 A KR1020060035268 A KR 1020060035268A KR 20060035268 A KR20060035268 A KR 20060035268A KR 100751295 B1 KR100751295 B1 KR 100751295B1
Authority
KR
South Korea
Prior art keywords
sentence
document
matrix
query
term
Prior art date
Application number
KR1020060035268A
Other languages
English (en)
Inventor
이주홍
박선
김덕환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020060035268A priority Critical patent/KR100751295B1/ko
Application granted granted Critical
Publication of KR100751295B1 publication Critical patent/KR100751295B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 질의 기반의 문서요약 장치로서, 요약 대상인 문서를 각각의 문장으로 추출하는 문장추출수단과, 추출된 문장에서 불용어를 제거하고 용어에 대한 어근을 추출하는 불용어 제거 및 어근 추출수단과, 용어의 사용빈도에 따른 벡터를 생성하는 용어-빈도 벡터 생성수단과, 각각의 용어에 대한 지역 가중치와 전역 가중치를 산출하는 지역-전역 가중치 산출수단과, 산출된 가중치가 반영된 m개의 용어와 n개의 문장으로 이루어진 행렬을 생성하는 용어-문장 행렬 생성수단으로 구성된 전처리부(130); 및 비음수 행렬 인수분해를 이용하여 생성된 용어-문장 행렬을 비음수 의미 특징 행렬과 비음수 의미 변수 행렬로 재구성하는 비음수 행렬 인수분해수단과, 비음수 의미 특징 행렬의 열 벡터들과 질의 간의 유사도를 계산하여 p번째 유사도가 큰 열 벡터를 선택하는 유사도 산출수단과, 비음수 의미 변수 행렬에서 p번째 행에 포함된 행 벡터에서 가장 큰 요소 값을 가진 q열과 같은 열에 있는 용어-문장 행렬의 문장 벡터에 대응되는 문장을 선택하여 요약서에 추가하는 문장선택수단으로 구성된 문서요약부; 를 포함한다.
문서요약, 질의기반, 비음수 행렬 인수분해, NMF

Description

질의 기반의 문서요약 장치 및 그 방법{QUERY-BASED TEXT SUMMARIZATION USING COSINE SIMILARITY AND NMF}
도 1은 본 발명에 따른 문서요약 장치의 개략적 구성도,
도 2는 본 발명에 따른 문서요약 방법을 나타낸 개략적 순서도.
*** 도면의 주요 부분에 대한 부호의 설명 ***
110 : 질의 입력부 120 : 문서 독출부
130 : 전처리부 131 : 문장 추출수단
132 : 불용어 제거 및 어근 추출수단
133 : 용어-빈도 벡터 생성수단
134 : 지역-전역 가중치 산출수단
135 : 용어-문장 행렬 생성수단
140 : 문서요약부 141 : 비음수 행렬 인수분해수단
142 : 유사도 산출수단 143 : 문장 선택수단
본 발명은 질의 기반의 문서요약 장치에 관한 것으로서, 특히, 비음수 행렬 인수분해(NMF, Non-negative Matrix Factorization)와 코사인유사도(Cosine Similarity)를 이용한 질의 기반의 문서요약 장치 및 그 방법에 관한 것이다.
인터넷 기술과 그 기반 요소들의 발달로 인하여 정보의 양은 기하급수적으로 증가하고 누적되고 있다. 따라서 정보검색시스템은 이러한 방대한 정보로부터 검색결과를 검색하고 그 검색결과를 사용자에게 제시 하는데 많은 시간을 소비하며, 더욱이 제시되는 검색결과가 비교적 많기 때문에 사용자는 이차적으로 자신이 원하는 정보를 선별해야 한다.
이를 해결하기 위한 방안으로서 문서요약에 관련한 기술이 제시되고 있는데, 이 문서요약은 문서의 기본적인 내용을 유지하면서 문서의 양 또는 그 크기를 줄이는 일련의 작업을 의미한다. 문서요약은 그 접근방법에 따라 문서 내의 여러 통계값들을 이용하는 통계적 방법과 언어학적 지식에 기반한 방법으로 대분될 수 있다.
또한, 요약되는 방식에 따라 문서의 내용 전체를 요약하는 포괄적 요약(generic summary)과, 사용자의 질의(query)를 근간으로 그 질의에 관련된 내용만을 포함하는 질의 기반 요약(query-based summary)로 세분될 수 있다[Mani, I. /"Automatic Summarization"/ John Benjamins Publishing Company / 2001].
위 질의 기반의 문서요약에 대한 최근 연구 동향은 다음과 같다.
(1). Berger와 Mittal은 FAQ(frequently asked question)를 이용하여 문서를 요약하는 방법을 제시했다[Berger, A., Mittal, V.O / "Query-Relevant Summarization using FAQs" / In Proceeding of the 38th Annual Meeting on Association for Computational Linguistics ACL'00 / 2000].
이들의 방법은 기존의 비지도 학습이 많은 문서와 질의로 훈련자료(training data)를 구성하는 것과 달리 특정 주제의 질문과 답으로 구성된 FAQ 문서를 훈련자료로 사용하여 훈련자료의 양을 줄이고 있다. 그러나 이들이 제시한 방법은 사전에 미리 FAQ가 구성되어 있어야 하며, 훈련자료에 따라서 문서요약에 대한 결과가 영향을 받는다.
(2). Bosma는 RST(rhetorical structure theory)를 이용하여 단일 문서를 그래프(graph)로 변형시켜 질의에 가장 근접한 답을 찾는 방법을 제시했다[Bosma, W. / "Query-based Summarization using Rhetorical Structure Theory" / The Proceeding of CLIN / 2004]. 그러나 이 방법을 다중문서에 적용할 때는 RST에 대한 광범위한 변경이 요구된다.
(3). Varadarajan과 Hristidis는 구조기반의 질의 기반 문서요약 방법을 제안했다[Varadarajan, R., Hristidis, V. / "Structured-Based Query-Specific Document Summarization" / 2005]. 구체적으로 이들이 제안한 방법은 문서를 상요 연결된 문장의 집합으로 보고, 문서 그래프(document graph)를 만드는데, 문서 그래프는 각각의 문장으로 노드(node)가 구성되며, 에지(edge)는 문장의 의미적 관계나 인접한 문장에 따라 가중치가 부여된다. 따라서 질의의 키워드와 일치하는 문서 그래프를 이용하여 문서를 요약하는 방법이라 할 수 있다.
(4). Sakurai와 Utsumi는 정보검색을 위한 질의 기반의 다중 문서요약 방법을 제안하였다[Sakurai. T., Utsumi, A. / "Query-based Multidocument Summarization for Information Retrieval" / The Proceeding of NTCIR-4 / 2004]. 이 방법은 먼저 질의와 가장 관련이 있는 문서로부터 문서요약의 핵심부분을 생성하고, 나머지 문서들로부터 보충할 부분을 생성하여 문서를 요약한다. 그러나 이들이 제시한 방법은 긴 문서를 요약할 때는 효과적이나 반면에 요약문장이 짧을 때는 좋은 성능을 보장하지 못 한다.
(5). Saggion은 주제기반의 다중문서요약 방법을 제시했다[Saggion, H. / "Topic-based Summarization at DUC 2005" / In Proceeding of the Document Understanding Conference 2005 / 2005]. 이 방법은 문장을 제거하여 문서를 요약하는 방법으로서 사용자가 지정한 압축률까지 후보 문장집합으로부터 문장을 제거하여 문서를 요약하는 방법이다.
(6). Lee와 Seung은 비음수 행렬 인수분해를 이용하여 대량의 정보를 표현하기 위한 방법을 제시했다[Lee, D. D. and Seung, H. S. / "Learning the parts of objects by non-negative matrix factorization" / Naure, 401:788-791 / 1999][Lee, D. D. and Seung, H. S. / "Algorithm for non-negative matrix factorization" / In Advances in Neural Information Processing Systems, volume 13, pages 556-562 / 2001]. 이 방법은 인간이 객체를 인식할 때 객체의 부분정보의 조합으로 인식하는 점에 착안하여, 객체정보를 부분정보인 의미 특징(semantic feature)과 의미 변수(semantic variable)로 나누어 표현한다. 이러한 부분정보의 조합으로 전체 객체를 표현하는 방식을 통해 대량의 정보를 효율적으로 표현 한다.
그러나 상술한 제안 방법은 대량의 학습자료 또는 사전학습을 필요로 하는 바, 계산비용 및 그 처리시간이 높아지는 문제점이 있다.
본 발명은 전술한 문제점들을 해결하기 위해 창안된 것으로서, 대량의 학습자료 및 사전학습이 필요치 않은 문서요약 장치 및 그 방법을 제시한다.
또한, 비음수 행렬 인수분해로 얻어진 비음수 의미 가변 행렬을 이용하여 자동으로 포괄적 문서요약을 수행하는 장치 및 그 방법을 제시한다.
또한, 인간의 인식 과정과 유사한 비음수 제약을 적용하여, 잠재의미색인에 비해 더욱 의미 있는 문장을 선택하여 문서를 요약할 수 있는 장치 및 그 방법을 제시한다.
이러한 본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
도 1은 본 발명의 문서요약 장치의 개략적 구성도로서, 문서요약 장치(100)는 크게 질의 입력부(110), 문서 독출부(120), 전처리부(130), 그리고 문서요약부(140)로 구성된다.
질의 입력부(110)는 질의(FAQ, frequently asked question)(Q)를 입력받으 며, 문서 독출부(120)는 요약 대상인 문서(D)를 읽어 들인다.
전처리부(130)는 실제적인 문서요약을 위한 사전 준비 절차, 예를 들어 선택된 문서로부터 문장을 추출하거나, 불용어(stopword)를 제거하고, 사용된 용어의 빈도에 따라 벡터를 생성하고 용어의 출현 빈도에 따른 가중치를 산출하고 이를 반영한 용어와 문장의 행렬(이하, "용어-문장 행렬")을 생성한다.
그리고 문서요약부(140)는 상기 생성된 행렬에 대한 비음수 행렬 인수분해를 통해 얻어지는 비음수 의미 특징 행렬(NSFM, non-negative semantic feature matrix, W)과 비음수 의미 변수 행렬(NSVM, non-negative variable matrix, H)을 기반으로 상기 질의와의 유사도가 높은 문장을 추출하여 요약서(S)를 생성한다.
보다 구체적으로 전처리부(130)의 세부 구성 및 그 기능을 살펴보면, 먼저, 문장추출수단(131)은 문서독출부(110)를 통해 독출된 문서(D)를 각각의 문장(sentence)으로 분해하여 추출한다. 여기서 추출된 문장(요약될 문장)의 개수는 k로 정의될 수 있다.
또한, 불용어 제거 및 어근 추출수단(132)은 추출된 문장에서 의미 없는 용어 즉, 불용어(stopword)를 제거하고 용어에 대한 어근을 추출한다(stemming).
또한, 용어-빈도 벡터 생성수단(133)은 용어의 사용빈도(term-frequency)에 따른 벡터(vector)를 생성한다. 이때 생성되는 벡터는 아래의 [수학식 1]로 표현된다.
Figure 112006027133231-pat00001
......................... [수학식 1]
여기서
Figure 112006027133231-pat00002
는 i번째 문장의 용어의 빈도이고, 각각의 요소
Figure 112006027133231-pat00003
는 i번째 절에서 출현한 j번째 용어의 빈도이다.
한편, 지역-전역 가중치 산출수단(134)은 i번째 절에서 j번째 용어를 위한 지역 가중치(local weight)와, 문서 전체에서 j번째 용어에 대한 전역 가중치(global weight)를 산출한다. 이때 각각의 가중치는 아래의 [수학식 2], [수학식 3]으로 표현된다.
Figure 112006027133231-pat00004
.................................. [수학식 2]
Figure 112006027133231-pat00005
....................... [수학식 3]
여기서,
Figure 112006027133231-pat00006
는 i번째 절에서 j번째 용어를 위한 지역 가중치이고,
Figure 112006027133231-pat00007
는 문서 전체에서 j번째 용어를 위한 전역 가중치이다. 그리고
Figure 112006027133231-pat00008
은 문서에 포함된 문장의 총 개수이며,
Figure 112006027133231-pat00009
는 j번째 용어를 포함한 문장의 개수이다.
용어-문장 행렬 생성수단(135)은 m개의 용어와 n개의 문장으로 이루어진 행렬(
Figure 112006027133231-pat00010
)을 생성한다. 여기서 상기 행렬은 mㅧn 행렬이고 앞서 산출된 지역 및 전역 가중치를 통해 아래의 [수학식 4]로 표현될 수 있다.
Figure 112006027133231-pat00011
........................... [수학식 4]
이때,
Figure 112006027133231-pat00012
는 상기 행렬
Figure 112006027133231-pat00013
의 요소이며 i번째 문장에서 j번째 용어가 출현한 빈도의 가중치이다.
전술한 [수학식 1] 내지 [수학식 4]를 통해 본 발명의 전처리부(130)의 특징 적인 기능을 살피면, 문서(D)를 용어와 문장으로 구성된 행렬
Figure 112006027133231-pat00014
로 재구성하되, 문장 내에 출현하는 용어의 빈도를 반영한 가중치(weight)로 표현하고 있음을 알 수 있다.
이하, 문서요약부(140)의 세부 구성 및 그 기능을 살펴보면, 비음수 행렬 인수분해수단(141)은 전처리부(130)에서 생성된 행렬
Figure 112006027133231-pat00015
를 비음수 행렬 인수분해(NMF, non-negative matrix factorization)하여 비음수 의미 특징 행렬(NSFM, non-negative semantic feature matrix)
Figure 112006027133231-pat00016
와 비음수 의미 변수 행렬(NSVM, non-negative variable matrix)
Figure 112006027133231-pat00017
를 산출한다. 산출된
Figure 112006027133231-pat00018
Figure 112006027133231-pat00019
를 이용하여 행렬
Figure 112006027133231-pat00020
를 표현하면 아래와 같다.
Figure 112006027133231-pat00021
............................... [수학식 5]
여기서,
Figure 112006027133231-pat00022
는 nㅧr 행렬이고,
Figure 112006027133231-pat00023
는 mㅧr 행렬이다. r은 일반적으로 n 또는 m보다 작게 선택하여 행렬
Figure 112006027133231-pat00024
나 행렬
Figure 112006027133231-pat00025
가 상기 행렬
Figure 112006027133231-pat00026
보다 작게 하는 것이 바람직하다.
본 발명의 특징적인 양상에 따른 비음수 행렬 인수분해수단(141)은 앞서 언급한 행렬
Figure 112006027133231-pat00027
과 행렬
Figure 112006027133231-pat00028
를 산출하되,
Figure 112006027133231-pat00029
가 최소화될 때까지 아래의 [수학식 6] 및 [수학식 7]을 이용하여 갱신한다.
Figure 112006027133231-pat00030
....................... [수학식 6]
Figure 112006027133231-pat00031
....................... [수학식 7]
참고적으로 행렬
Figure 112006027133231-pat00032
의 열 벡터(column vector), 다시 말해 j번째 문장의 열 벡터
Figure 112006027133231-pat00033
는 의미 특징 벡터(semantic feature vector)
Figure 112006027133231-pat00034
과 의미 변수
Figure 112006027133231-pat00035
의 선형조합(linear combination)으로 다음의 [수학식 8]로서 표현될 수 있다.
Figure 112006027133231-pat00036
............................ [수학식 8]
한편, 유사도 산출수단(142)은 행렬
Figure 112006027133231-pat00037
의 열 벡터(=의미 특징 벡터)들과 질의(Q) 간의 유사도(degree of similarity)를 계산하여 유사도가 가장 큰 p번째 열 벡터(
Figure 112006027133231-pat00038
)를 선택한다.
Figure 112006027133231-pat00039
는 질의(Q)와 연관 있는 가장 중요한 의미 특징이다. 이때 상기 유사도는 가장 큰 유사도부터 작은 값의 유사도까지 분해된 문장의 수 k만큼 계산된다. 즉, 열 벡터
Figure 112006027133231-pat00040
는 유사도의 크기순으로 k만큼 반복적으로 산출된다. 상기 열 벡터들과 질의(Q) 간의 유사도를 계산하는 수학식은 아래와 같다.
Figure 112006027133231-pat00041
............. [수학식 9]
여기서,
Figure 112006027133231-pat00042
는 j번째 r계수에서의 i번째 의미 특징인 요소이고(단,
Figure 112006027133231-pat00043
),
Figure 112006027133231-pat00044
는 i번째의 의미 특징 요소와 일치하는 q번째 질의의 용어이다(단,
Figure 112006027133231-pat00045
). m은 r열 벡터의 요소(element)들의 수로,
Figure 112006027133231-pat00046
로 나타낸다.
상기 [수학식 9]에서 보인 바와 같이 본 발명에 따른 의미 특징 벡터와 질의 벡터와의 유사도는 두 벡터의 상관도로 구할 수 있으며, 이 상관도는 양 벡터간 사이각인 코사인 값으로 정량화될 수 있다.
다음으로, 문장선택수단(143)은 상기 행렬
Figure 112006027133231-pat00047
에서 p번째 행에 포함된 행 벡터(row vector)
Figure 112006027133231-pat00048
에서 가장 큰 요소 값을 가진 q열과 같은 열에 있는 행렬
Figure 112006027133231-pat00049
의 문장 벡터
Figure 112006027133231-pat00050
에 대응되는 문장을 선택/추출하여 요약서(S)에 추가한다. 이러한 문장의 선택/추출은 요약할 문장의 개수 k만큼 반복 수행되며, 선택된 수가 k 미만일 경우 다음으로 유사도가 큰 열 벡터(
Figure 112006027133231-pat00051
)를 찾아 반복적으로 문장을 선택/추출한다. 이와 같이 선택된 문장들의 집합은 문서의 요약서로서 출력된다.
지금까지 상술한 일련의 문서요약 과정을 도 2를 참조하여 정리하면 다음과 같다. 이에 앞서 하기의 단계(step)의 실행 주체는 전술한 각각의 수단으로 설정하겠으나, 문서요약 장치(100)의 미도시된 제어수단에 의해 수행되는 것으로도 설정될 수 있다. 더욱이 일련의 단계는 본 장치를 마련하는 컴퓨터(예: 서버)에 의해 실행될 수 있다. 또한 아래의 단계들은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체 형식으로 저장될 수 있다.
도 2에 도시된 바와 같이 요약 대상인 문서(D)를 각각의 문장으로 분해/추출하고(S210), 추출된 문장에서 의미가 없는 불용어의 제거 및 각각의 용어에 대한 어근을 추출한다(S220). 다음으로 용어의 사용빈도에 따른 벡터(vector)를 생성한다(S230). 생성되는 벡터는 [수학식 1]로 표현된다.
이어서, 각각의 용어에 대한 지역 가중치(수학식 2참조)와 전역 가중치(수학 식 3참조)를 산출하고(S240), m개의 용어와 n개의 문장으로 이루어지되 상기 가중치가 반영된 용어-문장 행렬(
Figure 112006027133231-pat00052
)을 생성한다(S250). 이때의 행렬
Figure 112006027133231-pat00053
는 [수학식 4]와 같이 표현된다.
생성된 용어-문장 행렬(
Figure 112006027133231-pat00054
)을 비음수 행렬 인수분해(NMF)를 통해 비음수 의미 특징 행렬(NSFM)(
Figure 112006027133231-pat00055
)과 비음수 의미 변수 행렬(NSVM)(
Figure 112006027133231-pat00056
)로 재구성하되(S260), 행렬
Figure 112006027133231-pat00057
와 행렬
Figure 112006027133231-pat00058
Figure 112006027133231-pat00059
가 최소화될 때까지 [수학식 6] 및 [수학식 7]에 의해 산출된다.
다음으로, 행렬
Figure 112006027133231-pat00060
의 열 벡터(의미 특징 벡터)들과 질의(Q) 간의 유사도를 [수학식 9]를 이용하여 계산하고, 유사도가 큰 p번째 열 벡터(
Figure 112006027133231-pat00061
)를 선택한다(S270). 전술한 바와 같이 의미 특징 벡터와 질의 벡터와의 유사도는 이들 벡터의 상관도로 구할 수 있으며, 이 상관도는 양 벡터간 사이각인 코사인 값으로 정량화될 수 있다.
다음, 상기 행렬
Figure 112006027133231-pat00062
에서 p번째 행에 포함된 행 벡터(
Figure 112006027133231-pat00063
)에서 가장 큰 요소 값을 가진 q열과 같은 열에 있는 행렬
Figure 112006027133231-pat00064
의 문장 벡터
Figure 112006027133231-pat00065
에 대응되는 문장을 선택, 추출하여 요약서(S)에 추가한다(S280).
전술한 제 S270, S280 단계는 상기 제 S210 단계에서 추출한 문장의 개수(k)만큼 반복 수행하되, 제 S280 단계에서 선택된 문장의 개수가 k개 미만일 경우 제 S270 단계에서 선택되는 열 벡터(
Figure 112006027133231-pat00066
)는 이전 선택된 열 벡터의 유사도 보다 한 단 계 낮은 유사도 값을 갖는 것이 선택된다. 이러한 반복 수행에 의해 최종적으로 요약서(S)가 생성된다.
[ 실 험 예 ]
본 발명에서 제안한 문서요약 방법의 성능 검증을 위해 "야후 코리아"의 뉴스 기사 50건을 실험자료로 이용했다. 성능 평가는 질의 기반의 문서요약에서 주로 사용되는 정확률(precision)을 이용했다[Frankes, W. B., Ricardo, B. Y. / "Information Retrieval : Data Structure & Algorithms" / Prentice Hall / 1992][Ricardo, B. Y., Berthier, R. N. / "Modern Information Retrieval Company" / 2001].
상기 정확률을 계산하기 위하여 50건의 기사로부터 질의와 관련된 문장을 수동으로 요약하였는데, 그 특성은 아래의 표에 보인바와 같다.
Figure 112006027133231-pat00067
성능평가에 대한 척도는 아래의 식을 이용했다.
Figure 112006027133231-pat00068
여기서,
Figure 112006027133231-pat00069
은 사람에 의해 제안된 방법으로 선택된 문장이며,
Figure 112006027133231-pat00070
은 본 발명이 제안한 방법으로 선택된 문장이다. 다음의 표는 Saggion이 제안한 방법과 본 발명이 제안한 방법을 비교한 결과이며, 본 발명의 문서요약 성능이 Saggion이 제안한 방법에 비해 우수하다는 것을 볼 수 있다.
Figure 112006027133231-pat00071
상술한 본 발명에 따르면, 문서요약을 위한 대량의 학습자료 및 사전학습이 필요치 않으며, 따라서 처리 시간이 단축되는 장점이 있다.
또한, 의미 특징(semantic feature)을 이용함으로써 문서요약의 질을 높일 수 있으며, 종래 질의의 키워드와 일치하는 문서 그래프 생성하는 등의 복잡한 방법에 비해 그 절차가 비교적 단순하다는 장점이 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

Claims (10)

  1. 질의(Q) 기반의 문서요약 장치로서,
    요약 대상인 문서(D)를 각각의 문장으로 추출하는 문장추출수단(131)과, 추출된 문장에서 불용어(stopword)를 제거하고 용어에 대한 어근을 추출하는 불용어 제거 및 어근 추출수단(132)과, 용어의 사용빈도에 따른 벡터를 생성하는 용어-빈도 벡터 생성수단(133)과, 각각의 용어에 대한 지역 가중치와 전역 가중치를 산출하는 지역-전역 가중치 산출수단(134)과, 상기 산출된 가중치가 반영된 m개의 용어와 n개의 문장으로 이루어진 행렬(
    Figure 112006027133231-pat00072
    )을 생성하는 용어-문장 행렬 생성수단(135)으로 구성된 전처리부(130); 및
    비음수 행렬 인수분해(NMF)를 이용하여 상기 생성된 용어-문장 행렬(
    Figure 112006027133231-pat00073
    )을 비음수 의미 특징 행렬(NSFM)(
    Figure 112006027133231-pat00074
    )과 비음수 의미 변수 행렬(NSVM)(
    Figure 112006027133231-pat00075
    )로 재구성하는 비음수 행렬 인수분해수단(141)과, 상기 비음수 의미 특징 행렬(
    Figure 112006027133231-pat00076
    )의 열 벡터들과 상기 질의(Q) 간의 유사도를 계산하여 p번째 유사도가 큰 열 벡터(
    Figure 112006027133231-pat00077
    )를 선택하는 유사도 산출수단(142)과, 상기 비음수 의미 변수 행렬(
    Figure 112006027133231-pat00078
    )에서 p번째 행에 포함된 행 벡터(
    Figure 112006027133231-pat00079
    )에서 가장 큰 요소 값을 가진 q열과 같은 열에 있는 용어-문장 행렬(
    Figure 112006027133231-pat00080
    )의 문장 벡터(
    Figure 112006027133231-pat00081
    )에 대응되는 문장을 선택하여 요약서(S)에 추가하는 문장선택수단(143)으로 구성된 문서요약부(140); 을 포함하는 것을 특징으로 하는 질의 기반의 문서요약 장치.
  2. 제 1 항에 있어서,
    질의(Q)를 입력받는 질의 입력부(110); 및
    요약 대상 문서(D)를 읽어 들이는 문서 독출부(120); 를 더 포함하는 것을 특징으로 하는 질의 기반의 문서요약 장치.
  3. 제 1 항에 있어서,
    상기 지역 가중치 및 전역 가중치는, 각각
    Figure 112006027133231-pat00082
    Figure 112006027133231-pat00083
    로 표현되되,
    상기
    Figure 112006027133231-pat00084
    는 i번째 절에서 j번째 용어를 위한 지역 가중치이고,
    Figure 112006027133231-pat00085
    는 문서 전체에서 j번째 용어를 위한 전역 가중치이며,
    Figure 112006027133231-pat00086
    은 문서에 포함된 문장의 총 개수이며,
    Figure 112006027133231-pat00087
    는 j번째 용어를 포함한 문장의 개수인 것을 특징으로 하는 질의 기반의 문서요약 장치.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 유사도 산출수단(142) 및 문장선택수단(143)의 기능은, 상기 문장추출수단(131)에서 추출된 문장의 개수(k)만큼 반복 수행하되,
    상기 문장선택수단(143)에 의해 선택된 문장의 개수가 k미만일 경우, 상기 유사도 산출수단(142)에 의해 선택되는 열 벡터(
    Figure 112006027133231-pat00091
    )는 이전 선택된 열벡터의 유사도 보다 한 단계 낮은 값을 갖는 것이 선택되는 것을 특징으로 하는 질의 기반의 문서요약 장치.
  6. 삭제
  7. 질의(Q) 기반의 문서요약 방법으로서,
    요약 대상인 문서(D)를 분해 추출하고, 불용어 및 용어에 대한 어근을 추출하는 제 1 단계;
    상기 용어의 사용빈도에 따른 벡터를 생성하는 제 2 단계;
    상기 각각의 용어에 대한 지역 가중치와 전역 가중치를 산출하고, m개의 용어와 n개의 문장으로 이루어지되 상기 산출된 가중치가 반영된 용어-문장 행렬(
    Figure 112006027133231-pat00093
    )을 생성하는 제 3 단계;
    상기 생성된 용어-문장 행렬(
    Figure 112006027133231-pat00094
    )을 비음수 행렬 인수분해(NMF)를 통해 비음수 의미 특징 행렬(
    Figure 112006027133231-pat00095
    )과 비음수 의미 변수 행렬(
    Figure 112006027133231-pat00096
    )로 재구성하는 제 4 단계;
    상기 비음수 의미 특징 행렬(
    Figure 112006027133231-pat00097
    )의 열 벡터들과 질의(Q) 간의 유사도를 계산하고, 유사도가 큰 p번째 열 벡터(
    Figure 112006027133231-pat00098
    )를 선택하는 제 5 단계; 및
    상기 비음수 의미 변수 행렬(
    Figure 112006027133231-pat00099
    )에서 p번째 행에 포함된 행 벡터(
    Figure 112006027133231-pat00100
    )에서 가장 큰 요소 값을 가진 q열과 같은 열에 있는 용어-문장 행렬(
    Figure 112006027133231-pat00101
    )의 문장 벡터(
    Figure 112006027133231-pat00102
    )에 대응되는 문장을 선택/추출하여 요약서(S)에 추가하는 제 6 단계; 로 이루어지는 것을 특징으로 하는 질의 기반의 문서요약 방법.
  8. 제 7 항에 있어서,
    상기 제 5 단계 및 제 6 단계는,
    상기 제 1 단계에서 분해 추출한 문장의 개수(k)만큼 반복 수행하되, 상기 제 6 단계에서 선택된 문장의 개수가 상기 k개 미만일 경우, 상기 제 5 단계에서 선택되는 열 벡터(
    Figure 112006027133231-pat00103
    )는 이전 선택된 열 벡터의 유사도 보다 한 단계 낮은 값을 갖는 것이 선택되는 것을 특징으로 하는 질의 기반의 문서요약 방법.
  9. 삭제
  10. 삭제
KR1020060035268A 2006-04-19 2006-04-19 질의 기반의 문서요약 장치 및 그 방법 KR100751295B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060035268A KR100751295B1 (ko) 2006-04-19 2006-04-19 질의 기반의 문서요약 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060035268A KR100751295B1 (ko) 2006-04-19 2006-04-19 질의 기반의 문서요약 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR100751295B1 true KR100751295B1 (ko) 2007-08-23

Family

ID=38615100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060035268A KR100751295B1 (ko) 2006-04-19 2006-04-19 질의 기반의 문서요약 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100751295B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862583B1 (ko) * 2007-08-20 2008-10-09 인하대학교 산학협력단 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
KR101508260B1 (ko) 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
JP2006059082A (ja) 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
JP2006059082A (ja) 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862583B1 (ko) * 2007-08-20 2008-10-09 인하대학교 산학협력단 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
KR101508260B1 (ko) 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置

Similar Documents

Publication Publication Date Title
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109960756B (zh) 新闻事件信息归纳方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN115146629B (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
Badry et al. Text summarization within the latent semantic analysis framework: comparative study
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和系统
Karpagam et al. A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
KR100751295B1 (ko) 질의 기반의 문서요약 장치 및 그 방법
Amini Interactive learning for text summarization
Meenakshi et al. Transformer induced enhanced feature engineering for contextual similarity detection in text
Alfarra et al. Graph-based Growing self-organizing map for Single Document Summarization (GGSDS)
Park et al. Automatic query-based personalized summarization that uses pseudo relevance feedback with nmf
Rahat et al. Open information extraction as an intermediate semantic structure for Persian text summarization
Baraka et al. Automatic arabic text summarization for large scale multiple documents using genetic algorithm and mapreduce
Mulla et al. Weighted Graph Embedding Feature with Bi-Directional Long Short-Term Memory Classifier for Multi-Document Text Summarization
Ba-Alwi et al. Arabic text summarization using latent semantic analysis
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN111930880A (zh) 一种文本编码检索的方法、装置及介质
CN114462378A (zh) 科技项目查重方法、系统、计算机设备及存储介质
Tapas et al. Latent semantic analysis in automatic text summarisation: a state-of-the-art analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140612

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee