KR100862583B1 - 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 - Google Patents

의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 Download PDF

Info

Publication number
KR100862583B1
KR100862583B1 KR1020070083293A KR20070083293A KR100862583B1 KR 100862583 B1 KR100862583 B1 KR 100862583B1 KR 1020070083293 A KR1020070083293 A KR 1020070083293A KR 20070083293 A KR20070083293 A KR 20070083293A KR 100862583 B1 KR100862583 B1 KR 100862583B1
Authority
KR
South Korea
Prior art keywords
sentence
query
matrix
document
sentences
Prior art date
Application number
KR1020070083293A
Other languages
English (en)
Inventor
이주홍
박선
김덕환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070083293A priority Critical patent/KR100862583B1/ko
Application granted granted Critical
Publication of KR100862583B1 publication Critical patent/KR100862583B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치는, 독출된 문서로부터 문장을 추출하고, 추출된 문장에 포함된 불용어를 제거하며, 사용된 용어의 빈도에 따른 벡터를 생성하여 이를 용어빈도행렬로 정의하는 전처리부를 포함하며, 용어빈도행렬을 인가받고, 이를 비음수 질의 분해(NMF, non-negative matrix factorization)를 이용하여 의미특징행렬 및 의미변수행렬로 분해하는 질의분해수단과, 의미특징행렬에 따른 질의확장을 수행하여 확장된 질의벡터를 생성하는 NMF 질의확장수단과, 분해된 의미특징행렬에 따른 질의벡터와 용어빈도행렬에 따른 질의벡터와의 코사인 유사도를 계산하며, 이 계산에 따라 의미변수행렬중 유사도가 높은 값을 갖는 벡터와 대응되는 문장을 연관문장으로 추출하는 연관문장추출수단과, 추출된 연관문장을 질의확장하여 연관문장에 따른 질의벡터를 생성하는 연관문장 질의확장수단과, 연관문장에 따른 질의벡터와 의미특징행렬에 따른 질의벡터 각각에 대한 문장을 추출하여 후보문장집합을 구성하는 후보문장집합수단으로 구성된 의사연관피드백부; 를 포함한다.
의사연관피드백, PRF, 비음수, 행렬, 분해, NMF, 질의분해, 질의확장, 연관문장, 후보문장집합, 문장추출

Description

의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치 및 방법{THE DOCUMENT SUMMARIZATION APPARATUS AND METHOD USING THE PSEUDO RELEVANCE FEEDBACK AND NON-NEGATIVE MATRIX FACTORIZATION}
본 발명은 의사연관피드백과 비음수 행렬 분해를 이용하여 중요문장을 추출하는 기술에 관한 것이다.
인터넷을 기반으로 하는 정보통신기술의 발달로 인하여 정보의 양은 기하급수적으로 증가하고 있으며, 이에 따라 양질의 정보를 취득하기 위해 투자되는 시간 및 비용 또한 무시할 수 없는 실정이다.
일반적으로 정보검색은 정보를 수집·분류·축적하여 필요에 따라 사용하는 것을 의미한다. 이러한 정보검색은 필요한 정보나 데이터를 보다 신속·정확하게 입수하여 연구개발이나 의사결정의 지표로 사용되고 있으나, 정보검색시 불필요하거나 의도하지 않은 불용정보들이 함께 검색되고 있는 관계로 사용자는 재차 자신이 원하는 정보를 선별해야 하는 어려움이 있다.
이를 해결하기 위한 방안으로 문서에 포함된 수많은 문장들 중에서 중요문장을 추출하는 기술이 사용되고 있으며, Lee와 Seung은 비음수 행렬 분해(NMF, non- negative matrix factorization)를 이용하여 중요문장을 추출하는 기술을 제안하였다[D. D. Lee, and H. S. Seung, "Learning the parts of objects by non negative matrix factorization", Nature, vol.401, pp.788 791, 1999.][D. D. Lee, and H. S. Seung, "Algorithms for non negative matrix factorization", In Advances in Neural Information Processing Systems, vol.13, pp.556 562, 2001.]
이 방법은 인간이 객체를 인식할 때 비음수 자료들의 덧셈만을 사용한다는 것에 착안하여, 객체정보를 기초특징(base feature)과 부호특징(encoding feature)으로 나누어 부분정보(part-base)로 표현하고 있다.
즉, 비음수로 표현된 대량의 객체자료들로부터 부분객체정보들을 추출하여 각각의 객체들을 추출된 부분객체들의 비음수 선형조합으로 표현할 수 있게 하는 방법으로, 원본 비음수 행렬을 축소된 두 개의 비음수 행렬로 분해하여 대량의 정보를 처리할 수 있다. 그러나 상술한 비음수 행렬 분해에 따른 중요문장 추출은 사전에 대량의 학습자료 또는 사전학습을 필요로 하며, 학습자료의 개수에 따라 도출결과에 큰 오차를 초래한다.
한편, 연관피드백은 질의를 재작성하는 방법으로 사용자가 연관된 문서를 판단하고, 판단문서와 유사한 연관문서와 상이한 비유사문서들을 차별화하도록 질의를 확장한다. 하지만, 연관피드백은 반드시 사용자가 개입되어야 하는 단점이 있다.
또한, 의사연관피드백 방법은 사용자가 개입하지 않고 자동으로 연관 피드백하는 방법으로 Ricardo가 제안하였다[B. Y. Ricardo, R. N. Berthier, "Moden Information Retrieval", ACM Press. 1999]. 이 방법은 질의와 유사도가 높은 문장을 연관문서로 가정하고, 연관된 문서를 이용하여 질의를 확장할 수 있으나 이 역시, 질의에 관련된 정보가 충분하지 않으면 편향된 결과를 초래한다.
이러한 단점을 개선하기 위해 Han은 질의분해를 이용한 적합성 피드백 기반의 문서요약 벙법을 제안하였다[K. S. Han, D. H. Bea, H. C. Rim, "Automatic Text Summarization Based on Relevance Feedback whit Query Splitting", In Proceedings of IRAL'00, pp.201 202, 2000]. 이 방법은 초기의 질의어를 여러 개의 피드백 질의로 분류하여 질의가 편향되는 것을 방지하였으나, 질의분해를 위한 정보가 부족할 경우 문서요약결과를 신뢰할 수 없다.
본 발명은 상기와 같은 문제점을 해소하고자 안출된 것으로서, 의미특징행렬에 따른 질의벡터와, 유사도로부터 도출된 연관문장에 기반한 질의벡터를 이용하여 문장을 추출함으로써, 질의편향을 최소화하면서 중요문장을 효율적으로 추출한다.
이러한 기술적 과제 달성을 위한 본 발명의 문서요약 장치는, 독출된 문서로부터 문장을 추출하고, 추출된 문장에 포함된 불용어를 제거하며, 사용된 용어의 빈도에 따른 벡터를 생성하여 이를 용어빈도행렬로 정의하는 전처리부를 포함하며, 용어빈도행렬을 인가받고, 이를 비음수 질의 분해(NMF, non-negative matrix factorization)를 이용하여 의미특징행렬 및 의미변수행렬로 분해하는 질의분해수 단과, 의미특징행렬에 따른 질의확장을 수행하여 확장된 질의벡터를 생성하는 NMF 질의확장수단과, 분해된 의미특징행렬에 따른 질의벡터와 용어빈도행렬에 따른 질의벡터와의 코사인 유사도를 계산하며, 이 계산에 따라 의미변수행렬중 유사도가 높은 값을 갖는 벡터와 대응되는 문장을 연관문장으로 추출하는 연관문장추출수단과, 추출된 연관문장을 질의확장하여 연관문장에 따른 질의벡터를 생성하는 연관문장 질의확장수단과, 연관문장에 따른 질의벡터와 의미특징행렬에 따른 질의벡터 각각에 대한 문장을 추출하여 후보문장집합을 구성하는 후보문장집합수단으로 구성된 의사연관피드백부; 를 포함한다.
한편, 문서요약 방법은, 질의분해수단이 용어빈도행렬을 비음수 행렬 분해를 이용하여 의미특징행렬 및 의미변수행렬로 분해하는 제1 과정과, NMF 질의확장수단이 의미특징행렬에 따른 질의확장을 수행하여 의미특징행렬에 따른 질의벡터를 생성하는 제2 과정과, 연관문장추출수단이 코사인 유사도 계산을 수행하여 의미특징행렬에 포함된 벡터와 용어빈도행렬에 따른 질의벡터에 포함된 문장을 연관문장으로 추출하는 제3 과정과, 연관문장 질의확장수단이 추출된 연관문장에 따른 질의를 확장하여 연관문장에 따른 질의벡터를 생성하는 제4 과정, 그리고 후보문장집합수단이 연관문장에 따른 질의벡터와 의미특징행렬에 따른 질의벡터에 각각 대응하는 문장을 추출하여 후보문장집합을 구성하는 제5 과정으로 이루어진다.
상기와 같은 본 발명에 따르면, 질의분해를 기반으로 하는 의사연관피드백을 이용하여 질의확장을 하며, 확장된 질의에 질의 기반의 문서요약 방법을 적용함으 로써, 문장추출 시 질의편향을 최소화함과 아울러 중요문장 추출작업의 향상된 작업 능률을 얻을 수 있다.
본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 발명의 실시를 위한 구체적인 내용에 의하여 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
도 1은 본 발명에 따른 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치(100)를 나타낸 구성도이다. 문서요약 장치(100)는, 문서입력부(110), 질의입력부(120), 전처리부(130), 의사연관피드백부(140) 및 문장추출부(150)를 포함한다.
구체적으로 문서입력부(110)는 요약대상인 문서(D)를 독출하고, 질의입력부(120)는 첨부도면 도 2에 도시된 바와 같은 문서요약을 위한 질의(FAQ, frequently asked question)(Q)를 입력받는다.
전처리부(130)는 독출된 문서로부터 문장을 추출하고, 추출된 문장내에 포함된 불용어(stopwoord)를 제거하며, 사용된 용어의 빈도에 따른 벡터를 생성하여 그에 따른 행렬로 정의한다. 세부적으로, 문장분해수단(131)은 문서입력부를 통해 독출된 문서를 각각의 문장(sentence)으로 분해하여 추출하고, 불용어 제거 및 어근추출수단(132)은 추출된 문장에 포함된 의미 없는 용어 즉, 불용어를 제거하고 용어에 대한 어근을 추출한다(stemming).
용어빈도행렬 생성수단(133)은 분해된 문장에 사용된 용어의 빈도(term-frequency)에 따른 벡터를 생성하여 이를 행렬(이하, '용어빈도행렬')로 정의하며, 이처럼 정의된
Figure 112007059851414-pat00001
행렬는 아래의 [수학식 1]과 같다.
[수학식 1]
Figure 112007059851414-pat00002
여기서
Figure 112007059851414-pat00003
은 문서에 포함된 모든 용어들의 개수이고,
Figure 112007059851414-pat00004
은 문서에 포함된 문장의 총 개수이다. 열벡터
Figure 112007059851414-pat00005
Figure 112007059851414-pat00006
번째 문장의 용어 빈도벡터이고,
Figure 112007059851414-pat00007
요소는
Figure 112007059851414-pat00008
번째 문장에서의
Figure 112007059851414-pat00009
번째 용어의 출현 빈도이며, 이는 아래의 [수학식 2]와 같다.
[수학식 2]
Figure 112007059851414-pat00010
또한, 의사연관피드백(PRF, pseudo relevance feedback)부(140)는 비음수 행렬분해(NMF, non-negative matrix factorization)를 이용하여 용어빈도행렬을 질의분해하며, 연관문장을 추출하고, 이를 질의확장 하여 후보문장집합을 구성한다.
구체적으로, 질의분해수단(141)은 전처리부로부터 용어빈도행렬을 인가받아 비음수 행렬 분해를 이용하여 의미특징행렬(NSMF, non-negative semantic feature matrix)과 의미변수행렬(NSVM, non-negative variable matrix)로 분해한다. 이때 각각의 행렬에는 그 행렬에 따른 벡터들이 포함되어 있다.
NMF 질의확장수단(142)은 의미특징행렬에 따른 질의확장을 수행하여 확장된 질의벡터를 생성하고, 이를 후보문장집합수단(145)에 인가한다.
연관문장추출수단(143)은 분해된 의미특징행렬에 따른 질의벡터
Figure 112007059851414-pat00011
와 상기 용어빈도행렬에 따른 질의벡터
Figure 112007059851414-pat00012
와의 코사인 유사도를 계산하며, 이 계산에 따라 상기 의미변수행렬 중 유사도가 높은 값을 갖는 요소와 대응되는 문장을 연관문장으로 추출한다. 이때 코사인 유사도는 하기의 [수학식 3]을 통해 계산된다.
[수학식 3]
Figure 112007059851414-pat00013
여기서
Figure 112007059851414-pat00014
는 문장의
Figure 112007059851414-pat00015
번째 용어와 일치하는 질의용어이며,
Figure 112007059851414-pat00016
은 문장벡터용어들의 수로, 벡터
Figure 112007059851414-pat00017
로 나타낸다. 이때 코사인 유사도 계산은 사용자에 의해 기설정된 개수와 추출된 연관문장 개수가 일치하도록 반복수행하여 연관문장을 추출한다.
연관문장 질의확장수단(144)은 추출된 연관문장을 아래의 [수학식 4]를 통해 질의확장하여 연관문장에 따른 질의벡터를 생성한다.
[수학식 4]
Figure 112007059851414-pat00018
여기서
Figure 112007059851414-pat00019
는 연관문장에 따른 질의벡터이고,
Figure 112007059851414-pat00020
는 상기 의미특징행렬에 따른 질의벡터이다.
후보문장집합수단(145)은 연관문장에 따른 질의벡터와 의미특징행렬에 따른 질의벡터 각각에 대한 문장을 추출하여 후보문장집합을 구성한다.
그리고, 문장추출부(150)는 구성된 후보문장의 순위점수에 따른 상위순위 문장을 추출하게 되며, 구체적으로 순위화수단(151)은 후보문장집합수단에 따라 구성된 후보문장의 순위점수를 계산하여 이를 순위화하며, 이 순위점수 계산은 하기의 [수학식 5]를 이용하여 도출된다.
[수학식 5]
Figure 112007059851414-pat00021
여기서
Figure 112007059851414-pat00022
는 후보문장집합에서
Figure 112007059851414-pat00023
번째 문장
Figure 112007059851414-pat00024
의 순위점수이고,
Figure 112007059851414-pat00025
Figure 112007059851414-pat00026
번째 문장
Figure 112007059851414-pat00027
의 중복문장 개수이며,
Figure 112007059851414-pat00028
는 질의벡터
Figure 112007059851414-pat00029
Figure 112007059851414-pat00030
번째 문장
Figure 112007059851414-pat00031
의 가중치인 코사인 유사도를 나타내며, 문장추출수단(152)은 상기 순위화된 후보문장을 사용자가 원하는 문장의 개수만큼 상위순위부터 추출한다.
이하, 첨부도면 도 3 내지 도 6에 도시된 바와 같은 본 발명의 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법에 대해 살펴본다.
도 3은 본 발명의 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법을 순차적으로 도시한 흐름도이다. 먼저 전처리과정을 살펴보면, 문서입력부(110)는 요약대상인 문서를 입력받아 이를 독출하고, 질의입력부(120)는 독출된 문서의 요약을 위한 질의를 입력받는다(S10).
이어서 문장분해수단(131)은 독출된 문서를 각각의 문장으로 분해하고(S20), 분해된 문장은 불용어 제거 및 어근추출수단(132)에 의해 불용어를 제거함과 아울 러 어근을 추출한다(S30).
그리고 용어빈도행렬 생성수단(133)은 분해된 문장에 사용된 용어의 빈도에 따라 벡터를 생성함과 아울러 이에 따른 용어빈도행렬을 생성하고(S40), 이를 의사연관피드백부(140)로 인가한다(S50).
한편, 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약과정에 대해 살펴보면, 질의분해수단(141)은 인가받은 용어빈도행렬을 비음수 행렬 분해를 이용하여 의미특징행렬 및 의미변수행렬로 분해한다(S110).
다음으로 NMF 질의확장수단(142)은 의미특징행렬에 따른 질의확장을 수행하여 의미특징행렬에 따른 질의벡터를 생성하고, 이를 후보문장집합수단(145)에 인가한다(S120).
이어서 연관문장추출수단(143)은 코사인 유사도 계산을 수행하여 의미특징행렬에 포함된 벡터와 상기 용어빈도행렬에 따른 질의벡터에 포함된 문장을 연관문장으로 추출한다(S130).
뒤이어 연관문장 질의확장수단(144)은 추출된 연관문장에 따른 질의를 확장하여 연관문장에 따른 질의벡터를 생성하고(S140), 후보문장집합수단(145)은 연관문장에 따른 질의벡터와 상기 의미특징행렬에 따른 질의벡터에 각각 대응하는 문장을 추출하여 후보문장집합을 구성하며(S150), 구성된 후보문장집합을 문장추출부(150)로 인가한다(S160).
그리고 순위화수단(151)은 순위점수 계산을 통해 인가받은 후보문장집합을 순위화하며(S170), 문장추출수단은 순위화된 후보문장을 사용자가 원하는 문장의 개수만큼 상위순위부터 추출하고(S180), 추출된 문장(요약서(S))을 사용자에게 제공한다(S190).
한편, 본 발명에서 제안한 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법의 성능 검증을 위해 QuerySplitting을 통한 문서요약 방법과 본 발명인 PRF+NMF를 이용한 문서요약 방법을 비교하였다.
검증에 사용된 표본은 도 4에 나타난 바와 같으며, 그 결과는 첨부도면 도 5에 도시된 바와 같이, 단순 유사도를 사용하여 질의를 확장하는 QuerySplitting 방법에 비해, 본 발명에 따른 PRF+NMF 문서요약 방법이 편향된 질의의 평균개수가 확연히 낮은 것을 알 수 있다.
또한, 첨부도면 도 6에 나타난 바와 같이, 평균 재현율, 평균 정확률 및 평균 f-measure 값을 비교한 실험결과를 살펴보면, 실험결과 PRF+NMF 방법이 QuerySplitting 방법에 비해 평균재현율은 32.99%, 평균 정확률은 33.23% 그리고 평균 f-measure는 38.92% 높은 성능을 보인다.
그리고 NMF 방법에 비해서는 평균재현율은 4.65%, 평균 정확률은 6.82% 그리고 평균 f-measure는 6.45% 높은 성능을 보인다.
이처럼 QuerySplitting 방법의 성능이 가장 저조한 것은 문서요약시 다른 방법보다 편향되게 확장된 질의가 많이 사용되기 때문이며, NMF 방법에 비해 PRF+NMF 방법의 성능이 좋은 이유는, 질의가 편향되게 확장되더라도, 용어빈도행렬에 따른 질의, 즉 초기 질의와 의미특징행렬에 따른 질의가 반영되도록 하기 때문이다. 질의가 편향되게 확장되는 것을 최소화 시켜 향상된 요약결과를 얻을 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
도 1은 본 발명에 따른 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치를 도시한 구성도,
도 2는 본 발명에 따른 문서요약을 위해 질의입력부가 입력받는 질의를 도시한 도면,
도 3은 본 발명에 따른 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법을 순차적으로 도시한 흐름도,
도 4는 QuerySplitting을 통한 문서요약과 본 발명에 따른 PRF+NMF를 이용한 문서요약의 비교·검증에 사용된 표본을 도시한 도면,
도 5는 QuerySplitting을 통한 문서요약과 본 발명에 따른 PRF+NMF를 이용한 문서요약 결과를 도시한 도면,
도 6은 QuerySplitting, NMF 및 본발명에 따른 PRF + NMF 문서요약 방법에 따른 실험결과를 도시한 도면.
** 도면의 주요 부분에 대한 부호의 설명 **
100: 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치
110: 문서입력부 120: 질의입력부
130: 전처리부 131: 문장분해수단
132: 불용어 제거 및 어근 추출수단 133: 용어빈도행렬 생성수단
140: 의사연관피드백부 141: 질의분해수단
142: NMF 질의확장수단 144: 연관문장추출수단
145: 연관문장 질의확장수단 146: 후보문장집합수단
150: 문장추출부 151: 순위화수단
152: 문장추출수단 D: 요약대상문서
Q: 질의 S: 요약서

Claims (9)

  1. 독출된 문서로부터 문장을 추출하고, 추출된 문장에 포함된 불용어를 제거하며, 사용된 용어의 빈도에 따른 벡터를 생성하여 이를 용어빈도행렬로 정의하는 전처리부를 포함하는 질의기반의 문서요약 장치에 있어서,
    상기 용어빈도행렬을 인가받아 비음수 질의 분해(NMF)를 이용하여 의미특징행렬 및 의미변수행렬로 분해하는 질의분해수단(141)과, 상기 의미특징행렬에 따른 질의확장을 수행하여 확장된 질의벡터를 생성하는 NMF 질의확장수단(142)과, 상기 분해된 의미특징행렬에 따른 질의벡터와 상기 용어빈도행렬에 따른 질의벡터와의 코사인 유사도를 계산하며, 이 계산에 따라 상기 의미변수행렬중 유사도가 높은 값을 갖는 벡터와 대응되는 문장을 연관문장으로 추출하는 연관문장추출수단(143)과, 추출된 연관문장을 질의확장하여 연관문장에 따른 질의벡터를 생성하는 연관문장 질의확장수단(144)과, 상기 연관문장에 따른 질의벡터와 상기 의미특징행렬에 따른 질의벡터 각각에 대한 문장을 추출하여 후보문장집합을 구성하는 후보문장집합수단(145)으로 구성된 의사연관피드백부(140); 를 포함하는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
  2. 청구항 1에 있어서,
    요약대상 문서(D)를 읽어 들여 이를 독출하는 문서입력부(110); 및
    상기 문서의 요약을 위한 질의(Q)를 입력받는 질의입력부(120); 를 더 포함 하는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
  3. 청구항 1에 있어서,
    상기 구성된 후보문장의 순위점수를 계산하여 이를 순위화하는 순위화수단(151)과, 상기 순위화된 후보문장을 사용자가 원하는 문장의 개수만큼 상위순위부터 추출하는 문장추출수단(152)으로 구성된 문장추출부(150); 를 더 포함하는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
  4. 청구항 1에 있어서,
    상기 코사인 유사도 계산은 [수학식 3]을 통해 이루어지되,
    상기
    Figure 112007059851414-pat00032
    는 문장의
    Figure 112007059851414-pat00033
    번째 용어와 일치하는 질의용어이며, 상기
    Figure 112007059851414-pat00034
    은 문장벡터용어들의 수로, 그리고 벡터
    Figure 112007059851414-pat00035
    로 나타내는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
    [수학식 3]
    Figure 112007059851414-pat00036
  5. 청구항 1에 있어서,
    상기 코사인 유사도 계산은,
    사용자에 의해 기설정된 개수와 추출된 연관문장 개수가 일치하는 만큼의 연관문장을 추출하는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
  6. 청구항 1에 있어서,
    상기 연관문장의 추출은 [수학식 4]를 통해 이루어지되,
    Figure 112007059851414-pat00037
    는 상기 연관문장에 따른 질의벡터이고,
    Figure 112007059851414-pat00038
    는 상기 의미특징행렬에 따른 질의벡터인 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
    [수학식 4]
    Figure 112007059851414-pat00039
  7. 청구항 1에 있어서,
    상기 후보문장의 순위점수 계산은 [수학식 5]를 통해 이루어지되,
    Figure 112007059851414-pat00040
    는 후보문장집합에서
    Figure 112007059851414-pat00041
    번째 문장
    Figure 112007059851414-pat00042
    의 순위점수이고,
    Figure 112007059851414-pat00043
    Figure 112007059851414-pat00044
    번째 문장
    Figure 112007059851414-pat00045
    의 중복문장 개수이며,
    Figure 112007059851414-pat00046
    는 질의벡터
    Figure 112007059851414-pat00047
    Figure 112007059851414-pat00048
    번째 문장
    Figure 112007059851414-pat00049
    의 가중치인 코사인 유사도인 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 장치.
    [수학식 5]
    Figure 112007059851414-pat00050
  8. 요약대상인 문서와 요약을 위한 질의를 입력받아 이를 독출하고, 독출된 문서를 각각의 문장으로 분해하여 불용어 제거 및 어근을 추출하며, 분해된 문장에 사용된 용어의 빈도에 따른 용어빈도행렬을 생성하는 질의기반의 문서요약 방법에 있어서,
    상기 용어빈도행렬을 비음수 행렬 분해를 이용하여 의미특징행렬 및 의미변수행렬로 분해하는 제1 과정;
    상기 의미특징행렬에 따른 질의확장을 수행하여 의미특징행렬에 따른 질의벡터를 생성하는 제2 과정;
    코사인 유사도 계산을 수행하여 상기 의미특징행렬에 포함된 벡터와 상기 용어빈도행렬에 따른 질의벡터에 포함된 문장을 연관문장으로 추출하는 제3 과정;
    상기 추출된 연관문장에 따른 질의를 확장하여 연관문장에 따른 질의벡터를 생성하는 제4 과정;
    상기 연관문장에 따른 질의벡터와 상기 의미특징행렬에 따른 질의벡터에 각각 대응하는 문장을 추출하여 후보문장집합을 구성하는 제5 과정; 으로 이루어지는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법.
  9. 청구항 8에 있어서,
    상기 제5 과정 이후,
    상기 후보문장집합을 순위화하는 제6 과정; 및
    상기 순위화된 후보문장을 사용자가 원하는 개수만큼 상위 순위부터 추출하는 제7 과정; 을 더 포함하는 것을 특징으로 하는 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약 방법.
KR1020070083293A 2007-08-20 2007-08-20 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 KR100862583B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070083293A KR100862583B1 (ko) 2007-08-20 2007-08-20 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070083293A KR100862583B1 (ko) 2007-08-20 2007-08-20 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법

Publications (1)

Publication Number Publication Date
KR100862583B1 true KR100862583B1 (ko) 2008-10-09

Family

ID=40153068

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070083293A KR100862583B1 (ko) 2007-08-20 2007-08-20 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법

Country Status (1)

Country Link
KR (1) KR100862583B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165929A3 (ko) * 2011-06-02 2013-02-07 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703193B1 (ko) * 2006-04-27 2007-04-09 인하대학교 산학협력단 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법
KR100751295B1 (ko) * 2006-04-19 2007-08-23 인하대학교 산학협력단 질의 기반의 문서요약 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751295B1 (ko) * 2006-04-19 2007-08-23 인하대학교 산학협력단 질의 기반의 문서요약 장치 및 그 방법
KR100703193B1 (ko) * 2006-04-27 2007-04-09 인하대학교 산학협력단 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165929A3 (ko) * 2011-06-02 2013-02-07 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
US9213746B2 (en) 2011-06-02 2015-12-15 Postech Academy—Industry Foundation Method for searching for information using the web and method for voice conversation using same
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
CN112836490B (zh) * 2021-01-25 2024-05-10 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Similar Documents

Publication Publication Date Title
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
CN108228541B (zh) 生成文档摘要的方法和装置
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
EP3091450B1 (en) Method and system for performing binary searches
JP2009537901A (ja) 検索による注釈付与
WO2007059033A1 (en) Method and apparatus for identifying data of interest in a database
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Gorman et al. Scaling distributional similarity to large corpora
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
CN109255244B (zh) 数据加密方法及其装置、数据加密检索系统
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置
CN106570196B (zh) 视频节目的搜索方法和装置
CN103177105A (zh) 一种图像检索方法及装置
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
KR100862583B1 (ko) 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
CN113761161A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
CN106407332B (zh) 基于人工智能的搜索方法和装置
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN107644104B (zh) 一种文本特征提取方法及系统
CN103034657A (zh) 文档摘要生成方法和装置
CN116304012A (zh) 一种大规模文本聚类方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120928

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee