KR101056412B1 - 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 - Google Patents

중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 Download PDF

Info

Publication number
KR101056412B1
KR101056412B1 KR1020090015484A KR20090015484A KR101056412B1 KR 101056412 B1 KR101056412 B1 KR 101056412B1 KR 1020090015484 A KR1020090015484 A KR 1020090015484A KR 20090015484 A KR20090015484 A KR 20090015484A KR 101056412 B1 KR101056412 B1 KR 101056412B1
Authority
KR
South Korea
Prior art keywords
query
document
cluster
unit
feedback
Prior art date
Application number
KR1020090015484A
Other languages
English (en)
Other versions
KR20100096564A (ko
Inventor
이경순
Original Assignee
전북대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교산학협력단 filed Critical 전북대학교산학협력단
Priority to KR1020090015484A priority Critical patent/KR101056412B1/ko
Publication of KR20100096564A publication Critical patent/KR20100096564A/ko
Application granted granted Critical
Publication of KR101056412B1 publication Critical patent/KR101056412B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및 그 방법에 관한 것으로서, 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백하여 질의가 내포하는 핵심 주제를 강조하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및 그 방법에 관한 것이다.
상기와 같은 본 발명에 따르면, 중첩 클러스터를 이용하여 문서들 사이의 관계를 반영하고 상위검색 문서들을 재샘플링하여 피드백하는 것은 잠정적 적합 피드백에서 유효한 효과가 있고, 클러스터 형성에서 지배적 역할을 하는 문서를 반복해서 피드백 함으로써 확장된 질의는 원래(초기) 질의에 대한 핵심주제를 강조할 수 있는 효과가 있다.
중첩 클러스터, 재샘플링, 피드백 문서

Description

중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및 그 방법{System for resampling feedback documents using overlapping clusters and method therefor}
본 발명은 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및 그 방법에 관한 것으로서, 특히 보다 적합한 피드백 문서를 선택하기 위해서 중첩 클러스터를 이용한 재샘플링 시스템 및 그 방법에 관한 것이다.
월드 와이드 웹 및 인터넷이 상당히 대중적이 되어, 사용자는 대량의 정보 소스로부터 거의 모든 주제에 관한 정보를 획득할 수 있다. 정보를 찾기 위하여, 사용자는 일반적으로 정보 검색의 작업에 다양한 검색 엔진을 적용한다. 검색 엔진은 사용자로 하여금 특정 단어 또는 구문을 포함하는 인터넷 상의 정보 또는 기타 자료를 포함하는 웹 페이지를 찾아내도록 허용한다.
전형적인 잠정적 적합 피드백 기법들은 질의에 대해 검색된 상위 검색문서들이 적합하다고 가정하고, 그 문서들을 질의 확장을 위한 피드백 문서로 이용하고 있다. 그러나 초기검색결과에는 상당한 양의 부적합 문서를 포함하고 있는 것이 현실이다.
종래, 전형적인 잠정적 적합피드백 알고리즘인 Okapi BM25와 적합모델 등은 검색된 초기검색결과의 상위 문서들은 질의에 적합하다고 가정을 하고 있다. 이 방법의 성능을 향상시키기 위한 연구는 문서 대신 문단(passage)을 이용하는 방법, 지역문맥분석 기법, 질의에 대해 정규화된 추정 기법, 잠정적 개념을 이용하는 기법 등이 있다. 이러한 연구들도 기본적인 가정은 상위검색결과가 질의에 대해 적합하다는 것이다.
반면에 최근에 초기검색결과의 상위문서를 그대로 피드백으로 사용하지 않고, 샘플링과 재샘플링을 통해서 피드백을 하는 연구가 있다. Sakai 등에 의해 제안된 선택적 샘플링 기법에서는 클러스터링 기준에 따라 상위 검색된 문서들 중에서 일부를 피드백에 사용하지 않도록 한다. 이때 클러스터는 문서들 사이의 유사도에 의해 생성된 것이 아니라 같은 질의 어휘 집합을 갖느냐에 따른 것이다. 샘플링의 목적은 보다 다양하고 새로운 문서집합을 피드백에 사용하려는 것이다. 이는 상위 문서들은 서로 비슷하거나 중복될 것이라는 기본 가정에 따른 것이다. 그러나 NTCIR 컬렉션에서의 실험에서 그렇게 좋은 성능향상을 보이고 있지는 않다.
Collins-Tompson와 Callan에 의해 제안된 재샘플링 기법은 질의에 대해 검색된 상위 문서에 대한 부트스트랩 샘플링과 질의 어휘에서 하나의 어휘를 제거해서 만든 질의 변이를 사용한다. 질의 변이를 사용한 가정은 질의 어휘들 중의 하나는 쓸데없는 어휘일 것이라는 것이다.
그들의 실험분석에서 언급한 것처럼, 성능향상은 문서 재샘플링이 아니라 질의 변이를 사용한 것의 효과이다. 또한 TREC 컬렉션에 대한 실험결과에서 상위문서 10개에서의 정확률(P@10)에서는 성능향상을 보였지만, 평균정확률의 평균(mean average precision)에서는 적합모델에 비해 성능이 낮은 문제점이 있다.
상기한 문제점들을 해결하기 위하여, 본 발명의 목적은 보다 적합한 피드백 문서를 선택하기 위해서 중첩 클러스터를 이용한 재샘플링 시스템 및 그 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은 정보검색에서 질의 확장의 근거가 되는 피드백 문서를 보다 잘 선택함으로써 질의 확장의 질을 높이고, 이를 통해 정보검색 성능을 향상시킴에 있다.
그리고, 본 발명의 또 다른 목적은 질의 중심적인 초기검색 문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백하여 질의가 내포하는 핵심 주제를 강조하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및 그 방법을 제공함에 있다.
이러한 기술적 과제를 달성하기 위하여, 본 발명은 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 있어서, 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 웹 질의부(100); 상기 웹 질의부를 통해 검색된 문서집합에 대해 문서 유사도를 측정하고, 최근접 이웃 클러스터링을 수행하여 중첩 클러스터들을 생성하는 중첩 클러스터부(200); 상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들의 순위를 정하고, 클러스터 기반 질의 확률 언어모델을 추정 하는 클러스터 순위 산출부(300); 상기 순위 산출부를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 상기 질의에 따른 검색 어휘의 확률을 산출하여 질의 확장 어휘를 선택하는 질의 확장부(400); 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부로 피드백 입력하는 피드백 처리부(500); 및 상기 웹 질의부, 중첩 클러스터부, 순위 산출부, 질의 확장부 및 피드백 처리부를 제어하는 제어부(700); 를 포함하는 것을 특징으로 한다.
한편, 재샘플링 방법에 있어서, (a) 제어부(700)가 웹 질의부(100)를 통해 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 단계; (b) 상기 제어부가 상기 웹 질의부에 의해 검색된 문서집합에 대해서 중첩 클러스터부(200)를 통해 최근접 이웃 클러스터링을 하여 중첩 클러스터를 생성하는 단계; (c) 상기 제어부가 상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들을 클러스터 순위 산출부(300)를 통해 중첩 클러스트들의 순위를 산출하고 클러스터 기반 질의확률 언어모델을 추정하는 단계; (d) 상기 제어부가 상기 클러스터 순위 산출부에 의해 최상위로 순위화된 클러스터를 질의 확장부(400)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 초기 질의에 따른 검색 어휘의 확률을 산출하여 질의 확장 어휘를 선택하는 단계; 및 (e) 상기 제어부가 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 피드백 처리부(500)를 통해 상기 웹 질의부로 피드백 입력하여 웹 문서를 검색하도록 하는 단계; 를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명에 따르면, 중첩 클러스터를 이용하여 문서들 사이의 관 계를 반영하고 상위검색 문서들을 재샘플링하여 피드백하는 것은 잠정적 적합 피드백에서 유효한 효과가 있다.
그리고 클러스터 형성에서 지배적 역할을 하는 문서를 반복해서 피드백 함으로써 확장된 질의는 원래(초기) 질의에 대한 핵심주제를 강조할 수 있는 효과가 있다.
본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 관한 블록도이다.
본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템은 도 1에 도시된 바와 같이, 웹 질의부(100), 중첩 클러스터부(200), 클러스터 순위 산출부(300), 질의 확장부(400), 피드백 처리부(500), 출력부(600) 및 제어부(700)를 포함한다.
우선, 웹 질의부(100)는 사용자로부터 질의를 입력받는 입력수단(미도시)을 포함하고, 입력받는 질의에 대한 검색 어휘에 따라 언어 모델(language model) 기반으로 웹 문서를 검색하는 기능을 수행한다. 이러한 기능을 수행하는 웹 질의부(100)는 문서 그 자체를 언어 모델로서 문서를 검색하고, 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화는 문서검색 모듈(110)과, 상기 문서검색 모듈로부터 생성된 텍스트의 열로써, 최대확률 추정을 이용하여 문서 언어모델을 추정하는 질의 확률 검색모듈(120)을 포함한다.
본 실시예에 따른 웹 질의부(100)는 언어 모델에서 문서에 나타나지 않은 질의 어휘를 다루기 위해 디리슈레 평활(Dirichlet smoothing)을 이용한다. 이러한 언어 모델은 통계적 언어모델로서, 텍스트의 일부를 생성하는 가능한 모든 단어 열에 대한 확률 분포를 나타낸다.
문서검색 모듈(110)은 문서 그 자체를 언어 모델로서, 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 기능을 수행한다.
정보검색에서 언어 모델은 문서 그 자체를 모델로 다루고, 질의는 문서 모델로부터 생성된 텍스트의 열로써 다룬다. 여기서, 문서는 문서 언어모델로부터 질의를 생성 또는 샘플링할 확률 P(Q|D)에 의해서 순위화된다.
Figure 112009011502901-pat00001
여기서, qi는 i번째 질의 어휘, m은 질의 Q의 어휘 개수이고, D는 문서 모델을 나타낸다.
또한 질의 확률 검색모듈(120)은 문서검색 모듈(110)로부터 순위화되어 생성된 텍스트의 열로써, 최대확률 추정을 이용하여 문서 언어모델을 추정한다.
본 발명의 일실시예에 따른 디리슈레 평활은 문서에 나타나지 않은 질의 어휘에 대해 0이 아닌 값으로 추정하는데 사용된다. 질의 확률 검색모듈(120)에 적용된 수학식은 다음과 같다.
Figure 112009011502901-pat00002
Figure 112009011502901-pat00003
여기서, PML(w|D)은 문서D에서의 어휘 w의 최대확률 추정을 나타내고, Coll은 전체 문서집합, μ는 평활 매개변수(smoothing parameter)를 나타내며, PML(w|Coll)은 전체 문서집합 Coll에서의 어휘 w의 최대확률 추정을 나타내고, |D|와 |Coll|은 문서D와 전체 문서집합 Coll의 길이를 나타내며, freq(w,D)와 freq(w,Coll)은 문서D와 전체 문서집합 Coll에서의 어휘w의 빈도수를 나타낸다. 이때, 본 발명의 일실시예에 따른 평활 매개변수μ는 실험에서 각 전체 문서집합에 대한 학습 질의를 이용해서 학습을 하였다.
또한, 중첩 클러스터부(200)는 상술한 웹 질의부(100)를 통해 검색된 문서집합에 대해 문서유사도를 측정하고, 최근접 이웃 클러스터링을 수행하여 중첩 클러스터들을 생성하는 기능을 수행한다. 이러한 기능을 수행하는 중첩 클러스터부(200)는 검색된 문서집합들 사이의 유사도를 측정하는 문서 유사도 측정모듈(210)과 각 문서에 대해서 유사도가 높은 순서대로 k개의 가장 가까운 문서(이웃)를 선택하여 그 문서에 대한 중첩 클러스터를 형성하는 클러스터 형성모듈(220)을 포함한다.
본 발명에 따른 중첩 클러스터부(200)는 검색된 N개의 문서집합에 대해서 지배적 문서들을 찾기 위해 최근접 이웃(k-nearest neighbors; k-NN) 클러스터링을 한다.
문서 유사도 측정모듈(210)은 문서 유사도(document similarity) 계산을 위해 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정한다.
여기서, 각 문서들은 어휘들(N)의 TF-IDF가중치 값으로 이루어진 N차원의 벡터 공간상의 한 점으로 간주할 수 있다. N차원의 벡터 공간에서 코사인의 각이 작을수록 유사도가 높다고 가정할 수 있다.
참고적으로, TF-IDF(Term Frequency-Inverse Document Frequency) 가중치는 정보검색과 텍스트 마이닝에서 주로 이용되는 가중치이다. 문서집합들이 있다고 할 때, 어떤 낱말이 어떤 한 문서에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
TF(Term Frequency,단어 빈도)는 해당 단어가 문서에 얼마나 많이 나오는지를 나타낸다. 해당 단어가 문서에 많이 나올수록 그 문서에서 중요하다고 할 수 있다. 그러나 문서집합에 있는 다른 문서에서도 해당 단어가 많이 나타날수록, 그 단어가 흔하게 나오는 것을 의미한다. 이것을 DF(Document Frequency)라고 하는데, 흔하게 나오는 단어들을 걸러주기 위해 역수를 취한 것을 IDF(Inverse Document Frequency)라고 한다.
주어진 문서에 대한 TF(Term Frequency,단어 빈도)는 단순히 그 문서에서 해당 단어가 나타나는 횟수이다. 그런데, 문서의 길이가 더 길면, 해당 단어의 실제 중요도와는 상관없이 단어 빈도가 더 커질 수 있으므로, 일반적으로 특정 문서 dj에서 단어 ti의 중요도는 다음과 같이 표준화된다.
Figure 112009011502901-pat00004
여기서, ni,j는 문서 dj에서 단어 ti가 나타나는 횟수이며, 분모
Figure 112009011502901-pat00005
는 문서 내의 모든 단어가 나타나는 횟수이다. 예를 들면, 100개의 단어로 이루어진 어떤 문서에 단어 cow가 세 번 등장한다면, 단어 cow의 TF는 0.03(3/100)이다.
또한 IDF(Inverse Document Frequency, 역 문서 빈도)는 해당 단어의 일반적 인 중요도를 나타내는 수치로, 전체 문서의 수를 해당 단어가 포함된 문서들의 수로 나눈 값에 로그를 취한 것으로, 다음의 수학식과 같다.
Figure 112009011502901-pat00006
여기서, |D|는 언어 자료 내의 전체 문서 숫자이며,
Figure 112009011502901-pat00007
은 단어 ti가 등장하는 문서들의 숫자이다.
TF-IDF 가중치는 TF(Term Frequency,단어 빈도)와 IDF(Inverse Document Frequency, 역 문서 빈도)의 곱으로 계산된다. 이러한 TF-IDF 가중치는 주어진 문서에서의 TF가 크고, 전체 문서에서의 DF가 작을수록 커지므로, 전체 문서에서 공통적으로 등장하는 단어들은 걸러지게 된다.
그리고 클러스터 형성모듈(220)은 문서 유사도 측정모듈(210)에 의한 각 문서에 대해서 유사도가 높은 순서대로 k개의 가장 가까운 문서를 선택하여 그 문서에 대한 중첩 클러스터를 형성한다.
이러한 클러스터 형성모듈(220)을 구체적으로 설명하면, 검색된 N개의 문서집합에 대해서 지배적 문서들을 찾기 위해 최근접이웃 클러스터링(k-NN클러스터링)을 수행한다. 최근접이웃 클러스터링은 문서 유사도 측정모듈(210)을 통해 측정한 문서들 사이의 유사도가 높은 순서대로 k개의 가장 가까운 문서를 선택하여 그 문서에 대한 클러스터를 형성하도록 한다. 이때, 하나의 문서는 여러 개의 클러스터 에 속할 수 있고, 이는 재샘플링 효과가 있다.
참고적으로, 본 발명의 일실시예에 따른 문서집합 N개는 100으로 설정하고, k는 5로 설정하며, 클러스터를 생성하는데 드는 시간복잡도는 O(N2)이다.
본 발명에 따른 지배적 문서는 질의를 잘 표현한 문서로서, 높은 유사도로 여러 개의 이웃과 관계를 맺고, 또한 여러 클러스터를 형성하는데 핵심 역할을 하는 것이다. 반면에, 부적합한 문서는 이상적으로는 높은 유사도의 이웃을 갖지 않아서 그 자신으로만 된 클러스터를 형성해야 하지만, 실제로는 일반 어휘나 여러 개의 뜻을 갖는 어휘 등으로 인해서 이웃들을 가져서 클러스터를 형성할 수 도 있다.
본 발명의 일실시예에 따른 클러스터는 유사도 계산에서 문서와 어휘들 사이의 관계를 반영할 수 있다. 어떤 문서가 여러 클러스터의 멤버이고, 이 클러스터가 질의와 밀접한 관련이 높은 것이라면, 이러한 문서를 지배적 문서라 가정하고, 이 지배적 문서를 질의 확장을 위해서 반복적으로 피드백을 하는 것이다.
또한, 클러스터 순위 산출부(300)는 중첩 클러스터부(200)에 의해 생성된 중첩 클러스터들의 순위를 정하고, 클러스터 기반 질의 확률 언어모델을 추정하는 기능을 수행한다. 이러한 기능을 수행하는 클러스터 순위 산출부(300)는 중첩 클러스터의 멤버로 속한 모든 문서를 연결하여 하나의 큰 문서처럼 표현하고, 순위를 정하는 클러스터 모듈(310)과, 최대확률 추정을 이용하여 클러스터 기반 질의 확률 언어모델을 추정하는 클러스터 검색 모듈(320)을 포함한다.
클러스터 순위 산출부(300)는 클러스터를 순위화하고, 클러스터 기반 질의 확률 언어모델(cluster-based query-likelihood language model)을 추정한다. 최상위로 순위화된 클러스터들에 속하는 문서들이 피드백을 위해 사용된다. 여기서, 클러스터는 피드백 문서를 선택하기 위해서만 사용된다.
클러스터 기반 질의 확률 언어모델에서 클러스터는 자신의 멤버로 속한 모든 문서를 연결해서 하나의 큰 문서처럼 표현하여 순위화한 후 언어 모델에 적용한 것이다.
클러스터 모듈(310)은 중첩 클러스터의 멤버로 속한 모든 문서를 연결하여 하나의 큰 문서처럼 표현하고, 클러스터를 순위화하는 기능을 수행한다. 이러한 클러스터 모듈(310)에 적용되는 수학식은 다음과 같다.
Figure 112009011502901-pat00008
여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터이다.
클러스터 검색 모듈(320)은 최대확률 추정을 이용하여 클러스터 기반 질의 확률 언어모델을 추정하는 기능을 수행한다. 이러한 클러스터 검색 모듈(320)에 적용되는 수학식은 다음과 같다.
Figure 112009011502901-pat00009
Figure 112009011502901-pat00010
여기서, Clu는 클러스터, PNL(w|Clu)는 클러스터Clu에서의 어휘 w의 최대확률 추정을 나타내고, PNL(w|Coll)는 전체 문서집합Coll에서의 어휘 w의 최대확률 추정을 나타내며, freq(w,Clu)는 클러스터Clu에 속하는 문서D에서의 어휘 w의 빈도수인 freq(w,D)를 합한 것이고, freq(w,Coll)은 전체 문서집합Coll에서의 어휘 w의 빈도수인 freq(w,Coll)을 합한 것이며, λ는 매개변수이다.
또한, 질의 확장부(400)는 클러스터 순위 산출부(300)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 원래 질의에 따른 검색 어휘의 확률을 산출하여 질의 확장 어휘를 선택하는 기능을 수행한다.
질의 확장 어휘는 최상위로 순위화된 클러스터에 속하는 각 문서에 대해서 적합모델(relevance model)을 그대로 이용하여 선택한다. 여기서, 최상위 클러스터에서 선택한 피드백 문서들은 각 문서들의 초기 질의확률로 적합모델을 추정하는데 사용되는 것이다. 즉, 클러스터 표현이나 질의-클러스터 유사도가 사용되는 것이 아니다.
참고적으로, 적합모델은 언어모델의 틀에 기반한 질의확장 기법으로, 질의 Q가 주어졌을 때, 어휘 w의 확률을 추정하는 다항분포이다. 이 모델에서 질의 어휘는 q1 ... qm 이고, 적합문서에서의 어휘 w는 분포 R에서 동시에 독립적으로 샘플링한 것이다. 분포 R에서 어휘의 확률은 다음과 같이 추정된다.
Figure 112009011502901-pat00011
여기서, 분포 R은질의 Q에 대해 잠정적으로 적합(pseudo-relevant)하다고 가정한 문서들의 집합이다. 그리고 P(D)는 전체문서 집합에서 선택되는 문서(D)의 확률이므로, 전체집합에 대해 균일하다고 가정한다. 결국, 질의 확장을 위한 어휘 선택은 처음 질의에 대한 언어모델의 확률 P(Q|D)와 적합성 피드백 문서집합의 각 문서에서의 단어의 확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 높은 것 순서대로 선택하게 된다.
이렇게 추정을 한 후, 확률 P(w|R)이 가장 높은 e개의 어휘를 질의확장을 위해 선택한다. 최종 확장된 질의에는 원래 질의와 확장 어휘를 매개변수 λ로 가중치를 주어서 선형보간으로 합한다. 이때 매개변수λ도 실험에서 각 전체 문서집합의 학습주제에 대해서 학습하여 얻는다.
본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템은 문서들 사이의 관련도를 반영하면서, 중복된 중첩 클러스터를 생성해서 질의에 대해 핵심적인 역할을 하는 지배적 문서를 찾아서 반복적으로 피드백을 하는 것이다.
또한, 피드백 처리부(500)는 질의 확장부(400)에 의해 선택된 질의 확장 어휘를 웹 질의부(100)로 피드백 입력하는 기능을 수행한다. 여기서, 본 발명의 일실시예에 따라 질의 확장부에 의해 선택된 질의 확장 어휘를 웹 질의부로 피드백을 함으로써, 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 중첩 클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백하여 질의가 내포하는 핵심 주제를 강조하는 효과가 있다.
또한, 출력부(600)는 웹 질의부(100)를 통해 질의 확장부(400)의 질의확장 어휘에 대한 검색결과를 출력하는 기능을 수행한다.
그리고, 제어부(700)는 웹 질의부(100), 중첩 클러스터부(200), 클러스터 순위 산출부(300), 질의 확장부(400), 피드백 처리부(500) 및 출력부(600)를 제어하는 기능을 수행한다.
여기서, 본 발명의 일실시예에 따른 제어부(700)는 웹 질의부(100)의 입력수단을 통해 재검색 명령신호의 수신여부를 판단하고, 그 결과, 재검색 명령신호를 수신한 경우, 피드백 처리부(500)로 제어신호를 보내어 질의 확장부(400)에 의해 선택된 질의 확장 어휘를 웹 질의부(100)로 피드백 입력하도록 한다. 그리고 제어부는 원래(초기) 질의와 질의 확장 어휘를 매개변수 λ로 가중치를 주어서 선형보간으로 합한다.
한편, 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템을 이용한 방법(이하, 재샘플링 방법)에 관한 전체적인 흐름을 도 2를 참조하여 설명하면 다음과 같다.
도 2는 본 발명의 일실시예에 따른 재샘플링 방법에 관한 전체흐름도이다.
도 2에 도시된 바와 같이, 제어부(700)는 웹 질의부(100)를 통해 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색한다(S2).
다음으로, 제어부(700)는 웹 질의부(100)에 의해 검색된 문서집합에 대해서 중첩 클러스터부(200)를 통해 최근접 이웃 클러스터링(k-NN clustering)을 하여 중첩 클러스터를 생성한다(S4).
다음으로, 제어부(700)는 중첩 클러스터부(200)에 의해 생성된 중첩 클러스터들을 클러스터 순위 산출부(300)를 통해 중첩 클러스트들의 순위를 산출하고 클러스터 기반 질의확률 언어모델을 추정한다(S6).
다음으로, 제어부(700)는 클러스터 순위 산출부(300)에 의해 최상위로 순위화된 클러스터를 질의 확장부(400)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 초기 질의에 따른 검색 어휘의 확률을 산출하여 질의 확장 어휘를 선택한다(S8).
다음으로, 제어부(700)는 질의 확장부(400)에 의해 선택된 질의 확장 어휘를 피드백 처리부(500)를 통해 웹 질의부(100)로 피드백 입력하여 웹 문서를 검색하도록 한다(S10).
다음으로, 제어부(700)는 출력부를 통해 제 (S10) 단계의 질의 확장 어휘에 대한 웹 검색결과를 출력한다(S12).
다음으로, 제어부(700)는 사용자로부터 웹 질의부(100)의 입력수단을 통해 재검색 명령신호의 수신여부를 판단(S14)하고, 판단결과, 재검색 명령신호를 수신한 경우, 피드백 처리부(500)로 제어신호를 보내어 질의 확장부(400)에 의해 선택된 질의 확장 어휘를 웹 질의부(100)로 피드백 입력하고, 그 절차를 제 S2 단계로 이행한다(S16). 이때, 본 발명의 일실시예에 따른 제어부는 원래(초기) 질의와 확장 어휘를 매개변수 λ로 가중치를 주어서 선형보간으로 합한다.
도 3은 본 발명의 일실시예에 따른 웹 문서 검색에 관한 상세흐름도이다.
도 3에 도시된 바와 같이, 제어부(700)는 문서검색 모듈(110)을 통해 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화한다(S22).
그리고 제어부(700)는 질의 확률 검색모듈(120)을 통해 최대확률 추정을 이용하여 문서 언어모델을 추정한다(S24).
도 4는 본 발명의 일실시예에 따른 중첩 클러스터 생성에 관한 상세흐름도이다.
도 4에 도시된 바와 같이, 제어부(700)는 문서 유사도 측정모듈(210)을 통해 검색된 문서집합들 사이의 유사도 계산을 위해 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정한다(S32).
그리고 제어부(700)는 클러스터 형성모듈(220)을 통해 각 문서에 대해서 유사도가 높은 순서대로 k개의 가장 가까운 문서를 선택하여 그 문서에 대한 중첩 클러스터를 생성한다(S34). 여기서, 본 발명의 일실시예에 따른 클러스터 형성모듈(220)은 k개를 5개로 설정하였으나, 이에 한정되는 것은 아니다.
도 5는 본 발명의 일실시예에 따른 중첩 클러스트들의 순위 산출과 클러스터 기반 질의확률 언어모델 추정에 관한 상세 흐름도이다.
도 5에 도시된 바와 같이, 제어부(700)는 클러스터 모듈(310)을 통해 중첩 클러스터의 멤버로 속한 모든 문서를 연결한다(S42).
다음으로, 제어부(700)는 클러스터 모듈(310)을 통해 클러스터의 순위를 산출한다(S44).
그리고 제어부(700)는 클러스터 검색 모듈(320)을 통해 최대확률 추정을 이용하여 클러스터 기반 질의확률 언어모델을 추정한다(S46).
본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 대한 다양한 평가를 위해 실험문서집합으로 뉴스기사집합인 TREC ROBUST, AP, WSJ 컬렉션과 다양한 행태의 문서들로 구성된 대량의 웹 문서집합인 GOV2와 WT10g를 선택하였다. 모든 실험집합에 대해 질의는 TREC질의형태에서 짧은 질의인 topic필드를 사용하였다. 테스트컬렉션에 대한 보다 자세한 정보는 표 1과 같다.
본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링에 대한 색인과 검색을 위해서 인드리(Indri)시스템 버전 2.3을 사용하였다. 모든 컬렉션에 대해서 포터 스태머(Poter stemmer)로 어근처리(stemming)를 하였고, 불용어(stop word list)는 흔히 사용되고 있는 418개 리스트에 대해서 검색시에 제거하였다.
Figure 112009011502901-pat00012
모든 테스트컬렉션 각각은 학습 질의와 테스트 질의로 나누고, 각 모델의 파라미터 추정을 위해서 학습 질의를 이용하였고, 테스트 질의에 대해서 평가를 하였다.
언어모델에서 평활(smoothing) 파라미터 설정을 위해 다음과 같은 값(μ∈{500, 750, 1000, 1500, 2000, ..., 5000})에 대해서 최적의 파라미터를 찾았다. 적합모델에서 피드백 문서의 개수(|R|∈{5, 10, 25, 50, 75, 100}), 확장 어휘의 개수(e∈{10, 25, 50, 75, 100}), 원래 질의에 대한 가중치(λ∈{0.1, 0.2, ..., 0.9})로 실험하였다. 본 발명에서 피드백 클러스터의 개수(|C|∈{1, 2, 5, 10, 15, 20})로 이는 피드백 문서의 개수에 상응하는 값을 갖는다. k-NN클러스터링에서 (k=5) 하나의 클러스터가 5개의 문서를 소속멤버로 가질 수 있기 때문이다. 본 발명의 일실시예에 따른 실험은, 클러스터링에서 무조건 5개의 멤버로 구성하지 않고, 문서 사이의 유사도가 0.25 이상의 값을 가지도록 제한하였다.
확장 어휘는 다음과 같이 인드리 검색 시스템의 형식으로 표현한다.
#weight(λ#combine(q1...qm)
(1-λ)#weight(p1t1...pete))
여기서, q1 ... qm은 원래 질의 어휘를 타나내고, t1 ... te는 확장 어휘로, e개의 어휘를 나타낸다. 각 어휘는 확장 확률로 p1 ... pe를 갖는다. λ는 원래 질의와 확장질의를 결합할 때의 파라미터로, 원래 질의에 어느 정도의 가중치를 부여하는지를 나타낸다.
학습 집합에 대해 모든 비교 기법은 다음의 수학식과 같이, 평균정확률에 대한 평균값(mean average precision;MAP)으로 최적화시켰다.
Figure 112009011502901-pat00013
여기서, ap(q)는 질의 집합Q에 있는 질의q에 대한 평균 정확을 나타낸다. 각 컬렉션의 학습집합에 대해 학습한 최적의 파라미터는 테스트질의에 대한 실험 평가 에서 이용된다.
본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 대한 비교 실험을 설명하면 다음과 같다.
비교 실험(Baselines)으로 기본 검색모델과 기본 잠정적 적합 피드백 모델을 설정하였다. 우선, 언어모델(LM)은 기본이 되는 검색모델로 질의 확률 언어모델의 성능과 비교한다. 적합모델(RM)은 기본이 되는 잠정적 적합 피드백 모델로 적합모델의 성능과 비교한다. 확장된 질의는 원래 질의와 결합시킨다(일반적으로, RM3라고도 알려져 있다.) 적합모델과 본발명은 언어모델의 틀에서 적합 피드백을 하고 있어, 기본적으로 언어모델에 비해 우수한 성능을 보이는지 비교해야 한다.
다음으로, 본 발명의 상한선을 보기 위해, 실제로 적합한 문서로 피드백을 했을 때(true relevance feedback)의 성능을 비교하였다. 실제 적합피드백(TrueRF)는 잠정적 적합피드백 문서를 사용하지 않고, 사용자가 초기검색결과 100개에 대해 실제로 적합문서만을 선택해서 피드백 했을 때의 성능과 비교한다. 이는 적합모델을 이용했을 때의 상한선이 된다. 본 발명을 사용했을 때의 상한선이기도 하다.
다음으로, 초기 검색결과집합에 대한 클러스터의 효과를 보기 위해, 클러스터 기반 재순위화 기법과 비교하였다.
클러스터 기반 재순위화(Rerank)는 질의 중심적으로 검색된 상위 N개의 문서들에 대해서 k-NN클러스터링 기법으로 생성된 클러스터와 문서에 대한 질의확률을 결합해서 재순위화한 방법과 비교한다. 이때 N은 1,000으로, k는 5로 설정하였다. 여기서, 문서는 여러 클러스터의 멤버가 될 수 있기 때문에, 문서 D가 속하는 클러 스터Clu중에서 질의 확률을 최대로 갖는 값으로 선택한다.
이러한 각 비교방법들에 대해서 모든 테스트 컬렉션에 대한 실험결과는 다음 표 2에 나타난 바와 같이, 기본 검색모델과의 비교실험에서, 본 발명에 따른 재샘플링 기법(Resampling)은 모든 테스트컬렉션에 대해서 질의확률 언어모델(LM)보다 현저히 성능향상을 보이고 있다.
Figure 112009011502901-pat00014
기본 잠정적 적합 피드백 모델과의 비교실험에서, GOV2와 WT10g와 같이 다양한 형태의 웹 문서들로 구성된 대량의 컬렉션에 대해서 재샘플링 기법은 적합모델에 비해 현저한 성능향상을 보이고 있다.
표 2는 모든 테스트컬렉션에 대해 테스트 질의에 대한 성능을 비교(MAP)한 것이다. 윗첨자로 표시한 α, β, γ, δ는 각각 언어모델(LM), 재순위화(Rerank), 적합모델(RM), 본 발명에 따른 재샘플링(Resampling)에 대해 통계적으로 우수한 수준으로 성능향상이 되었음을 나타낸다. 즉, α는 언어모델(LM)에 대해 성능향상에 차별성이 있음을 나타내고, β는 재순위화(Rerank)에 비해, γ는 적합모델(RM)에 비해, δ는 본 발명에 따른 재샘플링(Resamling)에 비해 보다 성능향상이 차별성이 있음을 표시한다.
다음 표 3은 상위 5개 문서에서의 정확률(P@5)에 대한 성능 비교를 나타난 것이다.
Figure 112009011502901-pat00015
상위문서 5개에 대한 정확률(P@5)로 평가했을 때, 본 발명에 따른 재샘플링 기법은 기본 검색모델인 언어모델에 비해 각 컬렉션 GOV2, WT10g, ROBUST, AP, 그리고 WSJ에 대해 각각 14.84%, 24.68%, 3.92%, 20.0%, 11.85%의 성능향상을 보였다.
반면에 적합모델은 언어모델에 비해 해당 각 컬렉션에 대해 -7.1%, 7.4%, 1.6%, 18.8% 그리고 7.4%의 변화를 나타냈다. 본 발명에 따른 재샘플링 기법이 적합모델에 비해 P@5에서 성능향상률이 높았다. 클러스터를 이용한 재순위화 기법은 모든 테스트컬렉션에서 MAP 평가에서 LM에 비해 현저한 성능향상을 보였다. 사실, Rerank 기법은 WT10g에 대해서 RM보다 높은 성능을 보이고 있다. P@5 평가에서는 대부분의 컬렉션에 대해 RM보다 높은 정확률을 나타내고 있다. 이러한 결과는 문서클러스터링이 초기검색결과에 대해 적합문서 그룹을 찾고, 질의에 대한 문서의 잠정적 문맥을 제공하는데 도움이 된다는 것을 보여주는 것이다.
제안모델 및 적합모델의 성능 상한선 (upper-bound performance)을 보기 위한 실험으로, 실제 적합피드백 (TrueRF)은 모든 컬렉션에 대해 현저한 수준의 성능향상을 보이고 있다. 적합모델의 틀에서 보다 좋은 잠정적 적합피드백 문서를 선택했을 때 예측할 수 있는 성능 수준이다. MAP 평가에서 0.4와 0.5의 수준이므로, 보다 좋은 확장 어휘와 어휘에 대한 가중치를 적용하는 문제는 여전히 남아있다.
위의 실험결과는 각 컬렉션에 대해 학습질의를 이용하여 최상의 성능을 보이는 파라미터들을 학습하여 실험한 것이다. 피드백 문서의 개수가 달라짐에 따라 성능이 어떻게 변하는지를 분석하였다. 도 6 및 도 7에서 보는 것과 같이, 재샘플링 기법이 피드백 문서의 수에 상관없이 적합모델에 비해 높은 성능을 보였다.
도 8에 도시된 바와 같이, 각 질의에 대해 피드백으로 사용된 문서가 포함하는 적합한 문서와 부적합한 문서의 수를 분석하였다.(적합문서개수/전체피드백 문서개수). GOV2 컬렉션에서 대부분의 경우 재샘플링 기법이 적합모델 보다 피드백에 사용된 적합문서의 비율이 높고, 그 결과로 성능 또한 높게 나타났다. 점선으로 표시된 부분은 그 반대의 경우를 보이는데 이러한 행태는 많지 않다. 전체 50개의 질의에 대해, 재샘플링기법이 41개의 질의에 대해서 LM에 비해 성능향상을 보였고, 9개의 질의에 대해 성능이 낮아졌다. 적합모델은 37개의 질의에 대해서 LM에 비해 성능향상을 보였고, 13개의 질의에 대해 성능이 저조했다.
한편, 본 발명에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템을 적합밀도를 이용한 검증을 살펴보면 다음과 같다.
본 발명의 기본 가정인 지배적 문서는 질의 적합한 문서이고, 상위로 순위화된 클러스터에 반복적으로 나타난다는 것을 정당화하기 위해 적합밀도를 측정하였다.
이때, 적합 밀도(relevance density)는 피드백 문서 수에 비해서 실제 적합 문서의 포함 비율로 다음과 같이 정의하였다.
Figure 112009011502901-pat00016
여기서, 적합밀도가 높다는 것은 포함하고 있는 적합문서의 수가 많기 때문에 검색 정확도가 더 클 것이라는 것을 의미한다. 적합밀도가 1이 되면 사람에 의해 판별한 적합한 문서만으로 피드백하는 실제 적합피드백 결과에 접근하게 된다. 제안하는 기법이 효과적이라면 기존 방법보다 높은 적합밀도를 보일 것이다.
제안 방법을 정당화 하기 위해 피드백 문서에 대한 적합 밀도를 기존의 방법과 비교하고, 지배적 문서 의 효과를 보기 위해 중복해서 나타나는 문서를 반복적으로 피드백을 하지 않았을 때의 성능을 비교 분석한다.
도 9 내지 도 11에서 보는 것처럼, 제안 방법이 최신의 잠정적 피드백모델에서 가장 우수한 성능을 보이고 있는 적합모델에 비해 모든 테스트컬렉션에 대해 높은 적합밀도를 나타내고 있다. (AP와 WSJ 컬렉션에 대한 결과는 도 9 내지 도 11에는 나타나 있지 않으나 ROBUST와 같은 행태를 보였다.)
피드백 문서의 수가 100일 때, 모든 컬렉션에서 RM보다 높은 적합밀도를 보이고 있다. 이는 피드백 문서의 수를 100으로 고정했을 때, 제안 방법이 적합모델 의 성능을 능가할 것이라는 것을 예측할 수 있다. 이에 대한 실험 결과는 표 4에서 확인할 수 있다. 이러한 결과는 적합밀도가 성능향상과 관련을 지지하고 있음을 보인 것이다.
Figure 112009011502901-pat00017
지배적 문서는 질의에 적합한 문서로서, 초기검색집합에 대해서 중첩클러스터를 형성하는데 핵심적인 역할을 하기 때문에 여러 클러스터에 중복해서 나타난다고 가정을 하였다. 이 지배적 문서의 효과를 살펴보기 위해 중복 문서(지배적 문서)를 없애고 피드백을 한 결과를 비교하였다. 즉, 문서가 여러 클러스터에 속하더라도 피드백에서는 한번만 사용하였다.
Figure 112009011502901-pat00018
표 5는 중복없이 샘플링하여 피드백한 결과를 보인다. 이는 RM보다는 높은 성능을 보이지만 본 발명에 따른 제안방법인 Resampling 보다는 낮은 성능을 보이고 있다. 이 결과는 지배적 문서가 피드백에서 긍정적 영향력을 발휘하고 있음을 보여준다. 피드백 문서에 중복이 어느 정도 수준인지를 살펴보았다. 어떤 한 질의에 대해 상위 10개의 클러스터는 50개의 문서를 포함하고 있었는데, 40개가 적합한 문서였고, 37개의 문서가 다른 클러스터에도 나타나는 문서였다. 적합한 문서 하나는 10개의 클러스터 중에서 9개의 클러스터에 포함되어 있었고, 적합한 다른 한 문서는 7개의 클러스터에 포함되어 있었다. 이렇게 상위의 클러스터에 여러 번 나타나는 지배적 문서들이 질의 확장 어휘에 기여를 한 것으로 보인다.
또한 중복이 피드백에서 적합한 문서의 수에 어떻게 영향을 미치고 있는지를 살펴보기 위해, WT10g의 한 질의에 대해서 피드백에 사용된 상위 문서들 5, 10, 25, 50, 75, 100개에 대해서 적합밀도를 살펴보았다. 적합모델기법에 대해서는 적합밀도가 각각 0.6, 0.5, 0.36, 0.3, 0.25를 나타낸 데 비해, 제안기법에 대해서는 거의 완벽한 수준으로 각각 1.0, 1.0, 0.96, 0.98, 0.97, 0.89를 나타냈다. 질의에 적합한 문서들이 상위의 클러스터에 반복적으로 나타나는 것을 확인할 수 있다. 이러한 적합밀도에의 변화가 앞서 실험에서 제안기법이 성능을 향상시킬 수 있었던 바탕이 된 것이라고 확신할 수 있다.
본 발명의 일실시예에 따른 중첩 클러스터를 이용해서 상위검색 문서들을 재샘플링하여 피드백 하는 것은 잠정적 적합피드백에서 유효한 방법이다. 거의 모든 실험집합에서 일관적으로 성능향상을 보였고, 특히 대규모의 다양한 문서를 포함하는 TREC GOV2와 TREC WT10g 컬렉션에서는 상당히 우수한 성능향상을 보였다. 정보검색모델에서 우수한 성능을 보이는 언어모델(LM)과 잠정적 적합피드백에서 최고의 성능을 보이는 적합모델(RM)과의 비교실험에서 GOV2 집합에 대한 상대적인 성능향상은 각각 16.82%와 6.28%를 보였다. WT10g 집합에 대해서는 각각 19.63%와 26.38%의 성능향상을 보였다. 클러스터에 기반한 재샘플링에 의한 질의 확장이 어떻게 성능향상을 도왔는지에 대한 검증을 위해서 적합밀도를 측정했는데, 모든 실험집합에 대해서 비교 피드백모델 보다 높은 적합밀도를 보였음을 확인하였다. 이러한 실험결과에서 중첩 클러스터가 질의에 대해 핵심 문서를 찾는데 도움이 되었음을 알 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
도 1은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 관한 블록도.
도 2는 본 발명의 일실시예에 따른 재샘플링 방법에 관한 전체흐름도.
도 3은 본 발명의 일실시예에 따른 웹 문서 검색에 관한 상세흐름도.
도 4는 본 발명의 일실시예에 따른 중첩 클러스터 생성에 관한 상세흐름도.
도 5는 본 발명의 일실시예에 따른 중첩 클러스트들의 순위 산출과 클러스터 기반 질의확률 언어모델 추정에 관한 상세 흐름도.
도 6은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템을 GOV2 컬렉션에 대한 피드백 문서의 개수에 따른 성능을 비교한 그래프.
도 7은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템을 WT10g 컬렉션에 대한 피드백 문서의 개수에 따른 성능을 비교한 그래프.
도 8은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템을 GOV2 컬렉션에 대해서 피드백에 사용된 문서를 분석한 그래프.
도 9 내지 도 11은 본 발명의 일실시예에 따른 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템과 피드백 문서의 개수에 따른 적합모델(RM)과의 적합밀도 비교한 그래프.
<도면의 주요 부분에 대한 부호의 설명>
100 : 웹 질의부 110 : 문서 검색 모듈
120 : 질의 확률 검색모듈 200 : 중첩 클러스터부
210 : 문서유사도 측정모듈 220 : 클러스터 형성모듈
300 : 클러스터 순위 산출부 310 : 클러스터 모듈
320 : 클러스터 검색 모듈 400 : 질의 확장부
500 : 피드백 처리부 600 : 출력부
700 : 제어부

Claims (10)

  1. 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 있어서,
    질의를 입력받는 입력수단을 포함하고, 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 웹 질의부(100);
    상기 웹 질의부를 통해 검색된 문서집합에 대해 문서 유사도를 측정하고, 최근접 이웃 클러스터링을 수행하여 중첩 클러스터들을 생성하는 중첩 클러스터부(200);
    상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들의 순위를 클러스터기반 언어모델(수학식6)에 의해 정하고, 클러스터 기반 질의 확률 언어모델을 추정하는 클러스터 순위 산출부(300);
    (수학식 6)
    Figure 112011011107411-pat00030
    (여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)
    상기 순위 산출부를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 상기 질의에 대한 언어모델의 확률 P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 질의 확장부(400);
    상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부로 피드백 입력하는 피드백 처리부(500); 및
    상기 웹 질의부, 중첩 클러스터부, 순위 산출부, 질의 확장부 및 피드백 처리부를 제어하는 제어부(700); 를 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
  2. 제 1 항에 있어서,
    상기 웹 질의부(100)는,
    문서 그 자체를 언어 모델로서, 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 문서검색 모듈(110); 및
    상기 문서검색 모듈로부터 순위화되어 생성된 텍스트의 열로써, 최대확률 추정을 이용하여 문서 언어모델을 추정하는 질의 확률 검색모듈(120);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
  3. 제 1 항에 있어서,
    상기 중첩 클러스터부(200)는,
    상기 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 문서 유사도 측정모듈(210); 및
    상기 문서 유사도 측정모듈에 의한 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 형성하는 클러스터 형성모듈(220);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
  4. 제 1 항에 있어서,
    상기 클러스터 순위 산출부(300)는,
    상기 중첩 클러스터를 순위화하는 클러스터 모듈(310); 및
    최대확률 추정을 이용하여 클러스터 기반 질의확률 언어모델을 추정하는 클 러스터 검색모듈(320);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
  5. 제 1 항에 있어서,
    상기 웹 질의부(100)를 통해 상기 질의 확장부(400)에 의해 선택된 질의 확장 어휘에 대한 검색결과를 출력하는 출력부(600);를 더 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
  6. 재샘플링 방법에 있어서,
    (a) 제어부(700)가 웹 질의부(100)를 통해 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 단계;
    (b) 상기 제어부가 상기 웹 질의부에 의해 검색된 문서집합에 대해서 중첩 클러스터부(200)를 통해 최근접 이웃 클러스터링을 하여 중첩 클러스터를 생성하는 단계;
    (c) 상기 제어부가 상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들을 클러스터 순위 산출부(300)를 통해 중첩 클러스트들의 순위를 클러스터기반 언어모델(수학식6)에 의해 산출하고 클러스터 기반 질의확률 언어모델을 추정하는 단계;
    (수학식 6)
    Figure 112011011107411-pat00031
    (여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)
    (d) 상기 제어부가 상기 클러스터 순위 산출부에 의해 최상위로 순위화된 클러스터를 질의 확장부(400)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 초기 질의에 따른 검색 어휘의 확률P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 단계; 및
    (e) 상기 제어부가 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 피드백 처리부(500)를 통해 상기 웹 질의부로 피드백 입력하여 웹 문서를 검색하도록 하는 단계; 를 포함하는 것을 특징으로 하는 재샘플링 방법.
  7. 제 6 항에 있어서,
    상기 제 (e) 단계 이후,
    (f) 상기 제어부가 상기 제 (e) 단계의 질의 확장 어휘에 대한 검색 결과를 출력하는 단계;
    (g) 상기 제어부가 상기 웹 질의부의 입력수단을 통해 재검색 명령신호의 수신여부를 판단하는 단계; 및
    (h) 상기 제 (g) 단계의 판단결과, 상기 제어부가 재검색 명령신호를 수신한 경우, 상기 피드백 처리부(500)로 제어신호를 보내어 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부(100)로 피드백 입력하고, 그 절차를 상기 제 (a) 단계로 이행하는 단계; 를 더 포함하는 것을 특징으로 하는 재샘플링 방법.
  8. 제 6 항에 있어서,
    상기 제 (a) 단계는,
    (a-1) 상기 제어부(700)가 문서검색 모듈(110)을 통해 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 단계; 및
    (a-2) 상기 제어부가 질의 확률 검색모듈(120)을 통해 최대확률 추정을 이용하여 문서 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
  9. 제 6 항에 있어서,
    상기 제 (b) 단계는,
    (b-1) 상기 제어부(700)가 문서 유사도 측정모듈(210)을 통해 검색된 문서집합들 사이의 유사도 계산을 위해 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 단계; 및
    (b-1) 상기 제어부가 클러스터 형성모듈(220)을 통해 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 생성하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
  10. 제 6 항에 있어서,
    상기 제 (c) 단계는,
    (c-1) 상기 제어부(700)가 클러스터 모듈(310)을 통해 중첩 클러스터의 멤버로 속한 모든 문서를 연결하는 단계;
    (c-2) 상기 제어부가 상기 클러스터 모듈(310)을 통해 클러스터의 순위를 산출하는 단계; 및
    (c-3) 상기 제어부가 클러스터 검색 모듈(320)을 통해 최대확률 추정을 이용 하여 클러스터 기반 질의확률 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
KR1020090015484A 2009-02-24 2009-02-24 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 KR101056412B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090015484A KR101056412B1 (ko) 2009-02-24 2009-02-24 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090015484A KR101056412B1 (ko) 2009-02-24 2009-02-24 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법

Publications (2)

Publication Number Publication Date
KR20100096564A KR20100096564A (ko) 2010-09-02
KR101056412B1 true KR101056412B1 (ko) 2011-08-11

Family

ID=43004073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090015484A KR101056412B1 (ko) 2009-02-24 2009-02-24 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법

Country Status (1)

Country Link
KR (1) KR101056412B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101356785B1 (ko) * 2012-05-09 2014-01-28 한국과학기술원 효율적인 토픽 마이닝을 위한 비동시적 샘플링 중단 방법
CN109063184B (zh) * 2018-08-24 2020-09-01 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
KR20210051423A (ko) * 2019-10-30 2021-05-10 삼성전자주식회사 사용자의 액티비티 정보를 제공하는 전자 장치와 이의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060002831A (ko) * 2003-03-21 2006-01-09 오버츄어 서비시즈, 인크. 인터랙티브 검색 쿼리 개선 시스템 및 방법
JP2006235716A (ja) 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
KR20070007001A (ko) * 2006-11-29 2007-01-12 김준홍 질의어 자동 추출을 이용한 검색 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060002831A (ko) * 2003-03-21 2006-01-09 오버츄어 서비시즈, 인크. 인터랙티브 검색 쿼리 개선 시스템 및 방법
JP2006235716A (ja) 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
KR20070007001A (ko) * 2006-11-29 2007-01-12 김준홍 질의어 자동 추출을 이용한 검색 방법 및 장치

Also Published As

Publication number Publication date
KR20100096564A (ko) 2010-09-02

Similar Documents

Publication Publication Date Title
CN101853272B (zh) 基于相关反馈和聚类的搜索引擎技术
Valcarce et al. Language models for collaborative filtering neighbourhoods
KR101056412B1 (ko) 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법
Balog et al. Category-based query modeling for entity search
Valcarce et al. Efficient pseudo-relevance feedback methods for collaborative filtering recommendation
Zheng et al. K2q: Generating natural language questions from keywords with user refinements
CN110413763B (zh) 搜索排序器的自动选择
Bellogín et al. Predicting the performance of recommender systems: an information theoretic approach
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
Cummins A study of retrieval models for long documents and queries in information retrieval
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
Prakash et al. Human aided text summarizer" saar" using reinforcement learning
Gueye et al. STRec: An Improved Graph-based Tag Recommender.
Bashir Estimating retrievability ranks of documents using document features
Chen Term suggestion with similarity measure based on semantic analysis techniques in query logs
Abbaci et al. A methodology for collection selection in heterogeneous contexts
Benkoussas et al. Cross-Document Search Engine For Book Recommendation.
Verberne et al. Author-topic profiles for academic search
Bordogna et al. Query disambiguation based on novelty and similarity user’s feedback
Bakhshavesh et al. A New Subject-based Document Retrieval from Digital Libraries Using Vector Space Model
Li et al. Research on a new topic crawler based on HITS algorithm and semantic fusion
Li et al. An improved weighted-removal sentence embedding based approach for service recommendation
Zheng et al. A learning approach to hierarchical search result diversification
Fukuda et al. Research Paper Search Using a Topic-Based Boolean Query Search and a General Query-Based Ranking Model
Lanevska Probabilistic ranking in the local search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140805

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150729

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee