KR101127901B1 - 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치 - Google Patents

핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치 Download PDF

Info

Publication number
KR101127901B1
KR101127901B1 KR1020100091381A KR20100091381A KR101127901B1 KR 101127901 B1 KR101127901 B1 KR 101127901B1 KR 1020100091381 A KR1020100091381 A KR 1020100091381A KR 20100091381 A KR20100091381 A KR 20100091381A KR 101127901 B1 KR101127901 B1 KR 101127901B1
Authority
KR
South Korea
Prior art keywords
query
core
document
cluster
documents
Prior art date
Application number
KR1020100091381A
Other languages
English (en)
Inventor
이경순
장계훈
Original Assignee
전북대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교산학협력단 filed Critical 전북대학교산학협력단
Priority to KR1020100091381A priority Critical patent/KR101127901B1/ko
Application granted granted Critical
Publication of KR101127901B1 publication Critical patent/KR101127901B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

본 발명은 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법에 관한 것으로서, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와; 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와; 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 한다. 본 발명에 따르면, 정보검색 성능을 향상시켜 원하는 정보를 가장 상위 페이지에서 확인할 수 있도록 함으로써 사용자가 적합한 문서를 빠르고 정확하게 검색할 수 있는 이점이 있다.

Description

핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치{A Method and Apparatus for Precision Improvement Based on Core Query Clusters and Term Proximity}
본 발명은 정보 검색에서의 정확율 향상에 관한 것으로서, 특히 상위 검색 결과 문서의 정확율을 향상시키기 위하여 핵심 클러스터와 단어 근접도를 이용하여 초기 검색 결과의 상위 문서를 재순위화는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치에 관한 것이다.
정보 검색에서 검색된 결과를 이용해서 성능을 개선시키는 연구로는 재순위화와 상위문서를 피드백하여 질의를 확장하는 잠정적 적합 피드백 기법이 있다. 최근에 정보검색에서 성능을 향상시키기 위한 연구로 길이가 긴 질의에서 핵심개념을 찾거나 질의에서 불필요한 어휘를 제거하여 질의의 핵심적인 의미는 간직한 채 간결하게 줄이는 연구가 성능 향상을 보이고 있다. 또한, 어휘 근접도를 이용한 문맥정보를 반영하여 성능을 향상시키는 정보검색 모델이 연구되고 있다.
관련된 기술은 질의 어휘 클러스터, 핵심 질의 선택 및 질의 어휘 변이에 따른 성능 변화, 어휘 근접도를 이용한 문맥 정보에 관한 연구가 있다.
질의 어휘 클러스터와 관련된 연구는 Sakai의 연구에서 질의 어휘 클러스터를 통해 샘플링 문서를 선택하고 잠정적 적합 피드백에 사용하여 성능을 향상시키는 알고리즘을 제안하였다. 초기 검색결과 상위에 순위화된 문서들은 비슷한 행태를 가지고 있다고 가정하고, 상위에 있는 문서를 피드백에 그대로 사용하면 비슷한 문서만을 가지고 피드백을 하기 때문에 효율적이지 못하다. 따라서 피드백 문서를 선택할 때 어떤 질의 어휘 클러스터 안에 문서의 개수가 임의의 개수가 넘으면 더 이상 그 단어조합이 발생한 문서가 나와도 클러스터에 포함시키지 않는 알고리즘을 제안함으로써 다양하고 새로운 문서 집합을 피드백에 사용한다.
핵심질의 선택에 관한 연구로는 Bendersky의 연구에서 길이가 긴 질의에서 핵심개념(key concepts)을 선택하는 알고리즘을 제안하였다. 길이가 긴 자연어 질의에서 명사만을 추출하고 그 단어의 빈도, 역문서 빈도, 첫 글자가 대문자인지 여부 등을 통해 중요도를 결정하여 그 단어가 핵심질의인지 아닌지를 결정한다. Kumaran의 연구는 길이가 긴 질의에서 부분 질의(sub-query)를 찾아내는 알고리즘을 제안하였다. 질의에서 발생할 수 있는 모든 부분질의를 고려하여 가장 좋은 부분질의를 찾아낸다.
질의 변이에 따른 성능변화 연구는 질의어휘들 중에서 하나는 불필요한 어휘일 것이라 가정하고 질의 어휘 중 하나의 어휘를 제거해 만든 질의 변이(Query variant)를 이용하여 검색결과를 샘플링하고 피드백에 사용하는 방법을 제안하였다.
어휘 근접도를 이용한 문맥정보에 관한 연구는 질의 어휘 위치기반 언어모델에서 질의어휘들 사이의 거리를 코사인, 가우시안 등의 함수 그래프를 이용해서 표현하고 그 중요도를 이용해 성능을 향상시켰다. 문서에서 하나의 질의 어휘 주변에 다른 질의 어휘가 발생하면 두 어휘의 그래프가 겹치게 되어 그 문서는 두 어휘의 중요도를 모두 받게 된다. 두 질의 어휘가 가까울수록 더 높은 중요도를 얻게 된다.
본 발명은 사용자가 원하는 정보를 검색할 때 사용하는 질의가 길 경우 긴 질의에서 핵심 질의를 찾고, 각각의 문서에서 핵심 질의 주변에 발생한 단어들과의 근접도를 이용하여 초기 검색 결과의 상위 문서를 재순위화함으로써 정보검색 성능을 향상시킬 수 있는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치를 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법은, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와; 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와; 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 한다.
여기서, 다음의 식에 의해 공기빈도 가중치(CoreQuery(qi,qj))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택할 수 있다.
Figure 112010060562149-pat00001
(여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(qi,qj)는 qi,qj의 문서에서 발생한 공기 빈도수이고, tfidf(qi)는 단어qi의 중요도이다.)
또한, 다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택할 수 있다.
Figure 112010060562149-pat00002
(여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다.)
또한, 다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화할 수 있다.
Figure 112010060562149-pat00003
(여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)
한편, 상기와 같은 목적을 달성하기 위하여 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치는, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 문서 클러스터링 모듈과; 상기 문서 클러스터링 모듈에서 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 핵심 클러스터 선택 모듈과; 상기 핵심 클러스터 선택 모듈에서 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 문서 재순위화 모듈을 포함하여 이루어진 것을 특징으로 한다.
여기서, 다음의 식에 의해 공기빈도 가중치(CoreQuery(qi,qj))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택할 수 있다.
Figure 112010060562149-pat00004
(여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(qi,qj)는 qi,qj의 문서에서 발생한 공기 빈도수이고, tfidf(qi)는 단어qi의 중요도이다.)
또한, 다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택할 수 있다.
Figure 112010060562149-pat00005
(여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )
또한, 다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화할 수 있다.
Figure 112010060562149-pat00006
(여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)
본 발명에 따르면, 정보검색 성능을 향상시켜 원하는 정보를 가장 상위 페이지에서 확인할 수 있도록 함으로써 사용자가 적합한 문서를 빠르고 정확하게 검색할 수 있는 이점이 있다. 구체적으로는, 길이가 긴 질의에서 핵심 질의를 찾아내기 위해 상위에 검색된 문서들을 같은 질의 어휘 조합이 나타남에 따라 클러스터링하고, 어휘 조합들 사이에 근접도를 이용해 핵심 질의 조합을 찾아내고 그에 따른 핵심 클러스터를 선택하여 정보검색 성능을 향상시킬 수 있다. 또한, 질의 어휘들의 독립적인 자질을 이용해서 핵심 질의를 선택하는 것보다 문서 안에서 두 질의 어휘 사이의 거리를 적용함으로써 근접도가 높은 두 질의를 핵심 질의로 선택하여 정보검색 성능을 향상시킬 수 있다. 또한, 문서 안에서 질의 어휘 사이의 거리 뿐만 아니라 핵심 질의 주변에 발생한 단어의 빈도까지 확장하여 적용함으로써 정보검색 성능을 향상시킬 수 있다.
도 1은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법을 설명하는 흐름도.
도 2는 본 발명에 따라 핵심 클러스터 선택 방법을 설명하는 개념도.
도 3은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치를 설명하는 구성도.
도 4는 질의 어휘가 3개 이상인 각 질의에서 언어모델과 핵심 클러스터의 정확율 비교 그래프.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법을 설명하는 흐름도, 도 2는 본 발명에 따라 핵심 클러스터 선택 방법을 설명하는 개념도, 도 3은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치를 설명하는 구성도, 도 4는 질의 어휘가 3개 이상인 각 질의에서 언어모델과 핵심 클러스터의 정확율 비교 그래프이다.
도 1의 정확율 향상 방법을 설명하면서 도 3의 구성요소에 대해서 함께 설명하기로 한다.
먼저, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 문서 클러스터링 모듈(110)에서 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링한다(S110),(S120). 즉, 언어모델에 의한 초기 검색 결과를 상위 문서에 대해 발생한 질의 어휘 조합을 기반으로 문서를 클러스터링하는 것이다.
그리고, 핵심 클러스터 선택 모듈(120)에서 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택한다(S130),(S140). 즉, 질의 어휘 조합 클러스터에 대해 질의 어휘 사이의 근접도를 이용하여 핵심 클러스터를 선택하는 것이다.
마지막으로, 문서 재순위화 모듈(130)에서 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화한다(S150),(S160). 즉, 질의의 문맥 정보를 이용하여 핵심 클러스터의 문서를 재순위화하는 것이다.
본 발명의 특징을 명확히 나타낼 수 있도록 부연하여 설명하기로 한다.
사용자가 정보를 검색할 때 사용하는 질의는 사용자의 의도에 따라 하나의 초점에 맞추어져 있다. 즉 사용자는 한가지 개념에 대한 정보를 찾기를 원한다. 질의 어휘들의 의미는 서로 연관되어 있지만 각 어휘들의 개념은 다르다. 길이가 긴 질의에는 여러 가지 개념의 단어들이 포함되어 있지만 2~3개의 단어만 사용자가 원하는 핵심 개념을 포함하고 있다. 또한 같은 질의 어휘를 포함하는 문서들은 유사한 정보를 포함하며, 문서 안에서 출현한 단어들은 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간에 의미적으로 연관되어 있다.
본 발명에서 가정 및 접근방법은 다음과 같다.
1. 같은 질의 어휘가 포함된 문서들의 클러스터 즉, 질의 어휘 조합 클러스터는 문서들의 행태가 비슷하다는 가정하에, 초기 검색된 결과에 대해 각 문서에서 발생한 질의 어휘 조합을 기반으로 클러스터링한다.
2. 길이가 긴 질의에는 두 개 또는 세 개의 어휘가 핵심개념을 나타내고 있으며, 두 질의 어휘의 근접도가 높으면 두 어휘는 핵심개념을 나타낸다는 가정을 기반으로 하여 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택한다. 질의 어휘 조합 클러스터에서 핵심 질의를 포함하는 클러스터를 핵심 질의 클러스터(core query cluster)로 선택하고, 핵심 질의를 포함하지 않는 클러스터의 문서는 부적합 문서라고 보고 필터링한다.
3. 문서에서 핵심 질의와 근접해서 나타내는 어휘들인 질의 문맥(context)은 핵심 질의와 의미적으로 연관성이 높다는 가정하에, 핵심 클러스터 안에 있는 문서들에서 질의의 문맥 어휘를 찾아내고 이를 이용하여 핵심 클러스터의 문서들을 재순위화한다.
이제, 보다 구체적으로 본 발명에 대하여 설명하기로 한다.
1. 핵심 클러스터 선택 방법
핵심 클러스터 선택 방법은 본 발명의 첫 번째 단계로서 긴 질의에서 핵심 질의를 찾고 초기 검색 결과에서 일차적으로 부적합한 문서를 필터링하기 위해 사용되는 방법이다. 초기 검색 결과에서 상위 n개의 문서를 각각의 문서에서 발생한 질의 어휘를 기반으로 클러스터링하고 질의의 위치정보를 이용하여 핵심 질의를 찾는다. 핵심 질의를 포함하는 핵심 클러스터를 적합문서 후보집합(R_Pool)에 핵심 질의를 포함하지 않는 클러스터를 부적합 문서 후보집합(NR_Pool)에 나눈다. 예를 들어, r개의 질의 어휘를 가진 질의는 최대 2r-1개의 클러스터가 생성될 수 있다. 도 2에서 질의 어휘가 3개인 질의에서 생성될 수 있는 모든 클러스터를 보여준다. 질의 어휘가 3개이면 23-1 총 7개의 클러스터가 생성된다. 3개의 질의 어휘 q1, q2, q3중 q1, q2를 핵심 질의로 선택했을 때 q1, q2를 포함하는 두 개의 클러스터가 핵심 클러스터로 선택된다. 사람 평가자가 직접 핵심 질의를 선택하여 찾은 핵심 클러스터와 본 발명의 방법으로 찾은 핵심 클러스터 안에 있는 적합문서의 포함율을 비교함으로써 핵심 클러스터의 유효성을 검증한다.
1.1 질의 어휘 조합을 기반으로 한 클러스터링
질의 어휘 클러스터는 같은 질의 조합이 발생한 문서들의 클러스터이다. 같은 질의 조합을 공유하는 문서들은 행태가 비슷하다. 따라서 핵심 질의 조합을 포함하고 있는 클러스터의 문서들은 적합한 문서일 가능성이 높다. 아래의 표 1은 실제 질의를 통해 검색된 결과 중 상위 300개의 문서에 대한 질의 어휘 클러스터를 보여준다. “fiber optics applications” 3개의 질의 어휘를 가진 질의는 총 23-1 개 즉 7개의 클러스터가 발생할 수 있다. 예를 들어, 클러스터 C1은 300개의 문서 중 “fiber”와 ”optics”그리고 “applications” 세 단어를 모두 포함하고 있는 문서들로, 이 클러스터 안에는 19개 문서 중 4개가 적합문서이다. C2는 “fiber”와 “optics”를 포함하는 문서들의 클러스터이고, 158개의 문서 중 36개가 적합문서이다. 실험집합에서 총 7개의 클러스터의 전체 적합문서의 수는 40개이다.
만약 “fiber optics”를 핵심 질의로 선택한다면 “fiber optics”를 포함한 C1, C2 두 개의 클러스터가 적합문서 후보집합(R_Pool)에 들어가게 된다. 그렇게 되면 R-Pool에는 총 300개 문서 중 177개의 문서가 들어가게 되고 40개의 적합문서가 모두 들어가게 된다. 초기 검색 결과에서 상위 300개 문서의 정확율은 0.1333(40/300)이 되지만 핵심 질의를 통해 찾은 R_Pool의 정확율은 0.2260(40/177)이 된다.
Figure 112010060562149-pat00007
이와 같이 “fiber optics”는 전체 질의에서 핵심개념이라 할 수 있으나 “applications”는 불필요한 단어라고 할 수 있다. 또한 “fiber”와 “optics”는 각 어휘만으로는 의미를 전달하기는 어렵다는 것을 알 수 있다. 핵심 질의만 잘 찾게 되면 R_Pool에 거의 모든 적합문서를 포함할 수 있다.
아래의 표 2는 질의어휘가 3개 이상인 TREC AP 학습 질의 73개(실험집합에 대해서는 후술하는 실험 및 평가 참조)에 대해 사람이 각 질의에서 직접 핵심질의를 선택한 적합문서 후보집합(R_Pool)과 부적합문서 후보집합(NR_Pool)의 포함율과 누락율을 보여준다.
Figure 112010060562149-pat00008
Figure 112010060562149-pat00009
여기서 Q#n은 n개의 어휘를 가진 질의를 의미하며, Tot_rel은 각 질의에 대한 초기 검색 결과 상위 300개 안에 모든 적합문서의 수, R_rel은 R_Pool에 포함된 적합문서의 개수, R_doc는 R_Pool에 포함된 전체 문서의 개수, NR_rel은 NR_Pool에 포함된 적합문서의 개수, NR_doc는 NR_Pool에 포함된 모든 문서의 개수를 의미한다.
표 2에 나타난 바와 같이, 질의어휘가 6개 이상인 질의를 제외한 모든 질의에서 90%이상의 포함율을 보이고 있다. 이것을 통해 질의어휘 클러스터가 유효함을 알 수 있다.
1.2 단어 근접도를 이용한 핵심 클러스터 선택 방법
핵심 질의를 포함하고 있는 모든 클러스터를 핵심 클러스터라고 정의한다. 핵심 클러스터를 찾기 위해 먼저 질의에서 핵심 질의를 찾아야 한다. 질의 어휘들 사이에는 의미적인 관계를 갖고 있다. 임의의 두 질의 어휘가 서로 거리가 가깝다거나 일정한 거리(window size)안에 자주 발생하면 두 단어는 서로 의미적인 연관도가 높은 핵심 질의라고 할 수 있다. 공기 빈도(co-occurrence)란 한 문서에서 두 개의 단어가 일정한 거리 안에서 연속으로 발생한 빈도를 의미한다. 공기 빈도는 질의 어휘가 1개 발생한 클러스터를 제외한 모든 클러스터에서 계산한다. 또한 클러스터 안에 모든 질의 어휘 조합을 고려한다. 예를 들어, q1, q2, q3 세 개의 질의 어휘를 포함한 클러스터는 (q1, q2), (q1, q3), (q2, q3) 세 가지 질의 어휘 조합의 공기 빈도를 구한다.
각 문서에서 모든 어휘 조합 사이에 공기 빈도를 구하고 질의 어휘가 2개 이상 발생한 모든 클러스터의 문서에서 더한다. 하지만, 문서에서 질의어휘 사이의 거리만 가깝다고 해서 핵심 질의라고 하긴 어렵다. 문서에서 어휘의 중요도를 반영하지 않으면 거리만 가까우면 모두 핵심 질의로 선택되겠지만 어휘의 중요도를 반영하면 거리가 가까운 질의어휘가 문서에서 얼마나 중요한지 나타낼 수 있다.
Figure 112010060562149-pat00010
여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서집합이다. cooc(qi,qj)는 qi,qj의 문서에서 발생한 공기 빈도수이다. tfidf(qi)는 단어qi의 중요도이다.
수학식 1을 통해 공기빈도 가중치 CoreQuery(qi,qj)가 가장 높은 한 쌍의 단어 조합이 핵심 질의로 선택된다. 핵심 질의를 포함한 모든 클러스터를 핵심 클러스터라 하고 모든 핵심 클러스터는 적합문서 후보집합(R_Pool)에 들어가게 된다.
2. 핵심 질의와 단어 근접도를 이용한 핵심 클러스터에서의 재순위화
핵심 질의를 포함한다고 해서 모두 적합문서가 아니다. 핵심 클러스터 안에 있는 문서들은 언어모델(Query-Likelihood Language Model)로 순위화 되어 있으며, 부적합 문서도 포함되어 있다. 앞에서 초기 검색 결과에서 핵심 클러스터를 찾아내면서 부적합 문서를 필터링했다면, 여기서는 핵심 클러스터 안에 있는 문서들을 핵심 질의와의 문맥정보를 이용해 문서의 중요도를 재조정함으로써 상위에 검색된 문서의 정확율을 높일 수 있다. 문서 안에서 출현한 단어들은 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간에 의미적으로 연관되어 있다. 또한 문서에서 핵심 질의와 일정한 거리를 두고 나타난 단어들은 의미적으로 밀접하게 연관되어 있다. 이를 이용해 핵심 질의에 대한 각 단어들의 근접도를 계산하여 질의의 문맥 어휘(context term)를 찾아낸다. 핵심 클러스터 안에 있는 문서들에 대해 문맥 어휘를 이용하여 중요도를 계산하고 재순위화한다.
2.1 단어 근접도를 이용한 문맥 어휘 선택 방법
핵심 질의 주변에 나타난 단어는 핵심 질의와 의미적으로 연관성이 있다. 적합문서에서 핵심질의 주변에 빈번하게 나타난 단어가 다른 문서에도 많이 나타난다면 그 문서도 적합문서일 가능성이 높다. 핵심 질의와 가까운 거리에서 빈번하게 발생하는 어휘를 질의의 문맥 어휘라 한다. 핵심 클러스터 안에 있는 문서 중 상위에 순위화된 문서를 적합 문서라 가정하고, 상위에 있는 각 문서들에서 핵심 질의 주변에 발생하는 어휘들의 빈도를 계산한다.
Figure 112010060562149-pat00011
여기서, t는 문서에서 핵심질의와 일정한 거리(d2; 학습을 통해 가장 좋은 것으로 설정) 안에 발생한 단어이고, proxTF(t)는 t의 빈도이다. Context(t)는 proxTF(t) 값을 핵심 클러스터의 상위문서에서 더한 값이다. D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. 핵심 클러스터의 모든 문서가 적합문서라고 할 수 없기 때문에 문맥어휘를 구하기 위해 핵심 클러스터의 상위 |Rdocs|개로 학습한다. 질의의 문맥어휘는 Context(t)값이 높은 순서대로 e개를 선택한다.
2.2 핵심 클러스터 안에 있는 문서의 문맥 어휘를 이용한 재순위화
핵심 클러스터 안에 포함된 문서는 초기 검색 중요도로 순위화되어 있다. 여기서는 핵심 클러스터에 포함된 문서들의 초기 검색 중요도를 재조정함으로써 정확율을 향상시킨다. 문맥 어휘는 핵심 질의 주변에 빈번하게 발생한 어휘로, 질의와 의미적으로 연관성이 있다. 따라서, 문맥 어휘는 초기 질의의 확장된 질의라고 볼 수 있다. 핵심 클러스터의 문서는 적합모델(Relevance Model)을 이용해 재순위화한다. 적합모델은 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 문서의 가중치를 재조정한다.
Figure 112010060562149-pat00012
여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치, P(Q|D)는 언어모델에 의한 초기 검색 결과 값이며, Q’은 수학식 2에서 결정한 확장 질의 어휘이다. 따라서, P(Q’|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.
수학식 3을 통해 핵심 클러스터 안에 있는 문서들을 재순위화한다. 핵심 클러스터에 속하지 않는 문서들은 언어모델에 의한 초기 검색 결과값 순서대로 핵심 클러스터에 포함된 문서들 다음에 순위화된다.
한편, 지금까지 설명한 본 발명의 정확율 향상 방법 및 장치는 실제로 컴퓨터 프로그램에 의해 구현될 수 있고, 이 프로그램은 컴퓨터 기록 매체에 저장될 수 있다. 컴퓨터 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, ROM, RAM, CD, DVD-ROM, 자기테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송의 형태로 구현되는 것도 여기에 포함된다. 즉, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
[실험 및 평가]
실험 문서 집합으로 뉴스기사 집합인 TREC AP(88-90)를 사용하였다. 질의 집합은 파라미터 추정을 위해 학습질의를 이용하였고, 테스트 질의에 대해서 평가하였다. 실험 데이터에 대한 정보는 표 3에서 보여준다. 언어모델(LM)에 의한 초기 검색 결과의 색인과 검색은 인드리(Indri) 검색엔진을 사용하였다. 언어모델의 디리슈레 스무딩(Dirichlet smoothing) 파라미터 μ는(μ∈{500, 1000, 1500, 2000,…, 5000}) 학습을 통해 2000으로 설정하였다. 질의 어휘 클러스터는 상위 300개 문서에 대해 클러스터링하였다. 핵심 질의를 선택하기 위한 공기 빈도 계산에서 단어 사이의 거리는 실험(d1∈{5, 10, 15, 20, 30, 50, 75, 100})을 통해 학습 질의에 대해 가장 좋은 성능을 보인 15로 설정하였다. 문맥어휘를 찾기 위해 사용한 핵심클러스터 문서의 수(|Rdoc|∈{5, 10, 25, 50, 75, 100})는 가장 좋은 성능을 보인 10으로 설정하였다. 문맥어휘를 찾기 위한 핵심질의와 단어 사이의 거리(d2∈{5, 10, 15, 25, 50, 75, 100})는 학습을 통해 50으로 설정하였다. 문맥어휘를 이용해 확장된 어휘 개수(e∈{5, 10, 25, 30, 35, 40, 45, 50, 75, 100})는 가장 좋은 성능을 보인 45개로 설정했다. 표 3은 TREC 테스트 컬렉션이다.
Figure 112010060562149-pat00013
핵심 클러스터 선택 실험 결과
핵심 클러스터 선택 실험은 초기 검색 결과에서 사람 평가자가 직접 확인하고 선택한 핵심 클러스터와 제안한 방법으로 선택한 핵심 클러스터의 포함율을 비교하여 평가한다. 표 4는 사람이 찾은 핵심 클러스터와 제안된 방법을 통해 선택한 핵심 클러스터의 결과이다.
Figure 112010060562149-pat00014
전체적으로 사람이 직접 선택한 것과 본 발명에 따라 제안된 방법의 포함율이 비슷한 것을 볼 수 있다. 질의어휘 개수가 7개 이상인 질의에서는 클러스터의 개수가 많기 때문에 조금 떨어지는 경향이 있지만 전체적으로 적합문서 포함율은 83.5%정도로 높은 포함율을 보인다. 질의어휘의 개수가 9개 이상인 질의는 클러스터의 개수가 많아서 핵심클러스터를 선택하기가 어렵기 때문에 결과에서 배제했다.
도 4는 AP문서 집합에 대해 질의어휘가 3개 이상인 각 질의에서 언어모델을 통한 검색결과 상위 300개 문서와 핵심클러스터의 문서(각 질의 마다 평균 219개의 문서를 포함한다.)의 정확율을 보여준다. 도 4에서 LM은 언어모델을 core는 핵심 클러스터를 나타낸다. 핵심 클러스터가 언어모델보다 전체적으로 정확율이 높음을 확인 할 수 있다. 결과를 통해 공기빈도를 이용해 선택한 핵심 클러스터는 유효함을 알 수 있다.
핵심 클러스터의 재순위화 실험결과
핵심 클러스터의 문서들을 문맥 어휘를 이용해 재순위화한 결과와 초기 검색 결과 상위에 순위화된 문서들의 정확율을 비교하여 평가한다.
Figure 112010060562149-pat00015
표 5는 언어모델의 상위에 검색된 문서와 핵심클러스터의 상위에 검색된 문서의 정확율을 보여준다. P@n은 상위 n개의 문서에서의 정확율을 나타낸다. 언어모델은 인드리 검색엔진을 통한 초기 검색 결과이다. 실험 결과 본 발명에 따라 제안된 방법이 언어모델보다 상위 100개의 문서(P@100)에서 11.2% 향상되었고, 50개의 문서(P@50)에서 11.1% 성능이 향상되었다.
한편, 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치를 한정된 실시예에 따라 설명하였지만, 본 발명의 범위는 특정 실시예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진자에게 자명한 범위내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110 : 문서 클러스터 모듈 120 : 핵심 클러스터 선택 모듈
130 : 문서 재순위화 모듈

Claims (9)

  1. 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와;
    상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와;
    상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.
  2. 청구항 1에 있어서,
    다음의 식에 의해 공기빈도 가중치(CoreQuery(qi,qj))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.
    Figure 112012000169968-pat00016

    (여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(qi,qj)는 qi,qj의 문서에서 발생한 공기 빈도수이고, tfidf(qi)는 단어qi의 중요도이다.)
  3. 청구항 1에 있어서,
    다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.
    Figure 112010060562149-pat00017

    (여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )
  4. 청구항 3에 있어서,
    다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.
    Figure 112010060562149-pat00018

    (여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)
  5. 청구항 1 내지 4 중 어느 한 항의 방법을 수행할 수 있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체.
  6. 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 문서 클러스터링 모듈(110)과;
    상기 문서 클러스터링 모듈(110)에서 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 핵심 클러스터 선택 모듈(120)과;
    상기 핵심 클러스터 선택 모듈(120)에서 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 문서 재순위화 모듈(130)을 포함하여 이루어진 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.
  7. 청구항 6에 있어서,
    다음의 식에 의해 공기빈도 가중치(CoreQuery(qi,qj))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.
    Figure 112012000169968-pat00019

    (여기서 D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(qi,qj)는 qi,qj의 문서에서 발생한 공기 빈도수이고, tfidf(qi)는 단어qi의 중요도이다.)
  8. 청구항 6에 있어서,
    다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.
    Figure 112010060562149-pat00020

    (여기서 t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )
  9. 청구항 8에 있어서,
    다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.
    Figure 112010060562149-pat00021

    (여기서 D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)
KR1020100091381A 2010-09-17 2010-09-17 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치 KR101127901B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100091381A KR101127901B1 (ko) 2010-09-17 2010-09-17 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100091381A KR101127901B1 (ko) 2010-09-17 2010-09-17 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101127901B1 true KR101127901B1 (ko) 2012-03-21

Family

ID=46142430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100091381A KR101127901B1 (ko) 2010-09-17 2010-09-17 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101127901B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112223A1 (ko) * 2017-12-08 2019-06-13 빈닷컴 주식회사 전자 문서 검색 방법 및 그 서버

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
이경순 외 2명, A Cluster-Based Resampling Method for Pseudo-Relevance Feedback, Proceeding of the 31st Annual International ACM SIGIR Conference(SIGIR2008), 235-242쪽, 2008년 7월
이경순 외 2명, 문서 클러스터를 이용한 재순위화 모델, 제10회 한글 및 한국어 정보처리 학술대회, 81-87쪽, 1998년
장계훈 외 1명, 핵심질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법, 정보처리학회논문지 v.17B no.5, 399-404쪽, 2010년 10월

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112223A1 (ko) * 2017-12-08 2019-06-13 빈닷컴 주식회사 전자 문서 검색 방법 및 그 서버

Similar Documents

Publication Publication Date Title
Zheng et al. A survey of faceted search
RU2439686C2 (ru) Аннотация посредством поиска
Li et al. Ir-tree: An efficient index for geographic document search
US7769751B1 (en) Method and apparatus for classifying documents based on user inputs
Chirita et al. Summarizing local context to personalize global web search
US20170083553A1 (en) Tiering of posting lists in search engine index
Gollub et al. From keywords to keyqueries: Content descriptors for the web
Kaczmarek Interactive query expansion with the use of clustering-by-directions algorithm
US7979452B2 (en) System and method for retrieving task information using task-based semantic indexes
Mass et al. Language models for keyword search over data graphs
Singla et al. A novel approach for document ranking in digital libraries using extractive summarization
Deshmukh et al. A literature survey on latent semantic indexing
KR101127901B1 (ko) 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치
Ghanbarpour et al. An attribute-specific ranking method based on language models for keyword search over graphs
Huang et al. Speech indexing using semantic context inference
WO2008113974A1 (en) Organising and storing documents
Dang et al. Beyond bag‐of‐words: Bigram‐enhanced context‐dependent term weights
Garcia Search engine optimisation using past queries
Anastasiu et al. A novel two-box search paradigm for query disambiguation
Omri Effects of terms recognition mistakes on requests processing for interactive information retrieval
Zhang et al. A knowledge base approach to cross-lingual keyword query interpretation
Boutari et al. Evaluating Term Concept Association Mesaures for Short Text Expansion: Two Case Studies of Classification and Clustering.
Gavankar et al. Explicit query interpretation and diversification for context-driven concept search across ontologies
Friedrich et al. Utilizing query facets for search result navigation
Verberne et al. Author-topic profiles for academic search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150316

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160225

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee