KR101127901B1

KR101127901B1 - 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치

Info

Publication number: KR101127901B1
Application number: KR1020100091381A
Authority: KR
Inventors: 이경순; 장계훈
Original assignee: 전북대학교산학협력단
Priority date: 2010-09-17
Filing date: 2010-09-17
Publication date: 2012-03-21

Abstract

본 발명은 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법에 관한 것으로서, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와; 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와; 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 한다. 본 발명에 따르면, 정보검색 성능을 향상시켜 원하는 정보를 가장 상위 페이지에서 확인할 수 있도록 함으로써 사용자가 적합한 문서를 빠르고 정확하게 검색할 수 있는 이점이 있다.

Description

핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치{A Method and Apparatus for Precision Improvement Based on Core Query Clusters and Term Proximity}

본 발명은 정보 검색에서의 정확율 향상에 관한 것으로서, 특히 상위 검색 결과 문서의 정확율을 향상시키기 위하여 핵심 클러스터와 단어 근접도를 이용하여 초기 검색 결과의 상위 문서를 재순위화는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치에 관한 것이다.

정보 검색에서 검색된 결과를 이용해서 성능을 개선시키는 연구로는 재순위화와 상위문서를 피드백하여 질의를 확장하는 잠정적 적합 피드백 기법이 있다. 최근에 정보검색에서 성능을 향상시키기 위한 연구로 길이가 긴 질의에서 핵심개념을 찾거나 질의에서 불필요한 어휘를 제거하여 질의의 핵심적인 의미는 간직한 채 간결하게 줄이는 연구가 성능 향상을 보이고 있다. 또한, 어휘 근접도를 이용한 문맥정보를 반영하여 성능을 향상시키는 정보검색 모델이 연구되고 있다.

관련된 기술은 질의 어휘 클러스터, 핵심 질의 선택 및 질의 어휘 변이에 따른 성능 변화, 어휘 근접도를 이용한 문맥 정보에 관한 연구가 있다.

질의 어휘 클러스터와 관련된 연구는 Sakai의 연구에서 질의 어휘 클러스터를 통해 샘플링 문서를 선택하고 잠정적 적합 피드백에 사용하여 성능을 향상시키는 알고리즘을 제안하였다. 초기 검색결과 상위에 순위화된 문서들은 비슷한 행태를 가지고 있다고 가정하고, 상위에 있는 문서를 피드백에 그대로 사용하면 비슷한 문서만을 가지고 피드백을 하기 때문에 효율적이지 못하다. 따라서 피드백 문서를 선택할 때 어떤 질의 어휘 클러스터 안에 문서의 개수가 임의의 개수가 넘으면 더 이상 그 단어조합이 발생한 문서가 나와도 클러스터에 포함시키지 않는 알고리즘을 제안함으로써 다양하고 새로운 문서 집합을 피드백에 사용한다.

핵심질의 선택에 관한 연구로는 Bendersky의 연구에서 길이가 긴 질의에서 핵심개념(key concepts)을 선택하는 알고리즘을 제안하였다. 길이가 긴 자연어 질의에서 명사만을 추출하고 그 단어의 빈도, 역문서 빈도, 첫 글자가 대문자인지 여부 등을 통해 중요도를 결정하여 그 단어가 핵심질의인지 아닌지를 결정한다. Kumaran의 연구는 길이가 긴 질의에서 부분 질의(sub-query)를 찾아내는 알고리즘을 제안하였다. 질의에서 발생할 수 있는 모든 부분질의를 고려하여 가장 좋은 부분질의를 찾아낸다.

질의 변이에 따른 성능변화 연구는 질의어휘들 중에서 하나는 불필요한 어휘일 것이라 가정하고 질의 어휘 중 하나의 어휘를 제거해 만든 질의 변이(Query variant)를 이용하여 검색결과를 샘플링하고 피드백에 사용하는 방법을 제안하였다.

어휘 근접도를 이용한 문맥정보에 관한 연구는 질의 어휘 위치기반 언어모델에서 질의어휘들 사이의 거리를 코사인, 가우시안 등의 함수 그래프를 이용해서 표현하고 그 중요도를 이용해 성능을 향상시켰다. 문서에서 하나의 질의 어휘 주변에 다른 질의 어휘가 발생하면 두 어휘의 그래프가 겹치게 되어 그 문서는 두 어휘의 중요도를 모두 받게 된다. 두 질의 어휘가 가까울수록 더 높은 중요도를 얻게 된다.

본 발명은 사용자가 원하는 정보를 검색할 때 사용하는 질의가 길 경우 긴 질의에서 핵심 질의를 찾고, 각각의 문서에서 핵심 질의 주변에 발생한 단어들과의 근접도를 이용하여 초기 검색 결과의 상위 문서를 재순위화함으로써 정보검색 성능을 향상시킬 수 있는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치를 제공하는데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법은, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와; 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와; 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 한다.

여기서, 다음의 식에 의해 공기빈도 가중치(CoreQuery(q_i,q_j))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택할 수 있다.

(여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(q_i,q_j)는 q_i,q_j의 문서에서 발생한 공기 빈도수이고, tfidf(q_i)는 단어q_i의 중요도이다.)

또한, 다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택할 수 있다.

(여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다.)

또한, 다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화할 수 있다.

(여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)

한편, 상기와 같은 목적을 달성하기 위하여 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치는, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 문서 클러스터링 모듈과; 상기 문서 클러스터링 모듈에서 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 핵심 클러스터 선택 모듈과; 상기 핵심 클러스터 선택 모듈에서 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 문서 재순위화 모듈을 포함하여 이루어진 것을 특징으로 한다.

(여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )

본 발명에 따르면, 정보검색 성능을 향상시켜 원하는 정보를 가장 상위 페이지에서 확인할 수 있도록 함으로써 사용자가 적합한 문서를 빠르고 정확하게 검색할 수 있는 이점이 있다. 구체적으로는, 길이가 긴 질의에서 핵심 질의를 찾아내기 위해 상위에 검색된 문서들을 같은 질의 어휘 조합이 나타남에 따라 클러스터링하고, 어휘 조합들 사이에 근접도를 이용해 핵심 질의 조합을 찾아내고 그에 따른 핵심 클러스터를 선택하여 정보검색 성능을 향상시킬 수 있다. 또한, 질의 어휘들의 독립적인 자질을 이용해서 핵심 질의를 선택하는 것보다 문서 안에서 두 질의 어휘 사이의 거리를 적용함으로써 근접도가 높은 두 질의를 핵심 질의로 선택하여 정보검색 성능을 향상시킬 수 있다. 또한, 문서 안에서 질의 어휘 사이의 거리 뿐만 아니라 핵심 질의 주변에 발생한 단어의 빈도까지 확장하여 적용함으로써 정보검색 성능을 향상시킬 수 있다.

도 1은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법을 설명하는 흐름도.
도 2는 본 발명에 따라 핵심 클러스터 선택 방법을 설명하는 개념도.
도 3은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치를 설명하는 구성도.
도 4는 질의 어휘가 3개 이상인 각 질의에서 언어모델과 핵심 클러스터의 정확율 비교 그래프.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

도 1은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법을 설명하는 흐름도, 도 2는 본 발명에 따라 핵심 클러스터 선택 방법을 설명하는 개념도, 도 3은 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치를 설명하는 구성도, 도 4는 질의 어휘가 3개 이상인 각 질의에서 언어모델과 핵심 클러스터의 정확율 비교 그래프이다.

도 1의 정확율 향상 방법을 설명하면서 도 3의 구성요소에 대해서 함께 설명하기로 한다.

먼저, 사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 문서 클러스터링 모듈(110)에서 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링한다(S110),(S120). 즉, 언어모델에 의한 초기 검색 결과를 상위 문서에 대해 발생한 질의 어휘 조합을 기반으로 문서를 클러스터링하는 것이다.

그리고, 핵심 클러스터 선택 모듈(120)에서 상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택한다(S130),(S140). 즉, 질의 어휘 조합 클러스터에 대해 질의 어휘 사이의 근접도를 이용하여 핵심 클러스터를 선택하는 것이다.

마지막으로, 문서 재순위화 모듈(130)에서 상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화한다(S150),(S160). 즉, 질의의 문맥 정보를 이용하여 핵심 클러스터의 문서를 재순위화하는 것이다.

본 발명의 특징을 명확히 나타낼 수 있도록 부연하여 설명하기로 한다.

사용자가 정보를 검색할 때 사용하는 질의는 사용자의 의도에 따라 하나의 초점에 맞추어져 있다. 즉 사용자는 한가지 개념에 대한 정보를 찾기를 원한다. 질의 어휘들의 의미는 서로 연관되어 있지만 각 어휘들의 개념은 다르다. 길이가 긴 질의에는 여러 가지 개념의 단어들이 포함되어 있지만 2~3개의 단어만 사용자가 원하는 핵심 개념을 포함하고 있다. 또한 같은 질의 어휘를 포함하는 문서들은 유사한 정보를 포함하며, 문서 안에서 출현한 단어들은 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간에 의미적으로 연관되어 있다.

본 발명에서 가정 및 접근방법은 다음과 같다.

1. 같은 질의 어휘가 포함된 문서들의 클러스터 즉, 질의 어휘 조합 클러스터는 문서들의 행태가 비슷하다는 가정하에, 초기 검색된 결과에 대해 각 문서에서 발생한 질의 어휘 조합을 기반으로 클러스터링한다.

2. 길이가 긴 질의에는 두 개 또는 세 개의 어휘가 핵심개념을 나타내고 있으며, 두 질의 어휘의 근접도가 높으면 두 어휘는 핵심개념을 나타낸다는 가정을 기반으로 하여 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택한다. 질의 어휘 조합 클러스터에서 핵심 질의를 포함하는 클러스터를 핵심 질의 클러스터(core query cluster)로 선택하고, 핵심 질의를 포함하지 않는 클러스터의 문서는 부적합 문서라고 보고 필터링한다.

3. 문서에서 핵심 질의와 근접해서 나타내는 어휘들인 질의 문맥(context)은 핵심 질의와 의미적으로 연관성이 높다는 가정하에, 핵심 클러스터 안에 있는 문서들에서 질의의 문맥 어휘를 찾아내고 이를 이용하여 핵심 클러스터의 문서들을 재순위화한다.

이제, 보다 구체적으로 본 발명에 대하여 설명하기로 한다.

1. 핵심 클러스터 선택 방법

핵심 클러스터 선택 방법은 본 발명의 첫 번째 단계로서 긴 질의에서 핵심 질의를 찾고 초기 검색 결과에서 일차적으로 부적합한 문서를 필터링하기 위해 사용되는 방법이다. 초기 검색 결과에서 상위 n개의 문서를 각각의 문서에서 발생한 질의 어휘를 기반으로 클러스터링하고 질의의 위치정보를 이용하여 핵심 질의를 찾는다. 핵심 질의를 포함하는 핵심 클러스터를 적합문서 후보집합(R_Pool)에 핵심 질의를 포함하지 않는 클러스터를 부적합 문서 후보집합(NR_Pool)에 나눈다. 예를 들어, r개의 질의 어휘를 가진 질의는 최대 2^r-1개의 클러스터가 생성될 수 있다. 도 2에서 질의 어휘가 3개인 질의에서 생성될 수 있는 모든 클러스터를 보여준다. 질의 어휘가 3개이면 2³-1 총 7개의 클러스터가 생성된다. 3개의 질의 어휘 q₁, q₂, q₃중 q₁, q₂를 핵심 질의로 선택했을 때 q₁, q₂를 포함하는 두 개의 클러스터가 핵심 클러스터로 선택된다. 사람 평가자가 직접 핵심 질의를 선택하여 찾은 핵심 클러스터와 본 발명의 방법으로 찾은 핵심 클러스터 안에 있는 적합문서의 포함율을 비교함으로써 핵심 클러스터의 유효성을 검증한다.

1.1 질의 어휘 조합을 기반으로 한 클러스터링

질의 어휘 클러스터는 같은 질의 조합이 발생한 문서들의 클러스터이다. 같은 질의 조합을 공유하는 문서들은 행태가 비슷하다. 따라서 핵심 질의 조합을 포함하고 있는 클러스터의 문서들은 적합한 문서일 가능성이 높다. 아래의 표 1은 실제 질의를 통해 검색된 결과 중 상위 300개의 문서에 대한 질의 어휘 클러스터를 보여준다. “fiber optics applications” 3개의 질의 어휘를 가진 질의는 총 2³-1 개 즉 7개의 클러스터가 발생할 수 있다. 예를 들어, 클러스터 C1은 300개의 문서 중 “fiber”와 ”optics”그리고 “applications” 세 단어를 모두 포함하고 있는 문서들로, 이 클러스터 안에는 19개 문서 중 4개가 적합문서이다. C2는 “fiber”와 “optics”를 포함하는 문서들의 클러스터이고, 158개의 문서 중 36개가 적합문서이다. 실험집합에서 총 7개의 클러스터의 전체 적합문서의 수는 40개이다.

만약 “fiber optics”를 핵심 질의로 선택한다면 “fiber optics”를 포함한 C1, C2 두 개의 클러스터가 적합문서 후보집합(R_Pool)에 들어가게 된다. 그렇게 되면 R-Pool에는 총 300개 문서 중 177개의 문서가 들어가게 되고 40개의 적합문서가 모두 들어가게 된다. 초기 검색 결과에서 상위 300개 문서의 정확율은 0.1333(40/300)이 되지만 핵심 질의를 통해 찾은 R_Pool의 정확율은 0.2260(40/177)이 된다.

이와 같이 “fiber optics”는 전체 질의에서 핵심개념이라 할 수 있으나 “applications”는 불필요한 단어라고 할 수 있다. 또한 “fiber”와 “optics”는 각 어휘만으로는 의미를 전달하기는 어렵다는 것을 알 수 있다. 핵심 질의만 잘 찾게 되면 R_Pool에 거의 모든 적합문서를 포함할 수 있다.

아래의 표 2는 질의어휘가 3개 이상인 TREC AP 학습 질의 73개(실험집합에 대해서는 후술하는 실험 및 평가 참조)에 대해 사람이 각 질의에서 직접 핵심질의를 선택한 적합문서 후보집합(R_Pool)과 부적합문서 후보집합(NR_Pool)의 포함율과 누락율을 보여준다.

여기서 Q#n은 n개의 어휘를 가진 질의를 의미하며, Tot_rel은 각 질의에 대한 초기 검색 결과 상위 300개 안에 모든 적합문서의 수, R_rel은 R_Pool에 포함된 적합문서의 개수, R_doc는 R_Pool에 포함된 전체 문서의 개수, NR_rel은 NR_Pool에 포함된 적합문서의 개수, NR_doc는 NR_Pool에 포함된 모든 문서의 개수를 의미한다.

표 2에 나타난 바와 같이, 질의어휘가 6개 이상인 질의를 제외한 모든 질의에서 90%이상의 포함율을 보이고 있다. 이것을 통해 질의어휘 클러스터가 유효함을 알 수 있다.

1.2 단어 근접도를 이용한 핵심 클러스터 선택 방법

핵심 질의를 포함하고 있는 모든 클러스터를 핵심 클러스터라고 정의한다. 핵심 클러스터를 찾기 위해 먼저 질의에서 핵심 질의를 찾아야 한다. 질의 어휘들 사이에는 의미적인 관계를 갖고 있다. 임의의 두 질의 어휘가 서로 거리가 가깝다거나 일정한 거리(window size)안에 자주 발생하면 두 단어는 서로 의미적인 연관도가 높은 핵심 질의라고 할 수 있다. 공기 빈도(co-occurrence)란 한 문서에서 두 개의 단어가 일정한 거리 안에서 연속으로 발생한 빈도를 의미한다. 공기 빈도는 질의 어휘가 1개 발생한 클러스터를 제외한 모든 클러스터에서 계산한다. 또한 클러스터 안에 모든 질의 어휘 조합을 고려한다. 예를 들어, q₁, q₂, q₃ 세 개의 질의 어휘를 포함한 클러스터는 (q₁, q₂), (q₁, q₃), (q₂, q₃) 세 가지 질의 어휘 조합의 공기 빈도를 구한다.

각 문서에서 모든 어휘 조합 사이에 공기 빈도를 구하고 질의 어휘가 2개 이상 발생한 모든 클러스터의 문서에서 더한다. 하지만, 문서에서 질의어휘 사이의 거리만 가깝다고 해서 핵심 질의라고 하긴 어렵다. 문서에서 어휘의 중요도를 반영하지 않으면 거리만 가까우면 모두 핵심 질의로 선택되겠지만 어휘의 중요도를 반영하면 거리가 가까운 질의어휘가 문서에서 얼마나 중요한지 나타낼 수 있다.

여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서집합이다. cooc(q_i,q_j)는 q_i,q_j의 문서에서 발생한 공기 빈도수이다. tfidf(q_i)는 단어q_i의 중요도이다.

수학식 1을 통해 공기빈도 가중치 CoreQuery(q_i,q_j)가 가장 높은 한 쌍의 단어 조합이 핵심 질의로 선택된다. 핵심 질의를 포함한 모든 클러스터를 핵심 클러스터라 하고 모든 핵심 클러스터는 적합문서 후보집합(R_Pool)에 들어가게 된다.

2. 핵심 질의와 단어 근접도를 이용한 핵심 클러스터에서의 재순위화

핵심 질의를 포함한다고 해서 모두 적합문서가 아니다. 핵심 클러스터 안에 있는 문서들은 언어모델(Query-Likelihood Language Model)로 순위화 되어 있으며, 부적합 문서도 포함되어 있다. 앞에서 초기 검색 결과에서 핵심 클러스터를 찾아내면서 부적합 문서를 필터링했다면, 여기서는 핵심 클러스터 안에 있는 문서들을 핵심 질의와의 문맥정보를 이용해 문서의 중요도를 재조정함으로써 상위에 검색된 문서의 정확율을 높일 수 있다. 문서 안에서 출현한 단어들은 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간에 의미적으로 연관되어 있다. 또한 문서에서 핵심 질의와 일정한 거리를 두고 나타난 단어들은 의미적으로 밀접하게 연관되어 있다. 이를 이용해 핵심 질의에 대한 각 단어들의 근접도를 계산하여 질의의 문맥 어휘(context term)를 찾아낸다. 핵심 클러스터 안에 있는 문서들에 대해 문맥 어휘를 이용하여 중요도를 계산하고 재순위화한다.

2.1 단어 근접도를 이용한 문맥 어휘 선택 방법

핵심 질의 주변에 나타난 단어는 핵심 질의와 의미적으로 연관성이 있다. 적합문서에서 핵심질의 주변에 빈번하게 나타난 단어가 다른 문서에도 많이 나타난다면 그 문서도 적합문서일 가능성이 높다. 핵심 질의와 가까운 거리에서 빈번하게 발생하는 어휘를 질의의 문맥 어휘라 한다. 핵심 클러스터 안에 있는 문서 중 상위에 순위화된 문서를 적합 문서라 가정하고, 상위에 있는 각 문서들에서 핵심 질의 주변에 발생하는 어휘들의 빈도를 계산한다.

여기서, t는 문서에서 핵심질의와 일정한 거리(d2; 학습을 통해 가장 좋은 것으로 설정) 안에 발생한 단어이고, proxTF(t)는 t의 빈도이다. Context(t)는 proxTF(t) 값을 핵심 클러스터의 상위문서에서 더한 값이다. D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. 핵심 클러스터의 모든 문서가 적합문서라고 할 수 없기 때문에 문맥어휘를 구하기 위해 핵심 클러스터의 상위 |Rdocs|개로 학습한다. 질의의 문맥어휘는 Context(t)값이 높은 순서대로 e개를 선택한다.

2.2 핵심 클러스터 안에 있는 문서의 문맥 어휘를 이용한 재순위화

핵심 클러스터 안에 포함된 문서는 초기 검색 중요도로 순위화되어 있다. 여기서는 핵심 클러스터에 포함된 문서들의 초기 검색 중요도를 재조정함으로써 정확율을 향상시킨다. 문맥 어휘는 핵심 질의 주변에 빈번하게 발생한 어휘로, 질의와 의미적으로 연관성이 있다. 따라서, 문맥 어휘는 초기 질의의 확장된 질의라고 볼 수 있다. 핵심 클러스터의 문서는 적합모델(Relevance Model)을 이용해 재순위화한다. 적합모델은 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 문서의 가중치를 재조정한다.

여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치, P(Q|D)는 언어모델에 의한 초기 검색 결과 값이며, Q’은 수학식 2에서 결정한 확장 질의 어휘이다. 따라서, P(Q’|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.

수학식 3을 통해 핵심 클러스터 안에 있는 문서들을 재순위화한다. 핵심 클러스터에 속하지 않는 문서들은 언어모델에 의한 초기 검색 결과값 순서대로 핵심 클러스터에 포함된 문서들 다음에 순위화된다.

한편, 지금까지 설명한 본 발명의 정확율 향상 방법 및 장치는 실제로 컴퓨터 프로그램에 의해 구현될 수 있고, 이 프로그램은 컴퓨터 기록 매체에 저장될 수 있다. 컴퓨터 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, ROM, RAM, CD, DVD-ROM, 자기테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송의 형태로 구현되는 것도 여기에 포함된다. 즉, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

[실험 및 평가]

실험 문서 집합으로 뉴스기사 집합인 TREC AP(88-90)를 사용하였다. 질의 집합은 파라미터 추정을 위해 학습질의를 이용하였고, 테스트 질의에 대해서 평가하였다. 실험 데이터에 대한 정보는 표 3에서 보여준다. 언어모델(LM)에 의한 초기 검색 결과의 색인과 검색은 인드리(Indri) 검색엔진을 사용하였다. 언어모델의 디리슈레 스무딩(Dirichlet smoothing) 파라미터 μ는(μ∈{500, 1000, 1500, 2000,…, 5000}) 학습을 통해 2000으로 설정하였다. 질의 어휘 클러스터는 상위 300개 문서에 대해 클러스터링하였다. 핵심 질의를 선택하기 위한 공기 빈도 계산에서 단어 사이의 거리는 실험(d1∈{5, 10, 15, 20, 30, 50, 75, 100})을 통해 학습 질의에 대해 가장 좋은 성능을 보인 15로 설정하였다. 문맥어휘를 찾기 위해 사용한 핵심클러스터 문서의 수(|Rdoc|∈{5, 10, 25, 50, 75, 100})는 가장 좋은 성능을 보인 10으로 설정하였다. 문맥어휘를 찾기 위한 핵심질의와 단어 사이의 거리(d2∈{5, 10, 15, 25, 50, 75, 100})는 학습을 통해 50으로 설정하였다. 문맥어휘를 이용해 확장된 어휘 개수(e∈{5, 10, 25, 30, 35, 40, 45, 50, 75, 100})는 가장 좋은 성능을 보인 45개로 설정했다. 표 3은 TREC 테스트 컬렉션이다.

핵심 클러스터 선택 실험 결과

핵심 클러스터 선택 실험은 초기 검색 결과에서 사람 평가자가 직접 확인하고 선택한 핵심 클러스터와 제안한 방법으로 선택한 핵심 클러스터의 포함율을 비교하여 평가한다. 표 4는 사람이 찾은 핵심 클러스터와 제안된 방법을 통해 선택한 핵심 클러스터의 결과이다.

전체적으로 사람이 직접 선택한 것과 본 발명에 따라 제안된 방법의 포함율이 비슷한 것을 볼 수 있다. 질의어휘 개수가 7개 이상인 질의에서는 클러스터의 개수가 많기 때문에 조금 떨어지는 경향이 있지만 전체적으로 적합문서 포함율은 83.5%정도로 높은 포함율을 보인다. 질의어휘의 개수가 9개 이상인 질의는 클러스터의 개수가 많아서 핵심클러스터를 선택하기가 어렵기 때문에 결과에서 배제했다.

도 4는 AP문서 집합에 대해 질의어휘가 3개 이상인 각 질의에서 언어모델을 통한 검색결과 상위 300개 문서와 핵심클러스터의 문서(각 질의 마다 평균 219개의 문서를 포함한다.)의 정확율을 보여준다. 도 4에서 LM은 언어모델을 core는 핵심 클러스터를 나타낸다. 핵심 클러스터가 언어모델보다 전체적으로 정확율이 높음을 확인 할 수 있다. 결과를 통해 공기빈도를 이용해 선택한 핵심 클러스터는 유효함을 알 수 있다.

핵심 클러스터의 재순위화 실험결과

핵심 클러스터의 문서들을 문맥 어휘를 이용해 재순위화한 결과와 초기 검색 결과 상위에 순위화된 문서들의 정확율을 비교하여 평가한다.

표 5는 언어모델의 상위에 검색된 문서와 핵심클러스터의 상위에 검색된 문서의 정확율을 보여준다. P@n은 상위 n개의 문서에서의 정확율을 나타낸다. 언어모델은 인드리 검색엔진을 통한 초기 검색 결과이다. 실험 결과 본 발명에 따라 제안된 방법이 언어모델보다 상위 100개의 문서(P@100)에서 11.2% 향상되었고, 50개의 문서(P@50)에서 11.1% 성능이 향상되었다.

한편, 본 발명에 따른 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치를 한정된 실시예에 따라 설명하였지만, 본 발명의 범위는 특정 실시예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진자에게 자명한 범위내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110 : 문서 클러스터 모듈 120 : 핵심 클러스터 선택 모듈
130 : 문서 재순위화 모듈

Claims

사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 단계와;
상기 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 단계와;
상기 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 단계를 포함하여 이루어진 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.
청구항 1에 있어서,
다음의 식에 의해 공기빈도 가중치(CoreQuery(q_i,q_j))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.

(여기서, D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(q_i,q_j)는 q_i,q_j의 문서에서 발생한 공기 빈도수이고, tfidf(q_i)는 단어q_i의 중요도이다.)
청구항 1에 있어서,
다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.

(여기서, t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )
청구항 3에 있어서,
다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법.

(여기서, D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)
청구항 1 내지 4 중 어느 한 항의 방법을 수행할 수 있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체.
사용자가 검색엔진을 통해 원하는 정보를 검색하고자 질의하면, 초기 검색 결과에 따른 문서를 각각의 문서에서 발생한 질의 어휘들의 조합에 따라 클러스터링하는 문서 클러스터링 모듈(110)과;
상기 문서 클러스터링 모듈(110)에서 클러스터링된 각각의 질의 어휘 조합 클러스터에서 질의 어휘 사이의 근접도를 이용하여 핵심 질의를 선택하고, 그에 따른 핵심 클러스터를 선택하는 핵심 클러스터 선택 모듈(120)과;
상기 핵심 클러스터 선택 모듈(120)에서 선택된 핵심 클러스터 안에 포함된 문서에서 핵심 질의와 근접도를 이용하여 질의의 문맥 어휘를 선택하고, 이를 이용하여 핵심 클러스터의 문서를 재순위화하는 문서 재순위화 모듈(130)을 포함하여 이루어진 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.
청구항 6에 있어서,
다음의 식에 의해 공기빈도 가중치(CoreQuery(q_i,q_j))가 가장 높은 한 쌍의 단어 조합을 핵심 질의로 선택하고, 선택된 핵심 질의를 포함하는 클러스터를 핵심 클러스터로 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.

(여기서 D는 초기 검색결과 상위 n개 문서집합에서 질의어휘가 2개 이상 발생한 클러스터의 문서이고, S는 초기 검색결과 상위 n개의 문서집합에서 질의 어휘가 2개 이상 발생한 클러스터의 문서집합이고, cooc(q_i,q_j)는 q_i,q_j의 문서에서 발생한 공기 빈도수이고, tfidf(q_i)는 단어q_i의 중요도이다.)
청구항 6에 있어서,
다음의 식에 의해 문서에서 핵심 질의와 일정한 거리 안에 발생한 단어의 빈도 값을 핵심 클러스터의 상위 문서에서 더한 값(Context(t))을 이용하여 질의의 문맥 어휘를 선택하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.

(여기서 t는 문서에서 핵심 질의와 일정한 거리안에 발생한 단어이고, proxTF(t)는 t의 빈도이고, D는 핵심 클러스터 안에 있는 문서들이고, Rdocs는 문맥 어휘를 구하기 위한 핵심 클러스터의 상위에 검색된 문서이다. )
청구항 8에 있어서,
다음의 식에 의해 초기 질의와 문맥 어휘를 통해 확장된 단어를 결합하여 재조정된 문서의 가중치(Score(D))를 이용하여 핵심 클러스터의 문서를 재순위화하는 것을 특징으로 하는 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 장치.

(여기서 D는 핵심 클러스터 안에 있는 문서들이고, λ는 원래 질의 Q에 대한 가중치이고, P(Q|D)는 언어모델에 의한 초기 검색 결과값이고, Q’는 확장 질의 어휘이고, P(Q'|D)는 문서 D의 확장된 질의 Q’에 대한 언어모델 검색 결과이다.)