KR100407696B1

KR100407696B1 - 키팩트기반 텍스트검색모델의 검색성능측정방법

Info

Publication number: KR100407696B1
Application number: KR10-1999-0021549A
Authority: KR
Inventors: 장명길; 박세영; 정경택
Original assignee: 한국전자통신연구원
Priority date: 1999-06-10
Filing date: 1999-06-10
Publication date: 2003-12-01
Also published as: KR20010001989A

Abstract

이 발명은 키팩트기반 텍스트정보검색시스템에 사용되는 키팩트기반 텍스트검색모델에 대한 검색성능을 측정하는 방법을 제공하기 위한 것이다. 이 발명에 따르면, 문서 및 질의어에 관한 가중치를 계산하는 가중치계산장치와, 문서와 질의어의 유사도를 계산하여 문서를 순위화하여 표시장치에 나타내는 검색장치를 포함하는 키팩트기반 텍스트정보검색시스템에서 이용되는 키팩트기반 텍스트검색모델의 검색성능을 측정하기 위한 방법이 제공된다. 이러한 방법은 문서집합과 질의어문서에 대한 키워드를 추출하는 단계(S01)와, 추출결과에 대하여 검색성능측정용 변수의 값을 설정하는 단계(S02)와, 그러한 변수의 값을 포함한 문서 및 질의의 벡터를 구성하는 단계(S04) 및, 해당 모델들을 사용한 측정결과를 문서와 질의의 문서유사도 값에 따라 문서를 순위화하여 나타내는 단계(S07)를 포함하며, 상기 변수설정단계에서는 아래의 수학식에 의하여 문서와 질의의 키팩트가중치를 계산(S03)한다.

여기에서, w_xk는 문서 x에서의 키팩트 k의 가중치, tf_xk는 문서 x에서의 키팩트 k의 빈도, N은 전체 문서의 수, df_k는 키팩트 k가 출현한 문서의 수, C_kfType#는 키팩트 가중치 상수를 나타냄.

Description

키팩트기반 텍스트검색모델의 검색성능측정방법 {Performance Evaluation Method for Keyfact-based Text Retrieval Model}

이 발명은 키팩트기반 텍스트검색모델의 검색성능측정방법에 관한 것이며, 특히, 다양한 영역에서 최적의 검색성능을 발휘할 수 있는 키팩트기반 텍스트검색모델 및 키팩트가중치상수를 찾기 위한 검색성능측정방법에 관한 것이다.

종래의 텍스트정보검색방법으로는 키워드기반 텍스트정보검색이 사용되어 왔다. 키워드기반 텍스트정보검색방법은 다음과 같은 문제점이 있기 때문에 검색의 정확도가 낮다. 키워드기반 텍스트정보검색의 문제점은 첫째, 문서를 키워드라는명사 어휘의 단어로 표현하기 때문에 문서의 의미를 정확히 표현하지 못하여 문서 표현의 대표성이 떨어짐으로써 검색정확성의 하락의 근본적인 요인으로 작용한다. 둘째, 자연어구나 문장 혹은 키워드단어들로 질의를 하는 경우에 있어서 키워드기반 정보검색에서는 질의를 키워드로 표현하기 때문에 사용자가 검색하고자 하는 내용을 정확히 나타내어 검색을 수행하지 못하는 단점이 있다. 따라서, 키워드기반 정보검색은 키워드라는 단어 중심으로 문서검색을 수행하는 점에서 검색정확성에 근본적으로 한계가 있다.

이러한 키워드기반 텍스트정보검색의 문제점을 극복하기 위한 방안으로 키팩트기반 텍스트정보검색이 제안되고 있다.

키팩트기반 텍스트정보검색은 문장의 내용을 대표하는 것이 단어가 아니라 사실(fact)이기 때문에 여러 가지의 표현이 하나의 사실을 나타낸다는 개념에서 나왔다. 그리고, 이러한 예는 한국어의 경우, 소유격 조사 '의'로 묶여진 복합명사 형태, 관형사에 의해 수식 받는 명사구 형태, 명사를 목적으로 하는 '하다' 동사가 결합되어 복합명사가 되는 형태, 같은 의미를 가지는 문장이 서로 다른 표현방법으로 존재하는 형태, 같은 의미는 아닐지라도 의미적으로 매우 가까운 키워드를 가지는 형태 등의 여러 가지 경우가 있다.

이러한 키팩트는 같은 의미를 가지는 문장의 일부를 하나의 키팩트로 표현하여 검색하기 때문에 이론적으로 키워드기반 정보검색보다 정확한 검색을 수행할 수 있다. 이러한 키팩트기반 텍스트정보검색시스템을 구성하기 위해서는 기본적으로 키팩트단위의 색인 및 검색을 위한 키팩트기반 텍스트검색모델이 있어야 한다. 키팩트기반 텍스트검색모델은 먼저 문서집합과 질의어문서에 나타날 수 있는 키팩트의 유형을 분류하고 그 유형에 따라 키팩트의 가중치상수를 정의한다. 그리고 이러한 키팩트가중치상수를 반영한 키팩트기반 텍스트검색모델들을 구성하는데, 다양한 영역에서 최적의 검색모델로 최적의 검색성능을 나타내도록 만들어져야 한다.

그러나, 아직까지도 다양한 영역에서 최적의 검색성능을 발휘할 있는 키팩트기반 텍스트검색모델들을 찾고, 그러한 텍스트검색모델에 적용될 키팩트가중치상수를 찾기 위한 적절한 검색성능측정방법이 마련되지 않았다.

그로 인해, 적절한 키팩트기반 텍스트정보검색시스템의 개발이 지연되고 있다.

이 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 다양한 영역에서 최적의 검색성능을 발휘할 있는 키팩트기반 텍스트검색모델 및 키팩트가중치상수를 찾기 위한 검색성능측정방법을 제안하려는 것이다.

도 1은 이 발명에 따른 키팩트기반 텍스트검색모델의 검색성능측정방법이 구현될 키팩트기반 텍스트정보검색시스템을 개략적으로 도시한 블록선도,

도 2는 이 발명의 한 실시예에 따른 키팩트기반 텍스트검색모델의 검색성능측정방법을 설명하기 위한 순서도이다.

위와 같은 과제를 해결하기 위한 이 발명에 따르면, 키팩트단위로 문서와 질의어를 색인할 때에 문서 및 질의어에 관한 가중치를 계산하는 가중치계산장치와, 키팩트기반의 텍스트검색모델을 이용하여 문서와 질의어의 유사도를 계산하여 문서를 순위화한 후에 검색결과를 표시장치에 나타내는 검색장치를 포함하는 키팩트기반 텍스트정보검색시스템에서 이용되는 키팩트기반 텍스트검색모델의 검색성능을 측정하기 위한 방법이 제공된다. 이러한 검색성능측정방법은 문서집합의 크기, 문서내의 키팩트빈도, 그리고 키팩트 유형 분류의 가중치상수 등의 검색성능측정용 변수를 설정하는 단계와, 검색성능측정을 할 키팩트기반 텍스트검색모델을 설정하는 단계 및, 해당 텍스트검색모델들을 사용한 검색성능측정결과를 문서와 질의의 문서유사도 값에 따라 문서를 순위화하여 나타내는 단계를 포함한다.

양호하게는, 상기 검색성능측정용 변수설정단계는 검색대상의 문서집합과 질의어문서에 대한 키워드를 추출(S01)하는 단계 및, 추출결과에 대하여 검색성능측정용 변수의 값을 갱신하는 단계를 포함하고, 상기 텍스트검색모델설정단계는 검색성능측정용 변수의 값을 포함한 문서 및 질의의 벡터를 구성하는 단계를 포함하며, 상기 검색성능측정용 변수설정단계에서는 아래의 수학식으로 표현되는 키팩트가중치계산식에 의하여 문서와 질의의 키팩트가중치를 계산한다.

여기에서, w_xk는 문서 x에서의 키팩트 k의 가중치, tf_xk는 문서 x에서의 키팩트 k의 빈도, N은 전체 문서의 수, df_k는 키팩트 k가 출현한 문서의 수, C_kfType#는 키팩트 가중치 상수를 나타낸다.

상기 텍스트검색모델이 아래의 수학식으로 표현되는 내적모델일 수 있다.

상기 텍스트검색모델이 아래의 수학식으로 표현되는 코사인계수모델일 수 있다.

상기 텍스트검색모델이 아래의 수학식으로 표현되는 다이스계수모델일 수 있다.

상기 텍스트검색모델이 아래의 수학식으로 표현되는 자카르드계수모델일 수 있다.

또한, 본 발명에 따르면 상술하였던 키팩트기반 텍스트검색모델의 검색성능측정방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.

이 발명의 상기 및 기타의 특성과 장점은 아래의 양호한 실시예에 대한 설명에 의해 좀더 명료해질 것이다.

[발명의 양호한 실시예에 대한 설명]

이하, 첨부된 도면을 참조하여 이 발명에 따른 키팩트기반 텍스트검색모델의 검색성능측정방법의 양호한 실시예에 대해 상세히 설명한다.

도 1은 키팩트기반 텍스트정보검색시스템을 개략적으로 도시한 것으로서, 그러한 시스템에서 이루어지는 정보검색과정을 설명하기 위한 것이다. 도 1에 보이듯이, 키팩트기반 텍스트정보검색과정은 크게 키팩트추출단계와, 키팩트단위문서 및 질의어색인단계 및, 키팩트기반 텍스트검색모델에 의한 검색단계로 나누어진다.

도 1에 도시된 키팩트추출장치(1a)는 문서집합과 질의어로부터 형태소를 분석하고, 형태소 품사의 모호성을 해소하며, 모호성이 해소된 형태소들을 찾아내고, 이러한 형태소들에서 키팩트생성규칙을 사용하여 키팩트를 추출하는 장치이다.

문서 및 질의어에 관한 가중치계산장치(1b)는 키팩트단위로 문서와 질의를 색인하는 단계에서 문서 및 질의어에 관한 가중치를 계산한다.

검색장치(1c)는 키팩트기반의 텍스트검색모델을 이용하여 문서와 질의어의 유사도를 계산하여 문서를 순위화한 후에 검색결과를 표시장치에 나타내는 부분이다.

키팩트기반 텍스트정보검색에서는 문서집합과 질의어의 텍스트가 키팩트추출장치(1a)에 의하여 키팩트단위로 표현되는데, 모든 키팩트는 [객체(object), 속성(property)]의 표현형식으로 나타내어진다. 이 때, 객체와 속성을 구성하는 키팩트의 형태에 따라 아래의 표 1에 보이듯이 키팩트의 유형을 분류한다.

[표 1]

표 1과 같이 분류된 키팩트 유형은 문서집합과 질의어의 텍스트들을 키팩트로 나타낼 때 의미적으로 같은 내용을 나타내는 텍스트의 일부가 같은 키팩트로 나타나게 한다. 그럼으로써, 키팩트의 유형에 따라 검색에서의 키팩트 중요도를 차등적으로 반영하여 키팩트기반 검색에서 높은 정확도를 얻을 수 있게 한다.

표 1에 보이듯이, 키팩트 유형에 따라 각각 키팩트 가중치상수가 부여된다. 이러한 가중치상수는 C_{KfType I}< C_{KfType II}< C_{KfType III}< C_{KfType IV}< C_{KfType V}<‥‥‥의 순으로 차등적으로 부여된다. 가중치상수의 값은 키팩트기반 텍스트검색모델의 검색성능측정의 평가항목변수로 사용되어 키팩트검색도메인의 키팩트 유형의 분포특성을 고려하여 실험적으로 결정된다.키팩트 유형에 대해 일 예를 들어 설명한다. 검색하고자 하는 문서의 키팩트가 "분산된 정보의 검색" 또는 "분산된 정보를 검색하다"인 경우, 키팩트 유형 1(Type Ⅰ)은 '정보[KEY]', '검색[KEY]'와 같은 단일 명사이며, 이는 종래의 키워드기반 검색과 동일하다. 키팩트 유형 2(Type Ⅱ)는 '분산된[MP] 정보[KEY]', '정보[KEY]를 검색하다[VH]'와 같은 수식 구 혹은 서술형 문장이다. 키팩트 유형 3(Type Ⅲ)은 '정보[KEY1]의 검색[KEY2]'과 같은 소유격 명사구이다. 키팩트 유형 4(Type Ⅳ)은 '정보 검색[KEY1 KEY2]'와 같은 2개 단어 복합 명사이다. 키팩트 유형 5(Type Ⅴ)는 '분산 정보 검색[KEY1 KEY2 KEY3]'와 같은 3개 단어 복합 명사이다. 각 키팩트 유형에 따라 가중치상수를 차등적으로 적용한 것이다.

이러한 키팩트의 가중치상수는 아래의 수학식 1로 나타낸 키팩트가중치 계산식에 반영되어 키팩트를 단위로 하는 키팩트기반 텍스트모델에서 사용된다.

여기에서, w_xk는 문서 x에서 키팩트 k의 키팩트가중치, tf_xk는 문서 x에서의 키팩트 k의 빈도, N은 전체 문서의 개수, df_k는 키팩트 k가 출현하는 문서의 수, C_kfType#는 키팩트 가중치 상수를 나타낸다.수학식 1의 키팩트가중치를 구하는 식은 일반적인 키워드 기반 정보검색에서 많이 이용되는 TF-IDF(Term Frequency-Inverted Document Frequency) 가중치 계산식()를 응용한 식이다. 이 TF-IDF 가중치 계산식은, Gerard Salton and Michael J. McGill, Introduction to Modern Information Retrieval, McGraw-Hill, 1983, P.63 와 같은 대부분의 정보검색서적에 개시되어 있다.

일반적으로, 키워드 단위의 일반적인 가중치 계산식은 키워드의 빈도(tf)와 키워드가 출현하는 문서의 수(df) 및 전체 문서의 개수(N)만을 고려하여 키워드가중치를 계산하지만, 키팩트기반 텍스트검색에서는 키팩트단위로 색인하여 검색을 수행하기 위하여 키팩트의 유형에 따른 검색의 효과의 중요도를 고려하여 키팩트 유형의 가중치상수(C_kfType#)를 키팩트 계산식에 반영한다.

키팩트기반 텍스트정보검색에서는 키팩트기반 텍스트검색모델 검색성능측정장치가 필요하다. 즉, 주어진 키팩트기반 텍스트검색모델의 검색성능을 측정하여 봄으로써 검색문서의 도메인에서 정보검색의 검색성능효과를 가장 잘 나타내는 키팩트기반 텍스트검색모델을 선택하게 할 필요가 있다.

키팩트기반 텍스트검색모델의 검색성능을 측정하는 검색성능측정용 변수는 전체 문서의 개수(N), 문서내의 키팩트빈도(tf_xk), 해당 키팩트가 출현하는 문서의 개수(df_xk), 그리고 키팩트 유형에 따른 가중치상수(C_kfType#) 등이다.

키팩트가중치에 의한 키팩트기반 텍스트검색모델로는 벡터공간모델의 검색모델인 아래의 수학식 2 내지 수학식 5로 나타내어지는 내적모델(Inner Product Model ; 수학식 2)과, 코사인계수모델(Cosine Coefficient Model ; 수학식 3)과, 다이스계수모델(Dice Coefficient Model ; 수학식 4) 및, 자카르드계수모델(Jaccard Coefficient ; 수학식 5) 등을 사용한다.

여기서, Sim(Q,D)은 임의의 문서 D와 질의문 Q의 유사도이고, w_qk는 질의문 Q내 키팩트 k의 키팩트 가중치이고, w_dk는 문서 D내 키팩트 k의 키팩트 가중치이다.

이러한 모델들을 사용한 검색성능측정결과는 문서와 질의의 문서유사도 값에 따라 문서를 순위화하여 결과로 보여준다.

도 2에는 키팩트기반 텍스트검색모델을 사용한 검색성능측정방법을 설명하기 위한 순서도가 도시되어 있다.

키팩트기반 텍스트검색이 시작되면, 먼저 검색대상의 문서집합과 질의어문서에 대한 키워드를 추출(S01)하며, 그 추출결과에 대하여 검색성능평가항목의 변수값을 설정할 것인지의 여부를 묻고(S02), 대답이 '예'이면, 현재의 검색성능평가환경을 변경하여 문서의 전체 개수(N)와 문서내 키팩트빈도(tf_xk) 및 키팩트가중치상수(C_KfType#)에 관한 검색성능측정변수 값이 부여된다(S03).

현재의 검색성능평가환경을 변경할 필요가 없거나 변경을 완료한 후에는, 검색성능측정용 평가변수의 값을 포함한 문서 및 질의의 벡터를 구성하고(S04), 수학식 1로 나타낸 키팩트가중치계산식에 의하여 문서와 질의의 키팩트가중치가 계산된다(S05). 이어서, 키팩트기반 텍스트검색모델들에 대하여 평가변수환경을 포함하는 검색대상문서 도메인의 특징에 따른 최적의 검색성능을 보이는 검색모델을 찾기위한 키팩트기반 텍스트검색모델의 실제의 검색성능결과를 구하고(S06), 문서를 순위화한 후에, 그 검색결과를 보인다(S07). 이어서, 문서순위결과에 대하여 가장 좋은 검색결과를 보이는 검색모델을 평가한다(S08). 목적하는 검색환경의 검색측정평가가 만족스럽게 이루어졌는가의 여부에 따라 평가를 완료하거나 재평가를 하게 하는 조건문이 수행된다(S09).

현재의 검색성능평가환경을 변경(S03)함에 있어서 키팩트검색의 검색성능측정평가항목의 변수인 문서내 키팩트빈도(tf_xk)를 차등화시키고 다른 평가항목변수는 그대로 두는 경우에는, 특정문서에 나타나는 키팩트의 빈도를 10배, 50배, 100배로 증가시킴으로써, 키팩트기반 검색모델들 중에서 어떤 모델이 이와 같은 문서도메인환경에서 그 문서의 검색유사도를 어느 정도 높여줄 수 있는지를 알아보고, 최적의 검색모델로 채택할 수 있는가에 대한 판정을 할 수 있다.

또한, 키팩트 유형의 가중치상수(C_KfType#)를 차등적인 동일비율로 순서대로 증가시키는 경우와 다른 비율로 증가시키는 경우에 대한 키팩트기반 텍스트검색모델의 검색성능측정을 실시하는 경우에는, 키팩트 유형의 가중치상수의 비율을 가장 잘 반영하는 검색모델의 선정과 함께 검색대상도메인의 환경에 맞는 키팩트 유형 가중치상수 값을 결정할 수 있다.

또한, 검색성능측정평가변수의 설정을 어떻게 하느냐에 따라 검색대상도메인의 특성에 따른 최적의 키팩트기반 텍스트검색모델을 가지는 다양한 형태의 검색성능측정의 효과를 얻을 수 있다.

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

위에서 설명한 바와 같이, 이 발명에 의하면 키워드기반 텍스트정보검색과 비교하여 높은 검색성능을 가지는 키팩트기반 텍스트검색모델을 검색대상문서의 도메인특성에 맞게 개발할 수 있다. 그러므로, 각각의 도메인 특성에 적절한 키팩트기반 텍스트정보검색시스템을 효과적으로 개발할 수 있다.

Claims

키팩트단위로 문서와 질의어를 색인할 때에 문서 및 질의어에 관한 가중치를 계산하는 가중치계산장치와, 키팩트기반의 텍스트검색모델을 이용하여 문서와 질의어의 유사도를 계산하여 문서를 순위화한 후에 검색결과를 표시장치에 나타내는 검색장치를 포함하는 키팩트기반 텍스트정보검색시스템에서 이용되는 키팩트기반 텍스트검색모델의 검색성능을 측정하기 위한 방법에 있어서,

상기 검색대상의 문서집합과 질의어로부터 키팩트를 추출하는 단계와;

상기 문서집합의 전체 문서의 개수(N)와 각 문서 내의 각 키팩트 출현 빈도(tf_xk), 각 키팩트가 출현한 문서의 개수(df_k), 키팩트 유형별 가중치상수를 아래의 수식에 적용하여 상기 문서와 질의어의 키팩트가중치를 계산하는 단계와;

상기 문서와 질의어의 키팩트 가중치를 이용하여 상기 문서와 질의어의 문서유사도값을 계산하고 문서를 순위화하여 나타내는 단계를 포함하는 것을 특징으로 하는 키팩트기반 텍스트검색모델의 검색성능측정방법.

여기에서, w_xk는 문서 x에서 키팩트 k의 키팩트가중치, tf_xk는 문서 x에서의 키팩트 k의 빈도, N은 전체 문서의 개수, df_k는 키팩트 k가 출현하는 문서의 수, C_kfType#는 키팩트 가중치 상수를 나타냄.
삭제
제 1 항에 있어서,

상기 문서(D)와 질의어(Q)의 문서 유사도값(Sim(Q,D))을 아래의 수학식으로 표현되는 내적모델에 적용하여 계산하는 것을 특징으로 하는 키팩트기반 텍스트검색모델의 검색성능측정방법.

여기에서, w_dk는 문서 D에서 키팩트 k의 키팩트 가중치이고, w_qk는 질의어 Q에서 키팩트 k의 키팩트 가중치를 나타냄.
제 1 항에 있어서,

상기 문서(D)와 질의어(Q)의 문서 유사도값(Sim(Q,D))을 아래의 수학식으로 표현되는 코사인계수모델에 적용하여 계산하는 것을 특징으로 하는 키팩트기반 텍스트검색모델의 검색성능측정방법.

여기에서, w_dk는 문서 D에서 키팩트 k의 키팩트 가중치이고, w_qk는 질의어 Q에서 키팩트 k의 키팩트 가중치를 나타냄.
제 1 항에 있어서,

상기 문서(D)와 질의어(Q)의 문서 유사도값(Sim(Q,D))을 아래의 수학식으로 표현되는 다이스계수모델에 적용하여 계산하는 것을 특징으로 하는 키팩트기반 텍스트검색모델의 검색성능측정방법.

여기에서, w_dk는 문서 D에서 키팩트 k의 키팩트 가중치이고, w_qk는 질의어 Q에서 키팩트 k의 키팩트 가중치를 나타냄.
제 1 항에 있어서,

상기 문서(D)와 질의어(Q)의 문서 유사도값(Sim(Q,D))을 아래의 수학식으로 표현되는 자카르드계수모델에 적용하여 계산하는 것을 특징으로 하는 키팩트기반 텍스트검색모델의 검색성능측정방법.

여기에서, w_dk는 문서 D에서 키팩트 k의 키팩트 가중치이고, w_qk는 질의어 Q에서 키팩트 k의 키팩트 가중치를 나타냄.
삭제
삭제
컴퓨터에,

검색대상의 문서집합과 질의어로부터 키팩트를 추출하는 단계와;

상기 문서집합의 전체 문서의 개수(N)와 각 문서 내의 각 키팩트 출현 빈도(tf_xk), 각 키팩트가 출현한 문서의 개수(df_k), 키팩트 유형별 가중치상수를 아래의 수식에 적용하여 상기 문서와 질의어의 키팩트가중치를 계산하는 단계와;

상기 문서와 질의어의 키팩트 가중치를 이용하여 상기 문서와 질의어의 문서유사도값을 계산하고 문서를 순위화하여 나타내는 단계를 포함하여 키팩트기반 텍스트검색모델의 검색성능을 측정하기 위한 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.

여기에서, w_xk는 문서 x에서 키팩트 k의 키팩트가중치, tf_xk는 문서 x에서의 키팩트 k의 빈도, N은 전체 문서의 개수, df_k는 키팩트 k가 출현하는 문서의 수, C_kfType#는 키팩트 가중치 상수를 나타냄.