KR100657016B1

KR100657016B1 - 문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과,증거소스 결합을 통한 질의 검색방법

Info

Publication number: KR100657016B1
Application number: KR1020050130392A
Authority: KR
Inventors: 겔부크 알렉산더; 강남오; 한상용
Original assignee: 중앙대학교 산학협력단
Priority date: 2005-12-27
Filing date: 2005-12-27
Publication date: 2006-12-14

Abstract

본 발명은 문서 내 서로 다른 구문의 품질을 평가하고 가장 높은 순위의 것을 사용자에게 제공하기 위해 서로 다른 증거소스를 결합하는 방법과 이에 의한 질의 검색방법에 관한 것으로, 질의어 및 피검색 대상이 되는 구문을 구성하는 단어들 중 명사형 단어와, 어근정리를 통해 명사화한 단어만을 분리하는 구문 내 문구처리단계; 상기 구문 내 문구처리단계를 통해 정리된 구문 중 질의어에 포함된 단어들을 포함하는 구문을 1차로 검색하는 검색결과물 검색단계; 상기 검색결과물 검색단계에서 검색된 구문과 질의어 간의 유사성을

을 통해 수치화하되,

이고, 여기서,

는 구문 및 질의에서의 항 i의 가중 빈도이고,

합산은 문서에 나타나는 모든 항에 의한 것이며,

는 구문 또는 질의 내의 항 빈도이고, 상기

는

인 한편, 상기

는 주어진 단락 k로부터 문제의 구문까지의 거리(단위 ; 단락)이고, D는 문서 내에서의 이러한 거리의 최대값이고,

는 단락 k에서의 항 i의 등장 횟수이며, a는 실험적으로 결정하는 계수인 질의와의 관련성 확인단계; 및, 상기 질의와의 관련성 확인단계의 수치화된 결과물을 기준으로 검색된 구문들의 순위를 결정하는 순위결정단계를 포함하는 것이다.

Description

문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과, 증거소스 결합을 통한 질의 검색방법{Search method by combining source for recognition of relevant passages in texts}

도 1은 본 발명에 따른 질의 검색방법에 따라 진행되는 질의에 대한 검색과정을 도시한 플로우차트이고,

도 2는 본 발명에 따른 질의 검색방법에서 구문 내 문구처리 단계의 진행모습을 도시한 도면이고,

도 3은 본 발명에 따른 질의 검색방법에서 적용한 벡터모델의 기하학적 구성의 도면과 수식이다.

본 발명은 문서 내 서로 다른 구문의 품질을 평가하고 가장 높은 순위의 것을 사용자에게 제공하기 위해 서로 다른 증거소스를 결합하는 방법과 이에 의한 질의 검색방법에 관한 것이다.

오늘날 이용가능한 엄청난 양의 텍스트 정보는, 검색자가 관심있는 정보를 찾기 위한 모든 내용 읽기를 불가능하게 한다. 따라서, 임의 정보를 검색하기 위 해 검색자가 준 조건에 대응하는 정보의 위치를 확인하는 기술 개발이 요구된다.

현재, 대규모 텍스트 모음에서 관련 정보를 찾는 가장 흔한 방법은 문서 검색이다. 상기 문서 검색은 문서 검색시스템이 검색자가 입력한 질의에 따라 해당하는 정보의 위치를 확인한 후 관련된 상기 정보를 포함하는 문서 리스트를 관련성 순위별로 출력하는 것이다.

상기 문서 검색시스템이 질의에 대한 문서 검색을 효과적으로 수행할 수 있도록, 종래에는 질의 응답 방법이 적용되었다.

상기 질의 응답 방법은 검색자가 입력한 간단한 질의, 예를 들어 "1992년도 노벨 평화상 수상자가 누구인가?" 등의 질의에 대한 검색을 수행하는 것으로, 검색 결과는 불필요한 정보를 담은 긴 문서가 아닌 수상자의 이름이 검색된다. 이러한 질의 응답 방법을 정보추출이라고 한다.

반면, "영국과 프랑스 간의 전쟁의 역사는 어떠했는가?"와 같이, 질의에 대한 검색 결과가 상세한 설명을 요구하는 것일 경우에는 구문추출이라고 하는 구문 검색방법을 통해, 요청된 정보를 포함하는 긴 문서의 리스트를 검색ㆍ출력한다.

종래 구문추출 기술은 입력된 질의에 가장 관련이 있는 문서 전체 단락 또는 절을 찾는 것에 집중하였으나, 상기 구문 추출 기술의 적용이 원활한 절 또는 단락이 되려면 해당 구문이 너무 짧거나 길지 말아야 한다는 제한이 있었다.

이후, 상술한 문제점 해소를 위해 질의의 검색결과인 구문에 대한 후보로 고정 길이의 슬라이딩 윈도우를 활용하였다. 하지만, 이는 최적의 윈도우 크기의 선택에만 집중하는 방법으로, 검색된 구문의 완전성은 불확실한 문제가 있었다.

이에 본 발명은 상기와 같은 문제를 해소하기 위해 안출된 것으로, 검색자가 입력한 질의를 분석하여 당해 검색자가 원하는 실질적인 정보가 담긴 구문을 검색하고, 상기 구문들의 완전성을 확인하여 최적의 검색결과물을 순위화할 수 있도록 하는 문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과, 증거소스 결합을 통한 질의 검색방법 제공을 기술적 과제로 한다.

상기의 기술적 과제를 달성하기 위한 본 발명은,

질의어 및 피검색 대상이 되는 구문을 구성하는 단어들 중 명사형 단어와, 어근정리를 통해 명사화한 단어만을 분리하는 구문 내 문구처리단계;

상기 구문 내 문구처리단계를 통해 정리된 구문 중 질의어에 포함된 단어들을 포함하는 구문을 1차로 검색하는 검색결과물 검색단계;

상기 검색결과물 검색단계에서 검색된 구문과 질의어 간의 유사성을

을 통해 수치화하되,

이고, 여기서,

는 구문 및 질의에서의 항 i의 가중 빈도이고,

합산은 문서에 나타나는 모든 항에 의한 것이며,

는 구문 또는 질의 내의 항 빈도이고, 상기

는

인 한편, 상기

는 단락 k에서의 항 i의 등장 횟수이며, a는 실험적으로 결정하는 계수인 질의와의 관련성 확인단계; 및,

상기 질의와의 관련성 확인단계의 수치화된 결과물을 기준으로 검색된 구문들의 순위를 결정하는 순위결정단계;

를 포함하는 증거소스 결합을 통한 질의 검색방법이다.

상기의 기술적 과제를 달성하기 위하여 본 발명은, 상기 질의 검색방법에 있어서,

상기 검색결과물 검색단계에서 검색된 구문이 문서 내 구조적 경계에서 시작하는 구문인지, 아니면 끝나는 구문인지를 확인하여 수치화하는 구조적 통합성 확인단계; 또는

상기 검색결과물 검색단계에서 검색된 구문을, 상기 구문 이전의 구문과 이후의 구문들과 단어 간 유사성 정도를 수치화하기 위해 상기 구문들 간의 주제 통합성 점수인

을 적용하되,

상기 S(x)는

이고, b는 상기 윈도우의 시작 위치이며, e는 끝의 위치이고, R(i,j)는 단어 i,j의 관련성이며, a는 계수인 주제 통합성 확인단계;

중 어느 선택된 어느 하나 이상이 더 포함되면서, 상기 질의와의 관련성 확인단계의 수치와 연산하여 구문들의 순위를 결정하는 것이다.

상기 질의와의 관련성 확인단계의 수치 및, 상기 구조적 통합성 확인단계 및/또는 주제 통합성 확인단계의 수치 간의 연산은 곱셈이 적용되는 것이다.

우선, 검색자의 질의에 따른 구문은, 질의와의 관련성이 있어야 하고, 텍스트의 문맥에서 벗어나지 않는 구문이어야 한다. 한편, 상술한 구문들 중 완전한 구문이 되기 위해서는 해당 구문 이전에 소개된 정보를 암시하지 말아야 하고, 개체나 사상의 발전을 언급하지 말아야 한다. 즉, 완전한 구문이란, 해당 텍스트의 줄거리를 포함하거나, 새로운 정보가 시작되는 구문이다.

따라서, 완전한 구문은 검색자가 의도하고 바라는 정보를 가능한 한 포함하 여, 상기 검색자가 해당 구문을 통해 원하는 정보를 효율적으로 제공받을 수 있도록 한다.

이하 본 발명을 첨부된 예시도면에 의거하여 상세히 설명한다.

도 1은 본 발명에 따른 질의 검색방법에 따라 진행되는 질의에 대한 검색과정을 도시한 플로우차트 인바, 이를 참조하여 설명한다.

상술한 바와 같이, 본 발명에 따른 증거소스 결합방법은 검색자가 입력한 질의에 대응하는 최적의 구문을 검색 및 제공하기 위해, 검색 후 순위를 결정하는 과정에서 검색자가 의도하는 정보에 근사한 순으로 검색결과물의 순위를 결정하는 것이다. 이때, 상기 순위결정 시 적용되는 인자인 증거소스들을 이하의 과정을 통해 결합한다.

S10 ; 구문 내 문구처리

도 2는 본 발명에 따른 질의 검색방법에서 구문 내 문구처리 단계의 진행모습을 도시한 도면인바, 이를 참조하여 설명한다.

구문 내 문구처리는 현재 어근처리 및 불용어의 제거를 통해 이루어진다.

도 2에 도시된 바와 같이, They, are, who, are 등은 문장을 이루는 어법을 맞추기 위한 불용어이고, 명사 뒤에 붙은 's'는 명사의 복수를 표현하기 위한 어간으로써, 상기 문서분석모듈(120)은 이들을 제거하여, 순수한 단어단위로 해당 문장을 분류한다.

한글의 경우에는 '조사'와 '대명사' 등이 불용어가 될 수 있을 것이다.

상술한 불용어의 예로서 밝힌 영어 및 한글에서의 대명사는 필요에 따라 불 용어로 기준을 잡을 수도 있고, 단어로도 잡을 수 있는 바, 불용어의 선택은 필요에 따라 그 기준을 변경할 수 있을 것이다.

이렇게 분류된 단어는 단어 기반의 벡터형식으로 집합시켜, 해당 문장별로 각각 분류ㆍ저장한다.

S20 ; 검색결과물 검색

상기 구문 내 문구처리(S10)를 통해 처리된 문구들 중에서 질의 내용에 대응하는 문구를 분류해 낸 후, 분류된 문구를 후보 윈도우로 설정한다.

즉, DB, 아카이버(archiver) 등에 저장된 데이터들 중, 1차적으로 상기 질의에 대응하는 문구를 검색하는 것이다.

상기 후보 윈도우를 설정함에 있어서, 대상 문구의 크기를 제한할 수도 있다. 본 발명에 따른 실시예에서는 상기 후보 윈도우의 크기를 5 내지 1000 단어 사이의 문구로 한정하였으나, 후보 윈도우 설정을 엄격하게 하기 위해 그 크기를 다르게 한정할 수도 있을 것이다.

S30 ; 질의와의 관련성 확인

질의와 구문 간의 관련성 정도를 확인하기 위해서는 다음과 같은 방식들이 적용될 수 있다.

후보 윈도우로 설정된 당해 구문에 상기 질의에 대응하는 정보를 포함할 가능성이 더 많도록 연역적 선택방식이 적용된다. 이때, 상기 구문과 질의 간의 관련성 확인을 위해 상기 구문 내 불용어를 제외한 모든 질의어를 포함하는 후보 윈도우만을 고려한다. 즉, 기 설정된 후보 윈도우들 중 질의의 모든 단어 등이 포함 된 후보 윈도우만을 재설정하고, 본 단계(S30)를 적용하는 것이다.

후보 윈도우와 질의를 비교하기 위해, 본 발명에 따른 실시예에서는 전통적인 벡터 공간 유사성 척도를 사용한다.

도 3은 본 발명에 따른 질의 검색방법에서 적용한 벡터모델의 기하학적 구성의 도면과 수식인바, 이를 참조하여 설명한다.

본 발명에 따른 질의 검색방법에 적용되는 벡터모델은 도 3에 도시된 바와 같으며, 이때 j, k는 용어(단어), S는 문장, W는 가중치를 뜻한다.

이때, 질의 Sk와 구문 Sj 간의 유사성이 유클리드 어파인 공간에서 2개의 벡터 간의 각도로서 표현된다.

여기서, Wij 및 Wik는 각각 구문 및 질의에서의 항 i의 가중 빈도이고,

합산은 문서에 나타나는 모든 항에 의한 것이다. 여기서

는 구문 또는 질의 내의 항 빈도이고, 계수

의 의미는 이하에 기술된다.

용어(단어), 문장 쌍(Sj, Sk)의 가중치 Wij는 양의 비이진 값이며, 문장 Sj의 벡터 Sj (벡터표시를 문서상에서 할 수 없어 상기 '문장'과 '벡터'를 구분하기 위해 벡터값은 진하게 하여 밑줄을 긋습니다.)는 (W1j, W2j, ..., Wtj)로 표현된다. 여기서 t는 시스템 내의 전체 색인어 수이다.

문장 Sj와 문장 Sk는 전체 색인어의 수인 t차원 벡터로 표시된다. 벡터모델에서 문장 Sj와 문장 Sk의 유사도 측정은 두 벡터 Sj 와 Sk 의 상관도로 구할 수 있으며, 이 상관도는 도 1(a)와 같이 두 벡터 간 사이각의 코사인 값으로 도 1(b)의 식과 같이 정량화할 수 있다.

여기서, | Sj |와 | Sk |는 두 문장의 노름(norm)값으로 | Sj |와 | Sk |는 문장 공간의 정규화를 제공한다.

Wij와 Wik가 0보다 크거나 같은 값을 갖기 때문에 sim(Sj, Sk)값은 0과 1 사이의 값이 된다. 따라서, 벡터모델은 문장 간의 관련 유무만을 예측하기보다는 문장 간의 유사도 값에 따라 유사도의 정도를 매길 수 있다. 이는 sim(Sj, Sk)값에 임계값을 두어 그 임계값에 따라 문서 표절 탐색에서 문장의 표절여부를 판단하는 근거로 삼게 된다.

문서 모음의 전역적 문맥(또는 언어)과 주어진 문서의 지역적 문맥을 결합하여 개개 항의 중요도 가중치

를 결정한다. 문서검색에서, 공지의 IDF 가중, 즉

이 사용되며, 대규모 문서가 모음의 일부가 아닌 경우 일반언어 집성으로부터의 숫자가 사용된다. 이때, N은 상기 검색결과물 검색단계(S20)에서 검색된 후보 윈도우의 구문의 전체 수이고, ni는 항 i를 포함하는 구문의 수이다.

구문은 둘러싸고 있는 단락의 순서화된 문맥의 일부이므로, 구문검색은 전체 문서검색에서와는 다르게 진행된다.

우선 구문은, 직접 그 안에 포함되지 않은 구문에 관한 부가정보를 제공한다. 이 정보는 WSD(word sense disambiguation, 단어 의미 모호성 해결) 및 대용 어 해결(anaphora resolution)에서 유용하다. 둘째, 둘러싸고 있는 구문 중 어떤 것은 다른 것들보다 문제의 구문과 더욱 밀접하게 관계되어 있다. 따라서, 본 발명에서는 질의와의 관련성을 확인받는 당해 구문을 둘러싸고 있는 구문을 사용하여 IDF 유사표현을 작성한다. 또한, 질의와 구문과의 근접성을 반영하기 위해 본 발명에서는 선형거리에 따라 감소하는 팡탄한 함수인 [수학식 1]을 통해 표현을 정리한다.

여기서

는 단락 k에서의 항 i의 등장 횟수이며, a는 실험적으로 결정하는 계수이다. 본 발명에 따른 실시예에서는 a를 1로 하였다.

문서에 빈번히 나타나는 단어의 가중치를 감소시키는 것은 검색자가 이미 알고 있는 문서의 일반적 주제를 표현할 가능성이 있기 때문이다.

한편, 본 발명에 따른 검색방법에서는 질의어의 가중치를 조정할 수 있고, 구문의 크기를 제어할 수 있다. 일반적으로, 질의어의 가중치가 높을수록, 검색된 구문이 길다. 이는 불용어가 벡터 길이에 덜 기여하기 때문이다.

S40 ; 구조적 통합성 확인

검색자가 검색한 결과물 제공을 위해 진행되는 상기 검색결과물 검색단계(S20)에서의 후보 윈도우 구문은 완비성이 있어야 한다. 즉, 당해 구문이 앞서 소개된 사상을 발전시키는 내용이거나, 따라오는 다른 구문을 통해 추가 설명이 요구되는 것은 가능한 한 피해야 한다. 따라서, 본 발명에 따른 검색방법은 단락, 절 및 장 등과 같이 문서의 구조적 경계에서 시작하는 구문 및 끝나는 구문을 선순위로 한다.

본 발명에 따른 검색방법에서는 검색된 구문에 대한 순위결정을 위해 제공되는 점수를 결정함에 있어서, 우선 모든 후보 윈도우에 1.0을 부여하고 [표 1]에 기재된 조건에 따라 해당 후보 윈도우에 추가 점수를 부여한다.

경계	구문의 시작	구문의 끝
단락	0.2	0.1
절	1.0	0.3
장	2.0	0.5

S50 ; 주제 통합성 확인

구조적 경계가 항상 텍스트에서의 주제 변화에 대응하는 것은 아니다. 예를 들어, 일군의 단락은 주제 줄거리를 구성할 수 있는 반면, 어떤 긴 단락은 2개 이상의 주제 줄거리를 포함한다. 각각의 후보 윈도우에 대해, 본 발명은 이미지에서 영역경계가 검출되는 방식과 유사하게 그의 경계에서의 주제 변화의 강도를 추정한다. 이는 상기 경계를 기준으로 분리된 문장들을 각각 구성하는 단어의 유사성 정도를 확인함으로서 이루어진다.

상기 단어의 유사성 정도의 확인과정을 예로 들면, '은하계'와 '천문학자'는 '은하계'와 '빵굽는 사람'의 관계보다 더 많이 관련되며, 이러한 관련성을 수량으로 표현하여 이를 객관적으로 가시할 수 있게 한다.

한편, 본 발명에서는 유사성 정도의 확인을 위해 [수학식 2]가 적용된다.

여기서 S는 상기 후보 윈도우의 주제 통합성 점수이고, b는 상기 윈도우의 시작 위치이며, e는 끝의 위치이고, R(i,j)는 단어 i,j의 관련성이며, a는 계수이다. 본 발명은 a=0.05로 하여 연산하였다.

구문 시작의 적절한 정렬이 끝의 정렬보다 더 중요하다.

S60 ; 순위결정

상기 질의와의 관련성 확인단계(S30)와, 구조적 통합성 확인단계(S40) 및 주제 통합성 확인단계(S50)를 통해 도출된 정량화된 결과값을 연산하여 후보 윈도우의 각 구문에 대한 순위를 결정한다.

이때, 각 점수에 대한 연산은 곱셈방식이 적용된다.

따라서, 앞선 각 단계들(S30, S40, S50)을 통해 부여된 점수들 중 어느 한 점수가 질의와 관련성이 없어 O으로 점수가 매겨진 구문은 다른 단계들에 의해 높은 점수를 받더라도 최종 연산값은 0을 받게 된다.

결과적으로, 관련성은 더 많지만 이해도가 떨어지는 구문의 경우에는 검색자가 실제로 검색을 희망하는 정보가 없는 것으로 판단한다. 이는 구문의 완비성을 중요시하는 본 발명의 검색방법이 갖는 효과이다.

S70 ; 결과물 출력

부여된 점수의 연산결과를 기준으로 순위를 결정하고, 이렇게 결정된 구문을 출력한다.

이상 상술한 본 발명에 따른 검색방볍을 실시하여 다음과 같은 결과를 얻을 수 있었다.

이때, 상기 실시는 구문 내 문구처리를 위해 Porter 어근 처리기가 적용되었고, 짧은 구문을 가져오는 질의어에 대해 낮은 가중치를 부여하여, 완전한 문장으로 이루어진 구문만이 검색되도록 하였다.

검색이 이루어지는 텍스트는 164,772 단어로 이루어진 찰스 디킨스의 'A Child's Hidtory of England'이고, 질의어는 'wars between England and France'로 하였다.

검색결과물은 상위 3개의 구문만을 출력하도록 하였는데, 이는 [표 2]와 같다.

RANK	SCORE	PASSAGE
1	0.49	The Queen's husband who was now mostly abroad in hid own dominions and generally made a coarse jest of her to his more familiar courtiers was at war with France and came over to seek the assistance of England. England was very unwilling to engage in a French war for his sake but it happend that the King of France at this very time aided a descent upon the English coast.
2	0.48	As his one merry head might have been far from safe if these things had been known they were kept very quiet and war was declared by France and England against the Dutch.
3	0.46	Same as I plus the continuation:Hence war was declared greatly to Philip's satisfaction and the Queen raised a sun of money with which to carry it on by every unjustifiable means in her power.

[표 2]의 두 번째 구문과 같이 의미론적 처리가 없으면(본 발명에 따른 실시에서는 between을 무시함) 질의와 큰 관련성이 없을 수 있다.

이상 상기와 같은 본 발명에 따르면, 질의에 포함된 단어를 기반으로 한 구문 검색 시, 검색되는 구문의 완전성을 고려함으로서 검색자가 추구하는 검색결과에 근접한 결과물을 제시할 수 있다.

Claims

질의어 및 피검색 대상이 되는 구문을 구성하는 단어들 중 명사형 단어와, 어근정리를 통해 명사화한 단어만을 분리하는 구문 내 문구처리단계;

상기 구문 내 문구처리단계를 통해 정리된 구문 중 질의어에 포함된 단어들을 포함하는 구문을 1차로 검색하는 검색결과물 검색단계;

상기 검색결과물 검색단계에서 검색된 구문과 질의어 간의 유사성을

을 통해 수치화하되,
이고, 여기서,
는 구문 및 질의에서의 항 i의 가중 빈도이고,
합산은 문서에 나타나는 모든 항에 의한 것이며,
는 구문 또는 질의 내의 항 빈도이고, 상기
는
인 한편, 상기
는 주어진 단락 k로부터 문제의 구문까지의 거리(단위 ; 단락)이고, D는 문서 내에서의 이러한 거 리의 최대값이고,
는 단락 k에서의 항 i의 등장 횟수이며, a는 실험적으로 결정하는 계수인 질의와의 관련성 확인단계; 및,

상기 질의와의 관련성 확인단계의 수치화된 결과물을 기준으로 검색된 구문들의 순위를 결정하는 순위결정단계;

를 포함하는 것을 특징으로 하는 증거소스 결합을 통한 질의 검색방법.
제 1 항에 있어서,

상기 검색결과물 검색단계에서 검색된 구문이 문서 내 구조적 경계에서 시작하는 구문인지, 아니면 끝나는 구문인지를 확인하여 수치화하는 구조적 통합성 확인단계; 또는

상기 검색결과물 검색단계에서 검색된 구문을, 상기 구문 이전의 구문과 이후의 구문들과 단어 간 유사성 정도를 수치화하기 위해 상기 구문들 간의 주제 통합성 점수인
을 적용하되,

상기 S(x)는
이고, b는 상기 윈도우의 시작 위치이며, e는 끝의 위치이고, R(i,j)는 단어 i,j의 관련성이며, a는 계수인 주제 통합성 확인단계;

중 어느 선택된 어느 하나 이상이 더 포함되면서, 상기 질의와의 관련성 확인단계의 수치와 연산하여 구문들의 순위를 결정하는 것을 특징으로 하는 증거소스 결합을 통한 질의 검색방법.
제 2 항에 있어서,

상기 질의와의 관련성 확인단계의 수치 및, 상기 구조적 통합성 확인단계 및/또는 주제 통합성 확인단계의 수치 간의 연산은 곱셈이 적용되는 것을 특징으로 하는 증거소스 결합을 통한 질의 검색방법.