KR100490748B1

KR100490748B1 - 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법

Info

Publication number: KR100490748B1
Application number: KR10-2002-0019647A
Authority: KR
Inventors: 이충희; 장명길; 박상규; 나동열; 박의규; 장중식
Original assignee: 한국전자통신연구원
Priority date: 2002-04-11
Filing date: 2002-04-11
Publication date: 2005-05-24
Also published as: US20030195882A1; KR20030080826A

Abstract

본 발명은 URL 포함 관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색방법에 관한 것이다. 본 발명은 같은 홈페이지에 속하는 웹 문서들의 URL들 간의 포함 관계를 이용하여 웹 문서들 중에서 그 홈페이지의 엔트리 포인트를 찾아내는 기술이다. 본 발명의 핵심은 어떤 문서의 URL이 다른 문서의 URL의 부분열(substring)이면 전자가 후자보다 홈페이지 즉 엔트리 포인트가 될 가능성이 높다는 성질을 이용한 것이다. 즉, 본 발명은 웹 검색에 있어서 종래 정보 검색 기법을 개선하여 홈페이지의 엔트리 포인트가 되는 페이지를 다른 문서들 보다 우선하여 검색되도록 함으로써, 사용자들이 검색된 웹 문서의 URL을 일일이 방문하지 않고도 검색된 웹 문서가 홈페이지인지 여부를 쉽게 알 수 있게 되는 이점이 있으며, 또한 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 정보 즉 홈페이지를 우선적으로 검색하여 줌으로써 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있게 되어 검색이 보다 편리해지는 이점이 있다.

Description

유,알,엘 포함관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색 방법{EFFECTIVE HOMEPAGE SEARCHING METHOD USING SIMILARITY RECALCULATION BASED ON URL SUBSTRING RELATIONSHIP}

본 발명은 홈페이지 검색 방법에 관한 것으로, 특히 URL 포함 관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색방법에 관한 것이다.

웹 환경에 산재해 있는 정보의 양이 방대해짐에 따라, 웹 환경에서의 정보 검색 시스템에 대한 요구가 크게 증가하고 있으나, 지금까지의 전통적인 웹 문서 검색시스템에서는 검색 질의에 포함된 단어들이 나타나는 웹 문서를 검색하여 그것을 결과로서 보여주는 것이 대부분이었다.

즉, 현재 대부분의 웹 검색 시스템은 사용자가 입력한 검색 질의에 대한 검색 결과로서 웹 문서의 열거 형태로만 나타내어 주었으며, 검색 결과는 홈페이지와 그 외 다른 웹 문서들이 섞여 있는 형태였다. 따라서 사용자들은 검색 결과에 대한 URL을 일일이 방문하여 검색된 결과의 URL이 홈페이지인지, 웹 문서인지를 판단하여야 하였다.

한편, 최근 들어 사용자들은 질의에 대한 답으로 웹 문서를 요구하는 것이 아니라 관련된 정보를 포함하고 있는 해당 홈페이지 즉 사이트를 찾아 주기를 원하는 추세에 있다. 따라서 최근의 웹 정보 검색 시스템에서는 종래 전통적인 웹 정보검색 시스템과는 달리, 질의에 대한 답으로 관련된 정보를 포함하고 있는 해당 홈페이지를 우선적으로 검색하여 주도록 요구되고 있다. 이러한 검색을 보통 "홈페이지 검색"이라 부르며, 최근의 웹 검색에서 그 중요성이 매우 증가되고 있는데, 이는 홈페이지가 어떤 주제나 목적을 가지고 만들어지기 때문에 주제나 목적에 해당하는 단어들이 홈페이지내의 여러 웹 문서에 나타나게 되며, 따라서 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 즉 홈페이지를 검색하여 주면 사용자는 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있게 되기 때문이다.

그러나 종래 웹 검색 시스템은 웹 문서와 홈페이지에 대한 구분 없이 검색을 수행하기 때문에 홈페이지도 웹 문서와 같이 검색이 되고 있다. 따라서 홈페이지 검색을 원하는 사용자는 검색된 웹 문서 리스트에서 검색 결과에 대한 URL을 각각 방문하여 홈페이지인지, 웹 문서인지를 확인하고 원하는 홈페이지를 검색하여야 하는 불편함이 있었다.

예를 들어, '연세대학교'라는 검색 질의에 대해서 단순히 웹 문서 검색만을 한다면 '연세대학교'에 해당하는 홈페이지 뿐만 아니라 출신학교가 '연세대학교'인 사람의 웹 문서, '연세대학교'가 후원하고 있는 사이트의 웹 문서, '연세대학교' 내의 여러 웹 문서 등이 검색되어 결과로 제시된다. 그러나 사용자가 진정으로 원하는 것은 연세대학교의 홈페이지 즉 그 엔트리 포인트인 경우, 상기와 같은 연세대학교라는 단어를 가진 여러 문서들이 먼저 제시되는 경우 사용자는 쉽게 원하는 정보를 검색할 수 없게 되는 문제점이 있었다.

이러한 종래 웹 검색 시스템의 단점을 보완하고 홈페이지를 우선적으로 찾아주는 홈페이지 검색을 위해서 최근에는 웹 문서의 URL의 깊이를 이용한 방법에 대한 연구가 활발히 진행되고 있다. 웹 문서의 URL의 깊이를 이용한 방법은 URL의 구성방식을 이용하여 검색된 웹 문서의 URL 이 홈페이지 형태의 URL로 구성되면 홈페이지라고 판단하는 것으로, 이는 단순히 웹 문서의 URL 형태만을 이용하기 때문에 그 정확성에 한계가 있는 문제점이 있었다.

따라서, 본 발명의 목적은 홈페이지 검색에 있어서 종래 검색 기법을 개선하기 위해 URL 포함관계에 기반한 유사도 계산을 통해 효과적으로 홈페이지 검색을 수행할 수 있도록 한 홈페이지 검색 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 발명은, URL 포함관계에 기반한 유사도 재계산을 통해 효과적으로 홈페이지를 검색하는 방법에 있어서, (a)사용자로부터의 웹 검색 요구에 따라 검색된 웹 문서로부터 일반 텍스트를 추출하는 단계와; (b)상기 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시키는 단계와; (c)상기 웹 문서와 검색 질의의 가중치를 고려하여 웹 문서를 순위화한 검색 결과를 출력시키는 단계와; (d)상기 검색된 웹 문서의 URL 포함관계를 이용하여 상기 순위화된 검색결과 웹 문서들에 대한 유사도를 재계산하는 단계와; (e)상기 재계산된 유사도에 의해 웹 문서의 순위를 재조정하여 홈페이지에 해당하는 웹 문서가 우선 순위가 높게 검색 디스플레이되도록 하는 단계;를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예의 동작을 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 URL 포함관계 기반 홈페이지 검색 시스템 구성을 도시한 것이다.

상기 도 1을 참조하면, 중앙처리장치(102)는 URL 포함 관계 기반 홈페이지 검색을 주관하고 검색 시스템내 각 블록의 동작을 제어한다. 주기억장치(106)는 URL 포함관계 기반 홈페이지 검색 시스템의 프로세스 모듈인, 웹 문서 처리부(108), 웹 문서 색인부(110), 웹 문서 검색부(112), 유사도 재계산부(114), 순위 재조정부(116) 등의 소프트웨어 모듈을 구비한다. 중앙처리장치(102)는 홈페이지 검색 요청 수신시 동작 프로그램 진행에 따른 해당 소프트웨어 프로그램 모듈을 주기억장치(106)에 로딩하여 본 발명의 실시 예에 따른 동작을 수행한다. 하드디스크(104)는 검색 대상의 웹 문서 집합(118)과 색인 및 검색을 위한 사전들(120) 그리고 색인 결과 파일인 색인 파일(122)을 저장하고 있다. 입출력 장치(100)는 사용자의 질의를 입력으로 받아 중앙처리장치(102)로 인가하며, 검색 결과를 해당 사용자에게 알리는 역할을 수행한다.

도 2는 상기 도 1의 검색 시스템에서의 본 발명의 실시 예에 따른 웹 검색 개념을 도시한 것이다. 이하 상기 도 1 및 도 2를 참조하여 본 발명의 웹 검색 시스템의 동작을 보다 상세히 설명하기로 한다.

웹 문서 처리부(108)는 종래 텍스트 정보검색의 과정과는 달리, 홈페이지 검색을 위해 웹 문서를 처리하여 일반 텍스트를 추출한다. 즉, 웹 문서 처리부(108)는 웹 문서 집합으로부터 웹 문서에 포함된 특수문자, 불필요한 태그 섹션, 태그 등을 제거하여 일반 텍스트를 추출한다(S1).

그러면 웹 문서 색인부(110)는 웹 문서 처리부(108)로부터 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시킨다(S2). 웹 문서 검색부(112)는 종래 검색 방식을 이용하여 웹 문서와 검색 질의의 가중치를 고려한 유사도 계산 방법에 의하여 웹 문서를 순위화하여 검색 결과를 출력시킨다(S3).

유사도 재계산부(114)는 웹 문서 검색부(112)의 결과들에 URL 포함관계를 적용하여 유사도를 재계산하여 유사도 재계산 검색 결과를 출력시킨다(S4). 이어 순위 조정부(116)는 유사도 재계산부(114)에서 재계산한 유사도에 의하여 웹 문서의 순위를 재조정하고 이로부터 홈페이지 검색 결과를 출력시킨다(S5).

즉, URL 포함관계 기반 홈페이지 검색은 웹 문서 검색부(112)에 의하여 먼저 웹 문서 단위로 검색 결과가 추출되어 표현되는데, 이때 검색 결과는 웹 문서의 색인어와 검색 질의와의 유사도에 의한 순위로 나타내어 진다. 이러한 검색결과는 유사도 재계산부(114)에 의해서 URL 포함관계에 따라 유사도가 재계산되는데, 검색된 웹 문서가 홈페이지일수록 포함하는 문서가 여러 문서이기 때문에 하위 문서수에 의해서 유사도가 증가하는 방식으로 재계산된다.

그리고 이와 같이 유사도 재계산된 검색결과는 순위 재조정부(116)에 의하여 유사도가 높은 순서로 순위가 재조정되어, 재조정된 순위의 상위에는 홈페이지가 나타나게 되기 때문에 홈페이지 여부를 판단할 수 있으며, 이에 따라 판단된 홈페이지가 검색결과로 제시 가능하게 되는 것이다.

이하 상기 웹 검색 시스템의 각 부에서 홈페이지 검색을 위한 동작을 각 부에서의 동작 제어 흐름도를 도시한 도면을 참조하여 설명하기로 한다.

도 3은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 처리부(108)에서의 동작 제어 흐름을 도시한 것이다.

먼저 웹 문서가 입력되는 경우 웹 문서 처리부(108)는 (S300)단계에서 (S302)단계로 진행해서 웹 문서에 포함된 특수문자를 제거시킨다. 이는 상기한 특수문자들은 색인할 필요가 없기 때문이며, 상기 특수문자를 제거한 후 웹 문서 처리부(108)는 (S304), (S306)단계에서 불필요한 태그 섹션 및 태그를 제거시킨다. HTML로 기술된 입력 웹 문서는 텍스트나 그림 등, 다양한 객체의 표시방식을 지정하기 위해 HTML태그들을 사용하는데, 이러한 HTML 태그들은 색인의 대상으로 볼 수 없기 때문에 제거하여야 한다. 이는 대부분의 태그가 문자열 또는 객체의 위치나 크기, 색과 같이 문서에서 표현되는 방법을 지시하고 있을 뿐이기 때문이다.

이에 따라 특수 문자, 태그 및 태그 섹션이 제거된 웹 문서로부터 일반 텍스트를 추출할 수 있게 되는데, 웹 문서 처리부(108)는 (S308)단계에서 입력된 웹 문서로부터 일반 텍스트를 추출한다. 이때 상기 일반 텍스트는 웹 문서내 색인하여야 하는 텍스트로서, (S310)단계에서 웹 문서 색인부(110)로 인가된다.

도 4는 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 색인부(110)에서의 동작 제어 흐름을 도시한 것이다.

상기와 같이 웹 문서 처리부(108)로부터 추출된 일반 텍스트를 인가받는 경우 (S400)단계에서 (S402)단계로 진행해서 상기 일반 텍스트로부터 색인어를 추출하고, 색인어들의 빈도 정보를 계산한다. 이때 웹 문서내에서의 색인어 빈도, 색인어의 문서 빈도 등이 계산된다. 이어 웹 문서 색인부(110)는 (S404)단계에서 상기 추출한 색인어들과 웹 문서 정보를 효율적으로 관리하기 위한 색인 구조를 파일 구조로 생성한다.

도 5는 상기 색인 파일 구조의 일 예를 도시한 것이다. 상기 도 5에서 보여지는 바와 같이 Doclist파일은 색인된 웹 문서의 정보를 저장하기 위하여 사용된다. 이때 저장되는 정보로는 문서 번호, URL 등이 있다. Invert 파일은 추출된 색인어를 저장하기 위해 사용되며, 웹 문서 검색부(112)에서의 빠른 검색이 가능하도록 하는 구조로 설계된다. 이때 저장되는 정보로는 색인어, 색인어 문서 빈도수 등이 있다.

Posting 파일은 색인어가 웹 문서 내에 나타난 빈도수, 색인어가 나타난 문서 번호 등의 정보를 저장하고 있으며, 이는 웹 문서 검색부(112)에서 검색 질의가 나타난 문서들을 검색하는데 사용된다. 이때 상기한 바와 같은 색인 구조로 생성된 색인 파일은 (S406)단계에서 웹 문서 검색부(112)로 인가된다.

도 6은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 검색부(112)에서의 동작 제어 흐름을 도시한 것이다.

먼저 웹 문서 검색부(112)는 (S600)단계에서 상기 웹 문서 색인부(110)에 의하여 생성된 색인 파일과 질의를 입력으로 받고, (S602)단계에서 상기 질의로부터 검색 질의를 추출한 후, (S604)단계에서 상기 추출된 검색 질의를 가지고 문서와 질의 벡터를 구성하게 된다.

이어 웹 문서 검색부(112)는 (S606)단계에서 문서와 질의 벡터로부터 문서와 질의 간 유사도를 계산하며, (S608)단계에서 상기 검색된 각 웹 문서에 대해서 계산한 질의와의 유사도를 이용하여 문서를 순위화시키게 된다. 이때 상기와 같이 순위화된 검색결과는 (S610)단계에서 유사도 재계산부(114)로 인가된다.

도 7은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 유사도 재계산부(114)에서의 동작 제어 흐름을 도시한 것이다.

먼저 유사도 재계산부(114)는 (S700)단계에서 상기 웹 문서 검색부(112)에 의해서 생성된 검색 결과인 문서 리스트를 입력받는 경우, (S702)단계에서 상기 웹 문서의 URL의 포함관계를 이용하여 유사도를 계산한다.

도 8은 상기 URL 포함관계에 대한 일 예를 도시한 것으로, 상기 도 8에서 보여지는 바와 같이 홈페이지 D_h 의 URL "http://huber.lib.edu"는 하위 웹 문서인 D_i 와 D_j 의 URL에 포함되어 있다. 즉, 유사도 재계산부(114)에서는 상기 URL의 포함관계를 이용하여 유사도를 계산해내는 것이다.

예를 들어 질의문 "Huber Library"에 대한 검색 결과 및 그 유사도가 아래의 [표1]에서와 같다고 하는 경우,

D_j(http://huber.lib.edu/programs/recent) :	17.5
D_i(http://huber.lib.edu/programs) :	14.3
D_h(http://huber.lib.edu) :	11.8

일반적인 웹 문서 검색에 대해서는 위와 같은 순서의 문서리스트를 검색결과로 출력하여 준다. 그러나 홈페이지 검색에 있어서는 홈페이지 D_h 의 유사도가 다른 웹 문서보다 더 높게 되어 상위에 배치된 문서 리스트를 출력하여야 한다. 따라서 유사도 재계산부(114)는 (S702)단계에서 웹 문서 검색부(112)에 의해서 생성된 검색 결과의 각 웹 문서 d에 대해서 웹 문서 d의 URL이 검색 결과내의 다른 웹 문서 b의 URL내에 나타날 때마다, 웹 문서 d의 유사도를 일정한 상수 값만큼 증가시키는 방식으로 각 웹 문서의 유사도를 재계산하게 된다.

상기 유사도 재계산에 대한 식은 아래의 [수학식 1]에서와 같다.

Sim(d)= Sim(d) + α

상기에서 Sim(d)는 검색 질의와 웹 문서 d 사이의 유사도, d는 URL이 다른 웹 문서의 URL에 포함되어 있는 웹 문서, α는 유사도 증가에 해당하는 상수를 나타낸다. 이때 α는 여러 가지 방법으로 정할 수 있는데, 10, 20 등과 같은 고정된 값으로 하거나 검색 결과의 최상위 문서의 유사도 값으로 정할 수도 있다. 후자의 경우 검색 결과마다 능동적으로 α의 값이 변화되게 되는데, 위의 예에 대해서 α를 고정값 "4"로 했을 때의 유사도 재계산에 따른 유사도 값들은 아래의 [표 2]와 같다.

D_j(http://huber.lib.edu/programs/recent) :	17.5
D_i(http://huber.lib.edu/programs) :	18.3
D_h(http://huber.lib.edu) :	19.8

상기 [표 2]에서와 같이 D_h 의 유사도가 다른 하위 웹 문서의 유사도보다 많이 증가하게 된다. 이와 같이 재계산된 유사도를 근거로 하여 순위 재조정부(116)에서의 순위 재조정을 거치면 최종 결과로 아래의 [표 3]에서와 같은 문서리스트를 얻게 된다.

D_h(http://huber.lib.edu) :	19.8
D_i(http://huber.lib.edu/programs) :	18.3
D_j(http://huber.lib.edu/programs/recent) :	17.5

여기에서 홈페이지인 D_h 문서가 그렇지 않은 다른 문서보다 상위로 올라간 것을 볼 수 있다. 도 9는 상기 URL의 포함관계를 이용하여 홈페이지 웹 문서가 유사도 높은 문서로 재계산되도록 하는 프로그램 소스코드의 일 예를 도시한 것이다. 상기와 같이 유사도 재계산된 문서리스트는 (S704)단계에서 순위 재조정부(116)로 인가된다.

도 10은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 순위 재조정부(116)에서의 동작 제어 흐름을 도시한 것이다.

순위 재조정부(116)는 (S900)단계에서 상기 유사도 재계산부(114)로부터 유사도 재계산된 검색 결과를 입력받고, (S902)단계로 진행해서 상기 재계산된 유사도를 이용하여 검색 결과 순위를 재조정하게 된다. 이어 순위 재조정부(116)는 (S904)단계에서 상기 검색된 웹 문서들 중 홈페이지에 해당하는 웹 문서가 우선 순위로 검색 결과로써 디스플레이되도록 한다.

한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

이상에서 설명한 바와 같이, 본 발명은 웹 검색에 있어서 종래 정보 검색 기법을 개선하여 홈페이지의 엔트리 포인트가 되는 페이지를 다른 문서들 보다 우선하여 검색되도록 함으로써, 사용자들이 검색된 웹 문서의 URL을 일일이 방문하지 않고도 검색된 웹 문서가 홈페이지인지 여부를 쉽게 알 수 있게 되는 이점이 있으며, 또한 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 정보 즉 홈페이지를 우선적으로 검색하여 줌으로써, 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있도록 하여 검색이 보다 편리해지는 이점이 있다.

도 1은 본 발명의 실시 예에 따른 URL 포함관계 기반 홈페이지 검색 시스템 구성도,

도 2는 본 발명의 실시 예에 따른 URL 포함관계를 이용한 웹 검색 개념을 도시한 도면,

도 3은 상기 도 1의 웹 검색 시스템내 웹 문서 처리부에서의 동작 제어 흐름도,

도 4는 상기 도 1의 웹 검색 시스템내 웹 문서 색인부에서의 동작 제어 흐름도,

도 5는 상기 도 4의 웹 문서 색인부에서 생성되는 색인 파일 구조의 일 예도,

도 6은 상기 도 1의 웹 검색 시스템내 웹 문서 검색부에서의 동작 제어 흐름도,

도 7은 상기 도 1의 웹 검색 시스템내 유사도 재계산부에서의 동작 제어 흐름도,

도 8은 본 발명의 실시 예에 따른 URL 포함관계에 따른 유사도 재계산 개념을 도시한 도면,

도 9는 상기 도 8의 URL의 포함관계를 이용한 유사도 재계산 프로그램 소스코드의 일 예도,

도 10은 상기 도 1의 웹 검색 시스템내 순위 재조정부에서의 동작 제어 흐름도.

Claims

인터넷으로 연결된 컴퓨터상에서 유,알,엘 포함관계에 기반한 유사도 재계산을 통해 효과적으로 홈페이지를 검색하는 방법에 있어서,

(a)웹 검색 요구에 응답하여 검색된 웹 문서로부터 일반 텍스트를 추출하는 단계와;

(b)상기 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시키는 단계와;

(c)상기 웹 문서와 검색 질의의 가중치를 고려하여 웹 문서를 순위화한 검색 결과를 출력시키는 단계와;

(d)상기 검색된 웹 문서의 URL 포함관계를 이용하여 상기 순위화된 검색결과 웹 문서들에 대한 유사도를 재계산하는 단계와;

(e)상기 재계산된 유사도에 의해 웹 문서의 순위를 재조정하여 홈페이지에 해당하는 웹 문서가 우선 순위가 높게 검색 디스플레이되도록 하는 단계;를 포함하는 것을 특징으로 하는 홈페이지 검색 방법.
제1항에 있어서,

상기 (d)단계는, (d1)각 웹 문서의 URL간 포함관계를 검사하는 단계와;

(d2)상기 URL간 포함관계 검사를 통해 다른 웹 문서 URL의 부분 문자열로 구성되는 URL을 가지는 웹 문서의 유사도를 증가시키는 단계;를 포함하는 것을 특징으로 하는 홈페이지 검색 방법.
제1항에 있어서,

상기 유사도 재계산은, 특정 웹 문서(D)의 URL이 검색 결과내 다른 웹 문서의 URL내에 나타날 때마다, 상기 원 URL의 웹 문서(D)의 유사도를 아래의 [수학식]에서와 같이 일정한 상수값만큼 증가시키는 것으로 수행되는 것을 특징으로 하는 홈페이지 검색 방법.

Sim(D)=Sim(D) + α

Sim(D) : 검색질의와 웹 문서(D)간 유사도

α: 유사도 증가에 해당하는 상수값