KR100490748B1 - 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법 - Google Patents

유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법 Download PDF

Info

Publication number
KR100490748B1
KR100490748B1 KR10-2002-0019647A KR20020019647A KR100490748B1 KR 100490748 B1 KR100490748 B1 KR 100490748B1 KR 20020019647 A KR20020019647 A KR 20020019647A KR 100490748 B1 KR100490748 B1 KR 100490748B1
Authority
KR
South Korea
Prior art keywords
web
search
similarity
homepage
web document
Prior art date
Application number
KR10-2002-0019647A
Other languages
English (en)
Other versions
KR20030080826A (ko
Inventor
이충희
장명길
박상규
나동열
박의규
장중식
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0019647A priority Critical patent/KR100490748B1/ko
Priority to US10/252,439 priority patent/US20030195882A1/en
Publication of KR20030080826A publication Critical patent/KR20030080826A/ko
Application granted granted Critical
Publication of KR100490748B1 publication Critical patent/KR100490748B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

본 발명은 URL 포함 관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색방법에 관한 것이다. 본 발명은 같은 홈페이지에 속하는 웹 문서들의 URL들 간의 포함 관계를 이용하여 웹 문서들 중에서 그 홈페이지의 엔트리 포인트를 찾아내는 기술이다. 본 발명의 핵심은 어떤 문서의 URL이 다른 문서의 URL의 부분열(substring)이면 전자가 후자보다 홈페이지 즉 엔트리 포인트가 될 가능성이 높다는 성질을 이용한 것이다. 즉, 본 발명은 웹 검색에 있어서 종래 정보 검색 기법을 개선하여 홈페이지의 엔트리 포인트가 되는 페이지를 다른 문서들 보다 우선하여 검색되도록 함으로써, 사용자들이 검색된 웹 문서의 URL을 일일이 방문하지 않고도 검색된 웹 문서가 홈페이지인지 여부를 쉽게 알 수 있게 되는 이점이 있으며, 또한 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 정보 즉 홈페이지를 우선적으로 검색하여 줌으로써 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있게 되어 검색이 보다 편리해지는 이점이 있다.

Description

유,알,엘 포함관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색 방법{EFFECTIVE HOMEPAGE SEARCHING METHOD USING SIMILARITY RECALCULATION BASED ON URL SUBSTRING RELATIONSHIP}
본 발명은 홈페이지 검색 방법에 관한 것으로, 특히 URL 포함 관계에 기반한 유사도 재계산을 통한 효과적인 홈페이지 검색방법에 관한 것이다.
웹 환경에 산재해 있는 정보의 양이 방대해짐에 따라, 웹 환경에서의 정보 검색 시스템에 대한 요구가 크게 증가하고 있으나, 지금까지의 전통적인 웹 문서 검색시스템에서는 검색 질의에 포함된 단어들이 나타나는 웹 문서를 검색하여 그것을 결과로서 보여주는 것이 대부분이었다.
즉, 현재 대부분의 웹 검색 시스템은 사용자가 입력한 검색 질의에 대한 검색 결과로서 웹 문서의 열거 형태로만 나타내어 주었으며, 검색 결과는 홈페이지와 그 외 다른 웹 문서들이 섞여 있는 형태였다. 따라서 사용자들은 검색 결과에 대한 URL을 일일이 방문하여 검색된 결과의 URL이 홈페이지인지, 웹 문서인지를 판단하여야 하였다.
한편, 최근 들어 사용자들은 질의에 대한 답으로 웹 문서를 요구하는 것이 아니라 관련된 정보를 포함하고 있는 해당 홈페이지 즉 사이트를 찾아 주기를 원하는 추세에 있다. 따라서 최근의 웹 정보 검색 시스템에서는 종래 전통적인 웹 정보검색 시스템과는 달리, 질의에 대한 답으로 관련된 정보를 포함하고 있는 해당 홈페이지를 우선적으로 검색하여 주도록 요구되고 있다. 이러한 검색을 보통 "홈페이지 검색"이라 부르며, 최근의 웹 검색에서 그 중요성이 매우 증가되고 있는데, 이는 홈페이지가 어떤 주제나 목적을 가지고 만들어지기 때문에 주제나 목적에 해당하는 단어들이 홈페이지내의 여러 웹 문서에 나타나게 되며, 따라서 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 즉 홈페이지를 검색하여 주면 사용자는 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있게 되기 때문이다.
그러나 종래 웹 검색 시스템은 웹 문서와 홈페이지에 대한 구분 없이 검색을 수행하기 때문에 홈페이지도 웹 문서와 같이 검색이 되고 있다. 따라서 홈페이지 검색을 원하는 사용자는 검색된 웹 문서 리스트에서 검색 결과에 대한 URL을 각각 방문하여 홈페이지인지, 웹 문서인지를 확인하고 원하는 홈페이지를 검색하여야 하는 불편함이 있었다.
예를 들어, '연세대학교'라는 검색 질의에 대해서 단순히 웹 문서 검색만을 한다면 '연세대학교'에 해당하는 홈페이지 뿐만 아니라 출신학교가 '연세대학교'인 사람의 웹 문서, '연세대학교'가 후원하고 있는 사이트의 웹 문서, '연세대학교' 내의 여러 웹 문서 등이 검색되어 결과로 제시된다. 그러나 사용자가 진정으로 원하는 것은 연세대학교의 홈페이지 즉 그 엔트리 포인트인 경우, 상기와 같은 연세대학교라는 단어를 가진 여러 문서들이 먼저 제시되는 경우 사용자는 쉽게 원하는 정보를 검색할 수 없게 되는 문제점이 있었다.
이러한 종래 웹 검색 시스템의 단점을 보완하고 홈페이지를 우선적으로 찾아주는 홈페이지 검색을 위해서 최근에는 웹 문서의 URL의 깊이를 이용한 방법에 대한 연구가 활발히 진행되고 있다. 웹 문서의 URL의 깊이를 이용한 방법은 URL의 구성방식을 이용하여 검색된 웹 문서의 URL 이 홈페이지 형태의 URL로 구성되면 홈페이지라고 판단하는 것으로, 이는 단순히 웹 문서의 URL 형태만을 이용하기 때문에 그 정확성에 한계가 있는 문제점이 있었다.
따라서, 본 발명의 목적은 홈페이지 검색에 있어서 종래 검색 기법을 개선하기 위해 URL 포함관계에 기반한 유사도 계산을 통해 효과적으로 홈페이지 검색을 수행할 수 있도록 한 홈페이지 검색 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명은, URL 포함관계에 기반한 유사도 재계산을 통해 효과적으로 홈페이지를 검색하는 방법에 있어서, (a)사용자로부터의 웹 검색 요구에 따라 검색된 웹 문서로부터 일반 텍스트를 추출하는 단계와; (b)상기 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시키는 단계와; (c)상기 웹 문서와 검색 질의의 가중치를 고려하여 웹 문서를 순위화한 검색 결과를 출력시키는 단계와; (d)상기 검색된 웹 문서의 URL 포함관계를 이용하여 상기 순위화된 검색결과 웹 문서들에 대한 유사도를 재계산하는 단계와; (e)상기 재계산된 유사도에 의해 웹 문서의 순위를 재조정하여 홈페이지에 해당하는 웹 문서가 우선 순위가 높게 검색 디스플레이되도록 하는 단계;를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예의 동작을 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따른 URL 포함관계 기반 홈페이지 검색 시스템 구성을 도시한 것이다.
상기 도 1을 참조하면, 중앙처리장치(102)는 URL 포함 관계 기반 홈페이지 검색을 주관하고 검색 시스템내 각 블록의 동작을 제어한다. 주기억장치(106)는 URL 포함관계 기반 홈페이지 검색 시스템의 프로세스 모듈인, 웹 문서 처리부(108), 웹 문서 색인부(110), 웹 문서 검색부(112), 유사도 재계산부(114), 순위 재조정부(116) 등의 소프트웨어 모듈을 구비한다. 중앙처리장치(102)는 홈페이지 검색 요청 수신시 동작 프로그램 진행에 따른 해당 소프트웨어 프로그램 모듈을 주기억장치(106)에 로딩하여 본 발명의 실시 예에 따른 동작을 수행한다. 하드디스크(104)는 검색 대상의 웹 문서 집합(118)과 색인 및 검색을 위한 사전들(120) 그리고 색인 결과 파일인 색인 파일(122)을 저장하고 있다. 입출력 장치(100)는 사용자의 질의를 입력으로 받아 중앙처리장치(102)로 인가하며, 검색 결과를 해당 사용자에게 알리는 역할을 수행한다.
도 2는 상기 도 1의 검색 시스템에서의 본 발명의 실시 예에 따른 웹 검색 개념을 도시한 것이다. 이하 상기 도 1 및 도 2를 참조하여 본 발명의 웹 검색 시스템의 동작을 보다 상세히 설명하기로 한다.
웹 문서 처리부(108)는 종래 텍스트 정보검색의 과정과는 달리, 홈페이지 검색을 위해 웹 문서를 처리하여 일반 텍스트를 추출한다. 즉, 웹 문서 처리부(108)는 웹 문서 집합으로부터 웹 문서에 포함된 특수문자, 불필요한 태그 섹션, 태그 등을 제거하여 일반 텍스트를 추출한다(S1).
그러면 웹 문서 색인부(110)는 웹 문서 처리부(108)로부터 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시킨다(S2). 웹 문서 검색부(112)는 종래 검색 방식을 이용하여 웹 문서와 검색 질의의 가중치를 고려한 유사도 계산 방법에 의하여 웹 문서를 순위화하여 검색 결과를 출력시킨다(S3).
유사도 재계산부(114)는 웹 문서 검색부(112)의 결과들에 URL 포함관계를 적용하여 유사도를 재계산하여 유사도 재계산 검색 결과를 출력시킨다(S4). 이어 순위 조정부(116)는 유사도 재계산부(114)에서 재계산한 유사도에 의하여 웹 문서의 순위를 재조정하고 이로부터 홈페이지 검색 결과를 출력시킨다(S5).
즉, URL 포함관계 기반 홈페이지 검색은 웹 문서 검색부(112)에 의하여 먼저 웹 문서 단위로 검색 결과가 추출되어 표현되는데, 이때 검색 결과는 웹 문서의 색인어와 검색 질의와의 유사도에 의한 순위로 나타내어 진다. 이러한 검색결과는 유사도 재계산부(114)에 의해서 URL 포함관계에 따라 유사도가 재계산되는데, 검색된 웹 문서가 홈페이지일수록 포함하는 문서가 여러 문서이기 때문에 하위 문서수에 의해서 유사도가 증가하는 방식으로 재계산된다.
그리고 이와 같이 유사도 재계산된 검색결과는 순위 재조정부(116)에 의하여 유사도가 높은 순서로 순위가 재조정되어, 재조정된 순위의 상위에는 홈페이지가 나타나게 되기 때문에 홈페이지 여부를 판단할 수 있으며, 이에 따라 판단된 홈페이지가 검색결과로 제시 가능하게 되는 것이다.
이하 상기 웹 검색 시스템의 각 부에서 홈페이지 검색을 위한 동작을 각 부에서의 동작 제어 흐름도를 도시한 도면을 참조하여 설명하기로 한다.
도 3은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 처리부(108)에서의 동작 제어 흐름을 도시한 것이다.
먼저 웹 문서가 입력되는 경우 웹 문서 처리부(108)는 (S300)단계에서 (S302)단계로 진행해서 웹 문서에 포함된 특수문자를 제거시킨다. 이는 상기한 특수문자들은 색인할 필요가 없기 때문이며, 상기 특수문자를 제거한 후 웹 문서 처리부(108)는 (S304), (S306)단계에서 불필요한 태그 섹션 및 태그를 제거시킨다. HTML로 기술된 입력 웹 문서는 텍스트나 그림 등, 다양한 객체의 표시방식을 지정하기 위해 HTML태그들을 사용하는데, 이러한 HTML 태그들은 색인의 대상으로 볼 수 없기 때문에 제거하여야 한다. 이는 대부분의 태그가 문자열 또는 객체의 위치나 크기, 색과 같이 문서에서 표현되는 방법을 지시하고 있을 뿐이기 때문이다.
이에 따라 특수 문자, 태그 및 태그 섹션이 제거된 웹 문서로부터 일반 텍스트를 추출할 수 있게 되는데, 웹 문서 처리부(108)는 (S308)단계에서 입력된 웹 문서로부터 일반 텍스트를 추출한다. 이때 상기 일반 텍스트는 웹 문서내 색인하여야 하는 텍스트로서, (S310)단계에서 웹 문서 색인부(110)로 인가된다.
도 4는 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 색인부(110)에서의 동작 제어 흐름을 도시한 것이다.
상기와 같이 웹 문서 처리부(108)로부터 추출된 일반 텍스트를 인가받는 경우 (S400)단계에서 (S402)단계로 진행해서 상기 일반 텍스트로부터 색인어를 추출하고, 색인어들의 빈도 정보를 계산한다. 이때 웹 문서내에서의 색인어 빈도, 색인어의 문서 빈도 등이 계산된다. 이어 웹 문서 색인부(110)는 (S404)단계에서 상기 추출한 색인어들과 웹 문서 정보를 효율적으로 관리하기 위한 색인 구조를 파일 구조로 생성한다.
도 5는 상기 색인 파일 구조의 일 예를 도시한 것이다. 상기 도 5에서 보여지는 바와 같이 Doclist파일은 색인된 웹 문서의 정보를 저장하기 위하여 사용된다. 이때 저장되는 정보로는 문서 번호, URL 등이 있다. Invert 파일은 추출된 색인어를 저장하기 위해 사용되며, 웹 문서 검색부(112)에서의 빠른 검색이 가능하도록 하는 구조로 설계된다. 이때 저장되는 정보로는 색인어, 색인어 문서 빈도수 등이 있다.
Posting 파일은 색인어가 웹 문서 내에 나타난 빈도수, 색인어가 나타난 문서 번호 등의 정보를 저장하고 있으며, 이는 웹 문서 검색부(112)에서 검색 질의가 나타난 문서들을 검색하는데 사용된다. 이때 상기한 바와 같은 색인 구조로 생성된 색인 파일은 (S406)단계에서 웹 문서 검색부(112)로 인가된다.
도 6은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 웹 문서 검색부(112)에서의 동작 제어 흐름을 도시한 것이다.
먼저 웹 문서 검색부(112)는 (S600)단계에서 상기 웹 문서 색인부(110)에 의하여 생성된 색인 파일과 질의를 입력으로 받고, (S602)단계에서 상기 질의로부터 검색 질의를 추출한 후, (S604)단계에서 상기 추출된 검색 질의를 가지고 문서와 질의 벡터를 구성하게 된다.
이어 웹 문서 검색부(112)는 (S606)단계에서 문서와 질의 벡터로부터 문서와 질의 간 유사도를 계산하며, (S608)단계에서 상기 검색된 각 웹 문서에 대해서 계산한 질의와의 유사도를 이용하여 문서를 순위화시키게 된다. 이때 상기와 같이 순위화된 검색결과는 (S610)단계에서 유사도 재계산부(114)로 인가된다.
도 7은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 유사도 재계산부(114)에서의 동작 제어 흐름을 도시한 것이다.
먼저 유사도 재계산부(114)는 (S700)단계에서 상기 웹 문서 검색부(112)에 의해서 생성된 검색 결과인 문서 리스트를 입력받는 경우, (S702)단계에서 상기 웹 문서의 URL의 포함관계를 이용하여 유사도를 계산한다.
도 8은 상기 URL 포함관계에 대한 일 예를 도시한 것으로, 상기 도 8에서 보여지는 바와 같이 홈페이지 Dh 의 URL "http://huber.lib.edu"는 하위 웹 문서인 Di 와 Dj 의 URL에 포함되어 있다. 즉, 유사도 재계산부(114)에서는 상기 URL의 포함관계를 이용하여 유사도를 계산해내는 것이다.
예를 들어 질의문 "Huber Library"에 대한 검색 결과 및 그 유사도가 아래의 [표1]에서와 같다고 하는 경우,
Dj(http://huber.lib.edu/programs/recent) : 17.5
Di(http://huber.lib.edu/programs) : 14.3
Dh(http://huber.lib.edu) : 11.8
일반적인 웹 문서 검색에 대해서는 위와 같은 순서의 문서리스트를 검색결과로 출력하여 준다. 그러나 홈페이지 검색에 있어서는 홈페이지 Dh 의 유사도가 다른 웹 문서보다 더 높게 되어 상위에 배치된 문서 리스트를 출력하여야 한다. 따라서 유사도 재계산부(114)는 (S702)단계에서 웹 문서 검색부(112)에 의해서 생성된 검색 결과의 각 웹 문서 d에 대해서 웹 문서 d의 URL이 검색 결과내의 다른 웹 문서 b의 URL내에 나타날 때마다, 웹 문서 d의 유사도를 일정한 상수 값만큼 증가시키는 방식으로 각 웹 문서의 유사도를 재계산하게 된다.
상기 유사도 재계산에 대한 식은 아래의 [수학식 1]에서와 같다.
Sim(d)= Sim(d) + α
상기에서 Sim(d)는 검색 질의와 웹 문서 d 사이의 유사도, d는 URL이 다른 웹 문서의 URL에 포함되어 있는 웹 문서, α는 유사도 증가에 해당하는 상수를 나타낸다. 이때 α는 여러 가지 방법으로 정할 수 있는데, 10, 20 등과 같은 고정된 값으로 하거나 검색 결과의 최상위 문서의 유사도 값으로 정할 수도 있다. 후자의 경우 검색 결과마다 능동적으로 α의 값이 변화되게 되는데, 위의 예에 대해서 α를 고정값 "4"로 했을 때의 유사도 재계산에 따른 유사도 값들은 아래의 [표 2]와 같다.
Dj(http://huber.lib.edu/programs/recent) : 17.5
Di(http://huber.lib.edu/programs) : 18.3
Dh(http://huber.lib.edu) : 19.8
상기 [표 2]에서와 같이 Dh 의 유사도가 다른 하위 웹 문서의 유사도보다 많이 증가하게 된다. 이와 같이 재계산된 유사도를 근거로 하여 순위 재조정부(116)에서의 순위 재조정을 거치면 최종 결과로 아래의 [표 3]에서와 같은 문서리스트를 얻게 된다.
Dh(http://huber.lib.edu) : 19.8
Di(http://huber.lib.edu/programs) : 18.3
Dj(http://huber.lib.edu/programs/recent) : 17.5
여기에서 홈페이지인 Dh 문서가 그렇지 않은 다른 문서보다 상위로 올라간 것을 볼 수 있다. 도 9는 상기 URL의 포함관계를 이용하여 홈페이지 웹 문서가 유사도 높은 문서로 재계산되도록 하는 프로그램 소스코드의 일 예를 도시한 것이다. 상기와 같이 유사도 재계산된 문서리스트는 (S704)단계에서 순위 재조정부(116)로 인가된다.
도 10은 본 발명의 실시 예에 따른 웹 검색을 위한 상기 도 1의 순위 재조정부(116)에서의 동작 제어 흐름을 도시한 것이다.
순위 재조정부(116)는 (S900)단계에서 상기 유사도 재계산부(114)로부터 유사도 재계산된 검색 결과를 입력받고, (S902)단계로 진행해서 상기 재계산된 유사도를 이용하여 검색 결과 순위를 재조정하게 된다. 이어 순위 재조정부(116)는 (S904)단계에서 상기 검색된 웹 문서들 중 홈페이지에 해당하는 웹 문서가 우선 순위로 검색 결과로써 디스플레이되도록 한다.
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
이상에서 설명한 바와 같이, 본 발명은 웹 검색에 있어서 종래 정보 검색 기법을 개선하여 홈페이지의 엔트리 포인트가 되는 페이지를 다른 문서들 보다 우선하여 검색되도록 함으로써, 사용자들이 검색된 웹 문서의 URL을 일일이 방문하지 않고도 검색된 웹 문서가 홈페이지인지 여부를 쉽게 알 수 있게 되는 이점이 있으며, 또한 사용자가 입력한 검색 질의가 포함하는 단어를 가지는 웹 문서들의 사이트 정보 즉 홈페이지를 우선적으로 검색하여 줌으로써, 홈페이지를 통해서 더욱 많은 정보를 얻을 수 있도록 하여 검색이 보다 편리해지는 이점이 있다.
도 1은 본 발명의 실시 예에 따른 URL 포함관계 기반 홈페이지 검색 시스템 구성도,
도 2는 본 발명의 실시 예에 따른 URL 포함관계를 이용한 웹 검색 개념을 도시한 도면,
도 3은 상기 도 1의 웹 검색 시스템내 웹 문서 처리부에서의 동작 제어 흐름도,
도 4는 상기 도 1의 웹 검색 시스템내 웹 문서 색인부에서의 동작 제어 흐름도,
도 5는 상기 도 4의 웹 문서 색인부에서 생성되는 색인 파일 구조의 일 예도,
도 6은 상기 도 1의 웹 검색 시스템내 웹 문서 검색부에서의 동작 제어 흐름도,
도 7은 상기 도 1의 웹 검색 시스템내 유사도 재계산부에서의 동작 제어 흐름도,
도 8은 본 발명의 실시 예에 따른 URL 포함관계에 따른 유사도 재계산 개념을 도시한 도면,
도 9는 상기 도 8의 URL의 포함관계를 이용한 유사도 재계산 프로그램 소스코드의 일 예도,
도 10은 상기 도 1의 웹 검색 시스템내 순위 재조정부에서의 동작 제어 흐름도.

Claims (3)

  1. 인터넷으로 연결된 컴퓨터상에서 유,알,엘 포함관계에 기반한 유사도 재계산을 통해 효과적으로 홈페이지를 검색하는 방법에 있어서,
    (a)웹 검색 요구에 응답하여 검색된 웹 문서로부터 일반 텍스트를 추출하는 단계와;
    (b)상기 추출된 일반 텍스트를 색인하여 웹 검색 수행을 위한 색인 파일을 생성시키는 단계와;
    (c)상기 웹 문서와 검색 질의의 가중치를 고려하여 웹 문서를 순위화한 검색 결과를 출력시키는 단계와;
    (d)상기 검색된 웹 문서의 URL 포함관계를 이용하여 상기 순위화된 검색결과 웹 문서들에 대한 유사도를 재계산하는 단계와;
    (e)상기 재계산된 유사도에 의해 웹 문서의 순위를 재조정하여 홈페이지에 해당하는 웹 문서가 우선 순위가 높게 검색 디스플레이되도록 하는 단계;를 포함하는 것을 특징으로 하는 홈페이지 검색 방법.
  2. 제1항에 있어서,
    상기 (d)단계는, (d1)각 웹 문서의 URL간 포함관계를 검사하는 단계와;
    (d2)상기 URL간 포함관계 검사를 통해 다른 웹 문서 URL의 부분 문자열로 구성되는 URL을 가지는 웹 문서의 유사도를 증가시키는 단계;를 포함하는 것을 특징으로 하는 홈페이지 검색 방법.
  3. 제1항에 있어서,
    상기 유사도 재계산은, 특정 웹 문서(D)의 URL이 검색 결과내 다른 웹 문서의 URL내에 나타날 때마다, 상기 원 URL의 웹 문서(D)의 유사도를 아래의 [수학식]에서와 같이 일정한 상수값만큼 증가시키는 것으로 수행되는 것을 특징으로 하는 홈페이지 검색 방법.
    Sim(D)=Sim(D) + α
    Sim(D) : 검색질의와 웹 문서(D)간 유사도
    α: 유사도 증가에 해당하는 상수값
KR10-2002-0019647A 2002-04-11 2002-04-11 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법 KR100490748B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2002-0019647A KR100490748B1 (ko) 2002-04-11 2002-04-11 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
US10/252,439 US20030195882A1 (en) 2002-04-11 2002-09-24 Homepage searching method using similarity recalculation based on URL substring relationship

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0019647A KR100490748B1 (ko) 2002-04-11 2002-04-11 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법

Publications (2)

Publication Number Publication Date
KR20030080826A KR20030080826A (ko) 2003-10-17
KR100490748B1 true KR100490748B1 (ko) 2005-05-24

Family

ID=28786922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0019647A KR100490748B1 (ko) 2002-04-11 2002-04-11 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법

Country Status (2)

Country Link
US (1) US20030195882A1 (ko)
KR (1) KR100490748B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552387B2 (en) * 2003-04-30 2009-06-23 Hewlett-Packard Development Company, L.P. Methods and systems for video content browsing
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7630964B2 (en) * 2005-11-14 2009-12-08 Microsoft Corporation Determining relevance of documents to a query based on identifier distance
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
KR100900467B1 (ko) * 2008-01-16 2009-06-02 넷다이버(주) 개인 미디어 검색 서비스 시스템 및 방법
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
KR101012568B1 (ko) * 2008-09-18 2011-02-07 한밭대학교 산학협력단 순환식 수납장
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167580A (ja) * 1997-12-04 1999-06-22 Nec Corp WebクライアントにおけるURLの自動分類装置及び その方法
JPH11345238A (ja) * 1998-06-02 1999-12-14 Hitachi Ltd www上のHTML文書のキーワード検索の結果の提示方法
KR20010060361A (ko) * 1999-11-20 2001-07-06 주진용 웹 검색사이트의 검색결과 표시방법
KR20010069785A (ko) * 2001-05-11 2001-07-25 이강석 웹사이트 검색결과의 트리구조표시서비스
KR20010082984A (ko) * 2000-02-22 2001-08-31 박봉래 월드와이드 웹페이지를 검색하기 위한 시스템과, 이검색결과를 저장하고, 뷰잉하고, 활용하는 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546529A (en) * 1994-07-28 1996-08-13 Xerox Corporation Method and apparatus for visualization of database search results
US6038610A (en) * 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
US5765149A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Modified collection frequency ranking method
US5847708A (en) * 1996-09-25 1998-12-08 Ricoh Corporation Method and apparatus for sorting information
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
US6751777B2 (en) * 1998-10-19 2004-06-15 International Business Machines Corporation Multi-target links for navigating between hypertext documents and the like
US6366910B1 (en) * 1998-12-07 2002-04-02 Amazon.Com, Inc. Method and system for generation of hierarchical search results
US6434556B1 (en) * 1999-04-16 2002-08-13 Board Of Trustees Of The University Of Illinois Visualization of Internet search information
US6732086B2 (en) * 1999-09-07 2004-05-04 International Business Machines Corporation Method for listing search results when performing a search in a network
US6480837B1 (en) * 1999-12-16 2002-11-12 International Business Machines Corporation Method, system, and program for ordering search results using a popularity weighting
KR100403714B1 (ko) * 2000-06-10 2003-11-01 씨씨알 주식회사 웹문서 레이아웃 이미지 및 웹사이트 구조를 제공하여인터넷 검색을 용이하게 할 수 있는 시스템 및 방법
US6535888B1 (en) * 2000-07-19 2003-03-18 Oxelis, Inc. Method and system for providing a visual search directory
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
US7089237B2 (en) * 2001-01-26 2006-08-08 Google, Inc. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
US20020152262A1 (en) * 2001-04-17 2002-10-17 Jed Arkin Method and system for preventing the infringement of intellectual property rights

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167580A (ja) * 1997-12-04 1999-06-22 Nec Corp WebクライアントにおけるURLの自動分類装置及び その方法
JPH11345238A (ja) * 1998-06-02 1999-12-14 Hitachi Ltd www上のHTML文書のキーワード検索の結果の提示方法
KR20010060361A (ko) * 1999-11-20 2001-07-06 주진용 웹 검색사이트의 검색결과 표시방법
KR20010082984A (ko) * 2000-02-22 2001-08-31 박봉래 월드와이드 웹페이지를 검색하기 위한 시스템과, 이검색결과를 저장하고, 뷰잉하고, 활용하는 방법
KR20010069785A (ko) * 2001-05-11 2001-07-25 이강석 웹사이트 검색결과의 트리구조표시서비스

Also Published As

Publication number Publication date
US20030195882A1 (en) 2003-10-16
KR20030080826A (ko) 2003-10-17

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US7310633B1 (en) Methods and systems for generating textual information
US8224870B1 (en) Data structure for incremental search
US8713024B2 (en) Efficient forward ranking in a search engine
US8452766B1 (en) Detecting query-specific duplicate documents
US7657504B2 (en) User interface for displaying images of sights
US7617197B2 (en) Combined title prefix and full-word content searching
US20110225137A1 (en) Enhancing and optimizing enterprise search
US20020156779A1 (en) Internet search engine
US20080086468A1 (en) Identifying sight for a location
US7765209B1 (en) Indexing and retrieval of blogs
US8812508B2 (en) Systems and methods for extracting phases from text
US20080027928A1 (en) QuickView - combination of system and software components which enables search engine users to quickly identifiying relevant search returned results using visual images as references
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
KR100490748B1 (ko) 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
CN109952571B (zh) 基于上下文的图像搜索结果
KR100643979B1 (ko) 인터넷을 이용한 정보검색 결과 제공방법
US20030018617A1 (en) Information retrieval using enhanced document vectors
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
Ohgaya et al. Conceptual fuzzy sets-based navigation system for Yahoo!
US20130091166A1 (en) Method and apparatus for indexing information using an extended lexicon
US8595225B1 (en) Systems and methods for correlating document topicality and popularity
US20110022591A1 (en) Pre-computed ranking using proximity terms
Barman et al. Ad-hoc information retrieval focused on wikipedia based query expansion and entropy based ranking

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee