KR20000058741A - 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치 - Google Patents

분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치 Download PDF

Info

Publication number
KR20000058741A
KR20000058741A KR1020000035723A KR20000035723A KR20000058741A KR 20000058741 A KR20000058741 A KR 20000058741A KR 1020000035723 A KR1020000035723 A KR 1020000035723A KR 20000035723 A KR20000035723 A KR 20000035723A KR 20000058741 A KR20000058741 A KR 20000058741A
Authority
KR
South Korea
Prior art keywords
search
search engine
group
query
user terminal
Prior art date
Application number
KR1020000035723A
Other languages
English (en)
Other versions
KR100335173B1 (ko
Inventor
한희준
Original Assignee
전제철
주식회사 디지탈드림
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전제철, 주식회사 디지탈드림 filed Critical 전제철
Priority to KR1020000035723A priority Critical patent/KR100335173B1/ko
Publication of KR20000058741A publication Critical patent/KR20000058741A/ko
Application granted granted Critical
Publication of KR100335173B1 publication Critical patent/KR100335173B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)

Abstract

본 발명은 웹 상에서 정보를 검색하는 검색엔진에 관한 것이다.
본 발명에 의한 분산/병렬 처리 검색엔진은 통합장치; 및 통합장치에 연결된 다수의 동종의 그룹 검색엔진들을 포함한다. 통합장치는 사용자 단말기로부터 전달받은 질의어를 처리하는 질의어처리부를 구비하고, 질의어처리부에 의해 질의어에서 분류된 키워드들을 선택된 그룹 검색엔진들에 각각 전달하고, 선택된 그룹 검색엔진들로부터의 전달받은 인덱스들을 통합하여 질의어처리부에 의해 연산처리한 검색결과를 사용자 단말기에 전달한다. 다수의 그룹 검색엔진들은 각각 통합장치로부터 전달받은 키워드를 하나 이상의 검색부들에 각각 전달하고, 하나 이상의 검색부들에서 검색된 인덱스들을 통합장치에 전달하는 중계부; 및 각각 상호 독립된 그룹 도메인리스트에서 웹 문서들을 수집하고, 중계부로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 중계부에 전달하는 하나 이상의 검색부들을 구비한다.
본 발명에 의하면, 웹 문서가 증가하더라도 검색부에 대응하는 프로세스의 수를 증가시켜 기존의 응답시간과 큰 차이없이 검색작업을 수행할 수 있다. 또한, 웹 문서 수집작업을 분산시킴으로써, 하나의 방대한 양의 수집문서를 하나의 검색엔진이 관리하는 것이 아니라, 다수의 검색엔진들이 자신의 소규모의 수집문서들을 관리하게 되어, 수집문서의 갱신주기를 좀 더 짧게 할 수 있다.

Description

분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용 검색엔진 제공장치{Distributed/parallel processing search engine, search method and personal search engine providing apparatus}
본 발명은 웹 상에서 정보를 검색하는 검색엔진에 관한 것이다.
월드 와이드 웹(World Wide Web : 이하에서 "웹"이라 한다)은 1980년대 말에 탄생되었는데, 그 당시 어느 누구도 웹이 현재 사회에 끼치고 있는 영향에 대해서 상상하지 못했다. 최근, 검색엔진 전문 개발업체인 INKTOMI와 NEC 연구소가 공동으로 시행한 1차 웹 연구결과 발표에 의하면, 연구결과 발표 현재 이용 가능한 웹 문서의 수가 10억 개를 넘어섰고, 2002년에는 이용가능한 웹 문서의 수가 80억 개로 늘어날 것이라 한다. 하지만, 웹은 기하학적인 비율로 성장해 왔고, 앞으로도 이런 추세로 성장해 갈 것이기 때문에, 어느 누구도 정확히 웹의 성장세를 예견할 수 없는 상황이다.
이와 같이, 수집해야 될 웹 문서의 양이 점점 더 많아지면서, 기존의 검색엔진에서 수집문서를 관리하는데 드는 비용도 더욱 늘어나고 있다. 즉, 이용되는 검색엔진의 검색과 인덱싱 비용은 기본적으로 수집문서의 양과 비례하여 성장한다. 그래서, 수집문서가 많아질수록, 반드시 응답시간이 길어진다.
또한, 수집문서의 양의 많아지면, 수집문서를 갱신하는 주기가 커지게 된다. 수집문서의 갱신주기가 커지면 커질수록, 수집문서의 현재상태를 제대로 반영하기가 힘들다. 그래서, 새롭게 등록된 웹 페이지를 수집하는 시간이 오래 걸리고, 수집문서들 중에서 이미 삭제되었거나 변경된 웹 페이지에 대해서는 상당기간동안 사용자에게 잘못된 검색결과를 주게 된다.
종래의 기술에 의한 검색엔진들은 디렉토리 검색엔진, 로봇 검색엔진 및 메타 검색엔진으로 분류된다.
디렉토리 검색엔진이란, 웹 문서의 수집 작업을 사람이 직접 수행하고, 수집된 문서에 대한 가공도 사람이 직접 처리해서 수집문서를 구축하고, 이를 통해 사용자의 질의를 처리하는 검색엔진이다. 이때, 수집문서 구축 작업을 하는 사람을 일컬어 웹 서퍼(web surfer)라고 한다. 대표적인 검색엔진인 "Yahoo"가 바로 디렉토리 검색엔진에 속한다. 디렉토리 검색엔진에서는 웹 서퍼들이 수집문서를 구축하므로, 정보의 질적인 면에서 상당히 높다. 하지만, 웹 서퍼들의 문서수집 능력에 한계가 있기 때문에, 양적인 면에서 상당히 떨어진다는 단점을 가지고 있다.
로봇 검색엔진이란, 웹 문서의 수집 작업을 웹 서퍼가 아닌 로봇(혹은 스파이더)이라는 에이전트가 수행하고, 수집된 문서에 대한 가공도 로봇이 수행하여 수집문서를 구축한 후, 이를 통해 사용자의 질의를 처리하는 검색엔진이다. 최근, 거의 모든 검색엔진들이 로봇 검색엔진에 속한다. 물론, 디렉토리 검색엔진에도 나름대로 훌륭한 장점을 가지고 있기 때문에, 거의 대부분의 검색엔진들이 디렉토리 검색엔진 서비스도 병행하고 있다. 문서수집이 로봇에 의해 수행되면, 일단 많은 양의 수집문서를 구축할 수 있다. 하지만, 로봇이 하나의 특정 알고리즘에 의해서 수행되기 때문에, 정보의 질적인 면에서 상당히 떨어진다는 단점을 가진다.
메타 검색엔진이란 자기 자신의 검색엔진 모듈을 가지고 있지 않고, 기존에 존재하는 여러 검색엔진을 이용하여 사용자의 질의를 처리하는 검색엔진이다. 메터 검색엔진은 사용자가 동시에 여러 종류의 검색엔진에서 질의 처리 결과를 얻고자 할 때, 유용하게 사용된다. 메타 검색엔진은 사용자에게 질의를 받아 기존의 검색엔진들에게 그 질의를 넘겨주고, 다시 기존 검색엔진들에게서 받은 검색결과를 합병하여 사용자에게 전달한다. 이렇게 메타 검색엔진 자체가 간단히 구현될 수 있기 때문에, 메타 검색엔진은 수많은 개인 사용자에 의해서 구축되어 있다. 대한민국 검색엔진들 중에서 "와카노"가 메타 검색 서비스를 하고 있다. 하지만, 메타검색에서 사용 되는 검색엔진들은 서로 다른 종류의 검색엔진들로 구성된다. 그렇기 때문에, 질의 입력 방식, 수집문서의 스키마, 검색 결과의 구성방식이 전혀 다르고, 검색결과의 우선순위 또한 전혀 다르다. 따라서 질의 입력과정과 검색결과의 합병과정은 메타 검색의 구축에 있어 가장 어려운 부분으로 인식되고 있다. 그래서 메타검색의 질의 입력 방식은 매우 단순하고, 그 검색 결과는 상당히 난잡하고 이해하기 어렵다는 단점을 가진다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 사용자 질의를 병렬처리하여 보다 빠른 응답시간 내에 검색결과를 제공할 수 있고, 수집문서의 관리작업을 분산처리하여 수집문서의 갱신 주기를 보다 짧게 할 수 있는 분산/병렬 처리 검색엔진 및 그 검색방법을 제공함을 목적으로 한다.
또한, 사용자에게 문서를 수집하기 위한 개인 도메인리스트를 구축하고, 특정 그룹 또는 웹 전체에서 검색을 수행할 수 있도록 하는 개인용 검색엔진을 제공하는 개인용 검색엔진 제공장치를 제공함을 목적으로 한다.
도 1은 일반적인 검색엔진의 구성을 예시적으로 도시한 것이다.
도 2는 본 발명에 의한 분산/병렬 처리 검색엔진의 일 실시예를 도시한 것이다.
도 3은 본 발명에 의한 분산/병렬 처리 검색엔진의 다른 실시예를 도시한 것이다.
도 4는 본 발명에 의한 개인용 검색엔진 제공장치의 구성을 개략적으로 도시한 것이다.
도 5는 본 발명에 의한 개인용 검색엔진 제공 과정 및 개인용 검색엔진에 의한 검색과정을 설명하기 위한 것이다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 분산/병렬 처리 검색엔진의 일측면은 통합장치; 및 상기 통합장치에 연결된 다수의 동종의 그룹 검색엔진들을 포함하고, 상기 통합장치는 사용자 단말기로부터 전달받은 질의어를 처리하는 질의어처리부를 구비하고, 상기 질의어처리부에 의해 상기 질의어에서 분류된 키워드들을 상기 다수의 그룹 검색엔진들 중 선택된 그룹 검색엔진들에 각각 전달하고, 상기 선택된 그룹 검색엔진들로부터의 전달받은 인덱스들을 통합하여 상기 질의어처리부에 의해 연산처리한 검색결과를 사용자 단말기에 전달하고, 상기 다수의 그룹 검색엔진들은 각각 상기 통합장치로부터 전달받은 키워드를 하나 이상의 검색부들에 각각 전달하고, 하나 이상의 검색부들에서 검색된 인덱스들을 상기 통합장치에 전달하는 중계부; 및 각각 상호 독립된 그룹 도메인리스트에서 웹 문서들을 수집하고, 상기 중계부로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 중계부에 전달하는 하나 이상의 검색부들을 구비한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 분산/병렬 처리 검색엔진의 다른 측면은 통합장치; 및 상기 통합장치에 연결된 다수의 동종의 그룹 검색엔진들을 포함하고, 상기 통합장치는 사용자 단말기로부터 전달받은 질의어를 상기 다수의 그룹 검색엔진들 중 선택된 그룹 검색엔진들에 각각 전달하고, 상기 선택된 그룹 검색엔진들로부터의 전달받은 검색 결과를 통합하여 상기 사용자 단말기에 전달하고, 상기 다수의 그룹 검색엔진들은 각각 상기 통합장치로부터 전달받은 질의어를 처리하는 질의어처리부를 구비하고, 상기 질의어처리부에 의해 상기 질의어에서 분류된 키워드들을 하나 이상의 검색부들에 각각 전달하고, 하나 이상의 검색부들에서 검색된 인덱스들을 통합하여 상기 질의어처리부에 의해 연산처리한 검색 결과를 상기 통합장치에 전달하는 중계부; 및 각각 상호 독립된 그룹도메인리스트에서 웹 문서들을 수집하고, 상기 중계부로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 중계부에 전달하는 하나 이상의 검색부들을 구비한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 분산/병렬 처리 검색방법의 일측면은 (a) 사용자 단말기로부터 인터넷을 통해 질의어를 전달받는 단계; (b) 상기 질의어를 분석하여 상기 질의어에 포함된 키워드들을 추출하고, 추출된 키워드에 대한 검색을 선택된 하나 이상의 동종의 그룹 검색엔진들에 요청하는 단계; (c) 각 그룹 검색엔진에 구비되고, 각각 독립된 그룹 도메인리스트를 지니는 다수의 검색 프로세스에 의해 병렬적으로 상기 추출된 키워드에 대한 인덱스를 검색하는 단계; 및 (d) 선택된 하나 이상의 그룹 검색엔진들에서 검색된 인덱스들을 통합하고, 상기 질의어에 포함된 연산자에 의해 연산처리한 연산결과를 사용자 단말기에 전달하는 단계를 포함한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 분산/병렬 처리 검색방법의 다른 측면은 (a) 사용자 단말기로부터 인터넷을 통해 질의어를 전달받는 단계; (b) 다수의 동종의 그룹 검색엔진들 중에서 선택된 하나 이상의 그룹 검색엔진들에 상기 질의어에 대한 검색을 요청하는 단계; (c) 각 그룹 검색엔진별로 상기 질의어를 분석하여 상기 질의어에 포함된 키워드들을 추출하는 단계; (d) 각 그룹 검색엔진에 구비되고, 각각 독립된 그룹 도메인리스트를 지니는 다수의 검색 프로세스에 의해 병렬적으로 상기 추출된 키워드에 대한 인덱스를 검색하는 단계; (e) 각 그룹 검색엔진별로 검색된 인덱스들을 상기 질의어에 포함된 연산자에 의해 연산처리하여 검색결과를 생성하는 단계; 및 (f) 선택된 하나 이상의 그룹 검색엔진들에서 생성된 검색결과들을 통합하여 사용자 단말기에 전달하는 단계를 포함한다.
상기의 또 다른 목적을 달성하기 위하여, 본 발명에 의한 인터넷 상에서 사용자 단말기에 개인용 검색엔진을 제공하는 개인용 검색엔진 제공장치는 저장 장치; 상기 저장장치에 연결된 프로세서를 포함하고, 상기 저장 장치는 검색엔진프로그램 및 상기 프로세서를 제어하는 검색엔진제공프로그램을 저장하고, 상기 검색엔진제공프로그램은 (a1) 인터넷을 통해 접속된 사용자 단말기로부터 회원등록 정보를 전달받고, 사용자를 회원등록하는 회원등록모듈; 및 (a2) 회원등록된 사용자의 요청에 의해 상기 검색엔진프로그램을 상기 사용자 단말기에 다운로드하는 다운로드모듈을 구비하고, 상기 검색엔진프로그램은 사용자 단말기에서 수행되며, (b1) 사용자로부터 검색하고자 하는 웹 사이트들을 개인 도메인리스트에 등록받는 도메인등록모듈; (b2) 상기 사용자로부터 입력받은 질의어에서 분류된 키워드들을 하나 이상의 검색 프로세스들에 전달하고, 하나 이상의 검색 프로세스들에서 검색된 인덱스들을 통합하여 연산처리한 검색 결과를 상기 사용자에게 출력하는 질의어처리모듈; 및 (b3) 각각 상호 독립된 개인 도메인리스트에서 웹 문서들을 수집하고, 상기 질의어처리모듈로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 질의어처리모듈에 전달하는 하나 이상의 검색 프로세스들을 생성하는 검색프로세스생성모듈을 구비한다.
상기 검색엔진프로그램은 인터넷을 통해 분산/병렬 처리 검색엔진의 그룹 검색엔진에 접속하는 그룹검색엔진접속모듈을 더 구비함을 특징으로 한다.
또한, 상기 검색엔진프로그램은 인터넷을 통해 분산/병렬 처리 검색엔진의 통합 장치에 접속하는 통합장치접속모듈을 더 구비함을 특징으로 한다.
이하에서, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 기능 및 작용을 보다 상세히 설명하도록 한다.
도 1에 의하면, 웹 상에 존재하는 문서를 검색하는 일반적인 검색엔진은 문서수집기(10), 문서분석기(12), 인덱스생성기(14) 및 질의어처리기(16)를 구비한다. 문서수집기(10)는 인터넷에서 이용가능한 문서들을 수집한다. 문서수집기(10)가 수집하는 문서는 하이퍼 텍스트 표시언어(Hypertext Markup Language : HTML)에 의해 작성되는 것이 일반적이다. 웹 문서의 수집 작업은 사람에 의해 수행되거나, 로봇에 의해 수행될 수도 있다. 문서분석기(12)는 문서수집기(10)에 의해 수집된 문서를 분석하여 적절한 색인어를 추출한다. 인덱스생성기(14)는 각 색인어별로 그 색인어가 속한 문서의 URL(Uniform Resource Locator)을 리스트한 인덱스를 생성한다. 그리고, 질어어처리기(16)는 사용자로부터의 질의어를 분석하고, 그 질의어에 포함된 키워드를 추출하여 추출된 키워드별로 대응하는 인덱스들을 검색하고, 검색된 인덱스들에 질의어에 포함된 연산자를 처리하여 사용자에게 출력한다.
도 2에 의하면, 본 발명에 의한 분산/병렬 처리 검색엔진의 일실시예는 통합장치(20)와 다수의 동종의 그룹 검색엔진들(30, 40)을 포함한다. 통합장치(20)와 다수의 그룹 검색엔진들(30, 40)은 하나의 컴퓨터 시스템 내에 통합되어 구현될 수도 있으나, 각각 인터넷 접속 수단(도시되지 않음)을 구비하여 인터넷 상의 별도의 컴퓨터 시스템으로 구성되는 것이 바람직하다.
통합장치(20)는 사용자 단말기 또는 기타 검색요청장치로부터 인터넷을 통해 전달받은 질의어를 처리하는 질의어처리부(21)를 구비한다. 이때, 질의어에는 다수의 키워드와 검색연산자 및 그룹 검색엔진 선택정보가 포함될 수 있다. 질의어처리부(21)에 의해 질의어에서 분류된 키워드들은 다수의 그룹 검색엔진들 중 그룹 검색엔진 선택정보에 의해 선택된 그룹 검색엔진들에 각각 전달된다. 통합장치(20)는 선택된 그룹 검색엔진들로부터의 전달받은 인덱스들을 키워드별로 통합하고, 통합장치(20)에 구비된 질의어처리부(21)는 키워드별로 통합된 인덱스들은 질의어에 포함된 검색연산자에 의해 연산처리한다. 통합장치(20)는 질의어처리부(21)에 의해 연산처리된 검색결과를 사용자 단말기 또는 기타 검색요청장치로 되돌려준다.
한편, 각 그룹 검색엔진(30, 40)은 중계부(32, 42)와 하나 이상의 검색부들(34a, 34b, 34n 또는 44a, 44b, 44m)을 구비한다. 또한, 각 그룹 검색엔진은 동호회 등 소정의 사용자 그룹에 속하는 사용자들을 회원으로 등록받고, 그 사용자들의 개인 도메인리스트를 병합하여 그룹 도메인리스트를 구성할 수 있다. 이때, 개인 도메인리스트 및 그룹 도메인리스트는 각각 검색하고자하는 웹 문서가 속하는 URL의 리스트를 의미한다.
중계부(32, 42)는 통합장치(20)로부터 전달받은 키워드를 각 검색부(34a, 34b, 34n 또는 44a, 44b, 44m)에 각각 전달하고, 각 검색부(34a, 34b, 34n 또는 44a, 44b, 44m)에서 검색된 인덱스들을 통합하여 통합장치(20)에 전달한다.
각 검색부(34a, 34b, 34n 또는 44a, 44b, 44m)는 도 1에 도시된 문서수집기(10), 문서분석기(12) 및 인덱스생성기(14)의 기능들을 수행하는데, 중계부(32, 42)로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 중계부(32, 42)에 되돌려준다. 이때, 그룹 검색엔진의 그룹 도메인리스트 크기에 따라 검색부의 수는 가변적일 수 있다. 또한, 하나의 그룹 검색엔진에 속하는 각 검색부(34a, 34b, 34n 또는 44a, 44b, 44m)가 검색을 수행하는 도메인은 그룹 도메인리스트를 상호 배타적으로 분할한 것이다. 따라서, 하나의 그룹 검색엔진에 속하는 각 검색부(34a, 34b, 34n 또는 44a, 44b, 44m)에 대응하는 각 수집문서들(36a, 36b, 36n 또는 46a, 46b, 46m)은 상호 중첩되어 존재하지 아니한다. 그러나, 별개의 그룹 검색엔진의 그룹 도메인리스트들은 상호 중첩될 수 있다. 결국, 각 그룹 검색엔진에서 그룹 도메인리스트의 크기가 크져 전체 수집문서의 수가 많아지면, 검색부의 수를 증가시킴으로써 사용자의 질의에 대한 응답시간을 줄일 수 있다.
도 3에 의하면, 본 발명에 의한 분산/병렬 처리 검색엔진의 다른 실시예는 통합장치(50)와 다수의 동종의 그룹 검색엔진들(60, 70)을 포함한다. 통합장치(50)와 다수의 그룹 검색엔진들(60, 70)은 하나의 컴퓨터 시스템 내에 통합되어 구현될 수도 있으나, 각각 인터넷 접속 수단(도시되지 않음)을 구비하여 인터넷 상의 별도의 컴퓨터 시스템으로 구성되는 것이 바람직하다.
도 3에 의한 통합장치(50)는 도 2에 의한 통합장치(20)와는 달리, 사용자 단말기 또는 기타 검색요청장치로부터 전달받은 질의어에서 그룹 검색엔진 선택정보만을 추출한다. 따라서, 통합장치(50)는 그룹 검색엔진 선택정보를 제외한 질의어를 다수의 그룹 검색엔진들 중 그룹 검색엔진 선택정보에 의해 선택된 그룹 검색엔진들에 각각 전달한다. 통합장치(50)는 선택된 그룹 검색엔진들로부터 전달받은 검색 결과들을 통합하여 사용자 단말기 또는 기타 검색요청장치로 되돌려준다.
한편, 각 그룹 검색엔진(60, 70)은 중계부(62, 72)와 하나 이상의 검색부들(64a, 64b, 64n 또는 74a, 74b, 74m)을 구비한다. 또한, 각 그룹 검색엔진은 소정의 사용자 그룹에 속하는 사용자들을 회원으로 등록받고, 그 사용자들의 개인 도메인리스트를 병합하여 그룹 도메인리스트를 구성할 수 있다. 이때, 개인 도메인리스트 및 그룹 도메인리스트는 각각 검색하고자하는 웹 문서가 속하는 URL의 리스트를 의미한다.
중계부(62, 72)는 각각 통합장치(50)로부터 전달받은 질의어를 처리하는 질의어처리부(63, 73)를 구비한다. 이때, 질의어에는 다수의 키워드 및 검색연산자 가 포함될 수 있다. 질의어처리부(63, 73)에 의해 질의어에서 분류된 키워드들은 각 검색부(64a, 64b, 64n 또는 74a, 74b, 74m)에 각각 전달된다. 또한, 중계부(62, 72)는 각 검색부(64a, 64b, 64n 또는 74a, 74b, 74m)로부터의 전달받은 인덱스들을 키워드별로 통합한다. 각 중계부(62, 72)에 구비된 질의어처리부(63, 73)는 키워드별로 통합된 인덱스들을 질의어에 포함된 검색연산자에 의해 연산처리하여 통합장치(50)에 되돌려준다.
각 검색부(64a, 64b, 64n, 74a, 74b, 74m)는 도 1에 도시된 문서수집기(10), 문서분석기(12) 및 인덱스생성기(14)의 기능들을 수행하는데, 중계부(62, 72)로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 중계부(62, 72)에 되돌려준다. 이때, 그룹 검색엔진의 그룹 도메인리스트 크기에 따라 검색부의 수는 가변적일 수 있다. 또한, 하나의 그룹 검색엔진에 속하는 각 검색부(64a, 64b, 64n 또는 74a, 74b, 74m)가 검색을 수행하는 도메인은 그룹 도메인리스트를 상호 배타적으로 분할한 것이다. 따라서, 하나의 그룹 검색엔진에 속하는 각 검색부(64a, 64b, 64n 또는 74a, 74b, 74m)에 대응하는 각 수집문서들(66a, 66b, 66n 또는 76a, 76b, 76m)은 상호 중첩되어 존재하지 아니한다. 그러나, 별개의 그룹 검색엔진의 그룹 도메인리스트들은 상호 중첩될 수 있다. 결국, 각 그룹 검색엔진에서 그룹 도메인리스트의 크기가 크져 전체 수집문서의 수가 많아지면, 검색부의 수를 증가시킴으로써 사용자의 질의에 대한 응답시간을 줄일 수 있다.
도 4에 의하면, 본 발명에 의한 인터넷(90) 상에서 사용자 단말기(80)에 개인용 검색엔진을 제공하는 개인용 검색엔진 제공장치(100)의 일실시예는 프로세서(102), 메모리(104) 및 검색엔진프로그램(110) 및 프로세서(102)를 제어하는 검색엔진제공프로그램(108)을 저장하는 저장장치(106)를 포함한다. 여기서, 인터넷(90)이라 함은 TCP/IP(Transmission Control Protocol/Internet Protocol) 프로토콜을 사용하는 전세계를 연결하는 컴퓨터 통신망을 일컫는다. 또한, 저장장치(106)은 프로그램이 영구히 저장될 수 있는 하드디스크, 테이프 등의 각종의 기억장치들을 포괄하는 의미로 사용된다.
도 4 및 도 5에 의하면, 검색엔진제공프로그램(108)은 인터넷(90)을 통해 접속된 사용자 단말기(80)로부터 회원등록 정보를 전달받고, 사용자를 회원등록하는 회원등록모듈(108a) 및 회원등록된 사용자의 요청에 의해 검색엔진프로그램(110)을 사용자 단말기(80)에 다운로드하는 다운로드모듈(108b)을 구비한다.
또한, 검색엔진프로그램(110)은 사용자 단말기(80)에 다운로드되어 수행되며, 사용자로부터 검색하고자 하는 웹 사이트들을 개인 도메인리스트에 등록받는 도메인등록모듈(110a), 사용자로부터 입력받은 질의어에서 분류된 키워드들을 다수의 검색 프로세스에 전달하고, 다수의 검색 프로세스에서 검색된 인덱스들을 통합하여 연산처리한 검색 결과를 사용자에게 출력하는 질의어처리모듈(110c), 각각 상호 독립된 개인 도메인리스트에서 웹 문서들을 수집하고, 질의어처리모듈로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 질의어처리모듈(110c)에 전달하는 하나 이상의 검색 프로세스들을 생성하는 검색프로세스생성모듈(110d), 인터넷(90)을 통해 도 3에 도시된 분산/병렬 처리 검색엔진의 그룹 검색엔진(60, 70)에 접속하는 그룹검색엔진접속모듈(110e) 및 인터넷(90)을 통해 도 2 또는 도 3에 도시된 분석/병렬 처리 검색엔진의 통합 장치(20, 50)에 접속하는 통합장치접속모듈(110f)를 구비한다.
이하에서 도 5를 참조하여 본 발명에 의한 인터넷(90) 상에서 사용자 단말기(80)에 개인용 검색엔진을 제공하는 과정을 설명한다.
먼저, 사용자는 자신이 구비한 사용자단말기(80) 상에서 동작하는 웹 브라우저(82)를 이용하여 인터넷(90)을 통해 개인용 검색엔진 제공장치(100)에 접속한다. 그러면, 저장장치에 저장된 검색엔진제공프로그램(108)은 프로세서(102)를 제어하기 위해 메모리(104)에 로드된다. 사용자는 검색엔진제공프로그램(108)이 제공하는 웹 페이지들 중 회원등록을 위한 웹 페이지를 선택하여 등록신청을 할 수 있다. 회원등록 단계에서 사용자는 이름, 영문이름, 주민번호 및 생년월일 등의 회원 기본정보를 입력한 후, 회원식별번호, 패스워드를 포함한 회원정보를 선택하여 등록할 수 있다. 그러면, 회원등록모듈(108a)은 사용자가 입력한 회원 기본정보 및 회원정보를 회원데이터베이스(109)에 저장하여 회원등록한다.
이후, 사용자는 검색엔진제공프로그램(108)이 제공하는 웹 페이지들 중 검색엔진을 다운로드하기 위한 웹 페이지를 선택하여 개인용 검색엔진을 다운로드할 수 있다. 그러면, 다운로드모듈(108b)은 저장장치(106)에서 검색엔진프로그램(110)을 인출하여 회원으로 등록된 사용자의 사용자단말기(80)에 다운로드한다.
이하에서 도 5를 참조하여 본 발명에 의한 개인용 검색엔진의 동작 내용을 설명한다.
먼저, 도메인등록모듈(110a)은 사용자가 검색하고자 하는 웹 사이트의 URL들을 입력받아 개인 도메인리스트(110b)로 등록해 둔다. 도메인등록모듈(110a)은 도메인의 등록 뿐만 아니라, 등록된 도메인의 삭제, 변경, 추가 등록 등을 수행한다. 검색프로세스생성모듈(110d)은 개인 도메인리스트의 크기에 따라 하나 이상의 검색 프로세스들을 생성하는데, 각 검색 프로세스들은 개인 도메인리스트가 배타적으로 분할된 독립된 도메인리스트에서 웹 문서들을 수집한다.
이후, 사용자가 개인 도메인리스트에서 질의어를 입력하면, 질의어처리모듈(110c)은 사용자로부터 입력받은 질의어에서 분류된 키워드들을 각 검색 프로세스에 전달한다. 각 검색 프로세스는 질의어처리모듈(110c)로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 질의어처리모듈(110c)에 되돌려준다. 그러면, 질의어처리모듈(110c)는 각 검색 프로세스에서 검색된 인덱스들을 통합하고, 질의어에 포함된 연산자에 의해 연산처리한 검색 결과를 사용자에게 출력한다.
한편, 개인 검색엔진은 도 3에 도시된 분산/병렬 처리 검색엔진의 그룹 검색엔진(60, 70)에 접속하기 위한 그룹검색엔진접속모듈(110e)을 구비한다. 따라서, 사용자는 개인 검색엔진을 이용하여 도 3에 도시된 그룹 검색엔진들(60, 70)에 인터넷을 통해 접속할 수 있고, 각 그룹에 회원으로 가입하여 검색 서비스를 제공받을 수 있다. 이때, 사용자는 자신의 개인 도메인리스트를 회원으로 가입한 그룹 검색엔진의 그룹 도메인리스트에 병합시키거나, 그룹 도메인리스트에 자신이 정보 검색을 하고자 하는 URL들을 추가할 수도 있다.
또한, 개인 검색엔진은 도 2 또는 도 3에 도시된 분석/병렬 처리 검색엔진의 통합 장치(20, 50)에 접속하기 위한 통합장치접속모듈(110f)을 구비한다. 따라서, 사용자는 개인 검색엔진을 이용하여 자신이 정보 검색을 받고자 하는 그룹 검색엔진들을 선택하고, 선택된 그룹 검색엔진들로부터의 검색결과들이 통합된 검색결과를 분석/병렬 처리 검색엔진으로부터 제공받을 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 의하면, 웹 문서가 증가하더라도 검색부에 대응하는 프로세스의 수를 증가시켜 기존의 응답시간과 큰 차이없이 검색작업을 수행할 수 있다. 그리고, 웹 문서 수집작업을 분산시킴으로써, 하나의 방대한 양의 수집문서를 하나의 검색엔진이 관리하는 것이 아니라, 다수의 검색엔진들이 자신의 소규모의 수집문서들을 관리하게 되어, 수집문서의 갱신주기를 좀 더 짧게 할 수 있다.
또한, 사용자에게 개인 검색엔진을 제공하고, 이를 그룹 검색엔진으로 확대함으로써, 사용자 자신의 도메인리스트에서 특정 정보에 대한 검색을 수행할 수 있으며, 특정 그룹에 속하는 보다 정제된 정보에 용이하게 접근할 수 있다.

Claims (12)

  1. 통합장치; 및
    상기 통합장치에 연결된 다수의 동종의 그룹 검색엔진들을 포함하고,
    상기 통합장치는 사용자 단말기로부터 전달받은 질의어를 처리하는 질의어처리부를 구비하고, 상기 질의어처리부에 의해 상기 질의어에서 분류된 키워드들을 상기 다수의 그룹 검색엔진들 중 선택된 그룹 검색엔진들에 각각 전달하고, 상기 선택된 그룹 검색엔진들로부터의 전달받은 인덱스들을 통합하여 상기 질의어처리부에 의해 연산처리한 검색결과를 사용자 단말기에 전달하고,
    상기 다수의 그룹 검색엔진들은 각각
    상기 통합장치로부터 전달받은 키워드를 하나 이상의 검색부들에 각각 전달하고, 하나 이상의 검색부들에서 검색된 인덱스들을 상기 통합장치에 전달하는 중계부; 및
    각각 상호 독립된 그룹 도메인리스트에서 웹 문서들을 수집하고, 상기 중계부로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 중계부에 전달하는 하나 이상의 검색부들을 구비함을 특징으로 하는 분산/병렬 처리 검색엔진.
  2. 제1항에 있어서, 상기 통합장치는
    상기 사용자 단말기와 인터넷을 통해 접속됨을 특징으로 하는 분산/병렬 처리 검색엔진.
  3. 제2항에 있어서, 상기 그룹 검색엔진의 그룹 도메인리스트는
    소정의 사용자 그룹에 속하는 사용자들의 개인 검색엔진에 등록된 도메인들을 병합한 도메인리스트임을 특징으로 하는 분산/병렬 처리 검색엔진.
  4. 통합장치; 및
    상기 통합장치에 연결된 다수의 동종의 그룹 검색엔진들을 포함하고,
    상기 통합장치는 사용자 단말기로부터 전달받은 질의어를 상기 다수의 그룹 검색엔진들 중 선택된 그룹 검색엔진들에 각각 전달하고, 상기 선택된 그룹 검색엔진들로부터의 전달받은 검색 결과를 통합하여 상기 사용자 단말기에 전달하고,
    상기 다수의 그룹 검색엔진들은 각각
    상기 통합장치로부터 전달받은 질의어를 처리하는 질의어처리부를 구비하고, 상기 질의어처리부에 의해 상기 질의어에서 분류된 키워드들을 하나 이상의 검색부들에 각각 전달하고, 하나 이상의 검색부들에서 검색된 인덱스들을 통합하여 상기 질의어처리부에 의해 연산처리한 검색 결과를 상기 통합장치에 전달하는 중계부; 및
    각각 상호 독립된 그룹 도메인리스트에서 웹 문서들을 수집하고, 상기 중계부로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 중계부에 전달하는 하나 이상의 검색부들을 구비함을 특징으로 하는 분산/병렬 처리 검색엔진.
  5. 제4항에 있어서, 상기 통합장치 및 상기 다수의 그룹 검색엔진들은 각각
    상기 사용자 단말기와 인터넷을 통해 접속됨을 특징으로 하는 분산/병렬 처리 검색엔진.
  6. 제5항에 있어서, 상기 그룹 검색엔진은
    상기 사용자 단말기로부터 회원등록 정보를 전달받아 사용자를 회원으로 등록하는 회원등록부를 더 구비하는 것을 특징으로 하는 분산/병렬 처리 검색엔진.
  7. 제6항에 있어서, 상기 그룹 검색엔진의 그룹 도메인리스트는
    회원등록된 사용자들의 개인 검색엔진에 등록된 도메인들을 병합한 도메인리스트임을 특징으로 하는 분산/병렬 처리 검색엔진.
  8. 인터넷 상에서 사용자 단말기에 개인용 검색엔진을 제공하는 개인용 검색엔진 제공장치에 있어서,
    저장 장치;
    상기 저장장치에 연결된 프로세서를 포함하고,
    상기 저장 장치는 검색엔진프로그램 및 상기 프로세서를 제어하는 검색엔진제공프로그램을 저장하고,
    상기 검색엔진제공프로그램은
    (a1) 인터넷을 통해 접속된 사용자 단말기로부터 회원등록 정보를 전달받고, 사용자를 회원등록하는 회원등록모듈; 및
    (a2) 회원등록된 사용자의 요청에 의해 상기 검색엔진프로그램을 상기 사용자 단말기에 다운로드하는 다운로드모듈을 구비하고,
    상기 검색엔진프로그램은 사용자 단말기에서 수행되며,
    (b1) 사용자로부터 검색하고자 하는 웹 사이트들을 개인 도메인리스트에 등록받는 도메인등록모듈;
    (b2) 상기 사용자로부터 입력받은 질의어에서 분류된 키워드들을 하나 이상의 검색 프로세스들에 전달하고, 하나 이상의 검색 프로세스들에서 검색된 인덱스들을 통합하여 연산처리한 검색 결과를 상기 사용자에게 출력하는 질의어처리모듈; 및
    (b3) 각각 상호 독립된 개인 도메인리스트에서 웹 문서들을 수집하고, 상기 질의어처리모듈로부터 전달받은 키워드에 대응하는 인덱스를 검색하여 상기 질의어처리모듈에 전달하는 하나 이상의 검색 프로세스들을 생성하는 검색프로세스생성모듈을 구비하는 것을 특징으로 하는 개인용 검색엔진 제공장치.
  9. 제8항에 있어서, 상기 검색엔진프로그램은
    (b4) 인터넷을 통해 분산/병렬 처리 검색엔진의 그룹 검색엔진에 접속하는 그룹검색엔진접속모듈을 더 구비함을 특징으로 하는 개인용 검색엔진 제공장치.
  10. 제8항에 있어서, 상기 검색엔진프로그램은
    (b5) 인터넷을 통해 분산/병렬 처리 검색엔진의 통합 장치에 접속하는 통합장치접속모듈을 더 구비함을 특징으로 하는 개인용 검색엔진 제공장치.
  11. (a) 사용자 단말기로부터 인터넷을 통해 질의어를 전달받는 단계;
    (b) 상기 질의어를 분석하여 상기 질의어에 포함된 키워드들을 추출하고, 추출된 키워드에 대한 검색을 선택된 하나 이상의 동종의 그룹 검색엔진들에 요청하는 단계;
    (c) 각 그룹 검색엔진에 구비되고, 각각 독립된 그룹 도메인리스트를 지니는 다수의 검색 프로세스에 의해 병렬적으로 상기 추출된 키워드에 대한 인덱스를 검색하는 단계; 및
    (d) 선택된 하나 이상의 그룹 검색엔진들에서 검색된 인덱스들을 통합하고, 상기 질의어에 포함된 연산자에 의해 연산처리한 연산결과를 사용자 단말기에 전달하는 단계를 포함함을 특징으로 하는 분산/병렬 처리 검색방법.
  12. (a) 사용자 단말기로부터 인터넷을 통해 질의어를 전달받는 단계;
    (b) 다수의 동종의 그룹 검색엔진들 중에서 선택된 하나 이상의 그룹 검색엔진들에 상기 질의어에 대한 검색을 요청하는 단계;
    (c) 각 그룹 검색엔진별로 상기 질의어를 분석하여 상기 질의어에 포함된 키워드들을 추출하는 단계;
    (d) 각 그룹 검색엔진에 구비되고, 각각 독립된 그룹 도메인리스트를 지니는 다수의 검색 프로세스에 의해 병렬적으로 상기 추출된 키워드에 대한 인덱스를 검색하는 단계;
    (e) 각 그룹 검색엔진별로 검색된 인덱스들을 상기 질의어에 포함된 연산자에 의해 연산처리하여 검색결과를 생성하는 단계; 및
    (f) 선택된 하나 이상의 그룹 검색엔진들에서 생성된 검색결과들을 통합하여 사용자 단말기에 전달하는 단계를 포함함을 특징으로 하는 분산/병렬 처리 검색방법.
KR1020000035723A 2000-06-27 2000-06-27 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치 KR100335173B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000035723A KR100335173B1 (ko) 2000-06-27 2000-06-27 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000035723A KR100335173B1 (ko) 2000-06-27 2000-06-27 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치

Publications (2)

Publication Number Publication Date
KR20000058741A true KR20000058741A (ko) 2000-10-05
KR100335173B1 KR100335173B1 (ko) 2002-05-04

Family

ID=19674241

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000035723A KR100335173B1 (ko) 2000-06-27 2000-06-27 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치

Country Status (1)

Country Link
KR (1) KR100335173B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100774547B1 (ko) * 2006-02-23 2007-11-08 엔에이치엔(주) 검색결과캐싱을 이용한 검색정보 제공 방법 및 검색정보제공 시스템
KR100855058B1 (ko) * 2007-09-11 2008-08-29 안기철 검색엔진 링크 프로그램 및 이를 이용한 웹 검색방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100290731B1 (ko) * 1999-05-26 2001-05-15 심우섭 3차원 인터넷 검색 엔진의 표시 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100774547B1 (ko) * 2006-02-23 2007-11-08 엔에이치엔(주) 검색결과캐싱을 이용한 검색정보 제공 방법 및 검색정보제공 시스템
KR100855058B1 (ko) * 2007-09-11 2008-08-29 안기철 검색엔진 링크 프로그램 및 이를 이용한 웹 검색방법

Also Published As

Publication number Publication date
KR100335173B1 (ko) 2002-05-04

Similar Documents

Publication Publication Date Title
US7693956B2 (en) Accessing deep web information using a search engine
US6947924B2 (en) Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system
US7290061B2 (en) System and method for internet content collaboration
US5764906A (en) Universal electronic resource denotation, request and delivery system
JPH1091638A (ja) 検索システム
WO2002027549A1 (en) Internet searching system to be easy by user and method thereof
Ordille et al. Distributed active catalogs and meta-data caching in descriptive name services
Tarakeswar et al. Search engines: a study
KR20000054312A (ko) 맞춤 웹정보 구축 제공 방법
KR100335173B1 (ko) 분산/병렬 처리 검색엔진 및 그 검색방법 그리고 개인용검색엔진 제공장치
Roszkowski et al. A distributed architecture for resource discovery using metadata
El-Beltagy et al. A multiagent system for navigation assistance and information finding
EP0837403A1 (en) Database retrieval system
Anagnostopoulos et al. Implementing a customised meta-search interface for user query personalisation
US7490082B2 (en) System and method for searching internet domains
US20060136381A1 (en) Method and system for a text based search of a self-contained document
Gatenby Aiming at quality and coverage combined: blending physical and virtual union catalogues
Overmeer My personal search engine
Lim Using Coollists to index HTML documents in the Web
JP2003271647A (ja) 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体
KR20010067767A (ko) 고객 임대형 정보검색 통합 시스템
Angioni et al. User Oriented Information Retrieval in a Collaborative and Context Aware Search Engine
Angioni et al. DART: the distributed agent based retrieval toolkit
Fan et al. Novel of Web search strategy based on Web page block granularity analysis algorithm and correlation calculation model
KR20030089025A (ko) 웹사이트 디렉토리나 웹페이지에 대해 설명하는 단어들에하이퍼링크를 적용하는 검색 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
G15R Request for early opening
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee