KR100871470B1 - 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법 - Google Patents

색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법 Download PDF

Info

Publication number
KR100871470B1
KR100871470B1 KR1020070035854A KR20070035854A KR100871470B1 KR 100871470 B1 KR100871470 B1 KR 100871470B1 KR 1020070035854 A KR1020070035854 A KR 1020070035854A KR 20070035854 A KR20070035854 A KR 20070035854A KR 100871470 B1 KR100871470 B1 KR 100871470B1
Authority
KR
South Korea
Prior art keywords
index data
crawler
web document
indexer
web
Prior art date
Application number
KR1020070035854A
Other languages
English (en)
Other versions
KR20080092506A (ko
Inventor
김철관
김만배
Original Assignee
주식회사 케이티프리텔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티프리텔 filed Critical 주식회사 케이티프리텔
Priority to KR1020070035854A priority Critical patent/KR100871470B1/ko
Publication of KR20080092506A publication Critical patent/KR20080092506A/ko
Application granted granted Critical
Publication of KR100871470B1 publication Critical patent/KR100871470B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명은 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 개시한다. 본 발명에 따른 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 시스템은 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러, 및 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함한다.
Figure R1020070035854
검색 엔진, 시드 데이터, 크롤러, 인덱서, 색인 데이터, 보조 크롤러, 보조 인덱서

Description

색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법{search system for constructing indexed data and method thereof}
도 1은 일반적인 검색 시스템을 나타내기 위한 구성도이다.
도 2는 본 발명의 일실시예에 따른 검색 시스템을 나타내기 위한 구성도이다.
도 3은 본 발명의 일실시예에 따른 색인 데이터를 구축하는 방법을 나타내는 흐름도이다.
< 도면의 주요 부분에 대한 부호의 설명 >
210: 검색 프로그램
220: 내부 검색 엔진
221: 제1 웹 문서 DB
222: 인덱서
223: 제2 웹 문서 DB
224: 크롤러
225: 시드 데이터 DB
226: 보조 인덱서
227: 보조 크롤러
본 발명은 검색 엔진(search engine)에 관한 것으로서, 특히, 새롭게 생성되는 웹 문서를 실시간으로 반영하여, 사용자에게 정확한 검색 결과를 제공할 수 있을 뿐만 아니라 이를 통해 사용자의 만족도를 향상 시킬 수 있도록 하는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법에 관한 것이다.
일반적으로, 검색 엔진은 핵심어(keyword)를 이용해서 인터넷 상의 정보 자원을 찾아 주는 검색 도구 또는 서비스를 의미한다. 이를 위해, 검색 엔진은 인터넷 상에 산재해 있는 정보 자원을 미리 수집하고 이를 체계적으로 분류하여 저장한다. 이와 같은 검색 엔진을 도 1을 참조하여 설명한다.
도 1은 일반적인 검색 엔진 시스템을 나타내기 위한 구성도이다.
도 1에 도시한 바와 같이, 웹 문서를 검색하기 위한 시스템은 크게 검색 프로그램(searcher)(110)과 내부 검색 엔진(internal search engine)(이하 '검색 엔진')(120)으로 구성될 수 있다. 검색 엔진(120)은 제1 웹 문서 DB(database)(121), 인덱서(indexer)(122), 제2 웹 문서 DB(123), 크롤러(crawler)(124), 및 시드(seed) 데이터 DB(125)를 포함할 수 있다.
먼저, 크롤러(124)는 시드 데이터 DB(125)에 기 저장된 시드 데이터 즉, 시드 URL(Uniform Resource Location)을 기반으로 인터넷 상의 웹 문서를 검색할 수 있다. 크롤러(124)는 웹 문서를 수집하기 위해 이를 제2 웹 문서 DB(123)에 저장할 수 있다.
인덱서(122)는 제2 웹 문서 DB(123)에 저장된 웹 문서로부터 색인 데이터 또는 색인어를 작성할 수 있다. 즉, 인덱서(122)는 웹 문서에서 HTML(HyperText Markup Language) 태그를 제거하고 이를 텍스트 문서로 만들 수 있다. 인덱서(122)는 텍스트 문서에 대해 동의어 또는 신조어 등을 처리하면서 소정의 단어들에 대해 랭킹 처리하여 색인 데이터를 작성할 수 있다.
인덱서(122)는 제1 웹 문서 DB(121)에 작성된 색인 데이터에 따라 웹 문서를 분류하여 저장할 수 있다.
결국, 검색 프로그램(110)은 검색어(query)를 입력 받으면, 제1 웹 문서 DB에 접근하여 입력된 검색어(query)와 색인 데이터를 비교하고 검색어와의 관련도가 높은 순으로 웹 문서를 출력할 수 있다.
그러나, 인터넷 사용이 보급화됨에 따라 월드와이드웹(world wide web)에 연결되는 웹 문서의 수가 크게 증가하고 있기 때문에 이를 처리하기 위한 기술 발전 속도가 웹 문서 증가 속도를 따라가지 못하고 있는 실정이다.
예를 들면, 검색 엔진은 통상적으로 4000만 웹 문서를 수집하는데 15일 정도의 시간이 소요된다. 검색 엔진은 통상적으로 수집된 4000만 웹 문서를 색인하는데 2일 정도의 시간이 소요된다. 즉, 검색 엔진은 최신의 검색 결과를 제공하기 위해서는 17일마다 주기적으로 색인 데이터를 교체해야 할 것이다.
이처럼, 검색 엔진에서 수집해야 하는 웹 문서의 수도 기하급수적으로 증가함에 따라 웹 문서를 수집하기 위한 소요 시간이 증가할 뿐만 아니라 수집된 웹 문서를 색인하기 위한 소요 시간도 증가하고 있다.
이로 인해, 색인 데이터를 구축하는 과정이 진행되는 기간 동안에 생성될 수 있는 새로운 웹 문서가 색인 데이터에 반영되지 못한다는 문제점이 있었다.
본 발명의 목적은 상기한 종래 기술의 문제점을 해결하기 위한 것으로서, 보조 크롤러와 보조 인덱서를 추가함으로써, 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 생성되는 새로운 웹 문서를 실시간으로 반영할 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.
본 발명의 다른 목적은 새로운 웹 문서에 대한 색인 데이터를 실시간으로 반영할 수 있기 때문에, 사용자에게 보다 정확한 검색 결과를 제공할 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 새로운 웹 문서가 생기더라도 이를 실시간으로 반영하여 보다 정확한 검색 결과를 사용자에게 제공할 수 있기 때문에, 이러한 검색 서비스를 이용하는 사용자의 만족도를 향상 시킬 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.
상기 목적을 달성하기 위하여, 본 발명의 한 측면에 따른 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 시스템은 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러, 및 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한, 본 발명의 다른 한 관점에 따른 주기적으로 크롤러와 인덱서를 통해 웹 문서를 수집하여 색인 데이터를 구축하기 위한 방법은 보조 크롤러가 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 단계, 및 보조 인덱서가 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 한다.
상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.
이하에서는, 본 발명의 일실시예에 따른 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 첨부된 도 2 내지 도 3을 참조하여 상세히 설명한다.
본 발명은 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 발생할 수 있는 새로운 웹 문서를 실시간으로 사용자에게 제공할 수 있는 방법을 제안한다. 이를 위해, 본 발명은 크롤러와 인덱서의 기능을 보조할 수 있는 보조 크롤러와 보조 인덱서를 검색 엔진에 추가할 것을 제안한다.
이러한 이유는, 기존의 검색 엔진이 새로운 색인 데이터를 구축하여 이를 기존의 색인 데이터와 교체하기 위해 필요한 소요 시간 동안에 발생할 수 있는 웹 문서를 검색 결과에 반영하지 않는다는 단점을 보완하기 위함이다.
이때, 후술할 실시 예에서 기능상의 의미를 명확히 하기 위해서, 상술한 '보조 크롤러'는 '증분적 크롤러(incremental crawler)'로 명명되고 상술한 '보조 인덱서'는 '실시간 인덱서(real-time indexer)'로 명명될 수 있다.
도 2는 본 발명의 일실시예에 따른 검색 시스템을 나타내기 위한 구성도이다.
도 2에 도시한 바와 같이, 웹 문서를 검색하기 위한 시스템은 크게 검색 프로그램(searcher)(210)과 내부 검색 엔진(internal search engine)(이하 '검색 엔진')(220)으로 구성될 수 있다. 검색 엔진(220)은 제1 웹 문서 DB(database)(221), 인덱서(indexer)(222), 제2 웹 문서 DB(223), 크롤러(crawler)(224), 시드(seed) 데이터 DB(225), 보조 인덱서(226), 및 보조 크롤러(227)를 포함할 수 있다.
이때, 검색 엔진(220)은 검색 프로그램과 동일한 물리적 장치 예를 들면, 컴퓨터 시스템 등을 기반으로 구축되거나 네트워킹 가능한 별도의 물리적인 장치를 기반으로 구축될 수 있다.
크롤러(224)는 시드 데이터 DB(225)에 기 저장된 시드 데이터 즉, 시드 URL(Uniform Resource Location)을 기반으로 인터넷 상의 웹 문서를 검색할 수 있다. 크롤러(224)는 웹 문서를 수집하기 위해 이를 제2 웹 문서 DB(223)에 저장할 수 있다.
이때, 크롤러(124)는 인터넷 상에서 정보 자원 예를 들면, 웹 문서를 검색하는 프로그램이다. 이러한 크롤러(124)는 웹 크롤러(web clawler), 스파이더(spider), 로봇(robot), 및 지능 에이전트(AI agent) 등을 의미할 수 있다.
또한, 시드 데이터는 하나 이상의 웹 문서들을 유지하는 특정한 웹 서버(web server)의 위치를 각각 식별하는 URL들의 리스트를 포함할 수 있다.
인덱서(222)는 제2 웹 문서 DB(223)에 저장된 웹 문서로부터 색인 데이터 또 는 색인어를 작성할 수 있다. 즉, 인덱서(222)는 웹 문서에서 HTML(HyperText Markup Language) 태그를 제거하고 이를 텍스트 문서로 만들 수 있다. 이후, 인덱서(222)는 텍스트 문서에 대해 동의어 또는 신조어 등을 처리하면서 소정의 단어들에 대해 랭킹 처리하여 색인 데이터를 작성할 수 있다.
또한, 검색 엔진(220)은 자연 언어 분석을 담당하는 프로그램으로 단어 또는 어절을 구성하는 각 형태소를 인식하고 불규칙 활용이나 축약, 탈락 현상이 일어난 경우 원형을 복원하는 형태소 분석기를 포함하여 구성될 수 있다.
형태소 분석기는 색인 데이터를 작성할 때, 동의어 등을 처리하거나, 검색된 페이지의 모든 형태소를 분석하여 검색어 및 웹 문서의 관련도를 산출하도록 구성될 수 있다.
인덱서(222)는 제1 웹 문서 DB(221)에 색인 데이터에 따라 웹 문서를 분류하여 저장할 수 있다. 이와 같이 색인 데이터를 구축하는 기간 동안에 발생되는 새로운 웹 문서를 처리하기 위해 보조 인덱서(226)와 보조 크롤러(227)를 사용할 수 있다.
이때, 구축하는 기간은 크롤러(224)가 인터넷 상의 웹 문서를 수집하기 시작하는 시점부터 인덱스(222)가 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 기 저장된 색인 데이터와 교체하는 시점까지의 기간을 의미할 수 있다.
보조 크롤러(227)는 크롤러(224)의 기능을 보조하기 위한 것으로서, 시드 데이터를 기반으로 새로운 웹 문서를 수집하여 이를 제2 웹 문서 DB(223)에 저장할 수 있다.
보조 인덱서(226)는 보조 크롤러(227)가 수집한 웹 문서를 처리하기 위한 것으로서, 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 제1 웹 문서 DB(221)에 추가할 수 있다.
이러한 보조 크롤러와 보조 인덱서를 이용하여 보다 정확한 검색 결과를 제공하기 위한 색인 데이터를 구축하는 방법을 도 3을 참조하여 설명한다.
도 3은 본 발명의 일실시예에 따른 색인 데이터를 구축하는 방법을 나타내는 흐름도이다.
도 3에 도시한 바와 같이, 보조 크롤러는 시드 데이터 DB에 기 저장된 시드 데이터 즉, 시드 URL을 기반으로 새로운 웹 문서가 생성 되었지를 확인한다(S310). 즉, 보조 크롤러는 새로운 웹 문서가 생성 되었으면, 새로운 웹 문서를 수집할 수 있다(S320).
이에, 보조 크롤러는 수집된 웹 문서를 제2 웹 문서 DB에 실시간으로 저장할 수 있다(S330).
보조 인덱서는 제2 웹 문서 DB에 저장된 웹 문서가 있는지를 확인할 수 있다(S340). 즉, 보조 인덱서는 저장된 웹 문서가 있으면, 저장된 웹 문서로부터 색인 데이터를 작성할 수 있다(S350).
이후, 보조 인덱서는 작성된 색인 데이터를 제1 웹 문서 DB에 실시간으로 추가할 수 있다(S360).
이를 통해, 본 발명은 제1 웹 문서 DB에 기 저장된 색인 데이터와 새로운 색인 데이터를 추가로 저장할 수 있기 때문에 보다 정확한 검색 결과를 제공할 수 있 다.
결국, 검색 프로그램(210)은 검색어를 입력 받으면, 제1 웹 문서 DB(221)에 접근하여 입력된 검색어(query)와 색인 데이터를 비교할 수 있다. 검색 프로그램(210)은 사용자에게 보다 정확한 검색 결과로서 해당하는 웹 문서를 출력할 수 있다.
즉, 검색 프로그램(210)은 사용자가 컴퓨터, 핸드폰 등의 휴대 단말기를 통해 인터넷에 접속한 경우 원하는 정보를 검색하도록 하는 UI(User Interface)를 제공할 수 있다. 검색 프로그램은 UI를 통해 검색어가 입력되면, 입력된 검색어를 포함하는 웹 문서를 검색하여 그 결과를 출력할 수 있다.
본 발명의 일실시예에서 색인 데이터를 구축하기 위해 하나의 보조 크롤러와 하나의 보조 인덱서가 사용되었지만 이에 한정되지는 않는다. 즉, 본 발명은 방대한 양의 웹 문서를 고려해야 하기 때문에 지역이나 기관 등에 따라 각각 웹 문서를 수집하여 이를 색인하기 위한 복수의 크롤러와 복수의 보조 인덱서를 사용할 수 있다.
또한, 본 발명은 수집되는 웹 문서의 중요도를 고려하여 복수의 보조 크롤러와 복수의 보조 인덱서마다 색인 데이터를 구축하기 위한 주기를 다르게 설정할 수도 있다.
본 발명에 의한, 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법은 본 발명의 기술적 사상의 범위 내에서 다양한 형태로 변형, 응용 가능하며 상기 실시 예에 한정되지 않는다. 또한, 상기 실시 예와 도면은 발명의 내용을 상세히 설명하기 위한 목적일 뿐, 발명의 기술적 사상의 범위를 한정하고자 하는 목적은 아니며, 이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형, 및 변경이 가능하므로 상기 실시 예 및 첨부된 도면에 한정되는 것은 아님은 물론이며, 후술하는 청구범위뿐만이 아니라 청구범위와 균등 범위를 포함하여 판단되어야 한다.
이상에서 상세히 설명한 바와 같이, 본 발명은 보조 크롤러와 보조 인덱서를 추가함으로써, 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 생성되는 새로운 웹 문서를 실시간으로 반영할 수 있는 효과가 있다.
본 발명은 새로운 웹 문서에 대한 색인 데이터를 실시간으로 반영할 수 있기 때문에, 사용자에게 보다 정확한 검색 결과를 제공할 수 있는 효과가 있다.
또한, 본 발명은 새로운 웹 문서가 생기더라도 이를 실시간으로 반영하여 보다 정확한 검색 결과를 사용자에게 제공할 수 있기 때문에, 이러한 검색 서비스를 이용하는 사용자의 만족도를 향상 시킬 수 있는 효과가 있다.

Claims (8)

  1. 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 엔진 시스템에 있어서,
    상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러; 및
    상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함하는 것을 특징으로 하는 검색 시스템.
  2. 제1 항에 있어서,
    상기 구축하는 기간은 상기 크롤러가 웹 문서를 수집하기 시작하는 시점부터 상기 인덱스가 상기 크롤러에 의해 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 기 저장된 색인 데이터와 교체하는 시점까지의 기간인 것을 특징으로 하는 검색 시스템.
  3. 제1 항에 있어서,
    상기 보조 크롤러는 기 저장된 시드 데이터를 기반으로 상기 구축하는 기간에 생성되는 웹 문서를 실시간으로 수집하는 것을 특징으로 하는 검색 시스템.
  4. 제1 항에 있어서,
    상기 보조 인덱서는 상기 구축하는 기간에 생성된 웹 문서로부터 상기 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 실시간으로 추가하는 것을 특징으로 하는 검색 시스템.
  5. 제1 항에 있어서,
    작성된 상기 색인 데이터에 따라 이에 상응하는 웹 문서를 분류하여 저장하는 웹 문서 DB(DataBase)를 더 포함하는 것을 특징으로 하는 검색 시스템.
  6. 주기적으로 크롤러와 인덱서를 통해 웹 문서를 수집하여 색인 데이터를 구축하기 위한 방법에 있어서,
    보조 크롤러가 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 단계; 및
    보조 인덱서가 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.
  7. 제6 항에 있어서,
    상기 웹 문서를 수집하는 단계는,
    상기 보조 크롤러가 기 저장된 시드 데이터를 기반으로 상기 구축하는 기간에 생성되는 웹 문서가 있는지를 확인하는 단계; 및
    상기 구축하는 기간에 생성되는 웹 문서가 있으면, 상기 보조 크롤러가 상기 구축하는 기간에 생성된 웹 문서를 수집하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.
  8. 제6 항에 있어서,
    상기 기 저장된 색인 데이터에 추가하는 단계는,
    상기 보조 인덱서가 상기 보조 크롤러에 의해 수집된 웹 문서가 있는지를 확인하는 단계;
    상기 보조 크롤러에 의해 수집된 웹 문서가 있으면, 상기 보조 인덱서가 상기 보조 크롤러에 의해 수집된 웹 문서로부터 색인 데이터를 작성하는 단계; 및
    상기 보조 인덱서가 작성된 상기 색인 데이터를 상기 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.
KR1020070035854A 2007-04-12 2007-04-12 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법 KR100871470B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070035854A KR100871470B1 (ko) 2007-04-12 2007-04-12 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070035854A KR100871470B1 (ko) 2007-04-12 2007-04-12 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법

Publications (2)

Publication Number Publication Date
KR20080092506A KR20080092506A (ko) 2008-10-16
KR100871470B1 true KR100871470B1 (ko) 2008-12-03

Family

ID=40153468

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070035854A KR100871470B1 (ko) 2007-04-12 2007-04-12 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법

Country Status (1)

Country Link
KR (1) KR100871470B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101425816B1 (ko) * 2013-10-29 2014-08-05 네이버 주식회사 실시간 검색 구현 방법 및 그 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502987A (ja) 1999-12-15 2004-01-29 ナップスター インコーポレイテッド リアルタイム検索エンジン構築方法
KR20060049708A (ko) * 2004-09-30 2006-05-19 마이크로소프트 코포레이션 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
KR20060092881A (ko) * 2004-10-29 2006-08-23 마이크로소프트 코포레이션 지리적 검색 기능을 제공하는 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502987A (ja) 1999-12-15 2004-01-29 ナップスター インコーポレイテッド リアルタイム検索エンジン構築方法
KR20060049708A (ko) * 2004-09-30 2006-05-19 마이크로소프트 코포레이션 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
KR20060092881A (ko) * 2004-10-29 2006-08-23 마이크로소프트 코포레이션 지리적 검색 기능을 제공하는 시스템 및 방법

Also Published As

Publication number Publication date
KR20080092506A (ko) 2008-10-16

Similar Documents

Publication Publication Date Title
US8185530B2 (en) Method and system for web document clustering
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
CN101399818B (zh) 基于导航路径信息的主题相关网页过滤方法和系统
Kumar et al. Keyword query based focused Web crawler
KR100745483B1 (ko) 데이터 마이닝 시스템 및 데이터 저장 방법
CN102722498B (zh) 搜索引擎及其实现方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN102737021B (zh) 搜索引擎及其实现方法
CN101231661A (zh) 对象级知识挖掘的方法和系统
Yu et al. A survey about algorithms utilized by focused web crawler
Sharma et al. A novel architecture for deep web crawler
US20190146954A1 (en) Hierarchical seedlists for application data
Papadakos et al. On exploiting static and dynamically mined metadata for exploratory web searching
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
Rome et al. Towards a formal concept analysis approach to exploring communities on the world wide web
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
KR100871470B1 (ko) 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Dixit et al. Design of an ontology based adaptive crawler for hidden web
Saranya et al. A Study on Competent Crawling Algorithm (CCA) for Web Search to Enhance Efficiency of Information Retrieval
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
CN110569061A (zh) 一种基于大数据的软件工程知识库的自动化构建系统
Binkley et al. Maintenance and Evolution: Information Retrieval Applications.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111107

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee