KR100871470B1

KR100871470B1 - 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법

Info

Publication number: KR100871470B1
Application number: KR1020070035854A
Authority: KR
Inventors: 김철관; 김만배
Original assignee: 주식회사 케이티프리텔
Priority date: 2007-04-12
Filing date: 2007-04-12
Publication date: 2008-12-03
Also published as: KR20080092506A

Abstract

본 발명은 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 개시한다. 본 발명에 따른 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 시스템은 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러, 및 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함한다.

검색 엔진, 시드 데이터, 크롤러, 인덱서, 색인 데이터, 보조 크롤러, 보조 인덱서

Description

색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법{search system for constructing indexed data and method thereof}

도 1은 일반적인 검색 시스템을 나타내기 위한 구성도이다.

도 2는 본 발명의 일실시예에 따른 검색 시스템을 나타내기 위한 구성도이다.

도 3은 본 발명의 일실시예에 따른 색인 데이터를 구축하는 방법을 나타내는 흐름도이다.

< 도면의 주요 부분에 대한 부호의 설명 >

210: 검색 프로그램

220: 내부 검색 엔진

221: 제1 웹 문서 DB

222: 인덱서

223: 제2 웹 문서 DB

224: 크롤러

225: 시드 데이터 DB

226: 보조 인덱서

227: 보조 크롤러

본 발명은 검색 엔진(search engine)에 관한 것으로서, 특히, 새롭게 생성되는 웹 문서를 실시간으로 반영하여, 사용자에게 정확한 검색 결과를 제공할 수 있을 뿐만 아니라 이를 통해 사용자의 만족도를 향상 시킬 수 있도록 하는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법에 관한 것이다.

일반적으로, 검색 엔진은 핵심어(keyword)를 이용해서 인터넷 상의 정보 자원을 찾아 주는 검색 도구 또는 서비스를 의미한다. 이를 위해, 검색 엔진은 인터넷 상에 산재해 있는 정보 자원을 미리 수집하고 이를 체계적으로 분류하여 저장한다. 이와 같은 검색 엔진을 도 1을 참조하여 설명한다.

도 1은 일반적인 검색 엔진 시스템을 나타내기 위한 구성도이다.

도 1에 도시한 바와 같이, 웹 문서를 검색하기 위한 시스템은 크게 검색 프로그램(searcher)(110)과 내부 검색 엔진(internal search engine)(이하 '검색 엔진')(120)으로 구성될 수 있다. 검색 엔진(120)은 제1 웹 문서 DB(database)(121), 인덱서(indexer)(122), 제2 웹 문서 DB(123), 크롤러(crawler)(124), 및 시드(seed) 데이터 DB(125)를 포함할 수 있다.

먼저, 크롤러(124)는 시드 데이터 DB(125)에 기 저장된 시드 데이터 즉, 시드 URL(Uniform Resource Location)을 기반으로 인터넷 상의 웹 문서를 검색할 수 있다. 크롤러(124)는 웹 문서를 수집하기 위해 이를 제2 웹 문서 DB(123)에 저장할 수 있다.

인덱서(122)는 제2 웹 문서 DB(123)에 저장된 웹 문서로부터 색인 데이터 또는 색인어를 작성할 수 있다. 즉, 인덱서(122)는 웹 문서에서 HTML(HyperText Markup Language) 태그를 제거하고 이를 텍스트 문서로 만들 수 있다. 인덱서(122)는 텍스트 문서에 대해 동의어 또는 신조어 등을 처리하면서 소정의 단어들에 대해 랭킹 처리하여 색인 데이터를 작성할 수 있다.

인덱서(122)는 제1 웹 문서 DB(121)에 작성된 색인 데이터에 따라 웹 문서를 분류하여 저장할 수 있다.

결국, 검색 프로그램(110)은 검색어(query)를 입력 받으면, 제1 웹 문서 DB에 접근하여 입력된 검색어(query)와 색인 데이터를 비교하고 검색어와의 관련도가 높은 순으로 웹 문서를 출력할 수 있다.

그러나, 인터넷 사용이 보급화됨에 따라 월드와이드웹(world wide web)에 연결되는 웹 문서의 수가 크게 증가하고 있기 때문에 이를 처리하기 위한 기술 발전 속도가 웹 문서 증가 속도를 따라가지 못하고 있는 실정이다.

예를 들면, 검색 엔진은 통상적으로 4000만 웹 문서를 수집하는데 15일 정도의 시간이 소요된다. 검색 엔진은 통상적으로 수집된 4000만 웹 문서를 색인하는데 2일 정도의 시간이 소요된다. 즉, 검색 엔진은 최신의 검색 결과를 제공하기 위해서는 17일마다 주기적으로 색인 데이터를 교체해야 할 것이다.

이처럼, 검색 엔진에서 수집해야 하는 웹 문서의 수도 기하급수적으로 증가함에 따라 웹 문서를 수집하기 위한 소요 시간이 증가할 뿐만 아니라 수집된 웹 문서를 색인하기 위한 소요 시간도 증가하고 있다.

이로 인해, 색인 데이터를 구축하는 과정이 진행되는 기간 동안에 생성될 수 있는 새로운 웹 문서가 색인 데이터에 반영되지 못한다는 문제점이 있었다.

본 발명의 목적은 상기한 종래 기술의 문제점을 해결하기 위한 것으로서, 보조 크롤러와 보조 인덱서를 추가함으로써, 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 생성되는 새로운 웹 문서를 실시간으로 반영할 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.

본 발명의 다른 목적은 새로운 웹 문서에 대한 색인 데이터를 실시간으로 반영할 수 있기 때문에, 사용자에게 보다 정확한 검색 결과를 제공할 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.

본 발명의 또 다른 목적은 새로운 웹 문서가 생기더라도 이를 실시간으로 반영하여 보다 정확한 검색 결과를 사용자에게 제공할 수 있기 때문에, 이러한 검색 서비스를 이용하는 사용자의 만족도를 향상 시킬 수 있는 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 제공하는데 있다.

상기 목적을 달성하기 위하여, 본 발명의 한 측면에 따른 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 시스템은 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러, 및 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한, 본 발명의 다른 한 관점에 따른 주기적으로 크롤러와 인덱서를 통해 웹 문서를 수집하여 색인 데이터를 구축하기 위한 방법은 보조 크롤러가 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 단계, 및 보조 인덱서가 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 한다.

상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.

이하에서는, 본 발명의 일실시예에 따른 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법을 첨부된 도 2 내지 도 3을 참조하여 상세히 설명한다.

본 발명은 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 발생할 수 있는 새로운 웹 문서를 실시간으로 사용자에게 제공할 수 있는 방법을 제안한다. 이를 위해, 본 발명은 크롤러와 인덱서의 기능을 보조할 수 있는 보조 크롤러와 보조 인덱서를 검색 엔진에 추가할 것을 제안한다.

이러한 이유는, 기존의 검색 엔진이 새로운 색인 데이터를 구축하여 이를 기존의 색인 데이터와 교체하기 위해 필요한 소요 시간 동안에 발생할 수 있는 웹 문서를 검색 결과에 반영하지 않는다는 단점을 보완하기 위함이다.

이때, 후술할 실시 예에서 기능상의 의미를 명확히 하기 위해서, 상술한 '보조 크롤러'는 '증분적 크롤러(incremental crawler)'로 명명되고 상술한 '보조 인덱서'는 '실시간 인덱서(real-time indexer)'로 명명될 수 있다.

도 2에 도시한 바와 같이, 웹 문서를 검색하기 위한 시스템은 크게 검색 프로그램(searcher)(210)과 내부 검색 엔진(internal search engine)(이하 '검색 엔진')(220)으로 구성될 수 있다. 검색 엔진(220)은 제1 웹 문서 DB(database)(221), 인덱서(indexer)(222), 제2 웹 문서 DB(223), 크롤러(crawler)(224), 시드(seed) 데이터 DB(225), 보조 인덱서(226), 및 보조 크롤러(227)를 포함할 수 있다.

이때, 검색 엔진(220)은 검색 프로그램과 동일한 물리적 장치 예를 들면, 컴퓨터 시스템 등을 기반으로 구축되거나 네트워킹 가능한 별도의 물리적인 장치를 기반으로 구축될 수 있다.

크롤러(224)는 시드 데이터 DB(225)에 기 저장된 시드 데이터 즉, 시드 URL(Uniform Resource Location)을 기반으로 인터넷 상의 웹 문서를 검색할 수 있다. 크롤러(224)는 웹 문서를 수집하기 위해 이를 제2 웹 문서 DB(223)에 저장할 수 있다.

이때, 크롤러(124)는 인터넷 상에서 정보 자원 예를 들면, 웹 문서를 검색하는 프로그램이다. 이러한 크롤러(124)는 웹 크롤러(web clawler), 스파이더(spider), 로봇(robot), 및 지능 에이전트(AI agent) 등을 의미할 수 있다.

또한, 시드 데이터는 하나 이상의 웹 문서들을 유지하는 특정한 웹 서버(web server)의 위치를 각각 식별하는 URL들의 리스트를 포함할 수 있다.

인덱서(222)는 제2 웹 문서 DB(223)에 저장된 웹 문서로부터 색인 데이터 또 는 색인어를 작성할 수 있다. 즉, 인덱서(222)는 웹 문서에서 HTML(HyperText Markup Language) 태그를 제거하고 이를 텍스트 문서로 만들 수 있다. 이후, 인덱서(222)는 텍스트 문서에 대해 동의어 또는 신조어 등을 처리하면서 소정의 단어들에 대해 랭킹 처리하여 색인 데이터를 작성할 수 있다.

또한, 검색 엔진(220)은 자연 언어 분석을 담당하는 프로그램으로 단어 또는 어절을 구성하는 각 형태소를 인식하고 불규칙 활용이나 축약, 탈락 현상이 일어난 경우 원형을 복원하는 형태소 분석기를 포함하여 구성될 수 있다.

형태소 분석기는 색인 데이터를 작성할 때, 동의어 등을 처리하거나, 검색된 페이지의 모든 형태소를 분석하여 검색어 및 웹 문서의 관련도를 산출하도록 구성될 수 있다.

인덱서(222)는 제1 웹 문서 DB(221)에 색인 데이터에 따라 웹 문서를 분류하여 저장할 수 있다. 이와 같이 색인 데이터를 구축하는 기간 동안에 발생되는 새로운 웹 문서를 처리하기 위해 보조 인덱서(226)와 보조 크롤러(227)를 사용할 수 있다.

이때, 구축하는 기간은 크롤러(224)가 인터넷 상의 웹 문서를 수집하기 시작하는 시점부터 인덱스(222)가 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 기 저장된 색인 데이터와 교체하는 시점까지의 기간을 의미할 수 있다.

보조 크롤러(227)는 크롤러(224)의 기능을 보조하기 위한 것으로서, 시드 데이터를 기반으로 새로운 웹 문서를 수집하여 이를 제2 웹 문서 DB(223)에 저장할 수 있다.

보조 인덱서(226)는 보조 크롤러(227)가 수집한 웹 문서를 처리하기 위한 것으로서, 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 제1 웹 문서 DB(221)에 추가할 수 있다.

이러한 보조 크롤러와 보조 인덱서를 이용하여 보다 정확한 검색 결과를 제공하기 위한 색인 데이터를 구축하는 방법을 도 3을 참조하여 설명한다.

도 3에 도시한 바와 같이, 보조 크롤러는 시드 데이터 DB에 기 저장된 시드 데이터 즉, 시드 URL을 기반으로 새로운 웹 문서가 생성 되었지를 확인한다(S310). 즉, 보조 크롤러는 새로운 웹 문서가 생성 되었으면, 새로운 웹 문서를 수집할 수 있다(S320).

이에, 보조 크롤러는 수집된 웹 문서를 제2 웹 문서 DB에 실시간으로 저장할 수 있다(S330).

보조 인덱서는 제2 웹 문서 DB에 저장된 웹 문서가 있는지를 확인할 수 있다(S340). 즉, 보조 인덱서는 저장된 웹 문서가 있으면, 저장된 웹 문서로부터 색인 데이터를 작성할 수 있다(S350).

이후, 보조 인덱서는 작성된 색인 데이터를 제1 웹 문서 DB에 실시간으로 추가할 수 있다(S360).

이를 통해, 본 발명은 제1 웹 문서 DB에 기 저장된 색인 데이터와 새로운 색인 데이터를 추가로 저장할 수 있기 때문에 보다 정확한 검색 결과를 제공할 수 있 다.

결국, 검색 프로그램(210)은 검색어를 입력 받으면, 제1 웹 문서 DB(221)에 접근하여 입력된 검색어(query)와 색인 데이터를 비교할 수 있다. 검색 프로그램(210)은 사용자에게 보다 정확한 검색 결과로서 해당하는 웹 문서를 출력할 수 있다.

즉, 검색 프로그램(210)은 사용자가 컴퓨터, 핸드폰 등의 휴대 단말기를 통해 인터넷에 접속한 경우 원하는 정보를 검색하도록 하는 UI(User Interface)를 제공할 수 있다. 검색 프로그램은 UI를 통해 검색어가 입력되면, 입력된 검색어를 포함하는 웹 문서를 검색하여 그 결과를 출력할 수 있다.

본 발명의 일실시예에서 색인 데이터를 구축하기 위해 하나의 보조 크롤러와 하나의 보조 인덱서가 사용되었지만 이에 한정되지는 않는다. 즉, 본 발명은 방대한 양의 웹 문서를 고려해야 하기 때문에 지역이나 기관 등에 따라 각각 웹 문서를 수집하여 이를 색인하기 위한 복수의 크롤러와 복수의 보조 인덱서를 사용할 수 있다.

또한, 본 발명은 수집되는 웹 문서의 중요도를 고려하여 복수의 보조 크롤러와 복수의 보조 인덱서마다 색인 데이터를 구축하기 위한 주기를 다르게 설정할 수도 있다.

본 발명에 의한, 색인 데이터를 구축하기 위한 검색 시스템 및 그 방법은 본 발명의 기술적 사상의 범위 내에서 다양한 형태로 변형, 응용 가능하며 상기 실시 예에 한정되지 않는다. 또한, 상기 실시 예와 도면은 발명의 내용을 상세히 설명하기 위한 목적일 뿐, 발명의 기술적 사상의 범위를 한정하고자 하는 목적은 아니며, 이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형, 및 변경이 가능하므로 상기 실시 예 및 첨부된 도면에 한정되는 것은 아님은 물론이며, 후술하는 청구범위뿐만이 아니라 청구범위와 균등 범위를 포함하여 판단되어야 한다.

이상에서 상세히 설명한 바와 같이, 본 발명은 보조 크롤러와 보조 인덱서를 추가함으로써, 주기적으로 웹 문서를 수집하여 색인 데이터를 구축하는 기간 동안에 생성되는 새로운 웹 문서를 실시간으로 반영할 수 있는 효과가 있다.

본 발명은 새로운 웹 문서에 대한 색인 데이터를 실시간으로 반영할 수 있기 때문에, 사용자에게 보다 정확한 검색 결과를 제공할 수 있는 효과가 있다.

또한, 본 발명은 새로운 웹 문서가 생기더라도 이를 실시간으로 반영하여 보다 정확한 검색 결과를 사용자에게 제공할 수 있기 때문에, 이러한 검색 서비스를 이용하는 사용자의 만족도를 향상 시킬 수 있는 효과가 있다.

Claims

주기적으로 웹 문서를 수집하여 색인 데이터를 구축하기 위한 크롤러와 인덱서를 구비한 검색 엔진 시스템에 있어서,

상기 구축하는 기간에 생성되는 웹 문서를 수집하는 보조 크롤러; 및

상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 보조 인덱서를 포함하는 것을 특징으로 하는 검색 시스템.
제1 항에 있어서,

상기 구축하는 기간은 상기 크롤러가 웹 문서를 수집하기 시작하는 시점부터 상기 인덱스가 상기 크롤러에 의해 수집된 웹 문서로부터 색인 데이터를 추출하여 이를 기 저장된 색인 데이터와 교체하는 시점까지의 기간인 것을 특징으로 하는 검색 시스템.
제1 항에 있어서,

상기 보조 크롤러는 기 저장된 시드 데이터를 기반으로 상기 구축하는 기간에 생성되는 웹 문서를 실시간으로 수집하는 것을 특징으로 하는 검색 시스템.
제1 항에 있어서,

상기 보조 인덱서는 상기 구축하는 기간에 생성된 웹 문서로부터 상기 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 실시간으로 추가하는 것을 특징으로 하는 검색 시스템.
제1 항에 있어서,

작성된 상기 색인 데이터에 따라 이에 상응하는 웹 문서를 분류하여 저장하는 웹 문서 DB(DataBase)를 더 포함하는 것을 특징으로 하는 검색 시스템.
주기적으로 크롤러와 인덱서를 통해 웹 문서를 수집하여 색인 데이터를 구축하기 위한 방법에 있어서,

보조 크롤러가 상기 구축하는 기간에 생성되는 웹 문서를 수집하는 단계; 및

보조 인덱서가 상기 구축하는 기간에 생성된 웹 문서로부터 색인 데이터를 작성하여 이를 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.
제6 항에 있어서,

상기 웹 문서를 수집하는 단계는,

상기 보조 크롤러가 기 저장된 시드 데이터를 기반으로 상기 구축하는 기간에 생성되는 웹 문서가 있는지를 확인하는 단계; 및

상기 구축하는 기간에 생성되는 웹 문서가 있으면, 상기 보조 크롤러가 상기 구축하는 기간에 생성된 웹 문서를 수집하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.
제6 항에 있어서,

상기 기 저장된 색인 데이터에 추가하는 단계는,

상기 보조 인덱서가 상기 보조 크롤러에 의해 수집된 웹 문서가 있는지를 확인하는 단계;

상기 보조 크롤러에 의해 수집된 웹 문서가 있으면, 상기 보조 인덱서가 상기 보조 크롤러에 의해 수집된 웹 문서로부터 색인 데이터를 작성하는 단계; 및

상기 보조 인덱서가 작성된 상기 색인 데이터를 상기 기 저장된 색인 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 색인 데이터 구축 방법.