KR20010067767A

KR20010067767A - 고객 임대형 정보검색 통합 시스템

Info

Publication number: KR20010067767A
Application number: KR1020010014841A
Authority: KR
Inventors: 김룡; 주원균; 정동우; 이경선
Original assignee: 김룡; 우리데이타 주식회사
Priority date: 2001-03-22
Filing date: 2001-03-22
Publication date: 2001-07-13

Abstract

본 발명은 개인 또는 단체, 기업 등 임의의 웹사이트운영자가 운영하는 웹사이트의 내부 정보를 효과적으로 검색하고 관리할 수 있도록 하는 진보된 필드처리 기법이 적용된 고객 임대형 정보검색 통합 시스템에 관한 것이다.

본 발명은 웹사이트운영자(100)가 관리하는 웹서버에 정보검색 서비스를 제공하기 위한 웹서버(310), 게이트웨이서버(320), 적어도 하나 이상의 검색서버(330)와 로봇/색인서버(340)를 포함하는 정보검색 시스템으로, 상기 웹서버(310)는 회원등록하는 웹사이트운영자(100)의 회원정보를 데이터베이스에 등록하고 관리하는 회원정보관리수단(312)과, 상기 웹사이트운영자(100)가 사용할 검색서버를 설정하는 검색서버설정수단(313)을 포함하고; 상기 게이트웨이서버(320)는 웹이용자(200)가 접속한 해당 웹사이트운영자의 회원정보를 추출하는 회원정보추출수단(322)과, 상기 추출된 회원정보로부터 데이터베이스를 검색하여 기 설정된 검색서버(330)의 위치를 파악하는 검색서버위치확인수단(323)과, 상기 파악된 검색서버(330)에 웹이용자(200)가 요청하는 검색요청정보를 전송하는 검색요청수단(324)을 포함하고; 상기 검색서버(330)는 상기 웹서버(310)로부터 웹사이트운영자(100)의 정보를 전송받아 해당 웹사이트의 웹문서를 수집/색인할 로봇/색인서버(340)를 설정하는 로봇/색인서버설정수단(332), 상기 웹사이트운영자(100)의 정보와 해당 로봇/색인서버(340)로부터 해당 웹사이트 색인정보를 전송받아 이를 저장하고 관리하는 검색정보데이터베이스(335), 게이트웨이서버(320)의 정보검색요청에 따라 상기 검색정보데이터베이스(335)에 저장된 색인정보를 검색하여 검색결과를 인출하는 정보검색수단(333)을 포함하고; 상기 로봇/색인서버(340)는 상기 검색서버(330)로부터 전송되는 해당 웹사이트운영자 정보를 통하여 해당 웹사이트에 접속하여 웹문서를 수집하는 로봇서버(342)와, 상기 로봇서버(342)에 의해 수집된 웹문서에 대한 모든 키워드 관련 정보를 추출하는 색인서버(343)를 포함하여 이루어지는 것을 특징으로 한다.

Description

고객 임대형 정보검색 통합 시스템 { An Integration System for Offering Search Engine to Web Server }

본 발명은 고객 임대형 정보검색 통합 시스템에 관한 것으로, 보다 상세히는 개인 또는 단체, 기업 등 임의의 웹사이트운영자가 운영하는 웹사이트의 내부 정보를 효과적으로 검색하고 관리할 수 있도록 하는 진보된 필드처리 기법이 적용된 고객 임대형 정보검색 통합 시스템에 관한 것이다.

인터넷의 발달과 함께 웹사이트를 손쉽게 제작하고 유지보수 할 수 있는 웹제작기술의 발달에 힘입어 웹사이트에 대한 인식이 확대되고 이에 따라 개인이나 단체에 의해 운영되는 웹사이트의 수가 빠른 속도로 증가하고 있으며, 또한 웹사이트 내부에 등록된 유용한 문서들의 수도 기하급수적으로 증가하고 있다. 웹사이트 내부에 등록된 정보의 양이 방대해짐으로써 웹이용자들은 단순히 웹사이트 내부를 서핑하는 것만으로 자신들이 필요로 하는 유용한 정보를 해당 웹사이트 내에서 쉽게 획득할 수 없게 되었다.

이처럼 웹사이트 및 웹문서의 증가로 인하여 웹이용자들은 방대한 웹 정보중 자신이 원하는 정보를 획득하기 위하여 야후(Yahoo)와 같은 정보검색 서비스를 제공하는 정보검색 사이트를 방문하여 자신이 원하는 정보검색에 이용하였다. 즉, 정보검색 서비스를 제공하는 종래의 검색 시스템들은 웹이용자들이 찾고자 하는 정보가 포함된 다수의 웹사이트 주소목록을 검색결과로 제시하여 웹이용자들로 하여금 검색결과로 제시된 웹사이트들을 일일이 방문하여 그 내용을 검토하도록 하였다.

하지만, 종래의 검색 시스템들은 전국의 웹서버 중 그 일부를 검색 대상으로 함으로써 모든 웹서버의 웹문서 정보를 웹이용자에게 제공하지는 못하였으며, 하나의 검색 시스템이 검색 대상으로 하는 웹서버의 수가 방대하여 일반적인 정보검색 엔진으로는 다수의 검색대상 웹서버의 특성을 반영하기 어려울 뿐만 아니라, 해당 웹서버의 웹문서 검색 정보에 대한 신속한 업데이트가 어려운 문제점이 있었다. 따라서, 종래의 정보검색 시스템에 의해 정보검색결과로 제시되는 웹사이트들은 검색결과에 부합되지 않는 웹문서 정보로 이루어지거나, 해당 웹사이트 자체가 존재하지 않는 경우가 빈번하게 발생되고 있었다.

이에 따라 웹사이트운영자들은 자신의 웹사이트의 내부 웹문서를 정확하게 검색할 수 있는 자체 정보검색엔진의 도입 필요성을 느끼게 되었다. 규모가 큰 웹사이트운영자들은 자체적으로 정보검색엔진시스템을 웹서버시스템에 도입하여 웹이용자들로 하여금 웹사이트 내부검색이 용이하게 이루어질 수 있도록 하는 정보검색 서비스를 제공하고 있다. 하지만, 검색엔진을 자체적으로 구축하고 관리하기 위해서는 고난도의 기술을 필요로 하며 구축시간 및 비용이 많이 소요되기 때문에 자금이나 기술력이 부족한 개인이나 단체, 규모가 비교적 영세한 기업 등이 자체적으로 검색엔진을 구축하고 관리하기에는 어려운 문제점이 있다.

상기의 문제점을 감안하여 국내특허공개 제2000-17909호(공개일자 2000.04.06)의 인터넷 상에서의 정보검색장치 및 이를 이용한 정보검색방법이 제안되었는데, 이는 웹사이트를 개인적으로 가지고 있는 사람들 중 등록된 가입자에게 내부 검색엔진을 간편하게 제공하고 그 내부 검색엔진을 이용하여 정보검색을 효율적으로 행하도록 한 것이다.

상기 발명은 개인 웹사이트운영자 또는 소규모 회사의 웹사이트에 내부 검색엔진을 무료로 제공함으로써 내부검색시스템을 도입하기 위한 비용과 시간을 최소화시켜 주며, 1차 검색과 2차 검색을 통하여 원하는 정보를 빠르고 정확하게 얻도록 할 수 있도록 한 것이었다.

하지만, 상기 발명에서 웹사이트의 내부검색을 위해 제공되는 검색시스템은 검색성능에 대한 고려가 충분히 반영되지 못하였다. 즉, 현재 생성되는 웹문서의 특성에 맞추어진 검색 시스템의 도입을 고려하지 않음으로써 검색성능에 다소 문제가 발생될 수 있다. 이는 현재의 웹 환경이 단순 HTML 형식으로 생성된 웹문서 이외에도 데이터베이스(Database)내에 존재하는 웹문서가 상당부분을 차지하고 있으며, 이밖에도 다양한 웹문서 저작 소프트웨어로 생성된 웹문서 파일을 포함하고 있고, 또한 보안의 중요성이 강조됨에 따라 사용자 인증방식을 도입한 웹사이트가 증가하고 있기 때문이다.

따라서, 종래의 정보검색 시스템들은 웹문서의 특성을 제대로 이해하지 못함으로써 사용자 인증이 적용된 웹문서에 대한 검색을 지원하지 못하였고, 다양한 웹문서 및 문서 포멧 내의 제목과 본문 및 요약에 대한 정확한 필드 정보를 추출해 내지 못하기 때문에 웹이용자에게 정확한 검색결과를 제공할 수 없는 문제점이 있었다.

따라서, 본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 웹사이트내의 웹문서 특성을 반영하여 웹이용자들이 원하는 정보를 빠르고 정확하게 검색할 수 있도록 하는 정보검색 통합 시스템을 제공하는데 있다.

또한, 본 발명의 다른 목적은 웹사이트운영자들이 자체적으로 검색엔진을 구축하지 않고도 유료 또는 무료로 제공받아 저렴한 비용으로 웹이용자들에게 서비스를 제공할 수 있는 고객 임대형 정보검색 통합 시스템을 제공하는데 있다.

상기의 목적을 달성하기 위한 본 발명은 웹사이트운영자가 관리하는 웹서버에 정보검색 서비스를 제공하기 위한 웹서버, 게이트웨이서버, 적어도 하나 이상의 검색서버와 로봇/색인서버를 포함하는 정보검색 시스템으로, 상기 웹서버는 회원등록하는 웹사이트운영자의 회원정보를 데이터베이스에 등록하고 관리하는 회원정보관리수단과, 상기 웹사이트운영자가 사용할 검색서버를 설정하는 검색서버설정수단을 포함하고; 상기 게이트웨이서버는 웹이용자가 접속한 해당 웹사이트운영자의 회원정보를 추출하는 회원정보추출수단과, 상기 추출된 회원정보로부터 데이터베이스를 검색하여 기 설정된 검색서버의 위치를 파악하는 검색서버위치확인수단과, 상기 파악된 검색서버에 웹이용자가 요청하는 검색요청정보를 전송하는 검색요청수단을 포함하고; 상기 검색서버는 상기 웹서버로부터 웹사이트운영자의 정보를 전송받아 해당 웹사이트의 웹문서를 수집/색인할 로봇/색인서버를 설정하는 로봇/색인서버설정수단, 상기 웹사이트운영자의 정보와 해당 로봇/색인서버로부터 해당 웹사이트 색인정보를 전송받아 이를 저장하고 관리하는 검색정보데이터베이스, 게이트웨이서버의 정보검색요청에 따라 상기 검색정보데이터베이스에 저장된 색인정보를 검색하여 검색결과를 인출하는 정보검색수단을 포함하고; 상기 로봇/색인서버는 상기 검색서버로부터 전송되는 해당 웹사이트운영자 정보를 통하여 해당 웹사이트에 접속하여 웹문서를 수집하는 로봇서버와, 상기 로봇서버에 의해 수집된 웹문서에 대한 모든 키워드 관련 정보를 추출하는 색인서버를 포함하여 이루어진다.

상기 로봇/검색서버의 로봇서버는 해당 웹사이트의 웹문서 파일포멧 형식을 구분하여 웹문서 전체를 수집함으로써 색인대상정보를 생성하며, 주기적으로 해당 웹사이트의 웹문서를 재수집할 때 수집대상 웹문서에 날짜 필드가 존재하는 경우 기존의 날짜 필드 데이터베이스를 참조하여 신규 등록된 문서와 갱신된 문서만을 수집하고, 해당 웹사이트의 웹문서 접근이 사용자 인증을 필요로 하는 경우 상기 웹서버의 회원정보관리수단을 통하여 웹사이트운영자가 등록한 해당 웹문서 사용자 인증정보를 참조하여 인증된 웹문서를 수집하는 것을 특징으로 한다.

또한, 상기 로봇/색인서버의 색인서버는 해당 웹사이트운영자 회원별로 구성된 색인옵션 파일의 해당 웹사이트 URL 패턴과 제목 및 내용 패턴을 참조함으로써 데이터베이스내 웹문서에서 문서 제목과 내용을 구분하여 추출하고, 이를 필드별로 색인하여 색인정보를 생성하며, 웹문서중 불필요 URL 패턴을 참조하여 수집된 문서중 불필요한 목록은 색인하지 않는 것을 특징으로 한다.

상기 웹서버, 게이트웨이서버, 검색서버, 로봇/색인서버는 물리적으로 하나의 시스템에 구축되거나, 계층적으로 분산된 다수의 시스템에 독립적으로 존재한다.

도 1은 본 발명에 따른 정보검색 통합 시스템이 적용된 전체 네트워크 구성도이다.

도 2는 본 발명에 따른 정보검색 통합 시스템의 전체적인 블록 구성도이다.

도 3은 본 발명에 따른 정보검색 통합 시스템의 로봇/색인서버를 개략적으로 도시한 블록 구성도이다.

도 4a는 본 발명에 따른 정보검색 통합 시스템이 웹사이트운영자에게 제공되는 과정을 도시한 흐름도이고, 도 4b는 정보검색 통합 시스템이 회원등록된 웹사이트의 웹문서를 수집하고 색인하는 과정을 도시한 흐름도이다.

도 5는 웹이용자가 검색창이 설치된 웹사이트를 통하여 정보 검색을 수행하는 과정을 도시한 흐름도이다.

※ 도면의 주요부분에 대한 부호의 설명

100 : 웹사이트운영자 200 : 웹이용자

300 : 정보검색 통합 시스템 310 : 웹서버

311: 웹서버관리수단 312 : 회원관리수단

313 : 검색서버설정수단 314,325,334,344 : 네트워크관리수단

315,326,335,345 : 데이터베이스 320 : 게이트웨이서버

321 : 게이트웨이서버관리수단 322 : 회원정보인출수단

323 : 검색서버위치확인수단 324 : 검색요청수단

330 : 검색서버 331 : 검색서버관리수단

332 : 로봇/색인서버설정수단 333 : 정보검색수단

340 : 로봇/색인서버 341 : 로봇/색인서버관리수단

342 : 로봇서버 342-1 : 수집처리풀

342-2 : 로봇 342-3 : 검색회원정보데이터베이스

343 : 색인서버 343-1 : 색인사전 파일

343-2 : 색인옵션 파일 343-3 : 색인처리풀

344 : 색인기

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.

도 1은 본 발명에 따른 정보검색 통합 시스템이 적용된 전체적인 네트워크 구성을 도시한 것으로, 본 발명의 정보검색 통합 시스템(300)은 인터넷 등의 네트워크를 통하여 웹사이트운영자(100)와 웹이용자(200)와 연결된다.

웹사이트운영자(100)는 네트워크 기능을 갖는 소프트웨어 및 하드웨어로 구성되는 컴퓨터 시스템을 통하여 개인 또는 단체의 웹사이트를 운영하고 관리하는 운영자로서, 본 발명에서 상기 웹사이트운영자(100)는 운영자뿐만 아니라 웹사이트 운영자가 운영하는 웹서버 컴퓨터 시스템까지 포함하는 의미로 명칭한다.

웹이용자(200)는 네트워크 기능을 갖는 컴퓨터 시스템을 통하여 웹서핑 및 정보검색을 수행하는 일반 웹이용자로서, 상기 웹이용자(200) 또한 본 발명에서 웹이용자가 이용하는 컴퓨터 시스템까지 포함하는 의미로 명칭한다.

정보검색 통합 시스템(300)은 인터넷 등의 네트워크를 통하여 웹사이트운영자(100)로부터 회원등록을 통하여 필요한 정보를 제공받고, 웹사이트운영자(100)가 관리하는 웹사이트의 내부 웹문서를 검색할 수 있는 정보검색수단을 제공하고 관리하는 서버 시스템이다.

상기 정보검색 통합 시스템(300) 또한 네트워크 기능을 갖는 컴퓨터 시스템으로, 웹사이트운영자(100) 및 웹이용자(200)의 컴퓨터 시스템과 마찬가지로 메인메모리, 중앙처리장치, 입출력장치, 보조기억장치 등의 구성을 갖는다. 이 정보검색 통합 시스템(300)은 하나의 서버 컴퓨터 또는 네크워크로 연결되어 계층적으로 분산된 다수의 서버 컴퓨터에 독립적으로 구성될 수도 있다.

도 2는 본 발명의 정보검색 통합 시스템의 전체 구성을 도시한 블록 구성도로서, 이 정보검색 통합 시스템(300)은 웹서버(310), 게이트웨이서버(320), 다수의 검색서버(330), 다수의 로봇/색인서버(340)를 포함하여 이루어진다.

웹서버(310)는 웹서버 시스템 전체를 관리하고 제어하는 웹서버관리수단 (311)과, 웹사이트운영자(100)로부터 회원등록에 따른 운영자 정보 및 운영 웹사이트의 회원정보를 등록받아 회원코드를 부여하고 부여된 회원코드를 통하여 회원인증을 수행하며 등록된 회원정보를 수정할 수 있도록 관리하는 회원정보관리수단(312)과, 상기 회원등록된 웹사이트운영자(100)에게 검색서버(330)를 설정하여 제공하는 검색서버설정수단(313)과, 상기 회원등록된 웹사이트운영자(100)의 회원정보를 저장하고 관리하는 회원정보데이터베이스(315)를 포함한다.

검색서버(330)는 검색서버 시스템 전체를 관리하고 제어하는 검색서버관리수단(331)과, 상기 웹서버(310)로부터 회원등록된 웹사이트운영자(100)의 회원정보를 전송받아 해당 웹사이트의 웹문서를 수집/색인할 로봇/색인서버(340)를 설정하는 로봇/색인서버설정수단(332)과, 상기 웹사이트운영자(100)의 회원정보와 해당 로봇/색인서버(340)로부터 해당 웹사이트의 색인정보를 전송받아 이를 저장하고 관리하는 검색정보데이터베이스(335)와, 게이트웨이서버(320)의 정보검색요청에 따라 상기 검색정보데이터베이스(335)에 저장된 해당 웹사이트의 색인정보를 통하여 검색결과를 인출하고 이를 웹이용자(200)에게 전송하는 정보검색수단(333)을 포함한다.

로봇/색인서버(340)는 로봇/색인서버 시스템 전체를 관리하고 제어하는 로봇/색인서버관리수단(341)과, 상기 검색서버(330)로부터 전송되는 해당 웹사이트주소정보를 통하여 해당 웹사이트에 접속하여 웹문서를 수집하는 로봇서버(342)와, 상기 로봇서버(342)에 의해 수집된 웹문서에 대한 모든 키워드 관련 정보를 추출하여 색인정보를 생성하는 색인서버(343)를 포함한다.

도 3은 상기 로봇/색인서버를 개략적으로 도시한 블록 구성도로서, 상기 로봇서버(342)는 웹문서를 수집할 웹사이트의 수집대상정보를 임시 저장하는 수집처리풀(342-1)과, 상기 수집처리풀(342-1)에 저장된 수집대상정보를 인출하여 해당 웹사이트에 웹문서를 요청하고 수집하여 색인대상정보(342-4)를 생성하는 로봇(342-2)과, 웹문서 수집을 수행하는 웹사이트에 대한 정보를 저장하는 검색정보회원데이터베이스(342-3)를 포함하여 이루어진다.

상기 색인서버(343)는 색인을 위한 회원별 고유 색인사전 및 색인옵션 파일(343-1)(343-2)과, 상기 로봇서버(342)에서 생성된 색인대상정보(342-4)를 전송받아 이를 임시 저장하는 색인처리풀(343-3)과, 상기 색인사전 및 색인옵션 파일(343-1)(343-2)을 참조하여 색인처리풀(343-3)에 등록된 색인대상정보(342-4)를 색인함으로써 색인정보(343-5)를 생성하는 색인기(343-4)를 포함하여 이루어진다.

상기 로봇서버(342)의 로봇(342-2)은 웹문서 수집시 사용자 인증을 요구하는 경우 해당 웹사이트운영자(100)로부터 제공된 사용자 인증정보(인증방식, 사용자 아이디, 패스워드, 해당 URL(Uniform Resource Locator) 등)를 이용하여 회원 인증된 웹문서를 수집하며, 웹문서의 파일포멧 형식, 즉 HTML 문서, 데이터베이스 내에 존재하는 문서, 워드프로세서 등의 모든 문서 형식 전체를 수집한다. 또한, HTML 문서에 날짜 헤드가 포함되거나 기타 웹문서에 날짜 필드가 포함한 경우에는 최초 웹문서를 수집한 후 이후 반복하여 문서를 수집할 때 날짜헤드 및 날짜필드를 검사하여 신규등록되거나 갱신된 문서만을 수집함으로써 주기적인 문서 수집에서 오는 불필요한 문서 재수집 과정을 생략할 수 있도록 하였다. 이때 데이터베이스 내에 존재하는 문서의 파악은 웹문서의 주소가 데이터베이스내 접근을 위한 CGI, ASP, PHP 문서 등과 같은 형식이나 포멧일 경우에 해당되는 것으로서 파악될 수 있다.

이러한 회원의 웹사이트 수집정보는 검색회원데이터베이스(342-3)에 등록되며 갱신되며, 상기 로봇(342-2)은 웹문서를 수집한 후 이를 바탕으로 색인대상정보(342-4)를 생성하여 색인서버(343)로 전송한다. 색인서버(343)의 색인기(343-4)는 상기 로봇서버(342)로부터 전송된 색인대상정보(342-4)를 분석하여 웹문서의 형태를 구분하고, 색인사전 및 기 등록된 회원별 고유 색인옵션 파일(343-1)(343-2)에 지정된 정보에 의해 해당 문서 타입에 대한 필드분석을 거쳐 문서의 정확한 제목과 내용을 구분하여 색인 키워드를 추출한다. 상기 색인사전 파일(343-1)에는 일반화된 색인사전의 내용과 각 회원별로 등록한 회원별 고유 색인사전이 등록되어 있으며, 색인옵션 파일(343-2)에는 회원별로 파악된 웹사이트의 URL패턴과 해당 URL패턴에 대한 제목과 내용을 추출할 수 있는 패턴에 관한 정보가 등록되어 있다. 상기 색인기(343-4)에 의해 추출된 해당 웹사이트의 색인 키워드 정보를 통하여 색인정보(343-5)가 생성되고, 생성된 색인정보(343-5)는 검색서버(330)로 전송되어 해당 검색정보데이터베이스(335)에 등록된다.

본 발명의 실시예에서는 상기 로봇서버(342)와 색인서버(343) 사이에서 이루어지는 데이터의 용량과 속도를 감안하여 하나의 로봇/색인서버(340) 내에서 구현하였지만, 이는 네트워크 상에 계층적으로 분산된 서버에 각각 독립적으로 구현될 수도 있다.

상기 게이트웨이서버(320)는 웹이용자(200)들이 서비스 등록 회원 웹사이트에 접속한 후 해당 웹사이트에 설치된 검색창을 통하여 정보를 검색할 경우에 실제적으로 정보를 검색하는 해당 검색서버(330)를 찾아 연결하여 주는 역할을 수행한다. 여기에는 게이트웨이서버 전체를 관리하고 제어하는 게이트웨이서버관리수단(321)과, 해당 웹사이트운영자 회원별로 상기 웹서버(310)의 검색서버설정수단(313)에 의해 설정된 검색서버(330)의 위치가 저장된 검색서버위치정보데이터베이스(326)와, 웹이용자(200)가 접속한 해당 웹사이트의 회원정보를 추출하는 회원정보추출수단(322)과, 회원정보추출수단(322)에 의해 추출된 회원정보를 통하여 기 설정된 웹사이트의 검색서버위치를 파악하는 검색서버위치확인수단(323)과, 검색서버위치확인수단(323)을 통하여 파악된 검색서버(330)에 웹이용자가 요청하는 검색요청정보를 전송하는 검색요청수단(324)을 포함한다. 이 게이트웨이서버(320)는 웹서버(310)의 데이터베이스와 연동되어 독립적으로 구현될 수도 있고, 하나의 서버에 통합되어 구현될 수도 있다.

상기 웹서버(310), 게이트웨이서버(320), 다수의 검색서버(330) 및 로봇/색인서버(340)에는 네트워크 기능을 수행하는 네트워크관리수단(314)(325)(334)(344)이 각각 포함되어 상술한 각 서버간의 데이터 송수신이나 인터넷 등의 네트워크로 연결된 외부 컴퓨터와의 데이터 송수신이 가능하도록 제어하고 관리한다. 또한, 상술한 웹서버(310), 게이트웨이서버(320), 검색서버(330), 로봇/색인서버(340)는 물리적으로 하나의 서버상에 구현될 수 있으며, 네트워크 상에 계층적으로 분산 연결된 다수의 서버상에 독립적으로 각각 구현될 수도 있다.

이하, 상기의 구성으로 이루어진 본 발명의 실시예에 따른 정보검색 통합 시스템이 운영되는 과정을 상세히 설명한다.

도 4a는 본 발명에 따른 정보검색 통합 시스템을 통하여 웹사이트운영자로부터 회원가입을 등록받고 해당 웹사이트의 웹문서를 수집하고 색인하여 이를 저장하는 과정을 도시한 흐름도이다.

도 4a에 도시된 바와 같이, 웹사이트운영자(100)는 자신의 웹사이트를 방문하는 웹이용자(200)에게 정보 검색 서비스를 제공하기 위한 정보검색창을 설치하기 위하여 먼저 단계 S110에서 본 정보검색 통합 시스템의 웹서버(310)에 의해 운영되는 웹사이트에 접속한 후, 단계 S120에서 정보검색 웹사이트에 회원등록을 신청한다. 회원등록 시 입력되는 회원정보에는 회원코드(아이디 및 패스워드), 자신의 웹사이트 URL, 기타 운영자 및 웹사이트의 정보 등이다. 또한, 사용자 인증이 필요한 웹문서를 검색대상에 포함시킬 경우에는 사용자 인증정보(인증방법, 아이디 및 패스워드, 해당 URL)를 등록할 수 있으며, 또한 로봇/색인서버(340)의 색인사전 파일(343-1)에 자신만의 회원 고유 색인사전을 등록시킬 수도 있다. 웹사이트운영자에 의해 등록된 회원정보는 회원관리수단(312)에 의해 처리되어 회원정보데이터베이스(315)에 저장된다. 웹사이트운영자(100)에 의해 회원등록이 이루어지면, 웹사이트운영자(100)에게는 회원등록시 신청한 회원코드와 자신의 정보검색 서비스를 위한 정보검색창 코드가 부여된다.

상기 과정으로 회원등록이 이루어지면, 단계 S130에서 웹서버(310)의 검색서버설정수단(313)은 상기 등록회원의 웹사이트를 검색할 검색서버(330)를 설정한다. 검색서버(330)는 다수의 검색서버중 상기 해당 웹사이트를 최적의 상태에서 검색할 수 있는 검색서버(330)가 선택되며, 선택된 검색서버(330)의 위치는 회원정보데이터베이스(315) 및 이와 연동된 검색서버위치정보데이터베이스(326)에 등록된다.

검색서버(330)가 설정되면, 해당 검색서버(330)의 로봇/색인설정수단(332)은 단계 S140에서 웹사이트의 웹문서를 수집하고 색인할 로봇/색인서버(340)를 설정한다. 검색서버(330)의 설정과 마찬가지로 상기 로봇/색인서버(340) 또한 다수의 로봇/색인서버중 해당 웹사이트의 웹문서를 최적의 상태에서 수집하고 색인할 수 있는 로봇/색인서버(340)가 선택되고, 선택된 로봇/색인서버(340)의 위치는 검색정보데이터베이스(335)에 등록된다.

로봇/색인서버(340)가 설정되면, 로봇/색인서버(340)는 단계 S150에서 로봇서버(342)를 통하여 해당 웹사이트의 웹문서를 수집하여 하나의 파일로 통합된 색인대상정보(342-4)를 생성하고, 색인서버(343)는 상기 생성된 색인대상정보(342-4)를 분석하여 색인정보(343-5)를 생성한다. 이때, 로봇/색인서버(340)에 의해 수집/색인이 진행되는 해당 웹사이트운영자(100)의 회원정보는 검색회원정보데이터베이스(342-3)에 등록된다.

로봇/색인서버(340)에 의해 색인정보(343-5)가 생성되면, 생성된 해당 웹사이트의 색인정보(343-5)는 단계 S160에서 해당 검색서버(330)로 전송되어 검색정보데이터베이스(335)에 등록된다.

해당 웹사이트의 웹문서 수집/색인이 이루어지면, 단계 S170에서 해당 웹사이트운영자에게 내부 웹문서의 검색을 위한 정보검색창을 설치할 수 있는 검색코드가 제공된다. 웹사이트운영자(100)는 제공되는 검색코드를 자신의 웹사이트내 웹문서를 편집하여 정보검색창을 설치함으로써, 이후 자신의 웹사이트를 방문하는 웹이용자(200)에게 유용한 정보검색 서비스를 제공한다.

이후, 회원등록된 웹사이트의 색인정보는 갱신될 수 있는데, 갱신은 웹사이트운영자(100)의 요청에 의하거나 기 설정된 로봇(342-2)의 문서요청 주기에 의해 주기적으로 수집/갱신될 수 있다. 단계 S180에서 이러한 문서요청 주기 요건에 해당되어 수집/갱신되는 경우에는, 단계 S190에서 해당 웹사이트운영자(100)의 회원정보가 추출되고, 단계 S200에서 해당 검색서버(330)의 위치가 추출된 후, 단계 S210에서 해당 로봇/색인서버(340)의 위치가 추출되어, 단계 S220에서 해당 웹사이트의 웹문서가 다시 수집/갱신되어 색인되고, 단계 S230에서 검색정보데이터베이스(335)의 색인정보(343-5)가 갱신된다. 상기의 과정에서 이루어지는 회원정보 및 색인정보의 변경은 해당 데이터베이스에 저장되어 갱신되며, 로봇/색인서버(340)가 웹문서를 다시 요청하는 경우에 새로운 URL 문서와 기존 URL 데이터베이스와 비교하여 이미 요청한 웹문서는 날짜 헤드 및 날짜 필드를 검사하여 새로이 갱신된 문서만을 수집하여 불필요한 로봇과정을 생략한다.

도 4b는 로봇/색인서버에 의해 진행되는 웹문서의 수집/색인과정을 도시한 흐름도로서, 웹문서의 수집/색인과정은 먼저 단계 S151에서 수집/색인요청이 들어온 웹사이트의 수집대상정보가 로봇서버(342)의 수집처리풀(342-1)에 등록되고, 단계 S152에서 로봇(342-2)이 상기 수집처리풀(342-1)에 등록된 수집대상정보를 인출하여 해당 웹사이트를 방문함으로써 웹문서를 수집하는데, 이때 진행되는 웹문서의 수집은 웹문서 전체를 수집한다. 즉, 로봇(342-2)은 해당 웹사이트의 HTML 문서, 데이터베이스내에 존재하는 문서, 워드프로세서 등의 웹문서 포멧에 관계없이 웹에 존재하는 웹문서 전체를 수집한다. 또한, 사용자 인증이 요구되는 문서의 경우에는 웹사이트운영자(100)에 의해 제공된 사용자 인증정보를 이용하여 인증된 웹문서를 수집하고, 기 존재하는 웹문서의 경우 해당 웹문서의 날짜필드를 검사하여 갱신된 문서만을 수집한다. 이때, 날짜필드 검사는 해당 웹사이트의 이전 수집정보가 등록된 검색회원데이터베이스(342-3)를 통하여 파악된다.

상기의 과정으로 수집된 웹문서를 통하여 단계 S153에서 색인을 위한 색인대상정보(342-4)가 생성되며, 생성된 색인대상정보(342-4)는 색인서버(343)의 색인처리풀(343-3)에 전송되어 등록된다. 또한, 단계 S154에서 상기 웹문서가 수집된 해당 웹사이트의 수집정보가 검색회원정보데이터베이스(342-3)에 등록 또는 갱신되며, 수집처리풀(342-1)에 등록되었던 수집대상정보는 수집완료와 함께 삭제된다.

색인서버(343)의 색인기(343-4)는 단계 S155에서 색인처리풀(343-3)에 등록된 색인대상정보(342-4)를 분석하여 문서의 특성, 즉 단순 HTML 문서인지, 데이터베이스내에 존재하는 문서인지 등을 구분하고, 단계 S156에서 해당 문서의 URL과 필드분석을 거쳐 문서의 정확한 제목과 내용을 구분하여 추출하며, 단계 S157에서 색인 키워드를 색인서버(343)의 고유 색인사전과 회원별 고유 색인사전을 기반으로 추출한다. 상기 필드분석시에는 색인옵션 파일(343-2)이 참조되는데, 이 색인옵션 파일(343-2)에는 웹사이트운영자 회원별 URL 패턴과 해당 URL 패턴에 대한 제목과 내용 패턴 등의 정보가 등록되어 있다. 상기 색인옵션 파일(343-2)의 회원별 정보는 본 시스템의 관리자가 회원별 웹사이트의 패턴을 분석하여 등록하는데, 이는 회원들이 직접 등록할 수도 있다.

단계 S158에서 상기의 과정에 의해 추출된 색인 키워드를 통하여 색인정보(343-5)가 생성되며, 생성된 해당 웹사이트의 웹문서 색인정보(343-5)는 단계 S159에서 해당 검색서버(330)에 전송된다.

이상에서 도 4a와 도 4b의 설명을 통하여 웹이용자(200)가 해당 웹사이트의 정보를 검색할 수 있도록 하는 준비과정에 대하여 설명하였다. 이하에서는 웹이용자(200)가 실제로 정보검색 서비스 신청 회원 웹사이트에 설치된 검색창을 이용하여 정보검색을 수행하는 과정을 설명한다.

도 5는 웹이용자에 의해 검색창이 설치된 웹사이트의 정보검색이 이루어지는 과정을 도시한 흐름도이다.

먼저, 단계 S310에서 웹이용자(200)는 상기 검색창이 설치된 해당 웹사이트에 접속한 후, 단계 S320에서 상기 검색창에 찾기를 원하는 검색정보에 관한 검색 키워드를 입력한다. 웹사이트에 설치된 검색창을 통하여 입력된 검색 키워드는 본 발명의 정보검색 통합 시스템의 게이트웨이서버(320)에 전송된다.

단계 S330에서 게이트웨이서버(320)의 회원정보추출수단(322)은 상기 검색 키워드가 입력된 해당 웹사이트의 회원정보를 추출하고, 단계 S340에서 검색서버위치확인수단(323)은 추출된 회원정보를 통하여 해당 검색서버(330)의 위치를 추출하며, 검색요청수단(324)은 이 때 확인된 검색서버(330)에 검색 키워드를 전송한다.

단계 S350에서 검색서버(330)의 정보검색수단(333)은 전송된 검색 키워드를 통하여 검색정보데이터베이스(335)에 등록된 색인정보(343-5)를 이용하여 검색결과를 인출한다. 이때, 정보검색수단(333)은 색인정보 검색결과에 따른 가중치정보를 융합하여 순위를 결정함으로써 웹이용자(200)가 찾고자 하는 검색 질의 키워드에 가장 적합한 순으로 검사결과를 인출한다.

검색결과가 인출되면, 단계 S370에서 인출된 검색결과가 해당 웹사이트에 전송됨으로써 웹이용자(200)는 자신이 검색하기를 희망한 정보를 확인할 수 있다. 만약 검색결과가 웹이용자(200)의 요구에 부합되지 않거나 새로운 검색을 원할경우에는 단계 S380에서 새로운 검색 키워드를 입력함으로써 상기의 검색과정을 반복할 수 있다.

상기의 과정을 통하여 회원등록된 웹사이트에 검색창이 제공되어 설치되고, 설치된 검색창을 통하여 웹이용자(200)는 정보검색을 수행할 수 있다.

상기에서는 각각 하나의 웹사이트별로 정보검색 통합 시스템이 적용되는 것으로 설명하였지만, 본 발명은 여러 개의 웹사이트를 하나로 통합하여 정보검색을 수행하도록 구성될 수 있다. 비교적 규모가 큰 회사나 대학교, 관공서 등에서는 대표 URL 이외에도 별도의 다수 웹사이트 URL이 존재한다. 예를 들면, 충남대학교의 경우 대표 URL인 http://www.cnu.ac.kr 이외에도 네트워크상에 존재하는 http://web.cnu.ac.kr 이나 http://job.cnu.ac.kr, http://ice.cnu.ac.kr 등등의 별도 URL이 다수 존재하는데, 이러한 웹사이트들을 하나로 통합하여 정보검색시 정보를 공유하여 검색할 수 있도록 제공될 수 있음은 당업에 종사하는 통상의 지식을 자진 자에 의해 용이하게 이해되고 실시될 수 있을 것이다. 더 나아가, 본 발명은 각각의 지역 및 분야를 통합하는 통합검색시스템으로 적용될 수 있음 또한 자명하다.

상술한 바와 같이 본 발명의 고객 임대형 정보검색 통합 시스템은 향상된 필드 처리를 통해 개선된 정보검색 방법을 사용함으로써 문서의 수집시간을 줄이고, 색인의 정확도를 높이며, 검색성능을 향상시킬 수 있다. 특히, 단순 HTML문서나 데이터베이스내에 존재하는 문서 등의 문서 포멧에 관계없이 제목과 내용을 정확히 추출하여 색인하고 검색함으로써 높은 검색 성능을 제공할 수 있다.

또한, 인터넷상에서 웹사이트를 운영하는 웹사이트운영자들이 정보검색 시스템을 위해 별도의 하드웨어와 소프트웨어를 도입하지 않고도 본 발명의 향상된 정보검색 서비스를 제공받아 사용할 수 있도록 함으로써 검색 시스템의 구축 및 관리에 소요되는 비용 및 시간을 절감할 수 있는 효과가 있다.

Claims

웹사이트운영자(100)가 관리하는 웹서버에 정보검색 서비스를 제공하기 위한 웹서버(310), 게이트웨이서버(320), 적어도 하나 이상의 검색서버(330)와 로봇/색인서버(340)를 포함하는 정보검색 시스템으로,

상기 웹서버(310)는 회원등록하는 웹사이트운영자(100)의 회원정보를 데이터베이스에 등록하고 관리하는 회원정보관리수단(312)과, 상기 웹사이트운영자(100)가 사용할 검색서버를 설정하는 검색서버설정수단(313)을 포함하고;

상기 게이트웨이서버(320)는 웹이용자(200)가 접속한 해당 웹사이트의 회원정보를 추출하는 회원정보추출수단(322)과, 상기 추출된 회원정보로부터 데이터베이스를 검색하여 기 설정된 검색서버(330)의 위치를 파악하는 검색서버위치확인수단(323)과, 상기 파악된 검색서버(330)에 웹이용자(200)가 요청하는 검색요청정보를 전송하는 검색요청수단(324)을 포함하고;

상기 검색서버(330)는 상기 웹서버(310)로부터 웹사이트운영자(100)의 정보를 전송받아 해당 웹사이트의 웹문서를 수집/색인할 로봇/색인서버(340)를 설정하는 로봇/색인서버설정수단(332), 상기 웹사이트운영자(100)의 정보와 해당 로봇/색인서버(340)로부터 해당 웹사이트 색인정보를 전송받아 이를 저장하고 관리하는 검색정보데이터베이스(335), 게이트웨이서버(320)의 정보검색요청에 따라 상기 검색정보데이터베이스(335)에 저장된 색인정보를 검색하여 검색결과를 인출하는 정보검색수단(333)을 포함하고;

상기 로봇/색인서버(340)는 상기 검색서버(330)로부터 전송되는 해당 웹사이트운영자 정보를 통하여 해당 웹사이트에 접속하여 웹문서를 수집하는 로봇서버(342)와, 상기 로봇서버(342)에 의해 수집된 웹문서에 대한 모든 키워드 관련 정보를 추출하는 색인서버(343)를 포함하여 이루어지는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.
제 1항에 있어서, 상기 로봇/검색서버(340)의 로봇서버(342)는

해당 웹사이트의 웹문서 파일포멧 형식을 구분하여 웹문서 전체를 수집함으로써 색인대상정보(342-4)를 생성하는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.
제 1항에 있어서, 상기 로봇/검색서버(340)의 로봇서버(342)는

주기적으로 해당 웹사이트의 웹문서를 재수집할 때 수집대상 웹문서에 날짜 필드가 존재하는 경우 기존의 날짜필드 데이터베이스를 참조하여 신규 등록된 문서와 갱신된 문서를 수집하는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.
제 1항에 있어서, 상기 로봇/색인서버(340)의 로봇서버(342)는

해당 웹사이트의 웹문서 접근이 사용자 인증을 필요로 하는 경우 상기 웹서버(310)의 회원정보관리수단(332)을 통하여 웹사이트운영자(100)가 등록한 해당 웹문서 사용자 인증정보를 참조하여 인증된 웹문서 전체를 수집하는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.
제 1항에 있어서, 상기 로봇/색인서버(340)의 색인서버(343)는

해당 웹사이트운영자 회원별로 구성된 색인옵션 파일(343-2)의 해당 웹사이트 URL 패턴과 제목 및 내용 패턴을 참조함으로써 데이터베이스내 웹문서에서 문서 제목과 내용을 구분하여 추출하고, 이를 필드별로 색인하여 색인정보(343-5)를 생성하는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.
제 1항에 있어서, 상기 웹서버(310), 게이트웨이서버(320), 검색서버(330), 로봇/색인서버(340)는 물리적으로 하나의 시스템에 구축되거나, 계층적으로 분산된 다수의 시스템에 독립적으로 존재하는 것을 특징으로 하는 고객 임대형 정보검색 통합 시스템.