KR101120387B1

KR101120387B1 - 문서 수집 시스템 및 방법

Info

Publication number: KR101120387B1
Application number: KR1020100060185A
Authority: KR
Inventors: 고영수; 한승엽; 서정우
Original assignee: 엔에이치엔(주)
Priority date: 2010-06-24
Filing date: 2010-06-24
Publication date: 2012-03-09
Also published as: JP5959163B2; US20110320427A1; US8930343B2; EP2400409A3; EP2400409A2; CN102298609A; EP2400409A8; CN102298609B; JP2012009024A; KR20110140019A

Abstract

문서 수집 시스템 및 방법이 개시된다. 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다. 문서 수집 시스템에 의하면, 웹사이트의 부하를 감소시키면서 수집하는 문서의 정확도를 향상시킬 수 있다.

Description

문서 수집 시스템 및 방법{SYSTEM AND METHOD FOR COLLECTING DOCUMENT}

본 발명은 사이트에서 문서를 수집하는 시스템 및 방법에 관한 것으로써, 보다 상세하게는 검색 대상이 되는 문서 중 업데이트가 발생한 문서를 수집하는 문서 수집 시스템 및 방법에 관한 것이다.

일반적으로, 검색 서비스 업체는 웹 로못을 이용하여 인터넷 상에 존재하는 복수의 사이트에서 문서의 컨텐츠를 수집한다. 이 때, 웹 로못은 무작위 접근 방식의 크롤링(crawling) 기법을 이용하여 문서에 포함된 컨텐츠를 수집한다. 구체적으로, 검색 서비스 업체는 무작위로 Seed URL을 추출하고, 추출된 Seed URL에 기초하여 웹 로못을 통해 문서를 수집했다. 이로 인해, 문서 각각의 고유 URL과 무관하게 문서가 수집되었다.

위와 같은 방식에 따라 문서가 수집되는 경우, 웹 로못의 무작위 접근으로 인해 웹 사이트에 많은 부하가 발생하는 문제점이 존재하였다. 또한, 웹 로못의 무작위 수집으로 인해 검색 서비스 업체는 검색 요청과 무관한 문서들을 검색 결과로 제공하였다. 즉, 정형화 되지 않은 URL과 문서 내용으로 인해 검색 서비스 업체가 문서 수집 결과를 분석하기 어려움이 있었다.

따라서, 웹 사이트에 부하를 주지 않으면서 정확한 웹 문서를 수집할 수 있는 시스템 및 방법이 요구된다.

본 발명은 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있는 시스템 및 방법을 제공한다.

본 발명은 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있는 시스템 및 방법을 제공한다.

본 발명은 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있는 시스템 및 방법을 제공한다.

본 발명의 일실시예에 따른 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다.

본 발명의 일실시예에 따른 문서 수집 방법은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계를 포함한다.

본 발명의 일실시예에 따르면, 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있다.

본 발명의 일실시예에 따르면, 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있다.

본 발명의 일실시예에 따르면, 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있다.

도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 문서 수집 방법은 문서 수집 시스템에 의해 수행될 수 있다.

도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.

도 1을 참고하면, 사이트(110)는 문서의 업데이트가 발생한 경우, 핑(Ping) 프로토콜과 같은 식별 정보를 문서 수집 시스템(120)에 전송할 수 있다. 예를 들어, 문서의 업데이트는 문서에 포함된 컨텐츠가 등록/수정/삭제 등이 발생한 것을 의미한다. 그리고, Ping은 문서의 업데이트가 발생하였다는 일종의 신호를 의미한다.

그러면, 문서 수집 시스템(120)은 식별 정보를 수신한 것에 대응하여 사이트(110)에 업데이트가 발생한 문서를 요청한다. 이 때, 문서 수집 시스템(120)은 "Atom Syndication Format"을 만족하는 신디케이션 문서를 요청한다.

사이트(110)는 문서 수집 시스템(120)의 요청에 응답하여 업데이트가 발생한 문서를 문서 수집 시스템(120)에 전달할 수 있다. 구체적으로, 문서 수집 시스템(120)은 XML 구조로 구성된 신디케이션 문서를 사이트(110)으로부터 수집할 수 있다.

이 때, 사이트(110)는 검색 되기를 원하는 문서와 관련된 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 원하지 않는 문서가 문서 수집 시스템(120)에 수집되는 것을 방지할 수 있다. 이 때, 검색 되기를 원하는 문서에 콘텐츠가 등록, 삭제, 수정 등의 업데이트가 발생하면, 사이트(110)가 Ping과 같은 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 무작위적인 크롤링에 의한 부하를 줄일 수 있다.

도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.

도 2를 참고하면, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 업데이트 정보 수집부(230), 및 검색 결과 제공부(240)를 포함할 수 있다.

식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 여기서, 식별 정보는 컨텐츠의 등록/수정/삭제와 같은 업데이트가 발생한 문서와 관련된 핑(ping) 프로토콜을 포함할 수 있다.

이 때, 식별 정보 수신부(210)는 업데이트가 발생한 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신할 수 있다. 여기서, 링크 정보는 사이트(110)에서 업데이트가 발생한 문서의 위치를 나타내는 URL을 포함할 수 있다. 즉, 사이트(110)는 수집되기를 원하는 문서를 링크 정보를 포함하는 식별 정보를 통해 문서 수집 시스템(120)에 전달할 수 있다.

수집 요청 전달부(220)는 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 구체적으로 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 일례로, 수집 요청 전달부(220)는 링크 정보를 이용하여 XML 형식으로 구성된 신디케이션 문서를 사이트(110)에 요청할 수 있다.

식별 정보인 핑 프로토콜에 포함된 링크 정보는 다음과 같이 구성될 수 있다.

http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE] &&start-time=[START_TIME]&end-time=[END_TIME]&max-entry=[MAX_ENTRY]&page=[PAGE]

일례로, 링크 정보에 포함된 파라미터는 하기 표 1에 따라 정의될 수 있다.

그리고, 표 1에서 id 파라미터는 Atom Syndication Format에서 제안하는 'Tag URI'에 따라 표현될 수 있다. 이 때, Tag URI에서 channelID에 '-' 구분자가 포함되면 Tag URI는 URL 인코딩에 따라 표현될 수 있다.

Tag URI는 리소스를 포함할 수 있다. 일례로, 리소스는 사이트(site), 채널(channel), 기사(article)를 포함할 수 있다. 리소스 종류별로 실제 리소스 링크를 Tag URI로 표현한 일례는 표 2와 같다.

그리고, 수집 요청 전달부(202)가 요청하는 XML 형식의 신디케이션(Syndication) 문서에 포함되는 리소스의 범위는 id와 type 파라미터 값에 따라 결정될 수 있다. 일례로, 리소스의 범위는 표 3과 같이 결정될 수 있다.

일례로, 식별 정보 수신부(210)가 수신한 식별 정보에 포함된 id가 site 이고 타입이 channel 인 경우, 수집 요청 전달부(220)는 사이트(110)에 포함된 모든 채널의 정보를 요청하는 신디케이션 문서의 수집 요청을 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수집 요청에 따라 사이트(110)에 포함된 모든 채널의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다.

업데이트 정보 수집부(230)는 문서의 수집 요청에 대응하여 사이트(110)로부터 전송된 문서의 업데이트 정보를 수집할 수 있다.

이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식일 수 있다. 구체적으로, 업데이트 정보 수집부(230)는 사이트(110)로부터 XML 형식으로 구성된 신디케이션 문서를 전달받아 문서의 업데이트 정보를 수집할 수 있다.

또한, 문서의 업데이트 정보는 하기 표 4와 같은 엘리먼트를 포함할 수 있다.

이 때, 링크(link) 엘리먼트의 rel 속성값은 하기 표 5와 같이 지정될 수 있다. 구체적으로, 표 5에 지정되는 값에 따라 신디케이션 문서와 관련된 리소스는 달라질 수 있다.

그리고, 업데이트 정보 수집부(230)가 수신하는 XML 형식의 문서인 신디케이션 문서의 최소 단위는 엔트리(entry) 엘리먼트 1개로 구성된 엔트리 문서이다.

또한, 업데이트 정보 수집부(230)는 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집할 수 있다. 구체적으로 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트를 포함하는 경우, 업데이트 정보 수집부(230)는 복수의 엔트리 엘리먼트를 피드(feed) 엘리먼트로 그룹화하여 수집할 수 있다. 이 때, 피드(feed) 엘리먼트로 그룹화된 문서의 업데이트 정보는 피드 문서의 형식일 수 있다.

일례로, 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트가 포함되는 경우, 엔트리 엘리먼트 이외에 하기 표 6과 같은 엘리먼트가 피드 엘리먼트에 추가적으로 포함될 수 있다.

또한, 업데이트 정보 수집부(230)는 식별 정보에 포함된 배포 기간에 기초하여 문서의 업데이트 정보를 수집할 수도 있다. 구체적으로 업데이트 정보 수집부(230)는 식별 정보에 표 1의 start-time과 end-time가 포함된 경우에 식별 정보에 해당하는 문서는 start-time에 설정된 시간부터 end-time에 설정된 시간까지만 업데이트 정보를 수집할 수도 있다.

이상의 구성은 사이트(110)로부터 문서의 업데이트 정보를 수집하는 과정을 설명한 것이다. 문서 수집 시스템(120)은 사이트(110)로부터 수집한 문서의 업데이트 정보를 검색에 활용할 수 있다.

사이트(110)로부터 검색 요청을 수신한 경우, 검색 결과 제공부(240)는 검색 요청에 대응하는 검색 결과를 사이트(110)에 리턴할 수 있다. 이 때, 검색 요청은 키워드와 키워드에 따른 옵션을 포함할 수 있다.

구체적으로 검색 결과 제공부(240)는 업데이트 정보 수집부(230)가 수집한 문서의 업데이트 정보로부터 검색 요청에 대응하는 검색 결과를 추출하여 사이트(110)에 제공할 수 있다. 이 때, 사이트(110)는 사이트 인터페이스에 따라 문서 수집 시스템(120)로부터 수신한 검색 결과를 렌더링하여 표시할 수 있다. 결국, 문서 수집 시스템(120)은 사이트(110)에 대한 개별적인 검색 DB의 역할을 수행할 수 있다.

도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.

본 발명에서 사용되는 리소스는 도 3에 도시된 바와 같이 사이트(site)(310), 채널(channel)(320), 및 기사(article)(330)의 계층적 구조를 가질 수 있다.

구체적으로 사이트(310)은 제1 채널(321), 제2 채널(322) 내지 제 N 채널(323)과 같이 복수의 채널(320)로 구성될 수 있다. 또한, 채널 각각은 제1 기사(331), 제2 기사(332), 내지 제n 기사(333)와 같이 복수의 기사(330)로 구성될 수 있다. 이 때, 기사는 문서에 대응한다.

일례로, 식별 정보의 id가 site 이고 타입이 article인 경우, 사이트(110)는 표 3에 따라 사이트(310)에 포함된 모든 기사(330)의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다. 결국, 사이트(110)는 문서의 수집 범위를 표 3과 같은 파라미터를 통해 결정할 수 있다.

도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.

단계(S410)에서, 식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 이 때, 식별 정보는 문서와 연관된 링크 정보를 포함할 수 있다.

단계(S420)에서, 수집 요청 전달부(220)는 단계(S410)에서 수신한 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 이 때, 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다.

단계(S430)에서 업데이트 정보 수집부(230)는 단계(S420)에서 전송한 문서의 수집 요청에 대응하여 사이트(110)로부터 문서의 업데이트 정보를 수집할 수 있다. 이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 형식의 문서일 수 있다.

단계(S410) 내지 단계(S430)는 문서 수집 시스템(120)이 사이트(110)로부터 문서의 업데이트 내용을 수집하는 과정을 나타낸다. 이후, 단계(S440) 내지 단계(S460)는 문서 수집 시스템(120)이 문서의 업데이트 내용에 기초하여 검색 결과를 제공하는 과정을 나타낸다.

단계(S440)에서 검색 결과 제공부(240)는 사이트(110)로부터 검색 요청을 수신할 수 있다.

단계(S450)에서 검색 결과 제공부(240)는 단계(S440)에서 수신한 검색 요청을 사용하여 단계(S430)에서 수집한 문서의 업데이트 정보로부터 검색 결과를 추출할 수 있다.

단계(S460)에서 검색 결과 제공부(240)는 단계(S450)에서 추출한 검색 결과를 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수신한 검색 결과를 사이트 인터페이스에 따라 렌더링하여 표시할 수 있다.

도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.

본 발명에 따른 문서 수집 시스템(120)은 도 5에 도시된 바와 같이 수집한 문서의 업데이트 정보를 검색하는 검색 서버(500)가 별도로 분리될 수 있다.

이때, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 및 업데이트 정보 수집부(230)를 사용하여 사이트(110)에서 문서를 수집하고, 검색 서버(510)의 요청에 따라 수집된 문서를 검색하여 검색 결과를 검색 서버(500)에 제공할 수 있다.

검색 서버(500)는 사이트(110)로부터 검색 요청을 수신한 경우, 문서 수집 시스템(120)에 검색 요청을 전송하고, 문서 수집 시스템(120)로부터 검색 요청에 대응하는 검색 결과를 수신하여 사이트(110)에 제공할 수 있다.

이때, 검색 서버(500)는 사이트 수신부(510); 수집 시스템 송신부(520), 수집 시스템 수신부(530); 및 사이트 송신부(540)를 포함할 수 있다.

이때 사이트 수신부(510)는 사이트(110)로부터 검색 요청을 수신하고, 수집 시스템 송신부(520)는 문서 수집 시스템(120)에 사이트(110)로부터 수신한 검색 요청을 전송할 수 있다.

또한, 수집 시스템 수신부(530)는 문서 수집 시스템(120)으로부터 전송한 검색 요청에 대응하는 검색 결과를 수신하고, 사이트 송신부(540)는 수신한 검색 결과를 사이트(110)에 제공할 수 있다.

결국, 본 발명의 일실시예에 따르면, 사이트로부터 문서의 업데이트 정보와 관련된 식별 정보에 대응하는 문서만을 수집함으로써 검색되지 않기를 원하는 문서가 문서 수집 시스템에 수집되는 것을 방지할 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

210: 식별 정보 수신부
220: 수집 요청 전달부
230: 업데이트 정보 수집부
240: 검색 결과 제공부

Claims

적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부;
상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부;
상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부; 및
사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 검색 결과 제공부
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 시스템.
제1항에 있어서,
상기 식별 정보 수신부는,
상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 시스템.
제1항에 있어서,
상기 업데이트 정보 수집부는,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 시스템.
제3항에 있어서,
상기 업데이트 정보 수집부는,
상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 시스템.
제3항에 있어서,
상기 업데이트 정보 수집부는,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 시스템.
제1항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 문서 수집 시스템.
적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 문서 시스템 송신부;
상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 문서 시스템 수신부; 및
상기 검색 결과를 상기 사이트에 제공하는 사이트 송신부
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 서버.
제7항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 서버.
제7항에 있어서,
상기 상기 문서 수집 시스템은,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 서버.
제7항에 있어서,
상기 문서 수집 시스템은,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 서버.
적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계;
상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계;
상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계; 및
사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 단계
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 방법.
제11항에 있어서,
상기 식별 정보를 수신하는 단계는,
상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 방법.
제11항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 방법.
제13항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 방법.
제13항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 방법.
제11항에 있어서,
상기 사이트가 사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 단계
를 더 포함하는 것을 특징으로 하는 문서 수집 방법.
적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하 고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 단계;
상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 단계; 및
상기 검색 결과를 상기 사이트에 제공하는 단계
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 방법.
제17항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 방법.
제17항에 있어서,
상기 문서 수집 시스템은,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 방법.
제17항에 있어서,
상기 문서 수집 시스템은,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 방법.
제11항 내지 제20항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.