KR101120387B1 - 문서 수집 시스템 및 방법 - Google Patents
문서 수집 시스템 및 방법 Download PDFInfo
- Publication number
- KR101120387B1 KR101120387B1 KR1020100060185A KR20100060185A KR101120387B1 KR 101120387 B1 KR101120387 B1 KR 101120387B1 KR 1020100060185 A KR1020100060185 A KR 1020100060185A KR 20100060185 A KR20100060185 A KR 20100060185A KR 101120387 B1 KR101120387 B1 KR 101120387B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- site
- identification information
- update information
- update
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012546 transfer Methods 0.000 claims abstract description 4
- 238000009877 rendering Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
문서 수집 시스템 및 방법이 개시된다. 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다. 문서 수집 시스템에 의하면, 웹사이트의 부하를 감소시키면서 수집하는 문서의 정확도를 향상시킬 수 있다.
Description
본 발명은 사이트에서 문서를 수집하는 시스템 및 방법에 관한 것으로써, 보다 상세하게는 검색 대상이 되는 문서 중 업데이트가 발생한 문서를 수집하는 문서 수집 시스템 및 방법에 관한 것이다.
일반적으로, 검색 서비스 업체는 웹 로못을 이용하여 인터넷 상에 존재하는 복수의 사이트에서 문서의 컨텐츠를 수집한다. 이 때, 웹 로못은 무작위 접근 방식의 크롤링(crawling) 기법을 이용하여 문서에 포함된 컨텐츠를 수집한다. 구체적으로, 검색 서비스 업체는 무작위로 Seed URL을 추출하고, 추출된 Seed URL에 기초하여 웹 로못을 통해 문서를 수집했다. 이로 인해, 문서 각각의 고유 URL과 무관하게 문서가 수집되었다.
위와 같은 방식에 따라 문서가 수집되는 경우, 웹 로못의 무작위 접근으로 인해 웹 사이트에 많은 부하가 발생하는 문제점이 존재하였다. 또한, 웹 로못의 무작위 수집으로 인해 검색 서비스 업체는 검색 요청과 무관한 문서들을 검색 결과로 제공하였다. 즉, 정형화 되지 않은 URL과 문서 내용으로 인해 검색 서비스 업체가 문서 수집 결과를 분석하기 어려움이 있었다.
따라서, 웹 사이트에 부하를 주지 않으면서 정확한 웹 문서를 수집할 수 있는 시스템 및 방법이 요구된다.
본 발명은 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있는 시스템 및 방법을 제공한다.
본 발명은 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있는 시스템 및 방법을 제공한다.
본 발명은 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있는 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다.
본 발명의 일실시예에 따른 문서 수집 방법은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계를 포함한다.
본 발명의 일실시예에 따르면, 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있다.
본 발명의 일실시예에 따르면, 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있다.
본 발명의 일실시예에 따르면, 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있다.
도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 문서 수집 방법은 문서 수집 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.
도 1을 참고하면, 사이트(110)는 문서의 업데이트가 발생한 경우, 핑(Ping) 프로토콜과 같은 식별 정보를 문서 수집 시스템(120)에 전송할 수 있다. 예를 들어, 문서의 업데이트는 문서에 포함된 컨텐츠가 등록/수정/삭제 등이 발생한 것을 의미한다. 그리고, Ping은 문서의 업데이트가 발생하였다는 일종의 신호를 의미한다.
그러면, 문서 수집 시스템(120)은 식별 정보를 수신한 것에 대응하여 사이트(110)에 업데이트가 발생한 문서를 요청한다. 이 때, 문서 수집 시스템(120)은 "Atom Syndication Format"을 만족하는 신디케이션 문서를 요청한다.
사이트(110)는 문서 수집 시스템(120)의 요청에 응답하여 업데이트가 발생한 문서를 문서 수집 시스템(120)에 전달할 수 있다. 구체적으로, 문서 수집 시스템(120)은 XML 구조로 구성된 신디케이션 문서를 사이트(110)으로부터 수집할 수 있다.
이 때, 사이트(110)는 검색 되기를 원하는 문서와 관련된 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 원하지 않는 문서가 문서 수집 시스템(120)에 수집되는 것을 방지할 수 있다. 이 때, 검색 되기를 원하는 문서에 콘텐츠가 등록, 삭제, 수정 등의 업데이트가 발생하면, 사이트(110)가 Ping과 같은 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 무작위적인 크롤링에 의한 부하를 줄일 수 있다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 업데이트 정보 수집부(230), 및 검색 결과 제공부(240)를 포함할 수 있다.
식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 여기서, 식별 정보는 컨텐츠의 등록/수정/삭제와 같은 업데이트가 발생한 문서와 관련된 핑(ping) 프로토콜을 포함할 수 있다.
이 때, 식별 정보 수신부(210)는 업데이트가 발생한 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신할 수 있다. 여기서, 링크 정보는 사이트(110)에서 업데이트가 발생한 문서의 위치를 나타내는 URL을 포함할 수 있다. 즉, 사이트(110)는 수집되기를 원하는 문서를 링크 정보를 포함하는 식별 정보를 통해 문서 수집 시스템(120)에 전달할 수 있다.
수집 요청 전달부(220)는 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 구체적으로 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 일례로, 수집 요청 전달부(220)는 링크 정보를 이용하여 XML 형식으로 구성된 신디케이션 문서를 사이트(110)에 요청할 수 있다.
식별 정보인 핑 프로토콜에 포함된 링크 정보는 다음과 같이 구성될 수 있다.
http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE] &&start-time=[START_TIME]&end-time=[END_TIME]&max-entry=[MAX_ENTRY]&page=[PAGE]
일례로, 링크 정보에 포함된 파라미터는 하기 표 1에 따라 정의될 수 있다.
그리고, 표 1에서 id 파라미터는 Atom Syndication Format에서 제안하는 'Tag URI'에 따라 표현될 수 있다. 이 때, Tag URI에서 channelID에 '-' 구분자가 포함되면 Tag URI는 URL 인코딩에 따라 표현될 수 있다.
Tag URI는 리소스를 포함할 수 있다. 일례로, 리소스는 사이트(site), 채널(channel), 기사(article)를 포함할 수 있다. 리소스 종류별로 실제 리소스 링크를 Tag URI로 표현한 일례는 표 2와 같다.
그리고, 수집 요청 전달부(202)가 요청하는 XML 형식의 신디케이션(Syndication) 문서에 포함되는 리소스의 범위는 id와 type 파라미터 값에 따라 결정될 수 있다. 일례로, 리소스의 범위는 표 3과 같이 결정될 수 있다.
일례로, 식별 정보 수신부(210)가 수신한 식별 정보에 포함된 id가 site 이고 타입이 channel 인 경우, 수집 요청 전달부(220)는 사이트(110)에 포함된 모든 채널의 정보를 요청하는 신디케이션 문서의 수집 요청을 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수집 요청에 따라 사이트(110)에 포함된 모든 채널의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다.
업데이트 정보 수집부(230)는 문서의 수집 요청에 대응하여 사이트(110)로부터 전송된 문서의 업데이트 정보를 수집할 수 있다.
이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식일 수 있다. 구체적으로, 업데이트 정보 수집부(230)는 사이트(110)로부터 XML 형식으로 구성된 신디케이션 문서를 전달받아 문서의 업데이트 정보를 수집할 수 있다.
또한, 문서의 업데이트 정보는 하기 표 4와 같은 엘리먼트를 포함할 수 있다.
이 때, 링크(link) 엘리먼트의 rel 속성값은 하기 표 5와 같이 지정될 수 있다. 구체적으로, 표 5에 지정되는 값에 따라 신디케이션 문서와 관련된 리소스는 달라질 수 있다.
그리고, 업데이트 정보 수집부(230)가 수신하는 XML 형식의 문서인 신디케이션 문서의 최소 단위는 엔트리(entry) 엘리먼트 1개로 구성된 엔트리 문서이다.
또한, 업데이트 정보 수집부(230)는 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집할 수 있다. 구체적으로 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트를 포함하는 경우, 업데이트 정보 수집부(230)는 복수의 엔트리 엘리먼트를 피드(feed) 엘리먼트로 그룹화하여 수집할 수 있다. 이 때, 피드(feed) 엘리먼트로 그룹화된 문서의 업데이트 정보는 피드 문서의 형식일 수 있다.
일례로, 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트가 포함되는 경우, 엔트리 엘리먼트 이외에 하기 표 6과 같은 엘리먼트가 피드 엘리먼트에 추가적으로 포함될 수 있다.
또한, 업데이트 정보 수집부(230)는 식별 정보에 포함된 배포 기간에 기초하여 문서의 업데이트 정보를 수집할 수도 있다. 구체적으로 업데이트 정보 수집부(230)는 식별 정보에 표 1의 start-time과 end-time가 포함된 경우에 식별 정보에 해당하는 문서는 start-time에 설정된 시간부터 end-time에 설정된 시간까지만 업데이트 정보를 수집할 수도 있다.
이상의 구성은 사이트(110)로부터 문서의 업데이트 정보를 수집하는 과정을 설명한 것이다. 문서 수집 시스템(120)은 사이트(110)로부터 수집한 문서의 업데이트 정보를 검색에 활용할 수 있다.
사이트(110)로부터 검색 요청을 수신한 경우, 검색 결과 제공부(240)는 검색 요청에 대응하는 검색 결과를 사이트(110)에 리턴할 수 있다. 이 때, 검색 요청은 키워드와 키워드에 따른 옵션을 포함할 수 있다.
구체적으로 검색 결과 제공부(240)는 업데이트 정보 수집부(230)가 수집한 문서의 업데이트 정보로부터 검색 요청에 대응하는 검색 결과를 추출하여 사이트(110)에 제공할 수 있다. 이 때, 사이트(110)는 사이트 인터페이스에 따라 문서 수집 시스템(120)로부터 수신한 검색 결과를 렌더링하여 표시할 수 있다. 결국, 문서 수집 시스템(120)은 사이트(110)에 대한 개별적인 검색 DB의 역할을 수행할 수 있다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
본 발명에서 사용되는 리소스는 도 3에 도시된 바와 같이 사이트(site)(310), 채널(channel)(320), 및 기사(article)(330)의 계층적 구조를 가질 수 있다.
구체적으로 사이트(310)은 제1 채널(321), 제2 채널(322) 내지 제 N 채널(323)과 같이 복수의 채널(320)로 구성될 수 있다. 또한, 채널 각각은 제1 기사(331), 제2 기사(332), 내지 제n 기사(333)와 같이 복수의 기사(330)로 구성될 수 있다. 이 때, 기사는 문서에 대응한다.
일례로, 식별 정보의 id가 site 이고 타입이 article인 경우, 사이트(110)는 표 3에 따라 사이트(310)에 포함된 모든 기사(330)의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다. 결국, 사이트(110)는 문서의 수집 범위를 표 3과 같은 파라미터를 통해 결정할 수 있다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
단계(S410)에서, 식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 이 때, 식별 정보는 문서와 연관된 링크 정보를 포함할 수 있다.
단계(S420)에서, 수집 요청 전달부(220)는 단계(S410)에서 수신한 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 이 때, 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다.
단계(S430)에서 업데이트 정보 수집부(230)는 단계(S420)에서 전송한 문서의 수집 요청에 대응하여 사이트(110)로부터 문서의 업데이트 정보를 수집할 수 있다. 이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 형식의 문서일 수 있다.
단계(S410) 내지 단계(S430)는 문서 수집 시스템(120)이 사이트(110)로부터 문서의 업데이트 내용을 수집하는 과정을 나타낸다. 이후, 단계(S440) 내지 단계(S460)는 문서 수집 시스템(120)이 문서의 업데이트 내용에 기초하여 검색 결과를 제공하는 과정을 나타낸다.
단계(S440)에서 검색 결과 제공부(240)는 사이트(110)로부터 검색 요청을 수신할 수 있다.
단계(S450)에서 검색 결과 제공부(240)는 단계(S440)에서 수신한 검색 요청을 사용하여 단계(S430)에서 수집한 문서의 업데이트 정보로부터 검색 결과를 추출할 수 있다.
단계(S460)에서 검색 결과 제공부(240)는 단계(S450)에서 추출한 검색 결과를 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수신한 검색 결과를 사이트 인터페이스에 따라 렌더링하여 표시할 수 있다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.
본 발명에 따른 문서 수집 시스템(120)은 도 5에 도시된 바와 같이 수집한 문서의 업데이트 정보를 검색하는 검색 서버(500)가 별도로 분리될 수 있다.
이때, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 및 업데이트 정보 수집부(230)를 사용하여 사이트(110)에서 문서를 수집하고, 검색 서버(510)의 요청에 따라 수집된 문서를 검색하여 검색 결과를 검색 서버(500)에 제공할 수 있다.
검색 서버(500)는 사이트(110)로부터 검색 요청을 수신한 경우, 문서 수집 시스템(120)에 검색 요청을 전송하고, 문서 수집 시스템(120)로부터 검색 요청에 대응하는 검색 결과를 수신하여 사이트(110)에 제공할 수 있다.
이때, 검색 서버(500)는 사이트 수신부(510); 수집 시스템 송신부(520), 수집 시스템 수신부(530); 및 사이트 송신부(540)를 포함할 수 있다.
이때 사이트 수신부(510)는 사이트(110)로부터 검색 요청을 수신하고, 수집 시스템 송신부(520)는 문서 수집 시스템(120)에 사이트(110)로부터 수신한 검색 요청을 전송할 수 있다.
또한, 수집 시스템 수신부(530)는 문서 수집 시스템(120)으로부터 전송한 검색 요청에 대응하는 검색 결과를 수신하고, 사이트 송신부(540)는 수신한 검색 결과를 사이트(110)에 제공할 수 있다.
결국, 본 발명의 일실시예에 따르면, 사이트로부터 문서의 업데이트 정보와 관련된 식별 정보에 대응하는 문서만을 수집함으로써 검색되지 않기를 원하는 문서가 문서 수집 시스템에 수집되는 것을 방지할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
210: 식별 정보 수신부
220: 수집 요청 전달부
230: 업데이트 정보 수집부
240: 검색 결과 제공부
220: 수집 요청 전달부
230: 업데이트 정보 수집부
240: 검색 결과 제공부
Claims (21)
- 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부;
상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부;
상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부; 및
사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 검색 결과 제공부
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 시스템. - 제1항에 있어서,
상기 식별 정보 수신부는,
상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 시스템. - 제1항에 있어서,
상기 업데이트 정보 수집부는,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 시스템. - 제3항에 있어서,
상기 업데이트 정보 수집부는,
상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 시스템. - 제3항에 있어서,
상기 업데이트 정보 수집부는,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 시스템. - 제1항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 문서 수집 시스템. - 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 문서 시스템 송신부;
상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 문서 시스템 수신부; 및
상기 검색 결과를 상기 사이트에 제공하는 사이트 송신부
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 서버. - 제7항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 서버. - 제7항에 있어서,
상기 상기 문서 수집 시스템은,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 서버. - 제7항에 있어서,
상기 문서 수집 시스템은,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 서버. - 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계;
상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계;
상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계; 및
사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 단계
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 방법. - 제11항에 있어서,
상기 식별 정보를 수신하는 단계는,
상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 방법. - 제11항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 방법. - 제13항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 방법. - 제13항에 있어서,
상기 업데이트 정보를 수집하는 단계는,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 방법. - 제11항에 있어서,
상기 사이트가 사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 단계
를 더 포함하는 것을 특징으로 하는 문서 수집 방법. - 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하 고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 단계;
상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 단계; 및
상기 검색 결과를 상기 사이트에 제공하는 단계
를 포함하고,
상기 검색 요청은,
키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 방법. - 제17항에 있어서,
상기 사이트는,
사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 방법. - 제17항에 있어서,
상기 문서 수집 시스템은,
상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 방법. - 제17항에 있어서,
상기 문서 수집 시스템은,
상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 방법. - 제11항 내지 제20항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100060185A KR101120387B1 (ko) | 2010-06-24 | 2010-06-24 | 문서 수집 시스템 및 방법 |
CN201110168897.5A CN102298609B (zh) | 2010-06-24 | 2011-06-17 | 文档收集系统和方法 |
JP2011135481A JP5959163B2 (ja) | 2010-06-24 | 2011-06-17 | 文書収集システムおよび方法 |
US13/165,338 US8930343B2 (en) | 2010-06-24 | 2011-06-21 | System and method for collecting document |
EP11171100A EP2400409A3 (en) | 2010-06-24 | 2011-06-22 | System and method for collecting document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100060185A KR101120387B1 (ko) | 2010-06-24 | 2010-06-24 | 문서 수집 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110140019A KR20110140019A (ko) | 2011-12-30 |
KR101120387B1 true KR101120387B1 (ko) | 2012-03-09 |
Family
ID=44773211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100060185A KR101120387B1 (ko) | 2010-06-24 | 2010-06-24 | 문서 수집 시스템 및 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8930343B2 (ko) |
EP (1) | EP2400409A3 (ko) |
JP (1) | JP5959163B2 (ko) |
KR (1) | KR101120387B1 (ko) |
CN (1) | CN102298609B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230143753A (ko) | 2022-04-06 | 2023-10-13 | 주식회사 하나금융티아이 | 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8713368B2 (en) * | 2012-08-22 | 2014-04-29 | Sap Ag | Methods for testing OData services |
JP5823943B2 (ja) * | 2012-10-10 | 2015-11-25 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
US9112790B2 (en) | 2013-06-25 | 2015-08-18 | Google Inc. | Fabric network |
US9973299B2 (en) | 2014-10-14 | 2018-05-15 | At&T Intellectual Property I, L.P. | Method and apparatus for adjusting a mode of communication in a communication network |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125823A (ja) * | 1999-10-29 | 2001-05-11 | Fujitsu Ltd | プッシュサービスシステムおよびプッシュサービス処理方法 |
US9460414B2 (en) * | 2001-08-28 | 2016-10-04 | Eugene M. Lee | Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system |
US8676837B2 (en) * | 2003-12-31 | 2014-03-18 | Google Inc. | Systems and methods for personalizing aggregated news content |
US8086492B2 (en) * | 2004-03-23 | 2011-12-27 | Douglas Ashbaugh | Frame-based network advertising and exchange therefor |
US8131702B1 (en) * | 2004-03-31 | 2012-03-06 | Google Inc. | Systems and methods for browsing historical content |
JP2006099341A (ja) * | 2004-09-29 | 2006-04-13 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 更新履歴生成装置及びプログラム |
CN102098172B (zh) * | 2006-03-31 | 2018-08-14 | STT WebOS 股份有限公司 | 在基于万维网的环境下交换信息的方法及装置 |
JP4982139B2 (ja) * | 2006-09-14 | 2012-07-25 | ソフトバンクモバイル株式会社 | 中継サーバ及び情報提供システム |
JP2008158589A (ja) * | 2006-12-20 | 2008-07-10 | Oki Electric Ind Co Ltd | 更新情報通知装置及び更新情報通知プログラム |
US8255382B2 (en) * | 2007-06-20 | 2012-08-28 | Boopsie, Inc. | Dynamic menus for multi-prefix interactive mobile searches |
JP2008257317A (ja) * | 2007-04-02 | 2008-10-23 | Fuji Xerox Co Ltd | 情報処理装置、情報処理システム及びプログラム |
JP2008262520A (ja) * | 2007-04-11 | 2008-10-30 | Dynasoft Corp | インターネット情報検索システム及びその方法 |
US8255411B1 (en) * | 2008-06-19 | 2012-08-28 | Boopsie, Inc. | Dynamic menus for multi-prefix interactive mobile searches |
US9152942B2 (en) * | 2007-08-03 | 2015-10-06 | International Business Machines Corporation | Using a group list server as a syndication feed server |
CN101493828A (zh) * | 2008-01-23 | 2009-07-29 | 孔雪 | 主动式自动订制web应用的系统和方法 |
US8768909B2 (en) * | 2008-06-19 | 2014-07-01 | Tropare, Inc. | Dynamic menus for multi-prefix interactive mobile searches using predictive text to yield targeted advertisements |
JP5163379B2 (ja) * | 2008-09-11 | 2013-03-13 | 富士通株式会社 | 文書群検出方法及び文書群検出装置 |
JP5736638B2 (ja) * | 2008-10-20 | 2015-06-17 | 株式会社リコー | 画像処理装置 |
KR20100060185A (ko) | 2008-11-27 | 2010-06-07 | 삼성전자주식회사 | 무선통신 시스템에서 간섭 제어 방법 및 장치 |
US8281233B2 (en) * | 2009-06-15 | 2012-10-02 | Microsoft Corporation | Architecture to expose internal business data on a website |
US20110173177A1 (en) * | 2010-01-11 | 2011-07-14 | Flavio Junqueira | Sightful cache: efficient invalidation for search engine caching |
US9116990B2 (en) * | 2010-05-27 | 2015-08-25 | Microsoft Technology Licensing, Llc | Enhancing freshness of search results |
-
2010
- 2010-06-24 KR KR1020100060185A patent/KR101120387B1/ko active IP Right Grant
-
2011
- 2011-06-17 CN CN201110168897.5A patent/CN102298609B/zh active Active
- 2011-06-17 JP JP2011135481A patent/JP5959163B2/ja active Active
- 2011-06-21 US US13/165,338 patent/US8930343B2/en active Active
- 2011-06-22 EP EP11171100A patent/EP2400409A3/en not_active Ceased
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230143753A (ko) | 2022-04-06 | 2023-10-13 | 주식회사 하나금융티아이 | 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5959163B2 (ja) | 2016-08-02 |
US20110320427A1 (en) | 2011-12-29 |
US8930343B2 (en) | 2015-01-06 |
EP2400409A3 (en) | 2012-12-26 |
EP2400409A2 (en) | 2011-12-28 |
CN102298609A (zh) | 2011-12-28 |
EP2400409A8 (en) | 2013-08-07 |
CN102298609B (zh) | 2016-05-18 |
JP2012009024A (ja) | 2012-01-12 |
KR20110140019A (ko) | 2011-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及系统 | |
US10992762B2 (en) | Processing link identifiers in click records of a log file | |
US8918330B1 (en) | Display of videos based on referrers | |
CN101420452A (zh) | 一种视频文件的发布方法及装置 | |
KR100886767B1 (ko) | 지유아이 검색 서비스 제공 방법 및 시스템 | |
KR101120387B1 (ko) | 문서 수집 시스템 및 방법 | |
CN102098234A (zh) | 基于即时通信消息中超链接提供目标内容的方法与设备 | |
EP2293566A2 (en) | Media mediator system and method for managing contents of various formats | |
KR101979924B1 (ko) | 디바이스 상의 결합된 활동 히스토리 | |
US20150127644A1 (en) | Method and system for incremental collection of forum replies | |
CN103051976A (zh) | 一种cdn分发hls内容方法、系统及设备 | |
CN102004765A (zh) | 一种用于基于互联网电视搜索媒体文件的方法与设备 | |
CN101477527A (zh) | 一种检索多媒体资源的方法及装置 | |
WO2016053367A1 (en) | Methods and apparatus to identify media distributed via a network | |
CN102510536A (zh) | 一种互联网音视频下载方法 | |
CN101556588A (zh) | 一种搜索方法、设备及系统 | |
CN103761257A (zh) | 基于移动浏览器的网页处理方法及系统 | |
US20130179425A1 (en) | Apparatus and method for searching for program using related keyword | |
JP5211180B2 (ja) | データベース管理装置、データベース管理プログラム、データベース管理方法、データベース管理システム | |
JP2009301540A (ja) | 情報検索装置及び情報検索方法 | |
JP4602104B2 (ja) | サイト情報収集システム | |
US9372927B1 (en) | Original authorship identification of electronic publications | |
CN106156024B (zh) | 一种信息处理方法及服务器 | |
JP6510452B2 (ja) | 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム | |
KR101792863B1 (ko) | 컨텐츠 스트리밍 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20151223 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170117 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 9 |