KR101120387B1 - 문서 수집 시스템 및 방법 - Google Patents

문서 수집 시스템 및 방법 Download PDF

Info

Publication number
KR101120387B1
KR101120387B1 KR1020100060185A KR20100060185A KR101120387B1 KR 101120387 B1 KR101120387 B1 KR 101120387B1 KR 1020100060185 A KR1020100060185 A KR 1020100060185A KR 20100060185 A KR20100060185 A KR 20100060185A KR 101120387 B1 KR101120387 B1 KR 101120387B1
Authority
KR
South Korea
Prior art keywords
document
site
identification information
update information
update
Prior art date
Application number
KR1020100060185A
Other languages
English (en)
Other versions
KR20110140019A (ko
Inventor
고영수
한승엽
서정우
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020100060185A priority Critical patent/KR101120387B1/ko
Priority to CN201110168897.5A priority patent/CN102298609B/zh
Priority to JP2011135481A priority patent/JP5959163B2/ja
Priority to US13/165,338 priority patent/US8930343B2/en
Priority to EP11171100A priority patent/EP2400409A3/en
Publication of KR20110140019A publication Critical patent/KR20110140019A/ko
Application granted granted Critical
Publication of KR101120387B1 publication Critical patent/KR101120387B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

문서 수집 시스템 및 방법이 개시된다. 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다. 문서 수집 시스템에 의하면, 웹사이트의 부하를 감소시키면서 수집하는 문서의 정확도를 향상시킬 수 있다.

Description

문서 수집 시스템 및 방법{SYSTEM AND METHOD FOR COLLECTING DOCUMENT}
본 발명은 사이트에서 문서를 수집하는 시스템 및 방법에 관한 것으로써, 보다 상세하게는 검색 대상이 되는 문서 중 업데이트가 발생한 문서를 수집하는 문서 수집 시스템 및 방법에 관한 것이다.
일반적으로, 검색 서비스 업체는 웹 로못을 이용하여 인터넷 상에 존재하는 복수의 사이트에서 문서의 컨텐츠를 수집한다. 이 때, 웹 로못은 무작위 접근 방식의 크롤링(crawling) 기법을 이용하여 문서에 포함된 컨텐츠를 수집한다. 구체적으로, 검색 서비스 업체는 무작위로 Seed URL을 추출하고, 추출된 Seed URL에 기초하여 웹 로못을 통해 문서를 수집했다. 이로 인해, 문서 각각의 고유 URL과 무관하게 문서가 수집되었다.
위와 같은 방식에 따라 문서가 수집되는 경우, 웹 로못의 무작위 접근으로 인해 웹 사이트에 많은 부하가 발생하는 문제점이 존재하였다. 또한, 웹 로못의 무작위 수집으로 인해 검색 서비스 업체는 검색 요청과 무관한 문서들을 검색 결과로 제공하였다. 즉, 정형화 되지 않은 URL과 문서 내용으로 인해 검색 서비스 업체가 문서 수집 결과를 분석하기 어려움이 있었다.
따라서, 웹 사이트에 부하를 주지 않으면서 정확한 웹 문서를 수집할 수 있는 시스템 및 방법이 요구된다.
본 발명은 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있는 시스템 및 방법을 제공한다.
본 발명은 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있는 시스템 및 방법을 제공한다.
본 발명은 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있는 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 문서 수집 시스템은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부를 포함한다.
본 발명의 일실시예에 따른 문서 수집 방법은 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계; 상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계; 및 상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계를 포함한다.
본 발명의 일실시예에 따르면, 식별 정보를 통해 업데이트가 발생한 문서를 수집함으로써 무작위 크롤링에 의한 사이트의 부하를 줄일 수 있다.
본 발명의 일실시예에 따르면, 컨텐츠 제공자가 문서의 업데이트와 관련된 식별 정보를 검색 업체에 전달함으로써 컨텐츠 제공자가 원하는 문서만 검색 결과에 반영할 수 있다.
본 발명의 일실시예에 따르면, 업데이트가 발생한 문서를 XML 형식으로 수집함으로써 제목, 내용, 태그 등의 문서의 구조가 검색 결과에 정확히 반영될 수 있다.
도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 문서 수집 방법은 문서 수집 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따라 문서를 수집하는 과정을 설명하기 위한 도면이다.
도 1을 참고하면, 사이트(110)는 문서의 업데이트가 발생한 경우, 핑(Ping) 프로토콜과 같은 식별 정보를 문서 수집 시스템(120)에 전송할 수 있다. 예를 들어, 문서의 업데이트는 문서에 포함된 컨텐츠가 등록/수정/삭제 등이 발생한 것을 의미한다. 그리고, Ping은 문서의 업데이트가 발생하였다는 일종의 신호를 의미한다.
그러면, 문서 수집 시스템(120)은 식별 정보를 수신한 것에 대응하여 사이트(110)에 업데이트가 발생한 문서를 요청한다. 이 때, 문서 수집 시스템(120)은 "Atom Syndication Format"을 만족하는 신디케이션 문서를 요청한다.
사이트(110)는 문서 수집 시스템(120)의 요청에 응답하여 업데이트가 발생한 문서를 문서 수집 시스템(120)에 전달할 수 있다. 구체적으로, 문서 수집 시스템(120)은 XML 구조로 구성된 신디케이션 문서를 사이트(110)으로부터 수집할 수 있다.
이 때, 사이트(110)는 검색 되기를 원하는 문서와 관련된 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 원하지 않는 문서가 문서 수집 시스템(120)에 수집되는 것을 방지할 수 있다. 이 때, 검색 되기를 원하는 문서에 콘텐츠가 등록, 삭제, 수정 등의 업데이트가 발생하면, 사이트(110)가 Ping과 같은 식별 정보를 문서 수집 시스템(120)에 전송함으로써, 무작위적인 크롤링에 의한 부하를 줄일 수 있다.
도 2는 본 발명의 일실시예에 따른 문서 수집 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 업데이트 정보 수집부(230), 및 검색 결과 제공부(240)를 포함할 수 있다.
식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 여기서, 식별 정보는 컨텐츠의 등록/수정/삭제와 같은 업데이트가 발생한 문서와 관련된 핑(ping) 프로토콜을 포함할 수 있다.
이 때, 식별 정보 수신부(210)는 업데이트가 발생한 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신할 수 있다. 여기서, 링크 정보는 사이트(110)에서 업데이트가 발생한 문서의 위치를 나타내는 URL을 포함할 수 있다. 즉, 사이트(110)는 수집되기를 원하는 문서를 링크 정보를 포함하는 식별 정보를 통해 문서 수집 시스템(120)에 전달할 수 있다.
수집 요청 전달부(220)는 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 구체적으로 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 일례로, 수집 요청 전달부(220)는 링크 정보를 이용하여 XML 형식으로 구성된 신디케이션 문서를 사이트(110)에 요청할 수 있다.
식별 정보인 핑 프로토콜에 포함된 링크 정보는 다음과 같이 구성될 수 있다.
http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE] &&start-time=[START_TIME]&end-time=[END_TIME]&max-entry=[MAX_ENTRY]&page=[PAGE]
일례로, 링크 정보에 포함된 파라미터는 하기 표 1에 따라 정의될 수 있다.
Figure 112010040789351-pat00001
그리고, 표 1에서 id 파라미터는 Atom Syndication Format에서 제안하는 'Tag URI'에 따라 표현될 수 있다. 이 때, Tag URI에서 channelID에 '-' 구분자가 포함되면 Tag URI는 URL 인코딩에 따라 표현될 수 있다.
Tag URI는 리소스를 포함할 수 있다. 일례로, 리소스는 사이트(site), 채널(channel), 기사(article)를 포함할 수 있다. 리소스 종류별로 실제 리소스 링크를 Tag URI로 표현한 일례는 표 2와 같다.
Figure 112010040789351-pat00002
그리고, 수집 요청 전달부(202)가 요청하는 XML 형식의 신디케이션(Syndication) 문서에 포함되는 리소스의 범위는 id와 type 파라미터 값에 따라 결정될 수 있다. 일례로, 리소스의 범위는 표 3과 같이 결정될 수 있다.
Figure 112010040789351-pat00003
일례로, 식별 정보 수신부(210)가 수신한 식별 정보에 포함된 id가 site 이고 타입이 channel 인 경우, 수집 요청 전달부(220)는 사이트(110)에 포함된 모든 채널의 정보를 요청하는 신디케이션 문서의 수집 요청을 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수집 요청에 따라 사이트(110)에 포함된 모든 채널의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다.
업데이트 정보 수집부(230)는 문서의 수집 요청에 대응하여 사이트(110)로부터 전송된 문서의 업데이트 정보를 수집할 수 있다.
이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식일 수 있다. 구체적으로, 업데이트 정보 수집부(230)는 사이트(110)로부터 XML 형식으로 구성된 신디케이션 문서를 전달받아 문서의 업데이트 정보를 수집할 수 있다.
또한, 문서의 업데이트 정보는 하기 표 4와 같은 엘리먼트를 포함할 수 있다.
Figure 112010040789351-pat00004
이 때, 링크(link) 엘리먼트의 rel 속성값은 하기 표 5와 같이 지정될 수 있다. 구체적으로, 표 5에 지정되는 값에 따라 신디케이션 문서와 관련된 리소스는 달라질 수 있다.
Figure 112010040789351-pat00005
그리고, 업데이트 정보 수집부(230)가 수신하는 XML 형식의 문서인 신디케이션 문서의 최소 단위는 엔트리(entry) 엘리먼트 1개로 구성된 엔트리 문서이다.
또한, 업데이트 정보 수집부(230)는 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집할 수 있다. 구체적으로 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트를 포함하는 경우, 업데이트 정보 수집부(230)는 복수의 엔트리 엘리먼트를 피드(feed) 엘리먼트로 그룹화하여 수집할 수 있다. 이 때, 피드(feed) 엘리먼트로 그룹화된 문서의 업데이트 정보는 피드 문서의 형식일 수 있다.
일례로, 하나의 신디케이션 문서에 복수의 엔트리 엘리먼트가 포함되는 경우, 엔트리 엘리먼트 이외에 하기 표 6과 같은 엘리먼트가 피드 엘리먼트에 추가적으로 포함될 수 있다.
Figure 112010040789351-pat00006
또한, 업데이트 정보 수집부(230)는 식별 정보에 포함된 배포 기간에 기초하여 문서의 업데이트 정보를 수집할 수도 있다. 구체적으로 업데이트 정보 수집부(230)는 식별 정보에 표 1의 start-time과 end-time가 포함된 경우에 식별 정보에 해당하는 문서는 start-time에 설정된 시간부터 end-time에 설정된 시간까지만 업데이트 정보를 수집할 수도 있다.
이상의 구성은 사이트(110)로부터 문서의 업데이트 정보를 수집하는 과정을 설명한 것이다. 문서 수집 시스템(120)은 사이트(110)로부터 수집한 문서의 업데이트 정보를 검색에 활용할 수 있다.
사이트(110)로부터 검색 요청을 수신한 경우, 검색 결과 제공부(240)는 검색 요청에 대응하는 검색 결과를 사이트(110)에 리턴할 수 있다. 이 때, 검색 요청은 키워드와 키워드에 따른 옵션을 포함할 수 있다.
구체적으로 검색 결과 제공부(240)는 업데이트 정보 수집부(230)가 수집한 문서의 업데이트 정보로부터 검색 요청에 대응하는 검색 결과를 추출하여 사이트(110)에 제공할 수 있다. 이 때, 사이트(110)는 사이트 인터페이스에 따라 문서 수집 시스템(120)로부터 수신한 검색 결과를 렌더링하여 표시할 수 있다. 결국, 문서 수집 시스템(120)은 사이트(110)에 대한 개별적인 검색 DB의 역할을 수행할 수 있다.
도 3은 본 발명에서 사용되는 리소스의 구조를 도시한 도면이다.
본 발명에서 사용되는 리소스는 도 3에 도시된 바와 같이 사이트(site)(310), 채널(channel)(320), 및 기사(article)(330)의 계층적 구조를 가질 수 있다.
구체적으로 사이트(310)은 제1 채널(321), 제2 채널(322) 내지 제 N 채널(323)과 같이 복수의 채널(320)로 구성될 수 있다. 또한, 채널 각각은 제1 기사(331), 제2 기사(332), 내지 제n 기사(333)와 같이 복수의 기사(330)로 구성될 수 있다. 이 때, 기사는 문서에 대응한다.
일례로, 식별 정보의 id가 site 이고 타입이 article인 경우, 사이트(110)는 표 3에 따라 사이트(310)에 포함된 모든 기사(330)의 업데이트 정보를 문서 수집 시스템(120)에 전송할 수 있다. 결국, 사이트(110)는 문서의 수집 범위를 표 3과 같은 파라미터를 통해 결정할 수 있다.
도 4는 본 발명의 일실시예에 따른 문서 수집 방법을 도시한 플로우차트이다.
단계(S410)에서, 식별 정보 수신부(210)는 사이트(110)로부터 업데이트가 발생한 문서의 식별 정보를 수신할 수 있다. 이 때, 식별 정보는 문서와 연관된 링크 정보를 포함할 수 있다.
단계(S420)에서, 수집 요청 전달부(220)는 단계(S410)에서 수신한 식별 정보에 따라 사이트(110)에 문서의 수집 요청을 전달할 수 있다. 이 때, 수집 요청 전달부(220)는 식별 정보에 포함된 링크 정보에 지정된 경로를 사용하여 사이트(110)에 문서의 수집 요청을 전달할 수 있다.
단계(S430)에서 업데이트 정보 수집부(230)는 단계(S420)에서 전송한 문서의 수집 요청에 대응하여 사이트(110)로부터 문서의 업데이트 정보를 수집할 수 있다. 이 때, 업데이트 정보 수집부(230)가 사이트(110)로부터 수집하는 문서의 업데이트 정보는 적어도 하나의 엘리먼트를 포함하는 XML 형식의 문서일 수 있다.
단계(S410) 내지 단계(S430)는 문서 수집 시스템(120)이 사이트(110)로부터 문서의 업데이트 내용을 수집하는 과정을 나타낸다. 이후, 단계(S440) 내지 단계(S460)는 문서 수집 시스템(120)이 문서의 업데이트 내용에 기초하여 검색 결과를 제공하는 과정을 나타낸다.
단계(S440)에서 검색 결과 제공부(240)는 사이트(110)로부터 검색 요청을 수신할 수 있다.
단계(S450)에서 검색 결과 제공부(240)는 단계(S440)에서 수신한 검색 요청을 사용하여 단계(S430)에서 수집한 문서의 업데이트 정보로부터 검색 결과를 추출할 수 있다.
단계(S460)에서 검색 결과 제공부(240)는 단계(S450)에서 추출한 검색 결과를 사이트(110)로 전송할 수 있다. 이 때, 사이트(110)는 수신한 검색 결과를 사이트 인터페이스에 따라 렌더링하여 표시할 수 있다.
도 5는 본 발명의 다른 실시예에 따라 수집한 문서를 검색하는 시스템의 일례이다.
본 발명에 따른 문서 수집 시스템(120)은 도 5에 도시된 바와 같이 수집한 문서의 업데이트 정보를 검색하는 검색 서버(500)가 별도로 분리될 수 있다.
이때, 문서 수집 시스템(120)은 식별 정보 수신부(210), 수집 요청 전달부(220), 및 업데이트 정보 수집부(230)를 사용하여 사이트(110)에서 문서를 수집하고, 검색 서버(510)의 요청에 따라 수집된 문서를 검색하여 검색 결과를 검색 서버(500)에 제공할 수 있다.
검색 서버(500)는 사이트(110)로부터 검색 요청을 수신한 경우, 문서 수집 시스템(120)에 검색 요청을 전송하고, 문서 수집 시스템(120)로부터 검색 요청에 대응하는 검색 결과를 수신하여 사이트(110)에 제공할 수 있다.
이때, 검색 서버(500)는 사이트 수신부(510); 수집 시스템 송신부(520), 수집 시스템 수신부(530); 및 사이트 송신부(540)를 포함할 수 있다.
이때 사이트 수신부(510)는 사이트(110)로부터 검색 요청을 수신하고, 수집 시스템 송신부(520)는 문서 수집 시스템(120)에 사이트(110)로부터 수신한 검색 요청을 전송할 수 있다.
또한, 수집 시스템 수신부(530)는 문서 수집 시스템(120)으로부터 전송한 검색 요청에 대응하는 검색 결과를 수신하고, 사이트 송신부(540)는 수신한 검색 결과를 사이트(110)에 제공할 수 있다.
결국, 본 발명의 일실시예에 따르면, 사이트로부터 문서의 업데이트 정보와 관련된 식별 정보에 대응하는 문서만을 수집함으로써 검색되지 않기를 원하는 문서가 문서 수집 시스템에 수집되는 것을 방지할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
210: 식별 정보 수신부
220: 수집 요청 전달부
230: 업데이트 정보 수집부
240: 검색 결과 제공부

Claims (21)

  1. 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 식별 정보 수신부;
    상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 수집 요청 전달부;
    상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 업데이트 정보 수집부; 및
    사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 검색 결과 제공부
    를 포함하고,
    상기 검색 요청은,
    키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 시스템.
  2. 제1항에 있어서,
    상기 식별 정보 수신부는,
    상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 시스템.
  3. 제1항에 있어서,
    상기 업데이트 정보 수집부는,
    상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 시스템.
  4. 제3항에 있어서,
    상기 업데이트 정보 수집부는,
    상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 시스템.
  5. 제3항에 있어서,
    상기 업데이트 정보 수집부는,
    상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 시스템.
  6. 제1항에 있어서,
    상기 사이트는,
    사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 문서 수집 시스템.
  7. 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 문서 시스템 송신부;
    상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 문서 시스템 수신부; 및
    상기 검색 결과를 상기 사이트에 제공하는 사이트 송신부
    를 포함하고,
    상기 검색 요청은,
    키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 서버.
  8. 제7항에 있어서,
    상기 사이트는,
    사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 서버.
  9. 제7항에 있어서,
    상기 상기 문서 수집 시스템은,
    상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 서버.
  10. 제7항에 있어서,
    상기 문서 수집 시스템은,
    상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 서버.
  11. 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하는 단계;
    상기 식별 정보에 따라 상기 사이트에 상기 문서의 수집 요청을 전달하는 단계;
    상기 문서의 수집 요청에 대응하여 상기 사이트로부터 문서의 업데이트 정보를 수집하는 단계; 및
    사이트로부터 검색 요청을 수신한 경우, 상기 문서의 업데이트 정보에서 검색 요청에 대응하는 검색 결과를 추출하여 검색 요청을 전송한 사이트에 제공하는 단계
    를 포함하고,
    상기 검색 요청은,
    키워드와, 키워드에 따른 옵션 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 수집 방법.
  12. 제11항에 있어서,
    상기 식별 정보를 수신하는 단계는,
    상기 문서와 연관된 링크 정보를 포함하는 식별 정보를 수신하는 것을 특징으로 하는 문서 수집 방법.
  13. 제11항에 있어서,
    상기 업데이트 정보를 수집하는 단계는,
    상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 문서 수집 방법.
  14. 제13항에 있어서,
    상기 업데이트 정보를 수집하는 단계는,
    상기 엘리먼트가 복수 개인 경우, 엘리먼트 그룹으로 설정하여 수집하는 것을 특징으로 하는 문서 수집 방법.
  15. 제13항에 있어서,
    상기 업데이트 정보를 수집하는 단계는,
    상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 문서 수집 방법.
  16. 제11항에 있어서,
    상기 사이트가 사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 단계
    를 더 포함하는 것을 특징으로 하는 문서 수집 방법.
  17. 적어도 하나의 사이트로부터 업데이트가 발생한 문서의 식별 정보를 수신하 고, 상기 식별 정보에 따라 문서의 업데이트 정보를 수집하는 문서 수집 시스템에 사이트로부터 수신한 검색 요청을 전송하는 단계;
    상기 문서 수집 시스템으로부터 상기 검색 요청에 대응하는 검색 결과를 수신하는 단계; 및
    상기 검색 결과를 상기 사이트에 제공하는 단계
    를 포함하고,
    상기 검색 요청은,
    키워드와, 키워드에 따른 옵션 중 적어도 하나에 대응하는 검색 결과를 요청하는 것을 특징으로 하는 검색 방법.
  18. 제17항에 있어서,
    상기 사이트는,
    사이트 인터페이스에 따라 상기 검색 결과를 렌더링하여 표시하는 것을 특징으로 하는 검색 방법.
  19. 제17항에 있어서,
    상기 문서 수집 시스템은,
    상기 사이트로부터 상기 문서의 업데이트 정보를 적어도 하나의 엘리먼트를 포함하는 XML 문서 형식으로 수집하는 것을 특징으로 하는 검색 방법.
  20. 제17항에 있어서,
    상기 문서 수집 시스템은,
    상기 식별 정보에 포함된 배포 기간에 기초하여 상기 문서의 업데이트 정보를 수집하는 것을 특징으로 하는 검색 방법.
  21. 제11항 내지 제20항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
KR1020100060185A 2010-06-24 2010-06-24 문서 수집 시스템 및 방법 KR101120387B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020100060185A KR101120387B1 (ko) 2010-06-24 2010-06-24 문서 수집 시스템 및 방법
CN201110168897.5A CN102298609B (zh) 2010-06-24 2011-06-17 文档收集系统和方法
JP2011135481A JP5959163B2 (ja) 2010-06-24 2011-06-17 文書収集システムおよび方法
US13/165,338 US8930343B2 (en) 2010-06-24 2011-06-21 System and method for collecting document
EP11171100A EP2400409A3 (en) 2010-06-24 2011-06-22 System and method for collecting document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100060185A KR101120387B1 (ko) 2010-06-24 2010-06-24 문서 수집 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110140019A KR20110140019A (ko) 2011-12-30
KR101120387B1 true KR101120387B1 (ko) 2012-03-09

Family

ID=44773211

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100060185A KR101120387B1 (ko) 2010-06-24 2010-06-24 문서 수집 시스템 및 방법

Country Status (5)

Country Link
US (1) US8930343B2 (ko)
EP (1) EP2400409A3 (ko)
JP (1) JP5959163B2 (ko)
KR (1) KR101120387B1 (ko)
CN (1) CN102298609B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230143753A (ko) 2022-04-06 2023-10-13 주식회사 하나금융티아이 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713368B2 (en) * 2012-08-22 2014-04-29 Sap Ag Methods for testing OData services
JP5823943B2 (ja) * 2012-10-10 2015-11-25 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9112790B2 (en) 2013-06-25 2015-08-18 Google Inc. Fabric network
US9973299B2 (en) 2014-10-14 2018-05-15 At&T Intellectual Property I, L.P. Method and apparatus for adjusting a mode of communication in a communication network

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125823A (ja) * 1999-10-29 2001-05-11 Fujitsu Ltd プッシュサービスシステムおよびプッシュサービス処理方法
US9460414B2 (en) * 2001-08-28 2016-10-04 Eugene M. Lee Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system
US8676837B2 (en) * 2003-12-31 2014-03-18 Google Inc. Systems and methods for personalizing aggregated news content
US8086492B2 (en) * 2004-03-23 2011-12-27 Douglas Ashbaugh Frame-based network advertising and exchange therefor
US8131702B1 (en) * 2004-03-31 2012-03-06 Google Inc. Systems and methods for browsing historical content
JP2006099341A (ja) * 2004-09-29 2006-04-13 Bank Of Tokyo-Mitsubishi Ufj Ltd 更新履歴生成装置及びプログラム
CN102098172B (zh) * 2006-03-31 2018-08-14 STT WebOS 股份有限公司 在基于万维网的环境下交换信息的方法及装置
JP4982139B2 (ja) * 2006-09-14 2012-07-25 ソフトバンクモバイル株式会社 中継サーバ及び情報提供システム
JP2008158589A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 更新情報通知装置及び更新情報通知プログラム
US8255382B2 (en) * 2007-06-20 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
JP2008257317A (ja) * 2007-04-02 2008-10-23 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及びプログラム
JP2008262520A (ja) * 2007-04-11 2008-10-30 Dynasoft Corp インターネット情報検索システム及びその方法
US8255411B1 (en) * 2008-06-19 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
US9152942B2 (en) * 2007-08-03 2015-10-06 International Business Machines Corporation Using a group list server as a syndication feed server
CN101493828A (zh) * 2008-01-23 2009-07-29 孔雪 主动式自动订制web应用的系统和方法
US8768909B2 (en) * 2008-06-19 2014-07-01 Tropare, Inc. Dynamic menus for multi-prefix interactive mobile searches using predictive text to yield targeted advertisements
JP5163379B2 (ja) * 2008-09-11 2013-03-13 富士通株式会社 文書群検出方法及び文書群検出装置
JP5736638B2 (ja) * 2008-10-20 2015-06-17 株式会社リコー 画像処理装置
KR20100060185A (ko) 2008-11-27 2010-06-07 삼성전자주식회사 무선통신 시스템에서 간섭 제어 방법 및 장치
US8281233B2 (en) * 2009-06-15 2012-10-02 Microsoft Corporation Architecture to expose internal business data on a website
US20110173177A1 (en) * 2010-01-11 2011-07-14 Flavio Junqueira Sightful cache: efficient invalidation for search engine caching
US9116990B2 (en) * 2010-05-27 2015-08-25 Microsoft Technology Licensing, Llc Enhancing freshness of search results

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230143753A (ko) 2022-04-06 2023-10-13 주식회사 하나금융티아이 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Also Published As

Publication number Publication date
JP5959163B2 (ja) 2016-08-02
US20110320427A1 (en) 2011-12-29
US8930343B2 (en) 2015-01-06
EP2400409A3 (en) 2012-12-26
EP2400409A2 (en) 2011-12-28
CN102298609A (zh) 2011-12-28
EP2400409A8 (en) 2013-08-07
CN102298609B (zh) 2016-05-18
JP2012009024A (ja) 2012-01-12
KR20110140019A (ko) 2011-12-30

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
US10992762B2 (en) Processing link identifiers in click records of a log file
US8918330B1 (en) Display of videos based on referrers
CN101420452A (zh) 一种视频文件的发布方法及装置
KR100886767B1 (ko) 지유아이 검색 서비스 제공 방법 및 시스템
KR101120387B1 (ko) 문서 수집 시스템 및 방법
CN102098234A (zh) 基于即时通信消息中超链接提供目标内容的方法与设备
EP2293566A2 (en) Media mediator system and method for managing contents of various formats
KR101979924B1 (ko) 디바이스 상의 결합된 활동 히스토리
US20150127644A1 (en) Method and system for incremental collection of forum replies
CN103051976A (zh) 一种cdn分发hls内容方法、系统及设备
CN102004765A (zh) 一种用于基于互联网电视搜索媒体文件的方法与设备
CN101477527A (zh) 一种检索多媒体资源的方法及装置
WO2016053367A1 (en) Methods and apparatus to identify media distributed via a network
CN102510536A (zh) 一种互联网音视频下载方法
CN101556588A (zh) 一种搜索方法、设备及系统
CN103761257A (zh) 基于移动浏览器的网页处理方法及系统
US20130179425A1 (en) Apparatus and method for searching for program using related keyword
JP5211180B2 (ja) データベース管理装置、データベース管理プログラム、データベース管理方法、データベース管理システム
JP2009301540A (ja) 情報検索装置及び情報検索方法
JP4602104B2 (ja) サイト情報収集システム
US9372927B1 (en) Original authorship identification of electronic publications
CN106156024B (zh) 一种信息处理方法及服务器
JP6510452B2 (ja) 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
KR101792863B1 (ko) 컨텐츠 스트리밍 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 9