KR20130017620A - Apparatus and method for archiving web resource - Google Patents

Apparatus and method for archiving web resource Download PDF

Info

Publication number
KR20130017620A
KR20130017620A KR1020110080176A KR20110080176A KR20130017620A KR 20130017620 A KR20130017620 A KR 20130017620A KR 1020110080176 A KR1020110080176 A KR 1020110080176A KR 20110080176 A KR20110080176 A KR 20110080176A KR 20130017620 A KR20130017620 A KR 20130017620A
Authority
KR
South Korea
Prior art keywords
web
data
archiving
url
snapshot
Prior art date
Application number
KR1020110080176A
Other languages
Korean (ko)
Other versions
KR101244357B1 (en
Inventor
김광영
이원구
이민호
신성호
윤화묵
성원경
최희윤
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020110080176A priority Critical patent/KR101244357B1/en
Publication of KR20130017620A publication Critical patent/KR20130017620A/en
Application granted granted Critical
Publication of KR101244357B1 publication Critical patent/KR101244357B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A multipurpose device for web resource archiving and a method thereof are provided to perform archiving for a dynamic webpage with a script and a plug-in as well as a static web page without the omission of web resources. CONSTITUTION: A web collection crawler(2010) accesses a URL(Uniform Resource Locator) to collect web document data and link file data. A web snap shot robot(2030) accesses the URL accessed by the web collection crawler to capture a web page screen as snap shot data. A database(2040) stores the web document data, the link file data, and the snap shot data. A web archiving mapper(2060) maps data corresponding to the same URL among the web document data, the link file data, and the snap shot data in order to output the same to the database. A web archiving managing unit(2050) hierarchically connects the mapped data to provide the connected web data. [Reference numerals] (2010) Web collection crawler; (2020) URL manager; (2030) Web snap shot robot; (2040) Database; (2050) Web archiving managing unit; (2060) Web archiving mapper; (2070) Web archiving browser; (2080) Web archiving update unit

Description

웹 자원 아카이빙을 위한 장치 및 방법{Apparatus and method for archiving web resource}Apparatus and method for archiving web resource}

본 발명은 웹 자원을 아카이빙하기 위한 방법 및 장치에 관한 것이다. 더욱 상세하게는, 다양한 형식을 갖는 웹 자원들을 원형에 가깝게 보존하기 위해 스냅샷 로봇을 이용하여 웹 자원을 수집하고 저장하는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for archiving web resources. More particularly, the present invention relates to a method and apparatus for collecting and storing web resources using a snapshot robot to preserve web resources having various formats in a nearly circular form.

웹 자원은 정보화시대에서 정보 이용자들이 빠르고 손쉽게 접근할 수 있는 중요한 매체이다. 웹 자원은 과학 기술 커뮤니케이션뿐만 아니라 개인 커뮤니케이션, 출판, 학술, 전자 상거래 등 다양한 분야에서 활용되는 중요한 자원들이다. Web resources are an important medium that information users can access quickly and easily in the information age. Web resources are important resources used in various fields such as personal communication, publishing, academics, and e-commerce as well as science and technology communication.

하지만 이러한 웹 자원들은 주기적 또는 비주기적으로 갱신되거나 소멸 된다. 결과적으로 사용자들은 갱신된 웹 페이지에서 과거에 존재했던 웹 자원을 얻는 것이 불가능하다. 따라서 자료의 지속성이 약한 웹 자원을 수집하고 보존하는 웹 아카이빙의 중요성이 강조된다. 이러한 웹 아카이빙의 관련 연구가 증가하면서, 웹 자원을 수집하기 위한 웹 수집 크롤러(crawler)의 개발이 필요하게 되었다. However, these web resources are updated or destroyed periodically or aperiodically. As a result, it is not possible for users to obtain previously existing web resources from updated web pages. Therefore, the importance of web archiving to collect and preserve web resources with weak data persistence is emphasized. As the related research of web archiving increases, the development of a web collection crawler for collecting web resources is required.

웹 자원을 아카이빙하기 위한 도구는 크롤러 또는 하베스터(havester)라고 불린다. 초기 형태의 크롤러는 일반적인 색인 로봇을 바탕으로 설계되었으나 이후 웹 자원 아카이빙을 위한 전용 크롤러로 NEDLIB(Networked European Deposit Library)에서 개발된 NEDLIB 하베스터가 있다. 이는 유럽을 중심으로 다수의 국가 도서관에서 이용되었다. 이후에는 개발된 것으로는 인터넷 아카이브(Internet Archive)의 Heritrix와 웹사이트를 한꺼번에 저장할 수 있는 HTTrack이 있다. 이후 다양한 목적에 의해 DeepArc, PageVault, WGet 등의 웹 수집 크롤러가 개발되었다. The tool for archiving web resources is called a crawler or havester. Early crawlers were designed based on general indexing robots, but later, a dedicated crawler for archiving web resources, NEDLIB harvesters developed by the Networked European Deposit Library (NEDLIB). It has been used in many national libraries, mainly in Europe. Later developments include Heritrix from the Internet Archive and HTTrack, which can store websites all at once. Since then, web collection crawlers such as DeepArc, PageVault, and WGet have been developed for various purposes.

표준 HTML 링크로 연결된 텍스트 위주의 정적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해서 쉽게 구현된다. 그러나 꾸준히 증가하고 있는 자바스크립트나 플래시 등의 스크립트나 플러그-인 기법을 사용하는 동적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해 불가능한 경우가 많다. 스크립트 실행의 결과는 웹 브라우저의 종류에 따라 달라지기 때문에 자바스크립트를 채용하는 웹 페이지는 성공적으로 수집되기가 어렵다. 플래시 역시 플러그인을 사용할 뿐만 아니라 상용포맷이기 때문에 이를 포함한 웹 자원 수집은 쉽지 않다. Collecting web resources consisting of text-based static web pages linked by standard HTML links is easily implemented by existing web collection crawlers. However, collecting web resources consisting of dynamic web pages using a steadily increasing number of scripts or plug-in techniques such as JavaScript or Flash is often not possible with traditional web collection crawlers. Because the results of script execution depend on the type of web browser, web pages that employ JavaScript are difficult to collect successfully. Because Flash is not only a plug-in but also a commercial format, collecting web resources is difficult.

도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다. 1 is a diagram illustrating components of a general web page screen.

일반적인 웹 페이지 화면은 단순 텍스트(1010)뿐만 아니라 정적 이미지(1020) 및 스크립트 등을 이용한 동적 이미지(1030)를 포함하여 구성된다.The general web page screen includes not only simple text 1010 but also a dynamic image 1030 using a static image 1020 and a script.

단순 텍스트(1010) 및 정적 이미지(1020)는 기존의 웹 수집 크롤러에 의해 손상없이 원형 그대로 수집, 저장된다. 사용자가 저장된 웹 아카이브 자료를 검색하여 해당 웹 페이지를 복원시키는 경우에도 단순 텍스트와 정적 이미지는 수집된 시점과 동일하게 복원이 가능하다.Simple text 1010 and static image 1020 are collected and stored intact without damage by the existing web collection crawler. Even if a user retrieves stored web archive data and restores the web page, simple text and static images can be restored as they were collected.

하지만, 스크립트나 플러그인을 이용한 동적 이미지(1030)는 기존 웹 수집 크롤러가 수집하여 저장하는 경우, 원형 그대로 저장되지 않는다. 동적 이미지는 관련 스크립트나 플러그인이 함께 저장되고 실행되어야만 완벽하게 원형이 복원 가능하기 때문이다. 따라서 이를 지원하지 않는 기존 웹 수집 크롤러가 해당 웹 페이지를 수집, 저장했다 하더라도, 사용자가 웹 아카이브 자료를 이용하여 해당 웹 페이지를 방문하면 동적 이미지 영역은 복원되지 않고 웹 페이지 화면상에 빈 공간으로 표현된다. However, the dynamic image 1030 using a script or a plug-in is not stored as it is when the existing web collection crawler collects and stores it. This is because a dynamic image can only be completely restored when its associated script or plug-in is saved and executed. Therefore, even if an existing web collection crawler that does not support it collects and saves the web page, when the user visits the web page using the web archive material, the dynamic image area is not restored and is represented as a blank space on the screen of the web page. do.

또한 내부 데이터베이스를 기반으로 하는 웹 페이지에 대한 웹 수집 크롤러의 웹 자원 수집도 대부분 불가능한 경우가 많다. 내부 데이터베이스를 이용한 웹 페이지의 경우, 웹 자원을 수집해서 복원을 한다 하여도 일부 자원이 수집되지 못해 그 내용을 알 수 없는 경우가 많기 때문이다. In addition, the Web collection crawler's collection of web resources for web pages based on internal databases is often impossible. This is because, in the case of web pages using an internal database, even if the web resources are collected and restored, some of the resources are not collected and thus the contents are not known.

이에 더하여 웹 공간에는 검색엔진을 통해서 자유롭게 접근할 수 있는 표면 웹(surface web)만 있는 것이 아니라 일반적인 검색엔진에 의해 색인되지 않는 심층 웹(deep web)이 함께 존재한다. 심층 웹은 웹 수집 크롤러 자체의 기술적 한계에 의해서 발생하기도 하고, 웹 페이지 인증 과정이 필요한 경우에도 발생한다. In addition, there is not only a surface web that can be freely accessed through a search engine, but also a deep web that is not indexed by a general search engine. Deep webs are often caused by the technical limitations of the web-gathering crawler itself, or even when a web page authentication process is required.

웹 사이트 운영자가 로봇배제 프로토콜을 사용하여 웹 사이트에 robot.txt 파일을 심어놓은 경우에도 로봇에 의한 웹 페이지 접근이 거부되기 때문에 웹 수집 크롤러에 의한 수집이 불가능하다. Even if a web site operator places a robot.txt file on a web site using the robot exclusion protocol, the web page crawler cannot access the web page.

이와 같이 현재의 웹 자원 아카이빙을 위한 다양한 도구들이 있지만, 스크립트와 플러그인 형태의 자원 및 다른 이유로 인해 웹 자원을 완벽하게 수집하기는 어렵다. 또한 표면 웹에 비해 심층 웹 자원을 수집하는 것은 더 많은 시간과 어려움이 따른다. 결과적으로 웹 자원 아카이빙을 수행했다 하더라도 사용자에게 완벽한 웹 페이지를 복원하여 제시하지 못하는 문제점이 발생한다. As such, there are various tools for archiving web resources, but it is difficult to collect web resources perfectly because of resources in the form of scripts and plug-ins, and other reasons. In addition, collecting deep web resources takes more time and difficulty than surface webs. As a result, even if the web resource archiving is performed, there is a problem that the user cannot restore and present the perfect web page.

본 발명은 위와 같은 문제점을 해결하기 위한 것으로써, 본 발명이 이루고자 하는 기술적 과제는 웹 아카이빙 장치 및 방법에서, 전술한 문제점을 겪지 않으면서, 웹 자원을 효과적으로 수집하여 웹 페이지를 복원 가능하도록 하는 것이다. The present invention is to solve the above problems, the technical problem to be achieved by the present invention to the web archiving apparatus and method, it is possible to effectively recover the web page by collecting the web resources without suffering the above-mentioned problems. .

전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하는 웹 수집 크롤러, 웹 수집 크롤러가 접속했던 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇, 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스, 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 데이터 베이스로 출력하는 웹 아카이빙 맵퍼, 웹 아카이빙 맵퍼에 맵핑을 지시하고, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함한다.In order to solve the above technical problem, the web resource archiving apparatus according to an embodiment of the present invention is a web collection crawler, a web collection crawler that accesses a URL (Uniform Resource Locator) to collect web document data and link file data Web snapshot robot that captures web page screen as snapshot data by accessing the same URL, database storing web document data, link file data and snapshot data, web document data stored in database, link file data and snap Web archiving mapper which maps the data corresponding to the same URL among the shot materials and outputs it to the database, instructs mapping to web archiving mapper, and provides web data connected by hierarchically linking the mapped data. It includes an archiving management unit.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 수집 크롤러가 접속했던 URL을 저장하고, 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 URL 매니저를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention stores a URL that the web collection crawler accesses, and the URL manager for managing in a FIFO (First In First Out) method so that the URL to be accessed by the web snapshot robot is not duplicated It further includes.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 계층적 구조를 활용하여 웹 자원을 브라우징하는 웹 아카이빙 브라우저를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention further includes a web archiving browser for browsing the web resources by using a web hierarchical structure.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 웹 아카이빙 업데이트부를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention further includes a web archiving update unit for requesting an update by determining whether the collected and stored data are updated.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 스냅샷 로봇이 해당 URL에 속하는 모든 심층 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐한다. In addition, the web resource archiving apparatus according to an embodiment of the present invention repeatedly captures the web page screen so that the web snapshot robot generates snapshot data for all the deep web resources belonging to the corresponding URL.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 캡쳐 자료를 저장하는 데이터 베이스가 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention converts the captured data into a specific image format and stores the captured data in a database storing the captured data.

전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 저장하는 단계, 위의 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계, 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하고 저장하는 단계, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 단계를 포함한다.In order to solve the above technical problem, the web resource archiving method according to an embodiment of the present invention, accessing the Uniform Resource Locator (URL) to collect and store web document data and link file data, access to the above URL Capturing and storing the web page screen as snapshot data, and mapping and storing data corresponding to the same URL among the stored web document data, link file data, and snapshot data, and connecting the mapped data hierarchically. linking to provide linked web material.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 단계를 더 포함한다. In addition, the web resource archiving method according to an embodiment of the present invention further comprises the step of managing in a FIFO (First In First Out) scheme so that the URL to be accessed is not duplicated in order to store the accessed URL and capture it as snapshot data. .

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 계층적 구조를 활용하여 저장된 웹 자원을 브라우징하는 단계를 더 포함한다.In addition, the web resource archiving method according to an embodiment of the present invention further includes the step of browsing the stored web resources using a hierarchical structure.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 단계를 더 포함한다.In addition, the web resource archiving method according to an embodiment of the present invention further comprises the step of requesting an update by determining whether to update the collected and stored data.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계를 해당 URL에 속하는 모든 심층 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복하여 수행한다. In addition, the web resource archiving method according to an embodiment of the present invention repeats the step of capturing and storing the web page screen as snapshot data so that the capturing and storing of all the deep web resources belonging to the URL are completed.

또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법에서 캡쳐 자료를 데이터 베이스에 저장하는 단계는 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.In addition, in the web resource archiving method according to an embodiment of the present invention, storing the captured data in the database converts the captured data into a specific image format and stores the captured data.

본 발명에 따른 웹 자원 아카이빙을 위한 방법 및 장치는 다음과 같은 효과를 가지고 있다.Method and apparatus for archiving web resources according to the present invention has the following effects.

본 발명의 일 실시예에 따르면, 텍스트 위주의 정적인 웹 페이지뿐만 아니라 스크립트, 플러그-인을 활용한 동적인 웹 페이지에 대해서도 웹 자원의 누락 없이 아카이빙하는 효과가 있다.According to an embodiment of the present invention, an archiving without a web resource is effective for not only text-based static web pages but also dynamic web pages using scripts and plug-ins.

본 발명의 일 실시예에 따르면, 텍스트 검색에 의해 관련 웹페이지의 스냅샷 자료를 검색하는 효과가 있다.According to an embodiment of the present invention, there is an effect of searching the snapshot data of the relevant web page by text search.

본 발명의 일 실시예에 따르면, 웹 페이지에 대한 스냅샷 자료를 계층적으로 브라우징하는 효과가 있다.According to an embodiment of the present invention, there is an effect of hierarchically browsing snapshot data for a web page.

도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 1 브라우징 화면을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 2 브라우징 화면을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다.
1 is a diagram illustrating components of a general web page screen.
2 is a block diagram of an apparatus for archiving web resources according to an embodiment of the present invention.
3 is a diagram illustrating a mapping operation for collected data of an apparatus for archiving web resources according to an embodiment of the present invention.
4 is a diagram illustrating web hierarchical structured data by an apparatus for archiving web resources according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a first browsing screen for web archive material provided by an apparatus for archiving a web resource according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating a second browsing screen for web archive material provided by an apparatus for archiving web resources according to an embodiment of the present invention.
7 is a flowchart illustrating a method of archiving a web resource according to an embodiment of the present invention.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and accompanying drawings, but the present invention is not limited to or limited by the embodiments.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention, but these may vary depending on the intention or custom of a person skilled in the art or the emergence of new technologies. In addition, in certain cases, there may be a term arbitrarily selected by the applicant, in which case the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted based on the meaning of the term rather than on the name of the term, and on the entire contents of the specification.

본 발명에 의한 웹 자원 아카이빙 장치는 웹 페이지를 방문하여 해당 웹 페이지에 포함된 구성 요소인 웹 문서 자료, 링크 파일 자료와 웹 페이지를 캡쳐한 스냅샷 자료를 저장한다. 또한 저장된 자료들을 맵핑하고 웹 계층적 구조로 구조화하여 이를 브라우징함으로써 웹 아카이브 자료 사용자에게 제공한다.The web resource archiving apparatus according to the present invention visits a web page and stores web document data, link file data, and snapshot data of a web page, which are components included in the web page. It also provides users with web archive data by mapping the stored data, structuring them in a web hierarchical structure and browsing them.

도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다. 2 is a block diagram of an apparatus for archiving web resources according to an embodiment of the present invention.

도 2의 웹 자원 아카이빙 장치는 웹 수집 크롤러(2010), URL 매니저(2020), 웹 스냅샷 로봇(2030), 데이터 베이스(2040), 웹 아카이빙 관리부(2050), 웹 아카이빙 맵퍼(2060), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)을 포함할 수 있다. The web resource archiving apparatus of FIG. 2 includes a web collection crawler 2010, a URL manager 2020, a web snapshot robot 2030, a database 2040, a web archiving manager 2050, a web archiving mapper 2060, and a web. An archiving browser 2070 and a web archiving updater 2080 may be included.

여기서, URL 매니저(2020), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)는 필수적 구성요소가 아니며, 실시예에 따라 배제될 수 있다. Here, the URL manager 2020, the web archiving browser 2070, and the web archiving update unit 2080 are not essential components and may be excluded according to embodiments.

웹 수집 크롤러(2010)는 웹 페이지를 접속하여 해당 웹 페이지의 단순 텍스트, 이미지 등으로 구성된 웹 문서 자료 및 링크 파일 자료를 수집할 수 있다. 이 때, 웹 페이지는 링크로 연결된 복수 개의 하위 웹 페이지를 포함하고 있으며 웹 수집 크롤러(2010)는 이러한 하위 웹 페이지에 포함된 웹 문서 자료와 링크 파일 자료도 수집할 수 있다. The web collection crawler 2010 may access web pages and collect web document data and link file data composed of simple text, images, and the like of the web pages. At this time, the web page includes a plurality of sub-web pages connected by a link, and the web collection crawler 2010 may collect web document data and link file data included in the sub-web page.

URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리할 수 있다. URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리하여 웹 스냅샷 로봇(2030)이 동일한 웹페이지를 중복하여 방문하는 것을 막는다. 또한 등록된 URL에 대해 FIFO(First-in-First-out) 방식으로 스냅샷 자료 수집의 대상이 되는 웹 페이지를 선정할 수 있다.The URL manager 2020 may manage URLs of web pages visited by the web collection crawler 2010. The URL manager 2020 manages the URL of the web page visited by the web collection crawler 2010 to prevent the web snapshot robot 2030 from repeatedly visiting the same web page. In addition, web pages that are subject to snapshot data collection can be selected in a first-in-first-out (FIFO) manner for registered URLs.

웹 스냅샷 로봇(2030)은 웹 수집 크롤러가 접속했던 웹 페이지를 다시 방문하여 웹 페이지의 화면을 스냅샷 자료로 캡쳐할 수 있다. 또는 URL 매니저 참조해서 해당 웹 페이지를 접속하고 웹 페이지 화면을 스냅샷 자료로 캡쳐할 수 있다. 웹 페이지 화면에 대한 캡쳐는 웹 수집 크롤러(2010)의 자료 수집과 마찬가지로 메인 페이지에 연결된 복수 개의 하위 웹 페이지에 대해서도 수행되며 모든 하위 웹 페이지에 대해 캡쳐 작업을 수행하여 스냅샷 자료를 생성한다. The web snapshot robot 2030 may revisit the web page that the web collection crawler has accessed to capture a screen of the web page as snapshot data. Or you can refer to the URL manager to access the web page and capture the web page screen as snapshot data. The capture of the web page screen is performed on a plurality of sub web pages connected to the main page as in the data collection of the web collection crawler 2010, and the snapshot operation is generated by capturing all the sub web pages.

웹 스냅샷 로봇(2030)의 스냅샷 자료 생성은 각 웹 페이지의 화면을 그대로 캡쳐하는 작업이므로 웹 페이지의 모든 구성요소에 대한 수집이 가능하다. 즉, 추가적으로 스크립트나 플러그인 프로그램을 함께 수집할 필요가 없으므로, 자바 스크립트나 플래시에 의한 구성 요소인 경우에도 스냅샷 자료에 그대로 반영될 수 있다.Since the snapshot data generation of the web snapshot robot 2030 captures the screen of each web page as it is, all the components of the web page can be collected. In other words, since there is no need to collect additional scripts or plug-in programs, even if the components are JavaScript or Flash, they can be reflected in the snapshot data.

또한 로봇배제 프로토콜에 의해 로봇에 의한 웹 자원 아카이빙이 금지된 웹 페이지인 경우에도 웹 스냅샷 로봇은 웹 자원을 수집하는 것이 아니라, 해당 웹 페이지에 접속하여 캡쳐 작업만을 수행하는 것이므로 웹 자원 아카이빙이 가능하다.In addition, even when the web resource archiving is prohibited by the robot exclusion protocol, the web snapshot robot does not collect web resources, but only captures them by accessing the web page. Do.

웹 스냅샷 로봇(2030)에 의해 생성된 스냅샷 자료는 특정 이미지 포맷으로 변환되어 아래에 설명할 데이터 베이스(2040)에 저장될 수 있다. 이미지 포맷은 예를 들어 JPG, GIF, PNG, BMP, TIFF 등을 사용할 수 있다.The snapshot data generated by the web snapshot robot 2030 may be converted into a specific image format and stored in the database 2040 to be described below. The image format may be, for example, JPG, GIF, PNG, BMP, TIFF, or the like.

데이터 베이스(2040)는 웹 수집 크롤러(2010)에 의해 수집된 웹 문서 자료 및 링크 파일 자료, 웹 스냅샷 로봇(2030)에 의해 캡쳐된 스냅샷 자료를 저장할 수 있다. 또한 아래에서 설명할 웹 아카이빙 관리부(2050)나 웹 아카이빙 맵퍼(2060)에서 출력되는 결과물들을 입력받아 저장할 수 있다. The database 2040 may store web document data and link file data collected by the web collection crawler 2010, and snapshot data captured by the web snapshot robot 2030. In addition, the results output from the web archiving management unit 2050 or the web archiving mapper 2060 to be described below may be received and stored.

웹 아카이빙 관리부(2050)는 데이터 베이스(2040)에 저장된 자료들을 관리할 수 있다. 저장된 웹 페이지를 수정 또는 삭제할 수 있고, 저장된 자료들에 대한 통계를 도출하거나 자료가 수집된 웹 페이지에 대한 모니터링을 수행할 수 있다. 또한 데이터 베이스(2040)에 저장된 자료들에 대한 검색 서비스를 일반 사용자들에게 제공하며 이를 위해 자료에 대한 색인 작업을 수행할 수 있다. The web archiving manager 2050 may manage materials stored in the database 2040. You can modify or delete the stored web pages, derive statistics on the stored data, or monitor the web pages on which the data is collected. In addition, a search service for data stored in the database 2040 is provided to general users, and for this purpose, indexing of data may be performed.

또한, 웹 아카이빙 관리부(2050)는 아래의 웹 아카이빙 맵퍼(2060)에 의해 맵핑된 자료들에 대한 구조화 작업을 수행할 수 있다. 일반적으로 웹 페이지는 링크로 연결된 복수의 하위 웹 페이지를 포함하기 때문에 계층적 구조를 갖는다. 따라서 웹 아카이빙 관리부(2050)는 웹 페이지를 원형과 유사하게 보존하기 위해 저장된 웹 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공할 수 있다.In addition, the web archiving management unit 2050 may perform a structured work on the data mapped by the web archiving mapper 2060 below. In general, a web page has a hierarchical structure because it includes a plurality of sub-web pages linked by a link. Accordingly, the web archiving management unit 2050 may provide the linked web material by hierarchically linking the stored web materials in order to preserve the web page similar to the original.

웹 아카이빙 맵퍼(2060)는 데이터 베이스(2040)에 저장된 자료들에 대한 맵핑 작업을 수행할 수 있다. 웹 아카이빙 맵퍼(2060)는 웹 수집 크롤러(2010)에 의해 수집되어 저장된 웹 문서 자료 및 링크파일 자료와 웹 스냅샷 로봇(2030)에 의해 수집된 스냅샷 자료를 URL을 근거로 상호 맵핑한다. 이 작업에 의해 동일 URL로부터 수집되거나 생성된 자료들은 사용자에 의한 자료 검색 결과를 브라우징함에 있어 함께 결과 화면에 도출될 수 있다. The web archiving mapper 2060 may perform mapping for data stored in the database 2040. The web archiving mapper 2060 may mutually map the web document data and link file data collected and stored by the web collection crawler 2010 and the snapshot data collected by the web snapshot robot 2030 based on the URL. The data collected or generated from the same URL by this operation can be derived on the result screen together in browsing the data search results by the user.

스냅샷 자료들은 해당 이미지 내에 텍스트를 포함하고 있더라도, 이는 텍스트가 아닌 이미지에 불과하다. 따라서 사용자가 이미지 내의 키워드로 검색하여도 검색 결과에 도출되는 것이 불가능하다. 따라서 웹 아카이빙 맵퍼(2060)는 동일 URL에서 수집된 텍스트 및 웹 문서 자료와 상호 맵핑을 함으로써 스냅샷 자료들에 대한 키워드 검색이 가능해 진다.Although snapshot data may contain text in the image, it is only an image, not text. Therefore, even if the user searches by the keyword in the image, it is impossible to derive the search result. Accordingly, the web archiving mapper 2060 enables keyword search for snapshot data by mapping with text and web document data collected at the same URL.

웹 아카이빙 브라우저(2070)는 사용자에게 웹 아카이브 자료를 브라우징할 수 있다. 즉, 사용자가 원하는 검색어를 입력하면 웹 아카이빙 관리부(2050)를 통해 데이터 베이스(2040)에 저장된 웹 아카이브 자료를 탐색하여 그 결과를 사용자에게 보여주는 기능을 한다. 웹 아카이빙 브라우저(2070)는 웹 아카이빙 관리부(2050)에 의해 계층적으로 연결(link)된 웹 자료들을 표시하며 선택된 웹 페이지의 하위 웹 페이지를 함께 표시한다. 이를 통해 사용자는 상위 웹 페이지로부터 하위 웹 페이지로 이동하여 자료를 검색하는 것이 가능하다.The web archiving browser 2070 may browse the web archive material to the user. That is, when a user inputs a desired search word, the web archiving manager 2050 searches for web archive data stored in the database 2040 and displays the result to the user. The web archiving browser 2070 displays web materials hierarchically linked by the web archiving management unit 2050 and displays sub-web pages of the selected web page. This allows the user to navigate from the parent web page to the child web page and retrieve the data.

웹 아카이빙 업데이트부(2080)는 웹 아카이빙 관리부(2050)의 웹 페이지 모니터링 명령을 입력받아 저장된 웹 아카이브 자료들에 대한 갱신 여부를 확인하고, 자료들의 갱신이 확인되면 웹 수집 크롤러에 웹 자원 수집 명령을 지시할 수 있다. 저장된 웹 아카이브 자료들에 대한 갱신 여부 확인은 주기적으로 또는 비주기적으로 수행한다. The web archiving update unit 2080 receives a web page monitoring command of the web archiving management unit 2050 to check whether the stored web archive data is updated, and if the update of the data is confirmed, sends a web resource collection command to the web collection crawler. Can be directed. Checking whether the stored web archive data is updated periodically or aperiodically.

도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.3 is a diagram illustrating a mapping operation for collected data of an apparatus for archiving web resources according to an embodiment of the present invention.

맵핑 동작에는 웹 아카이빙 맵퍼(3010)와 데이터 베이스(3020)가 관여할 수 있다.웹 수집 크롤러에 의해 저장된 자료는 웹 페이지의 URL, 컨텐트 자료 및 첨부파일 자료이다. 웹 스냅샷 로봇에 의해 저장된 자료는 URL 및 스냅샷 자료이다. 이렇게 저장된 자료들에 대해 웹 아카이빙 맵퍼(3010)에 의해 맵핑 작업이 수행된다. 위와 같이 웹 수집 크롤러에 의해 수집된 자료들과 웹 스냅샷 로봇에 의해 수집된 자료들은 모두 URL 정보와 함께 저장되므로 맵핑 작업은 URL 정보를 기준으로 하여 수행된다. 이러한 맵핑 작업에 의해 동일 URL에서 수집 또는 생성되어 저장된 자료들간 연관 관계가 정의된다. The web archiving mapper 3010 and the database 3020 may be involved in the mapping operation. The data stored by the web collection crawler are URLs, content data, and attachment file data of a web page. The data stored by the web snapshot robot are URL and snapshot data. The mapping operation is performed by the web archiving mapper 3010 on the stored data. Since the data collected by the web collection crawler and the data collected by the web snapshot robot are stored together with the URL information as described above, the mapping is performed based on the URL information. This mapping operation defines the associations between the data collected or created at the same URL and stored.

웹 아카이빙 맵퍼(3010)는 맵핑 작업을 수행한 후, 상호 맵핑된 자료들을 다시 데이터 베이스(3020)에 저장한다. 이로써 사용자에 의한 웹 아카이브 자료 검색 시 사용자가 해당 웹페이지에 속한 텍스트를 검색한 경우에도 텍스트가 속한 웹 페이지의 스냅샷 자료를 검색 결과로 출력하는 것이 가능하다. After the web archiving mapper 3010 performs the mapping operation, the web archiving mapper 3010 stores the mutually mapped data in the database 3020 again. Thus, when searching the web archive data by the user, even if the user searches the text belonging to the web page, it is possible to output the snapshot data of the web page to which the text belongs as a search result.

도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.4 is a diagram illustrating web hierarchical structured data by an apparatus for archiving web resources according to an embodiment of the present invention.

위에서 언급한 웹 아카이빙 맵퍼에 의해 상호 맵핑되어 데이터 베이스에 저장된 자료들은 웹 아카이빙 관리부에 의해 계층적으로 연결(link)된다. 도 4에서 site depth는 웹 계층의 레벨을 의미한다. 레벨 1은 상위 웹 페이지를 의미하고, 레벨 2에서 레벨 n으로 레벨이 증가함에 따라 하위 웹 페이지를 의미한다. The data stored in the database and mutually mapped by the above-mentioned web archiving mapper are hierarchically linked by the web archiving manager. In FIG. 4, the site depth means the level of the web layer. Level 1 means the upper web page, and the lower web page as the level increases from level 2 to level n.

각 레벨에는 동일 웹 계층에 포함되는 html 자료(4010, 4020, 4030)가 존재하고 이들은 동일 웹 계층에 속하므로 상호 연결되어 있지 않다. html 자료(4010)는 스냅샷 자료(4011)와 연결되어 있으며 이는 웹 아카이빙 맵퍼에 의해 자료 간 상호 맵핑 되었음을 의미한다. 레벨 1의 html 자료(4010)는 레벨 2의 html 자료 두 개(4040, 4050)와 연결되어 있으며 다시 레벨 2의 html 자료는 다음 레벨의 html 자료(4050, 4060)와 연결되어 있다. In each level, there are html materials 4010, 4020, and 4030 included in the same web layer, and they are not interconnected because they belong to the same web layer. The html data 4010 is connected to the snapshot data 4011, which means that the data are mutually mapped by the web archiving mapper. The level 1 html data 4010 is connected to two level 2 html materials 4040 and 4050, and the level 2 html data is linked to the next level of html data 4050 and 4060.

따라서 웹 계층적 구조화된 자료에 의해 사용자는 상위 웹 페이지에 해당하는 레벨 1에 속한 html 자료(4010)로부터 하위 웹 페이지에 해당하는 레벨 2 이상의 html 자료(4040, 4050)로 연결된 웹 페이지를 계속하여 탐색하는 것이 가능하다. 이와 같은 웹 계층적 구조화를 통해 사용자는 웹 아카이브 자료를 실제 웹페이지에 접속한 것과 같이 검색하는 것이 가능하다. Thus, web hierarchical structured material allows a user to continue a web page from html material 4010 belonging to level 1 corresponding to the parent web page to level 2 or higher html material 4040 and 4050 corresponding to the child web page. It is possible to navigate. This web hierarchical structure allows users to search web archive data as if they were accessing a real web page.

도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 1에 대한 브라우징 화면을 나타낸 도면이다. FIG. 5 is a diagram illustrating a browsing screen for web tier 1 for web archive material provided by an apparatus for archiving web resources according to an embodiment of the present invention.

브라우징 화면 상단에는 검색을 위한 공란(5010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(5020)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(5030)으로 표현한다.At the top of the browsing screen, there is a blank 5010 for searching and a search button. Below the search field is text 5020 indicating the level of the current web tier and the search result format. At the bottom of the browsing screen, the search results for the above search terms are expressed in a snapshot-thumbnail format 5030.

예를 들어 사용자가 도면과 같이 KoreanScience를 검색어로 입력하면 검색란(5010) 아래에 이에 대한 결과 화면으로 웹 계층(site depth) 레벨 1에서의 스냅샷-썸네일 포맷의 검색 결과(5020)임을 표시한다. 웹 자원 아카이빙 장치는 KoreanScience와 상호 맵핑된 스냅샷 자료를 검색하고, 검색이 완료되면 브라우징 화면 하단에 검색된 스냅샷 자료를 스냅샷-썸네일 포맷의 이미지(5030)로 나열하여 검색 결과를 표시한다.For example, when a user inputs KoreanScience as a search word as shown in the drawing, the search result 5010 indicates that the search result 5020 of the snapshot-thumbnail format at the web depth level 1 is displayed below the search box 5010. The web resource archiving device searches for snapshot data cross-mapped with KoreanScience. When the search is completed, the web resource archiving device displays the search results by listing the retrieved snapshot data as a snapshot-thumbnail image 5030 at the bottom of the browsing screen.

사용자는 검색 결과 이미지를 클릭하여 해당 웹 페이지의 원본 스냅샷 자료를 확인하는 것이 가능하다.The user can click on the search result image to view the original snapshot data of the web page.

도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 2에 브라우징 화면을 나타낸 도면이다.6 is a diagram illustrating a browsing screen in web layer 2 for web archive material provided by an apparatus for archiving web resources according to an embodiment of the present invention.

브라우징 화면 상단에는 검색을 위한 공란(6010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층보다 한 단계 상위의 웹페이지에 대한 원본 스냅샷 자료를 표시한다. 즉, 현재 검색 계층보다 상위 계층의 스냅샷 이미지 중 클릭에 의해 선택된 스냅샷 이미지(6020)를 확대하여 디스플레이한다. 그 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(6030)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(6040)으로 표현한다.At the top of the browsing screen, there is a blank 6010 for searching and a search button. Below the search box is the original snapshot data for web pages one level above the current web tier. That is, the snapshot image 6020 selected by clicking among the snapshot images of the layer higher than the current search layer is enlarged and displayed. Below that is text 6030 that indicates the level of the current web tier and the search result format. At the bottom of the browsing screen, the search results for the above search terms are expressed in a snapshot-thumbnail format (6040).

예를 들어, 사용자가 도 5의 검색 결과 이미지 중 하나를 클릭하면 검색란 아래에 클릭된 이미지의 원본 스냅샷 자료(6020)가 표시된다. 또한 웹 계층 레벨은 원본 스냅샷 자료가 표시하는 웹 페이지의 하위 웹 페이지들의 레벨인 레벨 2로 변경된다(6030). 브라우징 화면 하단에는 표시된 원본 스냅샷 자료의 웹 페이지에 대한 하위 웹 페이지들이 스냅샷-썸네일 포맷의 이미지(6040)로 표시된다.For example, when a user clicks on one of the search result images of FIG. 5, the original snapshot data 6020 of the clicked image is displayed below the search field. In addition, the web hierarchy level is changed to level 2, which is the level of subweb pages of the web page displayed by the original snapshot data (6030). At the bottom of the browsing screen, subweb pages for the web page of the displayed original snapshot material are displayed as an image 6040 in snapshot-thumbnail format.

이러한 방식으로 웹 자원 아카이빙 장치를 사용하는 자는 하위 스냅샷-썸네일 포맷을 클릭하여 하위 웹 페이지에 대한 상세 검색을 연속적으로 진행할 수 있다.In this way, the user using the web resource archiving device can continuously search the sub web page by clicking the sub snapshot-thumbnail format.

도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다.7 is a flowchart illustrating a method of archiving a web resource according to an embodiment of the present invention.

웹 수집 크롤러는 URL에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 데이터 베이스에 저장한다(S7010).The web collection crawler collects the web document data and the link file data by accessing the URL and stores the data in the database (S7010).

이 때 웹 수집 크롤러는 해당 URL의 웹페이지에 연결된 하위 웹페이지에 대한 웹 자원도 함께 수집하고 저장할 수 있다. 자료의 저장시에는 위에서 언급한 자료들과 해당 웹 페이지의 URL을 함께 저장할 수 있다. At this time, the web collection crawler may also collect and store web resources for sub-web pages linked to the web pages of the URL. When saving data, the above mentioned data and the URL of the web page can be saved together.

웹 스냅샷 로봇은 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 페이지 화면을 스냅샷 자료로 캡쳐하고 데이터 베이스에 저장한다(S7020). The web snapshot robot accesses the URL that the web collection crawler accesses, captures the web page screen as snapshot data, and stores the data in the database (S7020).

웹 스냅샷 로봇이 접속하는 URL은 웹 수집 크롤러가 접속했던 URL을 그대로 따라 접속하는 방법을 사용할 수 있다. 웹 스냅샷 로봇은 웹 수집 크롤러가 접속하여 웹 자원 즉, 웹 문서 자료 및 링크 파일 자료를 수집한 URL의 웹 페이지를 다시 접속하여 해당 웹 페이지를 스냅샷 자료로 캡쳐하고 저장한다. 스냅샷 자료를 저장할 때는 해당 웹 페이지의 URL을 함께 저장한다.The URL accessed by the web snapshot robot can be accessed by following the same URL that the web collection crawler accessed. The web snapshot robot accesses a web page of a URL where a web collection crawler accesses and collects web resources, that is, web document data and link file data, and captures and stores the web page as snapshot data. When saving snapshot data, save the URL of the web page.

위의 설명과 다른 실시예로, URL 매니저가 웹 수집 크롤러의 접속 URL을 등록하고 중복되지 않도록 FIFO 방식으로 웹 스냅샷 로봇에게 접속할 URL을 알려주는 방법도 가능하다. 다만 이는 웹 자원 아카이빙 방법의 필수적인 단계는 아니다.In an embodiment different from the above description, the URL manager may register the access URL of the web collection crawler and inform the web snapshot robot of the URL to access the web snapshot robot in a FIFO manner so as not to be duplicated. This is not an essential step of the web resource archiving method.

웹 아카이빙 맵퍼는 웹 아카이빙 관리부의 지시를 받아 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 URL 기준으로 상호 맵핑한다(S7030).The web archiving mapper receives the instructions of the web archiving manager to map the web document data, the link file data, and the snapshot data stored in the database based on the URL (S7030).

웹 자원의 저장시 그 출처인 URL을 함께 저장하기 때문에 자료들 간의 상호 맵핑은 URL을 기준으로 이루어진다. 동일 URL로부터 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료는 상호 맵핑된다. 이렇게 맵핑된 자료들은 그 중 일부가 검색 결과에 포함되는 경우 함께 검색 결과로 표시되어 웹 아카이브 자료를 이용하는 사용자에게 제공된다.When the web resource is saved, the URL that is the source is stored together, so that the mapping between data is based on the URL. Web document data, link file data, and snapshot data stored from the same URL are mapped to each other. These mapped materials are displayed as search results when some of them are included in the search results, and are provided to users using the web archive data.

스냅샷 자료들은 해당 이미지 내에 포함하고 있는 텍스트를 키워드로 검색하여도 검색이 불가능하기 때문에 해당 웹페이지에서 수집된 다른 자료들과 상호 맵핑을 함으로써 키워드에 의한 검색이 가능해 진다.Snapshot data can not be searched even if the keyword included in the image is searched by keyword, so it is possible to search by keyword by mapping with other data collected from the web page.

웹 아카이빙 관리부 상호 맵핑된 자료들을 웹 계층적 구조로 구조화하고 데이터 베이스에 저장한다(S7040).The web archiving management unit structures the data mapped to each other in a web hierarchical structure and stores them in a database (S7040).

웹 페이지는 웹 계층적 구조를 가지고 있기 때문에 웹 아카이브 자료에 대해서도 웹 계층적 구조로 구조화하는 작업이 필요하다. 웹 계층적 구조화 작업은 단순히 저장되어 분산되어 있는 자료들을 상하위 웹 페이지로 연결한다. 이로써 웹 아카이브 자료를 이용하는 사용자에게 실제 웹 페이지를 방문한 것과 유사하게 웹 계층적 연결 자료를 제공한다.Since web pages have a web hierarchical structure, it is necessary to structure the web archive data in a web hierarchical structure. Web hierarchical structuring simply links the stored and distributed data to parent web pages. This provides web hierarchical connection material to users of web archives, similar to visiting real web pages.

웹 아카이빙 브라우저는 데이터 베이스에 저장된 웹 계층적 구조의 자료를 화면에 표시한다(S7050). The web archiving browser displays the web hierarchical structure data stored in the database on the screen (S7050).

웹 아카이빙 브라우저는 검색 결과를 복수의 스냅샷-썸네일 이미지로 표시하고 이와 함께 웹 계층 정보인 레벨 정보를 함께 표시한다. 이로써 사용자는 자신이 검색한 키워드에 대한 검색자료가 속하는 웹 계층 레벨을 확인할 수 있다. The web archiving browser displays the search results as a plurality of snapshot-thumbnail images along with the level information, which is web layer information. This allows the user to check the web hierarchy level to which the search data for the keyword they searched belongs.

사용자는 복수의 스냅샷-썸네일 이미지를 클릭하여 원본 스냅샷 자료를 확인하는 것이 가능하다. 또한 웹 아카이빙 브라우저는 클릭된 스냅샷-썸네일 이미지에 해당하는 웹 페이지와 연결된 하위 웹 페이지에 대한 스냅샷-썸네일 이미지를 표시한다. 이를 통해 사용자는 연결된 웹 페이지에 대한 웹 아카이브 자료를 연속적으로 확인할 수 있다.The user can click on multiple snapshot-thumbnail images to view the original snapshot data. The web archiving browser also displays a snapshot-thumbnail image for the subweb page associated with the web page corresponding to the clicked snapshot-thumbnail image. This allows the user to continuously view web archive material for linked web pages.

웹 아카이빙 업데이트부는 저장된 자료의 업데이트 여부를 확인하여 자료를 업데이트한다(S7060).The web archiving update unit checks whether the stored data is updated and updates the data (S7060).

웹 자원은 주기적 또는 비주기적으로 업데이트 되므로 웹 아카이빙 업데이트부는 이를 확인하여 저장된 자료를 업데이트 하도록 한다. 웹 아카이빙 업데이트부는 저장된 자료의 업데이트가 확인되면 위의 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 다시 수집하고 저장하도록 웹 수집 크롤러에게 지시한다. 이후 웹 자원 아카이빙 장치는 S7010~S7040의 단계를 반복 실행하여 저장된 자료들에 대한 업데이트를 수행한다.Since the web resources are updated periodically or aperiodically, the web archiving update unit checks this and updates the stored data. The web archiving update unit instructs the web collection crawler to collect and store the above web document data, link file data, and snapshot data when the update of the stored data is confirmed. Thereafter, the web resource archiving apparatus repeats the steps of S7010 to S7040 to update the stored data.

이상과 같이 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible. Therefore, the scope of the present invention should not be limited by the described embodiments, but should be determined by the equivalents of the appended claims, as well as the appended claims.

도면의 주요 부분에 대한 부호의 설명은 다음과 같다.
2010: 웹 수집 크롤러 2020: URL 매니저
2030: 웹 스냅샷 로봇 2040: 데이터 베이스
2050: 웹 아카이빙 관리부 2060: 웹 아카이빙 맵퍼
2070: 웹 아카이빙 브라우저 2080: 웹 아카이빙 업데이트부
Description of the symbols for the main parts of the drawings is as follows.
2010: Web Collection Crawler 2020: URL Manager
2030: Web Snapshot Robot 2040: Database
2050: Web archiving management unit 2060: Web archiving mapper
2070: Web archiving browser 2080: Web archiving update unit

Claims (12)

Uniform Resource Locator(URL)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하는 웹 수집 크롤러;
상기 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇;
상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스;
상기 데이터 베이스에 저장된 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 상기 데이터 베이스로 출력하는 웹 아카이빙 맵퍼; 및
상기 웹 아카이빙 맵퍼에 맵핑을 지시하고, 상기 맵핑된 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함하는 웹 자원 아카이빙 장치.
A web collection crawler that accesses a Uniform Resource Locator (URL) and collects web document data and link file data;
A web snapshot robot accessing a URL accessed by the web collection crawler and capturing a web page screen as snapshot data;
A database for storing the web document data, link file data, and snapshot data;
A web archiving mapper for mapping data corresponding to the same URL among the web document data, link file data, and snapshot data stored in the database and outputting the data to the database; And
And a web archiving management unit for instructing the web archiving mapper to map and hierarchically linking the mapped data to provide the linked web material.
제 1항에 있어서,
상기 웹 자원 아카이빙 장치는, 상기 웹 수집 크롤러가 접속했던 URL을 저장하고, 상기 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 URL 매니저를 더 포함하는 웹 자원 아카이빙 장치.
The method of claim 1,
The web resource archiving apparatus further includes a URL manager that stores the URL accessed by the web collection crawler and manages the URL to be accessed by the web snapshot robot in a first-in-first-out (FIFO) manner. Web resource archiving device.
제 1항에 있어서,
상기 웹 자원 아카이빙 장치는, 상기 웹 계층적 구조로 구조화된 자료를 계층 정보와 함께 브라우징하는 웹 아카이빙 브라우저를 더 포함하는 웹 자원 아카이빙 장치.
The method of claim 1,
The web resource archiving apparatus further comprises a web archiving browser for browsing the structured data in the web hierarchical structure with hierarchical information.
제 1항에 있어서,
상기 웹 자원 아카이빙 장치는, 상기 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 웹 아카이빙 업데이트부를 더 포함하는 웹 자원 아카이빙 장치.
The method of claim 1,
The web resource archiving apparatus further includes a web archiving updating unit which determines whether to update the stored data and requests an update.
제 1항에 있어서,
상기 웹 스냅샷 로봇은, 상기 URL에 속하는 모든 심층 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐하는 웹 자원 아카이빙 장치.
The method of claim 1,
The web snapshot robot is a web resource archiving device for capturing a web page screen repeatedly to generate a snapshot data for all the deep web resources belonging to the URL.
제 1항에 있어서,
상기 웹 스냅샷 로봇은, 스냅샷 자료를 특정 이미지 포맷으로 변환하여 상기 데이터 베이스에 저장하는 웹 자원 아카이빙 장치.
The method of claim 1,
The web snapshot robot, web resource archiving device for converting the snapshot data into a specific image format and stored in the database.
Uniform Resource Locator(URL)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고, 저장하는 단계;
상기 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하고, 저장하는 단계;
상기 저장된 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하고 저장하는 단계; 및
상기 맵핑된 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공하는 단계를 포함하는 웹 자원 아카이빙 방법.
Accessing a Uniform Resource Locator (URL) to collect and store web document data and link file data;
Accessing the URL and capturing and storing a web page screen as snapshot data;
Mapping and storing data corresponding to the same URL among the stored web document data, link file data, and snapshot data; And
And hierarchically linking the mapped materials to provide the linked web materials.
제 7항에 있어서,
상기 웹 자원 아카이빙 방법은, 상기 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 단계를 더 포함하는 웹 자원 아카이빙 방법.
8. The method of claim 7,
The web resource archiving method further includes the step of managing the web resource archiving in a first-in-first-out (FIFO) manner so that the URL to be accessed is not duplicated to store the accessed URL and capture the snapshot data. .
제 7항에 있어서,
상기 웹 자원 아카이빙 방법은, 상기 웹 계층적 구조로 구조화된 자료를 계층 정보와 함께 브라우징하는 단계를 더 포함하는 웹 자원 아카이빙 방법.
8. The method of claim 7,
The web resource archiving method further comprises the step of browsing the data structured in the web hierarchical structure together with hierarchical information.
제 7항에 있어서,
상기 웹 자원 아카이빙 방법은, 상기 저장된 자료들의 업데이트 여부를 판단하여 업데이트하는 단계를 더 포함하는 웹 자원 아카이빙 방법.
8. The method of claim 7,
The web resource archiving method may further include determining and updating the stored data.
제 7항에 있어서,
상기 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계는, 상기 URL에 속하는 모든 심층 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복되어 수행되는 웹 자원 아카이빙 방법.
8. The method of claim 7,
The capturing and storing the web page screen as snapshot data is repeated until the capturing and storing of all the deep web resources belonging to the URL are completed.
제 7항에 있어서,
상기 스냅샷 자료를 캡쳐하고 저장하는 단계는, 상기 스냅샷 자료를 특정 이미지 포맷으로 변환하여 저장하는 웹 자원 아카이빙 방법.
8. The method of claim 7,
The capturing and storing the snapshot data may include converting and storing the snapshot data into a specific image format.
KR1020110080176A 2011-08-11 2011-08-11 Apparatus and method for archiving web resource KR101244357B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110080176A KR101244357B1 (en) 2011-08-11 2011-08-11 Apparatus and method for archiving web resource

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110080176A KR101244357B1 (en) 2011-08-11 2011-08-11 Apparatus and method for archiving web resource

Publications (2)

Publication Number Publication Date
KR20130017620A true KR20130017620A (en) 2013-02-20
KR101244357B1 KR101244357B1 (en) 2013-03-18

Family

ID=47896757

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110080176A KR101244357B1 (en) 2011-08-11 2011-08-11 Apparatus and method for archiving web resource

Country Status (1)

Country Link
KR (1) KR101244357B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9690757B2 (en) 2014-09-29 2017-06-27 Yandex Europe Ag Method of and system for processing content of a web resource in a browser application

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101761592B1 (en) * 2015-12-01 2017-07-26 주식회사 인프라웨어 Apparatus and computer program stored in computer readable medium for updating web object inserted in document
CN109213824B (en) * 2017-06-29 2022-03-04 北京京东尚科信息技术有限公司 Data capture system, method and device
CN107506425A (en) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 A kind of web page files gather archiving method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020083701A (en) * 2001-04-30 2002-11-04 이정곤 Distributed Internet Search System, Methods of Collecting Information and Providing the Information, and Capture Robot Program for Implementing the Same
JP4808357B2 (en) * 2002-03-19 2011-11-02 三菱電機株式会社 Information collection device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9690757B2 (en) 2014-09-29 2017-06-27 Yandex Europe Ag Method of and system for processing content of a web resource in a browser application

Also Published As

Publication number Publication date
KR101244357B1 (en) 2013-03-18

Similar Documents

Publication Publication Date Title
JP5474038B2 (en) Mobile site map
US7707161B2 (en) Method and system for creating a concept-object database
US6604099B1 (en) Majority schema in semi-structured data
Ahmadi-Abkenari et al. An architecture for a focused trend parallel Web crawler with the application of clickstream analysis
US20070050335A1 (en) Information searching apparatus and method with mechanism of refining search results
US20100114854A1 (en) Map-based websites searching method and apparatus therefor
US6981037B1 (en) Method and system for using access patterns to improve web site hierarchy and organization
US8671108B2 (en) Methods and systems for detecting website orphan content
US20090187516A1 (en) Search summary result evaluation model methods and systems
US20090083266A1 (en) Techniques for tokenizing urls
US7970936B2 (en) In a world wide web communications network simplifying the uniform resource locators (URLS) displayed in association with received web documents
CN110309386B (en) Method and device for crawling web page
KR101244357B1 (en) Apparatus and method for archiving web resource
JP3698242B2 (en) Information set importance determination system and method, and recording medium recording information set importance determination program
US9465814B2 (en) Annotating search results with images
CN106874502A (en) A kind of method of video search, device and terminal
Badawi et al. Maintaining the search engine freshness using mobile agent
JP5200750B2 (en) Information search apparatus, information search method, program, and recording medium
Kausar et al. Web crawler based on mobile agent and java aglets
Mahale et al. Advanced web crawler for deep web interface using binary vector & page rank
JP2004264928A (en) In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program
Thirugnanasambanthan A new approach to web crawling—dhekts crawler in comparison with various crawlers
Kausar et al. Maintaining the repository of search engine freshness using mobile crawler
WO2002044946A1 (en) Search engine
Angelaccio et al. A Visualisation System for Web local search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 6

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20190218

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200219

Year of fee payment: 8

R401 Registration of restoration