KR20130017620A - Apparatus and method for archiving web resource - Google Patents
Apparatus and method for archiving web resource Download PDFInfo
- Publication number
- KR20130017620A KR20130017620A KR1020110080176A KR20110080176A KR20130017620A KR 20130017620 A KR20130017620 A KR 20130017620A KR 1020110080176 A KR1020110080176 A KR 1020110080176A KR 20110080176 A KR20110080176 A KR 20110080176A KR 20130017620 A KR20130017620 A KR 20130017620A
- Authority
- KR
- South Korea
- Prior art keywords
- web
- data
- archiving
- url
- snapshot
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 웹 자원을 아카이빙하기 위한 방법 및 장치에 관한 것이다. 더욱 상세하게는, 다양한 형식을 갖는 웹 자원들을 원형에 가깝게 보존하기 위해 스냅샷 로봇을 이용하여 웹 자원을 수집하고 저장하는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for archiving web resources. More particularly, the present invention relates to a method and apparatus for collecting and storing web resources using a snapshot robot to preserve web resources having various formats in a nearly circular form.
웹 자원은 정보화시대에서 정보 이용자들이 빠르고 손쉽게 접근할 수 있는 중요한 매체이다. 웹 자원은 과학 기술 커뮤니케이션뿐만 아니라 개인 커뮤니케이션, 출판, 학술, 전자 상거래 등 다양한 분야에서 활용되는 중요한 자원들이다. Web resources are an important medium that information users can access quickly and easily in the information age. Web resources are important resources used in various fields such as personal communication, publishing, academics, and e-commerce as well as science and technology communication.
하지만 이러한 웹 자원들은 주기적 또는 비주기적으로 갱신되거나 소멸 된다. 결과적으로 사용자들은 갱신된 웹 페이지에서 과거에 존재했던 웹 자원을 얻는 것이 불가능하다. 따라서 자료의 지속성이 약한 웹 자원을 수집하고 보존하는 웹 아카이빙의 중요성이 강조된다. 이러한 웹 아카이빙의 관련 연구가 증가하면서, 웹 자원을 수집하기 위한 웹 수집 크롤러(crawler)의 개발이 필요하게 되었다. However, these web resources are updated or destroyed periodically or aperiodically. As a result, it is not possible for users to obtain previously existing web resources from updated web pages. Therefore, the importance of web archiving to collect and preserve web resources with weak data persistence is emphasized. As the related research of web archiving increases, the development of a web collection crawler for collecting web resources is required.
웹 자원을 아카이빙하기 위한 도구는 크롤러 또는 하베스터(havester)라고 불린다. 초기 형태의 크롤러는 일반적인 색인 로봇을 바탕으로 설계되었으나 이후 웹 자원 아카이빙을 위한 전용 크롤러로 NEDLIB(Networked European Deposit Library)에서 개발된 NEDLIB 하베스터가 있다. 이는 유럽을 중심으로 다수의 국가 도서관에서 이용되었다. 이후에는 개발된 것으로는 인터넷 아카이브(Internet Archive)의 Heritrix와 웹사이트를 한꺼번에 저장할 수 있는 HTTrack이 있다. 이후 다양한 목적에 의해 DeepArc, PageVault, WGet 등의 웹 수집 크롤러가 개발되었다. The tool for archiving web resources is called a crawler or havester. Early crawlers were designed based on general indexing robots, but later, a dedicated crawler for archiving web resources, NEDLIB harvesters developed by the Networked European Deposit Library (NEDLIB). It has been used in many national libraries, mainly in Europe. Later developments include Heritrix from the Internet Archive and HTTrack, which can store websites all at once. Since then, web collection crawlers such as DeepArc, PageVault, and WGet have been developed for various purposes.
표준 HTML 링크로 연결된 텍스트 위주의 정적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해서 쉽게 구현된다. 그러나 꾸준히 증가하고 있는 자바스크립트나 플래시 등의 스크립트나 플러그-인 기법을 사용하는 동적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해 불가능한 경우가 많다. 스크립트 실행의 결과는 웹 브라우저의 종류에 따라 달라지기 때문에 자바스크립트를 채용하는 웹 페이지는 성공적으로 수집되기가 어렵다. 플래시 역시 플러그인을 사용할 뿐만 아니라 상용포맷이기 때문에 이를 포함한 웹 자원 수집은 쉽지 않다. Collecting web resources consisting of text-based static web pages linked by standard HTML links is easily implemented by existing web collection crawlers. However, collecting web resources consisting of dynamic web pages using a steadily increasing number of scripts or plug-in techniques such as JavaScript or Flash is often not possible with traditional web collection crawlers. Because the results of script execution depend on the type of web browser, web pages that employ JavaScript are difficult to collect successfully. Because Flash is not only a plug-in but also a commercial format, collecting web resources is difficult.
도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다. 1 is a diagram illustrating components of a general web page screen.
일반적인 웹 페이지 화면은 단순 텍스트(1010)뿐만 아니라 정적 이미지(1020) 및 스크립트 등을 이용한 동적 이미지(1030)를 포함하여 구성된다.The general web page screen includes not only
단순 텍스트(1010) 및 정적 이미지(1020)는 기존의 웹 수집 크롤러에 의해 손상없이 원형 그대로 수집, 저장된다. 사용자가 저장된 웹 아카이브 자료를 검색하여 해당 웹 페이지를 복원시키는 경우에도 단순 텍스트와 정적 이미지는 수집된 시점과 동일하게 복원이 가능하다.
하지만, 스크립트나 플러그인을 이용한 동적 이미지(1030)는 기존 웹 수집 크롤러가 수집하여 저장하는 경우, 원형 그대로 저장되지 않는다. 동적 이미지는 관련 스크립트나 플러그인이 함께 저장되고 실행되어야만 완벽하게 원형이 복원 가능하기 때문이다. 따라서 이를 지원하지 않는 기존 웹 수집 크롤러가 해당 웹 페이지를 수집, 저장했다 하더라도, 사용자가 웹 아카이브 자료를 이용하여 해당 웹 페이지를 방문하면 동적 이미지 영역은 복원되지 않고 웹 페이지 화면상에 빈 공간으로 표현된다. However, the
또한 내부 데이터베이스를 기반으로 하는 웹 페이지에 대한 웹 수집 크롤러의 웹 자원 수집도 대부분 불가능한 경우가 많다. 내부 데이터베이스를 이용한 웹 페이지의 경우, 웹 자원을 수집해서 복원을 한다 하여도 일부 자원이 수집되지 못해 그 내용을 알 수 없는 경우가 많기 때문이다. In addition, the Web collection crawler's collection of web resources for web pages based on internal databases is often impossible. This is because, in the case of web pages using an internal database, even if the web resources are collected and restored, some of the resources are not collected and thus the contents are not known.
이에 더하여 웹 공간에는 검색엔진을 통해서 자유롭게 접근할 수 있는 표면 웹(surface web)만 있는 것이 아니라 일반적인 검색엔진에 의해 색인되지 않는 심층 웹(deep web)이 함께 존재한다. 심층 웹은 웹 수집 크롤러 자체의 기술적 한계에 의해서 발생하기도 하고, 웹 페이지 인증 과정이 필요한 경우에도 발생한다. In addition, there is not only a surface web that can be freely accessed through a search engine, but also a deep web that is not indexed by a general search engine. Deep webs are often caused by the technical limitations of the web-gathering crawler itself, or even when a web page authentication process is required.
웹 사이트 운영자가 로봇배제 프로토콜을 사용하여 웹 사이트에 robot.txt 파일을 심어놓은 경우에도 로봇에 의한 웹 페이지 접근이 거부되기 때문에 웹 수집 크롤러에 의한 수집이 불가능하다. Even if a web site operator places a robot.txt file on a web site using the robot exclusion protocol, the web page crawler cannot access the web page.
이와 같이 현재의 웹 자원 아카이빙을 위한 다양한 도구들이 있지만, 스크립트와 플러그인 형태의 자원 및 다른 이유로 인해 웹 자원을 완벽하게 수집하기는 어렵다. 또한 표면 웹에 비해 심층 웹 자원을 수집하는 것은 더 많은 시간과 어려움이 따른다. 결과적으로 웹 자원 아카이빙을 수행했다 하더라도 사용자에게 완벽한 웹 페이지를 복원하여 제시하지 못하는 문제점이 발생한다. As such, there are various tools for archiving web resources, but it is difficult to collect web resources perfectly because of resources in the form of scripts and plug-ins, and other reasons. In addition, collecting deep web resources takes more time and difficulty than surface webs. As a result, even if the web resource archiving is performed, there is a problem that the user cannot restore and present the perfect web page.
본 발명은 위와 같은 문제점을 해결하기 위한 것으로써, 본 발명이 이루고자 하는 기술적 과제는 웹 아카이빙 장치 및 방법에서, 전술한 문제점을 겪지 않으면서, 웹 자원을 효과적으로 수집하여 웹 페이지를 복원 가능하도록 하는 것이다. The present invention is to solve the above problems, the technical problem to be achieved by the present invention to the web archiving apparatus and method, it is possible to effectively recover the web page by collecting the web resources without suffering the above-mentioned problems. .
전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하는 웹 수집 크롤러, 웹 수집 크롤러가 접속했던 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇, 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스, 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 데이터 베이스로 출력하는 웹 아카이빙 맵퍼, 웹 아카이빙 맵퍼에 맵핑을 지시하고, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함한다.In order to solve the above technical problem, the web resource archiving apparatus according to an embodiment of the present invention is a web collection crawler, a web collection crawler that accesses a URL (Uniform Resource Locator) to collect web document data and link file data Web snapshot robot that captures web page screen as snapshot data by accessing the same URL, database storing web document data, link file data and snapshot data, web document data stored in database, link file data and snap Web archiving mapper which maps the data corresponding to the same URL among the shot materials and outputs it to the database, instructs mapping to web archiving mapper, and provides web data connected by hierarchically linking the mapped data. It includes an archiving management unit.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 수집 크롤러가 접속했던 URL을 저장하고, 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 URL 매니저를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention stores a URL that the web collection crawler accesses, and the URL manager for managing in a FIFO (First In First Out) method so that the URL to be accessed by the web snapshot robot is not duplicated It further includes.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 계층적 구조를 활용하여 웹 자원을 브라우징하는 웹 아카이빙 브라우저를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention further includes a web archiving browser for browsing the web resources by using a web hierarchical structure.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 웹 아카이빙 업데이트부를 더 포함한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention further includes a web archiving update unit for requesting an update by determining whether the collected and stored data are updated.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 스냅샷 로봇이 해당 URL에 속하는 모든 심층 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐한다. In addition, the web resource archiving apparatus according to an embodiment of the present invention repeatedly captures the web page screen so that the web snapshot robot generates snapshot data for all the deep web resources belonging to the corresponding URL.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 캡쳐 자료를 저장하는 데이터 베이스가 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.In addition, the web resource archiving apparatus according to an embodiment of the present invention converts the captured data into a specific image format and stores the captured data in a database storing the captured data.
전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 저장하는 단계, 위의 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계, 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하고 저장하는 단계, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 단계를 포함한다.In order to solve the above technical problem, the web resource archiving method according to an embodiment of the present invention, accessing the Uniform Resource Locator (URL) to collect and store web document data and link file data, access to the above URL Capturing and storing the web page screen as snapshot data, and mapping and storing data corresponding to the same URL among the stored web document data, link file data, and snapshot data, and connecting the mapped data hierarchically. linking to provide linked web material.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 단계를 더 포함한다. In addition, the web resource archiving method according to an embodiment of the present invention further comprises the step of managing in a FIFO (First In First Out) scheme so that the URL to be accessed is not duplicated in order to store the accessed URL and capture it as snapshot data. .
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 계층적 구조를 활용하여 저장된 웹 자원을 브라우징하는 단계를 더 포함한다.In addition, the web resource archiving method according to an embodiment of the present invention further includes the step of browsing the stored web resources using a hierarchical structure.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 단계를 더 포함한다.In addition, the web resource archiving method according to an embodiment of the present invention further comprises the step of requesting an update by determining whether to update the collected and stored data.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계를 해당 URL에 속하는 모든 심층 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복하여 수행한다. In addition, the web resource archiving method according to an embodiment of the present invention repeats the step of capturing and storing the web page screen as snapshot data so that the capturing and storing of all the deep web resources belonging to the URL are completed.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법에서 캡쳐 자료를 데이터 베이스에 저장하는 단계는 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.In addition, in the web resource archiving method according to an embodiment of the present invention, storing the captured data in the database converts the captured data into a specific image format and stores the captured data.
본 발명에 따른 웹 자원 아카이빙을 위한 방법 및 장치는 다음과 같은 효과를 가지고 있다.Method and apparatus for archiving web resources according to the present invention has the following effects.
본 발명의 일 실시예에 따르면, 텍스트 위주의 정적인 웹 페이지뿐만 아니라 스크립트, 플러그-인을 활용한 동적인 웹 페이지에 대해서도 웹 자원의 누락 없이 아카이빙하는 효과가 있다.According to an embodiment of the present invention, an archiving without a web resource is effective for not only text-based static web pages but also dynamic web pages using scripts and plug-ins.
본 발명의 일 실시예에 따르면, 텍스트 검색에 의해 관련 웹페이지의 스냅샷 자료를 검색하는 효과가 있다.According to an embodiment of the present invention, there is an effect of searching the snapshot data of the relevant web page by text search.
본 발명의 일 실시예에 따르면, 웹 페이지에 대한 스냅샷 자료를 계층적으로 브라우징하는 효과가 있다.According to an embodiment of the present invention, there is an effect of hierarchically browsing snapshot data for a web page.
도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 1 브라우징 화면을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 2 브라우징 화면을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다. 1 is a diagram illustrating components of a general web page screen.
2 is a block diagram of an apparatus for archiving web resources according to an embodiment of the present invention.
3 is a diagram illustrating a mapping operation for collected data of an apparatus for archiving web resources according to an embodiment of the present invention.
4 is a diagram illustrating web hierarchical structured data by an apparatus for archiving web resources according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a first browsing screen for web archive material provided by an apparatus for archiving a web resource according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating a second browsing screen for web archive material provided by an apparatus for archiving web resources according to an embodiment of the present invention.
7 is a flowchart illustrating a method of archiving a web resource according to an embodiment of the present invention.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and accompanying drawings, but the present invention is not limited to or limited by the embodiments.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention, but these may vary depending on the intention or custom of a person skilled in the art or the emergence of new technologies. In addition, in certain cases, there may be a term arbitrarily selected by the applicant, in which case the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted based on the meaning of the term rather than on the name of the term, and on the entire contents of the specification.
본 발명에 의한 웹 자원 아카이빙 장치는 웹 페이지를 방문하여 해당 웹 페이지에 포함된 구성 요소인 웹 문서 자료, 링크 파일 자료와 웹 페이지를 캡쳐한 스냅샷 자료를 저장한다. 또한 저장된 자료들을 맵핑하고 웹 계층적 구조로 구조화하여 이를 브라우징함으로써 웹 아카이브 자료 사용자에게 제공한다.The web resource archiving apparatus according to the present invention visits a web page and stores web document data, link file data, and snapshot data of a web page, which are components included in the web page. It also provides users with web archive data by mapping the stored data, structuring them in a web hierarchical structure and browsing them.
도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다. 2 is a block diagram of an apparatus for archiving web resources according to an embodiment of the present invention.
도 2의 웹 자원 아카이빙 장치는 웹 수집 크롤러(2010), URL 매니저(2020), 웹 스냅샷 로봇(2030), 데이터 베이스(2040), 웹 아카이빙 관리부(2050), 웹 아카이빙 맵퍼(2060), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)을 포함할 수 있다. The web resource archiving apparatus of FIG. 2 includes a
여기서, URL 매니저(2020), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)는 필수적 구성요소가 아니며, 실시예에 따라 배제될 수 있다. Here, the
웹 수집 크롤러(2010)는 웹 페이지를 접속하여 해당 웹 페이지의 단순 텍스트, 이미지 등으로 구성된 웹 문서 자료 및 링크 파일 자료를 수집할 수 있다. 이 때, 웹 페이지는 링크로 연결된 복수 개의 하위 웹 페이지를 포함하고 있으며 웹 수집 크롤러(2010)는 이러한 하위 웹 페이지에 포함된 웹 문서 자료와 링크 파일 자료도 수집할 수 있다. The
URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리할 수 있다. URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리하여 웹 스냅샷 로봇(2030)이 동일한 웹페이지를 중복하여 방문하는 것을 막는다. 또한 등록된 URL에 대해 FIFO(First-in-First-out) 방식으로 스냅샷 자료 수집의 대상이 되는 웹 페이지를 선정할 수 있다.The
웹 스냅샷 로봇(2030)은 웹 수집 크롤러가 접속했던 웹 페이지를 다시 방문하여 웹 페이지의 화면을 스냅샷 자료로 캡쳐할 수 있다. 또는 URL 매니저 참조해서 해당 웹 페이지를 접속하고 웹 페이지 화면을 스냅샷 자료로 캡쳐할 수 있다. 웹 페이지 화면에 대한 캡쳐는 웹 수집 크롤러(2010)의 자료 수집과 마찬가지로 메인 페이지에 연결된 복수 개의 하위 웹 페이지에 대해서도 수행되며 모든 하위 웹 페이지에 대해 캡쳐 작업을 수행하여 스냅샷 자료를 생성한다. The
웹 스냅샷 로봇(2030)의 스냅샷 자료 생성은 각 웹 페이지의 화면을 그대로 캡쳐하는 작업이므로 웹 페이지의 모든 구성요소에 대한 수집이 가능하다. 즉, 추가적으로 스크립트나 플러그인 프로그램을 함께 수집할 필요가 없으므로, 자바 스크립트나 플래시에 의한 구성 요소인 경우에도 스냅샷 자료에 그대로 반영될 수 있다.Since the snapshot data generation of the
또한 로봇배제 프로토콜에 의해 로봇에 의한 웹 자원 아카이빙이 금지된 웹 페이지인 경우에도 웹 스냅샷 로봇은 웹 자원을 수집하는 것이 아니라, 해당 웹 페이지에 접속하여 캡쳐 작업만을 수행하는 것이므로 웹 자원 아카이빙이 가능하다.In addition, even when the web resource archiving is prohibited by the robot exclusion protocol, the web snapshot robot does not collect web resources, but only captures them by accessing the web page. Do.
웹 스냅샷 로봇(2030)에 의해 생성된 스냅샷 자료는 특정 이미지 포맷으로 변환되어 아래에 설명할 데이터 베이스(2040)에 저장될 수 있다. 이미지 포맷은 예를 들어 JPG, GIF, PNG, BMP, TIFF 등을 사용할 수 있다.The snapshot data generated by the
데이터 베이스(2040)는 웹 수집 크롤러(2010)에 의해 수집된 웹 문서 자료 및 링크 파일 자료, 웹 스냅샷 로봇(2030)에 의해 캡쳐된 스냅샷 자료를 저장할 수 있다. 또한 아래에서 설명할 웹 아카이빙 관리부(2050)나 웹 아카이빙 맵퍼(2060)에서 출력되는 결과물들을 입력받아 저장할 수 있다. The
웹 아카이빙 관리부(2050)는 데이터 베이스(2040)에 저장된 자료들을 관리할 수 있다. 저장된 웹 페이지를 수정 또는 삭제할 수 있고, 저장된 자료들에 대한 통계를 도출하거나 자료가 수집된 웹 페이지에 대한 모니터링을 수행할 수 있다. 또한 데이터 베이스(2040)에 저장된 자료들에 대한 검색 서비스를 일반 사용자들에게 제공하며 이를 위해 자료에 대한 색인 작업을 수행할 수 있다. The
또한, 웹 아카이빙 관리부(2050)는 아래의 웹 아카이빙 맵퍼(2060)에 의해 맵핑된 자료들에 대한 구조화 작업을 수행할 수 있다. 일반적으로 웹 페이지는 링크로 연결된 복수의 하위 웹 페이지를 포함하기 때문에 계층적 구조를 갖는다. 따라서 웹 아카이빙 관리부(2050)는 웹 페이지를 원형과 유사하게 보존하기 위해 저장된 웹 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공할 수 있다.In addition, the web
웹 아카이빙 맵퍼(2060)는 데이터 베이스(2040)에 저장된 자료들에 대한 맵핑 작업을 수행할 수 있다. 웹 아카이빙 맵퍼(2060)는 웹 수집 크롤러(2010)에 의해 수집되어 저장된 웹 문서 자료 및 링크파일 자료와 웹 스냅샷 로봇(2030)에 의해 수집된 스냅샷 자료를 URL을 근거로 상호 맵핑한다. 이 작업에 의해 동일 URL로부터 수집되거나 생성된 자료들은 사용자에 의한 자료 검색 결과를 브라우징함에 있어 함께 결과 화면에 도출될 수 있다. The
스냅샷 자료들은 해당 이미지 내에 텍스트를 포함하고 있더라도, 이는 텍스트가 아닌 이미지에 불과하다. 따라서 사용자가 이미지 내의 키워드로 검색하여도 검색 결과에 도출되는 것이 불가능하다. 따라서 웹 아카이빙 맵퍼(2060)는 동일 URL에서 수집된 텍스트 및 웹 문서 자료와 상호 맵핑을 함으로써 스냅샷 자료들에 대한 키워드 검색이 가능해 진다.Although snapshot data may contain text in the image, it is only an image, not text. Therefore, even if the user searches by the keyword in the image, it is impossible to derive the search result. Accordingly, the
웹 아카이빙 브라우저(2070)는 사용자에게 웹 아카이브 자료를 브라우징할 수 있다. 즉, 사용자가 원하는 검색어를 입력하면 웹 아카이빙 관리부(2050)를 통해 데이터 베이스(2040)에 저장된 웹 아카이브 자료를 탐색하여 그 결과를 사용자에게 보여주는 기능을 한다. 웹 아카이빙 브라우저(2070)는 웹 아카이빙 관리부(2050)에 의해 계층적으로 연결(link)된 웹 자료들을 표시하며 선택된 웹 페이지의 하위 웹 페이지를 함께 표시한다. 이를 통해 사용자는 상위 웹 페이지로부터 하위 웹 페이지로 이동하여 자료를 검색하는 것이 가능하다.The
웹 아카이빙 업데이트부(2080)는 웹 아카이빙 관리부(2050)의 웹 페이지 모니터링 명령을 입력받아 저장된 웹 아카이브 자료들에 대한 갱신 여부를 확인하고, 자료들의 갱신이 확인되면 웹 수집 크롤러에 웹 자원 수집 명령을 지시할 수 있다. 저장된 웹 아카이브 자료들에 대한 갱신 여부 확인은 주기적으로 또는 비주기적으로 수행한다. The web
도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.3 is a diagram illustrating a mapping operation for collected data of an apparatus for archiving web resources according to an embodiment of the present invention.
맵핑 동작에는 웹 아카이빙 맵퍼(3010)와 데이터 베이스(3020)가 관여할 수 있다.웹 수집 크롤러에 의해 저장된 자료는 웹 페이지의 URL, 컨텐트 자료 및 첨부파일 자료이다. 웹 스냅샷 로봇에 의해 저장된 자료는 URL 및 스냅샷 자료이다. 이렇게 저장된 자료들에 대해 웹 아카이빙 맵퍼(3010)에 의해 맵핑 작업이 수행된다. 위와 같이 웹 수집 크롤러에 의해 수집된 자료들과 웹 스냅샷 로봇에 의해 수집된 자료들은 모두 URL 정보와 함께 저장되므로 맵핑 작업은 URL 정보를 기준으로 하여 수행된다. 이러한 맵핑 작업에 의해 동일 URL에서 수집 또는 생성되어 저장된 자료들간 연관 관계가 정의된다. The
웹 아카이빙 맵퍼(3010)는 맵핑 작업을 수행한 후, 상호 맵핑된 자료들을 다시 데이터 베이스(3020)에 저장한다. 이로써 사용자에 의한 웹 아카이브 자료 검색 시 사용자가 해당 웹페이지에 속한 텍스트를 검색한 경우에도 텍스트가 속한 웹 페이지의 스냅샷 자료를 검색 결과로 출력하는 것이 가능하다. After the
도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.4 is a diagram illustrating web hierarchical structured data by an apparatus for archiving web resources according to an embodiment of the present invention.
위에서 언급한 웹 아카이빙 맵퍼에 의해 상호 맵핑되어 데이터 베이스에 저장된 자료들은 웹 아카이빙 관리부에 의해 계층적으로 연결(link)된다. 도 4에서 site depth는 웹 계층의 레벨을 의미한다. 레벨 1은 상위 웹 페이지를 의미하고, 레벨 2에서 레벨 n으로 레벨이 증가함에 따라 하위 웹 페이지를 의미한다. The data stored in the database and mutually mapped by the above-mentioned web archiving mapper are hierarchically linked by the web archiving manager. In FIG. 4, the site depth means the level of the web layer.
각 레벨에는 동일 웹 계층에 포함되는 html 자료(4010, 4020, 4030)가 존재하고 이들은 동일 웹 계층에 속하므로 상호 연결되어 있지 않다. html 자료(4010)는 스냅샷 자료(4011)와 연결되어 있으며 이는 웹 아카이빙 맵퍼에 의해 자료 간 상호 맵핑 되었음을 의미한다. 레벨 1의 html 자료(4010)는 레벨 2의 html 자료 두 개(4040, 4050)와 연결되어 있으며 다시 레벨 2의 html 자료는 다음 레벨의 html 자료(4050, 4060)와 연결되어 있다. In each level, there are
따라서 웹 계층적 구조화된 자료에 의해 사용자는 상위 웹 페이지에 해당하는 레벨 1에 속한 html 자료(4010)로부터 하위 웹 페이지에 해당하는 레벨 2 이상의 html 자료(4040, 4050)로 연결된 웹 페이지를 계속하여 탐색하는 것이 가능하다. 이와 같은 웹 계층적 구조화를 통해 사용자는 웹 아카이브 자료를 실제 웹페이지에 접속한 것과 같이 검색하는 것이 가능하다. Thus, web hierarchical structured material allows a user to continue a web page from
도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 1에 대한 브라우징 화면을 나타낸 도면이다. FIG. 5 is a diagram illustrating a browsing screen for
브라우징 화면 상단에는 검색을 위한 공란(5010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(5020)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(5030)으로 표현한다.At the top of the browsing screen, there is a blank 5010 for searching and a search button. Below the search field is
예를 들어 사용자가 도면과 같이 KoreanScience를 검색어로 입력하면 검색란(5010) 아래에 이에 대한 결과 화면으로 웹 계층(site depth) 레벨 1에서의 스냅샷-썸네일 포맷의 검색 결과(5020)임을 표시한다. 웹 자원 아카이빙 장치는 KoreanScience와 상호 맵핑된 스냅샷 자료를 검색하고, 검색이 완료되면 브라우징 화면 하단에 검색된 스냅샷 자료를 스냅샷-썸네일 포맷의 이미지(5030)로 나열하여 검색 결과를 표시한다.For example, when a user inputs KoreanScience as a search word as shown in the drawing, the
사용자는 검색 결과 이미지를 클릭하여 해당 웹 페이지의 원본 스냅샷 자료를 확인하는 것이 가능하다.The user can click on the search result image to view the original snapshot data of the web page.
도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 2에 브라우징 화면을 나타낸 도면이다.6 is a diagram illustrating a browsing screen in
브라우징 화면 상단에는 검색을 위한 공란(6010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층보다 한 단계 상위의 웹페이지에 대한 원본 스냅샷 자료를 표시한다. 즉, 현재 검색 계층보다 상위 계층의 스냅샷 이미지 중 클릭에 의해 선택된 스냅샷 이미지(6020)를 확대하여 디스플레이한다. 그 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(6030)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(6040)으로 표현한다.At the top of the browsing screen, there is a blank 6010 for searching and a search button. Below the search box is the original snapshot data for web pages one level above the current web tier. That is, the
예를 들어, 사용자가 도 5의 검색 결과 이미지 중 하나를 클릭하면 검색란 아래에 클릭된 이미지의 원본 스냅샷 자료(6020)가 표시된다. 또한 웹 계층 레벨은 원본 스냅샷 자료가 표시하는 웹 페이지의 하위 웹 페이지들의 레벨인 레벨 2로 변경된다(6030). 브라우징 화면 하단에는 표시된 원본 스냅샷 자료의 웹 페이지에 대한 하위 웹 페이지들이 스냅샷-썸네일 포맷의 이미지(6040)로 표시된다.For example, when a user clicks on one of the search result images of FIG. 5, the
이러한 방식으로 웹 자원 아카이빙 장치를 사용하는 자는 하위 스냅샷-썸네일 포맷을 클릭하여 하위 웹 페이지에 대한 상세 검색을 연속적으로 진행할 수 있다.In this way, the user using the web resource archiving device can continuously search the sub web page by clicking the sub snapshot-thumbnail format.
도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다.7 is a flowchart illustrating a method of archiving a web resource according to an embodiment of the present invention.
웹 수집 크롤러는 URL에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 데이터 베이스에 저장한다(S7010).The web collection crawler collects the web document data and the link file data by accessing the URL and stores the data in the database (S7010).
이 때 웹 수집 크롤러는 해당 URL의 웹페이지에 연결된 하위 웹페이지에 대한 웹 자원도 함께 수집하고 저장할 수 있다. 자료의 저장시에는 위에서 언급한 자료들과 해당 웹 페이지의 URL을 함께 저장할 수 있다. At this time, the web collection crawler may also collect and store web resources for sub-web pages linked to the web pages of the URL. When saving data, the above mentioned data and the URL of the web page can be saved together.
웹 스냅샷 로봇은 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 페이지 화면을 스냅샷 자료로 캡쳐하고 데이터 베이스에 저장한다(S7020). The web snapshot robot accesses the URL that the web collection crawler accesses, captures the web page screen as snapshot data, and stores the data in the database (S7020).
웹 스냅샷 로봇이 접속하는 URL은 웹 수집 크롤러가 접속했던 URL을 그대로 따라 접속하는 방법을 사용할 수 있다. 웹 스냅샷 로봇은 웹 수집 크롤러가 접속하여 웹 자원 즉, 웹 문서 자료 및 링크 파일 자료를 수집한 URL의 웹 페이지를 다시 접속하여 해당 웹 페이지를 스냅샷 자료로 캡쳐하고 저장한다. 스냅샷 자료를 저장할 때는 해당 웹 페이지의 URL을 함께 저장한다.The URL accessed by the web snapshot robot can be accessed by following the same URL that the web collection crawler accessed. The web snapshot robot accesses a web page of a URL where a web collection crawler accesses and collects web resources, that is, web document data and link file data, and captures and stores the web page as snapshot data. When saving snapshot data, save the URL of the web page.
위의 설명과 다른 실시예로, URL 매니저가 웹 수집 크롤러의 접속 URL을 등록하고 중복되지 않도록 FIFO 방식으로 웹 스냅샷 로봇에게 접속할 URL을 알려주는 방법도 가능하다. 다만 이는 웹 자원 아카이빙 방법의 필수적인 단계는 아니다.In an embodiment different from the above description, the URL manager may register the access URL of the web collection crawler and inform the web snapshot robot of the URL to access the web snapshot robot in a FIFO manner so as not to be duplicated. This is not an essential step of the web resource archiving method.
웹 아카이빙 맵퍼는 웹 아카이빙 관리부의 지시를 받아 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 URL 기준으로 상호 맵핑한다(S7030).The web archiving mapper receives the instructions of the web archiving manager to map the web document data, the link file data, and the snapshot data stored in the database based on the URL (S7030).
웹 자원의 저장시 그 출처인 URL을 함께 저장하기 때문에 자료들 간의 상호 맵핑은 URL을 기준으로 이루어진다. 동일 URL로부터 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료는 상호 맵핑된다. 이렇게 맵핑된 자료들은 그 중 일부가 검색 결과에 포함되는 경우 함께 검색 결과로 표시되어 웹 아카이브 자료를 이용하는 사용자에게 제공된다.When the web resource is saved, the URL that is the source is stored together, so that the mapping between data is based on the URL. Web document data, link file data, and snapshot data stored from the same URL are mapped to each other. These mapped materials are displayed as search results when some of them are included in the search results, and are provided to users using the web archive data.
스냅샷 자료들은 해당 이미지 내에 포함하고 있는 텍스트를 키워드로 검색하여도 검색이 불가능하기 때문에 해당 웹페이지에서 수집된 다른 자료들과 상호 맵핑을 함으로써 키워드에 의한 검색이 가능해 진다.Snapshot data can not be searched even if the keyword included in the image is searched by keyword, so it is possible to search by keyword by mapping with other data collected from the web page.
웹 아카이빙 관리부 상호 맵핑된 자료들을 웹 계층적 구조로 구조화하고 데이터 베이스에 저장한다(S7040).The web archiving management unit structures the data mapped to each other in a web hierarchical structure and stores them in a database (S7040).
웹 페이지는 웹 계층적 구조를 가지고 있기 때문에 웹 아카이브 자료에 대해서도 웹 계층적 구조로 구조화하는 작업이 필요하다. 웹 계층적 구조화 작업은 단순히 저장되어 분산되어 있는 자료들을 상하위 웹 페이지로 연결한다. 이로써 웹 아카이브 자료를 이용하는 사용자에게 실제 웹 페이지를 방문한 것과 유사하게 웹 계층적 연결 자료를 제공한다.Since web pages have a web hierarchical structure, it is necessary to structure the web archive data in a web hierarchical structure. Web hierarchical structuring simply links the stored and distributed data to parent web pages. This provides web hierarchical connection material to users of web archives, similar to visiting real web pages.
웹 아카이빙 브라우저는 데이터 베이스에 저장된 웹 계층적 구조의 자료를 화면에 표시한다(S7050). The web archiving browser displays the web hierarchical structure data stored in the database on the screen (S7050).
웹 아카이빙 브라우저는 검색 결과를 복수의 스냅샷-썸네일 이미지로 표시하고 이와 함께 웹 계층 정보인 레벨 정보를 함께 표시한다. 이로써 사용자는 자신이 검색한 키워드에 대한 검색자료가 속하는 웹 계층 레벨을 확인할 수 있다. The web archiving browser displays the search results as a plurality of snapshot-thumbnail images along with the level information, which is web layer information. This allows the user to check the web hierarchy level to which the search data for the keyword they searched belongs.
사용자는 복수의 스냅샷-썸네일 이미지를 클릭하여 원본 스냅샷 자료를 확인하는 것이 가능하다. 또한 웹 아카이빙 브라우저는 클릭된 스냅샷-썸네일 이미지에 해당하는 웹 페이지와 연결된 하위 웹 페이지에 대한 스냅샷-썸네일 이미지를 표시한다. 이를 통해 사용자는 연결된 웹 페이지에 대한 웹 아카이브 자료를 연속적으로 확인할 수 있다.The user can click on multiple snapshot-thumbnail images to view the original snapshot data. The web archiving browser also displays a snapshot-thumbnail image for the subweb page associated with the web page corresponding to the clicked snapshot-thumbnail image. This allows the user to continuously view web archive material for linked web pages.
웹 아카이빙 업데이트부는 저장된 자료의 업데이트 여부를 확인하여 자료를 업데이트한다(S7060).The web archiving update unit checks whether the stored data is updated and updates the data (S7060).
웹 자원은 주기적 또는 비주기적으로 업데이트 되므로 웹 아카이빙 업데이트부는 이를 확인하여 저장된 자료를 업데이트 하도록 한다. 웹 아카이빙 업데이트부는 저장된 자료의 업데이트가 확인되면 위의 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 다시 수집하고 저장하도록 웹 수집 크롤러에게 지시한다. 이후 웹 자원 아카이빙 장치는 S7010~S7040의 단계를 반복 실행하여 저장된 자료들에 대한 업데이트를 수행한다.Since the web resources are updated periodically or aperiodically, the web archiving update unit checks this and updates the stored data. The web archiving update unit instructs the web collection crawler to collect and store the above web document data, link file data, and snapshot data when the update of the stored data is confirmed. Thereafter, the web resource archiving apparatus repeats the steps of S7010 to S7040 to update the stored data.
이상과 같이 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible. Therefore, the scope of the present invention should not be limited by the described embodiments, but should be determined by the equivalents of the appended claims, as well as the appended claims.
도면의 주요 부분에 대한 부호의 설명은 다음과 같다.
2010: 웹 수집 크롤러 2020: URL 매니저
2030: 웹 스냅샷 로봇 2040: 데이터 베이스
2050: 웹 아카이빙 관리부 2060: 웹 아카이빙 맵퍼
2070: 웹 아카이빙 브라우저 2080: 웹 아카이빙 업데이트부Description of the symbols for the main parts of the drawings is as follows.
2010: Web Collection Crawler 2020: URL Manager
2030: Web Snapshot Robot 2040: Database
2050: Web archiving management unit 2060: Web archiving mapper
2070: Web archiving browser 2080: Web archiving update unit
Claims (12)
상기 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇;
상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스;
상기 데이터 베이스에 저장된 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 상기 데이터 베이스로 출력하는 웹 아카이빙 맵퍼; 및
상기 웹 아카이빙 맵퍼에 맵핑을 지시하고, 상기 맵핑된 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함하는 웹 자원 아카이빙 장치.A web collection crawler that accesses a Uniform Resource Locator (URL) and collects web document data and link file data;
A web snapshot robot accessing a URL accessed by the web collection crawler and capturing a web page screen as snapshot data;
A database for storing the web document data, link file data, and snapshot data;
A web archiving mapper for mapping data corresponding to the same URL among the web document data, link file data, and snapshot data stored in the database and outputting the data to the database; And
And a web archiving management unit for instructing the web archiving mapper to map and hierarchically linking the mapped data to provide the linked web material.
상기 웹 자원 아카이빙 장치는, 상기 웹 수집 크롤러가 접속했던 URL을 저장하고, 상기 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 URL 매니저를 더 포함하는 웹 자원 아카이빙 장치.The method of claim 1,
The web resource archiving apparatus further includes a URL manager that stores the URL accessed by the web collection crawler and manages the URL to be accessed by the web snapshot robot in a first-in-first-out (FIFO) manner. Web resource archiving device.
상기 웹 자원 아카이빙 장치는, 상기 웹 계층적 구조로 구조화된 자료를 계층 정보와 함께 브라우징하는 웹 아카이빙 브라우저를 더 포함하는 웹 자원 아카이빙 장치.The method of claim 1,
The web resource archiving apparatus further comprises a web archiving browser for browsing the structured data in the web hierarchical structure with hierarchical information.
상기 웹 자원 아카이빙 장치는, 상기 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 웹 아카이빙 업데이트부를 더 포함하는 웹 자원 아카이빙 장치.The method of claim 1,
The web resource archiving apparatus further includes a web archiving updating unit which determines whether to update the stored data and requests an update.
상기 웹 스냅샷 로봇은, 상기 URL에 속하는 모든 심층 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐하는 웹 자원 아카이빙 장치.The method of claim 1,
The web snapshot robot is a web resource archiving device for capturing a web page screen repeatedly to generate a snapshot data for all the deep web resources belonging to the URL.
상기 웹 스냅샷 로봇은, 스냅샷 자료를 특정 이미지 포맷으로 변환하여 상기 데이터 베이스에 저장하는 웹 자원 아카이빙 장치.The method of claim 1,
The web snapshot robot, web resource archiving device for converting the snapshot data into a specific image format and stored in the database.
상기 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하고, 저장하는 단계;
상기 저장된 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하고 저장하는 단계; 및
상기 맵핑된 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공하는 단계를 포함하는 웹 자원 아카이빙 방법.Accessing a Uniform Resource Locator (URL) to collect and store web document data and link file data;
Accessing the URL and capturing and storing a web page screen as snapshot data;
Mapping and storing data corresponding to the same URL among the stored web document data, link file data, and snapshot data; And
And hierarchically linking the mapped materials to provide the linked web materials.
상기 웹 자원 아카이빙 방법은, 상기 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 단계를 더 포함하는 웹 자원 아카이빙 방법.8. The method of claim 7,
The web resource archiving method further includes the step of managing the web resource archiving in a first-in-first-out (FIFO) manner so that the URL to be accessed is not duplicated to store the accessed URL and capture the snapshot data. .
상기 웹 자원 아카이빙 방법은, 상기 웹 계층적 구조로 구조화된 자료를 계층 정보와 함께 브라우징하는 단계를 더 포함하는 웹 자원 아카이빙 방법.8. The method of claim 7,
The web resource archiving method further comprises the step of browsing the data structured in the web hierarchical structure together with hierarchical information.
상기 웹 자원 아카이빙 방법은, 상기 저장된 자료들의 업데이트 여부를 판단하여 업데이트하는 단계를 더 포함하는 웹 자원 아카이빙 방법.8. The method of claim 7,
The web resource archiving method may further include determining and updating the stored data.
상기 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계는, 상기 URL에 속하는 모든 심층 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복되어 수행되는 웹 자원 아카이빙 방법.8. The method of claim 7,
The capturing and storing the web page screen as snapshot data is repeated until the capturing and storing of all the deep web resources belonging to the URL are completed.
상기 스냅샷 자료를 캡쳐하고 저장하는 단계는, 상기 스냅샷 자료를 특정 이미지 포맷으로 변환하여 저장하는 웹 자원 아카이빙 방법.8. The method of claim 7,
The capturing and storing the snapshot data may include converting and storing the snapshot data into a specific image format.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110080176A KR101244357B1 (en) | 2011-08-11 | 2011-08-11 | Apparatus and method for archiving web resource |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110080176A KR101244357B1 (en) | 2011-08-11 | 2011-08-11 | Apparatus and method for archiving web resource |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130017620A true KR20130017620A (en) | 2013-02-20 |
KR101244357B1 KR101244357B1 (en) | 2013-03-18 |
Family
ID=47896757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110080176A KR101244357B1 (en) | 2011-08-11 | 2011-08-11 | Apparatus and method for archiving web resource |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101244357B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9690757B2 (en) | 2014-09-29 | 2017-06-27 | Yandex Europe Ag | Method of and system for processing content of a web resource in a browser application |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101761592B1 (en) * | 2015-12-01 | 2017-07-26 | 주식회사 인프라웨어 | Apparatus and computer program stored in computer readable medium for updating web object inserted in document |
CN109213824B (en) * | 2017-06-29 | 2022-03-04 | 北京京东尚科信息技术有限公司 | Data capture system, method and device |
CN107506425A (en) * | 2017-08-18 | 2017-12-22 | 广东电网有限责任公司信息中心 | A kind of web page files gather archiving method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020083701A (en) * | 2001-04-30 | 2002-11-04 | 이정곤 | Distributed Internet Search System, Methods of Collecting Information and Providing the Information, and Capture Robot Program for Implementing the Same |
JP4808357B2 (en) * | 2002-03-19 | 2011-11-02 | 三菱電機株式会社 | Information collection device |
-
2011
- 2011-08-11 KR KR1020110080176A patent/KR101244357B1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9690757B2 (en) | 2014-09-29 | 2017-06-27 | Yandex Europe Ag | Method of and system for processing content of a web resource in a browser application |
Also Published As
Publication number | Publication date |
---|---|
KR101244357B1 (en) | 2013-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5474038B2 (en) | Mobile site map | |
US7707161B2 (en) | Method and system for creating a concept-object database | |
US6604099B1 (en) | Majority schema in semi-structured data | |
Ahmadi-Abkenari et al. | An architecture for a focused trend parallel Web crawler with the application of clickstream analysis | |
US20070050335A1 (en) | Information searching apparatus and method with mechanism of refining search results | |
US20100114854A1 (en) | Map-based websites searching method and apparatus therefor | |
US6981037B1 (en) | Method and system for using access patterns to improve web site hierarchy and organization | |
US8671108B2 (en) | Methods and systems for detecting website orphan content | |
US20090187516A1 (en) | Search summary result evaluation model methods and systems | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
US7970936B2 (en) | In a world wide web communications network simplifying the uniform resource locators (URLS) displayed in association with received web documents | |
CN110309386B (en) | Method and device for crawling web page | |
KR101244357B1 (en) | Apparatus and method for archiving web resource | |
JP3698242B2 (en) | Information set importance determination system and method, and recording medium recording information set importance determination program | |
US9465814B2 (en) | Annotating search results with images | |
CN106874502A (en) | A kind of method of video search, device and terminal | |
Badawi et al. | Maintaining the search engine freshness using mobile agent | |
JP5200750B2 (en) | Information search apparatus, information search method, program, and recording medium | |
Kausar et al. | Web crawler based on mobile agent and java aglets | |
Mahale et al. | Advanced web crawler for deep web interface using binary vector & page rank | |
JP2004264928A (en) | In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program | |
Thirugnanasambanthan | A new approach to web crawling—dhekts crawler in comparison with various crawlers | |
Kausar et al. | Maintaining the repository of search engine freshness using mobile crawler | |
WO2002044946A1 (en) | Search engine | |
Angelaccio et al. | A Visualisation System for Web local search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160202 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20161228 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20181030 Year of fee payment: 6 |
|
R401 | Registration of restoration | ||
FPAY | Annual fee payment |
Payment date: 20190218 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20200219 Year of fee payment: 8 |
|
R401 | Registration of restoration |