KR101244357B1 - 웹 자원 아카이빙을 위한 장치 및 방법 - Google Patents

웹 자원 아카이빙을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101244357B1
KR101244357B1 KR1020110080176A KR20110080176A KR101244357B1 KR 101244357 B1 KR101244357 B1 KR 101244357B1 KR 1020110080176 A KR1020110080176 A KR 1020110080176A KR 20110080176 A KR20110080176 A KR 20110080176A KR 101244357 B1 KR101244357 B1 KR 101244357B1
Authority
KR
South Korea
Prior art keywords
web
data
snapshot
web document
archiving
Prior art date
Application number
KR1020110080176A
Other languages
English (en)
Other versions
KR20130017620A (ko
Inventor
김광영
이원구
이민호
신성호
윤화묵
성원경
최희윤
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020110080176A priority Critical patent/KR101244357B1/ko
Publication of KR20130017620A publication Critical patent/KR20130017620A/ko
Application granted granted Critical
Publication of KR101244357B1 publication Critical patent/KR101244357B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 웹 자원을 아카이빙하기 위한 방법 및 장치에 관한 것이다.
본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하는 웹 수집 크롤러, 웹 수집 크롤러가 접속했던 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇, 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스, 데이터 베이스에 저장된 상기 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 데이터 베이스로 출력하는 웹 아카이빙 맵퍼, 웹 아카이빙 맵퍼에 맵핑을 지시하고, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함한다.

Description

웹 자원 아카이빙을 위한 장치 및 방법{Apparatus and method for archiving web resource}
본 발명은 웹 자원을 아카이빙하기 위한 방법 및 장치에 관한 것이다. 더욱 상세하게는, 다양한 형식을 갖는 웹 자원들을 원형에 가깝게 보존하기 위해 스냅샷 로봇을 이용하여 웹 자원을 수집하고 저장하는 방법 및 장치에 관한 것이다.
웹 자원은 정보화시대에서 정보 이용자들이 빠르고 손쉽게 접근할 수 있는 중요한 매체이다. 웹 자원은 과학 기술 커뮤니케이션뿐만 아니라 개인 커뮤니케이션, 출판, 학술, 전자 상거래 등 다양한 분야에서 활용되는 중요한 자원들이다.
하지만 이러한 웹 자원들은 주기적 또는 비주기적으로 갱신되거나 소멸 된다. 결과적으로 사용자들은 갱신된 웹 페이지에서 과거에 존재했던 웹 자원을 얻는 것이 불가능하다. 따라서 자료의 지속성이 약한 웹 자원을 수집하고 보존하는 웹 아카이빙의 중요성이 강조된다. 이러한 웹 아카이빙의 관련 연구가 증가하면서, 웹 자원을 수집하기 위한 웹 수집 크롤러(crawler)의 개발이 필요하게 되었다.
웹 자원을 아카이빙하기 위한 도구는 크롤러 또는 하베스터(havester)라고 불린다. 초기 형태의 크롤러는 일반적인 색인 로봇을 바탕으로 설계되었으나 이후 웹 자원 아카이빙을 위한 전용 크롤러로 NEDLIB(Networked European Deposit Library)에서 개발된 NEDLIB 하베스터가 있다. 이는 유럽을 중심으로 다수의 국가 도서관에서 이용되었다. 이후에는 개발된 것으로는 인터넷 아카이브(Internet Archive)의 Heritrix와 웹사이트를 한꺼번에 저장할 수 있는 HTTrack이 있다. 이후 다양한 목적에 의해 DeepArc, PageVault, WGet 등의 웹 수집 크롤러가 개발되었다.
표준 HTML 링크로 연결된 텍스트 위주의 정적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해서 쉽게 구현된다. 그러나 꾸준히 증가하고 있는 자바스크립트나 플래시 등의 스크립트나 플러그-인 기법을 사용하는 동적인 웹 페이지로 구성된 웹 자원을 수집하는 일은 기존의 웹 수집 크롤러에 의해 불가능한 경우가 많다. 스크립트 실행의 결과는 웹 브라우저의 종류에 따라 달라지기 때문에 자바스크립트를 채용하는 웹 페이지는 성공적으로 수집되기가 어렵다. 플래시 역시 플러그인을 사용할 뿐만 아니라 상용포맷이기 때문에 이를 포함한 웹 자원 수집은 쉽지 않다.
도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다.
일반적인 웹 페이지 화면은 단순 텍스트(1010)뿐만 아니라 정적 이미지(1020) 및 스크립트 등을 이용한 동적 이미지(1030)를 포함하여 구성된다.
단순 텍스트(1010) 및 정적 이미지(1020)는 기존의 웹 수집 크롤러에 의해 손상없이 원형 그대로 수집, 저장된다. 사용자가 저장된 웹 아카이브 자료를 검색하여 해당 웹 페이지를 복원시키는 경우에도 단순 텍스트와 정적 이미지는 수집된 시점과 동일하게 복원이 가능하다.
하지만, 스크립트나 플러그인을 이용한 동적 이미지(1030)는 기존 웹 수집 크롤러가 수집하여 저장하는 경우, 원형 그대로 저장되지 않는다. 동적 이미지는 관련 스크립트나 플러그인이 함께 저장되고 실행되어야만 완벽하게 원형이 복원 가능하기 때문이다. 따라서 이를 지원하지 않는 기존 웹 수집 크롤러가 해당 웹 페이지를 수집, 저장했다 하더라도, 사용자가 웹 아카이브 자료를 이용하여 해당 웹 페이지를 방문하면 동적 이미지 영역은 복원되지 않고 웹 페이지 화면상에 빈 공간으로 표현된다.
또한 내부 데이터베이스를 기반으로 하는 웹 페이지에 대한 웹 수집 크롤러의 웹 자원 수집도 대부분 불가능한 경우가 많다. 내부 데이터베이스를 이용한 웹 페이지의 경우, 웹 자원을 수집해서 복원을 한다 하여도 일부 자원이 수집되지 못해 그 내용을 알 수 없는 경우가 많기 때문이다.
이에 더하여 웹 공간에는 검색엔진을 통해서 자유롭게 접근할 수 있는 표면 웹(surface web)만 있는 것이 아니라 일반적인 검색엔진에 의해 색인되지 않는 심층 웹(deep web)이 함께 존재한다. 심층 웹은 웹 수집 크롤러 자체의 기술적 한계에 의해서 발생하기도 하고, 웹 페이지 인증 과정이 필요한 경우에도 발생한다.
웹 사이트 운영자가 로봇배제 프로토콜을 사용하여 웹 사이트에 robot.txt 파일을 심어놓은 경우에도 로봇에 의한 웹 페이지 접근이 거부되기 때문에 웹 수집 크롤러에 의한 수집이 불가능하다.
이와 같이 현재의 웹 자원 아카이빙을 위한 다양한 도구들이 있지만, 스크립트와 플러그인 형태의 자원 및 다른 이유로 인해 웹 자원을 완벽하게 수집하기는 어렵다. 또한 표면 웹에 비해 심층 웹 자원을 수집하는 것은 더 많은 시간과 어려움이 따른다. 결과적으로 웹 자원 아카이빙을 수행했다 하더라도 사용자에게 완벽한 웹 페이지를 복원하여 제시하지 못하는 문제점이 발생한다.
본 발명은 위와 같은 문제점을 해결하기 위한 것으로써, 본 발명이 이루고자 하는 기술적 과제는 웹 아카이빙 장치 및 방법에서, 전술한 문제점을 겪지 않으면서, 웹 자원을 효과적으로 수집하여 웹 페이지를 복원 가능하도록 하는 것이다.
전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하는 웹 수집 크롤러, 웹 수집 크롤러가 접속했던 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇, 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료들을 저장하는 데이터 베이스, 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 데이터 베이스로 출력하는 웹 아카이빙 맵퍼, 웹 아카이빙 맵퍼에 맵핑을 지시하고, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 웹 아카이빙 관리부를 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 수집 크롤러가 접속했던 URL을 저장하고, 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 URL 매니저를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 계층적 구조를 활용하여 웹 자원을 브라우징하는 웹 아카이빙 브라우저를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 웹 아카이빙 업데이트부를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 웹 스냅샷 로봇이 해당 URL에 속하는 모든 심층 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 장치는 캡쳐 자료를 저장하는 데이터 베이스가 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.
전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 URL(Uniform Resource Locator)에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 저장하는 단계, 위의 URL에 접속하여 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계, 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하고 저장하는 단계, 맵핑된 자료들을 계층적으로 연결(link)시켜 연결된 웹 자료를 제공하는 단계를 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 FIFO(First In First Out) 방식으로 관리하는 단계를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 계층적 구조를 활용하여 저장된 웹 자원을 브라우징하는 단계를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 수집 및 저장된 자료들의 업데이트 여부를 판단하여 업데이트를 요청하는 단계를 더 포함한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법은 웹페이지 화면을 스냅샷 자료로 캡쳐하고 저장하는 단계를 해당 URL에 속하는 모든 심층 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복하여 수행한다.
또한, 본 발명의 일 실시예에 따른 웹 자원 아카이빙 방법에서 캡쳐 자료를 데이터 베이스에 저장하는 단계는 캡쳐된 자료를 특정 이미지 포맷으로 변환하여 저장한다.
본 발명에 따른 웹 자원 아카이빙을 위한 방법 및 장치는 다음과 같은 효과를 가지고 있다.
본 발명의 일 실시예에 따르면, 텍스트 위주의 정적인 웹 페이지뿐만 아니라 스크립트, 플러그-인을 활용한 동적인 웹 페이지에 대해서도 웹 자원의 누락 없이 아카이빙하는 효과가 있다.
본 발명의 일 실시예에 따르면, 텍스트 검색에 의해 관련 웹페이지의 스냅샷 자료를 검색하는 효과가 있다.
본 발명의 일 실시예에 따르면, 웹 페이지에 대한 스냅샷 자료를 계층적으로 브라우징하는 효과가 있다.
도 1은 일반적인 웹 페이지 화면의 구성요소들을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 1 브라우징 화면을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 제 2 브라우징 화면을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
본 발명에 의한 웹 자원 아카이빙 장치는 웹 페이지를 방문하여 해당 웹 페이지에 포함된 구성 요소인 웹 문서 자료, 링크 파일 자료와 웹 페이지를 캡쳐한 스냅샷 자료를 저장한다. 또한 저장된 자료들을 맵핑하고 웹 계층적 구조로 구조화하여 이를 브라우징함으로써 웹 아카이브 자료 사용자에게 제공한다.
도 2는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 주요 블록을 나타낸 도면이다.
도 2의 웹 자원 아카이빙 장치는 웹 수집 크롤러(2010), URL 매니저(2020), 웹 스냅샷 로봇(2030), 데이터 베이스(2040), 웹 아카이빙 관리부(2050), 웹 아카이빙 맵퍼(2060), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)을 포함할 수 있다.
여기서, URL 매니저(2020), 웹 아카이빙 브라우저(2070) 및 웹 아카이빙 업데이트부(2080)는 필수적 구성요소가 아니며, 실시예에 따라 배제될 수 있다.
웹 수집 크롤러(2010)는 웹 페이지를 접속하여 해당 웹 페이지의 단순 텍스트, 이미지 등으로 구성된 웹 문서 자료 및 링크 파일 자료를 수집할 수 있다. 이 때, 웹 페이지는 링크로 연결된 복수 개의 하위 웹 페이지를 포함하고 있으며 웹 수집 크롤러(2010)는 이러한 하위 웹 페이지에 포함된 웹 문서 자료와 링크 파일 자료도 수집할 수 있다.
URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리할 수 있다. URL 매니저(2020)는 웹 수집 크롤러(2010)가 방문했던 웹 페이지의 URL을 관리하여 웹 스냅샷 로봇(2030)이 동일한 웹페이지를 중복하여 방문하는 것을 막는다. 또한 등록된 URL에 대해 FIFO(First-in-First-out) 방식으로 스냅샷 자료 수집의 대상이 되는 웹 페이지를 선정할 수 있다.
웹 스냅샷 로봇(2030)은 웹 수집 크롤러가 접속했던 웹 페이지를 다시 방문하여 웹 페이지의 화면을 스냅샷 자료로 캡쳐할 수 있다. 또는 URL 매니저 참조해서 해당 웹 페이지를 접속하고 웹 페이지 화면을 스냅샷 자료로 캡쳐할 수 있다. 웹 페이지 화면에 대한 캡쳐는 웹 수집 크롤러(2010)의 자료 수집과 마찬가지로 메인 페이지에 연결된 복수 개의 하위 웹 페이지에 대해서도 수행되며 모든 하위 웹 페이지에 대해 캡쳐 작업을 수행하여 스냅샷 자료를 생성한다.
웹 스냅샷 로봇(2030)의 스냅샷 자료 생성은 각 웹 페이지의 화면을 그대로 캡쳐하는 작업이므로 웹 페이지의 모든 구성요소에 대한 수집이 가능하다. 즉, 추가적으로 스크립트나 플러그인 프로그램을 함께 수집할 필요가 없으므로, 자바 스크립트나 플래시에 의한 구성 요소인 경우에도 스냅샷 자료에 그대로 반영될 수 있다.
또한 로봇배제 프로토콜에 의해 로봇에 의한 웹 자원 아카이빙이 금지된 웹 페이지인 경우에도 웹 스냅샷 로봇은 웹 자원을 수집하는 것이 아니라, 해당 웹 페이지에 접속하여 캡쳐 작업만을 수행하는 것이므로 웹 자원 아카이빙이 가능하다.
웹 스냅샷 로봇(2030)에 의해 생성된 스냅샷 자료는 특정 이미지 포맷으로 변환되어 아래에 설명할 데이터 베이스(2040)에 저장될 수 있다. 이미지 포맷은 예를 들어 JPG, GIF, PNG, BMP, TIFF 등을 사용할 수 있다.
데이터 베이스(2040)는 웹 수집 크롤러(2010)에 의해 수집된 웹 문서 자료 및 링크 파일 자료, 웹 스냅샷 로봇(2030)에 의해 캡쳐된 스냅샷 자료를 저장할 수 있다. 또한 아래에서 설명할 웹 아카이빙 관리부(2050)나 웹 아카이빙 맵퍼(2060)에서 출력되는 결과물들을 입력받아 저장할 수 있다.
웹 아카이빙 관리부(2050)는 데이터 베이스(2040)에 저장된 자료들을 관리할 수 있다. 저장된 웹 페이지를 수정 또는 삭제할 수 있고, 저장된 자료들에 대한 통계를 도출하거나 자료가 수집된 웹 페이지에 대한 모니터링을 수행할 수 있다. 또한 데이터 베이스(2040)에 저장된 자료들에 대한 검색 서비스를 일반 사용자들에게 제공하며 이를 위해 자료에 대한 색인 작업을 수행할 수 있다.
또한, 웹 아카이빙 관리부(2050)는 아래의 웹 아카이빙 맵퍼(2060)에 의해 맵핑된 자료들에 대한 구조화 작업을 수행할 수 있다. 일반적으로 웹 페이지는 링크로 연결된 복수의 하위 웹 페이지를 포함하기 때문에 계층적 구조를 갖는다. 따라서 웹 아카이빙 관리부(2050)는 웹 페이지를 원형과 유사하게 보존하기 위해 저장된 웹 자료들을 계층적으로 연결(link)시켜 상기 연결된 웹 자료를 제공할 수 있다.
웹 아카이빙 맵퍼(2060)는 데이터 베이스(2040)에 저장된 자료들에 대한 맵핑 작업을 수행할 수 있다. 웹 아카이빙 맵퍼(2060)는 웹 수집 크롤러(2010)에 의해 수집되어 저장된 웹 문서 자료 및 링크파일 자료와 웹 스냅샷 로봇(2030)에 의해 수집된 스냅샷 자료를 URL을 근거로 상호 맵핑한다. 이 작업에 의해 동일 URL로부터 수집되거나 생성된 자료들은 사용자에 의한 자료 검색 결과를 브라우징함에 있어 함께 결과 화면에 도출될 수 있다.
스냅샷 자료들은 해당 이미지 내에 텍스트를 포함하고 있더라도, 이는 텍스트가 아닌 이미지에 불과하다. 따라서 사용자가 이미지 내의 키워드로 검색하여도 검색 결과에 도출되는 것이 불가능하다. 따라서 웹 아카이빙 맵퍼(2060)는 동일 URL에서 수집된 텍스트 및 웹 문서 자료와 상호 맵핑을 함으로써 스냅샷 자료들에 대한 키워드 검색이 가능해 진다.
웹 아카이빙 브라우저(2070)는 사용자에게 웹 아카이브 자료를 브라우징할 수 있다. 즉, 사용자가 원하는 검색어를 입력하면 웹 아카이빙 관리부(2050)를 통해 데이터 베이스(2040)에 저장된 웹 아카이브 자료를 탐색하여 그 결과를 사용자에게 보여주는 기능을 한다. 웹 아카이빙 브라우저(2070)는 웹 아카이빙 관리부(2050)에 의해 계층적으로 연결(link)된 웹 자료들을 표시하며 선택된 웹 페이지의 하위 웹 페이지를 함께 표시한다. 이를 통해 사용자는 상위 웹 페이지로부터 하위 웹 페이지로 이동하여 자료를 검색하는 것이 가능하다.
웹 아카이빙 업데이트부(2080)는 웹 아카이빙 관리부(2050)의 웹 페이지 모니터링 명령을 입력받아 저장된 웹 아카이브 자료들에 대한 갱신 여부를 확인하고, 자료들의 갱신이 확인되면 웹 수집 크롤러에 웹 자원 수집 명령을 지시할 수 있다. 저장된 웹 아카이브 자료들에 대한 갱신 여부 확인은 주기적으로 또는 비주기적으로 수행한다.
도 3은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치의 수집된 자료에 대한 맵핑 동작을 나타낸 도면이다.
맵핑 동작에는 웹 아카이빙 맵퍼(3010)와 데이터 베이스(3020)가 관여할 수 있다.웹 수집 크롤러에 의해 저장된 자료는 웹 페이지의 URL, 컨텐트 자료 및 첨부파일 자료이다. 웹 스냅샷 로봇에 의해 저장된 자료는 URL 및 스냅샷 자료이다. 이렇게 저장된 자료들에 대해 웹 아카이빙 맵퍼(3010)에 의해 맵핑 작업이 수행된다. 위와 같이 웹 수집 크롤러에 의해 수집된 자료들과 웹 스냅샷 로봇에 의해 수집된 자료들은 모두 URL 정보와 함께 저장되므로 맵핑 작업은 URL 정보를 기준으로 하여 수행된다. 이러한 맵핑 작업에 의해 동일 URL에서 수집 또는 생성되어 저장된 자료들간 연관 관계가 정의된다.
웹 아카이빙 맵퍼(3010)는 맵핑 작업을 수행한 후, 상호 맵핑된 자료들을 다시 데이터 베이스(3020)에 저장한다. 이로써 사용자에 의한 웹 아카이브 자료 검색 시 사용자가 해당 웹페이지에 속한 텍스트를 검색한 경우에도 텍스트가 속한 웹 페이지의 스냅샷 자료를 검색 결과로 출력하는 것이 가능하다.
도 4는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 웹 계층적 구조화된 자료를 나타낸 도면이다.
위에서 언급한 웹 아카이빙 맵퍼에 의해 상호 맵핑되어 데이터 베이스에 저장된 자료들은 웹 아카이빙 관리부에 의해 계층적으로 연결(link)된다. 도 4에서 site depth는 웹 계층의 레벨을 의미한다. 레벨 1은 상위 웹 페이지를 의미하고, 레벨 2에서 레벨 n으로 레벨이 증가함에 따라 하위 웹 페이지를 의미한다.
각 레벨에는 동일 웹 계층에 포함되는 html 자료(4010, 4020, 4030)가 존재하고 이들은 동일 웹 계층에 속하므로 상호 연결되어 있지 않다. html 자료(4010)는 스냅샷 자료(4011)와 연결되어 있으며 이는 웹 아카이빙 맵퍼에 의해 자료 간 상호 맵핑 되었음을 의미한다. 레벨 1의 html 자료(4010)는 레벨 2의 html 자료 두 개(4040, 4050)와 연결되어 있으며 다시 레벨 2의 html 자료는 다음 레벨의 html 자료(4050, 4060)와 연결되어 있다.
따라서 웹 계층적 구조화된 자료에 의해 사용자는 상위 웹 페이지에 해당하는 레벨 1에 속한 html 자료(4010)로부터 하위 웹 페이지에 해당하는 레벨 2 이상의 html 자료(4040, 4050)로 연결된 웹 페이지를 계속하여 탐색하는 것이 가능하다. 이와 같은 웹 계층적 구조화를 통해 사용자는 웹 아카이브 자료를 실제 웹페이지에 접속한 것과 같이 검색하는 것이 가능하다.
도 5는 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 1에 대한 브라우징 화면을 나타낸 도면이다.
브라우징 화면 상단에는 검색을 위한 공란(5010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(5020)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(5030)으로 표현한다.
예를 들어 사용자가 도면과 같이 KoreanScience를 검색어로 입력하면 검색란(5010) 아래에 이에 대한 결과 화면으로 웹 계층(site depth) 레벨 1에서의 스냅샷-썸네일 포맷의 검색 결과(5020)임을 표시한다. 웹 자원 아카이빙 장치는 KoreanScience와 상호 맵핑된 스냅샷 자료를 검색하고, 검색이 완료되면 브라우징 화면 하단에 검색된 스냅샷 자료를 스냅샷-썸네일 포맷의 이미지(5030)로 나열하여 검색 결과를 표시한다.
사용자는 검색 결과 이미지를 클릭하여 해당 웹 페이지의 원본 스냅샷 자료를 확인하는 것이 가능하다.
도 6은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 장치에 의해 제공되는 웹 아카이브 자료에 대한 웹 계층 2에 브라우징 화면을 나타낸 도면이다.
브라우징 화면 상단에는 검색을 위한 공란(6010)과 검색 버튼이 존재한다. 검색란 아래에는 현재 웹 계층보다 한 단계 상위의 웹페이지에 대한 원본 스냅샷 자료를 표시한다. 즉, 현재 검색 계층보다 상위 계층의 스냅샷 이미지 중 클릭에 의해 선택된 스냅샷 이미지(6020)를 확대하여 디스플레이한다. 그 아래에는 현재 웹 계층의 레벨과 검색 결과 포맷을 나타내는 텍스트(6030)가 표시된다. 브라우징 화면 하단에는 위의 검색어에 대한 검색 결과를 스냅샷-썸네일 포맷(6040)으로 표현한다.
예를 들어, 사용자가 도 5의 검색 결과 이미지 중 하나를 클릭하면 검색란 아래에 클릭된 이미지의 원본 스냅샷 자료(6020)가 표시된다. 또한 웹 계층 레벨은 원본 스냅샷 자료가 표시하는 웹 페이지의 하위 웹 페이지들의 레벨인 레벨 2로 변경된다(6030). 브라우징 화면 하단에는 표시된 원본 스냅샷 자료의 웹 페이지에 대한 하위 웹 페이지들이 스냅샷-썸네일 포맷의 이미지(6040)로 표시된다.
이러한 방식으로 웹 자원 아카이빙 장치를 사용하는 자는 하위 스냅샷-썸네일 포맷을 클릭하여 하위 웹 페이지에 대한 상세 검색을 연속적으로 진행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 웹 자원을 아카이빙하는 방법을 나타낸 순서도이다.
웹 수집 크롤러는 URL에 접속하여 웹 문서 자료 및 링크 파일 자료를 수집하고 데이터 베이스에 저장한다(S7010).
이 때 웹 수집 크롤러는 해당 URL의 웹페이지에 연결된 하위 웹페이지에 대한 웹 자원도 함께 수집하고 저장할 수 있다. 자료의 저장시에는 위에서 언급한 자료들과 해당 웹 페이지의 URL을 함께 저장할 수 있다.
웹 스냅샷 로봇은 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 페이지 화면을 스냅샷 자료로 캡쳐하고 데이터 베이스에 저장한다(S7020).
웹 스냅샷 로봇이 접속하는 URL은 웹 수집 크롤러가 접속했던 URL을 그대로 따라 접속하는 방법을 사용할 수 있다. 웹 스냅샷 로봇은 웹 수집 크롤러가 접속하여 웹 자원 즉, 웹 문서 자료 및 링크 파일 자료를 수집한 URL의 웹 페이지를 다시 접속하여 해당 웹 페이지를 스냅샷 자료로 캡쳐하고 저장한다. 스냅샷 자료를 저장할 때는 해당 웹 페이지의 URL을 함께 저장한다.
위의 설명과 다른 실시예로, URL 매니저가 웹 수집 크롤러의 접속 URL을 등록하고 중복되지 않도록 FIFO 방식으로 웹 스냅샷 로봇에게 접속할 URL을 알려주는 방법도 가능하다. 다만 이는 웹 자원 아카이빙 방법의 필수적인 단계는 아니다.
웹 아카이빙 맵퍼는 웹 아카이빙 관리부의 지시를 받아 데이터 베이스에 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 URL 기준으로 상호 맵핑한다(S7030).
웹 자원의 저장시 그 출처인 URL을 함께 저장하기 때문에 자료들 간의 상호 맵핑은 URL을 기준으로 이루어진다. 동일 URL로부터 저장된 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료는 상호 맵핑된다. 이렇게 맵핑된 자료들은 그 중 일부가 검색 결과에 포함되는 경우 함께 검색 결과로 표시되어 웹 아카이브 자료를 이용하는 사용자에게 제공된다.
스냅샷 자료들은 해당 이미지 내에 포함하고 있는 텍스트를 키워드로 검색하여도 검색이 불가능하기 때문에 해당 웹페이지에서 수집된 다른 자료들과 상호 맵핑을 함으로써 키워드에 의한 검색이 가능해 진다.
웹 아카이빙 관리부 상호 맵핑된 자료들을 웹 계층적 구조로 구조화하고 데이터 베이스에 저장한다(S7040).
웹 페이지는 웹 계층적 구조를 가지고 있기 때문에 웹 아카이브 자료에 대해서도 웹 계층적 구조로 구조화하는 작업이 필요하다. 웹 계층적 구조화 작업은 단순히 저장되어 분산되어 있는 자료들을 상하위 웹 페이지로 연결한다. 이로써 웹 아카이브 자료를 이용하는 사용자에게 실제 웹 페이지를 방문한 것과 유사하게 웹 계층적 연결 자료를 제공한다.
웹 아카이빙 브라우저는 데이터 베이스에 저장된 웹 계층적 구조의 자료를 화면에 표시한다(S7050).
웹 아카이빙 브라우저는 검색 결과를 복수의 스냅샷-썸네일 이미지로 표시하고 이와 함께 웹 계층 정보인 레벨 정보를 함께 표시한다. 이로써 사용자는 자신이 검색한 키워드에 대한 검색자료가 속하는 웹 계층 레벨을 확인할 수 있다.
사용자는 복수의 스냅샷-썸네일 이미지를 클릭하여 원본 스냅샷 자료를 확인하는 것이 가능하다. 또한 웹 아카이빙 브라우저는 클릭된 스냅샷-썸네일 이미지에 해당하는 웹 페이지와 연결된 하위 웹 페이지에 대한 스냅샷-썸네일 이미지를 표시한다. 이를 통해 사용자는 연결된 웹 페이지에 대한 웹 아카이브 자료를 연속적으로 확인할 수 있다.
웹 아카이빙 업데이트부는 저장된 자료의 업데이트 여부를 확인하여 자료를 업데이트한다(S7060).
웹 자원은 주기적 또는 비주기적으로 업데이트 되므로 웹 아카이빙 업데이트부는 이를 확인하여 저장된 자료를 업데이트 하도록 한다. 웹 아카이빙 업데이트부는 저장된 자료의 업데이트가 확인되면 위의 웹 문서 자료, 링크 파일 자료 및 스냅샷 자료를 다시 수집하고 저장하도록 웹 수집 크롤러에게 지시한다. 이후 웹 자원 아카이빙 장치는 S7010~S7040의 단계를 반복 실행하여 저장된 자료들에 대한 업데이트를 수행한다.
이상과 같이 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도면의 주요 부분에 대한 부호의 설명은 다음과 같다.
2010: 웹 수집 크롤러 2020: URL 매니저
2030: 웹 스냅샷 로봇 2040: 데이터 베이스
2050: 웹 아카이빙 관리부 2060: 웹 아카이빙 맵퍼
2070: 웹 아카이빙 브라우저 2080: 웹 아카이빙 업데이트부

Claims (12)

  1. Uniform Resource Locator(URL)에 접속하여 웹 문서 자료 및 상기 웹 문서 자료에 링크된 웹 문서 자료를 수집하는 웹 수집 크롤러;
    상기 웹 수집 크롤러가 접속했던 URL에 접속하여 웹 문서 자료의 화면을 스냅샷 자료로 캡쳐하는 웹 스냅샷 로봇;
    상기 웹 문서 자료, 상기 웹 문서 자료에 링크된 웹 문서 자료 및 상기 스냅샷 자료들을 저장하는 데이터 베이스;
    상기 데이터 베이스에 저장된 상기 웹 문서 자료, 상기 웹 문서 자료에 링크된 웹 문서 자료 및 상기 스냅샷 자료 중 동일 URL에 해당하는 자료들을 상호 맵핑하여 상기 데이터 베이스로 출력하는 웹 아카이빙 맵퍼;
    상기 웹 아카이빙 맵퍼에 맵핑을 지시하고, 상기 맵핑된 자료들을 계층적으로 연결(link)시켜 계층적으로 구조화된 웹 계층 구조자료를 제공하는 웹 아카이빙 관리부;
    상기 웹 문서 자료 또는 상기 웹 문서 자료에 링크된 웹 문서 자료가 업데이트된 경우, 상기 업데이트된 자료들의 스냅샷 자료들을 상기 웹 스냅샷 로봇에 요청하는 웹 아카이빙 업데이트부;
    상기 웹 문서 자료, 상기 웹 문서 자료에 링크된 웹 문서 자료 및 링크 계층의 레벨정보를 브라우징하여, 상기 웹 계층 구조자료를 표출하도록 하는 웹 아카이빙 브라우저;를 포함하고,
    상기 웹 아카이빙 브라우저는,
    제 1 계층의 웹 문서 자료의 스냅샷 자료와, 상기 제 1 계층의 웹 문서 자료와 링크된 제 2 계층의 웹 문서 자료들의 썸네일 이미지들을 표출하도록 하고,
    상기 썸네일 이미지들 중 어느 하나의 썸네일 이미지가 선택된 경우,
    상기 선택된 썸네일 이미지와 관련된 상기 제 2 계층의 웹 문서 자료의 스냅샷 자료와, 상기 제 2 계층의 웹 문서 자료와 링크된 제 3 계층의 웹 문서 자료들의 썸네일 이미지들을 표출하도록 하는, 웹 자원 아카이빙 장치.
  2. 제 1항에 있어서,
    상기 웹 자원 아카이빙 장치는, 상기 웹 수집 크롤러가 접속했던 URL을 저장하고, 상기 웹 스냅샷 로봇이 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 URL 매니저를 더 포함하는 웹 자원 아카이빙 장치.
  3. 삭제
  4. 삭제
  5. 제 1항에 있어서,
    상기 웹 스냅샷 로봇은, 상기 URL에 속하는 모든 계층의 웹 자원에 대한 스냅샷 자료가 생성되도록 반복하여 웹 페이지 화면을 캡쳐하는 웹 자원 아카이빙 장치.
  6. 제 1항에 있어서,
    상기 웹 스냅샷 로봇은, 상기 스냅샷 자료들을 특정 이미지 포맷으로 변환하여 상기 데이터 베이스에 저장하는 웹 자원 아카이빙 장치.
  7. Uniform Resource Locator(URL)에 접속하여 웹 문서 자료 및 상기 웹 문서 자료에 링크된 웹 문서 자료를 수집하고, 상기 수집한 웹 문서 자료와 상기 웹 문서 자료에 링크된 웹 문서 자료들을 캡쳐한 스냅샷 자료들을 생성하는 단계;
    상기 웹 문서 자료, 상기 웹 문서 자료에 링크된 웹 문서 자료, 상기 스냅샷 자료들을 동일 URL에 해당하는 자료들을 상호 맵핑하고, 상기 URL의 상기 웹 문서 자료 또는 상기 링크된 웹 문서 자료가 업데이트된 경우, 상기 업데이트된 자료들의 스냅샷 자료들 중 동일 URL에 해당하는 자료들을 상호 맵핑하고, 상기 맵핑된 자료들을 저장하는 단계;
    사용자의 요청에 따라 상기 맵핑된 자료들을 브라우징하고, 상기 브라우징된 결과를 계층적으로 구조화된 웹 계층 구조자료로 표출하도록 하는 단계;를 포함하고,
    여기서, 상기 계층적으로 구조화된 웹 계층 구조자료는,
    제 1 계층의 웹 문서 자료의 스냅샷 자료와, 상기 제 1 계층의 웹 문서 자료와 링크된 제 2 계층의 웹 문서 자료들의 썸네일 이미지들을 포함하고,
    상기 썸네일 이미지들 중 어느 하나의 썸네일 이미지가 선택된 경우,
    상기 선택된 썸네일 이미지와 관련된 상기 제 2 계층의 웹 문서 자료의 스냅샷 자료와, 상기 제 2 계층의 웹 문서 자료와 링크된 제 3 계층의 웹 문서 자료들의 썸네일 이미지들을 포함하는, 웹 자원 아카이빙 방법.
  8. 제 7항에 있어서,
    상기 웹 자원 아카이빙 방법은, 상기 접속했던 URL을 저장하여 스냅샷 자료로 캡쳐하기 위해 접속할 URL이 중복되지 않도록 First-In-First-Out(FIFO) 방식으로 관리하는 단계를 더 포함하는 웹 자원 아카이빙 방법.
  9. 삭제
  10. 삭제
  11. 제 7항에 있어서,
    상기 맵핑된 자료들을 저장하는 단계는, 상기 URL에 속하는 모든 계층의 웹 자원에 대한 캡쳐 및 저장이 완료되도록 반복되어 수행되는 웹 자원 아카이빙 방법.
  12. 제 7항에 있어서,
    상기 맵핑된 자료들을 저장하는 단계는, 상기 스냅샷 자료들을 특정 이미지 포맷으로 변환하여 저장하는 웹 자원 아카이빙 방법.
KR1020110080176A 2011-08-11 2011-08-11 웹 자원 아카이빙을 위한 장치 및 방법 KR101244357B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110080176A KR101244357B1 (ko) 2011-08-11 2011-08-11 웹 자원 아카이빙을 위한 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110080176A KR101244357B1 (ko) 2011-08-11 2011-08-11 웹 자원 아카이빙을 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130017620A KR20130017620A (ko) 2013-02-20
KR101244357B1 true KR101244357B1 (ko) 2013-03-18

Family

ID=47896757

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110080176A KR101244357B1 (ko) 2011-08-11 2011-08-11 웹 자원 아카이빙을 위한 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101244357B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101761592B1 (ko) * 2015-12-01 2017-07-26 주식회사 인프라웨어 문서 내에 삽입된 웹 객체를 업데이트 할 수 있는 프로그램 및 장치
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法
CN109213824A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 数据抓取系统、方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2595524C2 (ru) 2014-09-29 2016-08-27 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ обработки содержимого веб-ресурса в браузере

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020083701A (ko) * 2001-04-30 2002-11-04 이정곤 분산형 인터넷 검색 시스템, 정보 수집 방법, 검색 서비스제공 방법 및 이를 구현하기 위한 캡쳐 로봇 프로그램
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020083701A (ko) * 2001-04-30 2002-11-04 이정곤 분산형 인터넷 검색 시스템, 정보 수집 방법, 검색 서비스제공 방법 및 이를 구현하기 위한 캡쳐 로봇 프로그램
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101761592B1 (ko) * 2015-12-01 2017-07-26 주식회사 인프라웨어 문서 내에 삽입된 웹 객체를 업데이트 할 수 있는 프로그램 및 장치
CN109213824A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 数据抓取系统、方法和装置
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法

Also Published As

Publication number Publication date
KR20130017620A (ko) 2013-02-20

Similar Documents

Publication Publication Date Title
JP5474038B2 (ja) モバイルサイトマップ
US8060538B2 (en) Method and system for creating a concept-object database
US6604099B1 (en) Majority schema in semi-structured data
US9183220B2 (en) Hierarchical structured data organization system
US20100114854A1 (en) Map-based websites searching method and apparatus therefor
US8671108B2 (en) Methods and systems for detecting website orphan content
US20170337251A1 (en) Systems and methods for graphical exploration of forensic data
US20090187516A1 (en) Search summary result evaluation model methods and systems
KR101244357B1 (ko) 웹 자원 아카이빙을 위한 장치 및 방법
KR20150125442A (ko) 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
JP3698242B2 (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
US9465814B2 (en) Annotating search results with images
CN103246726A (zh) 一种网络信息的搜索方法、装置和系统
CN106874502A (zh) 一种视频搜索的方法、装置及终端
US8843488B1 (en) Nested display of contextual search results
JP2009075908A (ja) ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム
Thirugnanasambanthan A new approach to web crawling—dhekts crawler in comparison with various crawlers
JP2004264928A (ja) Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体
US20130036131A1 (en) File Object Browsing and Searching Across Different Domains
Rezel et al. SWE-FE: extending folksonomies to the sensor web
Kausar et al. Maintaining the repository of search engine freshness using mobile crawler
US20160103848A1 (en) Collaborative and personalized storage and search in hierarchical abstract data organization systems
Angelaccio et al. A Visualisation System for Web local search
Gibotti et al. GeoDiscover-A Specialized Search Engine to Discover Geospatial Data in the Web.
Takahashi et al. Metadata management for integration and analysis of earth observation data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 6

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20190218

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200219

Year of fee payment: 8

R401 Registration of restoration