KR20080061501A

KR20080061501A - 웹 페이지 관리를 위한 웹 아카이브 시스템 및 방법

Info

Publication number: KR20080061501A
Application number: KR1020060136316A
Authority: KR
Inventors: 최의인; 장창복; 조성훈; 이무훈
Original assignee: 학교법인 대전기독학원; 최의인
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2008-07-03
Also published as: KR100870144B1

Abstract

본 발명은 Stanford WebBase Project에 기반을 두고, 시스템의 레포지토리(Repository)에서 삭제되어지는 웹 페이지들을 수집하여 버전을 통해 저장할 수 있는 VAS(Version Control System)와 VCS(Version Assignment System)를 포함하고 있는 웹 아카이브(Web Archive) 시스템에 관한 것이다.

본 발명에 따르면 기존의 웹 아카이브 시스템보다 히스토리 페이지를 체계적이고 효율적으로 저장/관리 할 수 있고, 저장된 히스토리 페이지들 간에 버전 관리를 수행함으로써 연관관계를 생성할 수 있으며, RCS를 적용하여 페이지 버전의 변화값만을 저장함으로써 저장공간의 낭비를 줄이고 보다 효율적으로 History Storage를 운영할 수 있고, 나아가 무작위로 삭제되어지는 웹 정보를 지속적으로 공유할 수 있다.

웹 검색 엔진, 웹 아카이브 시스템, RCS, WebBase, 웹 페이지

Description

웹 페이지 관리를 위한 웹 아카이브 시스템 및 방법{WEB HISTORY ARCHIVE SYSTEM AND METHOD FOR WEB PAGES MANAGEMENT}

도 1은 본 발명이 웹 검색 엔진과 연동되어 웹 히스토리 페이지가 처리되는 개략적인 구성도.

도 2은 웹 히스토리 페이지를 저장하는 처리 절차와 세부 모듈.

도 2a는 NIT의 구조.

도 3은 본 발명에 따른 웹 페이지를 저장하는 과정을 나타낸 흐름도.

도 4는 Check-out/in 과정을 수행하는 단계를 나타낸 흐름도.

도 5는 RCS를 이용하여 히스토리 페이지들을 처리하는 과정.

** 도면의 주요 부분에 대한 부호의 설명 **

10...웹 페이지 20...Crawler

30...Storage Manager 40...Storage

100...웹 아카이브 시스템

110...VCS 120...VAS

121...RCS 130...History Storage

131...NIT

본 발명은 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써, 삭제되어지는 중요한 웹 정보 효율적으로 공유할 수 있는 웹 히스토리 아카이브 시스템에 관한 것이다.

웹은 인터넷이라는 하부구조를 기반으로 급속한 성장을 이루어왔으며, 규모나 사용자의 의존도 측면에서 실생활에서 없어서는 안 될 중요한 정보원으로 자리 잡았다. 따라서 웹 정보에 대한 효율적인 관리의 필요성이 대두되었고, 이를 위해 다양한 연구 활동이 시작되었다. 특히, 효율적이고 정확한 웹 정보를 제공하기 위한 많은 노력을 기울여 왔으나, 중요한 웹 정보의 보존에 대한 연구는 미비한 상태이다. 뿐만 아니라 기존에 중요한 정보원으로 활용되었던 웹 페이지들이 그 중요도와 상관없이 소멸되어져가고 있는 실정이다. 따라서 이렇게 소멸되어져가는 중요한 정보들을 수집/보존하기 위해서는 효율적인 저장 기법에 대한 연구와 이를 토대로 하는 웹 아카이브 시스템에 대한 필요성이 대두된다.

기존에 연구되었던 웹 아카이브 시스템은 저장 공간의 효율성 및 제약성을 전혀 고려하지 않고 단순히 소멸되는 웹 정보를 저장하는 것에만 초점을 두고 있다. 또한 웹 정보를 수집함에 있어 여러 개의 Crawler를 두기 때문에 대역폭의 낭비나 중복된 페이지의 수집과 같은 문제점이 발생한다.

또한 웹 아카이브 시스템 중의 하나인 WayBack Machine은 비영리 집단인 Internet Archive와 Alexa Internet이 공동으로 개발한 시스템으로서 웹 정보를 디지털 도서관의 형태로 보존하려는 최초의 시도이다. 상기 시스템의 연구가 시작된 1996년 이후에 지금까지 300억만개 이상의 웹 페이지들이 수집되어 있으며, 각 웹 페이지들은 다양한 버전으로 저장/관리되어 웹을 통해 공유하고 있다.

하지만, WayBack Machine의 경우 다양한 웹 정보를 수집하기 위해 별도의 Crawler를 구성하고 있으며 웹 정보를 보존하는 저장소의 효율성은 전혀 고려하지 않고 있다.

현재 웹상에 존재하는 수많은 웹 페이지에 대한 획득과 관리는 비교적 효율적으로 이루어지고 있지만, 이러한 정보들이 최신의 것으로 갱신되는 경우, 그 이전의 정보에 대해서는 관리가 미비한 실정이다. 즉, 웹상의 모든 페이지는 페이지가 저장되어 있는 서버의 관리자들에 의해 지속적으로 갱신 및 삭제되기 때문에 웹 페이지의 중요성 여부와 관계없이 대다수의 정보가 소멸되는 문제점을 가지고 있다.

본 발명은 이러한 기존 웹 아카이브 시스템의 문제점을 해결하기 위해 Stanford WebBase 기반으로 웹 페이지를 수집함으로써 Crawling을 위한 오버헤드를 줄일 수 있고, RCS를 활용하여 저장 공간 및 검색의 효율성을 극대화할 수 있는 웹 히스토리 저장 시스템의 제공을 그 목적으로 한다.

또한 웹 상의 모든 페이지는 페이지가 저장되어 있는 서버의 관리자들에 의해 지속적으로 갱신 및 삭제되기 때문에 웹 페이지의 중요성 여부와 관계없이 대다수의 정보가 소멸되어 간다는 단점을 해결하기 위해 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써 삭제되어지는 중요한 웹 페이지를 효율적으로 공유하는데 그 목적이 있다.

본 발명은 Stanford WebBase Project에 기반을 두고 시스템의 레포지토리(Repository)에서 삭제되어지는 웹 페이지들을 수집하여 버전을 통해 저장할 수 있는 VAS(Version Control System)와 VCS(Version Assignment System)를 포함하고 있는 웹 아카이브(Web Archive) 시스템에 관한 것이다.

따라서 본 발명은 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써 삭제되어지는 중요한 웹 페이지를 효율적으로 공유할 수 있다.

본 발명에서 이용하는 WebBase는 Stanford 대학에서 개발 중인 웹 검색 엔진 프로젝트로써 효율적인 웹 페이지의 수집, 관리, 인덱스 구성, 검색에 대한 연구이다.

상기 WebBase의 초기 버전은 Google 검색 엔진의 Crawler, Repository 및 전반적인 부분에서 사용되었다. WebBase는 Crawler, Storage Manager, Metadata & Indexing, Multicast, Query Engine의 5 가지 모듈로 구성되어져 있다.

상기 Crawler 모듈은 웹으로부터 페이지들을 수집하여 Storage Manager 모듈 전송한다. 전송된 페이지들은 WebBase의 레포지토리(repository)에 저장된다.

상기 Metadata & Indexing 모듈은 저장된 페이지와 메타데이터에 대한 인덱싱을 수행하고, Query Engine과 Multicast 모듈은 레포지토리에 저장된 contents의 접근을 제공한다.

RCS(Revision Control System)는 텍스트, 일반 문서, 소스코드, 테스트 데이터 등 각종 파일의 버전을 관리하는 시스템이다. 즉, RCS는 다양한 파일의 리비전(revision)을 저장하고, 저장된 임의의 버전을 선택적으로 판독하는 기능을 제공한다. 그리고 전체 파일의 버전을 버전 트리(version tree)의 형태로 구성하고 각각 파일의 버전을 하나의 노드로써 구성함으로써 검색의 효율성을 향상시킬 수 있다. 또한 각 버전들 사이의 변화값을 저장함으로써 저장 공간의 낭비를 막을 수 있고, 가장 최신의 파일은 원본 그대로 유지하여 최근 파일의 접근시간을 최소화 할 수 있다.

이하 첨부된 도면에 의해 본 발명을 설명한다.

도 1은 본 발명이 웹 검색 엔진과 연동되어 웹 히스토리 페이지가 처리되는 개략적인 구성도를 나타낸 것으로, 본 발명의 따른 웹 아카이브 시스템의 세부적인 구성은 도 2에 나타내었다.

본 발명의 히스토리 페이지 처리 절차는 웹 페이지(10, World Wide Web)를 Crawler(20)에 의해 페이지를 수집하고, 상기 수집된 페이지를 Storage Manager(30)에 의해 페이지의 갱신이 일어나게 되면 Storage Manager(30)가 Storage(40)내부의 페이지들에 대한 압축과정을 수행하게 된다.

상기 압축과정이 진행되면서 삭제되어지는 페이지는 Storage Manager(30)를 통해 웹 아카이브 시스템(100)으로 전송된다.

상기에서 웹 아카이브 시스템(100)은 본 발명이 이루고자 하는 부분이다.

이에 웹 아카이브 시스템(100)에 대해서 상세히 설명한다.

도 2은 웹 히스토리 페이지를 저장하는 처리 절차와 세부 모듈을 나타낸 것으로 그 구성은,

WebBase의 Crawler(20)에 의해 수집된 웹 페이지(10)를 저장/갱신/관리하는 하는 Storage Manager(30);

상기 Storage Manager(30)로부터 저장/관리되는 웹 페이지(10)를 물리적으로 저장하는 Storage(40);

상기 Storage Manager(30)로부터 갱신되어 삭제되어지는 페이지를 전달받아 삽입된 페이지에 대한 카탈로그 정보를 추출하고, 타임스탬프를 기준으로 페이지를 정렬하는 VCS 모듈(110);

상기 VCS 모듈(110)에 의해 전달되는 웹 페이지(10)를 각 노드의 NIT(Node Information Table)와 비교하여 저장될 위치를 계산하고 갱신 유무를 판별하여 버전을 할당하는 다수개의 VAS 모듈(120);

상기 VAS 모듈(120)내에 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈 RCS(121);

상기 VCS(110)와 VAS(120)에 의해 버전 할당 및 변화값을 계산한 웹 히스토리 페이지를 물리적으로 저장하고 있는 History Storage(130);

상기 각각의 History Storage(130)에 VAS 모듈(120)에 의해 저장된 웹 페이지의 히스토리 정보를 유지하여 갱신 및 버전할당을 위해 필요한 정보를 저장하고 있는 NIT(131);

로 이루어진다.

수많은 웹 페이지를 저장해야 하는 웹 아카이브 시스템에서 VAS(120)에 있는 RCS(121)는 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈로써, 페이지에 대해 버전 작업을 처리하는 부분이다.

즉 상기의 VAS(120)는 History Storage(140) 내에 각 페이지별 리비전 그룹을 생성하고, 생성된 리비전 그룹을 Check-in/out 연산을 통하여 History Storage(130) 내부의 각 노드에 저장하는 역할을 수행한다.

또한 RCS(121)는 버전 수행 과정에서 현재 페이지와 이전 페이지의 변화 값만을 저장함으로써 대용량의 웹 페이지를 저장하는데 있어서 저장 공간을 효율적으로 운용할 수 있다.

도 2a는 NIT의 구조를 나타낸 것으로, NIT(Node Information Table)에는 페이지 아이디(ID)와 경로(Path), 타임스탬프(T.S, TimeStamp), 버전(Version)의 정보가 포함된다.

상기의 과정을 흐름도로 설명한다.

도 3은 본 발명에 따른 웹 페이지를 저장하는 과정을 나타낸 흐름도이다.

Storage Manager(30)에서 삭제되는 페이지를 VCS(110)로 전송하는 단계(S_10);

상기 삭제되어 전송된 페이지에 대한 로그(Log)의 정보를 추출하는 단계(S_20);

상기 로그에서 타임스탬프를 기준으로 페이지를 정렬하는 단계(S_30);

상기 정렬된 페이지를 해당하는 노드의 VAS(120)로 전송하는 단계(S_40);

상기 VAS(120)에서 상기 전송된 페이지와 History Storage(130)의 NIT(131)의 Page ID를 비교하는 단계(S_50);

상기 NIT에 Page ID가 존재여부에 따라 Check-out/in 과정을 수행하는 단계(S_60);

상기 NIT(130)를 변경된 정보로 갱신하는 단계(S_70)로 이루어진다.

상기에서 Check-out/in 과정을 수행하는 단계는 도 4에 도시하였다.

도 4는 Check-out/in 과정을 수행하는 단계를 나타낸 흐름도이다.

상기 NIT에 Page ID가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성하는 단계(S_61);

상기 NIT에 Page ID가 존재하는 경우 상기 웹 페이지에 대해서 Check-out을 수행하는 단계(S_62);

상기 Check-out 페이지에 대하여 정보 갱신을 수행하는 단계(S_63);

상기 리버전 그룹으로 생성된 페이지와 정보가 갱신된 페이지를 Check-in을 수행하는 단계(S_64);

로 이루어진다.

상기의 과정을 도면으로 나타내면 다음과 같다.

도 5는 RCS를 이용하여 히스토리 페이지들을 처리하는 과정을 나타낸 것이다. 먼저 VCS를 거쳐 VAS로 삽입된 데이터는 NIT 내에 페이지가 존재하는 지를 검색하게 된다. 페이지가 존재할 경우 PageN.htm,v를 Check-out 한 후 갱신한 다음, 리비전 그룹으로 Check-in하는 과정을 거쳐 갱신된다.

상기에서 History Storage 내부에서 PageN.htm은 PageN.htm,v라는 리비전 그룹의 형태로 저장되어지며, 이때 이전 페이지와 현재 저장되어지는 페이지의 변화값을 계산하여 저장한다.

본 발명의 히스토리 페이지 처리 절차는 우선 Crawler에 의해 페이지를 수집하고, Storage Manager에 의해 페이지의 갱신이 일어나게 되면 Storage Manager가 Storage 내부의 페이지들에 대한 압축과정을 수행하게 된다.

상기 압축과정이 진행되면서 삭제되어지는 페이지는 Storage Manager를 통해 웹 아카이브 시스템의 VCS로 전송된다. VCS는 가장 오래된 데이터의 우선적 처리를 위하여 타임스탬프를 기준으로 데이터의 정렬을 수행한다.

상기에서 상기 웹 아카이브 시스템의 VCS 모듈은 페이지의 로그에 있는 Page ID를 기준으로 각각의 노드에 연결된 VAS로 페이지를 할당한다. 할당된 페이지는 노드의 NIT와 비교하여 테이블 내에 동일 페이지 아이디 존재 여부를 판별한 후 처리한다.

만일 NIT에 페이지 아이디가 존재할 경우 테이블의 경로 정보를 이용하여 노드 내 리비전 그룹을 Check-out 한 후, Check-out 한 페이지에 대하여 갱신을 수행한다.

갱신된 페이지는 리비전 그룹으로 Check-in을 수행한다. 만일 NIT에 페이지 아이디가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성한다.

마지막으로 노드 내 존재하는 NIT의 페이지 아이디, 타임스탬프, 버전에 대한 정보의 갱신을 수행함으로써 히스토리 페이지에 대한 버전을 완료한다.

본 발명에 따르면 웹 검색 엔진과 연동하여 사용할 수 있는 웹 아카이브 시스템으로 Storage Manager에서 삭제된 히스토리 페이지를 체계적이고 효율적으로 저장 할 수 있다.

따라서 기존의 웹 아카이브 시스템보다 히스토리 페이지를 체계적이고 효율적으로 저장/관리 할 수 있고, 저장된 히스토리 페이지들 간에 버전 관리를 수행함으로써 연관관계를 생성할 수 있다.

또한 RCS를 적용하여 이전 버전 페이지와의 변화값만을 저장함으로써 저장공간의 낭비를 줄이고, 보다 효율적으로 History Storage를 운영할 수 있고, 나아가 무작위로 삭제되어지는 웹 정보를 지속적으로 공유할 수 있다.

Claims

웹 아카이브 시스템에 있어서,

WebBase의 Crawler(20)에 의해 수집된 웹 페이지(10)를 저장/갱신/관리하는 하는 Storage Manager(30);

상기 Storage Manager(30)로부터 저장/관리되는 웹 페이지(10)를 물리적으로 저장하는 Storage(40);

상기 Storage Manager(30)로부터 갱신되어 삭제되어지는 페이지를 전달받아 삽입된 페이지에 대한 카탈로그 정보를 추출하고, 타임스탬프를 기준으로 페이지를 정렬하는 VCS 모듈(110);

상기 VCS 모듈(110)에 의해 전달되는 웹 페이지(10)를 각 노드의 NIT(Node Information Table)와 비교하여 저장될 위치를 계산하고 갱신 유무를 판별하여 버전을 할당하는 다수개의 VAS 모듈(120);

상기 VAS 모듈(120)내에 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈 RCS(121);

상기 VCS(110)와 VAS(120)에 의해 버전 할당 및 변화값을 계산한 웹 히스토리 페이지를 물리적으로 저장하고 있는 History Storage(130);

상기 각각의 History Storage(130)에 VAS 모듈(120)에 의해 저장된 웹 페이지의 히스토리 정보를 유지하여 갱신 및 버전할당을 위해 필요한 정보를 저장하고 있는 NIT(131);

로 구성됨을 특징으로 하는 웹 아카이브 시스템
웹 히스토리를 저장하는 방법에 있어서,

Storage Manager(30)에서 삭제되는 페이지를 VCS(110)로 전송하는 단계(S_10);

상기 삭제되어 전송된 페이지에 대한 로그(Log)의 정보를 추출하는 단계(S_20);

상기 로그에서 타임스탬프를 기준으로 페이지를 정렬하는 단계(S_30);

상기 정렬된 페이지를 해당하는 노드의 VAS(120)로 전송하는 단계(S_40);

상기 VAS(120)에서 상기 전송된 페이지와 History Storage(130)의 NIT(131)의 Page ID를 비교하는 단계(S_50);

상기 NIT에 Page ID가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성하고 Check-in을 수행하는 단계(S_61);

상기 NIT에 Page ID가 존재하는 경우 상기 웹 페이지에 대해서 Check-out을 수행하는 단계(S_62);

상기 Check-out 페이지에 대하여 갱신을 수행하는 단계(S_63);

상기 갱신된 페이지를 Check-in을 수행하는 단계(S_64);

상기 NIT(130)를 변경된 정보로 갱신하는 단계(S_70);

로 이루어짐을 특징으로 하는 웹 히스토리를 저장하는 방법.