KR20070075667A

KR20070075667A - 대용량 웹에서 웹 페이지 관리를 위한 히스토리 저장 서버및 방법

Info

Publication number: KR20070075667A
Application number: KR1020060004196A
Authority: KR
Inventors: 이무훈; 장창복; 조성훈; 최의인
Original assignee: 최의인; 학교법인 대전기독학원 한남대학교
Priority date: 2006-01-14
Filing date: 2006-01-14
Publication date: 2007-07-24

Abstract

본 발명은 대용량 웹에서 Intra-site Parallel Crawler 구조와 효율적 versioning을 위한 Storage Server 구조를 이용하여 웹 상의 중요한 디지털 정보를 보존, 관리 할 수 있는 웹 히스토리 서버에 관한 것이다.

본 발명에 따르면, Intra-site Parallel Crawler 구조를 이용함으로써 기존의 Static Assignment 기법, Site-hash based Partition Function, Exchange Mode, Batch Communication 기법의 단점을 해결하고 coverage 극대화, overlap의 최소화, communication overhead 최적화라는 장점을 얻을 수 있다. 또한 History Storage Server 구조는 표준화된 versioning protocol, RCS, metadata repository, contents repository를 이용하여 체계적이고 효율적인 웹 히스토리 데이터 관리 및 저장 공간의 효율성을 제공할 수 있다.

따라서 웹상에 존재하는 디지털 정보를 보존, 관리함으로써 웹상의 중요한 디지털 정보들을 인간이 언제든지 이용할 수 있도록 지식화하고, 이를 토대로 지식의 진화(evolution of knowledge) 과정에 대한 연구로 활용할 수 있다.

웹 히스토리, RCS, Intra-site Parallel Crawler, History Storage Server

Description

대용량 웹에서 웹 페이지 관리를 위한 히스토리 저장 서버 및 방법{HISTORY STORAGE SERVER AND METHOD FOR WEB PAGES MANAGEMENT IN LARGE SCALE WEB}

도 1은 본 발명에 따른 히스토리 저장 서버의 저장 구조를 나타낸 구성도

도 2는 본 발명에 따른 웹 페이지 수집 절차를 나타낸 도면

도 3은 본 발명에 따른 versioning 수행 절차를 나타낸 도면

** 도면의 주요 부분에 대한 부호의 설명 **

100...프로세스 노드 200...로컬 저장소

300...RCS 모듈 400...메타데이터 저장소

500...RCS 매니져 600...컨텐츠 저장소

WayBack Machine은 비영리 집단인 Internet Archive와 Alexa Internet이 공동으로 개발한 시스템으로 오래 전에 저장되어 있던 웹 페이지에 대한 접근을 시도한 것이다. WayBack Machine은 이 시스템의 연구가 시작된 1996년 이후에 300억만 페이지 이상의 웹 페이지들을 저장하여 웹 페이지의 다양한 버전을 관리, 저장, 압 축, 다운로드하기 위한 정책들을 연구하고 있다. 이 시스템은 실제적으로 2001년 U.C.Berkeley의 Bancroft Library에서 이용되었다.

시스템의 구성은 DNS(Domain Name System)를 통하여 URL을 획득하고, 획득한 URL에 대하여 날짜별로 페이지의 내용을 저장하는 방식으로 이루어져 있다. 따라서 사용자를 원하는 웹 페이지에 접근하기 위하여 정보가 위치하는 URL 질의를 통하여 웹 페이지들을 제공한다.

WayBack Machine는 오픈 포맷(open format)으로 여러 종류의 파일 형태로 데이터를 저장한다. 이 파일들은 한 URL에 있어서 자기 기술적이고 시스템의 나머지로부터 독립적으로 사용될 수 있다. 또한 외부 인덱스에 대하여 데이터의 빠른 검색이 가능하도록 파일이 구성된다. 그러나 객체들 사이에 연관관계를 저장하지는 않으므로 객체와의 연관관계에 생성하기 위해서는 다른 기능들을 요구한다. 예를 들어, 페이지들 사이에 링크를 표현하기 위해서는 별도의 저장소를 사용하여 저장하는 특징을 가지고 있다.

WayBack Machine은 시스템에 저장된 웹 페이지에 대한 접근이 용이하다. 따라서 많은 사용자들은 이러한 시스템을 이용함으로서 웹 아카이브 시스템이 가질 수 있는 잠재적 가능성들에 대하여 연구할 수 있다는 장점을 가진다. 그러나 URL 검색을 통하여 수집된 데이터를 디지털 형식으로 저장하고, 선택된 컨텐츠에 대하여 오랜 기간의 보존이 이루어지기는 하나, 웹 히스토리 데이터를 다루기 위한 체계적인 처리기법을 제시하지 못하고, 수집된 데이터에 대한 연관관계를 저장하지 않는다는 단점을 가지고 있다.

WebGUIDE(Web Graphical User Interface to a Difference Engine)는 웹 페이지와 재귀적인 문서 비교를 지원하며, 웹의 구조적인 변화를 탐지하기 위한 시스템이다. 사용자는 두개의 날짜 관점으로 페이지들 사이의 차이점을 조사하게 되며, 페이지 사이의 차이점은 자동적으로 계산되어지고 새로운 HTML 페이지로 요약되어진다. 그리고 링크 구조에서 차이점은 시각적 표현을 통해 보여준다. WebGUIDE는 보완적인 서로 다른 두 가지 툴의 조합으로 AIDE(AT&T Internet Difference Engine)와 Ciao로 구성된다.

AIDE는 웹 페이지의 변경을 추적하고 보여주기 위한 툴로써 페이지의 재귀적인 추적을 지원하기 위해 확장되어졌다. Ciao는 document repository 내에 내장된 구조적인 연결에 대해 질의하고 탐색하는 기능을 제공하는 시각적 탐색기이다.

WebGUIDE는 4개의 컴포넌트로 구성되어져 있다.

- version and meta-data repository

- 변화를 조사하는 robot

- difference engine

- graph generator

AIDE와 Ciao는 각각의 데이터베이스를 가지고 있으며, AIDE는 페이지의 버전과 페이지가 변화되었을 때에 대한 정보를 저장한다. Ciao는 질의의 결과에 따라 다양하게 확장되어질 수 있는 E-R(entity-relationship) 데이터베이스를 가진다. Ciao는 페이지의 버전을 비교하기 위해 AIDE version repository를 접근하고, 모든 데이터는 CGI 인터페이스를 통해 액세스되어질 수 있도록 중앙 서버에 저장되어 진다.

Ciao는 사용자가 document repository에 내장되어 있는 구조적 연결들을 질의하고 탐색하는 것을 제공하는 시각적 탐색기이다.

Ciao는 다음과 같은 세 가지 주요 컴포넌트를 포함하고 있다.

- Abstractor : source document를 document의 내부 구조를 기술하는 데이터 모델(data model)에 따라 데이터베이스로 변환함

- repository : document의 버전과 대응하는 데이터베이스를 유지

- graphical interface : 사용자가 질의하고 정보 구조를 시각화하도록 제공

Ciao-HTML은 HTML 문서의 구조를 탐색하는데 사용되어진다. HTML을 위한 데이터 모델은 HTML 페이지, anchors, headers, images, 그것들 사이의 관계와 같은 개체(entity)를 포함하고 있다. 다른 사례와 달리, Ciao-HTML 데이터베이스는 사용자가 페이지에 대해 링크 탐색을 시도함으로써 실시간으로 확장할 수 있다.

본 발명은 Intra-site Parallel Crawler 구조를 이용함으로써 기존의 Static Assignment 기법, Site-hash based Partition Function, Exchange Mode, Batch Communication 기법의 단점을 해결하고 coverage 극대화, overlap의 최소화, communication overhead 최적화라는 장점을 얻을 수 있다. 또한 History Storage Server 구조는 표준화된 versioning protocol, RCS, metadata repository, contents repository를 이용하여 체계적이고 효율적인 웹 히스토리 데이터 관리 및 저장 공간의 효율성을 제공할 수 있다. 따라서 웹상에 존재하는 디지털 정보를 보존, 관리함으로써 웹상의 중요한 디지털 정보들을 인간이 언제든지 이용할 수 있도록 지식화하는데 그 목적이 있다.

이하 첨부된 도면에 의해 본 발명을 설명한다.

도 1은 본 발명에 따른 웹 히스토리 정보를 효과적으로 저장/관리하기 위한 히스토리 저장 서버의 저장 구조를 나타낸 것으로, 그 구성은,

웹 상에 존재하는 웹 페이지를 crawler가 다운로드 할 수 있도록 정책을 설정하고 관리하며 최초의 다운로드 URL을 가지고 다운로드를 할 수 있도록 전달해주며, 노드(100);

상기 프로세스 노드의 지시에 의해 수집되는 웹 페이지를 임시 저장하는 로컬 저장소(200);

최초로 다운로드 된 웹 페이지는 클라이언트 측의 본 모듈이 버전을 할당하고 다운로드 된 날짜 및 URL 해쉬값을 추가하여 원래 데이터와 함께 서버측의 RCS 매니져에게 전달하는 RCS 모듈(300);

효율적인 버전 관리를 위하여 별도의 metadata를 저장/관리하는 메타데이터 저장소(400);

RCS 모듈에서 전달 받은 정보를 저장소의 데이터 모델에 맞게 metadata와 컨텐츠로 분리하여 해당 저장소에 저장하고, 이 후에 crawler가 갱신된 웹 페이지를 다운로드하게 되면 임시로 로컬 저장소에 저장해 두었다가 일정 주기가 지나게 되면 versioning을 수행하는 RCS 매니져(500);

RCS 매니져로 versioning을 수행한 후 변화값을 저장하고 있는 컨텐츠 저장소(600); 로 이루어진다.

기존의 웹 아카이브 시스템은 대용량의 웹 페이지를 수집하여, 저장 공간의 효율성은 고려하지 않고 수집된 웹 페이지를 보존하는 것에만 초점을 두고 있다.

따라서, 본 발명에서는 웹 페이지의 히스토리 데이터에 대하여 표준화된 versioning protocol인 DeltaV를 이용하여 versioning을 수행한 후, 변화값만을 저장함으로써 기존 시스템보다 효율적으로 버전을 관리할 수 있으며, 물리적인 저장 공간에서도 상당한 효율성을 얻을 수 있다.

본 발명의 crawler는 동일한 로컬 네트워크 상에 위치시킴으로써 고속의 로컬 네트워크를 통해 통신함으로써 통신비용에 대한 부담을 줄여주었고, crawler는 인터넷을 통하여 웹 페이지 다운로드하도록 설계하였다. 각 crawler는 개별적인 프로세스 노드(100)를 가지고 있으며, 이 프로세스 노드는 다운로드 된 페이지의 임 시 저장 및 기타정보(popular URL 등)를 저장하는 로컬 저장소(200)와 다운로드 해야 할 URL 정보를 가지고 있는 큐(queue)로 구성되어져 있다. 도2는 프로세스 노드가 웹 페이지를 수집하는 절차를 설명하는 흐름도이다.

도2에서와 같이 crawler는 초기의 seed URL을 할당 받아서 웹 페이지를 다운로드 한다. 다운로드 된 웹 페이지로부터 link URL을 추출한 다음, 추출된 URL의 중복을 제거하고, 마지막으로 이미 다운로드 된 페이지의 URL과 비교하여 중복 다운로드를 방지한다. 이렇게 추출된 URL을 다시 crawler의 큐에 저장함으로써 이 큐가 완전히 고갈될 때까지 반복적으로 웹 페이지를 수집하게 된다.

첨부된 도2의 웹 페이지 수집 절차를 나타내는 흐름도에 대해서 설명하면,

초기의 seed URL을 할당 받아서 crawler의 큐에 삽입하는 단계(S_10);

큐에 들어 있는 URL을 crawler에 적재하는 단계(S_20);

상기의 적재된 URL을 다운로드 URL 목록에 추가하는 단계(S_30);

초기 큐에 적재된 URL을 삭제하는 단계(S_40);

상기의 다운로드 URL을 이용하여 웹 페이지를 수집하는 crawling 단계(S_50);

상기의 crawling을 통하여 웹 페이지를 다운로드하는 단계(S_60);

다운로드된 웹 페이지를 로컬 저장소에 저장하는 단계(S_70);

다운로드된 웹 페이지를 메모리에 적재하여 분석하는 단계(S_80);

상기의 분석을 통하여 웹 페이지에 포함된 URL을 추출하는 단계(S_90);

상기의 분석을 통하여 추출된 URL 중에서 중복된 URL을 제거하는 단계(S_100);

중복 다운로드를 방지하기 위해 다운로드된 목록과 추출된 URL을 비교하는 단계(S_110);

상기 과정을 거쳐 비교된 URL이 중복일 경우는 삭제하고 중복이 아닐 경우에는 crawler의 큐에 추출된 URL을 삽입하여 과정을 반복하는 단계(S_120);로 웹 페이지 수집을 수행한다.

본 발명에서 실질적으로 versioning 기능을 수행하는 것은 서버(server) 측의 RCS 매니져(500)와 클라이언트(client) 측의 RCS 모듈(300)이다. 최초로 다운로드 된 웹 페이지는 클라이언트 측의 RCS 모듈(300)이 버전을 할당하고 다운로드 된 날짜 및 URL 해쉬값을 추가하여 원래 데이터와 함께 서버측의 RCS 매니져(500)에게 전달한다. 이때 RCS 매니져(500)는 전달 받은 정보를 저장소의 데이터 모델에 맞게 metadata와 컨텐츠로 분리하여 해당 저장소(400, 600)에 저장한다. 이 후에 crawler가 갱신된 웹 페이지를 다운로드하게 되면 임시로 로컬 저장소(200)에 저장해 두었다가 일정 주기가 지나게 되면, versioning을 수행하게 된다. versioning 수행 절차는 도3에서 설명하고 있다.

crawler 설계시 이용되었던 partition function을 이용하여 생성된 해쉬값은 site에 대한 유일한 값이 된다. 이 값을 RCS 매니져(500)에게 전송하여 메타데이터 저장소(400)의 해쉬값을 검색한다. 이때 동일한 해쉬값이 존재할 경우는 갱신 이 전 버전이 존재하는 것이고, 동일한 해쉬값이 없을 경우는 처음 다운로드 된 페이지가 된다. 여기에서 두 가지 처리 방법으로 나뉘게 되는데, 우선 갱신 이전 버전이 존재하는 경우에는 RCS 매니져(500)가 가장 최근의 버전을 check-out하여 사본을 프로세스 노드(100)에 전달한다. 그러면, RCS 모듈(300)은 전달 받은 사본과 다운로드 된 페이지 간의 변화값을 계산하여 versioning을 수행하게 된다.

첨부된 도3의 versioning 절차를 흐름도에 대해서 설명하면,

다운로드된 웹 페이지를 로컬 저장소에 저장하는 단계(D_10);

분석을 위해 로컬 저장소에 저장된 웹 페이지를 메모리에 적재하는 단계(D_20);

웹 페이지의 컨텐츠와 함께 저장되어 있는 해쉬값을 추출하는 단계(D_30);

프로세스 노드가 해쉬값을 RCS 매니져에게 전송하는 단계(D_40);

프로세스 노드로부터 전달된 해쉬값을 RCS 매니져가 수신하는 단계(D_50);

해쉬값을 통해 저장된 웹 페이지를 검색하기 위한 질의를 구성하는 단계(D_60);

메타데이타 저장소에 질의를 전달하는 단계(D_70);

메타데이타 저장소에 질의를 하여 해당 웹 페이지의 유무를 검색하는 단계(D_80);

이 때 두 가지 단계로 구분이 되며, 웹 페이지가 있을 경우와 없을 경우로 나누어서 처리하게 된다.

우선 웹 페이지가 존재할 경우에는,

컨텐츠 저장소로부터 가장 최근에 저장된 버전을 check-out하는 단계(D_90);

check-out 된 웹 페이지를 프로세스 노드로 전송하는 단계(D_100);

RCS 모듈은 메모리 상에 적재된 갱신 웹 페이지와 변화값을 계산하는 단계(D_110);

웹 페이지가 존재하지 않을 경우에는,

“first version" 메시지를 구성하는 단계(D_120);

프로세스 노드에게 구성된 메시지를 전송하는 단계(D_130);

프로세스 노드가 전송된 메시지를 수신하고 최초 버전을 확인하는 단계(D_140);

RCS 모듈이 계산된 변화값이나 전달 받은 최초 버전 메시지를 통하여 웹페이지의 versioning을 수행하는 단계(D_150);

Download-date, version, hash-value의 메타데이터를 추가하는 단계(D_160);

작성된 컨텐츠와 메타데이터를 RCS 매니져로 전송하는 단계(D_170);

각각의 저장을 위해 전송 받은 컨텐츠 정보와 메타데이터를 RCS 매니져에서 분리하는 단계(D_180);

분리된 정보 중 웹 페이지의 추가 정보에 해당하는 메타데이타를 메타데이타 저장소에 저장하는 단계(D_190);

분리된 정보 중 웹 페이지의 실제 컨텐츠를 담고 있는 정보를 컨텐츠 저장소에 check-in 하는 단계(D_200); 로 versioning을 수행한다.

Claims

웹 페이지의 히스토리 정보를 수집하여 저장/관리하는 히스토리 저장 서버에 있어서,

웹 상에 존재하는 웹 페이지를 crawler가 다운로드 할 수 있도록 정책을 설정하고 관리하며 최초의 다운로드 URL을 가지고 다운로드를 할 수 있도록 전달해주며, 노드(100);

상기 프로세스 노드의 지시에 의해 수집되는 웹 페이지를 임시 저장하는 로컬 저장소(200);

최초로 다운로드 된 웹 페이지는 클라이언트 측의 본 모듈이 버전을 할당하고 다운로드 된 날짜 및 URL 해쉬값을 추가하여 원래 데이터와 함께 서버측의 RCS 매니져에게 전달하는 RCS 모듈(300);

효율적인 버전 관리를 위하여 별도의 metadata를 저장/관리하는 메타데이터 저장소(400);

RCS 모듈에서 전달 받은 정보를 저장소의 데이터 모델에 맞게 metadata와 컨텐츠로 분리하여 해당 저장소에 저장하고, 이 후에 crawler가 갱신된 웹 페이지를 다운로드하게 되면 임시로 로컬 저장소에 저장해 두었다가 일정 주기가 지나게 되면 versioning을 수행하는 RCS 매니져(500);

RCS 매니져로 versioning을 수행한 후 변화값을 저장하고 있는 컨텐츠 저장소(600);

로 이루어짐을 특징으로 하는 히스토리 저장 서버.
웹 히스토리 정보 수집을 위한 웹 페이지 수집 방법에 있어서,

초기의 seed URL을 할당 받아서 crawler의 큐에 삽입하는 단계(S_10);

큐에 들어 있는 URL을 crawler에 적재하는 단계(S_20);

상기의 적재된 URL을 다운로드 URL 목록에 추가하는 단계(S_30);

초기 큐에 적재된 URL을 삭제하는 단계(S_40);

상기의 다운로드 URL을 이용하여 웹 페이지를 수집하는 crawling 단계(S_50);

상기의 crawling을 통하여 웹 페이지를 다운로드하는 단계(S_60);

다운로드된 웹 페이지를 로컬 저장소에 저장하는 단계(S_70);

다운로드된 웹 페이지를 메모리에 적재하여 분석하는 단계(S_80);

상기의 분석을 통하여 웹 페이지에 포함된 URL을 추출하는 단계(S_90);

상기의 분석을 통하여 추출된 URL 중에서 중복된 URL을 제거하는 단계(S_100);

중복 다운로드를 방지하기 위해 다운로드된 목록과 추출된 URL을 비교하는 단계(S_110);

를 특징으로 하는 웹 히스토리 정보 저장을 위한 웹 페이지 수집 방법.
웹 히스토리 정보 관리를 위한 웹 페이지의 versioning 방법에 있어서,

다운로드된 웹 페이지를 로컬 저장소에 저장하는 단계(D_10);

분석을 위해 로컬 저장소에 저장된 웹 페이지를 메모리에 적재하는 단계(D_20);

웹 페이지의 컨텐츠와 함께 저장되어 있는 해쉬값을 추출하는 단계(D_30);

프로세스 노드가 해쉬값을 RCS 매니져에게 전송하는 단계(D_40);

프로세스 노드로부터 전달된 해쉬값을 RCS 매니져가 수신하는 단계(D_50);

해쉬값을 통해 저장된 웹 페이지를 검색하기 위한 질의를 구성하는 단계(D_60);

메타데이타 저장소에 질의를 전달하는 단계(D_70);

메타데이타 저장소에 질의를 하여 해당 웹 페이지의 유무를 검색하는 단계(D_80);

이 때 두 가지 단계로 구분이 되며, 웹 페이지가 있을 경우와 없을 경우로 나누어서 처리하게 된다.

우선 웹 페이지가 존재할 경우에는,

컨텐츠 저장소로부터 가장 최근에 저장된 버전을 check-out하는 단계(D_90);

check-out 된 웹 페이지를 프로세스 노드로 전송하는 단계(D_100);

RCS 모듈은 메모리 상에 적재된 갱신 웹 페이지와 변화값을 계산하는 단계(D_110);

웹 페이지가 존재하지 않을 경우에는,

“first version" 메시지를 구성하는 단계(D_120);

프로세스 노드에게 구성된 메시지를 전송하는 단계(D_130);

프로세스 노드가 전송된 메시지를 수신하고 최초 버전을 확인하는 단계(D_140);

RCS 모듈이 계산된 변화값이나 전달 받은 최초 버전 메시지를 통하여 웹페이지의 versioning을 수행하는 단계(D_150);

Download-date, version, hash-value의 메타데이터를 추가하는 단계(D_160);

작성된 컨텐츠와 메타데이터를 RCS 매니져로 전송하는 단계(D_170);

각각의 저장을 위해 전송 받은 컨텐츠 정보와 메타데이터를 RCS 매니져에서 분리하는 단계(D_180);

분리된 정보 중 웹 페이지의 추가 정보에 해당하는 메타데이타를 메타데이타 저장소에 저장하는 단계(D_190);

분리된 정보 중 웹 페이지의 실제 컨텐츠를 담고 있는 정보를 컨텐츠 저장소에 check-in 하는 단계(D_200);

를 특징으로 하는 웹 히스토리 관리를 위한 웹 페이지의 versioning 방법.