KR20010047696A

KR20010047696A - 문서처리시스템에서 문서의 중복 방지 방법

Info

Publication number: KR20010047696A
Application number: KR1019990052029A
Authority: KR
Inventors: 김형근; 김학훈
Original assignee: 이계철; 한국전기통신공사
Priority date: 1999-11-23
Filing date: 1999-11-23
Publication date: 2001-06-15
Also published as: KR100588739B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 문서처리시스템에서 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 문서처리시스템에서 인터넷 문서 등을 포함하는 모든 문서의 내용물에 근거하여 문서의 중복된 처리를 방지하기 위한 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및 상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 문서 검색 엔진 등에 이용됨.

Description

문서처리시스템에서 문서의 중복 방지 방법{Method for preventing duplication of internet documents}

본 발명은 문서처리시스템에서 인터넷 문서 등을 포함하는 문서의 중복된 처리를 방지할 수 있는 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

일반적인 인터넷 환경에서는 특정 문서가 쉽게 복사되거나 그 문서로 접근할 수 있는 주소(URL : Uniform Resource Locators)가 여러 개로 표현될 수 있다. 따라서, 대량의 인터넷 수집이 필요한 문서처리시스템에서 중복된 문서의 처리로 인해 저장공간과 컴퓨팅 자원의 낭비를 초래하였고, 문서의 중복을 제거하기 위한 인력 소모 또한 많았다. 이에, 불필요한 문서 중복 제거로, 대량의 인터넷 수집이 필요한 문서처리시스템의 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고 문서 중복을 제거하기 위한 인력 소모를 막을 수 있는 방안이 필요하다.

이상에서와 같이, 인터넷 문서는 특성상 쉽게 복제될 수가 있다. 설령, 복제되지 않더라도 하나의 문서가 서로 다른 주소(URL)를 가지는 경우는 매우 흔하다. 따라서, 하나의 문서를 고유하게 지칭할 수 있는 방법이 존재하지 않는다는 것이다. 특히, 인터넷 게시판에 올라가는 글이나 문서들은 게시판 프로그램 구성에 따라서 이론적으로 무한히 다른 주소(URL)로 표현 가능하다. 이러한 예를 살펴보면 다음과 같다.

http://host.bbs.server/bbsread.cgi?id=10

http://host.bbs.server/bbsread.cgi?prev=1&id=10

http://host.bbs.server/bbsread.cgi?prev=1&id=10&visit=0

http://host.bbs.server/bbsread.cgi?prev=1&visit=0&next=13&id=10

상기 예에서 보는 바와 같이, 하나의 문서에 수많은 주소(URL)가 붙을 수 있으므로 기본적으로 주소만 가지고 문서를 유일하게 파악하는 것은 가능하지 않다.

한편, 주소가 아닌 문서의 내용물로 중복을 검사하려면, 문서들의 길이가 평균적으로 매우 길며, 그 길이도 일정하기 때문에, 모든 문서에 대해서 고속으로 중복을 체크하는 것은 대단히 어려운 일이다.

이처럼, 종래에는 인터넷 문서를 검색이나 변환하는 등의 각종 처리를 하려고 할 때, 각각의 문서를 중복없이 유일하게 처리되도록 할 필요가 있음에도 불구하고, 문서의 제목이나 문서의 인터넷 주소(URL)만으로는 그렇게 할 수가 없었다. 따라서, 문서의 내용물을 토대로 중복을 검사해야 하는데, 내용물 전체를 중복검사에 쓰기에는 내용의 길이가 가변적이고 양도 많기 때문에 단순한 비교만으로는 중복검사가 가능하지 않는 문제점이 있었다.

상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 문서처리시스템에서 인터넷 문서 등을 포함하는 모든 문서의 내용물에 근거하여 문서의 중복된 처리를 방지하기 위한 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 문서수집시스템의 구성 예시도.

도 2 는 본 발명에 따른 문서의 중복 방지 방법에 대한 일실시예 흐름도.

*도면의 주요 부분에 대한 부호의 설명

11 : 문서 수집용 서버 12 : 문서 저장용 서버

상기 목적을 달성하기 위한 본 발명은, 문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및 상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.

그리고, 본 발명은 프로세서를 구비한 문서처리시스템에, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제1 기능; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제2 기능; 및 상기 제2 기능의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명은 같은 문서의 중복된 처리를 방지하기 위해, 모든 문서에 대해 본문을 요약한 고정길이의 숫자표현으로 변환한 후에, 그 숫자표현만 가지고 문서의 유일성을 체크하면 문서의 중복문제를 해결할 수 있다. 이때, 유일한 숫자표현은 해슁함수를 사용하면 문서 본문만 가지고 바로 계산할 수 있으므로, 문서들의 일련번호를 부여하는 곳에서 병목현상없이 병렬적으로 처리할 수가 있으므로 높은 효율로 문서처리가 가능하다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 문서수집시스템의 구성 예시도로서, 도면에서 "11"은 문서 수집용 서버, "12"는 문서 저장용 서버를 각각 나타낸다.

도 1에 도시된 바와 같이, 본 발명이 적용되는 문서수집시스템은, 인터넷을 통해 문서를 수집하고 수집된 문서의 본문을 요약하여 고정길이의 숫자표현으로 변환한 후에 기 저장된 값과 비교함으로써 문서의 중복여부를 판정하는 문서 수집용 서버(11)와 문서 수집용 서버(11)의 판정결과에 따라 중복되지 않은 문서를 저장하는 문서 저장용 서버(12)를 구비한다.

문서 수집용 서버(11)는 문서를 수집하고 수집된 문서에 대해 문서의 본문 내용을 추출한 후에, 추출된 본문 내용을 기반으로 해쉬값을 계산하고 기존에 보관된 해쉬값(즉, 중복검사용 해쉬값)과 새로 계산된 해쉬값을 비교하여 문서의 중복을 검사한다. 이때, 고속의 검사를 위해 중복검사용 해쉬값은 소규모 데이터베이스에 저장된다.

문서 수집용 서버(11)는 인터넷 문서의 중복을 방지하기 위해 문서의 본문을 요약하여 짧고 고정적인 숫자로 표현하고, 그 표현된 숫자를 근거로 문서의 중복성을 검사한다. 이때, 각각의 문서마다 고정된 길이의 짧은 숫자를 부여하게 되면, 그 부여된 숫자만 비교하면 되므로 쉽게 중복여부를 판단할 수 있다.

여기서, 숫자의 부여시에는, 일련번호를 부여하는 방식이 아니라, 문서의 내용물을 근거로 계산해 내므로, 다중 프로세스가 동시에 서로 다른 문서에 대해 서로 다른 문서에 번호부여가 가능하다는 장점이 있다. 이렇게 되면, 문서번호 부여 절차에 병목현상을 줄일 수 있으므로 매우 높은 효율을 보일 수 있다.

이를 보다 상세히 살펴보면, 인터넷에서 수집된 문서들의 본문을 기존에 알려진 적절한 해슁 함수(예를 들면, MD5(Message Digest-5))를 통해서 해쉬값을 계산한다. 계산된 해쉬값은 문서 본문에 비해 길이가 평균적으로 매우 짧으며, 길이도 고정적이므로 저장이나 비교가 용이하다.

본 실시예에서는 이처럼 저장이나 비교가 용이한 숫자표현으로 문서를 변환함으로써, 기존에 수집된 문서와 새로 수집된 문서가 동일한 문서인지 그렇지 않은지를 고속으로 판단할 수 있게 된다.

부가적으로, 해쉬값의 계산은 오로지 문서 내용만 가지고 하는 것이므로, 외부 데이터베이스에 의존해서 일련번호를 부여하는 방식에 비해, 번호부여상의 병목현상을 줄일 수 있으므로 다중 프로세스 환경에서 더 적합하다.

도 2 는 본 발명에 따른 문서의 중복 방지 방법에 대한 일실시예 흐름도이다.

도 2에 도시된 바와 같이, 본 발명에 따른 문서의 중복 방지 방법은, 먼저 문서 수집용 서버(11)가 인터넷으로부터 문서들을 수집하여(201), 수집된 문서의 본문 내용을 추출한다(202). 이때, 각 문서마다 수집할 당시의 주소(URL)가 부여되어 있지만, 부여된 주소가 다르다 하더라도 서로 같은 문서일 수가 있다.

이후, 각각의 문서마다 문서의 내용물을 입력해서 고정된 길이의 숫자로 변환(해쉬값 계산)한다(203). 여기서, 변환에는 이미 널리 알려진 해슁 기법중에 아무것이나 쓸 수 있다. 특히, 본 실시예에서는 MD5 해슁 기법을 이용한다.

이 고정길이의 숫자들(해쉬값)은 문서마다 그 내용을 입력으로 받아서 만든 고유의 번호이므로 주소(URL)가 달라도, 내용이 같으면 같은 숫자가 나오도록 되어 있다.

다음으로, 문서마다 부여된 고정길이의 숫자들을 별도의 저장공간(소규모 데이터베이스 해쉬값 데이블)에 저장하여, 새로운 문서가 들어 왔을 때 기존에 저장된 고정길이의 숫자들과 비교하여(204) 이미 같은 문서가 존재하면 새 문서를 버리고(205), 그렇지 않으면 새 문서를 대규모 데이터베이스에 저장한다(206). 이때, 중복내용의 문서가 아닌 경우에는 그 문서의 고정길이의 숫자들(해쉬값)을 소규모 데이터베이스 해쉬값 데이블에 저장하여 다른 문서의 들어 왔을 때 중복검사용 해쉬값으로 사용한다.

이상에서와 같은, 본 발명은 대량의 인터넷 수집이 필요한 문서처리시스템에서 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고 문서 중복을 제거하기 위한 인력 소모를 막을 수 있어, 인터넷 검색 엔진에 사용되는 문서 수집 로봇 프로그램 등 대량의 인터넷 문서를 처리하는 곳에서 사용될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

상기한 바와 같은 본 발명은, 수많은 문서처리시스템들(바람직하게는 검색엔진)에서 문서가 필요이상으로 중복되는 것을 방지할 수 있어, 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고, 문서 중복을 제거하기 위한 인력 모소를 막을 수 있으며, 문서처리시스템에 대한 신뢰도를 향상시킬 수 있는 효과가 있다.

Claims

문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서,

문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계;

계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및

상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계

를 포함하여 이루어진 문서처리시스템에서 문서의 중복 방지 방법.
제 1 항에 있어서,

상기 해쉬값은,

실질적으로, 문서의 본문내용에 비해 길이가 매우 짧으며, 길이도 고정적이므로, 저장이나 비교가 용이한 번호부여상의 병목현상을 줄일 수 있는 고정길이의 숫자표현 값인 것을 특징으로 하는 문서처리시스템에서 문서의 중복 방지 방법.
프로세서를 구비한 문서처리시스템에,

문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제1 기능;

계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제2 기능; 및

상기 제2 기능의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.