KR20010047696A - 문서처리시스템에서 문서의 중복 방지 방법 - Google Patents

문서처리시스템에서 문서의 중복 방지 방법 Download PDF

Info

Publication number
KR20010047696A
KR20010047696A KR1019990052029A KR19990052029A KR20010047696A KR 20010047696 A KR20010047696 A KR 20010047696A KR 1019990052029 A KR1019990052029 A KR 1019990052029A KR 19990052029 A KR19990052029 A KR 19990052029A KR 20010047696 A KR20010047696 A KR 20010047696A
Authority
KR
South Korea
Prior art keywords
document
documents
hash value
processing system
duplication
Prior art date
Application number
KR1019990052029A
Other languages
English (en)
Other versions
KR100588739B1 (ko
Inventor
김형근
김학훈
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019990052029A priority Critical patent/KR100588739B1/ko
Publication of KR20010047696A publication Critical patent/KR20010047696A/ko
Application granted granted Critical
Publication of KR100588739B1 publication Critical patent/KR100588739B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 문서처리시스템에서 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 문서처리시스템에서 인터넷 문서 등을 포함하는 모든 문서의 내용물에 근거하여 문서의 중복된 처리를 방지하기 위한 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및 상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 문서 검색 엔진 등에 이용됨.

Description

문서처리시스템에서 문서의 중복 방지 방법{Method for preventing duplication of internet documents}
본 발명은 문서처리시스템에서 인터넷 문서 등을 포함하는 문서의 중복된 처리를 방지할 수 있는 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적인 인터넷 환경에서는 특정 문서가 쉽게 복사되거나 그 문서로 접근할 수 있는 주소(URL : Uniform Resource Locators)가 여러 개로 표현될 수 있다. 따라서, 대량의 인터넷 수집이 필요한 문서처리시스템에서 중복된 문서의 처리로 인해 저장공간과 컴퓨팅 자원의 낭비를 초래하였고, 문서의 중복을 제거하기 위한 인력 소모 또한 많았다. 이에, 불필요한 문서 중복 제거로, 대량의 인터넷 수집이 필요한 문서처리시스템의 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고 문서 중복을 제거하기 위한 인력 소모를 막을 수 있는 방안이 필요하다.
이상에서와 같이, 인터넷 문서는 특성상 쉽게 복제될 수가 있다. 설령, 복제되지 않더라도 하나의 문서가 서로 다른 주소(URL)를 가지는 경우는 매우 흔하다. 따라서, 하나의 문서를 고유하게 지칭할 수 있는 방법이 존재하지 않는다는 것이다. 특히, 인터넷 게시판에 올라가는 글이나 문서들은 게시판 프로그램 구성에 따라서 이론적으로 무한히 다른 주소(URL)로 표현 가능하다. 이러한 예를 살펴보면 다음과 같다.
http://host.bbs.server/bbsread.cgi?id=10
http://host.bbs.server/bbsread.cgi?prev=1&id=10
http://host.bbs.server/bbsread.cgi?prev=1&id=10&visit=0
http://host.bbs.server/bbsread.cgi?prev=1&visit=0&next=13&id=10
상기 예에서 보는 바와 같이, 하나의 문서에 수많은 주소(URL)가 붙을 수 있으므로 기본적으로 주소만 가지고 문서를 유일하게 파악하는 것은 가능하지 않다.
한편, 주소가 아닌 문서의 내용물로 중복을 검사하려면, 문서들의 길이가 평균적으로 매우 길며, 그 길이도 일정하기 때문에, 모든 문서에 대해서 고속으로 중복을 체크하는 것은 대단히 어려운 일이다.
이처럼, 종래에는 인터넷 문서를 검색이나 변환하는 등의 각종 처리를 하려고 할 때, 각각의 문서를 중복없이 유일하게 처리되도록 할 필요가 있음에도 불구하고, 문서의 제목이나 문서의 인터넷 주소(URL)만으로는 그렇게 할 수가 없었다. 따라서, 문서의 내용물을 토대로 중복을 검사해야 하는데, 내용물 전체를 중복검사에 쓰기에는 내용의 길이가 가변적이고 양도 많기 때문에 단순한 비교만으로는 중복검사가 가능하지 않는 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 문서처리시스템에서 인터넷 문서 등을 포함하는 모든 문서의 내용물에 근거하여 문서의 중복된 처리를 방지하기 위한 문서의 중복 방지 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 문서수집시스템의 구성 예시도.
도 2 는 본 발명에 따른 문서의 중복 방지 방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
11 : 문서 수집용 서버 12 : 문서 저장용 서버
상기 목적을 달성하기 위한 본 발명은, 문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및 상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은 프로세서를 구비한 문서처리시스템에, 문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제1 기능; 계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제2 기능; 및 상기 제2 기능의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 같은 문서의 중복된 처리를 방지하기 위해, 모든 문서에 대해 본문을 요약한 고정길이의 숫자표현으로 변환한 후에, 그 숫자표현만 가지고 문서의 유일성을 체크하면 문서의 중복문제를 해결할 수 있다. 이때, 유일한 숫자표현은 해슁함수를 사용하면 문서 본문만 가지고 바로 계산할 수 있으므로, 문서들의 일련번호를 부여하는 곳에서 병목현상없이 병렬적으로 처리할 수가 있으므로 높은 효율로 문서처리가 가능하다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 문서수집시스템의 구성 예시도로서, 도면에서 "11"은 문서 수집용 서버, "12"는 문서 저장용 서버를 각각 나타낸다.
도 1에 도시된 바와 같이, 본 발명이 적용되는 문서수집시스템은, 인터넷을 통해 문서를 수집하고 수집된 문서의 본문을 요약하여 고정길이의 숫자표현으로 변환한 후에 기 저장된 값과 비교함으로써 문서의 중복여부를 판정하는 문서 수집용 서버(11)와 문서 수집용 서버(11)의 판정결과에 따라 중복되지 않은 문서를 저장하는 문서 저장용 서버(12)를 구비한다.
문서 수집용 서버(11)는 문서를 수집하고 수집된 문서에 대해 문서의 본문 내용을 추출한 후에, 추출된 본문 내용을 기반으로 해쉬값을 계산하고 기존에 보관된 해쉬값(즉, 중복검사용 해쉬값)과 새로 계산된 해쉬값을 비교하여 문서의 중복을 검사한다. 이때, 고속의 검사를 위해 중복검사용 해쉬값은 소규모 데이터베이스에 저장된다.
문서 수집용 서버(11)는 인터넷 문서의 중복을 방지하기 위해 문서의 본문을 요약하여 짧고 고정적인 숫자로 표현하고, 그 표현된 숫자를 근거로 문서의 중복성을 검사한다. 이때, 각각의 문서마다 고정된 길이의 짧은 숫자를 부여하게 되면, 그 부여된 숫자만 비교하면 되므로 쉽게 중복여부를 판단할 수 있다.
여기서, 숫자의 부여시에는, 일련번호를 부여하는 방식이 아니라, 문서의 내용물을 근거로 계산해 내므로, 다중 프로세스가 동시에 서로 다른 문서에 대해 서로 다른 문서에 번호부여가 가능하다는 장점이 있다. 이렇게 되면, 문서번호 부여 절차에 병목현상을 줄일 수 있으므로 매우 높은 효율을 보일 수 있다.
이를 보다 상세히 살펴보면, 인터넷에서 수집된 문서들의 본문을 기존에 알려진 적절한 해슁 함수(예를 들면, MD5(Message Digest-5))를 통해서 해쉬값을 계산한다. 계산된 해쉬값은 문서 본문에 비해 길이가 평균적으로 매우 짧으며, 길이도 고정적이므로 저장이나 비교가 용이하다.
본 실시예에서는 이처럼 저장이나 비교가 용이한 숫자표현으로 문서를 변환함으로써, 기존에 수집된 문서와 새로 수집된 문서가 동일한 문서인지 그렇지 않은지를 고속으로 판단할 수 있게 된다.
부가적으로, 해쉬값의 계산은 오로지 문서 내용만 가지고 하는 것이므로, 외부 데이터베이스에 의존해서 일련번호를 부여하는 방식에 비해, 번호부여상의 병목현상을 줄일 수 있으므로 다중 프로세스 환경에서 더 적합하다.
도 2 는 본 발명에 따른 문서의 중복 방지 방법에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 문서의 중복 방지 방법은, 먼저 문서 수집용 서버(11)가 인터넷으로부터 문서들을 수집하여(201), 수집된 문서의 본문 내용을 추출한다(202). 이때, 각 문서마다 수집할 당시의 주소(URL)가 부여되어 있지만, 부여된 주소가 다르다 하더라도 서로 같은 문서일 수가 있다.
이후, 각각의 문서마다 문서의 내용물을 입력해서 고정된 길이의 숫자로 변환(해쉬값 계산)한다(203). 여기서, 변환에는 이미 널리 알려진 해슁 기법중에 아무것이나 쓸 수 있다. 특히, 본 실시예에서는 MD5 해슁 기법을 이용한다.
이 고정길이의 숫자들(해쉬값)은 문서마다 그 내용을 입력으로 받아서 만든 고유의 번호이므로 주소(URL)가 달라도, 내용이 같으면 같은 숫자가 나오도록 되어 있다.
다음으로, 문서마다 부여된 고정길이의 숫자들을 별도의 저장공간(소규모 데이터베이스 해쉬값 데이블)에 저장하여, 새로운 문서가 들어 왔을 때 기존에 저장된 고정길이의 숫자들과 비교하여(204) 이미 같은 문서가 존재하면 새 문서를 버리고(205), 그렇지 않으면 새 문서를 대규모 데이터베이스에 저장한다(206). 이때, 중복내용의 문서가 아닌 경우에는 그 문서의 고정길이의 숫자들(해쉬값)을 소규모 데이터베이스 해쉬값 데이블에 저장하여 다른 문서의 들어 왔을 때 중복검사용 해쉬값으로 사용한다.
이상에서와 같은, 본 발명은 대량의 인터넷 수집이 필요한 문서처리시스템에서 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고 문서 중복을 제거하기 위한 인력 소모를 막을 수 있어, 인터넷 검색 엔진에 사용되는 문서 수집 로봇 프로그램 등 대량의 인터넷 문서를 처리하는 곳에서 사용될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, 수많은 문서처리시스템들(바람직하게는 검색엔진)에서 문서가 필요이상으로 중복되는 것을 방지할 수 있어, 문서 중복에 의한 저장공간과 컴퓨팅 자원의 낭비를 없애고, 문서 중복을 제거하기 위한 인력 모소를 막을 수 있으며, 문서처리시스템에 대한 신뢰도를 향상시킬 수 있는 효과가 있다.

Claims (3)

  1. 문서처리시스템에서의 중복된 문서를 방지하는 방법에 있어서,
    문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제 1 단계;
    계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제 2 단계; 및
    상기 제 2 단계의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제 3 단계
    를 포함하여 이루어진 문서처리시스템에서 문서의 중복 방지 방법.
  2. 제 1 항에 있어서,
    상기 해쉬값은,
    실질적으로, 문서의 본문내용에 비해 길이가 매우 짧으며, 길이도 고정적이므로, 저장이나 비교가 용이한 번호부여상의 병목현상을 줄일 수 있는 고정길이의 숫자표현 값인 것을 특징으로 하는 문서처리시스템에서 문서의 중복 방지 방법.
  3. 프로세서를 구비한 문서처리시스템에,
    문서의 본문 내용을 추출하여 추출된 본문 내용을 기반으로 해쉬값을 계산하는 제1 기능;
    계산된 상기 해쉬값과 기 저장된 중복검사용 해쉬값을 비교하는 제2 기능; 및
    상기 제2 기능의 비교결과에 따라, 문서의 본문 내용의 중복 여부를 판별하고, 중복된 문서를 제거하는 제3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990052029A 1999-11-23 1999-11-23 문서처리시스템에서 문서의 중복 방지 방법 KR100588739B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990052029A KR100588739B1 (ko) 1999-11-23 1999-11-23 문서처리시스템에서 문서의 중복 방지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990052029A KR100588739B1 (ko) 1999-11-23 1999-11-23 문서처리시스템에서 문서의 중복 방지 방법

Publications (2)

Publication Number Publication Date
KR20010047696A true KR20010047696A (ko) 2001-06-15
KR100588739B1 KR100588739B1 (ko) 2006-06-13

Family

ID=19621280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990052029A KR100588739B1 (ko) 1999-11-23 1999-11-23 문서처리시스템에서 문서의 중복 방지 방법

Country Status (1)

Country Link
KR (1) KR100588739B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR100834291B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR100852420B1 (ko) * 2006-12-15 2008-08-18 주식회사 케이티프리텔 이동통신망의 중복 과금 방지를 위한 중복호 검사 장치,과금 서버 및 그 방법
KR100980573B1 (ko) * 2007-12-28 2010-09-06 엔에이치엔(주) 게시물 검수 방법 및 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546446A (ja) * 1991-08-21 1993-02-26 Chubu Nippon Denki Software Kk 動的フアイル削除方式
JPH08137895A (ja) * 1994-11-08 1996-05-31 Hitachi Ltd 類似文書検索システム
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
KR100246621B1 (ko) * 1997-09-10 2000-03-15 정선종 중복 저장된 전자메일 제거 장치 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR100834291B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR100852420B1 (ko) * 2006-12-15 2008-08-18 주식회사 케이티프리텔 이동통신망의 중복 과금 방지를 위한 중복호 검사 장치,과금 서버 및 그 방법
KR100980573B1 (ko) * 2007-12-28 2010-09-06 엔에이치엔(주) 게시물 검수 방법 및 시스템

Also Published As

Publication number Publication date
KR100588739B1 (ko) 2006-06-13

Similar Documents

Publication Publication Date Title
US6754799B2 (en) System and method for indexing and retrieving cached objects
US6119124A (en) Method for clustering closely resembling data objects
KR101153033B1 (ko) 사본 탐지 및 삭제 방법
CA2365705C (en) A system for collecting specific information from several sources of unstructured digitized data
US6301614B1 (en) System and method for efficient representation of data set addresses in a web crawler
US7174346B1 (en) System and method for searching an extended database
US20080235163A1 (en) System and method for online duplicate detection and elimination in a web crawler
EP0981097A1 (en) Search system and method for providing a fulltext search over web pages of world wide web servers
US8914316B2 (en) Information similarity and related statistical techniques for use in distributed computing environments
CN110750615B (zh) 文本重复性判定方法和装置、电子设备和存储介质
JP4610360B2 (ja) 重複Webサイト検出装置
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
CN109117426B (zh) 分布式数据库查询方法、装置、设备及存储介质
KR100588739B1 (ko) 문서처리시스템에서 문서의 중복 방지 방법
CN106934066A (zh) 一种元数据处理方法、装置和存储设备
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
US8805820B1 (en) Systems and methods for facilitating searches involving multiple indexes
Bama et al. A mathematical approach for mining web content outliers using term frequency ranking
US20160179866A1 (en) Method and system to search logs that contain a massive number of entries
Poonkuzhali et al. Correlation based method to detect and remove redundant web document
CN113900886A (zh) 一种异常日志监控方法
CN112395292A (zh) 一种数据特征提取、匹配方法及装置
US20130091166A1 (en) Method and apparatus for indexing information using an extended lexicon
CN114386384B (zh) 一种大规模长文本数据的近似重复检测方法、系统及终端
Chauhan et al. A parallel computational approach for similarity search using Bloom filters

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100601

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee