KR20100066920A - 전자 문서 처리 장치 및 그 방법 - Google Patents

전자 문서 처리 장치 및 그 방법 Download PDF

Info

Publication number
KR20100066920A
KR20100066920A KR1020080125438A KR20080125438A KR20100066920A KR 20100066920 A KR20100066920 A KR 20100066920A KR 1020080125438 A KR1020080125438 A KR 1020080125438A KR 20080125438 A KR20080125438 A KR 20080125438A KR 20100066920 A KR20100066920 A KR 20100066920A
Authority
KR
South Korea
Prior art keywords
duplicate
document
sentence
electronic document
hash
Prior art date
Application number
KR1020080125438A
Other languages
English (en)
Inventor
윤여찬
장명길
김현기
황이규
임수종
허정
이충희
오효정
이창기
최미란
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080125438A priority Critical patent/KR20100066920A/ko
Priority to US12/635,042 priority patent/US20100145952A1/en
Publication of KR20100066920A publication Critical patent/KR20100066920A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다수의 전자 문서 셋에서 중복 문서를 판별하는 기법에 관한 것으로, 이를 위하여 본 발명은, 전자 문서의 내용을 해쉬값으로 변환하고 이의 충돌 여부에 따라 중복 문서임을 판단하는 종래 방법과는 달리, 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단함으로써, 전자 문서 내 각 문장의 중복 여부에 따라 해당 전자 문서의 중복 여부를 판단할 수 있는 것이다.
문서 처리, 중복 문서

Description

전자 문서 처리 장치 및 그 방법{ELECTRONIC DOCUMENT PROCESSING APPARATUS AND ITS METHOD}
본 발명은 중복 문서에 대한 문서 처리 기법에 관한 것으로, 더욱 상세하게는 처리 대상의 문서에 대해 중복 문서를 판별하여 처리 대상에서 제외하는데 적합한 전자 문서 처리 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-034-03, 과제명: 국가 IT온톨로지 인프라 기술개발].
잘 알려진 바와 같이, 웹의 성장과 함께 다양한 주제에 대한 전자 문서가 생성되었고, 타인이 작성한 문서를 스크랩하여 자신의 블로그나 사이트에 기재하는 현상이 빈번하게 발생하게 되었다.
이러한 현상으로 인하여 웹에는 본문 내용이 중복된 전자 문서가 빈번하게 등재되었고, 이를 검색해 주는 웹/블로그 검색, 질의응답 등의 시스템에서는 같은 내용의 전자 문서를 여러 번 검색하여 색인하게 됨으로써 사용자의 만족도를 저하 시키게 되었다.
이에 따라, 블로그 문서, 웹 문서 등의 전자 문서에 대하여 다른 전자 문서와 내용이 중복된 문서를 판별, 제거하고 이를 통해 문서 처리의 성능을 높이는 중복 문서 제거 기법들이 제안되고 있다.
중복 문서를 제거하는 대표적인 기법으로, 전자 문서의 내용을 추출하고 이를 해쉬 함수를 이용하여 전자 문서의 내용과 숫자 값이 1:1 대응되는 해쉬값으로 변환한 후, 이를 이용하여 해쉬값의 충돌이 발생할 경우 중복 문서로 판단하는 방식의 신택스 필터링(syntactic filtering) 방법이 있다. 하지만, 이러한 신택스 필터링 기법을 이용하여 중복 문서를 판단할 경우 전자 문서의 내용이 단 1bit만 변경되어도 이를 중복된 문서로 판별하지 못하는 문제점이 있다.
이러한 문제를 해결하기 위해 조사, 대명사와 같이 전체 문서 셋에서 빈번하게 출현하는 단어를 제외하고 남은 중요한 단어들에 대해서만 이를 해쉬값으로 변환한 후, 그 문서의 중복 여부를 판별하는 보완 방법이 제안되고 있다.
하지만, 종래의 신택스 필터링 방법에 대한 보완 방법은 문서 셋(set) 전체에서 빈번하게 사용되는 단어가 삭제되거나 추가되어 전자 문서의 내용에 변경 사항이 있는 경우에도 중복 문서 판별이 용이하지만 짧은 문서나, 빈번하게 사용되는 단어들만이 주로 사용된 전자 문서에 대해서는 모든 단어 혹은 대다수의 단어가 제 외됨으로써, 중복 문서 판별에 오류가 생긴다는 단점이 있으며, 빈번하게 사용되지 않은 한, 두 개의 중요 단어만 추가가 되어도 중복 문서 판별에 오류가 발생하는 문제점이 있었다.
이에 따라, 본 발명은 전자 문서 내 포함된 문장에 대한 중복 여부를 해쉬 알고리즘을 이용하여 판별한 후, 문장의 중복 비율을 비교하여 해당 전자 문서의 중복 여부를 판별할 수 있는 전자 문서 처리 장치 및 그 방법을 제공하고자 한다.
일 관점에서 본 발명은, 다수의 문서 셋 중에서 전자 문서를 추출하고, 상기 추출된 전자 문서의 본문 내용을 추출하는 문서 추출 블록과, 상기 추출된 본문 내용에서 각 문장을 분리하는 문장 분리 블록과, 상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하고, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하고, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 중복 문서 판별 블록을 포함하는 전자 문서 처리 장치를 제공한다.
다른 관점에서 본 발명은, 다수의 문서 셋 중에서 전자 문서를 추출하여 그 본문 내용을 추출하는 단계와, 상기 추출된 본문 내용에서 각 문장을 분리하는 단계와, 상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하는 단계와, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하는 단계와, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 단계를 포함하는 전자 문서 처리 방법을 제공한다.
본 발명은, 중복 문서인지를 판단하기 위한 전자 문서에 대해 본문 내용을 추출한 후, 추출된 본문 내용을 각각의 문장으로 분리하고, 해쉬 알고리즘을 이용하여 해쉬값으로 변환한 후, 기 저장된 해쉬값과 비교하여 충돌하는 문장을 중복 문장으로 판단하고, 해당 전자 문서의 중복 문장 비율에 따라 중복 문서 여부를 판단함으로써, 질의 응답 시스템, 웹/블로그 검색, 정보 검색 등의 전자 문서 처리가 필요한 시스템에 적용하여 대상이 되는 전자 문서를 효과적으로 감소시킬 수 있어 색인, 검색, 질의 응답의 효율성을 증가시킬 수 있으며, 사용자의 만족도를 높일 수 있다.
본 발명의 기술 요지는, 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하 게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따라 전자 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 전자 문서의 중복 여부를 판별하는데 적합한 전자 문서 처리 장치의 블록 구성도로서, 문서 셋 저장 블록(102), 문서 추출 블록(104), 문장 분리 블록(106) 및 중복 문서 판별 블록(108)을 포함한다.
도 1을 참조하면, 문서 셋 저장 블록(102)은 블로그 문서, 웹 문서 등의 대용량 전자 문서를 저장하는 것으로, 각각의 전자 문서를 해쉬 알고리즘을 이용하여 해쉬 테이블화하여 저장해 두고, 중복 여부를 판별하고자 하는 전자 문서를 문서 추출 블록(104)으로 전달하고, 중복 문서 판별 블록(108)을 통한 중복 여부 판별을 위해 해쉬 테이블화되어 저장된 전자 문서의 해쉬값을 추출하여 중복 문서 판별 블록(108)으로 전달하고, 중복 문서 판별 블록(108)으로부터 전달되는 미중복 문장을 해쉬 테이블화하여 저장한다.
그리고, 문서 추출 블록(104)은 문서 셋 저장 블록(102)에 저장된 문서 셋(set)에서 중복 여부를 판별하기 위한 전자 문서를 추출하고, 추출된 전자 문서의 본문 내용을 추출하여 문장 분리 블록(106)으로 전달한다. 여기에서, 전자 문서는, 예를 들면, HTML, TXT, DOC, HWP 등을 포함하는 모든 형태의 전자 문서를 의미한다.
다음에, 문장 분리 블록(106)은 문서 추출 블록(104)으로부터 전달되는 전자 문서의 본문 내용을 형태소 분석기, 문장 분리기 등을 이용하여 문장 단위로 분리한 후에, 분리된 각각의 문장을 중복 문서 판별 블록(108)으로 전달한다.
한편, 중복 문서 판별 블록(108)은 각 문장을 md5(message-digest algorithm 5) 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시키고, 변환된 해쉬값이 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 충돌이 있는지의 여부를 판별하여, 충돌이 있을 경우에 문장이 중복된 것으로 판단하고, 그렇지 않은 경우 해당 문장을 미중복 문장으로 판단한다.
또한, 중복 문서 판별 블록(108)은 해당 전자 문서의 모든 문장에 대한 판단 결과에 따라 중복된 문장의 수를 산출하고, 전제 문장에 대해서 문장 중복 비율을 산출한 후에, 문장 중복 비율이 기 설정된 비율값을 초과하는 경우 중복 문서로 판별하여 문서 처리 대상에서 제외하고, 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 해당 전자 문서를 문서 처리 대상에 포함시켜 문서 셋 저장 블록(102)에 저장한다.
이러한 문장 중복 비율을 비교 체크하는 과정을 통해 가능한 많은 중복 문서를 제거할 필요가 있는 시스템에서는 중복 비율값을 낮은 값으로 설정하여 많은 전자 문서를 중복 문서로 판별하여 제거할 수 있고, 가능한 많은 전자 문서를 검색해야할 필요가 있는 시스템에서는 중복 비율값을 높은 값으로 설정하여 많은 전자 문서를 검색하여 처리 대상 문서에 포함시킬 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 전자 문서 처리 장치에서 분리된 문 장들을 해쉬 알고리즘에 따라 해쉬값으로 변환하고, 변환된 해쉬값이 기 저장된 해쉬값과 충돌하는지의 여부에 따라 중복 문장을 판별하며, 각 문장에 대한 중복 비율을 기 설정된 비율값과 비교하여 중복 문서를 선택적으로 판단하는 중복 문서 판별 블록에 대해 설명한다.
도 2는 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 중복 문서 판별 블록의 블록 구성도로서, 중복 문서 판별 블록(108)은 해쉬 변환부(202), 중복 문장 판별부(204) 및 중복 비율 비교부(206)를 포함한다.
도 2를 참조하면, 해쉬 변환부(202)는 문장 분리 블록(106)으로부터 전달되는 각각의 분리된 문장들을 md5 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시켜 이러한 해쉬값을 중복 문장 판별부(204)로 전달한다.
그리고, 중복 문장 판별부(204)는 해쉬 변환부(202)로부터 전달되는 해쉬값을 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 비교한 후, 충돌 여부를 판단하고, 충돌이 발생할 경우 중복 문장인 것으로 판단하며, 충돌이 발생하지 않은 경우 미중복 문장으로 판단하여 이를 해쉬 테이블화한 후 문서 셋 저장 블록(102)에 저장한다. 여기에서, 중복 문장 판별부(204)는 전달되는 모든 문장의 해쉬값에 대해 충돌 여부를 판단한 후에, 그 판단 결과를 중복 비율 비교부(206)로 전달한다.
다음에, 중복 비율 비교부(206)는 중복 문장 판별부(204)로부터 충돌 여부에 대한 판단 결과를 전달받아 중복 문장의 수를 산출하고, 전체 문서에서 문장 중복 비율을 산출하며, 산출된 문장 중복 비율이 기 설정된 비율값을 초과할 경우 중복 문서로 판단하여 문서 처리 대상에서 제외하고, 산출된 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 문서 처리 대상에 포함시켜 이를 문서 셋 저장 블록(102)에 저장한다.
다음에, 상술한 바와 같은 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단하는 과정에 대해 설명한다.
도 3은 본 발명의 일 실시 예에 따라 문장의 중복 여부와 중복 비율에 따라 중복 문서 여부를 판별하는 과정을 도시한 플로우차트이다.
도 3을 참조하면, 문서 추출 블록(104)에서는 문서 셋 저장 블록(102)에 저장된 문서 셋(set)에서 중복 여부를 판별하기 위한 전자 문서를 추출 및 입력한다(단계302). 여기에서, 전자 문서는, 예를 들면, HTML, TXT, DOC, HWP 등을 포함하는 모든 형태의 전자 문서를 의미한다. 일 예로서, 도 4a 및 도 4b는 중복 문서를 예시한 도면으로, 도 4a에 도시한 바와 같은 ‘패스트볼’에 대한 전자 문서의 내용을 도 4b에 도시한 바와 같은 다른 전자 문서의 내용으로 스크랩하여 구성된 예를 나타낸다.
그리고, 문서 추출 블록(104)에서는 추출된 전자 문서에서 부가 정보(예를 들면, 제목, 게시자, 출처 등)를 제외한 본문 내용만을 추출하여 문장 분리 블록(106)으로 전달한다(단계304).
다음에, 문장 분리 블록(106)에서는 문서 추출 블록(104)으로부터 전달되는 전자 문서의 본문 내용을 형태소 분석기, 문장 분리기 등을 이용하여 문장 단위로 분리한 후에, 분리된 각각의 문장을 중복 문서 판별 블록(108)으로 전달한다(단계306).
한편, 중복 문서 판별 블록(108)의 해쉬 변환부(202)에서는 문장 분리 블록(106)으로부터 전달되는 각각의 분리된 문장들을 md5 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시켜 이러한 해쉬값을 중복 문장 판별부(204)로 전달한다(단계308).
그리고, 중복 문장 판별부(204)에서는 해쉬 변환부(202)로부터 전달되는 해쉬값을 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 비교하여 충돌이 발생하는지를 체크한다(단계310).
상기 단계(310)에서의 체크 결과, 충돌이 발생하지 않은 경우 중복 문장 판별부(204)에서는 해당 해쉬값을 갖는 문장을 미중복 문장으로 판단하여 이를 해쉬 테이블화한 후, 문서 셋 저장 블록(102)에 저장하며(단계312), 충돌이 발생할 경우 중복 문장 판별부(204)에서는 해당 해쉬값을 갖는 문장을 중복 문장인 것으로 판단한다(단계314). 여기에서, 중복 문장 판별부(204)에서는 전달되는 모든 문장의 해쉬값에 대해 충돌 여부를 판단한 후에, 그 판단 결과를 중복 비율 비교부(206)로 전달한다.
다음에, 중복 비율 비교부(206)에서는 중복 문장 판별부(204)로부터 충돌 여부에 대한 판단 결과를 전달받아 중복 문장의 수를 산출하고, 전체 문서에서 문장 중복 비율을 산출한다(단계316).
그리고, 중복 비율 비교부(206)에서는 산출된 문장 중복 비율이 기 설정된 비율값을 초과하는지를 체크한다(단계318).
상기 단계(318)에서의 체크 결과, 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 중복 비율 비교부(206)에서는 해당 전자 문서를 문서 처리 대상에 포함시켜 문서 셋 저장 블록(102)에 저장한다(단계320).
한편, 상기 단계(318)에서의 체크 결과, 문장 중복 비율이 기 설정된 비율값을 초과한 경우 중복 비율 비교부(206)에서는 해당 전자 문서를 문서 처리 대상에서 제외시킨다(단계322). 이러한 과정에 따라 문서 처리 대상에서 제외시킨 전자 문서는 문서 셋 저장 블록(102)에서 삭제될 수 있다.
일 예로서, 도 5a 및 도 5b는 원본 문서와 부가 정보가 표시된 전자 문서를 예시한 도면으로, 도 5b에 도시한 바와 같은 ‘세계는 아프간을 어떻게 보나’대한 원본 문서와 도 5a에 도시한 바와 같이 추가된 부분(부가 정보)이 포함된 전자 문서를 나타내며, 추가된 부분이 있을지라도 문장 중복 비율이 상대적으로 매우 높은 값을 갖기 때문에 이러한 전자 문서는 중복 문서로 판단될 수 있다.
따라서, 중복 문서인지를 판단하기 위한 전자 문서에 대해 본문 내용을 추출한 후, 추출된 본문 내용을 각각의 문장으로 분리하고, 해쉬 알고리즘을 이용하여 해쉬값으로 변환한 후, 기 저장된 해쉬값과 비교하여 충돌하는 문장을 중복 문장으 로 판단하고, 해당 전자 문서의 중복 문장 비율에 따라 중복 문서 여부를 쉽게 판단할 수 있다.
이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 문서 처리 장치의 블록 구성도,
도 2는 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 중복 문서 판별 블록의 블록 구성도,
도 3은 본 발명의 일 실시 예에 따라 문장의 중복 여부와 중복 비율에 따라 중복 문서 여부를 판별하는 과정을 도시한 플로우차트,
도 4a 및 도 4b는 중복 문서를 예시한 도면,
도 5a 및 도 5b는 원본 문서와 부가 정보가 표시된 전자 문서를 예시한 도면.
<도면의 주요부분에 대한 부호의 설명>
102 : 문서 셋 저장 블록 104 : 문서 추출 블록
106 : 문장 분리 블록 108 : 중복 문서 판별 블록
202 : 해쉬 변환부 204 : 중복 문장 판별부
206 : 중복 비율 비교부

Claims (10)

  1. 다수의 문서 셋 중에서 전자 문서를 추출하고, 상기 추출된 전자 문서의 본문 내용을 추출하는 문서 추출 블록과,
    상기 추출된 본문 내용에서 각 문장을 분리하는 문장 분리 블록과,
    상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하고, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하고, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 중복 문서 판별 블록
    을 포함하는 전자 문서 처리 장치.
  2. 제 1 항에 있어서,
    상기 중복 문서 판별 블록은,
    상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 해쉬 변환부와,
    상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 중복 문장 판별부와,
    상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 중복 비율 비교부
    를 포함하는 전자 문서 처리 장치.
  3. 제 2 항에 있어서,
    상기 중복 문장 판별부는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 장치.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 해쉬 알고리즘은, md5(message-digest algorithm 5)인 전자 문서 처리 장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 전자 문서는, HTML, TXT, DOC, HWP 중 어느 하나의 형태를 갖는 전자 문서 처리 장치.
  6. 다수의 문서 셋 중에서 전자 문서를 추출하여 그 본문 내용을 추출하는 단계와,
    상기 추출된 본문 내용에서 각 문장을 분리하는 단계와,
    상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하는 단계와,
    상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하는 단계와,
    상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 단계
    를 포함하는 전자 문서 처리 방법.
  7. 제 6 항에 있어서,
    상기 고유한 해쉬값으로 변환하는 단계는, 상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 전자 문서 처리 방법.
  8. 제 6 항에 있어서,
    상기 중복 문장 여부를 판단하는 단계는, 상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 전자 문서 처리 방법.
  9. 제 8 항에 있어서,
    상기 중복 문서 여부를 판단하는 단계는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 방법.
  10. 제 6 항에 있어서,
    상기 중복 문서 여부를 판단하는 단계는, 상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 전자 문서 처리 방법.
KR1020080125438A 2008-12-10 2008-12-10 전자 문서 처리 장치 및 그 방법 KR20100066920A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080125438A KR20100066920A (ko) 2008-12-10 2008-12-10 전자 문서 처리 장치 및 그 방법
US12/635,042 US20100145952A1 (en) 2008-12-10 2009-12-10 Electronic document processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125438A KR20100066920A (ko) 2008-12-10 2008-12-10 전자 문서 처리 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20100066920A true KR20100066920A (ko) 2010-06-18

Family

ID=42232200

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125438A KR20100066920A (ko) 2008-12-10 2008-12-10 전자 문서 처리 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20100145952A1 (ko)
KR (1) KR20100066920A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160128624A (ko) 2015-04-29 2016-11-08 주식회사 데이타솔루션 전자 문서 간 내용의 중복성 검토를 위한 전자적 방법 및 그 시스템
CN112001161A (zh) * 2020-08-25 2020-11-27 上海新炬网络信息技术股份有限公司 一种文本查重方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9449114B2 (en) * 2010-04-15 2016-09-20 Paypal, Inc. Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
JP5316711B2 (ja) * 2010-06-10 2013-10-16 日本電気株式会社 ファイル記憶装置、ファイル記憶方法およびプログラム
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备
CN104123309B (zh) * 2013-04-28 2017-08-25 国际商业机器公司 用于数据管理的方法和系统
KR101577376B1 (ko) * 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
US11341761B2 (en) * 2019-07-02 2022-05-24 Microsoft Technology Licensing, Llc Revealing content reuse using fine analysis
US11710330B2 (en) 2019-07-02 2023-07-25 Microsoft Technology Licensing, Llc Revealing content reuse using coarse analysis

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021202A (en) * 1996-12-20 2000-02-01 Financial Services Technology Consortium Method and system for processing electronic documents
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US7096421B2 (en) * 2002-03-18 2006-08-22 Sun Microsystems, Inc. System and method for comparing hashed XML files
US7725475B1 (en) * 2004-02-11 2010-05-25 Aol Inc. Simplifying lexicon creation in hybrid duplicate detection and inductive classifier systems
US7603370B2 (en) * 2004-03-22 2009-10-13 Microsoft Corporation Method for duplicate detection and suppression
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US20070050423A1 (en) * 2005-08-30 2007-03-01 Scentric, Inc. Intelligent general duplicate management system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160128624A (ko) 2015-04-29 2016-11-08 주식회사 데이타솔루션 전자 문서 간 내용의 중복성 검토를 위한 전자적 방법 및 그 시스템
CN112001161A (zh) * 2020-08-25 2020-11-27 上海新炬网络信息技术股份有限公司 一种文本查重方法
CN112001161B (zh) * 2020-08-25 2024-01-19 上海新炬网络信息技术股份有限公司 一种文本查重方法

Also Published As

Publication number Publication date
US20100145952A1 (en) 2010-06-10

Similar Documents

Publication Publication Date Title
KR20100066920A (ko) 전자 문서 처리 장치 및 그 방법
US8402036B2 (en) Phrase based snippet generation
EP3370183B1 (en) Characterizing malware files for similarity searching
US20110302179A1 (en) Using Context to Extract Entities from a Document Collection
WO2011092465A1 (en) Semantic textual analysis
CN111581355A (zh) 威胁情报的主题检测方法、装置和计算机存储介质
Beel et al. Docear's PDF inspector: Title extraction from PDF files
Vani et al. Investigating the impact of combined similarity metrics and POS tagging in extrinsic text plagiarism detection system
CN105447169A (zh) 文献归一方法、文献搜索方法及对应装置
Mazari et al. Automatic Construction of Ontology from Arabic Texts.
Sindhu et al. Fingerprinting based detection system for identifying plagiarism in Malayalam text documents
Madani et al. Fake news detection using deep learning integrating feature extraction, natural language processing, and statistical descriptors
Saneifar et al. Terminology extraction from log files
Ceglarek Architecture of the semantically enhanced intellectual property protection system
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Lin et al. Online Plagiarized Detection Through Exploiting Lexical, Syntax, and Semantic Information
CN115438147A (zh) 面向轨道交通领域的信息检索方法及系统
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR101545273B1 (ko) 클러스터링 및 해싱을 이용하여 빅데이터 텍스트의 중복여부를 검출하는 중복문서 검출장치 및 방법
KR20210089429A (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
Wang et al. Exploiting sentence-level features for near-duplicate document detection
Ming et al. Resolving polysemy and pseudonymity in entity linking with comprehensive name and context modeling
Joshi et al. Plagiarism detection over the web
KR20160033563A (ko) 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
Rahaman et al. Language independent statistical approach for extracting keywords

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application