KR20100066920A

KR20100066920A - 전자 문서 처리 장치 및 그 방법

Info

Publication number: KR20100066920A
Application number: KR1020080125438A
Authority: KR
Inventors: 윤여찬; 장명길; 김현기; 황이규; 임수종; 허정; 이충희; 오효정; 이창기; 최미란
Original assignee: 한국전자통신연구원
Priority date: 2008-12-10
Filing date: 2008-12-10
Publication date: 2010-06-18
Also published as: US20100145952A1

Abstract

본 발명은 다수의 전자 문서 셋에서 중복 문서를 판별하는 기법에 관한 것으로, 이를 위하여 본 발명은, 전자 문서의 내용을 해쉬값으로 변환하고 이의 충돌 여부에 따라 중복 문서임을 판단하는 종래 방법과는 달리, 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단함으로써, 전자 문서 내 각 문장의 중복 여부에 따라 해당 전자 문서의 중복 여부를 판단할 수 있는 것이다.

문서 처리, 중복 문서

Description

전자 문서 처리 장치 및 그 방법{ELECTRONIC DOCUMENT PROCESSING APPARATUS AND ITS METHOD}

본 발명은 중복 문서에 대한 문서 처리 기법에 관한 것으로, 더욱 상세하게는 처리 대상의 문서에 대해 중복 문서를 판별하여 처리 대상에서 제외하는데 적합한 전자 문서 처리 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-034-03, 과제명: 국가 IT온톨로지 인프라 기술개발].

잘 알려진 바와 같이, 웹의 성장과 함께 다양한 주제에 대한 전자 문서가 생성되었고, 타인이 작성한 문서를 스크랩하여 자신의 블로그나 사이트에 기재하는 현상이 빈번하게 발생하게 되었다.

이러한 현상으로 인하여 웹에는 본문 내용이 중복된 전자 문서가 빈번하게 등재되었고, 이를 검색해 주는 웹/블로그 검색, 질의응답 등의 시스템에서는 같은 내용의 전자 문서를 여러 번 검색하여 색인하게 됨으로써 사용자의 만족도를 저하 시키게 되었다.

이에 따라, 블로그 문서, 웹 문서 등의 전자 문서에 대하여 다른 전자 문서와 내용이 중복된 문서를 판별, 제거하고 이를 통해 문서 처리의 성능을 높이는 중복 문서 제거 기법들이 제안되고 있다.

중복 문서를 제거하는 대표적인 기법으로, 전자 문서의 내용을 추출하고 이를 해쉬 함수를 이용하여 전자 문서의 내용과 숫자 값이 1:1 대응되는 해쉬값으로 변환한 후, 이를 이용하여 해쉬값의 충돌이 발생할 경우 중복 문서로 판단하는 방식의 신택스 필터링(syntactic filtering) 방법이 있다. 하지만, 이러한 신택스 필터링 기법을 이용하여 중복 문서를 판단할 경우 전자 문서의 내용이 단 1bit만 변경되어도 이를 중복된 문서로 판별하지 못하는 문제점이 있다.

이러한 문제를 해결하기 위해 조사, 대명사와 같이 전체 문서 셋에서 빈번하게 출현하는 단어를 제외하고 남은 중요한 단어들에 대해서만 이를 해쉬값으로 변환한 후, 그 문서의 중복 여부를 판별하는 보완 방법이 제안되고 있다.

하지만, 종래의 신택스 필터링 방법에 대한 보완 방법은 문서 셋(set) 전체에서 빈번하게 사용되는 단어가 삭제되거나 추가되어 전자 문서의 내용에 변경 사항이 있는 경우에도 중복 문서 판별이 용이하지만 짧은 문서나, 빈번하게 사용되는 단어들만이 주로 사용된 전자 문서에 대해서는 모든 단어 혹은 대다수의 단어가 제 외됨으로써, 중복 문서 판별에 오류가 생긴다는 단점이 있으며, 빈번하게 사용되지 않은 한, 두 개의 중요 단어만 추가가 되어도 중복 문서 판별에 오류가 발생하는 문제점이 있었다.

이에 따라, 본 발명은 전자 문서 내 포함된 문장에 대한 중복 여부를 해쉬 알고리즘을 이용하여 판별한 후, 문장의 중복 비율을 비교하여 해당 전자 문서의 중복 여부를 판별할 수 있는 전자 문서 처리 장치 및 그 방법을 제공하고자 한다.

일 관점에서 본 발명은, 다수의 문서 셋 중에서 전자 문서를 추출하고, 상기 추출된 전자 문서의 본문 내용을 추출하는 문서 추출 블록과, 상기 추출된 본문 내용에서 각 문장을 분리하는 문장 분리 블록과, 상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하고, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하고, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 중복 문서 판별 블록을 포함하는 전자 문서 처리 장치를 제공한다.

다른 관점에서 본 발명은, 다수의 문서 셋 중에서 전자 문서를 추출하여 그 본문 내용을 추출하는 단계와, 상기 추출된 본문 내용에서 각 문장을 분리하는 단계와, 상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하는 단계와, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하는 단계와, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 단계를 포함하는 전자 문서 처리 방법을 제공한다.

본 발명은, 중복 문서인지를 판단하기 위한 전자 문서에 대해 본문 내용을 추출한 후, 추출된 본문 내용을 각각의 문장으로 분리하고, 해쉬 알고리즘을 이용하여 해쉬값으로 변환한 후, 기 저장된 해쉬값과 비교하여 충돌하는 문장을 중복 문장으로 판단하고, 해당 전자 문서의 중복 문장 비율에 따라 중복 문서 여부를 판단함으로써, 질의 응답 시스템, 웹/블로그 검색, 정보 검색 등의 전자 문서 처리가 필요한 시스템에 적용하여 대상이 되는 전자 문서를 효과적으로 감소시킬 수 있어 색인, 검색, 질의 응답의 효율성을 증가시킬 수 있으며, 사용자의 만족도를 높일 수 있다.

본 발명의 기술 요지는, 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하 게 설명한다.

도 1은 본 발명의 바람직한 실시 예에 따라 전자 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 전자 문서의 중복 여부를 판별하는데 적합한 전자 문서 처리 장치의 블록 구성도로서, 문서 셋 저장 블록(102), 문서 추출 블록(104), 문장 분리 블록(106) 및 중복 문서 판별 블록(108)을 포함한다.

도 1을 참조하면, 문서 셋 저장 블록(102)은 블로그 문서, 웹 문서 등의 대용량 전자 문서를 저장하는 것으로, 각각의 전자 문서를 해쉬 알고리즘을 이용하여 해쉬 테이블화하여 저장해 두고, 중복 여부를 판별하고자 하는 전자 문서를 문서 추출 블록(104)으로 전달하고, 중복 문서 판별 블록(108)을 통한 중복 여부 판별을 위해 해쉬 테이블화되어 저장된 전자 문서의 해쉬값을 추출하여 중복 문서 판별 블록(108)으로 전달하고, 중복 문서 판별 블록(108)으로부터 전달되는 미중복 문장을 해쉬 테이블화하여 저장한다.

그리고, 문서 추출 블록(104)은 문서 셋 저장 블록(102)에 저장된 문서 셋(set)에서 중복 여부를 판별하기 위한 전자 문서를 추출하고, 추출된 전자 문서의 본문 내용을 추출하여 문장 분리 블록(106)으로 전달한다. 여기에서, 전자 문서는, 예를 들면, HTML, TXT, DOC, HWP 등을 포함하는 모든 형태의 전자 문서를 의미한다.

다음에, 문장 분리 블록(106)은 문서 추출 블록(104)으로부터 전달되는 전자 문서의 본문 내용을 형태소 분석기, 문장 분리기 등을 이용하여 문장 단위로 분리한 후에, 분리된 각각의 문장을 중복 문서 판별 블록(108)으로 전달한다.

한편, 중복 문서 판별 블록(108)은 각 문장을 md5(message-digest algorithm 5) 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시키고, 변환된 해쉬값이 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 충돌이 있는지의 여부를 판별하여, 충돌이 있을 경우에 문장이 중복된 것으로 판단하고, 그렇지 않은 경우 해당 문장을 미중복 문장으로 판단한다.

또한, 중복 문서 판별 블록(108)은 해당 전자 문서의 모든 문장에 대한 판단 결과에 따라 중복된 문장의 수를 산출하고, 전제 문장에 대해서 문장 중복 비율을 산출한 후에, 문장 중복 비율이 기 설정된 비율값을 초과하는 경우 중복 문서로 판별하여 문서 처리 대상에서 제외하고, 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 해당 전자 문서를 문서 처리 대상에 포함시켜 문서 셋 저장 블록(102)에 저장한다.

이러한 문장 중복 비율을 비교 체크하는 과정을 통해 가능한 많은 중복 문서를 제거할 필요가 있는 시스템에서는 중복 비율값을 낮은 값으로 설정하여 많은 전자 문서를 중복 문서로 판별하여 제거할 수 있고, 가능한 많은 전자 문서를 검색해야할 필요가 있는 시스템에서는 중복 비율값을 높은 값으로 설정하여 많은 전자 문서를 검색하여 처리 대상 문서에 포함시킬 수 있다.

다음에, 상술한 바와 같은 구성을 갖는 전자 문서 처리 장치에서 분리된 문 장들을 해쉬 알고리즘에 따라 해쉬값으로 변환하고, 변환된 해쉬값이 기 저장된 해쉬값과 충돌하는지의 여부에 따라 중복 문장을 판별하며, 각 문장에 대한 중복 비율을 기 설정된 비율값과 비교하여 중복 문서를 선택적으로 판단하는 중복 문서 판별 블록에 대해 설명한다.

도 2는 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 중복 문서 판별 블록의 블록 구성도로서, 중복 문서 판별 블록(108)은 해쉬 변환부(202), 중복 문장 판별부(204) 및 중복 비율 비교부(206)를 포함한다.

도 2를 참조하면, 해쉬 변환부(202)는 문장 분리 블록(106)으로부터 전달되는 각각의 분리된 문장들을 md5 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시켜 이러한 해쉬값을 중복 문장 판별부(204)로 전달한다.

그리고, 중복 문장 판별부(204)는 해쉬 변환부(202)로부터 전달되는 해쉬값을 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 비교한 후, 충돌 여부를 판단하고, 충돌이 발생할 경우 중복 문장인 것으로 판단하며, 충돌이 발생하지 않은 경우 미중복 문장으로 판단하여 이를 해쉬 테이블화한 후 문서 셋 저장 블록(102)에 저장한다. 여기에서, 중복 문장 판별부(204)는 전달되는 모든 문장의 해쉬값에 대해 충돌 여부를 판단한 후에, 그 판단 결과를 중복 비율 비교부(206)로 전달한다.

다음에, 중복 비율 비교부(206)는 중복 문장 판별부(204)로부터 충돌 여부에 대한 판단 결과를 전달받아 중복 문장의 수를 산출하고, 전체 문서에서 문장 중복 비율을 산출하며, 산출된 문장 중복 비율이 기 설정된 비율값을 초과할 경우 중복 문서로 판단하여 문서 처리 대상에서 제외하고, 산출된 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 문서 처리 대상에 포함시켜 이를 문서 셋 저장 블록(102)에 저장한다.

다음에, 상술한 바와 같은 전자 문서 처리 장치를 이용하여 입력되는 전자 문서의 본문 내용을 추출한 후 각각의 문장을 분리하고, 분리된 각 문장을 해쉬 알고리즘을 통해 변환하며, 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단한 후에, 중복 문장 비율을 산출하여 기 설정된 비율값에 따라 선택적으로 중복 문서임을 판단하는 과정에 대해 설명한다.

도 3은 본 발명의 일 실시 예에 따라 문장의 중복 여부와 중복 비율에 따라 중복 문서 여부를 판별하는 과정을 도시한 플로우차트이다.

도 3을 참조하면, 문서 추출 블록(104)에서는 문서 셋 저장 블록(102)에 저장된 문서 셋(set)에서 중복 여부를 판별하기 위한 전자 문서를 추출 및 입력한다(단계302). 여기에서, 전자 문서는, 예를 들면, HTML, TXT, DOC, HWP 등을 포함하는 모든 형태의 전자 문서를 의미한다. 일 예로서, 도 4a 및 도 4b는 중복 문서를 예시한 도면으로, 도 4a에 도시한 바와 같은 ‘패스트볼’에 대한 전자 문서의 내용을 도 4b에 도시한 바와 같은 다른 전자 문서의 내용으로 스크랩하여 구성된 예를 나타낸다.

그리고, 문서 추출 블록(104)에서는 추출된 전자 문서에서 부가 정보(예를 들면, 제목, 게시자, 출처 등)를 제외한 본문 내용만을 추출하여 문장 분리 블록(106)으로 전달한다(단계304).

다음에, 문장 분리 블록(106)에서는 문서 추출 블록(104)으로부터 전달되는 전자 문서의 본문 내용을 형태소 분석기, 문장 분리기 등을 이용하여 문장 단위로 분리한 후에, 분리된 각각의 문장을 중복 문서 판별 블록(108)으로 전달한다(단계306).

한편, 중복 문서 판별 블록(108)의 해쉬 변환부(202)에서는 문장 분리 블록(106)으로부터 전달되는 각각의 분리된 문장들을 md5 등의 해쉬 알고리즘을 이용하여 문장 내 각각의 문자들을 고유한 해쉬값으로 변환시켜 이러한 해쉬값을 중복 문장 판별부(204)로 전달한다(단계308).

그리고, 중복 문장 판별부(204)에서는 해쉬 변환부(202)로부터 전달되는 해쉬값을 문서 셋 저장 블록(102)에 문서 셋의 문장들에 대응하여 기 저장된 해쉬값과 비교하여 충돌이 발생하는지를 체크한다(단계310).

상기 단계(310)에서의 체크 결과, 충돌이 발생하지 않은 경우 중복 문장 판별부(204)에서는 해당 해쉬값을 갖는 문장을 미중복 문장으로 판단하여 이를 해쉬 테이블화한 후, 문서 셋 저장 블록(102)에 저장하며(단계312), 충돌이 발생할 경우 중복 문장 판별부(204)에서는 해당 해쉬값을 갖는 문장을 중복 문장인 것으로 판단한다(단계314). 여기에서, 중복 문장 판별부(204)에서는 전달되는 모든 문장의 해쉬값에 대해 충돌 여부를 판단한 후에, 그 판단 결과를 중복 비율 비교부(206)로 전달한다.

다음에, 중복 비율 비교부(206)에서는 중복 문장 판별부(204)로부터 충돌 여부에 대한 판단 결과를 전달받아 중복 문장의 수를 산출하고, 전체 문서에서 문장 중복 비율을 산출한다(단계316).

그리고, 중복 비율 비교부(206)에서는 산출된 문장 중복 비율이 기 설정된 비율값을 초과하는지를 체크한다(단계318).

상기 단계(318)에서의 체크 결과, 문장 중복 비율이 기 설정된 비율값을 초과하지 않은 경우 중복 비율 비교부(206)에서는 해당 전자 문서를 문서 처리 대상에 포함시켜 문서 셋 저장 블록(102)에 저장한다(단계320).

한편, 상기 단계(318)에서의 체크 결과, 문장 중복 비율이 기 설정된 비율값을 초과한 경우 중복 비율 비교부(206)에서는 해당 전자 문서를 문서 처리 대상에서 제외시킨다(단계322). 이러한 과정에 따라 문서 처리 대상에서 제외시킨 전자 문서는 문서 셋 저장 블록(102)에서 삭제될 수 있다.

일 예로서, 도 5a 및 도 5b는 원본 문서와 부가 정보가 표시된 전자 문서를 예시한 도면으로, 도 5b에 도시한 바와 같은 ‘세계는 아프간을 어떻게 보나’대한 원본 문서와 도 5a에 도시한 바와 같이 추가된 부분(부가 정보)이 포함된 전자 문서를 나타내며, 추가된 부분이 있을지라도 문장 중복 비율이 상대적으로 매우 높은 값을 갖기 때문에 이러한 전자 문서는 중복 문서로 판단될 수 있다.

따라서, 중복 문서인지를 판단하기 위한 전자 문서에 대해 본문 내용을 추출한 후, 추출된 본문 내용을 각각의 문장으로 분리하고, 해쉬 알고리즘을 이용하여 해쉬값으로 변환한 후, 기 저장된 해쉬값과 비교하여 충돌하는 문장을 중복 문장으 로 판단하고, 해당 전자 문서의 중복 문장 비율에 따라 중복 문서 여부를 쉽게 판단할 수 있다.

이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

도 1은 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 문서 처리 장치의 블록 구성도,

도 2는 본 발명의 바람직한 실시 예에 따라 문서 내 각 문장의 중복 여부와 중복 비율에 따라 해당 문서의 중복 여부를 판별하는데 적합한 중복 문서 판별 블록의 블록 구성도,

도 3은 본 발명의 일 실시 예에 따라 문장의 중복 여부와 중복 비율에 따라 중복 문서 여부를 판별하는 과정을 도시한 플로우차트,

도 4a 및 도 4b는 중복 문서를 예시한 도면,

도 5a 및 도 5b는 원본 문서와 부가 정보가 표시된 전자 문서를 예시한 도면.

<도면의 주요부분에 대한 부호의 설명>

102 : 문서 셋 저장 블록 104 : 문서 추출 블록

106 : 문장 분리 블록 108 : 중복 문서 판별 블록

202 : 해쉬 변환부 204 : 중복 문장 판별부

206 : 중복 비율 비교부

Claims

다수의 문서 셋 중에서 전자 문서를 추출하고, 상기 추출된 전자 문서의 본문 내용을 추출하는 문서 추출 블록과,

상기 추출된 본문 내용에서 각 문장을 분리하는 문장 분리 블록과,

상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하고, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하고, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 중복 문서 판별 블록

을 포함하는 전자 문서 처리 장치.
제 1 항에 있어서,

상기 중복 문서 판별 블록은,

상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 해쉬 변환부와,

상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 중복 문장 판별부와,

상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 중복 비율 비교부

를 포함하는 전자 문서 처리 장치.
제 2 항에 있어서,

상기 중복 문장 판별부는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 장치.
제 1 항 또는 제 2 항에 있어서,

상기 해쉬 알고리즘은, md5(message-digest algorithm 5)인 전자 문서 처리 장치.
제 1 항 또는 제 2 항에 있어서,

상기 전자 문서는, HTML, TXT, DOC, HWP 중 어느 하나의 형태를 갖는 전자 문서 처리 장치.
다수의 문서 셋 중에서 전자 문서를 추출하여 그 본문 내용을 추출하는 단계와,

상기 추출된 본문 내용에서 각 문장을 분리하는 단계와,

상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하는 단계와,

상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하는 단계와,

상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 단계

를 포함하는 전자 문서 처리 방법.
제 6 항에 있어서,

상기 고유한 해쉬값으로 변환하는 단계는, 상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 전자 문서 처리 방법.
제 6 항에 있어서,

상기 중복 문장 여부를 판단하는 단계는, 상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 전자 문서 처리 방법.
제 8 항에 있어서,

상기 중복 문서 여부를 판단하는 단계는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 방법.
제 6 항에 있어서,

상기 중복 문서 여부를 판단하는 단계는, 상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 전자 문서 처리 방법.