KR100986404B1

KR100986404B1 - 블로그 환경에서 중복포스트의 검출 방법 및 그 장치

Info

Publication number: KR100986404B1
Application number: KR1020080063126A
Authority: KR
Inventors: 김상욱; 박희진; 이순행; 이상철
Original assignee: 한양대학교 산학협력단
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-10-08
Also published as: KR20100003032A

Abstract

중복포스트의 검출 방법 및 그 장치를 개시한다. 중복포스트의 검출 방법은, 제1 문서에 포함된 문장들의 특징을 나타내는 제1 특징 시퀀스 및 제2 문서에 포함된 문장들의 특징을 나타내는 제2 특징 시퀀스를 추출하는 단계와, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 추출하는 단계 및 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 이용하여 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계를 포함한다.

본 발명에서 대상으로 하는 중복 문서는 블로그 포스트의 앞 또는 뒤 부분의 내용만 수정이 있는 것을 대상으로 한다. 따라서, 본 발명에 따르면, 블로그 포스트의 중심 부분, 즉 중심 서브 시퀀스 만을 비교함으로써, 효과적인 중복판정이 가능하다.

블로그 포스트, 중복 문서, 중복포스트

Description

블로그 환경에서 중복포스트의 검출 방법 및 그 장치{METHOD AND APPARATUS FOR DETECTING DUPLICATE POSTS IN BLOG ENVIRONMENT}

이하의 설명은, 블로그 환경에서 중복 포스트(duplicate post)의 효과적인 검출 방법 및 그 장치 및 방법에 관한 것으로서, 특히 블로그 환경에서 발생되는 중복 포스트의 특성을 활용한 효과적인 중복 포스트 검출 방법 및 그 장치에 관한 것이다.

최근 들어, 블로그 사용의 활성화로 인해 블로그에 게시되는 웹 문서의 수가 급증하고 있다. 이로 인해 블로그에 게시된 문서들 중 사용자가 원하는 주제나 내용을 갖는 문서를 검색할 수 있는 블로그 검색 서비스의 중요성이 더욱 부각되고 있다. 블로그 사용자에 의해 블로그에 게시되는 웹 문서를 블로그 포스트(blog post) 또는 포스트(post)라고 한다.

블로그 포스트는 블로그 서비스 업체들에 의해 통합하여 관리해주는 서비스가 제공되므로 일반 웹 문서와는 다음과 같은 다른 특징들을 갖는다.

첫째, 블로그 포스트는 문서가 생성되는 순서대로 데이터베이스에 저장되므로 생성 시간을 기준으로 문서가 생성된 순서를 구분할 수 있다.

둘째, 블로그 포스트는 블로그 검색 서비스 이외에도 이웃 맺기, 트랙백(trackback) 등의 서비스를 통해 다른 블로그 사용자들에게 쉽게 노출된다.

셋째, 블로그 포스트는 문서 생성 및 수정을 돕는 서비스가 제공되므로 일반 웹문서보다 용이하고 편리하게 문서를 생성할 수 있다. 이러한 블로그 포스트의 특성들로 인해 블로그 사용자들은 실시간으로 생성되는 포스트들을 쉽고 빠르게 열 람하고 보다 많은 포스트들을 생성할 수 있게 된다.

블로그 포스트의 열람과 생성이 용이해짐에 따라 다른 포스트의 내용을 모방하거나 표절하는 경우가 빈번하게 발생된다. 이와 같이 타 블로그의 포스트와 내용이 완전히 일치하거나 거의 일치하는 포스트를 중복포스트(duplicate post)로 정의하기로 한다.

중복포스트는 블로그 검색 서비스의 질과 성능을 저하시키는 문제점을 갖는다. 중복포스트로 인한 문제점을 블로그 검색 서비스 사용자 관점과 시스템 관점으로 나누어 살펴볼 수 있다. 먼저, 블로그 검색 서비스 사용자 관점에서 보면 사용자가 만족스럽지 못한 검색 결과를 얻는 불편함을 갖게 한다.

중복포스트가 검색 서비스를 위한 역 인덱스(inverted index)[Irm06]에 저장되어 있으면, 포스트 검색 시 검색 결과 내 중복된 포스트들이 포함된다. 따라서 검색 서비스는 사용자들에게 중복된 정보를 제공하여 다양한 내용의 포스트들로 구성된 검색 결과를 얻지 못하도록 한다. 또한 포스트 검색 결과에서 중복포스트가 작성 순서 상 앞선 원본포스트보다 높은 랭킹 점수를 부여받는 경우가 발생하게 된다. 이러한 경우에 원본포스트보다 중복포스트에 더 많은 검색서비스 사용자들이 방문하게 되므로 원본포스트를 소유하는 블로그 사용자의 저작권이 침해되는 경우가 발생된다. 중복포스트로 인한 문제점을 블로그 검색 서비스 시스템 관점에서 보면 검색 성능을 저하시키는 요인으로 작용한다. 중복포스트가 검색 서비스를 위한 역 인덱스에 저장되는 경우에 역 인덱스에 불필요한 공간을 차지하게 되므로 방대한 양의 중복포스트들이 저장될 경우 역 인덱스 검색 시간이 지연된다. 따라서 이 와 같은 중복포스트로 인한 문제점들을 해결하기 위하여 블로그 환경에서 중복포스트를 효과적으로 검출할 수 있는 방법이 필요하다. 검출된 중복포스트를 블로그 검색 서비스를 위한 역 인덱스에 추가하지 않음으로써 블로그 검색 결과에 중복포스트가 원천적으로 반영되지 못하도록 방지하면 블로그 검색 서비스 사용자 측면과 시스템 측면에서 검색 서비스의 질과 성능을 향상시킬 수 있다.

중복포스트는 주로 블로거들이 다른 블로거의 좋은 포스트를 소장하고자하는 목적으로 생성된다. 이를 위해 한국의 일부 블로그 사이트에서는 다른 블로그의 포스트를 자신의 블로그에 저장할 수 있도록 중복포스트를 생성해주는 스크랩 기능을 제공하기도 한다. 이와 같은 스크랩 기능을 이용하여 중복포스트를 생성할 수 있지만, 포스트의 텍스트를 직접 복사하여 생성할 수도 있다.

타 블로그 사용자의 포스트를 자신의 블로그에 소장하기 위해 원본포스트의 내용을 그대로 '복사 후 붙여 넣기'(copy & paste)하여 중복포스트를 생성하거나 원본포스트의 내용을 '복사 후 붙여 넣기'한 다음 복사한 내용의 일부를 수정하여 중복포스트를 생성한다. 이때 '복사 후 붙여 넣기'를 사용하는 이유는 복사한 원본내용을 가능한 보존하고자 하는 목적이므로 복사한 원본내용은 수정하지 않고, 원본내용 앞뒤에 약간의 내용을 수정, 삭제 또는 삽입하는 것이 대부분이다.

'복사 후 붙여 넣기'한 원본내용을 수정하는 경우에는 원본내용 사이에 새로운 내용이 삽입되어 새로운 내용의 포스트가 생성되게 되므로 본 발명의 가정에 의해 이러한 문서는 중복문서로 간주하지 않는다.

또한, 중복포스트를 생성 시 원본내용의 공백, 조사, 접속사, 구두점 등을 수정하여 포스트의 중간부분에서 미세한 수정이 발생될 수 있다. 이러한 경우에는 불용어(stopword), 어미제거(stemming) 등의 처리를 통해 복사한 원본내용에서 일어난 미세한 수정을 무시할 수 있다. 따라서 중복포스트는 결국 문서 중간 부분은 완전히 동일하고 앞뒤로 약간 다른 형태를 갖게 된다.

스크랩 기능을 통해 생성한 중복문서는 스크랩 이력(history)을 통해 자동적으로 검출 가능한 반면, 복사 후 붙여 넣기(copy & paste)를 통해 생성한 중복포스트는 텍스트를 직접 비교하여 검출해야 한다. 이 때, 기존의 일반적인 웹 문서를 대상으로 연구되어온 중복문서 검출 기법들을 적용할 수 있다.

기존의 중복문서 검출 기법은 크게 완전-중복문서 검출 기법(exact-duplicate document detection method)과 거의-중복문서 검출 기법(near-duplicate document detection method)으로 나뉜다.

완전-중복문서는 문서 내 모든 텍스트가 완전히 동일한 문서를 말한다. 이러한 완전-중복문서는 텍스트 전체를 해싱하여 쉽고 빠르게 중복여부를 판정할 수 있지만 문서 간 약간의 차이에도 완전히 다른 해시 값을 갖기 때문에 완전히 동일한 문서만 검출할 수 있다. 따라서 중복포스트를 검출하기에 적절한 기법이 아닌 반면, 거의-중복문서 검출은 약간의 수정 등으로 인한 차이를 허용하면서 중복문서를 검출하기 위해 텍스트로부터 여러 개의 특징들을 추출하여 문서 간의 중복된 정도를 계산한다.

대표적인 거의-중복문서 검출 기법으로는 Min-hashing이 있다.

Min-hashing 기법은 문서로부터 k개의 연속적인 단어들로 구성된 슁 글(shingle)을 문서의 특징으로 사용한다. 그런 다음 임의의 두 문서간의 일치하는 슁글의 비율을 사용하여 중복 여부를 판정한다. 또한, Min-hashing은 효과적인 샘플링 기법을 사용하여 고정 개수의 슁글들만 비교하여 문서 간의 중복여부를 빠르게 판정한다.

최소독립순열(min-wise independent permutations) 의 개념을 사용하여 문서에서 추출된 모든 슁글들이 동일한 샘플링될 확률을 가지며, 동일하거나 유사한 문서에 대해서는 항상 동일한 슁글들이 샘플링 될 수 있도록 한다. 이러한 효과적인 샘플링 기법을 통해 문서로부터 추출되는 특징들의 개수를 줄임으로써 보다 빠른 중복문서 판정이 가능하다. 중복포스트처럼 문서 앞뒤에서만 차이가 발생하는 형태의 중복문서뿐만 아니라 문서 중간 부분에서 차이가 발생하는 형태의 중복문서에 대해서도 모두 검출할 수 있다.

블로그 환경에서 Min-hashing을 사용할 경우 랜덤하게 추출되는 슁글의 위치에 따라 중복 여부가 오 판정되는 문제가 발생하게 된다.

따라서, 이러한 문제를 해결하기 위한 중복포스트 검출 방법이 요구된다.

본 발명은 상기한 블로그 환경에서의 중복포스트 검출시의 문제를 해결하기 위하여, 블로그 환경에서 중복포스트의 효과적인 검출 방법 및 그 장치를 제공하고자 한다.

또한, 본 발명은 중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서 중복 문서의 특성을 활용하여 효과적인 중복포스트 검출이 가능한 중복포스트의 검출 방법 및 그 장치를 제공하고자 한다.

또한, 본 발명은 블로그 환경에서 발생되는 형태의 중복포스트를 검출하기 위한 중복률 측정함수를 제공함으로써, 효과적인 중복포스트 검출이 가능한 중복포스트의 검출 방법 및 그 장치를 제공하고자 한다.

또한, 본 발명은 대용량의 블로그 포스트로부터 중복포스트를 빠르게 검출할 수 있도록 가변길이를 갖는 특징시퀀스로부터 고정된 차원의 인덱스 키를 추출하여 인덱스를 구축하는 방법을 제공함으로써, 효과적인 중복포스트 검출이 가능한 중복포스트의 검출 방법 및 그 장치를 제공하고자 한다.

또한, 본 발명은 블로그 환경에서와 같이, 문서의 앞뒤부분에서 차이가 발생하는 문서의 중복 여부를 검출할 수 있는 중복포스트의 검출 방법 및 그 장치를 제공하고자 한다.

본 발명에서 대상으로 하는 중복 문서는 블로그 포스트의 앞 또는 뒤 부분의 내용만 수정이 있는 것을 대상으로 한다. 따라서, 본 발명에 따르면, 블로그 포스트의 중심 부분, 즉 중심 서브 시퀀스 만을 비교함으로써, 효과적인 중복판정이 가능하다.
과제 해결을 위한 중복포스트의 검출 방법은, 중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부 및 중복 판정부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서, 상기 특징 시퀀스 추출부가, m개의 문장들로 구성된 제1 문서로부터 상기 m개의 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스를 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계; 상기 특징 시퀀스 추출부가, n개의 문장들로 구성된 제2 문서로부터 상기 n개의 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스를 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계; 상기 특징 시퀀스 추출부가, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 - 여기서, 상기 서브시퀀스는 j번째부터 k번째까지의 특징들을 포함하는 시퀀스로 정의되는, 단 j 및 k는 자연수이고 j < k인 - 추출하는 단계; 및 상기 중복 판정부가, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스의 길이에 기초하여 상기 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계를 포함한다.

또한, 과제 해결을 위한 중복포스트의 검출 방법은, 제1 문서에 포함된 문장들의 특징을 나타내는 제1 특징 시퀀스로부터 서로 다른 특징들의 개수로 구성되는 복수의 중심서브시퀀스를 추출하는 단계와, 상기 제1 특징 시퀀스로부터 추출된 복수의 중심시퀀스 각각을 n차원 공간상의 점으로 나타내는 단계와, 제2 문서에 포함된 문장들의 특징을 나타내는 제2 특징 시퀀스로부터 서로 다른 특징들의 개수로 구성되는 복수의 중심서브시퀀스를 추출하는 단계 및 상기 제2 특징 시퀀스로부터 추출된 복수의 중심서브시퀀스 각각에 대응하는 n차원 공간상의 점을 확인하는 단계를 포함한다.

또한, 과제 해결을 위한 중복포스트의 검출 방법은, 문서에 포함된 문장들의 특징을 나타내는 특징시퀀스를 추출하는 단계와, 상기 특징시퀀스의 중심서브시퀀스에 대응하는 특징윈도우를 추출하는 단계와, 상기 특징윈도우의 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하는 단계와, 상기 특징윈도우 및 부속특징시퀀스에 대응하는 인덱스 키를 생성하는 단계 및 상기 인덱스 키에 기초하여 중복 문서 판단에 대한 질의를 처리하는 단계를 포함한다.

또한, 과제 해결을 위한 중복 검출 장치는, 문서에 포함된 문장들의 특징을 나타내는 특징 시퀀스를 추출하는 특징시퀀스 추출부 및 상기 특징시퀀스를 구성하는 서브시퀀스를 이용하여 문서의 중복여부를 판단하는 중복 판정부를 포함한다.

본 발명의 실시예에 따르면, 블로그 환경의 특성에 착안하여 기존의 중복문서 검출 기법인 Min-hashing이 블로그 환경에서 사용될 때 발생되는 문제점을 해결할 수 있다.

또한, 본 발명의 실시예에 따르면, 블로그 환경에서 발생되는 형태의 중복포스트를 검출하기 위한 중복률 측정함수를 이용하여, 효과적인 중복포스트 검출이 가능하다.

또한, 본 발명의 실시예에 따르면, 대용량의 블로그 포스트로부터 중복포스트를 빠르게 검출할 수 있도록 가변길이를 갖는 특징시퀀스로부터 고정된 차원의 인덱스 키를 추출하여 인덱스를 구축함으로써, 효과적인 중복포스트 검출이 가능하다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다. 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요 지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

후술하는 실시예는, 블로그 환경에서 중복포스트를 효과적으로 검출하기 위한 새로운 거의-중복문서 검출 방법 및 그 장치에 관한 것이다.

또한, 후술하는 실시예는, 블로그 환경과 같이, 웹 문서의 앞부분 또는 뒤 부분 중 적어도 한 부분에서 차이가 발생하는 두 웹 문서의 중복검출에도 적용될 수 있다.

블로그 환경에서는 문서 중간 부분에서 차이가 발생하는 형태의 중복문서가 거의 존재하지 않으므로 이러한 형태의 문서는 중복문서로 간주하지 않고, 중복포스트가 문서 앞뒤에서만 차이가 발생하는 블로그 환경에서의 중복문서 특성을 활용한다면 보다 효과적인 중복포스트 검출이 가능하다.

따라서, 본 발명의 실시예에서는, 문서 중간 부분에서 차이가 발생하는 형태의 중복문서는 검출 대상으로 간주하지 않기로 한다.

후술하는 실시예는, 블로그 환경에서 중복포스트를 효과적으로 검출하기 위한 새로운 거의-중복문서 검출 기법에 대해 살펴본다. 먼저, 임의의 두 포스트간의 중복된 정도를 측정하는 것을 임의의 두 시퀀스 간의 중복된 정도를 측정하는 문제 로 새롭게 해석하는 것에서 출발한다. 이를 위해 포스트 내 문장마다 하나의 특징(feature)을 추출하고, 포스트를 순서를 갖는 특징들의 시퀀스인 특징시퀀스(feature sequence)로 표현한다. 또한, 블로그 환경에서 발생되는 중복포스트의 특성에 착안하여 임의의 두 포스트 간의 중복된 정도를 효과적으로 측정하기 위하여 중복률(duplication ratio)을 제안한다. 임의의 두 특징시퀀스의 앞뒤에서 차이가 발생되는 경우 특징시퀀스 중간 부분은 연속적으로 동일한 특성을 갖게 되므로, 연속적으로 동일한 문장이 차지하는 비율을 중복률로 정의한다. 이때 연속적으로 동일한 문장이 차지하는 비율을 구하기 위해 임의의 두 시퀀스가 공통적으로 포함하는 서브시퀀스들 중 가장 긴 서브시퀀스를 구하는 문제인 LCSS(longest common subsequence)의 개념을 사용한다.

후술하는 실시예에서는, 제안된 중복률 측정함수와 블로그 환경에서 발생되는 중복포스트의 특성을 활용한 효과적인 중복포스트 검출 방법을 제안한다. 제안된 방법에서는 포스트로부터 추출된 특징시퀀스와 중복률을 만족하는 모든 특징시퀀스에 대해서 반드시 일치하는 부분인 중심서브시퀀스(central subsequence)를 추출하고 중심서브시퀀스만 비교한다. 이때 중심서브시퀀스가 일치하지 않는 경우 중복일 가능성이 없는 포스트로 간주하고, 중심서브시퀀스가 일치하는 시퀀스 쌍에 대해서는 후처리를 통해 정확한 중복률을 측정하여 중복 여부를 판정할 수 있다.

이와 같은 방법에 따르면, 임의의 두 특징시퀀스의 모든 특징들을 다 비교하지 않고 일부만 비교하여 빠른 중복문서 판정이 가능해진다. 제안된 방법은 포스트로부터 추출된 특징시퀀스 중 중심에 위치하는 일부 서브시퀀스만 선택하여 포스트간의 중복 여부를 판정하므로, 이러한 중복검출 방법을 CentralMatch(central subsequence matching)라 칭하기로 한다. 즉, 본 발명에서 대상으로 하는 중복 문서는 블로그 포스트의 앞 또는 뒤 부분의 내용만 수정이 있는 것을 대상으로 한다. 따라서, 본 발명에 따르면, 블로그 포스트의 중심 부분, 즉 중심 서브 시퀀스 만을 비교함으로써, 효과적인 중복판정이 가능하다.

또한, 대용량 포스트로부터 중복포스트를 효과적으로 검출하기 위하여 CentralMatch에 기반을 둔 인덱스를 구축하고 질의 처리를 통해 중복포스트를 빠르게 검출하는 인덱싱 및 질의처리 방법을 제안한다.

인덱스 구축 시, 포스트의 중심서브시퀀스에서 미리 지정된 고정된 길이 w를 갖는 특징윈도우(feature window)들을 추출하고, 추출된 특징윈도우의 좌측과 우측에 존재하는 특징들로 구성된 부속특징시퀀스(left/right wing sequence)를 추출한다.

이러한 방식으로 하나의 포스트로부터 추출되는 여러 개의 특징윈도우와 부속특징시퀀스의 조합을 사용하여 인덱스 키를 구성하여 다차원 인덱스인 R*-트리에 저장할 수 있다. 중복포스트 검출을 위해서는 우선 질의로 사용되는 포스트로부터 길이 w를 갖는 질의윈도우(query window)와 부속특징시퀀스를 추출하여 질의 키를 구성한다. 다음으로, 질의 키로 R*-트리를 검색하여 동일한 인덱스 키를 찾아내고, 찾아낸 인덱스 키와 질의로 사용된 포스트를 중복포스트로 판정한다.

도 1은 중복포스트들로 구성된 블로그 검색 결과의 예를 나타낸다.

블로그 환경에서 발생되는 중복포스트의 대부분은 원본포스트 내용의 앞뒤에서만 약간 수정한 것이다.

통계적인 결과에 따르면, 하기 표 1과 같이 중복된 포스트들 중 앞뒤로 수 정된 포스트의 비율이 전체 평균 0.97로 대부분의 중복된 포스트가 원본포스트 내용의 앞뒤를 수정한 것임을 알 수 있다.

[표 1]

중복문서 오 판정의 원인은, 착오해답(false alarm)과 착오기각(false dismissal)으로 나누어 볼 수 있다.

먼저, 착오해답은 중복 여부를 판정하고자 하는 질의 문서가 실제로는 중복문서가 아니지만 알고리즘에 의해 중복문서로 오 판정되는 경우를 가리킨다. 그리고 착오기각은 질의 문서가 실제로는 중복문서이지만 알고리즘에 의해 중복문서가 아닌 것으로 오 판정되는 경우를 가리킨다. 이러한 중복 여부 판정에 대한 착오해답과 착오기각은 블로그 환경의 특성에 의해 발생할 가능성이 높아진다.

블로그 환경에서의 중복문서의 형태는 원본 문서와 차이를 갖는 부분은 원본문서 앞뒤 일부에서만 일어나고 원본 문서 중간 부분의 내용은 완전히 동일한 특성을 갖는다.

블로그 환경에서 기존의 웹 페이지 환경에서 중복문서 판정 및 검출 기법으로 널리 사용되는 Min-hashing 방법을 사용할 경우, 문서로부터 샘플링되는 슁글의 위치에 따라서 착오해답 또는 착오기각이 발생하게 된다. 즉, 원본문서와 중복문서에서 수정에 의해 차이가 발생한 부분에 존재하는 슁글이 샘플링될 경우에는 두 문서로부터 서로 다른 슁글들이 샘플링되어 착오기각이 발생한다. 반면, 원본문서와 중복문서에서 수정이 발생한 부분이 아닌 다른 부분에서 샘플링될 경우 착오해답이 발생하게 된다.

도 2a 및 도 2b는 중복문서 오 판정의 예를 나타낸다.

도 2a 및 도 2b는, 작성시간이 앞선 원본문서 D(201)의 내용을 복사 후 붙여넣기(copy&paste)한 후 내용 중간에 새로운 내용(207)을 삽입하여 생성된 문서 D'(203)와 원본문서 의 내용을 복사 후 붙여넣기(copy&paste)한 후 내용 앞뒤로 약간의 내용(209, 211)을 추가하여 생성된 중복문서 D"(205)를 표현한 것이다.

따라서, 본 발명의 실시예에서 검출하고자 하는 중복문서 형태는 D"(205)의 형태이다. 만일, Min-hashing 방법을 사용하여 문서로부터 4개의 슁글(213, 215, 217, 219)이 샘플링된다고 가정하였을 경우에 중간에 삽입된 새로운 내용(207)에서는 슁글이 샘플링되지 않고, 동일한 내용에서만 슁글이 샘플링되어 결국 착오해답 이 발생할 수 있다.

또한, 도 2b를 참조하면, 샘플링된 4개의 슁글(221, 223, 225, 227)들 중 3개의 슁글(221, 225, 227)이 앞뒤로 수정된 부분(209, 211)에서 추출되어 착오기각이 발생하게 된다.

도 3은 중복포스트 검출 장치의 일예를 나타내는 블록도이다.

도 3을 참조하면, 중복포스트 검출 장치는 제어부(301), 특징시퀀스 추출부(303), 인덱스 키 생성부(305), 중복 판정부(307), 질의 처리부(309), 중복 판정 인덱스(311), 검색 인덱스(313), 블로그 데이터베이스(315), 입력부(317) 및, 출력부(319)를 포함한다.

입력부(317)는 블로그에 저장할 새로이 생성된 포스트를 수신할 수 있고, 저장된 포스트를 검색하기 위한 질의어를 입력 받을 수 있다. 또한 질의어에 따른 검색 결과에서 출력하고자 하는 포스트를 선택 받을 수 있다. 출력부(144)는 질의어에 따른 검색 결과를 출력할 수 있고, 선택받은 포스트를 출력할 수 있다.

중복 판정 인덱스(311)는 중복 여부를 판단하는 기준이 되는 인덱스로서 중복되지 않은 새로운 문서를 저장할 때마다 새로운 문서를 통해 생성한 인덱스키들을 저장한다.

검색 인덱스(313)는 중복 판정부(307)의 제어에 따라 블로그에 새로운 문서를 저장할 때 중복된 문서가 아니면 문서를 저장하여 관리하는 인덱스이다. 또한, 검색 인덱스(313)는 질의 처리부(309)의 요청에 따라 문서 검색시 질의 처리 부(309)로 제공된다. 여기서, 검색 인덱스(313)는 R*-트리를 이용할 수 있다.

블로그 데이터베이스(315)는 문서를 저장하고 관리하는 데이터베이스로써, 질의 처리부(309)의 제어에 따라 선택받는 문서를 제공한다.

특징시퀀스 추출부(303)는 문서에 포함된 문장들의 특징을 나타내는 특징 시퀀스를 추출할 수 있다. 이때, 특징시퀀스 추출부(303)는 후술하는 방법에 따라서, 특징시퀀스를 구성하는 서브시퀀스, 슬라이딩 윈도우, 특징윈도우, 중심서브시퀀스 등의 각종 특징들을 추출할 수 있다.

인덱스 키 생성부(305)는 특징시퀀스 추출부(303)에서 추출한 특징시퀀스를 이용하여 조합 가능한 모든 인덱스키를 생성할 수 있다. 이때, 인덱스 키 생성부(305)는 특징시퀀스의 중심서브시퀀스에 대응하는 특징윈도우에 기초하여 문서의 중복 여부를 판단하기 위한 인덱스 키를 생성할 수 있다.

또한, 인덱스 키 생성부(305)는 상기 특징윈도우의 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하고, 상기 특징윈도우 및 부속특징시퀀스에 대응하는 인덱스 키를 생성할 수 있다.

중복 판정부(307)는 특징시퀀스를 구성하는 서브시퀀스를 이용하여 문서의 중복여부를 판단할 수 있다. 이때, 서브시퀀스는 두 개의 문서 각각에 대응하는 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 중 가장 긴 서브시퀀스인 것일 수 있다.

또한, 중복 판정부(307)는 1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 이용하여 문서간의 중복 정도를 나타내는 중복률을 계산하고, 상기 중복률이 임계치 이상인 경우에는 두 개의 문서를 중복 문서로 판단할 수 있다.

또한, 중복 판정부(307)는 인덱스 키 생성부(305)에서 생성한 인덱스 키를 중복 판정 인덱스(311)에서 검색할 수 있다.

질의 처리부(309)는 질의 대상 문서의 특징시퀀스로부터 상기 특징윈도우에 대응하는 질의윈도우를 추출하고, 상기 질의윈도우에 기초하여 질의를 처리한다.

이하, 블로그 환경에서 중복문서 검출을 효과적으로 처리하기 위한 방법에 대하여 설명한다. 먼저, 문서간의 중복 정도를 나타내는 중복률에 대하여 설명하고, 다음에 CentralMatch의 기본 원리를 설명하고, 그 다음에 인덱싱 및 질의 처리를 포함하는 CentralMatch의 전체 과정에 대하여 설명한다.

<중복률 측정 함수>

중복문서를 검출하기에 앞서 문서간의 중복되어 있는 정도를 측정할 수 있는 중복률 측정함수가 정의되어야 한다. 주어진 두 문서간의 중복률 측정을 위하여 기존의 중복문서 검출 방법에서 주로 사용되는 코사인 척도(cosine measure) 등을 이용할 수 있다. 그러나 문서 앞뒤로만 약간 차이를 갖는 중복문서들이 대부분인 블로그 환경에서 중복문서 검출에는 적합하지 않다.

문서는 문장 개수만큼의 특징들로 구성된 특징들의 시퀀스로 표현될 수 있 다. 임의의 두 문서 D _A 와 D _B 가 주어지고, 문서 D _A 와 D _B 가 각각 m개와 n개의 문장 d로 구성되어 있다면 임의의 두 문서 D _A 와 D _B 는 다음과 같이 표현할 수 있다.

이때, 임의의 문장

는 [수학식 2]과 같이 특징함수 fp(fingerprinting function)를 사용하여 고정크기의 정수 값인 특징

로 변환된다.

[수학식 2]

작성 시간 순으로 먼저 생성된 원본문서 D _A 로부터 중복문서 D _B 를 생성할 경우 원본문서 D _A 와 차이를 갖는 중복문서 D _B 의 부분의 범위가 문서 전체인지, 아니면 문서 앞쪽 또는 뒤쪽에 한정되어 있는지에 따라 서로 다른 중복문서 판정 방법이 사용된다.

먼저 일반 웹페이지 환경처럼 원본문서 D _A 에서 수정되는 부분이 문서 전체에 걸쳐있는 경우에는 문서로부터 추출되는 특징들의 순서는 고려하지 않고 두 문서에서 서로 일치하는 특징들의 비율을 사용하기 때문에 문서를 특징들의 집합으로 표현한다. 두 문서 D _A 와 D _B 의 중복 여부를 판정하기 위해서 각 문서로부터 추출된 특징들 중 서로 일치하는 특징들의 비율과 중복률 측정함수를 사용하여 중복률이 임계치 이상인 경우에 중복으로 판정한다. 반면 블로그 환경처럼 원본문서 D _A 에서 수정되는 부분이 문서 앞뒤로 한정되어 있는 경우에는 특징들의 앞뒤 순서를 구분해야 하므로 문서로부터 추출되는 특징들이 시퀀스의 형태로 표현된다.

이와 같이, 문서로부터 추출된 특징들의 시퀀스를 특징시퀀스(feature sequence)라고 정의하기로 한다.

특징함수 fp 를 사용하여 두 문서 D _A 와 D _B 는 각각 m개와 n개의 특징

로 구성된 특징시퀀스

와

로 표현된다. 두 특징시퀀스 S _A 와 S _B 가 중복이 되기 위해서는 S _A 와 S _B 의 앞뒤 일부 특징들을 제외한 중간 부분의 특징들로 구성된 서브시퀀스가 일정 비율 이상의 길이를 갖는 공통된 서브시퀀스 형태로 존재하여야 한다.

따라서, 문서 앞뒤에서만 수정이 일어나는 중복포스트 간의 중복률을 측정하기 위해 LCSS(longest common subsequence)의 개념을 이용한 중복률 측정함수를 정의한다.

특징시퀀스 S _A 와 S _B 에 대한 중복률 측정 함수인 dup(duplication ratio)는 [수학식 3]과 같다.

[수학식 3]

수학식 3에서, LCSS(S _A ,S _B )는 S _A 와 S _B 가 공통으로 가지고 있는 서브시퀀스들 중 가장 긴 서브시퀀스를 나타낸다. 임의의 두 문서 D _A 와 D _B 로부터 추출된 특징시퀀스 S _A 와 S _B 의 중복 여부를 판정 시 dup(S _A ,S _B )가 임계치 Th이상인 경우 두 특징시퀀스는 중복(duplicate)이라고 한다.

하기의 설명에서 사용하는 주요 표기와 이에 대한 정의 및 의미는 [표 2]에 기재된 바와 같다.

[표 2]

본 발명의 실시예에 따른 중복포스트 검출 장치는 중복률 함수를 이용하여 중복포스트를 검출할 수 있다.

즉, 중복포스트 검출 장치는 제1 문서에 포함된 문장들의 특징을 나타내는 제1 특징 시퀀스 및 제2 문서에 포함된 문장들의 특징을 나타내는 제2 특징 시퀀스를 추출하고, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 를 추출하고, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 이용하여 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계를 수행함으로써, 중복포스트를 검출할 수 있다.

이때, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스는, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 중 가장 긴 서브시퀀스이다.

또한, 중복포스트 검출 장치는 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 이용하여 문서간의 중복 정도를 나타내는 중복률을 계산하고, 상기 중복률이 임계치 이상인 경우에는 상기 제1 문서 및 제2 문서를 중복으로 판단할 수 있다. 이때, 상기 제1 문서 및 제2 문서는 블로그 포스트이다.

<CentralMatch의 기본 원리>

m개의 문장들로 구성된 원본문서 의 내용 앞뒤에서 약간 수정하여 n개의 문장들로 구성된 중복문서 D _c(copy) 를 생성하였을 때, 특징함수 fp에 의해 문서 D _o 과 D _c 는 각각 m개의 특징들로 구성된 특징시퀀스

와 n개의 특징들로 구성된 특징시퀀스

로 변환된다.

특징함수 Rabin's fingerprinting 함수를 사용하면, 임의의 문서 D _i 로부터 32비트의 크기를 갖는 특징들로 구성된 특징시퀀스 S를 추출할 수 있다. 본 발명의 실시예에서는 문장인식함수(sentence recognition function)를 사용하여 문서 D _i 로 부터 k개의 문장

를 추출하며, 하나의 문장

마다 하나의 특징

를 추출하는 것으로 가정한다. 문장인식함수는 문장 구분 기호인 마침표, 물음표, 느낌표나 <BR>, <P> 등의 HTML 태그 등을 사용하여 하나의 문서를 여러 개의 문장들로 구분한다. 중복 여부를 판정할 두 문서의 특징시퀀스 S _o 과 S _c 에서 추출된 LCSS(S _o ,S _c )과 중복률 측정함수 dup(duplication ratio)를 사용하여 두 특징시퀀스의 중복된 정도를 측정하므로 써 문서 앞뒤의 몇 개 문장만 다른 중복문서들을 검출할 수 있다. 하지만, LCSS(S _o ,S _c )를 추출하기 위해서는 각 특징시퀀스로부터 가능한 모든 서브시퀀스를 비교 해야 하는 오버헤드가 발생된다.

한편, 도 4에 도시된 바와 같이 S _o 과 S _c 에서 추출된 슬라이딩 윈도우를 추출하고, 슬라이딩 윈도우를 n차원 공간상의 한 점으로 표현할 수 있다.

이때, 두 개의 특징시퀀스로부터 추출된 n차원 공간상의 점들 중 같은 점이 존재하면 두 특징시퀀스는 중복으로 판정할 수 있다.

다만, 이 경우에는 추출되는 슬라이딩 윈도우의 개수는 특징시퀀스의 길이에 비례하므로 특징시퀀스의 크기가 클 경우 비교횟수가 증가하고, 특징시퀀스의 길이에 의해 추출되는 슬라이딩 윈도우의 크기가 결정되므로, 특징시퀀스를 비교할 때마다 매번 슬라이딩 윈도우 크기를 계산하여 추출해야 하는 오버헤드가 발생된다.

이하, 상기한 오버헤드 발생 문제를 해결하기 위한 CentralMatch의 기본 원리에 관하여 설명한다.

CentralMatch의 기본 원리는 중복문서 검출 시 각 문서로부터 특징시퀀스를 추출한 후 특징시퀀스 내 모든 특징들을 비교하지 않고 특징시퀀스 중간 부분의 서브시퀀스만 비교하여 문서간의 중복 여부를 판정하는 것이다. 이와 같은 원리를 사용하므로 써 임의의 두 특징시퀀스의 모든 특징들을 다 비교하지 않고 일부만 비교하여 빠른 중복문서 판정이 가능해진다.

임의의 특징시퀀스 S _o 와 사용자에 의해 주어진 질의시퀀스 S _c 의 중복 여부를 판정할 경우 두 특징시퀀스가 중복이라면 S _o 과 S _c 의 앞뒤에서만 수정이 일어나므로 특징시퀀스 가운데에 존재하는 서브시퀀스는 반드시 동일하다.

이때, 특징시퀀스 S _o 와 중복으로 판정될 수 있는 모든 질의시퀀스 S _c 에 대해서 항상 반드시 존재하는 특징시퀀스 가운데 존재하는 서브시퀀스를 중심서브시퀀스(central subsequence)라고 정의한다. 반드시 일치하는 서브시퀀스를 추출하기 위해서는 질의시퀀스 S _c 의 길이와 앞뒤에서 수정이 가해질 수 있는 범위를 사전에 알고 있어야 한다.

이때, 중복률 측정 함수 dup로부터 두 가지 정보를 추정할 수 있다. 먼저 특징시퀀스 와 비교하여 중복으로 판정될 수 있는 S _c 의 길이는 보조정리 1을 이용하여 구할 수 있다.

[보조 정리 1]

중간 부분의 서브시퀀스를 추출할 경우 특징시퀀스의 중심에 위치하는 특징으로부터 앞뒤로 몇 개의 특징들을 추출한다. 그러기 위해서는 중심에 위치하는 중심특징(central feature)의 위치가 수정된 이후에 어떤 위치에 존재하는지 알 수 있어야 한다. S _o 로부터 앞뒤로 수정하여 S _c 를 생성할 때 S _o 의 앞뒤에서 여러 개의 특징들이 연속적으로 추가되거나 삭제될 경우에는 특징시퀀스의 길이와 중심특징의 위치가 변경될 수 있다. 보조정리 2를 이용하여 특징시퀀스의 중심특징이 수정에 의해 이동될 수 있는 범위를 구할 수 있다.

[보조 정리 2]

보조정리 1과 보조정리 2에 의해 특징시퀀스 S _o 로부터 생성될 수 있는 중복문서의 특징시퀀스 S _c 의 길이와 수정에 의해 S _o 의 중심특징이 앞뒤로 이동될 범위도 추정 가능하다. 따라서 S _o 와 중복으로 판정될 수 있는 모든 가능한 길이의 특징시퀀스에 대해서 S _o 의 중심특징이 수정에 의해 이동될 수 있는 범위를 구하고, 보조정리 3을 이용하여 각 중심특징으로부터 추출될 수 있는 양 옆의 특징들의 개수를 구할 수 있다.

[보조 정리 3]

한편, 상기 [보조 정리 1] 내지 [보조 정리 3]의 증명은 하기 [표 3] 내지 [표 6]에 나타낸 바와 같다.

[표 3]

[표 4]

[표 5]

[표 6]

도 9는 CentralMatch를 이용한 중복판정 방법의 일예를 나타낸다.

도 9를 참조하면, '▼'표시는 시퀀스의 길이가 i인 중심시퀀스

의 중앙에 위치한 특징

을 의미한다. 먼저 S _o 와 중복이 될 가능성이 있는 특징시퀀 스의 가능한 모든 길이와 앞뒤 수정이 일어날 수 있는 범위를 고려하여 S _o 로부터 가능한 모든 중심시퀀스들을 추출한다. 하나의 특징시퀀스로부터 추출되는 중심시퀀스들은 서로 다른 특징들의 개수로 구성되므로 서로 다른 차원상의 점으로 매핑된다. 질의시퀀스로부터 중심시퀀스를 추출하고 특징시퀀스 와 같은 차원에 있는 동일한 점을 찾는 것으로 두 특징시퀀스의 중복 여부를 판정할 수 있다.

본 발명의 실시예에 따른 중복포스트 검출 장치는 CentralMatch의 기본 원리 및 CentralMatch를 이용한 중복 판정 방법에 따라서, 효과적으로 중복포스트를 검출할 수 있다.

즉, 중복포스트 검출 장치는 제1 문서에 포함된 문장들의 특징을 나타내는 제1 특징 시퀀스로부터 서로 다른 특징들의 개수로 구성되는 복수의 중심서브시퀀스를 추출하고, 상기 제1 특징 시퀀스로부터 추출된 복수의 중심시퀀스 각각을 n차원 공간상의 점으로 나타내고, 제2 문서에 포함된 문장들의 특징을 나타내는 제2 특징 시퀀스로부터 서로 다른 특징들의 개수로 구성되는 복수의 중심서브시퀀스를 추출하고, 상기 제2 특징 시퀀스로부터 추출된 복수의 중심서브시퀀스 각각에 대응하는 n차원 공간상의 점을 확인하는 단계를 수행함으로써, 중복포스트를 검출할 수 있다.

이때, [보조 정리 1]에 따르면, 상기 제1 시퀀스에 대응하는 제2 시퀀스의 길이는 상기 제1 시퀀스의 길이 및 문서간의 중복 정도를 나타내는 중복률에 대한 임계치에 의하여 결정될 수 있다.

이때, [보조 정리 2]에 따르면, 상기 제2 특징시퀀스로부터 복수의 중심시퀀스를 추출하기 위한 제2 특징시퀀스의 중심특징은, 제1 시퀀스의 길이 m, 문서간의 중복 정도를 나타내는 중복률 Th, 및

에 의하여 상기 제1 시퀀스에 대응되는 위치가 결정될 수 있다.

이때, [보조 정리 3]에 따르면, 상기 제2 특징시퀀스의 중심특징으로부터 중심서브시퀀스를 추출하기 위한 특징들의 개수는, 제2 시퀀스의 길이 n 및

에 의하여 결정될 수 있다.

<인덱싱 방법>

이하, CentralMatch의 인덱스 구성 방법을 설명한다. 대용량의 문서들이 데이터베이스에 저장되어 있을 때, 모든 문서들의 가능한 조합에 대해서 중복 여부를 판정하는데 많은 시간이 소요된다. CentralMatch를 이용하여 특징시퀀스의 중심서브시퀀스만 비교하여 일치하지 않는 경우 중복일 가능성이 없는 문서로 간주하여 더 이상의 비교를 수행하지 않고, 특징시퀀스의 중심서브시퀀스가 일치하는 경우에는 후처리를 통해 정확한 중복률을 측정할 수 있다.

인덱스를 구성하기 위해서는 우선 특징시퀀스로부터 추출되는 중심서브시퀀스들을 고정된 차원 유클리드 공간상의 절대 좌표 점으로 매핑할 필요가 있다. 중심서브시퀀스 내 포함되는 특징들의 수가 각기 다르기 때문에 고정된 차원에 매핑 하기 위해서 중심서브시퀀스를 고정길이의 윈도우와 윈도우 좌우측의 몇 개 특징들로 구성된 부속특징시퀀스(wing sequence)를 추출한다.

하기의 설명에서 사용되는 주요 용어들의 기호 및 정의는 [표 7]에 기재된 바와 같다.

[표 7]

도 10은 인덱스 키 생성 과정의 일예를 나타낸다.

인덱스 키 생성을 위하여, 특징윈도우와 부속특징시퀀스를 사용하여 특징시퀀스로부터 추출된 중심서브시퀀스를 고정된 차원상의 한 점으로 매핑한다. 중심서브시퀀스로부터 추출된 시퀀스길이가 인 서브시퀀스를 특징윈도우(1001)라고 하며, 특징시퀀스에서 특징윈도우(1001)와 함께 인덱스 키로 사용하기 위해서 추출되는 특징윈도우(1001)의 좌(또는 우측)에 존재하는 특징들로 구성된 서브시퀀스를 부속특징시퀀스(1003, 1005)라고 한다.

인덱스 구축 시 먼저 문장 인식 함수를 사용하여 문서 D로부터 문장들을 추출한다. 각 문장은 특징함수 fp를 사용하여 32비트의 정수 값을 갖는 특징으로 변환한다. 문서 D로부터 순차적으로 특징들을 추출하여 특징시퀀스 S를 생성한다. 그런 다음 특징 시퀀스 의 중간에서 인덱스 키로 사용될 특징들을 추출한다. 특징시퀀스 S의 가운데 w개의 특징들로 구성된 윈도우 W를 추출하고 윈도우 W의 좌측 δ개의 특징들로 구성된 보존시퀀스 L과 W의 우측 δ개의 특징들로 구성된 보존시퀀스 R을 추출한다. 이와 같이 추출된 윈도우와 부속특징시퀀스를 사용하여 인덱스 키 <W,L,R>를 구성한다. 인덱스 키 추출 시 중복률을 만족시키는 가능한 모든 질의시퀀스 Q를 고려하여 가능한 모든 경우에 대해서 인덱스 키 추출한다.

[표 8]은 인덱스 구성 과정을 의사 코드로 나타낸 일예이다.

본 발명의 실시예에 따른 중복포스트 검출 장치는, 상기한 방법에 따라서 인덱싱을 수행하고 이를 질의 처리에 사용할 수 있다.

즉, 중복포스트 검출 장치는, 문서에 포함된 문장들의 특징을 나타내는 특 징시퀀스를 추출하고, 상기 특징시퀀스의 중심서브시퀀스에 대응하는 특징윈도우를 추출하고, 상기 특징윈도우의 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하고, 상기 특징윈도우 및 부속특징시퀀스에 대응하는 인덱스 키를 생성하고, 상기 인덱스 키에 기초하여 중복문서 판단에 대한 질의를 처리하는 단계를 수행함으로써, 중복포스트를 검출 할 수 있다.

이때, 중복포스트 검출 장치의 질의 처리부(309)는 질의 대상 문서의 특징시퀀스로부터 상기 특징윈도우에 대응하는 질의윈도우를 추출하고, 상기 특징윈도우 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하고, 상기 질의윈도우 및 부속특징시퀀스로부터 생성되는 인덱스를 이용하여 질의를 처리할 수 있다.

<질의 처리>

다차원 인덱스에 기초하여 중복문서를 찾아내는 질의 처리 방법은, 먼저 질의할 문서로부터 문장 인식 함수와 특징추출 함수를 이용하여 질의 시퀀스를 생성한다. 그런 다음 중복 여부를 판정할 문서의 중간에서 w개의 특징들로 구성된 질의 윈도우와 질의 윈도우 앞뒤로 존재하는 부속특징시퀀스를 추출한다. 위와 같이 추출된 질의 윈도우와 부속특징시퀀스로부터 인덱스를 생성하여 인덱스 검색하여 동일한 점을 검색 결과로 반환한다.

[표 9]는 질의 처리 과정을 의사 코드로 나타낸 일예이다.

도 11은 CentralMatch를 사용한 중복문서 검출 과정의 일예를 나타내는 흐름도이다.

도 11을 참조하면, 포스트가 생성되어 블로그에 저장 요청이 발생하면 특징 시퀀스 추출부(303)는 포스트로부터 문장 단위로 특징들을 추출하여 특징시퀀스를 생성한다(S1101).

또한, 특징 시퀀스 추출부(303)는 특징시퀀스로부터 중심특징이 이동할 수 있는 범위

를 계산하고, 중심특징이 이동할 수 있는 범위로부터 w크기를 갖는 모든 특징윈도우를 추출한다.

인덱스 키 생성부(305)는 추출된 특징윈도우를 중심으로 좌우에 존재하는 p개의 특징들로 구성된 부속특징시퀀스 L과 R을 추출하여 인덱스 키 <W,L,R>을 생성한다(S1103).

다음에, 중복 판정부(307)는 인덱스 키를 가지고 중복 판정 인덱스(311)를 검색한다(S1105).

중복 판정부(307)는 중복 판정 인덱스(311)에 동일한 인덱스 키가 존재하는 지 여부에 따라서 포스트의 중복여부를 판정한다(S1107).

만일, 중복 판정 인덱스(311)에 동일한 인덱스 키가 존재하면 블로그 데이터베이스(315)에 생성된 포스트를 저장하고, 그렇지 않으면 검색 인덱스(313)에 포스트를 저장하고, 중복 판정 인덱스(311)에 포스트로부터 생성된 인덱스 키를 삽입한다(S1111).

한편, 질의 처리 시는, 질의 포스트로부터 문장 단위로 특징들을 추출하여 특징시퀀스를 생성하고(S1101), 질의 포스트로부터 중앙에 위치한 w크기의 윈도우와 윈도우를 중심으로 좌우에 존재하는 부속특징시퀀스 L과 R을 추출하여 인덱스 키 <W, L, R>을 생성한 후(S1105), 질의 처리를 수행한다(S1105).

동일한 인덱스 키가 검색될 경우(S1107)해당 인덱스 키에 해당하는 포스트와 질의 포스트는 중복으로 판정하고, 중복된 포스트에 대해서는 검색인덱스(313)에 저장하지 않는다.

상기한 모든 중복포스트 검출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD- ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 2a 및 도 2b는 중복문서 오 판정의 예를 나타낸다.

도 4는 서브시퀀스 매칭에 의한 중복 판정 방법의 일예를 나타낸다.

도 5 내지 도 8은 보조 정리 1 내지 보조 정리 3의 증명과정을 설명하기 위한 도면이다.

도 10은 인덱스 키 생성 과정의 일예를 나타낸다.

Claims

중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부 및 중복 판정부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서,

상기 특징 시퀀스 추출부가, m개의 문장들로 구성된 제1 문서로부터 상기 m개의 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스를 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계;

상기 특징 시퀀스 추출부가, n개의 문장들로 구성된 제2 문서로부터 상기 n개의 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스를 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계;

상기 특징 시퀀스 추출부가, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 - 여기서, 상기 서브시퀀스는 j번째부터 k번째까지의 특징들을 포함하는 시퀀스로 정의되는, 단 j 및 k는 자연수이고 j < k인 - 추출하는 단계; 및

상기 중복 판정부가, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스의 길이에 기초하여 상기 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계

를 포함하는 중복포스트의 검출 방법.
삭제
제1항에 있어서,

상기 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계는,

상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 및 하기 수학식 3을 이용하여 문서간의 중복 정도를 나타내는 중복률
을 계산하고,

[수학식 3]

여기서, LCSS(S_A,S_B)는 S_A 와 S_B 가 공통으로 가지고 있는 서브시퀀스들 중 가장 긴 서브시퀀스, S_A는 제1 특징 시퀀스, S_B는 제2 서브 시퀀스를 의미하고,

상기 중복률이 임계치 이상인 경우에는 상기 제1 문서 및 제2 문서를 중복으로 판단하는 중복포스트의 검출 방법.
제1항에 있어서,

상기 제1 문서 및 제2 문서는 각각 블로그 포스트임으로 특징으로 하는 중복포스트의 검출 방법.
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부 및 중복 판정부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서,

상기 특징 시퀀스 추출부가, 제1 문서에 포함된 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 로부터, 서로 다른 개수의 특징들로 구성되는 복수의 중심서브시퀀스들을 추출하는 단계;

상기 특징 시퀀스 추출부가, 제2 문서에 포함된 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 로부터, 서로 다른 개수의 특징들로 구성되는 복수의 중심서브시퀀스들을 추출하는 단계;

상기 중복 판정부가, 상기 제1 특징 시퀀스로부터 추출된 복수의 중심시퀀스들 각각을 n차원 공간상의 점으로 매핑하고, 상기 제2 특징 시퀀스로부터 추출된 복수의 중심서브시퀀스 각각에 대응하는 n차원 공간상의 점을 확인함으로써 상기 제1 특징 시퀀스 및 상기 제2 특징 시퀀스의 중복 여부를 판단하는 단계를 포함하는 중복포스트의 검출 방법.
제5항에 있어서,

상기 제2 특징 시퀀스의 길이는 상기 제1 특징 시퀀스의 길이 및 상기 제1 문서 및 상기 제2 문서간의 중복 정도를 나타내는 중복률에 대한 임계치에 의하여 결정되는 것을 특징으로 하는 중복포스트의 검출 방법.
제5항에 있어서,

상기 제2 특징시퀀스로부터 복수의 중심시퀀스를 추출하기 위한 제2 특징시퀀스의 중심특징은,

제1 시퀀스의 길이 m, 문서간의 중복 정도를 나타내는 중복률 Th, 및
에 의하여 상기 제1 시퀀스에 대응되는 위치가 결정되는 것을 특징으로 하는 중복포스트의 검출 방법.
제7항에 있어서,

상기 제2 특징시퀀스의 중심특징으로부터 중심서브시퀀스를 추출하기 위한 특징들의 개수는, 제2 시퀀스의 길이 n 및
에 의하여 결정되는 것을 특징으로 하는 중복포스트의 검출 방법.
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부, 인덱스 키 생성부 및 질의 처리부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서,

상기 특징 시퀀스 추출부가, 문서에 포함된 문장들 각각의 특징들로 구성된 특징시퀀스 - 여기서, 상기 특징 시퀀스는 상기 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 -를 추출하는 단계;

상기 인덱스 키 생성부가, 상기 특징시퀀스의 중심부분의 w개의 특징들로 구성된 중심서브시퀀스에 대응하는 특징윈도우 W를 추출하는 단계;

상기 인덱스 키 생성부가, 상기 특징윈도우 W의 좌측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 L을 추출하고, 상기 특징윈도우 W의 우측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 R을 추출하는 단계;

상기 인덱스 키 생성부가, 상기 특징윈도우 W, 부속특징시퀀스 L 및 부속특징시퀀스 R에 대응하는 인덱스 키 <W, L, R>를 생성하는 단계; 및

상기 질의 처리부가, 중복 여부 판단의 대상이 되는 문서의 중심에 위치한 문장들로부터 질의윈도우 및 부속특징시퀀스를 생성하고, 상기 인덱스 키 <W, L, R>에 기초하여 중복문서 판단에 대한 질의를 처리하는 단계를 포함하는 중복포스트의 검출 방법.
삭제
제9항에 있어서,

상기 중복문서 판단에 대한 질의를 처리하는 단계는,

질의 대상 문서의 특징시퀀스로부터 상기 특징윈도우에 대응하는 질의윈도우를 추출하고,

상기 특징윈도우 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하고,

상기 질의윈도우 및 부속특징시퀀스로부터 생성되는 인덱스를 이용하여 질의를 처리하는 중복포스트의 검출 방법.
제1항, 제3항 내지 제9항 및 제11항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터 판독 가능한 기록매체.
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 중복포스트의 검출 장치에 있어서,

m개의 문장들로 구성된 제1 문서로부터 상기 m개의 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스를 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하고, n개의 문장들로 구성된 제2 문서로부터 상기 n개의 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스를 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 특징시퀀스 추출부; 및

상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스의 길이에 기초하여 상기 제1 문서 및 제2 문서의 중복여부를 판단하는 중복 판정부를 포함하고,

상기 특징 시퀀스 추출부는, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 - 여기서, 상기 서브시퀀스는 j번째부터 k번째까지의 특징들을 포함하는 시퀀스로 정의되는, 단 j 및 k는 자연수이고 j < k인 - 추출하는,

중복포스트의 검출 장치.
제13항에 있어서,

중복 판정부는,

상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 및 하기 수학식 3을 이용하여 문서간의 중복 정도를 나타내는 중복률
을 계산하고,

[수학식 3]

여기서, LCSS(S_A,S_B)는 S_A 와 S_B 가 공통으로 가지고 있는 서브시퀀스들 중 가장 긴 서브시퀀스, S_A는 제1 특징 시퀀스, S_B는 제2 서브 시퀀스를 의미하고,

상기 중복률이 임계치 이상인 경우에는 상기 제1 문서 및 제2 문서를 중복으로 판단하는,

중복포스트의 검출 장치.
삭제
제13항에 있어서,

임의의 특징시퀀스의 중심서브시퀀스에 대응하는 특징윈도우에 기초하여 문서의 중복 여부를 판단하기 위한 인덱스 키를 생성하는 인덱스 키 생성부를 더 포함하는 중복포스트의 검출 장치.
제16항에 있어서,

상기 인덱스 키 생성부는,

상기 임의의 특징시퀀스의 중심부분의 w개의 특징들로 구성된 중심서브시퀀스에 대응하는 특징윈도우 W를 추출하고,

상기 특징윈도우 W의 좌측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 L을 추출하고, 상기 특징윈도우 W의 우측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 R을 추출하고,

상기 특징윈도우 W, 부속특징시퀀스 L 및 부속특징시퀀스 R에 대응하는 인덱스 키 <W, L, R>를 생성하는,

중복포스트의 검출 장치.
제16항에 있어서,

중복 여부 판단의 대상이 되는 문서의 중심에 위치한 문장들로부터 질의윈도우 및 부속특징시퀀스를 생성하고, 상기 인덱스 키 <W, L, R>에 기초하여 중복문서 판단에 대한 질의를 처리하는 질의 처리부를 더 포함하는,

중복포스트의 검출 장치.