KR100952298B1 - Blog service apparatus and method for handling duplicate documents - Google Patents

Blog service apparatus and method for handling duplicate documents Download PDF

Info

Publication number
KR100952298B1
KR100952298B1 KR1020080040873A KR20080040873A KR100952298B1 KR 100952298 B1 KR100952298 B1 KR 100952298B1 KR 1020080040873 A KR1020080040873 A KR 1020080040873A KR 20080040873 A KR20080040873 A KR 20080040873A KR 100952298 B1 KR100952298 B1 KR 100952298B1
Authority
KR
South Korea
Prior art keywords
document
index
duplicate
blog
documents
Prior art date
Application number
KR1020080040873A
Other languages
Korean (ko)
Other versions
KR20090114969A (en
Inventor
김상욱
이순행
이상철
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020080040873A priority Critical patent/KR100952298B1/en
Publication of KR20090114969A publication Critical patent/KR20090114969A/en
Application granted granted Critical
Publication of KR100952298B1 publication Critical patent/KR100952298B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 개시한다. 블로그 서비스 장치는 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함한다.

Figure R1020080040873

블로그 서비스, 중복문서, 핸들링, 중복 검사

Disclosed are a blog service apparatus and method for handling duplicate documents. The blog service apparatus includes: a duplicate determination index for storing index keys, which are criteria for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplicate determination unit that searches the index keys generated by the index key generation unit in the duplicate determination index to determine whether the document is duplicated.

Figure R1020080040873

Blog Service, Duplicate Documents, Handling, Duplicate Check

Description

중복문서 핸들링을 위한 블로그 서비스 장치 및 방법{BLOG SERVICE APPARATUS AND METHOD FOR HANDLING DUPLICATE DOCUMENTS}BLOG SERVICE APPARATUS AND METHOD FOR HANDLING DUPLICATE DOCUMENTS}

본 발명은 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법에 관한 것으로, 특히 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복 여부에 따라 검색 인덱스로 관리하여 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 블로그 서비스 장치 및 방법에 관한 것이다.The present invention relates to a blog service apparatus and method for handling duplicate documents, and in particular, when a new document is stored in a blog, a duplicate check is performed through a duplicate determination index for determining whether a duplicate is existing and managed as a search index according to the duplicate. The present invention relates to a blog service apparatus and a method for searching only a non-duplicate document through a search index.

블로그(blog)는 블로그 소유자인 블로거(blogger)가 자신의 생각을 온라인상에 게시할 수 있는 일종의 개인 웹사이트이다. 블로그 환경은 블로거가 작성한 온라인 상의 문서들을 통합하여 관리해주는 블로그 서비스 업체들이 존재하며, 일반 웹 페이지 환경과는 다음과 같은 다른 특징을 갖는다. 첫째, 문서를 쉽게 작성하거나 수정할 수 있는 서비스가 제공되므로 일반 웹 페이지보다 문서의 작성 및 수정이 용이하다. 둘째, 문서가 생성될 때 생성된 시각과 함께 데이터베이스에 저장되므로 생성된 문서가 검색 서비스에 반영되는 시점이 빠르다. 셋째, 블로그 검 색 서비스 이외에도 다른 블로그를 쉽게 방문할 수 있는 트랙백(trackback) 등의 기능이 제공된다. 이러한 특성들로 인해 블로거들은 보다 많은 문서들을 생성하고, 실시간으로 생성되는 많은 문서들을 쉽게 열람할 수 있다.A blog is a kind of personal website where bloggers can post their ideas online. The blog environment includes blog service companies that integrate and manage online documents written by bloggers, and have different characteristics from the general web page environment as follows. First, since a service is provided to easily create or modify a document, it is easier to create and modify a document than a general web page. Second, since the document is stored in the database along with the generated time when the document is generated, the generated document is quickly reflected in the search service. Third, in addition to the blog search service, a function such as a trackback that provides easy access to other blogs is provided. These characteristics allow bloggers to generate more documents and easily view many documents generated in real time.

중복문서(duplicate document)란 기존의 다른 문서와 내용이 완전히 일치하거나 극히 일부 내용만을 수정한 문서를 말한다. 다수의 블로거들이 다른 블로거의 좋은 문서를 자신의 블로그에 보관하기 위해 중복문서를 생성한다. 이를 위해 일부 블로그 서비스 업체들에서는 중복문서를 생성할 수 있도록 타 블로거의 문서를 자신의 블로그로 복사해 올 수 있는 스크랩 기능을 제공한다. 또한, 원본 문서의 내용을 그대로 복사 후 붙여넣기(copy&paste)하거나 복사 후 붙여넣기 한 다음 일부 내용을 수정하여 중복문서를 생성하기도 한다.Duplicate document refers to a document in which the content is completely identical to other existing documents or only a small part of the content is modified. Many bloggers create duplicates to keep other bloggers' good documents on their blogs. To do this, some blogging companies offer a scrap feature that allows you to copy other bloggers' documents to your blog so that you can create duplicates. In addition, the content of the original document may be copied and pasted (copy & paste) as it is, or after copying and pasting, some contents may be modified to generate a duplicate document.

블로거들에 의해 생성된 중복문서들은 블로그 검색 서비스 질을 저하시킨다. 중복문서들이 검색 결과에 반영될 경우, 검색 서비스 사용자들은 거의 동일한 내용의 문서들로 이뤄진 검색 결과를 열람하게 된다. 또한, 중복문서는 검색 서비스를 위한 인덱스인 검색 인덱스의 크기를 증가시키기 때문에 검색 시간을 지연시킨다. 이와 같은 문제점을 해결하기 위하여 블로그 환경에서 중복문서를 효과적으로 검출하고, 검출된 문서들을 핸들링할 수 있는 방법이 필요하다. Duplicate documents generated by bloggers deteriorate blog search service. When duplicate documents are reflected in the search results, the search service users browse the search results of documents of almost identical contents. In addition, duplicate documents delay the search time because they increase the size of the search index, which is an index for the search service. In order to solve this problem, there is a need for a method for effectively detecting duplicate documents in a blog environment and handling the detected documents.

중복문서 검출에 관한 대부분의 기존연구들은 웹 페이지 환경에서 진행되었으며, 저자들이 아는 한 블로그 환경을 대상으로 추진한 기존연구는 없다. 또한, 웹 페이지 환경에서 검출된 중복문서를 핸들링하는 전체적인 프레임워크에 관한 연구는 미비하였으며, 대부분의 연구들은 임의의 두 문서가 주어졌을 때 두 문서간의 중복 여부를 판정하는 기법에 초점이 맞추어져 왔다. 기존 웹 페이지 환경에서의 중복문서 판정 기법은 크게 슁글 기반 기법(shingle based algorithms)과 단어 기반 기법(term based algorithms)으로 나눠진다. 먼저 슁글 기반 기법으로는 DSC(Digital Syntactic Clustering), DSC-SS(Digital Syntactic Clustering Super Single), Min-hashing 등의 알고리즘이 있으며, 문서로부터 연속적인 k개의 단어들로 구성된 슁글을 추출하여 문서간의 중복 여부를 판정한다. 단어 기반 기법으로는 I-Match, Cooper기법 등의 알고리즘이 있으며, 문서로부터 의미가 있는 단어만을 추출하여 문서간의 중복 여부를 판정한다. 또한, 웹 페이지 환경의 특성 상 기존의 기법들을 사용하여 검출한 중복문서들은 원본 문서를 알 수 없기 때문에 검색 대상에서 제거하는데 어려움이 있었다. 따라서 웹 페이지 환경에서는 검출된 중복문서들끼리 클러스터링하고, 이들 중 대표적인 문서만을 검색 결과에 보여주는 방식을 사용한다.Most of the existing researches on the detection of duplicated documents have been conducted in the web page environment. In addition, studies on the overall framework for handling duplicate documents detected in a web page environment have been insufficient, and most studies have focused on a technique for determining whether two documents are duplicated when given two documents. . Duplicate document determination in the existing web page environment is divided into shingle based algorithms and term based algorithms. First of all, the sculpt-based technique includes algorithms such as DSC (Digital Syntactic Clustering), DSC-SS (Digital Syntactic Clustering Super Single), Min-hashing, and the like. Determine whether or not. Word-based techniques include algorithms such as I-Match and Cooper, and extract only meaningful words from documents to determine whether they overlap. In addition, due to the nature of the web page environment, duplicate documents detected using existing techniques are difficult to remove from the search target because the original document is unknown. Therefore, in the web page environment, the detected duplicated documents are clustered and only representative documents among them are displayed in the search results.

상술한 바와 같이 웹 페이지 환경과는 달리 블로그 환경에서는 문서가 작성된 시점 순으로 문서가 작성 시각과 함께 데이터베이스와 검색 인덱스에 저장되는 특징을 갖는다. 따라서 중복된 문서들 중 생성 시각이 가장 앞선 것을 원본 문서로 판정할 수 있으며, 이후에 생성된 중복문서들을 안전하게 검색 대상으로부터 제거시킬 수 있다. As described above, unlike the web page environment, in the blog environment, the document is stored in the database and the search index along with the creation time in the order of when the document is created. Therefore, it is possible to determine that the original document has the earliest generation time among the duplicated documents, and the duplicated documents generated later can be safely removed from the search target.

따라서 이러한 블로그 환경의 특성에 착안하여 문서 생성 시점에서 중복문서를 검출하여 검색 대상에서 제거하여 효과적으로 중복문서를 핸들링하는 블로그 서비스 장치 및 방법이 요구된다.Accordingly, there is a need for a blog service apparatus and method for effectively handling duplicate documents by detecting duplicate documents at the time of document generation and removing them from a search object based on the characteristics of the blog environment.

본 발명은 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents.

본 발명은 문서 생성 시점에서 중복문서를 검출하여 검색 대상에서 제거하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents to detect duplicate documents at the time of document generation and to remove them from a search target.

본 발명은 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복 여부에 따라 검색 인덱스로 관리하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents when the new document is stored in the blog through the duplicate check index for determining whether there is an existing duplicate, and managed by the search index according to the duplicate.

본 발명은 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복되지 않은 문서만 검색 인덱스에 저장하고 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.According to the present invention, when a new document is stored in a blog, a duplicate check is performed through a duplicate judgment index for determining whether a duplicate exists, and only a duplicate document is stored in the search index and only a non-duplicate document is searched through the search index. Provides a blog service device and method for document handling.

본 발명의 실시예에 따른 블로그 서비스 장치는, 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스 키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함한다.In accordance with another aspect of the present invention, a blog service apparatus includes: a duplicate determination index storing index keys, which are references for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplicate determination unit for retrieving the duplicate documents by searching the index keys generated by the index key generation unit in the duplicate determination index.

본 발명의 실시예에 따른 블로그 서비스 장치에서 중복문서 핸들링 방법은, 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 과정; 추출한 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 과정; 및, 생성한 인덱스키들을 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 과정을 포함한다.Duplicate document handling method in a blog service device according to an embodiment of the present invention, the process of extracting the feature of the document when requested to store the document; Generating index keys that can be combined using the extracted feature; And searching the generated index keys in the duplicate determination index to determine whether the document is duplicated.

상술한 바와 같이 본 발명은 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법으로, 문서를 저장하는 시점에 중복 여부를 판정함으로써 검색 결과에 중복문서가 반영되는 것을 사전에 방지하는 효과를 가진다.As described above, the present invention provides a duplicate determination index for storing index keys as a reference for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplication determination unit which searches for the index keys generated by the index key generation unit in the duplicate determination index and determines whether the documents are duplicated. Determining whether or not is duplicated has an effect of preventing duplicate documents from being reflected in a search result in advance.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 그리고 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. If it is determined that the gist of the present invention may be unnecessarily obscured, the detailed description thereof will be omitted.

본 발명의 실시 예는 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복되지 않은 문서만 검색 인덱스에 저장하고 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법이다.In an embodiment of the present invention, when a new document is stored in a blog, a duplicate check is performed through a duplicate determination index for determining whether a duplicate is existing, and only the non-duplicate document is stored in the search index and only the non-duplicate document is searched through the search index. Blog service device and method for handling duplicate documents for searching.

도 1은 본 발명의 일 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 장치의 구성을 도시한 도면이다.1 is a diagram illustrating a configuration of a blog service apparatus for handling duplicate documents according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 블로그 서비스 장치는 제어부(110), 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116), 검색 처리부(118), 중복 판정 인덱스(122), 검색 인덱스(124), 블로그 데이터베이스(130), 입력부(142) 및, 출력부(144)를 포함한다.Referring to FIG. 1, the blog service apparatus according to an exemplary embodiment of the present invention may include a controller 110, a feature extractor 112, an index key generator 114, a duplicate determiner 116, a search processor 118, The duplicate determination index 122, the search index 124, the blog database 130, the input unit 142, and the output unit 144 are included.

입력부(142)는 블로그에 저장할 새로이 생성된 문서를 수신할 수 있고, 저장된 블로그를 검색하기 위한 질의어를 입력 받을 수 있다. 또한 질의어에 따른 검색 결과에서 출력하고자 하는 블로그 문서를 선택 받을 수 있다. 출력부(144)는 질의어에 따른 검색 결과를 출력할 수 있고, 선택받은 블로그 문서를 출력할 수 있다.The input unit 142 may receive a newly generated document to be stored in a blog, and may receive a query for searching a stored blog. You can also select the blog document you want to output from the search results according to the query. The output unit 144 may output a search result according to a query and may output the selected blog document.

중복 판정 인덱스(122)는 중복 여부를 판단하는 기준이 되는 인덱스로서 중복되지 않은 새로운 문서를 저장할 때마다 새로운 문서를 통해 생성한 인덱스키들을 저장한다. The duplicate determination index 122 is an index used as a criterion for determining whether a duplicate is stored, and stores index keys generated through a new document whenever a new non-duplicate document is stored.

검색 인덱스(124)는 중복 판정부(116)의 제어에 따라 블로그에 새로운 문서를 저장할 때 중복된 문서가 아니면 문서를 저장하여 관리하는 인덱스이다. 또한, 검색 인덱스(124)는 검색 처리부(118)의 요청에 따라 문서 검색시 검색 처리부(118)로 제공된다. 한편, 본 발명의 실시 예에서는 검색 인덱스(124)를 역 인덱스(inverted index) 구조로 설정한다. The search index 124 is an index that stores and manages a document when it is not a duplicate document when storing a new document in a blog under the control of the duplication determining unit 116. In addition, the search index 124 is provided to the search processing unit 118 when searching for documents in response to a request of the search processing unit 118. Meanwhile, in the embodiment of the present invention, the search index 124 is set to an inverted index structure.

블로그 데이터베이스(130)는 블로그 문서를 저장하고 관리하는 데이터베이스로 검색 처리부(118)의 제어에 따라 선택받는 문서를 제공한다.The blog database 130 is a database that stores and manages blog documents, and provides the selected documents under the control of the search processor 118.

특징 추출부(112)는 입력부(142)를 통해 수신하는 새문서의 특징을 추출한다. 이때 특징 추출부(112)에서 사용하는 특징 추출 기법에는 DSC(Digital Syntactic Clustering), DSC-SS(Digital Syntactic Clustering-Super Shingle) 및, Min-hashing 등이 있다. 본 발명의 실시 예에서는 다양한 특징 추출 기법 중에서 Min-hashing 기법을 이용한다.The feature extractor 112 extracts a feature of the new document received through the input unit 142. At this time, the feature extraction techniques used by the feature extraction unit 112 include DSC (Digital Syntactic Clustering), DSC-SS (Digital Syntactic Clustering-Super Shingle), and Min-hashing. An embodiment of the present invention uses a min-hashing technique among various feature extraction techniques.

인덱스키 생성부(114)는 특징 추출부(112)에서 추출한 문서의 특징들을 이용하여 조합 가능한 모든 인덱스키를 생성한다. 이때 인덱스키 생성부(114)에서 인덱스키를 생성하는 데 사용하는 기법은 다차원 인덱스 기법이 가능하다. 다차원 인덱스 기법에 대표적인 예로는 R-트리 또는 R*-트리 기법이 있다. 본 발명의 실시 예에서는 다양한 인덱스 기법 중에서 R*-트리 기법을 이용한다.The index key generator 114 generates all index keys that can be combined using the features of the document extracted by the feature extractor 112. In this case, the technique used to generate the index key in the index key generator 114 may be a multi-dimensional index technique. Representative examples of the multidimensional index technique include an R-tree or an R * -tree technique. In an embodiment of the present invention, the R * -tree technique is used among various index techniques.

중복 판정부(116)는 인덱스 생성부(114)에서 생성한 문서의 인덱스키를 중복 판정 인덱스(122)에서 검색한다. 검색결과 중복 판정 인덱스(122)에서 기설정 수 이상의 인덱스키가 검색되면 중복 문서로 판단하고 저장 요청받은 문서를 블로 그 데이터베이스(130)에 저장한다. 하지만 검색결과 중복 판정 인덱스(122)에서 기설정 수 이상의 인덱스키가 검색되지 않으면 중복 판정부(116)는 저장할 문서가 중복되지 않은 문서로 판단하고, 인덱스 생성부(114)에서 생성한 문서의 인덱스키를 중복 판정 인덱스(122)에 저장하고, 저장 요청받은 문서를 검색 인덱스(124)와 블로그 데이터베이스(130)에 저장한다. 한편, 본 발명의 실시 예에서는 중복여부를 결정하는 검색된 인덱스키의 기설정 수를 하나로 한다.The duplicate determination unit 116 retrieves the index key of the document generated by the index generation unit 114 from the duplicate determination index 122. When the search result duplicate determination index 122 searches for more than a predetermined number of index keys, it is determined as a duplicate document and the requested document is stored in the blog database 130. However, if a search result duplicate determination index 122 does not search for more than a predetermined number of index keys, the duplicate determination unit 116 determines that a document to be stored is not duplicated, and the index of the document generated by the index generator 114 is determined. The key is stored in the duplicate determination index 122, and the requested document is stored in the search index 124 and the blog database 130. Meanwhile, according to an exemplary embodiment of the present invention, a predetermined number of searched index keys for determining whether or not overlapping is one.

검색 처리부(118)는 입력부(142)를 통해 입력받은 질의어를 검색 인덱스(124)에서 검색하고 검색 결과를 출력부(144)를 통해 출력한다.The search processor 118 searches the query index 124 input through the input unit 142 in the search index 124 and outputs a search result through the output unit 144.

제어부(110)는 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116) 및, 검색 처리부(118)를 제어한다. 즉, 제어부(110)는 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116) 및, 검색 처리부(118)의 기능을 수행할 수 있다. 본 발명의 실시 예에서 이를 별도로 구성하여 도시한 것은 각 기능들을 구별하여 설명하기 위함이다. 따라서 실제로 제품을 구현하는 경우에 이들 모두를 제어부(110)에서 처리하도록 구성할 수도 있으며, 이들 중 일부만을 제어부(110)에서 처리하도록 구성할 수도 있다.The control unit 110 controls the feature extraction unit 112, the index key generation unit 114, the overlap determination unit 116, and the search processing unit 118. That is, the controller 110 may perform the functions of the feature extractor 112, the index key generator 114, the duplicate determiner 116, and the search processor 118. In the embodiment of the present invention is shown separately configured for the purpose of distinguishing each function. Therefore, in the case of actually implementing a product, all of them may be configured to be processed by the controller 110, and only some of them may be configured to be processed by the controller 110.

다음에서 본 발명의 실시 예에 따라 특징 추출부(112)에서 Min-hashing 기법을 이용해서 특징을 추출하는 것에 대해 살펴보고자 한다.Next, a feature extraction unit 112 extracts a feature using a min-hashing method according to an embodiment of the present invention.

특징 추출부(112)는 HTML 문서 형태로 되어 있는 문서로부터 HTML 태그를 분석하여 블로그 프레임을 제외한 코어 텍스트를 추출한다. 이렇게 추출된 코어 텍 스트로부터 w개의 단어들로 구성되는 슁글을 추출해낸다. 각 슁글을 Min-hashing기법에서 사용하는 Rabin's fingerprinting 함수를 사용하여 고정 크기의 정수 값으로 변환한다. 84개의 선형 순열(linear permutation)을 사용하여 전체 슁글들과 대응하는 정수 값들로부터 84개의 정수 값들을 추출한다. 추출된 84개의 정수 값은 순서대로 14개씩 6개의 그룹으로 나눈 다음 각각의 그룹 내 포함된 정수 값들을 접합(concatenate)시킨 후, Rabin's fingerprinting 함수를 사용하여 최종적으로 순서를 가진 6개의 고정 크기 정수 값으로 변환한다. 즉, 순서를 가진 6개의 고정 크기 정수 값을 해당 문서의 특징으로 한다. 한편 본 발명의 실시 예에서 특징을 추출할 때 84개의 선형 순열을 이용하여 6개의 특징을 추출하고 있지만 이는 고정된 값이 아님으로 실험에 의해 변경될 수도 있다.The feature extracting unit 112 extracts core text excluding blog frames by analyzing HTML tags from a document in the form of an HTML document. From this extracted text, we extract the sentence consisting of w words. Each shingle is converted to a fixed-size integer value using Rabin's fingerprinting function used by the Min-hashing technique. 84 linear permutation is used to extract 84 integer values from the whole shingles and corresponding integer values. The extracted 84 integer values are divided into 6 groups of 14 in order, then concatenate the integer values contained in each group, and finally use the Rabin's fingerprinting function to finally set the 6 fixed size integer values in order. Convert to That is, six fixed-sized integer values in the sequence are the characteristics of the document. Meanwhile, in the embodiment of the present invention, six features are extracted using 84 linear permutations when the features are extracted, but this is not a fixed value and may be changed by experiment.

다음으로 본 발명의 실시 예에 따라 인덱스키 생성부(114)에서 R*-트리 기법을 이용해서 인덱스키를 생성하는 것에 대해 살펴보고자 한다.Next, the index key generation unit 114 according to an embodiment of the present invention will be described for generating the index key using the R * -tree technique.

인덱스키 생성부(114)는 특징 추출부(112)로부터 순서를 가진 6개의 특징들을 제공받으면 2개씩 가능한 모든 조합을 생성하여 인덱스키를 생성한다. 6개의 특징의 순서를 고려하여 2개를 선택하는 경우의 수는 6C2이며, 총 15종류의 인덱스키가 생성된다. 이러한 15종류의 인덱스키들을 이용하여 중복 판정 인덱스를 구축한다. 각 인덱스키는 2개의 서로 다른 특징을 가지므로, 인덱스 구조로서 다차원 인덱스의 하나인 R*-트리를 이용한다.When the index key generating unit 114 is provided with six features in order from the feature extracting unit 112, the index key generating unit 114 generates all the possible combinations by two to generate the index key. Considering the order of the six features, the number of cases in which two are selected is 6 C 2 , and a total of 15 kinds of index keys are generated. The duplicate decision index is constructed using these 15 kinds of index keys. Since each index key has two different characteristics, it uses R * -tree, which is one of the multidimensional indexes, as an index structure.

이하, 상기와 같이 구성된 본 발명의 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 방법을 아래에서 도면을 참조하여 설명한다.Hereinafter, a blog service method for handling duplicate documents according to an embodiment of the present invention configured as described above will be described with reference to the accompanying drawings.

도 2는 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 중복문서 핸들링을 위한 블로그 문서의 저장 과정을 도시한 흐름도이다.2 is a flowchart illustrating a process of storing a blog document for handling a duplicate document in a blog service device according to an exemplary embodiment.

도 2를 참조하면 본 발명의 일 실시 예에 따른 블로그 서비스 장치는 200단계에서 새롭게 생성된 블로그 문서의 저장요청을 수신하면, 202단계로 진행하여 해당 문서에서 다수 개의 특징을 추출한다. 이때 특징 추출은 Min-hashing 기법을 사용할 수 있다.Referring to FIG. 2, when a blog service apparatus according to an embodiment of the present invention receives a storage request for a newly generated blog document in step 200, the blog service apparatus extracts a plurality of features from the corresponding document in step 202. At this time, feature extraction can use Min-hashing technique.

이후, 블로그 서비스 장치는 204단계로 진행하여 추출한 특징을 이용하여 인덱스키들을 생성한다. 이때 인덱스키의 생성은 R*-트리 기법을 사용할 수 있다.In operation 204, the blog service apparatus generates index keys using the extracted feature. At this time, the generation of the index key may use the R * -tree technique.

인덱스키가 생성되면 블로그 서비스 장치는 206단계로 진행하여 생성한 인덱스키들을 가지고 중복 판정 인덱스를 검색하고, 208단계로 진행하여 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하는지 확인한다.When the index key is generated, the blog service apparatus searches for a duplicate determination index using the index keys generated in step 206, and proceeds to step 208. Check it.

208단계의 확인결과 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하면, 블로그 서비스 장치는 214단계로 진행하여 블로그 문서 데이터베이스에 해당문서를 저장한다.As a result of checking in step 208, if there are more than the same number of index keys as the index keys generated in the duplicate determination index, the blog service apparatus proceeds to step 214 and stores the document in the blog document database.

208단계의 확인결과 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하지 않으면, 블로그 서비스 장치는 210단계로 진행하여 블로그 검색 서비스를 위한 검색 인덱스에 해당 문서를 저장하고, 212단계로 진 행하여 중복 판정 인덱스에 해당 문서를 통해 생성한 인덱스키들을 삽입하고, 214단계로 진행하여 블로그 문서 데이터베이스에 해당문서를 저장한다.If the same index key as the index keys generated in the duplicate determination index does not exist more than a preset number, the blog service device proceeds to step 210 and stores the document in the search index for the blog search service. In step S, the index keys generated through the document are inserted into the duplicate determination index, and in step 214, the document is stored in the blog document database.

도 3은 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 검색시 중복문서를 제외한 블로그 문서의 검색 과정을 도시한 흐름도이다.3 is a flowchart illustrating a search process of a blog document excluding duplicate documents when searching in a blog service device according to an embodiment of the present invention.

도 3을 참조하면 본 발명의 일 실시 예에 따른 블로그 서비스 장치는 300단계에서 검색 서비스 사용자로부터 질의어를 이용한 블로그 문서들의 검색을 요청 받으면, 302단계로 진행하여 질의어를 포함하는 문서를 검색 인덱스에서 검색하고, 304단계로 진행하여 검색 인덱스의 검색 결과로 나온 질의어를 포함하는 문서들을 검색 결과로 출력한다.Referring to FIG. 3, when the blog service apparatus receives a search for blog documents using a query from a search service user in step 300, the blog service apparatus searches for a document including a query in a search index in step 300. In operation 304, the documents including the query words resulting from the search index are output as the search results.

중복문서 핸들링을 위한 블로그 서비스 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The blog service apparatus and method for handling duplicate documents may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

도 1은 본 발명의 일 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 장치의 구성을 도시한 도면,1 is a diagram illustrating a configuration of a blog service apparatus for handling duplicate documents according to an embodiment of the present invention;

도 2는 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 중복문서 핸들링을 위한 블로그 문서의 저장 과정을 도시한 흐름도 및,2 is a flowchart illustrating a process of storing a blog document for handling a duplicate document in a blog service device according to an embodiment of the present invention;

도 3은 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 검색시 중복문서를 제외한 블로그 문서의 검색 과정을 도시한 흐름도이다.3 is a flowchart illustrating a search process of a blog document excluding duplicate documents when searching in a blog service device according to an embodiment of the present invention.

Claims (18)

문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스;A duplicate determination index for storing index keys serving as a criterion for determining whether a document is duplicated; 중복되지 않은 문서만을 저장하는 검색 인덱스;A search index that stores only non-duplicate documents; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부;Feature extraction unit for extracting a feature of the document when the request to save the document; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및An index key generation unit for generating a combination of index keys using the features of the document; And 상기 인덱스키 생성부에서 생성한 인덱스키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함함을 특징으로 하는 블로그 서비스 장치.And a duplicate determination unit for retrieving whether or not the document is duplicated by searching the index keys generated by the index key generation unit in the duplicate determination index. 제1항에 있어서,The method of claim 1, 문서를 저장하고 관리하는 블로그 데이터베이스를 더 포함하고,Further includes a blog database for storing and managing documents, 상기 중복 판정부는 상기 문서가 중복된 문서가 아니면 상기 생성한 인덱스키들을 상기 중복 판정 인덱스에 저장하고 상기 문서를 상기 검색 인덱스와 상기 블로그 데이터베이스에 저장함을 특징으로 하는 블로그 서비스 장치.And if the document is not a duplicate document, the duplicate determination unit stores the generated index keys in the duplicate determination index and stores the document in the search index and the blog database. 제2항에 있어서, 상기 중복 판정부는,The method of claim 2, wherein the overlap determination unit, 상기 문서가 중복된 문서이면 상기 문서를 상기 블로그 데이터베이스에 저장함을 특징으로 하는 블로그 서비스 장치.And if the document is a duplicate document, storing the document in the blog database. 제1항에 있어서, 상기 중복 판정부는,The method of claim 1, wherein the overlap determination unit, 상기 중복 판정 인덱스에서 상기 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 검색되면 상기 문서가 중복되었다고 판단함을 특징으로 하는 블로그 서비스 장치.And if the same index key as the generated index keys is searched for more than a predetermined number in the duplicate determination index, the blog service apparatus determines that the document is duplicated. 제1항에 있어서, 상기 특징 추출부는,The method of claim 1, wherein the feature extraction unit, 민해쉬(Min-hashing) 기법을 이용하여 상기 문서에서 순서를 가진 고정 크기 정수 값으로 표현되는 특징을 추출함을 특징으로 하는 블로그 서비스 장치.A blog service apparatus, comprising extracting a feature represented by an ordered fixed-size integer value from the document using a min-hashing technique. 제1항에 있어서, 상기 인덱스키 생성부는,The method of claim 1, wherein the index key generation unit, 다차원 인덱스 기법을 이용하여 상기 인덱스키들을 생성함을 특징으로 하는 블로그 서비스 장치.Blog service apparatus, characterized in that for generating the index keys using a multi-dimensional index technique. 제1항에 있어서, 상기 검색 인덱스는,The method of claim 1, wherein the search index, 역 인덱스(inverted index) 구조로 설정함을 특징으로 하는 블로그 서비스 장치.Blog service device characterized in that the inverted index (inverted index) structure. 제1항에 있어서,The method of claim 1, 질의어를 입력 받으면 상기 질의어를 포함하는 문서를 상기 검색 인덱스에서 검색하여 상기 질의어를 포함하는 문서를 출력하는 검색 처리부를 더 포함함을 특징으로 하는 블로그 서비스 장치.And a search processing unit for searching for a document including the query in the search index and outputting a document including the query when receiving a query. 문서의 저장을 요청받으면 상기 문서의 특징을 추출하는 과정;Extracting features of the document when requested to save the document; 추출한 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 과정; 및Generating index keys that can be combined using the extracted feature; And 생성한 인덱스키들을 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 과정을 포함함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.And determining whether the document is duplicated by searching the generated index keys in a duplicate determination index. 제9항에 있어서,10. The method of claim 9, 중복 여부를 판정결과 상기 문서가 중복된 문서가 아니면 상기 생성한 인덱스키들을 상기 중복 판정 인덱스에 저장하고 상기 문서를 검색 인덱스와 블로그 데이터베이스에 저장하는 과정을 더 포함함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.And if the document is not a duplicated document as a result of determining whether the document is duplicated, storing the generated index keys in the duplicated determination index and storing the document in a search index and a blog database. How to handle duplicate documents. 제9항에 있어서,10. The method of claim 9, 중복 여부를 판정결과 상기 문서가 중복된 문서이면 상기 문서를 블로그 데이터베이스에 저장함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.And if the document is a duplicate document, determining whether the document is a duplicate document, and storing the document in a blog database. 제9항에 있어서, 상기 문서의 중복 여부를 판정하는 과정은,The method of claim 9, wherein the determining of the duplication of the document comprises: 상기 중복 판정 인덱스에서 상기 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 검색되면 상기 문서가 중복되었다고 판단함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.The method of handling duplicate documents in a blog service apparatus, characterized in that the document is duplicated when the same index key as the generated index keys is searched for more than a predetermined number in the duplicate determination index. 제9항에 있어서, 상기 중복 판정 인덱스는,The method of claim 9, wherein the duplicate determination index, 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.Method for handling duplicate documents in a blog service device, characterized in that for storing the index keys as a criterion for determining whether the document is duplicated. 제9항에 있어서, 상기 문서의 특징을 추출하는 과정은,The method of claim 9, wherein the extracting the feature of the document comprises: 민해쉬(Min-hashing) 기법을 이용하여 상기 문서에서 순서를 가진 고정 크기 정수 값으로 표현되는 특징을 추출함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.A method for handling duplicate documents in a blog service device, comprising extracting a feature represented by an ordered fixed-size integer value from the document using a min-hashing technique. 제9항에 있어서, 상기 인덱스키들을 생성하는 과정은,The method of claim 9, wherein the generating of the index keys comprises: 다차원 인덱스 기법을 이용하여 상기 인덱스키들을 생성함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.The method of handling duplicate documents in a blog service apparatus, wherein the index keys are generated using a multidimensional index technique. 제10항에 있어서,The method of claim 10, 질의어를 입력 받으면 상기 질의어를 포함하는 문서를 상기 검색 인덱스에서 검색하는 과정; 및Searching for a document including the query in the search index when a query is input; And 상기 질의어를 포함하는 문서를 출력하는 과정을 더 포함함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.The method of handling duplicate documents in a blog service device, further comprising the step of outputting a document including the query. 제10항에 있어서, 상기 검색 인덱스는,The method of claim 10, wherein the search index, 중복되지 않고 첫번째로 저장되는 문서만을 저장함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.A method for handling duplicate documents in a blog service device, characterized in that only the first stored document is stored without being duplicated. 제10항에 있어서, 상기 검색 인덱스는,The method of claim 10, wherein the search index, 역 인덱스(inverted index) 구조로 설정함을 특징으로 하는 블로그 서비스 장치에서 중복문서 핸들링 방법.Duplicate document handling method in a blog service device, characterized in that the inverted (inverted index) structure.
KR1020080040873A 2008-04-30 2008-04-30 Blog service apparatus and method for handling duplicate documents KR100952298B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080040873A KR100952298B1 (en) 2008-04-30 2008-04-30 Blog service apparatus and method for handling duplicate documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080040873A KR100952298B1 (en) 2008-04-30 2008-04-30 Blog service apparatus and method for handling duplicate documents

Publications (2)

Publication Number Publication Date
KR20090114969A KR20090114969A (en) 2009-11-04
KR100952298B1 true KR100952298B1 (en) 2010-04-12

Family

ID=41556147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080040873A KR100952298B1 (en) 2008-04-30 2008-04-30 Blog service apparatus and method for handling duplicate documents

Country Status (1)

Country Link
KR (1) KR100952298B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347887B1 (en) * 2015-10-30 2022-01-05 삼성에스디에스 주식회사 Method and apparatus for managing timeline using search engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107375A (en) 2004-10-08 2006-04-20 Canon Inc System and method for document management, program, and storage medium
US20060155739A1 (en) 2005-01-12 2006-07-13 International Business Machines Corporation A Generic Architecture for Indexing Document Groups in an Inverted Text Index

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107375A (en) 2004-10-08 2006-04-20 Canon Inc System and method for document management, program, and storage medium
US20060155739A1 (en) 2005-01-12 2006-07-13 International Business Machines Corporation A Generic Architecture for Indexing Document Groups in an Inverted Text Index

Also Published As

Publication number Publication date
KR20090114969A (en) 2009-11-04

Similar Documents

Publication Publication Date Title
US7788262B1 (en) Method and system for creating context based summary
Urvoy et al. Tracking web spam with html style similarities
CN107085583B (en) Electronic document management method and device based on content
KR20130095171A (en) Forensic system and forensic method, and forensic program
WO2010011691A2 (en) Methods and systems to fingerprint textual information using word runs
EP2625655A1 (en) System and method for indexing electronic discovery data
Im et al. Linked tag: image annotation using semantic relationships between image tags
TW201027375A (en) Search system, search method and program
TW201013433A (en) Filtering method for the same or similar documents
Hasibi et al. On the reproducibility of the TAGME entity linking system
CN107844493B (en) File association method and system
US20120317125A1 (en) Method and apparatus for identifier retrieval
JP2010009252A5 (en)
TWI682286B (en) System for document searching using results of text analysis and natural language input
CN105574004B (en) A kind of removing duplicate webpages method and apparatus
KR100952298B1 (en) Blog service apparatus and method for handling duplicate documents
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
Lin et al. Online Plagiarized Detection Through Exploiting Lexical, Syntax, and Semantic Information
Arun et al. Near-duplicate web page detection by enhanced TDW and simHash technique
CN113032436A (en) Searching method and device based on article content and title
Wang et al. Natural language semantic corpus construction based on cloud service platform
Liu et al. An improved full-text retrieval for elementary education resource database system
Wang et al. Exploiting sentence-level features for near-duplicate document detection
KR100986404B1 (en) Method and apparatus for detecting duplicate posts in blog environment
Elhadi et al. Webpage duplicate detection using combined POS and sequence alignment algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140312

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee