KR100952298B1 - Blog service apparatus and method for handling duplicate documents - Google Patents
Blog service apparatus and method for handling duplicate documents Download PDFInfo
- Publication number
- KR100952298B1 KR100952298B1 KR1020080040873A KR20080040873A KR100952298B1 KR 100952298 B1 KR100952298 B1 KR 100952298B1 KR 1020080040873 A KR1020080040873 A KR 1020080040873A KR 20080040873 A KR20080040873 A KR 20080040873A KR 100952298 B1 KR100952298 B1 KR 100952298B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- index
- duplicate
- blog
- documents
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 개시한다. 블로그 서비스 장치는 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함한다.
블로그 서비스, 중복문서, 핸들링, 중복 검사
Disclosed are a blog service apparatus and method for handling duplicate documents. The blog service apparatus includes: a duplicate determination index for storing index keys, which are criteria for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplicate determination unit that searches the index keys generated by the index key generation unit in the duplicate determination index to determine whether the document is duplicated.
Blog Service, Duplicate Documents, Handling, Duplicate Check
Description
본 발명은 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법에 관한 것으로, 특히 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복 여부에 따라 검색 인덱스로 관리하여 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 블로그 서비스 장치 및 방법에 관한 것이다.The present invention relates to a blog service apparatus and method for handling duplicate documents, and in particular, when a new document is stored in a blog, a duplicate check is performed through a duplicate determination index for determining whether a duplicate is existing and managed as a search index according to the duplicate. The present invention relates to a blog service apparatus and a method for searching only a non-duplicate document through a search index.
블로그(blog)는 블로그 소유자인 블로거(blogger)가 자신의 생각을 온라인상에 게시할 수 있는 일종의 개인 웹사이트이다. 블로그 환경은 블로거가 작성한 온라인 상의 문서들을 통합하여 관리해주는 블로그 서비스 업체들이 존재하며, 일반 웹 페이지 환경과는 다음과 같은 다른 특징을 갖는다. 첫째, 문서를 쉽게 작성하거나 수정할 수 있는 서비스가 제공되므로 일반 웹 페이지보다 문서의 작성 및 수정이 용이하다. 둘째, 문서가 생성될 때 생성된 시각과 함께 데이터베이스에 저장되므로 생성된 문서가 검색 서비스에 반영되는 시점이 빠르다. 셋째, 블로그 검 색 서비스 이외에도 다른 블로그를 쉽게 방문할 수 있는 트랙백(trackback) 등의 기능이 제공된다. 이러한 특성들로 인해 블로거들은 보다 많은 문서들을 생성하고, 실시간으로 생성되는 많은 문서들을 쉽게 열람할 수 있다.A blog is a kind of personal website where bloggers can post their ideas online. The blog environment includes blog service companies that integrate and manage online documents written by bloggers, and have different characteristics from the general web page environment as follows. First, since a service is provided to easily create or modify a document, it is easier to create and modify a document than a general web page. Second, since the document is stored in the database along with the generated time when the document is generated, the generated document is quickly reflected in the search service. Third, in addition to the blog search service, a function such as a trackback that provides easy access to other blogs is provided. These characteristics allow bloggers to generate more documents and easily view many documents generated in real time.
중복문서(duplicate document)란 기존의 다른 문서와 내용이 완전히 일치하거나 극히 일부 내용만을 수정한 문서를 말한다. 다수의 블로거들이 다른 블로거의 좋은 문서를 자신의 블로그에 보관하기 위해 중복문서를 생성한다. 이를 위해 일부 블로그 서비스 업체들에서는 중복문서를 생성할 수 있도록 타 블로거의 문서를 자신의 블로그로 복사해 올 수 있는 스크랩 기능을 제공한다. 또한, 원본 문서의 내용을 그대로 복사 후 붙여넣기(copy&paste)하거나 복사 후 붙여넣기 한 다음 일부 내용을 수정하여 중복문서를 생성하기도 한다.Duplicate document refers to a document in which the content is completely identical to other existing documents or only a small part of the content is modified. Many bloggers create duplicates to keep other bloggers' good documents on their blogs. To do this, some blogging companies offer a scrap feature that allows you to copy other bloggers' documents to your blog so that you can create duplicates. In addition, the content of the original document may be copied and pasted (copy & paste) as it is, or after copying and pasting, some contents may be modified to generate a duplicate document.
블로거들에 의해 생성된 중복문서들은 블로그 검색 서비스 질을 저하시킨다. 중복문서들이 검색 결과에 반영될 경우, 검색 서비스 사용자들은 거의 동일한 내용의 문서들로 이뤄진 검색 결과를 열람하게 된다. 또한, 중복문서는 검색 서비스를 위한 인덱스인 검색 인덱스의 크기를 증가시키기 때문에 검색 시간을 지연시킨다. 이와 같은 문제점을 해결하기 위하여 블로그 환경에서 중복문서를 효과적으로 검출하고, 검출된 문서들을 핸들링할 수 있는 방법이 필요하다. Duplicate documents generated by bloggers deteriorate blog search service. When duplicate documents are reflected in the search results, the search service users browse the search results of documents of almost identical contents. In addition, duplicate documents delay the search time because they increase the size of the search index, which is an index for the search service. In order to solve this problem, there is a need for a method for effectively detecting duplicate documents in a blog environment and handling the detected documents.
중복문서 검출에 관한 대부분의 기존연구들은 웹 페이지 환경에서 진행되었으며, 저자들이 아는 한 블로그 환경을 대상으로 추진한 기존연구는 없다. 또한, 웹 페이지 환경에서 검출된 중복문서를 핸들링하는 전체적인 프레임워크에 관한 연구는 미비하였으며, 대부분의 연구들은 임의의 두 문서가 주어졌을 때 두 문서간의 중복 여부를 판정하는 기법에 초점이 맞추어져 왔다. 기존 웹 페이지 환경에서의 중복문서 판정 기법은 크게 슁글 기반 기법(shingle based algorithms)과 단어 기반 기법(term based algorithms)으로 나눠진다. 먼저 슁글 기반 기법으로는 DSC(Digital Syntactic Clustering), DSC-SS(Digital Syntactic Clustering Super Single), Min-hashing 등의 알고리즘이 있으며, 문서로부터 연속적인 k개의 단어들로 구성된 슁글을 추출하여 문서간의 중복 여부를 판정한다. 단어 기반 기법으로는 I-Match, Cooper기법 등의 알고리즘이 있으며, 문서로부터 의미가 있는 단어만을 추출하여 문서간의 중복 여부를 판정한다. 또한, 웹 페이지 환경의 특성 상 기존의 기법들을 사용하여 검출한 중복문서들은 원본 문서를 알 수 없기 때문에 검색 대상에서 제거하는데 어려움이 있었다. 따라서 웹 페이지 환경에서는 검출된 중복문서들끼리 클러스터링하고, 이들 중 대표적인 문서만을 검색 결과에 보여주는 방식을 사용한다.Most of the existing researches on the detection of duplicated documents have been conducted in the web page environment. In addition, studies on the overall framework for handling duplicate documents detected in a web page environment have been insufficient, and most studies have focused on a technique for determining whether two documents are duplicated when given two documents. . Duplicate document determination in the existing web page environment is divided into shingle based algorithms and term based algorithms. First of all, the sculpt-based technique includes algorithms such as DSC (Digital Syntactic Clustering), DSC-SS (Digital Syntactic Clustering Super Single), Min-hashing, and the like. Determine whether or not. Word-based techniques include algorithms such as I-Match and Cooper, and extract only meaningful words from documents to determine whether they overlap. In addition, due to the nature of the web page environment, duplicate documents detected using existing techniques are difficult to remove from the search target because the original document is unknown. Therefore, in the web page environment, the detected duplicated documents are clustered and only representative documents among them are displayed in the search results.
상술한 바와 같이 웹 페이지 환경과는 달리 블로그 환경에서는 문서가 작성된 시점 순으로 문서가 작성 시각과 함께 데이터베이스와 검색 인덱스에 저장되는 특징을 갖는다. 따라서 중복된 문서들 중 생성 시각이 가장 앞선 것을 원본 문서로 판정할 수 있으며, 이후에 생성된 중복문서들을 안전하게 검색 대상으로부터 제거시킬 수 있다. As described above, unlike the web page environment, in the blog environment, the document is stored in the database and the search index along with the creation time in the order of when the document is created. Therefore, it is possible to determine that the original document has the earliest generation time among the duplicated documents, and the duplicated documents generated later can be safely removed from the search target.
따라서 이러한 블로그 환경의 특성에 착안하여 문서 생성 시점에서 중복문서를 검출하여 검색 대상에서 제거하여 효과적으로 중복문서를 핸들링하는 블로그 서비스 장치 및 방법이 요구된다.Accordingly, there is a need for a blog service apparatus and method for effectively handling duplicate documents by detecting duplicate documents at the time of document generation and removing them from a search object based on the characteristics of the blog environment.
본 발명은 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents.
본 발명은 문서 생성 시점에서 중복문서를 검출하여 검색 대상에서 제거하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents to detect duplicate documents at the time of document generation and to remove them from a search target.
본 발명은 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복 여부에 따라 검색 인덱스로 관리하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.The present invention provides a blog service apparatus and method for handling duplicate documents when the new document is stored in the blog through the duplicate check index for determining whether there is an existing duplicate, and managed by the search index according to the duplicate.
본 발명은 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복되지 않은 문서만 검색 인덱스에 저장하고 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법을 제공한다.According to the present invention, when a new document is stored in a blog, a duplicate check is performed through a duplicate judgment index for determining whether a duplicate exists, and only a duplicate document is stored in the search index and only a non-duplicate document is searched through the search index. Provides a blog service device and method for document handling.
본 발명의 실시예에 따른 블로그 서비스 장치는, 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스 키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함한다.In accordance with another aspect of the present invention, a blog service apparatus includes: a duplicate determination index storing index keys, which are references for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplicate determination unit for retrieving the duplicate documents by searching the index keys generated by the index key generation unit in the duplicate determination index.
본 발명의 실시예에 따른 블로그 서비스 장치에서 중복문서 핸들링 방법은, 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 과정; 추출한 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 과정; 및, 생성한 인덱스키들을 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 과정을 포함한다.Duplicate document handling method in a blog service device according to an embodiment of the present invention, the process of extracting the feature of the document when requested to store the document; Generating index keys that can be combined using the extracted feature; And searching the generated index keys in the duplicate determination index to determine whether the document is duplicated.
상술한 바와 같이 본 발명은 문서의 중복 여부를 판단하는 기준이 되는 인덱스키들을 저장하는 중복 판정 인덱스; 중복되지 않고 첫번째로 저장되는 문서를 저장하는 검색 인덱스; 문서의 저장을 요청 받으면 상기 문서의 특징을 추출하는 특징 추출부; 상기 문서의 특징을 이용하여 조합 가능한 인덱스키들을 생성하는 인덱스키 생성부; 및, 상기 인덱스키 생성부에서 생성한 인덱스키들을 상기 중복 판정 인덱스에서 검색하여 상기 문서의 중복 여부를 판정하는 중복 판정부를 포함하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법으로, 문서를 저장하는 시점에 중복 여부를 판정함으로써 검색 결과에 중복문서가 반영되는 것을 사전에 방지하는 효과를 가진다.As described above, the present invention provides a duplicate determination index for storing index keys as a reference for determining whether a document is duplicated; A search index for storing the first stored document without duplicates; Feature extraction unit for extracting a feature of the document when the request to save the document; An index key generation unit for generating a combination of index keys using the features of the document; And a duplication determination unit which searches for the index keys generated by the index key generation unit in the duplicate determination index and determines whether the documents are duplicated. Determining whether or not is duplicated has an effect of preventing duplicate documents from being reflected in a search result in advance.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 그리고 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. If it is determined that the gist of the present invention may be unnecessarily obscured, the detailed description thereof will be omitted.
본 발명의 실시 예는 블로그에 새로운 문서를 저장할 때 기존에 중복 여부 판별을 위한 중복 판정 인덱스를 통해 중복 검사를 하고 중복되지 않은 문서만 검색 인덱스에 저장하고 검색시 검색 인덱스를 통해 중복되지 않은 문서만을 검색하는 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법이다.In an embodiment of the present invention, when a new document is stored in a blog, a duplicate check is performed through a duplicate determination index for determining whether a duplicate is existing, and only the non-duplicate document is stored in the search index and only the non-duplicate document is searched through the search index. Blog service device and method for handling duplicate documents for searching.
도 1은 본 발명의 일 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 장치의 구성을 도시한 도면이다.1 is a diagram illustrating a configuration of a blog service apparatus for handling duplicate documents according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 블로그 서비스 장치는 제어부(110), 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116), 검색 처리부(118), 중복 판정 인덱스(122), 검색 인덱스(124), 블로그 데이터베이스(130), 입력부(142) 및, 출력부(144)를 포함한다.Referring to FIG. 1, the blog service apparatus according to an exemplary embodiment of the present invention may include a
입력부(142)는 블로그에 저장할 새로이 생성된 문서를 수신할 수 있고, 저장된 블로그를 검색하기 위한 질의어를 입력 받을 수 있다. 또한 질의어에 따른 검색 결과에서 출력하고자 하는 블로그 문서를 선택 받을 수 있다. 출력부(144)는 질의어에 따른 검색 결과를 출력할 수 있고, 선택받은 블로그 문서를 출력할 수 있다.The
중복 판정 인덱스(122)는 중복 여부를 판단하는 기준이 되는 인덱스로서 중복되지 않은 새로운 문서를 저장할 때마다 새로운 문서를 통해 생성한 인덱스키들을 저장한다. The
검색 인덱스(124)는 중복 판정부(116)의 제어에 따라 블로그에 새로운 문서를 저장할 때 중복된 문서가 아니면 문서를 저장하여 관리하는 인덱스이다. 또한, 검색 인덱스(124)는 검색 처리부(118)의 요청에 따라 문서 검색시 검색 처리부(118)로 제공된다. 한편, 본 발명의 실시 예에서는 검색 인덱스(124)를 역 인덱스(inverted index) 구조로 설정한다. The
블로그 데이터베이스(130)는 블로그 문서를 저장하고 관리하는 데이터베이스로 검색 처리부(118)의 제어에 따라 선택받는 문서를 제공한다.The
특징 추출부(112)는 입력부(142)를 통해 수신하는 새문서의 특징을 추출한다. 이때 특징 추출부(112)에서 사용하는 특징 추출 기법에는 DSC(Digital Syntactic Clustering), DSC-SS(Digital Syntactic Clustering-Super Shingle) 및, Min-hashing 등이 있다. 본 발명의 실시 예에서는 다양한 특징 추출 기법 중에서 Min-hashing 기법을 이용한다.The
인덱스키 생성부(114)는 특징 추출부(112)에서 추출한 문서의 특징들을 이용하여 조합 가능한 모든 인덱스키를 생성한다. 이때 인덱스키 생성부(114)에서 인덱스키를 생성하는 데 사용하는 기법은 다차원 인덱스 기법이 가능하다. 다차원 인덱스 기법에 대표적인 예로는 R-트리 또는 R*-트리 기법이 있다. 본 발명의 실시 예에서는 다양한 인덱스 기법 중에서 R*-트리 기법을 이용한다.The
중복 판정부(116)는 인덱스 생성부(114)에서 생성한 문서의 인덱스키를 중복 판정 인덱스(122)에서 검색한다. 검색결과 중복 판정 인덱스(122)에서 기설정 수 이상의 인덱스키가 검색되면 중복 문서로 판단하고 저장 요청받은 문서를 블로 그 데이터베이스(130)에 저장한다. 하지만 검색결과 중복 판정 인덱스(122)에서 기설정 수 이상의 인덱스키가 검색되지 않으면 중복 판정부(116)는 저장할 문서가 중복되지 않은 문서로 판단하고, 인덱스 생성부(114)에서 생성한 문서의 인덱스키를 중복 판정 인덱스(122)에 저장하고, 저장 요청받은 문서를 검색 인덱스(124)와 블로그 데이터베이스(130)에 저장한다. 한편, 본 발명의 실시 예에서는 중복여부를 결정하는 검색된 인덱스키의 기설정 수를 하나로 한다.The
검색 처리부(118)는 입력부(142)를 통해 입력받은 질의어를 검색 인덱스(124)에서 검색하고 검색 결과를 출력부(144)를 통해 출력한다.The
제어부(110)는 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116) 및, 검색 처리부(118)를 제어한다. 즉, 제어부(110)는 특징 추출부(112), 인덱스키 생성부(114), 중복 판정부(116) 및, 검색 처리부(118)의 기능을 수행할 수 있다. 본 발명의 실시 예에서 이를 별도로 구성하여 도시한 것은 각 기능들을 구별하여 설명하기 위함이다. 따라서 실제로 제품을 구현하는 경우에 이들 모두를 제어부(110)에서 처리하도록 구성할 수도 있으며, 이들 중 일부만을 제어부(110)에서 처리하도록 구성할 수도 있다.The
다음에서 본 발명의 실시 예에 따라 특징 추출부(112)에서 Min-hashing 기법을 이용해서 특징을 추출하는 것에 대해 살펴보고자 한다.Next, a
특징 추출부(112)는 HTML 문서 형태로 되어 있는 문서로부터 HTML 태그를 분석하여 블로그 프레임을 제외한 코어 텍스트를 추출한다. 이렇게 추출된 코어 텍 스트로부터 w개의 단어들로 구성되는 슁글을 추출해낸다. 각 슁글을 Min-hashing기법에서 사용하는 Rabin's fingerprinting 함수를 사용하여 고정 크기의 정수 값으로 변환한다. 84개의 선형 순열(linear permutation)을 사용하여 전체 슁글들과 대응하는 정수 값들로부터 84개의 정수 값들을 추출한다. 추출된 84개의 정수 값은 순서대로 14개씩 6개의 그룹으로 나눈 다음 각각의 그룹 내 포함된 정수 값들을 접합(concatenate)시킨 후, Rabin's fingerprinting 함수를 사용하여 최종적으로 순서를 가진 6개의 고정 크기 정수 값으로 변환한다. 즉, 순서를 가진 6개의 고정 크기 정수 값을 해당 문서의 특징으로 한다. 한편 본 발명의 실시 예에서 특징을 추출할 때 84개의 선형 순열을 이용하여 6개의 특징을 추출하고 있지만 이는 고정된 값이 아님으로 실험에 의해 변경될 수도 있다.The
다음으로 본 발명의 실시 예에 따라 인덱스키 생성부(114)에서 R*-트리 기법을 이용해서 인덱스키를 생성하는 것에 대해 살펴보고자 한다.Next, the index
인덱스키 생성부(114)는 특징 추출부(112)로부터 순서를 가진 6개의 특징들을 제공받으면 2개씩 가능한 모든 조합을 생성하여 인덱스키를 생성한다. 6개의 특징의 순서를 고려하여 2개를 선택하는 경우의 수는 6C2이며, 총 15종류의 인덱스키가 생성된다. 이러한 15종류의 인덱스키들을 이용하여 중복 판정 인덱스를 구축한다. 각 인덱스키는 2개의 서로 다른 특징을 가지므로, 인덱스 구조로서 다차원 인덱스의 하나인 R*-트리를 이용한다.When the index
이하, 상기와 같이 구성된 본 발명의 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 방법을 아래에서 도면을 참조하여 설명한다.Hereinafter, a blog service method for handling duplicate documents according to an embodiment of the present invention configured as described above will be described with reference to the accompanying drawings.
도 2는 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 중복문서 핸들링을 위한 블로그 문서의 저장 과정을 도시한 흐름도이다.2 is a flowchart illustrating a process of storing a blog document for handling a duplicate document in a blog service device according to an exemplary embodiment.
도 2를 참조하면 본 발명의 일 실시 예에 따른 블로그 서비스 장치는 200단계에서 새롭게 생성된 블로그 문서의 저장요청을 수신하면, 202단계로 진행하여 해당 문서에서 다수 개의 특징을 추출한다. 이때 특징 추출은 Min-hashing 기법을 사용할 수 있다.Referring to FIG. 2, when a blog service apparatus according to an embodiment of the present invention receives a storage request for a newly generated blog document in
이후, 블로그 서비스 장치는 204단계로 진행하여 추출한 특징을 이용하여 인덱스키들을 생성한다. 이때 인덱스키의 생성은 R*-트리 기법을 사용할 수 있다.In
인덱스키가 생성되면 블로그 서비스 장치는 206단계로 진행하여 생성한 인덱스키들을 가지고 중복 판정 인덱스를 검색하고, 208단계로 진행하여 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하는지 확인한다.When the index key is generated, the blog service apparatus searches for a duplicate determination index using the index keys generated in
208단계의 확인결과 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하면, 블로그 서비스 장치는 214단계로 진행하여 블로그 문서 데이터베이스에 해당문서를 저장한다.As a result of checking in
208단계의 확인결과 중복 판정 인덱스에 생성한 인덱스키들과 동일한 인덱스키가 기설정 수 이상 존재하지 않으면, 블로그 서비스 장치는 210단계로 진행하여 블로그 검색 서비스를 위한 검색 인덱스에 해당 문서를 저장하고, 212단계로 진 행하여 중복 판정 인덱스에 해당 문서를 통해 생성한 인덱스키들을 삽입하고, 214단계로 진행하여 블로그 문서 데이터베이스에 해당문서를 저장한다.If the same index key as the index keys generated in the duplicate determination index does not exist more than a preset number, the blog service device proceeds to step 210 and stores the document in the search index for the blog search service. In step S, the index keys generated through the document are inserted into the duplicate determination index, and in
도 3은 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 검색시 중복문서를 제외한 블로그 문서의 검색 과정을 도시한 흐름도이다.3 is a flowchart illustrating a search process of a blog document excluding duplicate documents when searching in a blog service device according to an embodiment of the present invention.
도 3을 참조하면 본 발명의 일 실시 예에 따른 블로그 서비스 장치는 300단계에서 검색 서비스 사용자로부터 질의어를 이용한 블로그 문서들의 검색을 요청 받으면, 302단계로 진행하여 질의어를 포함하는 문서를 검색 인덱스에서 검색하고, 304단계로 진행하여 검색 인덱스의 검색 결과로 나온 질의어를 포함하는 문서들을 검색 결과로 출력한다.Referring to FIG. 3, when the blog service apparatus receives a search for blog documents using a query from a search service user in
중복문서 핸들링을 위한 블로그 서비스 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The blog service apparatus and method for handling duplicate documents may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.
도 1은 본 발명의 일 실시 예에 따른 중복문서 핸들링을 위한 블로그 서비스 장치의 구성을 도시한 도면,1 is a diagram illustrating a configuration of a blog service apparatus for handling duplicate documents according to an embodiment of the present invention;
도 2는 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 중복문서 핸들링을 위한 블로그 문서의 저장 과정을 도시한 흐름도 및,2 is a flowchart illustrating a process of storing a blog document for handling a duplicate document in a blog service device according to an embodiment of the present invention;
도 3은 본 발명의 일 실시 예에 따른 블로그 서비스 장치에서 검색시 중복문서를 제외한 블로그 문서의 검색 과정을 도시한 흐름도이다.3 is a flowchart illustrating a search process of a blog document excluding duplicate documents when searching in a blog service device according to an embodiment of the present invention.
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080040873A KR100952298B1 (en) | 2008-04-30 | 2008-04-30 | Blog service apparatus and method for handling duplicate documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080040873A KR100952298B1 (en) | 2008-04-30 | 2008-04-30 | Blog service apparatus and method for handling duplicate documents |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090114969A KR20090114969A (en) | 2009-11-04 |
KR100952298B1 true KR100952298B1 (en) | 2010-04-12 |
Family
ID=41556147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080040873A KR100952298B1 (en) | 2008-04-30 | 2008-04-30 | Blog service apparatus and method for handling duplicate documents |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100952298B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102347887B1 (en) * | 2015-10-30 | 2022-01-05 | 삼성에스디에스 주식회사 | Method and apparatus for managing timeline using search engine |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107375A (en) | 2004-10-08 | 2006-04-20 | Canon Inc | System and method for document management, program, and storage medium |
US20060155739A1 (en) | 2005-01-12 | 2006-07-13 | International Business Machines Corporation | A Generic Architecture for Indexing Document Groups in an Inverted Text Index |
-
2008
- 2008-04-30 KR KR1020080040873A patent/KR100952298B1/en not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107375A (en) | 2004-10-08 | 2006-04-20 | Canon Inc | System and method for document management, program, and storage medium |
US20060155739A1 (en) | 2005-01-12 | 2006-07-13 | International Business Machines Corporation | A Generic Architecture for Indexing Document Groups in an Inverted Text Index |
Also Published As
Publication number | Publication date |
---|---|
KR20090114969A (en) | 2009-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788262B1 (en) | Method and system for creating context based summary | |
Urvoy et al. | Tracking web spam with html style similarities | |
CN107085583B (en) | Electronic document management method and device based on content | |
KR20130095171A (en) | Forensic system and forensic method, and forensic program | |
WO2010011691A2 (en) | Methods and systems to fingerprint textual information using word runs | |
EP2625655A1 (en) | System and method for indexing electronic discovery data | |
Im et al. | Linked tag: image annotation using semantic relationships between image tags | |
TW201027375A (en) | Search system, search method and program | |
TW201013433A (en) | Filtering method for the same or similar documents | |
Hasibi et al. | On the reproducibility of the TAGME entity linking system | |
CN107844493B (en) | File association method and system | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
JP2010009252A5 (en) | ||
TWI682286B (en) | System for document searching using results of text analysis and natural language input | |
CN105574004B (en) | A kind of removing duplicate webpages method and apparatus | |
KR100952298B1 (en) | Blog service apparatus and method for handling duplicate documents | |
KR100659370B1 (en) | Method for constructing a document database and method for searching information by matching thesaurus | |
Lin et al. | Online Plagiarized Detection Through Exploiting Lexical, Syntax, and Semantic Information | |
Arun et al. | Near-duplicate web page detection by enhanced TDW and simHash technique | |
CN113032436A (en) | Searching method and device based on article content and title | |
Wang et al. | Natural language semantic corpus construction based on cloud service platform | |
Liu et al. | An improved full-text retrieval for elementary education resource database system | |
Wang et al. | Exploiting sentence-level features for near-duplicate document detection | |
KR100986404B1 (en) | Method and apparatus for detecting duplicate posts in blog environment | |
Elhadi et al. | Webpage duplicate detection using combined POS and sequence alignment algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130329 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20140312 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |