KR20070106475A - 텍스트 복제 탐지 방법 - Google Patents

텍스트 복제 탐지 방법 Download PDF

Info

Publication number
KR20070106475A
KR20070106475A KR1020070085831A KR20070085831A KR20070106475A KR 20070106475 A KR20070106475 A KR 20070106475A KR 1020070085831 A KR1020070085831 A KR 1020070085831A KR 20070085831 A KR20070085831 A KR 20070085831A KR 20070106475 A KR20070106475 A KR 20070106475A
Authority
KR
South Korea
Prior art keywords
text
shot
detection
copy
original text
Prior art date
Application number
KR1020070085831A
Other languages
English (en)
Inventor
장중혁
Original Assignee
(주)코인미디어 랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)코인미디어 랩 filed Critical (주)코인미디어 랩
Priority to KR1020070085831A priority Critical patent/KR20070106475A/ko
Publication of KR20070106475A publication Critical patent/KR20070106475A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은, 복제 탐지 원본 텍스트를 텍스트의 특정 구성 요소를 기준으로 분할하는 복제 탐지 원본 텍스트 샷 분할 단계와,
분할된 텍스트 샷 내의 문자열 정보로부터, 문자열에 대응되는 임의 길이의 2진코드값의 열을 함수를 이용하여 고정된 크기의 2진코드에 대응시킨 텍스트 샷 기술자와 해당 텍스트 샷이 포함된 복제 탐지 원본 텍스트의 식별자를 포함하는 핑거프린트를 추출하는 복제 탐지 원본 텍스트 샷 핑거프린트 추출단계와,
복제 탐지 원본 텍스트로부터 추출된 복제 탐지 원본 텍스트 샷 핑거프린트를 데이터베이스에 저장하는 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계와,
복제 탐지 대상 텍스트가 입력되면, 복제 탐지 원본 텍스트를 텍스트 샷으로 분할할 때와 동일한 방법으로, 복제 탐지 대상 텍스트 샷으로 분할하는 복제 탐지 대상 텍스트 샷 분할 단계와,
복제 탐지 대상 텍스트 샷으로부터, 복제 탐지 원본 텍스트 샷 핑거프린트 추출 방법과 동일한 방법으로 핑거프린트를 추출하는 복제 탐지 대상 텍스트 샷 핑거프린트 추출 단계와,
복제 탐지 대상 텍스트 샷 핑거프린트를 데이터베이스에 저장된 복제 탐지 원본 텍스트 샷 핑거프린트와 비교하여 복제 탐지 대상 텍스트의 원본 복제 여부를 판정하는 텍스트 복제 판정 단계를 포함하는,
텍스트 복제 탐지 방법
Figure 112007061811569-PAT00001
텍스트, 복제, 탐지

Description

텍스트 복제 탐지 방법{Method for text copy detection}
도1은 텍스트 복제 탐지 방법의 한 실시 예에 따른 플로우차트
도2는 텍스트 복제 탐지를 위해 복제 탐지 원본 텍스트를 등록하는 한 실시예의 플로우차트
도3은 텍스트로부터 분할된 텍스트 샷으로부터 텍스트 샷 기술자를 추출하는 2진 연산 방법을 설명한 그림
텍스트 복제 탐지의 가장 단순한 방법은, 문자열과 문자열을 비교하는 방법으로, 이러한 방법을 사용할 경우 텍스트의 복제 비율 등을 측정할 수 있으며, 현재 이러한 방법을 응용한 복제 탐지 기술 중에는, 변수명과 함수의 순서 등을 바꿔가면서 복제한 프로그램 소스코드나 키워드 등을 변형한 논문 등의 복제 여부를 판정하기 위해 사용되는 기술이 널리 공지 기술로 알려져 있다.
이 방법의 장점은 어휘나 변수 등의 요소를 일괄 편집이나, 위치 변경 등으로 복제 여부를 감추려는 복제자에 의한 복제를 탐지해 낼 수 있다는 장점이 있다.
하지만, 이 방법은 먼저 원본의 구문을 분석하고 변형 가능한 문장 구성요소 를 분해하는 등 복잡한 연산을 필요로 하기 때문에, 인터넷과 같은 대형 데이터베이스 내에 있는 텍스트들 간의 복제 여부를 탐지하거나, 통신량이 많은 네트워크에서 패킷 재조립 등의 방법으로 복제 여부를 탐지하는 데에는, 적합하지 않은 문제를 안고 있다.
본 발명이 이루고자 하는 기술적 과제는, 인터넷 상에서 유통되는 텍스트 파일이 기 등록된 원본을 단순 클리핑 형태 또는 클리핑 후 편집 정도의 변형한 복제본인 경우, 이를 고속으로 탐지하여, 인터넷에서 텍스트 형태 저작물의 저작권을 보호하거나, 사용자들이 많이 찾는 검색어를 광고성 페이지 또는 메타 정보 안에 삽입하여 검색 엔진 등의 검색 결과 품질을 저하시키는 것을, 단순 복제로 대량 생산되는 광고성 텍스트를 고속으로 걸러냄으로써, 사용자들이 검색 엔진을 통해 유용한 정보를 제공받을 수 있게 하는 것을 목표로 한다.
본 발명은, 복제 탐지 원본 텍스트를 텍스트의 특정 구성 요소를 기준으로 분할하는 복제 탐지 원본 텍스트 샷 분할 단계와,
분할된 텍스트 샷 내의 문자열 정보로부터, 문자열에 대응되는 임의 길이의 2진코드값의 열을 함수를 이용하여 고정된 크기의 2진코드에 대응시킨 텍스트 샷 기술자와 해당 텍스트 샷이 포함된 복제 탐지 원본 텍스트의 식별자를 포함하는 핑 거프린트를 추출하는 복제 탐지 원본 텍스트 샷 핑거프린트 추출단계와,
복제 탐지 원본 텍스트로부터 추출된 복제 탐지 원본 텍스트 샷 핑거프린트를 데이터베이스에 저장하는 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계와,
복제 탐지 대상 텍스트가 입력되면, 복제 탐지 원본 텍스트를 텍스트 샷으로 분할할 때와 동일한 방법으로, 복제 탐지 대상 텍스트 샷으로 분할하는 복제 탐지 대상 텍스트 샷 분할 단계와,
복제 탐지 대상 텍스트 샷으로부터, 복제 탐지 원본 텍스트 샷 핑거프린트 추출 방법과 동일한 방법으로 핑거프린트를 추출하는 복제 탐지 대상 텍스트 샷 핑거프린트 추출 단계와,
복제 탐지 대상 텍스트 샷 핑거프린트를 데이터베이스에 저장된 복제 탐지 원본 텍스트 샷 핑거프린트와 비교하여 복제 탐지 대상 텍스트의 원본 복제 여부를 판정하는 텍스트 복제 판정 단계를 포함하는,
텍스트 복제 탐지 방법
상기 복제 탐지 원본 텍스트 샷 분할 단계는,
텍스트 샷 분할의 경계로, 마침표 등의 문장 부호를 사용하는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 분할 단계
상기 복제 탐지 원본 텍스트 샷 분할 단계는,
복제 탐지 원본 텍스트 샷을 분할하기 전에, 문장 내에 있는 공백과 줄바꿈을 제거하는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 분할 단계
상기 복제 탐지 원본 텍스트 샷 분할 단계는,
복제 탐지 원본 텍스트 샷을 분할하기 전에, 문장 내에 있는 문장부호를 제외한 특수기호를 제거하는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 분할 단계
상기 복제 탐지 원본 텍스트 샷 핑거프린트 추출 단계는,
복제 탐지 원본 텍스트 샷으로부터 텍스트 샷 기술자를 추출하기 위해, 텍스트 샷 내의 문자열에 대응되는 임의 길이의 2진 코드값의 열을 텍스트 샷 기술자의 길이로 정해진 2진 코드의 길이와 동일한 크기로 분할하여 얻은, 복수의 고정 길이의 2진 코드를 순차적으로 대응 비트 간 XOR 연산을 반복하여 마지막 고정 길이 2진코드의 XOR 연산이 종료되고 얻은 2진 코드값을, 텍스트 샷 기술자로 하는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 핑거프린트 추출 단계
도3은 상기 핑거프린트 추출 방법의 한 실시예를 도시한 것이다.
상기 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계는,
텍스트 샷 기술자를 2진수로 보고 크기 순서에 따라 기존에 등록된 텍스트 샷 핑거프린트에 대한 상대적 기록 위치를 결정하는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계
상기 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계는,
복제 탐지 원본 텍스트 샷 핑거프린트를 등록하기 전에, 입력된 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트로 간주하여, 기존의 데이터베이스에 등록된 복제 탐지 원본 텍스트와의 비교를 통해, 일치하는 기등록 복제 탐지 원본 텍스트가 존재하면, 입력된 복제 탐지 원본 텍스트로부터 추출된 텍스트 샷 핑거프린트의 등록을 허가하지 않는 것을 특징으로 하는
복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계
상기 텍스트 복제 판정 단계는,
복제 탐지 대상 텍스트로부터 추출된 텍스트 샷의 기술자와 동일한 텍스트 샷 기술자를 기준 비율 이상으로 포함한 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트가 복제하였다고 판정하는 것을 특징으로 하는
텍스트 복제 판정 단계
상기 텍스트 복제 판정 단계는,
복제 탐지 대상 텍스트로부터 추출된 텍스트 샷의 기술자와 동일한 텍스트 샷 기술자를 기준 비율 이상으로 포함하고, 일치하는 텍스트 샷 기술자의 상대적 순서의 유사성이 높은 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트가 복제하였다고 판정하는 것을 특징으로 하는
텍스트 복제 판정 단계
본 발명을 실시하면, 인터넷과 같은 대용량 데이터베이스 내에서 저작권이 등록된 텍스트의 불법적 복제 여부를 매우 적은 연산량으로 판정할 수 있게 되어, 텍스트 형태의 디지털 저작권을 보호할 수 있고, 이를 검색 엔진에서 활용하면, 정보로서 가치가 낮고 단순 복제되어 텍스트의 양이 많은 텍스트 페이지를 검색 결과에서 배제하거나 우선순위를 낮게 하여, 검색엔진 이용자에게 더 좋은 품질의 텍스트 검색 결과를 제공할 수 있다.

Claims (10)

  1. 복제 탐지 원본 텍스트를 텍스트의 특정 구성 요소를 기준으로 분할하는 복제 탐지 원본 텍스트 샷 분할 단계와,
    분할된 텍스트 샷 내의 문자열 정보로부터, 문자열에 대응되는 임의 길이의 2진코드값의 열을 함수를 이용하여 고정된 크기의 2진코드에 대응시킨 텍스트 샷 기술자와 해당 텍스트 샷이 포함된 복제 탐지 원본 텍스트의 식별자를 포함하는 핑거프린트를 추출하는 복제 탐지 원본 텍스트 샷 핑거프린트 추출단계와,
    복제 탐지 원본 텍스트로부터 추출된 복제 탐지 원본 텍스트 샷 핑거프린트를 데이터베이스에 저장하는 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계와,
    복제 탐지 대상 텍스트가 입력되면, 복제 탐지 원본 텍스트를 텍스트 샷으로 분할할 때와 동일한 방법으로, 복제 탐지 대상 텍스트 샷으로 분할하는 복제 탐지 대상 텍스트 샷 분할 단계와,
    복제 탐지 대상 텍스트 샷으로부터, 복제 탐지 원본 텍스트 샷 핑거프린트 추출 방법과 동일한 방법으로 핑거프린트를 추출하는 복제 탐지 대상 텍스트 샷 핑거프린트 추출 단계와,
    복제 탐지 대상 텍스트 샷 핑거프린트를 데이터베이스에 저장된 복제 탐지 원본 텍스트 샷 핑거프린트와 비교하여 복제 탐지 대상 텍스트의 원본 복제 여부를 판정하는 텍스트 복제 판정 단계를 포함하는,
    텍스트 복제 탐지 방법
  2. 제 1항의 복제 탐지 원본 텍스트 샷 분할 단계는,
    텍스트 샷 분할의 경계로, 마침표 등의 문장 부호를 사용하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 분할 단계
  3. 제 1항의 복제 탐지 원본 텍스트 샷 분할 단계는,
    복제 탐지 원본 텍스트 샷을 분할하기 전에, 문장 내에 있는 문장부호를 제외한 특수기호를 제거하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 분할 단계
  4. 제 1항의 복제 탐지 원본 텍스트 샷 분할 단계는,
    복제 탐지 원본 텍스트 샷을 분할하기 전에, 문장 내에 있는 문장부호를 제외한 특수기호를 제거하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 분할 단계
  5. 제 1항의 복제 탐지 원본 텍스트 샷 분할 단계는,
    복제 탐지 원본 텍스트 샷을 분할하기 전에, 문장 내에 있는 문장부호를 제외한 특수기호를 제거하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 분할 단계
  6. 제 1항의 복제 탐지 원본 텍스트 샷 핑거프린트 추출 단계는,
    복제 탐지 원본 텍스트 샷으로부터 텍스트 샷 기술자를 추출하기 위해, 텍스트 샷 내의 문자열에 대응되는 임의 길이의 2진 코드값의 열을 텍스트 샷 기술자의 길이로 정해진 2진 코드의 길이와 동일한 크기로 분할하여 얻은, 복수의 고정 길이의 2진 코드를 순차적으로 대응 비트 간 XOR 연산을 반복하여 마지막 고정 길이 2진코드의 XOR 연산이 종료되고 얻은 2진 코드값을, 텍스트 샷 기술자로 하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 핑거프린트 추출 단계
  7. 제 1항의 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계는,
    텍스트 샷 기술자를 2진수로 보고 크기 순서에 따라 기존에 등록된 텍스트 샷 핑거프린트에 대한 상대적 기록 위치를 결정하는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계
  8. 제 1항의 복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계는,
    복제 탐지 원본 텍스트 샷 핑거프린트를 등록하기 전에, 입력된 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트로 간주하여, 기존의 데이터베이스에 등록된 복제 탐지 원본 텍스트와의 비교를 통해, 일치하는 기등록 복제 탐지 원본 텍스트가 존재하면, 입력된 복제 탐지 원본 텍스트로부터 추출된 텍스트 샷 핑거프린트의 등록을 허가하지 않는 것을 특징으로 하는
    복제 탐지 원본 텍스트 샷 핑거프린트 등록 단계
  9. 제 1항의 텍스트 복제 판정 단계는,
    복제 탐지 대상 텍스트로부터 추출된 텍스트 샷의 기술자와 동일한 텍스트 샷 기술자를 기준 비율 이상으로 포함한 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트가 복제하였다고 판정하는 것을 특징으로 하는
    텍스트 복제 판정 단계
  10. 제 1항의 텍스트 복제 판정 단계는,
    복제 탐지 대상 텍스트로부터 추출된 텍스트 샷의 기술자와 동일한 텍스트 샷 기술자를 기준 비율 이상으로 포함하고, 일치하는 텍스트 샷 기술자의 상대적 순서의 유사성이 높은 복제 탐지 원본 텍스트를 복제 탐지 대상 텍스트가 복제하였다고 판정하는 것을 특징으로 하는
    텍스트 복제 판정 단계
KR1020070085831A 2007-08-27 2007-08-27 텍스트 복제 탐지 방법 KR20070106475A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070085831A KR20070106475A (ko) 2007-08-27 2007-08-27 텍스트 복제 탐지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070085831A KR20070106475A (ko) 2007-08-27 2007-08-27 텍스트 복제 탐지 방법

Publications (1)

Publication Number Publication Date
KR20070106475A true KR20070106475A (ko) 2007-11-01

Family

ID=39062379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070085831A KR20070106475A (ko) 2007-08-27 2007-08-27 텍스트 복제 탐지 방법

Country Status (1)

Country Link
KR (1) KR20070106475A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012050379A2 (ko) * 2010-10-14 2012-04-19 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
KR101491446B1 (ko) * 2010-10-14 2015-02-23 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
KR20210119150A (ko) * 2020-03-24 2021-10-05 주식회사 유로보 오역보완 및 의도 도출을 위한 질의응답 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012050379A2 (ko) * 2010-10-14 2012-04-19 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
WO2012050379A3 (ko) * 2010-10-14 2012-06-14 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
KR101491446B1 (ko) * 2010-10-14 2015-02-23 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
KR20210119150A (ko) * 2020-03-24 2021-10-05 주식회사 유로보 오역보완 및 의도 도출을 위한 질의응답 시스템

Similar Documents

Publication Publication Date Title
Yalniz et al. A fast alignment scheme for automatic ocr evaluation of books
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
Eskander et al. Foreign words and the automatic processing of Arabic social media text written in Roman script
Alsmadi et al. Online integrity and authentication checking for Quran electronic versions
US7894630B2 (en) Tamper-resistant text stream watermarking
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
Zou et al. A cluster-based plagiarism detection method
CN112733140B (zh) 一种针对模型倾斜攻击的检测方法及系统
CN111797369B (zh) 一种关系数据库的数字水印方法
JPH09198409A (ja) 酷似文書抽出方法
CN110705261B (zh) 中文文本分词方法及其系统
US11990131B2 (en) Method for processing a video file comprising audio content and visual content comprising text content
CN113590421B (zh) 日志模板提取方法、程序产品及存储介质
KR20070106475A (ko) 텍스트 복제 탐지 방법
Elkhidir et al. Plagiarism detection using free-text fingerprint analysis
CN111539383A (zh) 公式知识点识别方法及装置
JP5928733B2 (ja) 文字列からなるテストデータを自動的に生成する方法及び文字列からなるテストデータ中に埋め込まれたシグネチャーを識別する方法、並びに、それらのコンピュータ及びコンピュータ・プログラム
Steinebach et al. Robust hash algorithms for text
JP2005234786A (ja) 映像キーワード抽出方法及び装置及びプログラム
CN108132941B (zh) 法律文献的关联关系的处理方法和装置
Zou et al. A two-phase plagiarism detection method
CN111488622A (zh) 一种网页篡改行为的检测方法、装置及相关组件
Manne et al. A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging
KR101448803B1 (ko) 버로우즈-휠러 변환과 fm-인덱스를 이용한 초고속 유사구간 탐색 장치 및 방법
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application