KR101577376B1

KR101577376B1 - 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법

Info

Publication number: KR101577376B1
Application number: KR1020140007242A
Authority: KR
Inventors: 최경웅; 이정문
Original assignee: (주) 아워텍
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2015-12-14
Also published as: US20150206101A1; KR20150086958A

Abstract

본 발명은 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법에 관한 것으로서, 문장 또는 단락 단위가 아닌, 윈도우 단위의 텍스트 기준점을 이용함으로써 자동으로 기준점을 추출하고, 추출된 기준점을 기반으로 저작권 침해 위치를 알 수 있으며, 기준점 정보를 색인하기 위해 검색엔진을 이용함으로써 저작권 침해 진단 속도 향상과 시스템의 확장성을 제공하도록 함에 그 목적이 있다.
이러한 목적을 달성하기 위한 본 발명은, 색인 대상 문서 또는 질의 문서를 등록하는 문서 등록부; 상기 문서 등록부로부터 색인 대상 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하며, 중복되는 기준점을 제거하고, 검색엔진으로 색인 정보를 전달하는 색인부; 문서의 색인 정보 저장과 검색을 수행하는 검색엔진; 및 상기 문서 등록부로부터 질의 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하고, 검색엔진에 한 번에 질의할 수 있는 기준점 및 선택된 기준점 블록에서 검색어를 선택하며, 선택된 검색어를 바탕으로 검색엔진에 질의하여 검색결과를 도출하며, 기준점 해시키와 질의 문서가 동일한 것을 찾아 기준점 블록의 유사도를 계산하여 침해를 판단하는 침해 판단부; 를 포함한다.

Description

텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법{SYSTEM AND METHOD FOR DETERMINING INFRINGEMENT OF COPYRIGHT BASED ON THE TEXT REFERENCE POINT}

본 발명은 저작권 침해 판단 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 문장 또는 단락 단위가 아닌, 윈도우 단위의 텍스트 기준점을 이용하여 저작권 침해를 판단하고, 그 위치를 알려주는 기술에 관한 것이다.

저작권 침해 판단 기술과 관련해서는, 한국공개특허 제10-2013-0093230호(이하, '선행문헌') 외에 다수 공개 및 등록되어 있다.

상기한 선행문헌은, 사용자 단말로부터 저작물을 전송받아 등록 및 관리하는 관리서버; 상기 관리서버에 의해 수신되어 등록된 상기 저작물을 저장하는 저작물 DB; 웹상에서 다수의 웹사이트에 대해 크롤링을 하여 상기 웹사이트에 개시된 컨텐츠를 수집하고, 수집된 상기 컨텐츠를 상기 저작물 DB 에 저장되어 있는 상기 저작물과 비교하여 저작권 침해로 판단되는 상기 컨텐츠를 검출하는 검출서버; 및 상기 검출서버의 검출 결과를 토대로 저작권을 침해한 상기 컨텐츠를 개시한 상기 웹사이트에 대해 저작권 침해사실을 통지하는 메일서버; 를 포함한다.

한편, 인터넷의 발달로 찾고자 하는 정보를 손쉽게 찾을 수 있는 시대에 살고 있다. 인터넷은 정보의 접근성을 편리하게 도와주는 좋은 기능도 제공하지만 정보를 손쉽게 복사하고 저작권을 침해할 수 있는 환경도 제공하고 있다. 이에 따라, 저작권 침해를 판단할 수 있는 다양한 방법들도 같이 개발되고 있다.

기존의 저작권 침해를 판단하는 방법 중에 하나는, 문서를 문장 단위로 분할하여 문장 단위의 유사도를 구해 임계치 이상이면 표절로 간주하여 제공하는 방식을 사용하고 있다. 그러나, 문장을 이용한 저작권 침해 판단 방법은 다음과 같은 문제점을 가지고 있다.

첫째, 문장의 경계가 모호하여 문장의 구분이 명확하지 않을 경우가 존재한다는 사실이다.

가장 간단한 방법으로 문장 부호를 이용하여 문장을 분할하는 경우, 전문 편집자가 문장 부호를 정확하게 작업한 문서라면 문장 분할을 할 수 있을지 몰라도 일반인이 작성한 문서는 문장 부호만으로는 부족한 게 사실이다. 이를 보완하는 방법으로 추가적인 문장 분할 알고리즘을 사용한다면 문장 분할하기 위한 시간 소요가 늘어나며, 새로운 방법을 사용한다고 해도 완벽한 문장 분할을 제공하기 어렵다.

둘째, 저작권 문서 개수 가 적을 경우에는 문장으로 분할한다 하더라도 시스템에서 문장 정보를 충분히 관리 가능할 것이다. 하지만, 저작권 문서가 몇 만권 또는 몇 십만권 단위로 커질 경우 문장으로 분할 한 정보가 상당한 크기로 커질 것이다.

이러한 경우, 문장 정보가 너무 많아 침해 판단하는 시간이 너무 많이 소요할 수 있는 가능성이 있다. 더구나 앞으로는 인터넷에서 문서작성을 할 수 있도록 지원하는 구글 드라이브와 비슷한 서비스가 급증하고 있어, 인터넷이 되는 곳이면 어디든 문서를 생산할 수 있어 문서의 양은 기하급수적으로 증가할 수 있는 환경으로 가고 있다. 따라서, 저작권 침해 판단을 위한 색인 정보 크기를 조절할 수 있는 방법과 증가하는 문서에 대응 가능한 침해 판단 시스템이 필요하다.

본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 문장 또는 단락 단위가 아닌, 윈도우 단위의 텍스트 기준점을 이용함으로써 자동으로 기준점을 추출하고, 추출된 기준점을 기반으로 저작권 침해 위치를 알 수 있으며, 기준점 정보를 색인하기 위해 검색엔진을 이용함으로써 저작권 침해 진단 속도 향상과 시스템의 확장성을 제공하도록 함에 그 목적이 있다.

이러한 기술적 과제를 달성하기 위한 본 발명은 텍스트 기준점 기반의 저작권 침해 판단 시스템에 관한 것으로서, 색인 대상 문서 또는 질의 문서를 등록하는 문서 등록부; 상기 문서 등록부로부터 색인 대상 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하며, 중복되는 기준점을 제거하고, 검색엔진으로 색인 정보를 전달하는 색인부; 문서의 색인 정보 저장과 검색을 수행하는 검색엔진; 및 상기 문서 등록부로부터 질의 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하고, 검색엔진에 한 번에 질의할 수 있는 기준점 및 선택된 기준점 블록에서 검색어를 선택하며, 선택된 검색어를 바탕으로 검색엔진에 질의하여 검색결과를 도출하며, 기준점 해시키와 질의 문서가 동일한 것을 찾아 기준점 블록의 유사도를 계산하여 침해를 판단하는 침해 판단부; 를 포함한다.

또한 상기 색인부는, 색인 대상 문서를 입력받는 문서 입력모듈; 기준점을 추출하기 위하여, 상기 문서 입력모듈을 통해 입력된 색인 대상 문서(D_i)를 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하고, 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출하는 기준점 추출모듈; 및 중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고, 검색엔진에 선택된 색인 정보를 전달하는 색인정보 선택모듈; 을 포함하는 것을 특징으로 한다.

또한 상기 검색엔진은, 등록요청 문서가 색인 대상 문서일 경우, 상기 색인부로부터 전달된 색인 정보를 저장하고, 실제 색인을 진행하는 것을 특징으로 한다.

또한 상기 검색엔진은, m개의 어절 집합으로 검색 시, 해시함수를 이용하여 기준점(F_i(m))을 동일한 길이로 변환하며, 기준점 해시키(H_i(m))와 기준점 블록(B_i(k))을 하나의 레코드로서 저장하며, 기준점 해시키와 기준점 블록을 색인하는 것을 특징으로 한다.

또한 상기 검색엔진은, 등록요청 문서가 질의 문서일 경우, 선택된 기준점 해시키 및 검색어를 이용한 침해 판단부의 질의에 따라 검색결과를 상기 침해 판단부로 제공하는 것을 특징으로 한다.

또한 상기 침해 판단부는, 질의 문서를 입력받는 문서 입력모듈; 기준점을 추출하기 위해, 상기 문서 입력모듈을 통해 질의 문서(Q)를 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리함으로써 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며, 기준점(F_i(m))를 해시키로 변환하는 기준점 추출모듈; 중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진에 질의할 수 있는 N개 기준점을 선택하는 기준점 선택모듈; 상기 기준점 선택모듈을 통해 선택된 기준점 블록에서 검색어를 선택하는 검색어 선택모듈; 기준점 해시키와, 상기 검색어 선택모듈을 통해 선택된 검색어를 바탕으로, 검색엔진에 질의하여 검색결과를 도출하는 질의모듈; 및 상기 질의모듈을 통한 검색결과에 따른 질의한 기준점 해시키 값(RH_i(m))과 질의 문서(QH_i(m))가 동일한 것을 찾아, 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산하는 유사도 계산모듈; 을 포함하는 것을 특징으로 한다.

그리고 상기 유사도 계산모듈은, 상기 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) 값이 임계치 이상일 경우, 최종적으로 사용자에게 저작권 침해가 발생했다고 판단하고, 기준점 블록 내용을 함께 표시하는 것을 특징으로 한다.

한편, 본 발명은 텍스트 기준점 기반의 저작권 침해 판단 방법에 관한 것으로서, (a) 문서 등록부가 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단하는 과정; (b) 상기 (a) 과정의 판단결과, 등록요청 문서가 질의 문서일 경우, 상기 문서 등록부가 해당 문서를 침해 판단부로 전송하는 과정; (c) 상기 침해 판단부가 질의 문서(Q)를 입력받아, 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하는 과정; (d) 상기 침해 판단부가 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며, 기준점(F_i(m))를 해시키로 변환하는 과정; (e) 상기 침해 판단부가 중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진에 질의할 수 있는 N개 기준점을 선택하며, 선택된 기준점 블록에서 검색어를 선택하는 과정; (f) 상기 침해 판단부가 기준점 해시키와 선택된 검색어를 바탕으로, 검색엔진에 질의하여 검색결과를 도출하는 과정; 및 (g) 상기 침해 판단부가 검색결과에 따른 질의한 기준점 해시키 값과 질의 문서가 동일한 것을 찾아, 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산하는 과정; 을 포함한다.

그리고 상기 (g) 과정의 계산결과, 상기 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) ) 값이 임계치 이상일 경우, 상기 침해 판단부가 최종적으로 사용자에게 저작권 침해가 발생했다고 판단하고, 기준점 블록 내용을 함께 표시하는 것을 특징으로 한다.

한편, 본 발명은 텍스트 기준점 기반의 저작권 침해 판단 방법에 관한 것으로서, (a') 문서 등록부가 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단하는 과정; (b') 상기 (a') 과정의 판단결과, 등록요청 문서가 색인 대상 문서일 경우, 상기 문서 등록부가 해당 문서를 색인부로 전송하는 과정; (c') 상기 색인부가 색인 대상 문서(D_i)를 입력받아, 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하는 과정; (d') 상기 색인부가 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출하는 과정; (e') 상기 색인부가 중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고, 검색엔진에 선택된 색인 정보를 전달하는 과정; (f') 상기 검색엔진이 해시함수를 이용하여 기준점을 해시키로 변환하고, 기준점 해시키(H_i(m))와 기준점 블록(B_i(k))을 하나의 레코드로서 저장하는 과정; 및 (g') 상기 검색엔진이 기준점 해시키와 기준점 블록을 색인하는 과정; 을 포함한다.

상기와 같은 본 발명에 따르면, 저작권 침해를 진단하기 위해 문장 또는 단락 단위가 아닌, 윈도우 단위의 텍스트의 기준점 방법을 이용함으로써 다양한 문서 편집 상태를 고민할 필요 없이 윈도우 단위로 기준점을 추출하여 저작권 침해 진단을 할 수 있는 효과가 있다.

또한 본 발명에 따르면, 윈도우를 이용한 기준점 추출 방법은 기준점과 기준점 블럭을 검색엔진에 적합한 색인 구조로 저장할 수 있어, 검색엔진을 이용할 수 있는 효과도 있다.

그리고 본 발명에 따르면, 검색엔진을 사용함으로써 저작권 침해 진단 속도 향상 및 대량의 기준점 정보에 대해서도 시스템의 확장성을 지원할 수 있는 효과도 있다.

도 1 은 본 발명에 따른 텍스트 기준점 기반의 저작권 침해 판단 시스템을 개념적으로 도시한 전체 구성도.
도 2 는 본 발명에 따른 색인부에 관한 세부 구성도.
도 3 은 본 발명에 따른 침해 판단부에 관한 세부 구성도.
도 4 는 본 발명에 따른 문서 색인 방법에 관한 전체 흐름도.
도 5 는 본 발명에 따른 저작권 침해 판단 방법에 관한 전체 흐름도.

본 발명의 구체적 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명한다.

본 발명에 따른 텍스트 기준점 기반의 저작권 침해 판단 시스템에 관하여 도 1 내지 도 3 을 참조하여 설명하면 다음과 같다.

본 발명에서는, 저작권 침해 판단을 위해 등록된 문서는, 색인 및 저작권 문서와 비교하여 저작권 침해 판단을 수행한다.

먼저, 색인 및 침해 판단 단계는, 윈도우 단위의 텍스트 기준점을 추출하는 기능을 수행하게 된다. 본 발명에서 적용하는 텍스트 기준점 방법은 윈도우(W), 기준점(F), 기준점 블록(B)을 이용하여 처리하며, 기본 방법을 설명하면 다음과 같다.

입력되는 문서(D_i)는 다음과 같이 정의한다.

D_i = {E₁, E₂, E₃, E₄, ......, E_n}

여기서, D_i는 색인을 하기 위한 i번째 문서이며, E_i는 E₁~E_n 중에서 i번째 어절이다. 어절은 기본적으로 문서를 공백문자를 기준으로 분리한 것을 의미하며, 추가적으로 심볼이나 숫자 등도 같이 이용될 수 있다.

문서는 위의 식처럼 E₁~E_n 까지의 N개의 어절로 이루어진 순차적인 집합으로 정의될 수 있다.

또한, 윈도우(W)는 문서(D_i)에서 기준점을 찾기 위한 순차적인 어절의 부분집합을 의미하며, 부분집합의 크기를 윈도우 크기로 정의한다.

W_i(s) = {E_i, E_i+1, ...., E_i+s}

여기서, W_i는 i번째 윈도우이며, s는 윈도우 크기를 나타낸다. W_i(s)는 i번째 윈도우에서 윈도우 크기가 s인 부분집합이다.

예를 들어, D_i = {E₁, E₂, E₃, E₄, ......, E₁₀₀}

E₁ ~ E₁₀₀ 까지로 정의된 문서(D_i)가 있다고 가정하고, s가 30인 W_i(30) 은 다음의 [표 1] 과 같이 표시할 수 있다.

윈도우 번호	윈도우 집합
W₁(30)	{E₁, E₂, E₃, E₄, ... E₂₇, E₂₈, E₂₉, E₃₀}
W₂(30)	{E₂, E₃, E₄, E_5, ... E₂₈, E₂₉, E_30,E₃₁}
W₃(30)	{E₃, E₄, E_5,E_6,... E₂₉, E_30,E_31,E₃₂}
W₄(30)	{E₄, E_5,E_6,E_7,... E_30,E_31,E_32,E₃₃}
W₅(30)	{E_5,E_6,E_7,E_8,... E_31,E_32,E_33,E₃₄}
W₆(30)	{E_6,E_7,E_8,E_9,... E_32,E_33,E_34,E₃₅}
W₇(30)	{E_7,E_8,E_9,E_10,... E_33,E_34,E_35,E₃₆}
W₈(30)	{E_8,E_9,E_10,E_11,... E_34,E_35,E_36,E₃₇}
...	...
W₇₀(30)	{E_70,E_71,E_72,E_73,... E_96,E_97,E_98,E₉₉}
W₇₁(30)	{E_71,E_72,E_73,E_74,... E_97,E_98,E_99,E₁₀₀}

윈도우(W)가 정해지면 윈도우마다 기준점(F)을 정하게 된다.

기준점(F)은 윈도우 집합에서 m개의 순차적 어절의 길이 합이 최대인 어절의 순차적 집합을 의미한다. 기준점(F)이 정해지면 기준점을 포함하여 좌우로 k개의 어절을 포함한 순차적 어절의 집합을 기준점 블록(B)으로 정의한다.

SUM_j(m) =

F_i(m) = MAX(SUM_j(m) : j=i, i+1, i+2, ..., i+s-m)

B_i(k) = {E_j-k, ..., E_j-2, E_j-1, E_j, E_j+1, E_j+2, ..., E_j+k}, k > m

여기서, SUM_j(m)는 j번째 어절부터 m개 어절을 합한 길이이다.

기준점 F_i(m)는 MAX 함수를 통하여 W_i(s)에서 SUM_j(m)의 값이 최대인 어절의 순차적 집합을 구한다.

기준점 블록 B_i(k)는 기준점 F_i(m)를 포함하는 좌우 k 만큼의 크기를 포함하는 순차적 어절의 집합을 의미한다. 예를 들어, 위의 [표 1] 에서 예로 정의된 W_i(30)에서 3개의 어절의 길이 합이 최대인 것, 즉 F_i(3)을 기준점으로 하고, 기준점을 포함하여 좌우로 5개, 즉 B_i(5) 을 기준점 블록으로 정했다면 F_i(3)와 B_i(5)는 다음의 [표 2] 와 같이 된다.

윈도우 번호	기준점(예시)	기준점 블록(예시)
W₁(30)	F₁(3) = {E₁₀, E₁₁, E₁₂}	B₁(5) = {E₅, ... ,E₁₀,E₁₁,E₁₂, ... ,E₁₅}
W₂(30)	F₂(3) = {E₁₀, E₁₁, E₁₂}	B₂(5) = {E₅, ... ,E₁₀,E₁₁,E₁₂, ... ,E₁₅}
W₃(30)	F₃(3) = {E₁₀, E₁₁, E₁₂}	B₃(5) = {E₅, ... ,E₁₀,E₁₁,E₁₂, ... ,E₁₅}
W₄(30)	F₄(3) = {E₁₀, E₁₁, E₁₂}	B₄(5) = {E₅, ... ,E₁₀,E₁₁,E₁₂, ... ,E₁₅}
...	...	...
W₄₀(30)	F₄₀(3) = {E₄₇, E₄₈, E₄₉}	B₄₀(5) = {E₄₂, ... ,E₄₇,E₄₈,E₄₉, ... ,E₅₂}
W₄₁(30)	F₄₁(3) = {E₄₇, E₄₈, E₄₉}	B₄₁(5) = {E₄₂, ... ,E₄₇,E₄₈,E₄₉, ... ,E₅₂}
W₄₂(30)	F₄₂(3) = {E₄₇, E₄₈, E₄₉}	B₄₂(5) = {E₄₂, ... ,E₄₇,E₄₈,E₄₉, ... ,E₅₂}
...	...	...
W₇₀(30)	F₇₀(3) = {E₈₀, E₈₁, E₈₂}	B₇₀(5) = {E₇₅, ... ,E₈₀,E₈₁,E₈₂, ... ,E₈₅}
W₇₁(30)	F₇₁(3) = {E₈₀, E₈₁, E₈₂}	B₇₁(5) = {E₇₅, ... ,E₈₀,E₈₁,E₈₂, ... ,E₈₅}

위의 [표 2] 에서 F₁(3) 은 W₁(30)에서 SUM_j(3), j=1,2...,28 을 아래 [표 3] 처럼 가정을 할 경우, 최대인 어절 집합을 {E₁₀, E₁₁, E₁₂}로 예를 든 것이다. SUM_j(3) 의 최대값이 동일한게 존재할 경우 첫번째 최대값을 선택한다.

SUM_j(3)	수식	어절 길이 합(예시)
SUM₁(3)	Len(E₁)+Len(E₂)+Len(E₃)	7
SUM₂(3)	Len(E₂)+Len(E₃)+Len(E₄)	7
SUM₃(3)	Len(E₃)+Len(E₄)+Len(E₅)	8
..	...	...
SUM₉(3)	Len(E₉)+Len(E₁₀)+Len(E₁₁)	10
SUM₁₀(3)	Len(E₁₀)+Len(E₁₁)+Len(E₁₂)	13
SUM₁₁(3)	Len(E₁₁)+Len(E₁₂)+Len(E₁₃)	12
...	...	...
SUM₂₆(3)	Len(E₂₆)+Len(E₂₇)+Len(E₂₈)	13
SUM₂₇(3)	Len(E₂₇)+Len(E₂₈)+Len(E₂₉)	11
SUM₂₈(3)	Len(E₂₈)+Len(E₂₉)+Len(E₃₀)	9

B₁(5) 은 E₁₀를 기준으로 좌우로 5개의 어절을 포함한 것을 예로 든 것이다.

기준점과 기준점 블록 추출이 완료되면 n개의 어절로 이루어진 D_i를 다음과 같이 기준점(F)과 기준점 블록(B)으로 다시 정의 할 수 있다. s는 윈도우 크기, m 은 기준점 어절 수, k는 기준점 블록 크기이다.

D_i = { (F₁(m), B₁(k)), (F₂(m), B₂(k)), ... , (F_n-s+1(m), B_n-s+1(k)) }

기준점과 기준점블록으로 이루어진 D_i를 구성하고 나면 D_i에서 중복되는 기준점을 제거하고 검색에진에 색인할 수 있도록 한다. 예를 들어, 위의 [표 3] 에서 W₁(30), W₂(30), W₃(30), W₄(30)가 동일하여 W₁(30) 하나만 선택하고, W₄₀(30), W₄₁(30), W₄₂(30) 가 동일하여 W₄₀(30) 하나만 선택하고, W₇₀(30), W₇₁(30)가 동일하여 W₇₀(30) 하나만 선택한다. 위의 표에서 중복을 제거하고 D_i를 표현하면 다음과 같이 정의 될 수 있게 된다.

D_i = { (F₁(3), B₁(5)), ... , (F₄₀(3), B₄₀(5)), ... , (F₇₀(3), B₇₀(5)) }

검색엔진에 중복되지 않는 기준점과 기준점블록 정보가 색인 완료되면 질의 문서를 기준점 기반으로 검색하여 저작권 침해 판단을 할 수 있다. 색인된 문서는 F, B 앞에 D를 붙이고 질의 문서는 F, B 앞에 Q를 붙여서 색인문서 D_i 와 질의 문서 Q를 정의하면 다음과 같다. 중복되는 기준점은 하나만 사용한다.

D_i = { (DF₁(m), DB₁(k)), ... , (DF₂₀(m), DB₂₀(k)), ... }

Q = { (QF₁(m), QB₁(k)), ... , (QF₅₀(m), QB₅₀(k)), ... }

질의문서 Q도 역시 기준점과 기준점 블록으로 동일하게 표현할 수 있으며, 윈도우 크기(s) 및 기준점 어절 수(m), 기준점 블록 크기(k) 등은 색인 설정과 동일해야 한다.

예를 들어, 질의문서 Q 에서 D_i 문서의 DB₂₀(k)를 복사한 부분이 QB₅₀(k)이라고 가정하면, QF₅₀(m)과 DF₂₀(m)의 기준점이 동일하게 되어 질의문서 Q의 QF₅₀(m)을 검색하게 되면 기준점이 같은 DF₂₀(m)을 찾을 수 있게 된다.

하지만, QF₅₀(m)과 같은 기준점은 D_i 문서의 DF₂₀(m) 외에도 여러개 존재할 수 있다. 이러한 경우 QF₅₀(m) 과 같은 기준점으로 필터링한 후에 QB₅₀(k) 기준점 블록에서 임의로 선택된 검색어를 필터링된 기준점 블록에 질의한다.

그러면, 검색엔진은 검색어와 유사도가 높은 RB_i(k)가 결과로 나오게 된다. RB_i(k)는 유사도 순위가 i번째인 검색된 기준점 블록을 의미한다. 여기에서 검색 결과 유사도가 임계치 이상인 RB_i(k)를 선택하여 QB₅₀(k)과 기준점 블록 사이의 유사도를 다시 계산하여 침해 판단을 판단할 수 있다. 따라서, 기준점을 기반으로 색인하게 되면 검색할 때 모든 기준점을 검색하지 않고 동일한 기준점으로 제한할 수 있어 검색 속도 향상과 침해 위치를 알 수 있게 된다.

도 1 은 본 발명에 따른 텍스트 기준점 기반의 저작권 침해 판단 시스템(S)을 개념적으로 도시한 전체 구성도로서, 도시된 바와 같이 문서 등록부(100), 색인부(200), 검색엔진(300) 및 침해 판단부(400)를 포함하여 이루어진다.

한편, 본 발명에 따른 텍스트 기준점 기반의 저작권 침해 판단 시스템(S), 저작권 문서 등록 및 사용자 로그인, 접속 로그 등과 관련한 정보를 내부 관리 데이터베이스에 저장하여 관리하며, 웹 브라우저로 접속하지 않고 C#, Java 등 개발언어로 개발된 기존의 어플리케이션에서도 접속 가능하도록 API 라이브러리를 제공한다.

문서 등록부(100)는 색인 대상 문서 또는 질의 문서를 등록한다.

이때, 문서 등록부(100)는 웹 서비스모듈로서, 사용자 인터페이스를 제공함으로써, 웹 브라우저를 이용하여 문서 등록부(100)에 접속할 수 있다.

한편, 본 발명에 따른 텍스트 기준점 기반의 저작권 침해 판단 시스템(S)은, 문서를 시스템에 등록하고자 할 경우 색인부(200)를 이용하여 색인을 수행하며, 질의 문서를 시스템에 있는 저작권 문서와 비교하고자 할 경우에는, 침해 판단부(400)를 통해 침해 판단을 수행한다.

따라서, 문서 등록부(100)는 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단한다.

색인부(200)는 문서 등록부(100)로부터 색인 대상 문서(D_i)를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하며, 중복되는 기준점을 제거하고, 검색엔진(300)으로 색인 정보를 전달하는 기능을 수행하는 바, 도 2 에 도시된 바와 같이 문서 입력모듈(210), 기준점 추출모듈(220) 및 색인정보 선택모듈(230)을 포함한다.

구체적으로, 문서 입력모듈(210)는 색인 대상 문서를 입력받는다.

이때, 문서 입력모듈(210)은 웹 브라우저 또는 API를 이용하여 문서 등록부(100)로부터 색인 대상 문서를 입력받는다.

기준점 추출모듈(220)은 기준점을 추출하기 위하여, 문서 입력모듈(210)을 통해 입력된 색인 대상 문서(D_i)를 [수식 1] 과 같이 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리한다.

[수식 1]

D_i = {E₁, E₂, E₃, E₄, ......, E_n}

윈도우 크기(s)는 추출되는 기준점 수에 영향을 준다.

윈도우 크기가 클수록 기준점 수가 적어지게 되고, 윈도우 크기가 작을수록 기준점 수가 증가하게 된다. 윈도우 크기가 클 경우, 완전 복사한 침해 문서를 찾기는 쉬워도 작은 영역의 부분 복사는 침해 판단을 못하는 확률이 커진다. 반대로, 윈도우 크기가 작을 경우, 완전 복사한 침해 문서부터 부분 복사한 침해 판단까지 가능하나 기준점 수가 많이 추출된다. 따라서, 윈도우 크기는 부분 복사의 크기를 어느 정도까지 판단할 수 있는가와 시스템이 허용할 수 있는 총 기준점 수를 결정하여 윈도우 크기를 정해야 한다.

또한, 기준점 추출모듈(220)은 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출한다. 이에 따라, 다음의 [수식 2] 와 같이 색인 대상 문서(D_i)가 정의된다.

[수식 2]

색인정보 선택모듈(230)은 중복되는 기준점을 선택하여 제거함으로써, 중복되지 않는 기준점과 기준점 블록으로 구성한다.

기준점(F_i(m))은 윈도우(W_i(s))에서 m개 어절 길이의 합이 최대인 것을 기준점으로 결정하기 때문에, 윈도우가 한 어절씩 이동하더라도 기준점의 변동은 자주 발생하지 않는다.

이에 따라, 색인정보 선택모듈(230)은 중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고, 검색엔진(300)에 선택된 색인 정보를 전달한다.

예를 들어, 색인 대상 문서(D_i)에서 중복되지 않은 선택된 기준점이 F₁(m), F₂₀(m), F₅₀(m), F₈₀(m) 라고 가정하면, 다음의 [수식 3] 과 같이 색인 대상 문서(D_i)는 다음의 [수식 3] 과 같이 표현된다.

[수식 3]

D_i = { (F₁(m), B₁(k)), (F₂₀(m), B₂₀(k)), (F₅₀(m), B₅₀(k)), (F₈₀(m), B₈₀(k))}

검색엔진(300)은 문서의 색인 정보 저장과 검색을 수행한다.

여기서, 등록요청 문서가 색인 대상 문서일 경우, 색인부(200)로부터 전달된 색인 정보를 저장하고, 실제 색인을 진행한다.

이때, 검색 효율을 높이기 위해, 검색엔진(300)은 m개의 어절 집합으로 검색할 때, 다음의 [수식 4] 와 같이 해시함수를 이용하여, 기준점(F_i(m))을 동일한 길이로 변환한다.

[수식 4]

H_i(m) = hash(F_i(m))

즉, 기준점(F_i(m))에 속한 m개의 어절을 hash 함수에 입력하면, 검색엔진(300)은 분리되어 있는 입력된 어절을 모두 하나로 연결한 후, 해시키로 변환하여 반환한다.

예를 들면, 위에서 기준점이 F₁(m), F₂₀(m), F₅₀(m), F₈₀(m) 가 선택된 문서는 검색엔진에 저장하기 위해, 다음의 [수식 5] 와 같이 기준점이 해시키로 변환된다.

[수식 5]

D_i = { (H₁(m), B₁(k)), (H₂₀(m), B₂₀(k)), (H₅₀(m), B₅₀(k)), (H₈₀(m), B₈₀(k))}

또한, 검색엔진(300)은 기준점 해시키(H_i(m))와 기준점 블록(B_i(k))을 하나의 레코드로서 저장하며, 기준점 해시키와 기준점 블록을 색인한다.

이에 따라, 기준점 해시키는 해시키 값을 색인하게 되며, 기준점 블록은 기준점 블록에 포함된 어절 E_i를 색인하게 된다.

그리고, 검색엔진(300)은 등록요청 문서가 질의 문서일 경우, 선택된 기준점 해시키 및 검색어를 이용한 침해 판단부(400)의 질의에 따라 검색결과를 침해 판단부(400)로 제공한다.

침해 판단부(400)는 문서 등록부(100)로부터 질의 문서(Q)를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하고, 검색엔진(300)에 한 번에 질의할 수 있는 기준점 및 선택된 기준점 블록에서 검색어를 선택하며, 선택된 검색어를 바탕으로 검색엔진(300)에 질의하여 검색결과를 도출하며, 기준점 해시키와 질의 문서가 동일한 것을 찾아 기준점 블록의 유사도를 계산하여 침해를 판단하는 기능을 수행하는 바, 도 3 에 도시된 바와 같이 문서 입력모듈(410), 기준점 추출모듈(420), 기준점 선택모듈(430), 검색어 선택모듈(440), 질의모듈(450) 및 유사도 계산모듈(460)을 포함한다.

구체적으로, 문서 입력모듈(410)는 질의 문서를 입력받는다.

이때, 문서 입력모듈(410)은 웹 브라우저 또는 API를 이용하여 문서 등록부(100)로부터 질의 문서를 입력받는다.

질의 문서(Q)도 역시 기준점과 기준점 블록으로 동일하게 표현할 수 있으며, 윈도우 크기(s) 및 기준점 어절 수(m), 기준점 블록 크기(k) 등은 색인 설정과 동일해야 한다.

따라서, 기준점 추출모듈(420)은 기준점을 추출하기 위해, 문서 입력모듈(410)을 통해 질의 문서(Q)를 다음의 [수식 6] 과 같이 어절 단위로 분리한다.

[수식 6]

Q = {E₁, E₂, E₃, E₄, ......, E_n}

또한, 기준점 추출모듈(420)은 색인 단계와 동일하게, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리함으로써 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며, 기준점(F_i(m))를 해시키로 변환하여, 다음의 [수식 7] 과 같이 질의 문서(Q)를 다시 정의할 수 있다.

[수식 7]

Q = { (H₁(m), B₁(k)), (H₂(m), B₂(k)), ... , (H_n-s+1(m), B_n-s+1(k)) }

이와 같이, 질의 문서(Q)가 기준점 해시키와 기준점 블록으로 재정의하고 나면, 기준점 선택모듈(430)은 중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진(300)에 질의할 수 있는 N개 기준점을 선택한다.

검색엔진(300)은 기준점 해시키 및 검색어 질의를 한번에 OR 조건으로 질의할 수 있는 최대값이 존재한다. 한 번에 질의할 수 있는 검색엔진 최대값보다 작거나 같게 N개 기준점을 선택해야 한다.

예를 들어, 질의 문서(Q)에서 추출된 중복되지 않는 기준점이 1000개이고, 검색엔진이 한번에 최대 100개를 질의할 수 있다면, 질의를 위한 기준점 선택은 최소 1개에서 최대 100개를 지정할 수 있게 된다.

기준점 100개를 지정했다면 최대 10번을 반복해서 검색하면 질의 문서(Q)의 1000개 기준점에 대해 모두 검색을 할 수 있게 된다. 모든 기준점을 검색하는 것은 검색 시간은 증가하나, 저작권 침해 판단의 정확성을 높일 수 있다. 완전 복사한 저작권 침해 문서만을 판단하는 경우에는 최소 1번만 시도해도 가능하기 때문에 침해 판단 사용 목적에 따라 선택되는 기준점 수와 반복 횟수를 결정해야 한다.

검색어 선택모듈(440)은 기준점 선택모듈(430)을 통해 선택된 기준점 블록에서 검색어를 선택한다.

기준점 해시키만 가지고 검색엔진(300)에 질의할 수 도 있지만, 동일한 기준점 해시키가 여러 개 존재할 경우 검색된 모든 결과에 대해 기준점 블록을 검사해야 한다.

하지만, 검색어를 같이 질의하면, 검색어와 색인된 기준점 블록이 유사도가 높은 순으로 정렬할 수 있기 때문에, 임계치를 설정하여 임계치 이상만 침해 판단을 한다면 검색속도를 향상시킬 수 있다.

검색어를 선택하기 위해 기준점 블록을 하나의 문서라고 가정한다면, tf-idf 가중치를 이용할 수 있게 된다.

[수식 8]

여기서,

는 i번째 기준점 블록(B_i(k))에서 어절 e 의 tf-idf 가중치이며,

는 i번째 기준점 블록(B_i(k))에서 어절 e 의 출현빈도이며, N 은 선택된 기준점 블록 수이고,

는 어절 e 가 출현한 기준점 블록 수이다.

tf-idf 가중치인

가 높은 N/2 개의 어절 E_i를 선택하며,

가 동일한 경우에는 어절 E_i의 길이가 큰 것을 먼저 선택한다.

선택된 검색어 어절 E_i가 N개의 기준점 블록에서 최소한 한 개 이상 포함되는지 확인하고, E_i가 기준점 블록에 없다면 기준점 블록에서 최대 길이의 어절을 선택하여 검색어에 최대 N개 이내에서 추가한다.

선택된 검색어 수가 최대 N개가 되면 검색어를 더 이상 추가하지 않는다.

질의모듈(450)은 기준점 해시키와, 검색어 선택모듈(440)를 통해 선택된 검색어를 바탕으로, 검색엔진(300)에 질의하여 검색결과를 도출한다.

검색엔진(300)에 기준점 해시키를 OR 연산자로 검색하여 필터링한 후, 검색어를 OR 연산자로 색인된 기준점 블록을 검색하면 유사도가 높은 순으로 검색결과를 가져올 수 있다. 유사도가 높은 순으로 정렬할 수 있기 때문에 임계치를 설정하여, 임계치 이상만 침해 판단을 한다면 검색속도를 향상시킬 수 있다.

n개의 검색결과 R은, 기준점 해시키(H) 및 기준점 블록(B) 앞에 R을 붙여 다음의 [수식 9] 와 같이 표시한다.

[수식 9]

R = { (RH₁(m), RB₁(k)), (RH₂(m), RB₂(k)), ... , (RH_n(m), RB_n(k)) }

여기서, RH_i(m)는 유사도 순위가 i번째인 검색된 기준점 해시키이며, RB_i(k)는 유사도 순위가 i번째인 검색된 기준점 블록이다. RH_i(m)는 질의한 기준점 해시키 중에 포함된 값이다.

유사도 계산모듈(460)은 질의모듈(450)을 통한 검색결과에 따른 질의한 기준점 해시키 값(RH_i(m))과 질의 문서(QH_i(m))가 동일한 것을 찾아, 다음의 [수식 10] 과 같이 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산한다.

[수식 10]

SIM(RB_i(k), QB_i(k)) = | RB_i(k) ∩ QB_i(k)| / | QB_i(k)|

여기서, | QB_i(k)| 은 질의 문서(QB_i(k))의 기준점 블록에 포함된 어절 수이며, | RB_i(k) ∩ QB_i(k)| 은 질의문서 QB_i(k) 와 RB_i(k) 의 기준점 블록 교집합을 구한 어절의 수이다.

이때, 검색엔진(300)은 상용제품을 사용할 수 도 있고, 오픈 소스 검색엔진을 이용할 수 도 있다. 예를 들어, 아파치 재단에서 개발하고 있는 Solr 검색엔진 같은 경우는 스키마 형태로 색인 구조를 구성할 수 있고, 검색 조건도 다양하게 지원하고 있다. 또한, 클라우드를 지원하고 있어 대량의 문서 색인도 처리할 수 있도록 지원하고 있다. 따라서, 기존의 다양한 검색엔진(300) 중, 침해 판단부를 필요로 하는 색인 기능과 검색 기능을 지원하는 검색엔진(300)을 선택하여 저작권 침해 판단 시스템을 구성할 수 있다.

먼저, 문서 색인 방법에 관하여 도 4 를 참조하여 설명하면 다음과 같다.

문서 등록부(100)는 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단한다(S10).

제S10 단계의 판단결과, 등록요청 문서가 색인 대상 문서일 경우, 문서 등록부(100)는 해당 문서를 색인부(200)로 전송한다(S20).

색인부(200)의 문서 입력모듈(210)는 색인 대상 문서를 입력받는다(S30).

또한, 기준점 추출모듈(220)은 기준점을 추출하기 위하여, 문서 입력모듈(210)을 통해 입력된 색인 대상 문서(D_i)를 어절 단위로 분리하며(S40), 윈도우 크기가 s 인 윈도우(W_i(s))로 분리한다(S50).

또한, 기준점 추출모듈(220)은 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출하며(S60), 색인정보 선택모듈(230)은 중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고(S70), 검색엔진(300)에 선택된 색인 정보를 전달한다(S80).

이후, 검색엔진(300)은 해시함수를 이용하여 기준점을 해시키로 변환하고(S90), 기준점 해시키(H_i(m))와 기준점 블록(B_i(k))을 하나의 레코드로서 저장하며(S100), 기준점 해시키와 기준점 블록을 색인한다(S110).

문서 등록부(100)는 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단한다(S210).

제S210 단계의 판단결과, 등록요청 문서가 질의 문서인 경우, 해당 문서를 침해 판단부(400)로 전송한다(S220).

침해 판단부(400)의 문서 입력모듈(410)는 질의 문서를 입력받는다(S230).

또한, 침해 판단부(400)의 기준점 추출모듈(420)은 기준점을 추출하기 위하여, 문서 입력모듈(410)을 통해 질의 문서(Q)를 어절 단위로 분리하며(S240), 윈도우 크기가 s 인 윈도우(W_i(s))로 분리한다(S250).

또한, 기준점 추출모듈(420)은 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며(S260), 기준점(F_i(m))를 해시키로 변환한다(S270).

뒤이어, 기준점 선택모듈(430)은 중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진(300)에 질의할 수 있는 N개 기준점을 선택하며(S280), 검색어 선택모듈(440)은 선택된 기준점 블록에서 검색어를 선택한다(S290).

또한, 질의모듈(450)은 기준점 해시키와 선택된 검색어를 바탕으로, 검색엔진(300)에 질의하여 검색결과를 도출한다(S300).

유사도 계산모듈(460)은 검색결과에 따른 질의한 기준점 해시키 값과 질의 문서가 동일한 것을 찾아, 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산한다(S310).

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

100: 문서 등록부 200: 색인부
300: 검색엔진 400: 침해 판단부
210: 문서 입력모듈 220: 기준점 추출모듈
230: 색인정보 선택모듈 410: 문서 입력모듈
420: 기준점 추출모듈 430: 기준점 선택모듈
440: 검색어 선택모듈 450: 질의모듈
460: 유사도 계산모듈

Claims

색인 대상 문서 또는 질의 문서를 등록하는 문서 등록부(100);
상기 문서 등록부(100)로부터 색인 대상 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하며, 중복되는 기준점을 제거하고, 검색엔진(300)으로 색인 정보를 전달하는 색인부(200);
문서의 색인 정보 저장과 검색을 수행하는 검색엔진(300); 및
상기 문서 등록부(100)로부터 질의 문서를 입력받아, 윈도우 단위의 텍스트 기준점을 추출하고, 검색엔진(300)에 한 번에 질의할 수 있는 기준점 및 선택된 기준점 블록에서 검색어를 선택하며, 선택된 검색어를 바탕으로 검색엔진(300)에 질의하여 검색결과를 도출하며, 기준점 해시키와 질의 문서가 동일한 것을 찾아 기준점 블록의 유사도를 계산하여 침해를 판단하는 침해 판단부(400); 를 포함하는 텍스트 기준점 기반의 저작권 침해 판단 시스템.
제 1 항에 있어서,
상기 색인부(200)는,
색인 대상 문서를 입력받는 문서 입력모듈(210);
기준점을 추출하기 위하여, 상기 문서 입력모듈(210)을 통해 입력된 색인 대상 문서(D_i)를 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하고, 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출하는 기준점 추출모듈(220); 및
중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고, 검색엔진(300)에 선택된 색인 정보를 전달하는 색인정보 선택모듈(230); 을 포함하는 것을 특징으로 하는 텍스트 기준점 기반의 저작권 침해 판단 시스템.
제 1 항에 있어서,
상기 침해 판단부(400)는,
질의 문서를 입력받는 문서 입력모듈(410);
기준점을 추출하기 위해, 상기 문서 입력모듈(410)을 통해 질의 문서(Q)를 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리함으로써 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며, 기준점(F_i(m))를 해시키로 변환하는 기준점 추출모듈(420);
중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진(300)에 질의할 수 있는 N개 기준점을 선택하는 기준점 선택모듈(430);
상기 기준점 선택모듈(430)을 통해 선택된 기준점 블록에서 검색어를 선택하는 검색어 선택모듈(440);
기준점 해시키와, 상기 검색어 선택모듈(440)을 통해 선택된 검색어를 바탕으로, 검색엔진(300)에 질의하여 검색결과를 도출하는 질의모듈(450); 및
상기 질의모듈(450)을 통한 검색결과에 따른 질의한 기준점 해시키 값(RH_i(m))과 질의 문서(QH_i(m))가 동일한 것을 찾아, 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산하는 유사도 계산모듈(460); 을 포함하는 것을 특징으로 하는 텍스트 기준점 기반의 저작권 침해 판단 시스템.
(a) 문서 등록부(100)가 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단하는 과정;
(b) 상기 (a) 과정의 판단결과, 등록요청 문서가 질의 문서일 경우, 상기 문서 등록부(100)가 해당 문서를 침해 판단부(400)로 전송하는 과정;
(c) 상기 침해 판단부(400)가 질의 문서(Q)를 입력받아, 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하는 과정;
(d) 상기 침해 판단부(400)가 윈도우마다 기준점(F_i(m))과 기준점 블록(B_i(k))을 추출하며, 기준점(F_i(m))를 해시키로 변환하는 과정;
(e) 상기 침해 판단부(400)가 중복되는 기준점 해시키를 제거하고, 한 번에 검색엔진(300)에 질의할 수 있는 N개 기준점을 선택하며, 선택된 기준점 블록에서 검색어를 선택하는 과정;
(f) 상기 침해 판단부(400)가 기준점 해시키와 선택된 검색어를 바탕으로, 검색엔진(300)에 질의하여 검색결과를 도출하는 과정; 및
(g) 상기 침해 판단부(400)가 검색결과에 따른 질의한 기준점 해시키 값과 질의 문서가 동일한 것을 찾아, 기준점 블록의 유사도( SIM(RB_i(k), QB_i(k)) )를 계산하는 과정; 을 포함하는 텍스트 기준점 기반의 저작권 침해 판단 방법.
(a') 문서 등록부(100)가 사용자의 입력신호를 바탕으로, 등록요청 문서가 색인 대상 문서인지 또는 질의 문서인지 여부를 판단하는 과정;
(b') 상기 (a') 과정의 판단결과, 등록요청 문서가 색인 대상 문서일 경우, 상기 문서 등록부(100)가 해당 문서를 색인부(200)로 전송하는 과정;
(c') 상기 색인부(200)가 색인 대상 문서(D_i)를 입력받아, 어절 단위로 분리하며, 윈도우 크기가 s 인 윈도우(W_i(s))로 분리하는 과정;
(d') 상기 색인부(200)가 윈도우마다 기준점(F_i(m))과, 기준점 블록(B_i(k))을 추출하는 과정;
(e') 상기 색인부(200)가 중복되는 기준점을 하나만 선택하여, 색인 대상 문서(D_i)를 다시 중복되지 않는 기준점과 기준점 블록으로 구성하고, 검색엔진(300)에 선택된 색인 정보를 전달하는 과정;
(f') 상기 검색엔진(300)이 해시함수를 이용하여 기준점을 해시키로 변환하고, 기준점 해시키(H_i(m))와 기준점 블록(B_i(k))을 하나의 레코드로서 저장하는 과정; 및
(g') 상기 검색엔진(300)이 기준점 해시키와 기준점 블록을 색인하는 과정; 을 포함하는 텍스트 기준점 기반의 저작권 침해 판단 방법.