KR101264151B1

KR101264151B1 - 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체

Info

Publication number: KR101264151B1
Application number: KR1020120118411A
Authority: KR
Inventors: 신동호; 박지연; 최재영; 이강원; 김희수
Original assignee: 주식회사 무하유
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2013-05-14

Abstract

본 발명은 문서 표절률 산출 장치에 관한 것으로, 문서 표절률 산출 장치에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부; 상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부; 상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부; 원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및 상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함하는 것을 특징으로 하는 문서 표절률 산출 장치를 제공한다.
본 발명에 따르면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.

Description

문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체{APPARATUS AND METHOD FOR CALCULATING DOCUMENT PLAGIARISM AND RECORD MEDIA RECORDED PROGRAM FOR REALIZING THE SAME METHOD}

본 발명은 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 관한 것으로, 보다 상세하게는 문서로부터 비교 키를 생성하고 이 비교 키를 이용하여 문서 집합으로부터 짜깁기 된 문서의 종합 표절률을 산출할 수 있는 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 관한 것이다.

최근, 인터넷이 대중화 됨에 따라, 일반인들은 손쉽게 웹의 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 표절되어 작성되고 있다. 자기소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있어, 표절 행위는 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜깁기하는 형태로 점점 더 정교화 되고 있다. 짜깁기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.

종래 문서의 표절을 탐지하는 방법은 문서와 문서간 1:1 비교에 기반을 두고, 검사 대상이 되는 문서와 가장 유사한 문서들을 찾아 서로 비교하여 A 문서와 B 문서가 몇 퍼센트 유사하다는 유사도 값을 계산할 수 있으나, A 문서가 전체 비교문서 집합으로부터 얼만큼 짜깁기 되었는지를 나타내는 종합 표절률을 구할 수 없는 문제가 있다.

본 발명은 상기의 종래 기술의 문제를 해결하기 위한 것으로, 원본 문서로부터 일정 개수의 어절 단위로 생성된 복수 개의 색인 키와 검사 문서로부터 일정 개수의 어절 단위로 생성된 복수 개의 탐색 키를 비교하고, 비교 결과 일치하는 탐색 키에 포함된 어절의 개수를 구하여 검사 문서의 종합 표절률을 산출할 수 있는 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체를 제공하고자 함에 발명의 목적이 있다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일 측면에 따르면, 문서 표절률 산출 장치가 제공된다.

본 발명의 바람직한 일 실시 예에 따르면, 문서 표절률 산출 장치에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부; 상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부; 상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부; 원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및 상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함한다.

또한, 상기 키 생성부는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 키 생성부는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 키 생성부는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다.

또한, 상기 저장부는 일상적으로 많이 사용되는 상용구문을 복수 개 저장하고, 상기 어절 계산부는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 상기 저장부에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다.

또한, 상기 어절 계산부는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다.

본 발명의 다른 측면에 따르면 문서 표절률 산출 방법이 제공된다.

본 발명의 바람직한 일 실시 예에 따르면, 문서 표절률 산출 방법에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a); 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b); 상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c); 상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및 상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함한다.

또한, 상기 단계(a)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 단계(a)는 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 단계(a)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다.

또한, 상기 단계(d)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 기 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다.

또한, 상기 단계(d)는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다.

본 발명의 또 다른 측면에 따르면 문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체가 제공된다.

본 발명에 따른 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 의하면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.

도 1은 본 발명에 따른 문서 표절률 산출 장치의 블록도.
도 2는 본 발명의 키 생성부의 블록도.
도 3은 본 발명의 저장부의 블록도.
도 4는 본 발명에 따른 문서 표절률 산출 방법의 순서도.

이하에서는, 첨부도면을 참고하여 본 발명에 따른 일 실시 예를 보다 상세하게 설명한다.

도 1은 본 발명에 따른 문서 표절률 산출 장치의 블록도이고, 도 2는 본 발명의 키 생성부의 블록도이고, 도 3은 본 발명의 저장부의 블록도이다.

도 1 내지 도 3을 참조하면, 문서 표절률 산출 장치(100)는 서버, PC, 노트북 및 기타 전자기기 등 다양한 형태로 구현될 수 있다.

문서 표절률 산출 장치(100)는 키 생성부(10), 키 비교 및 검색부(20), 어절 계산부(30), 저장부(40) 및 표절률 산출부(50)를 포함한다.

키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성한다. 청크(chunk)는 몇 개의 데이터의 집합을 말한다. 어절은 문장 구성의 한 단위로서, 띄어쓰기 단위와 일치한다. 기 설정된 청크 개수 단위는 4, 5, 6 등으로 설정이 가능하며, 청크 개수 단위를 5로 하면 5 개의 어절을 묶어서 색인 키 및 탐색 키를 설정하게 된다. 여기서 원본 문서는 검사의 기준이 되는 문서를 말하고, 검사 문서는 표절 여부를 판단하기 위한 대상 문서를 말한다. 아래에서는 기 설정된 청크 개수 단위를 5라고 가정하고 설명한다.

키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

또한, 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 구체적으로는, 기 설정된 청크 개수 보다 작은 적어도 하나 이상의 어절씩 이동하면서 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성한다.

아래의 [표 1]과 [표 2]를 예로 들어 구체적으로 설명한다.

아래의 [표 1]은 원본 문서의 예 이며, [표 2]는 원본 문서에서 생성된 색인 키의 예이다. 구체적으로는, [표 1]의 원본 문서는 문장의 어절을 기 설정된 청크 개수인 5 보다 큰 소정의 개수 단위인 7 개 어절 단위로 분할한 것이다. 결국, 하나의 문장을 7 개의 어절 단위로 분할하는 경우, 3 개의 구문으로 나누어진다. 여기서 7 개 어절 단위로 나누는 것은 하나의 예로 든 것이다.

1	주로 가난한 자들을 위한 교육을 목적으로 실시되었는데
2	출세를 목적으로 실시되었고 도제 교육의 현장이었던 도시에서
3	학교는 인간 학습의 중요한 환경이자 장소였다.

상기의 [표 1]에서와 같이 하나의 문장을 기 설정된 청크 개수인 5보다 큰 7 개 단위로 분할하면 총 3 개의 부분으로 나누어진다. [표 1]의 분할된 문장 또는 구문 내에 포함된 어절을 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 이때, 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.

아래의 [표 2]를 참조하면, [표 1]의 1번 문장은 [표 2]의 1-1, 1-2, 1-3의 3 개의 색인 키를 생성하며, [표 1]의 2번 문장은 [표 2]의 2-1, 2-2, 2-3의 3 개의 색인 키를 생성하고, [표 1]의 3번 문장은 [표 2]의 3-1, 3-2의 2 개의 색인 키를 생성한다. [표 2]의 각각의 색인 키는 기 설정된 청크 개수인 5 개의 어절 단위로 묶여 생성된다. 이 때, 키 생성부(10)는 [표 1]의 분할된 문장을 처음부터 적어도 하나 이상의 어절씩 스캔하면서 5 개의 어절 단위로 묶어서 색인 키를 생성한다. "주로"부터 "교육을"까지를 묶어 색인 키를 생성하고, 그 다음 어절인 "가난한"부터 "목적으로"까지 묶어 색인 키를 생성하고, 그 다음 어절인 "자들을"부터 "실시되었는데"까지 묶어 색인 키를 생성하는 것이다. "실시되었는데"가 분할된 문장의 마지막이므로 색인 키 생성 작업을 종료하고, 그 다음 분할된 문장의 색인 키 생성 작업을 진행한다.

키 번호		색인 키
1	1-1	“주로 가난한 자들을 위한 교육을”
	1-2	“가난한 자들을 위한 교육을 목적으로”
	1-3	“자들을 위한 교육을 목적으로 실시되었는데”
2	2-1	“출세를 목적으로 실시되었고 도제 교육의”
	2-2	“목적으로 실시되었고 도제 교육의 현장이었던”
	2-3	“실시되었고 도제 교육의 현장이었던 도시에서”
3	3-1	“학교는 인간 학습의 중요한 환경이자”
3	3-2	“인간 학습의 중요한 환경이자 장소였다”

이상의 실시 예와 다르게, 키 생성부(10)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 구체적으로는, 기 설정된 청크 개수 보다 작은 적어도 하나 이상의 어절씩 이동하면서 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성한다. 예를 들면, 기 설정된 청크 개수인 5 보다 작은 하나 또는 두개의 어절씩 이동하면서 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성한다.

다시 말해서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크 개수 보다 큰 소정의 개수 단위로 분할하지 않고, 하나의 문장을 적어도 하나 이상의 어절씩 스캔하면서 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수도 있다. 이는 아래 [표 3] 및 [표 4]의 탐색 키 생성 방법과 같은 방법이다.

키 생성부(10)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다. 아래의 [표 3]은 검사 문서의 예이며, [표 4]는 검사 문서에서 생성된 탐색 키의 예이다.

[표 4]의 탐색 키는 [표 3]의 검사 문서의 문장을 적어도 하나 이상의 어절씩 스캔하면서 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 탐색 키를 생성한 것이다. [표 4]의 실시 예에서는 검사 문서의 문장을 한 어절씩 스캔하면서 청크 개수인 5 개 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 설명한다.

원래 도제 교육은 가난한 자들을 위한 교육을 목적으로 실시되었고 도제 교육의 현장이었던 곳은 인간 학습의 중요한 환경이자 장소였다.

키 번호	탐색 키	존재 여부
1	“원래 도제 교육은 가난한 자들을”
2	“도제 교육은 가난한 자들을 위한”
3	“교육은 가난한 자들을 위한 교육을”
4	“가난한 자들을 위한 교육을 목적으로”	1-2
5	“자들을 위한 교육을 목적으로 실시되었고”
6	“위한 교육을 목적으로 실시되었고 도제”
7	“교육을 목적으로 실시되었고 도제 교육의”
8	“목적으로 실시되었고 도제 교육의 현장이었던”	2-2
9	“실시되었고 도제 교육의 현장이었던 곳은”
10	“도제 교육의 현장이었던 곳은 인간”
11	“교육의 현장이었던 곳은 인간 학습의”
12	“현장이었던 곳은 인간 학습의 중요한”
13	“곳은 인간 학습의 중요한 환경이자”
14	“인간 학습의 중요한 환경이자 장소였다”	3-2

키 생성부(10)는 색인 키 생성부(11)와 탐색 키 생성부(13)로 구성될 수 있다. 색인 키 생성부(11)에서 상기의 색인 키를 생성하고, 탐색 키 생성부(13)에서 상기의 탐색 키를 생성할 수 있다.

키 비교 및 검색부(20)는 키 생성부(10)에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색한다. 예를 들면, [표 4]의 탐색 키와 [표 2]의 색인 키를 비교하면, 4번 탐색 키가 1-2번 색인 키와 같고, 8번 탐색 키가 2-2번 색인 키와 같고, 14번 탐색 키가 3-2번 색인 키와 같음을 알 수 있다. 키 비교 및 검색부(20)는 4, 8, 14 번의 세 개의 탐색 키가 색인 키와 일치하는 것으로 판단한다. 결국, 4, 8, 14 번의 세 개의 탐색 키가 표절된 것으로 간주된다.

저장부(40)는 원본 문서 및 검사 문서 그리고 키 생성부(10)에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 키 비교 및 검색부(20)에서 검색된 탐색 키를 저장한다. 또한, 저장부(40)는 일상적으로 많이 사용되는 상용구문을 복수 개 저장할 수 있다. 도 3을 참조하면, 저장부(40)는 원본 문서(41), 검사 문서(42), 색인 키(43), 탐색 키(44), 색인 키와 탐색 키 비교 결과 검색된 탐색 키(45) 및 상용구문(46)을 저장할 수 있다. 색인 키와 탐색 키 비교 결과 검색된 탐색 키(45)는 [표 4]에서 보는 바와 같이, 4, 8, 14번의 세 개의 탐색 키가 저장되고, 상용구문(46)은 아래의 [표 5]의 예에서 보는 바와 같이, 일상적으로 많이 사용되는 상용구문을 저장한다. 상용구문은 아래에서 설명할 어절 계산부(30)에서 자세하게 설명한다. [표 5]의 상용구문은 실시 예일 뿐, 아래의 상용구문에 한정되지 않는다.

“어떤 것도 설명할 수 없다“
“한다는 사실을 알 수 있다”
“도움을 줄 수 있을 것이다”
“중의 하나라고 볼 수 있다”
“대표적인 예라고 할 수 있는데”
“수 있도록 하는 것이 바람직하다”

어절 계산부(30)는 키 비교 및 검색부(20)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 계수를 계산한다. 구체적으로는, 키 비교 및 검색부(20)에서 검색된 탐색 키는 [표 4]에서 보는 바와 같이 4, 8, 14번의 탐색 키이다. 4, 8, 14번의 탐색 키에 포함되어 있는 어절이 표절된 문장이므로, 4, 8, 14번 탐색 키에 포함된 문장의 어절을 계산하는 것이다.

정확한 종합 표절률 산출을 위해서, 어절 계산부(30)는 복수 개의 탐색 키가 검색되는 경우, 즉 4, 8, 14번 세 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다. 아래의 [표 6]은 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절의 예이다. 4번 탐색 키와 8번 탐색 키에 포함된 어절 중 목적으로 어절이 서로 겹치는 것을 알 수 있다. 이와 같이 겹치는 어절은 종합 표절률 산출 시, 두 개의 어절이 아닌 하나의 어절로 계산하는 것이다.

키 번호
4	가난한	자들을	위한	교육을	목적으로
8					목적으로	실시되었고	도제	교육의	현장이었던

아래의 [표 7]은 겹치는 어절을 하나의 어절로 통합(merge)한 모습의 예이다. 이와 같이 4, 8번의 탐색 키에서 겹치는 어절은 하나의 어절로 하여 계산하고, 14번 탐색 키는 겹치는 부분이 없으므로, 종합 표절률 산출 시, 어절 전부를 그대로 계산한다.

가난한

자들을

위한

교육을

목적으로

실시되었고

도제

교육의

현장이었던

결국, 4, 8, 14번의 탐색 키에 포함된 어절을 계산하면, 표절된 어절의 개수는 14 개가 된다.

또한, 어절 계산부(30)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 저장부(40)에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다. 상기의 [표 5]의 상용구문의 예에서 보는 바와 같이, 상용구문은 일상적으로 많이 사용되는 표현이므로, 검색된 탐색 키에 포함된 어절 중 저장부(40)에 저장된 상용구문과 일치하는 어절은 배제한 후 계산하여 검사 문서의 종합 표절률을 정확하게 산출할 수 있다.

표절률 산출부(50)는 어절 계산부(30)에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출한다. 구체적으로는, (표절 영역 내의 어절 수 / 검사 문서의 전체 어절 수) × 100 으로 종합 표절률을 산출한다. 예를 들면, 표절 영역 내의 어절 수는 상기에서 본 바와 같이 14 개가 되고, 검사 문서의 전체 어절 수는 [표 3]을 참조하면, 18 개가 된다.

결국, 문서의 종합 표절률은 (14 / 18) × 100 = 77.78% 가 된다.

도 4는 본 발명에 따른 문서 표절률 산출 방법의 순서도이다.

도 4를 참조하면, 먼저, 키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성한다(S100).

다음으로, 키 생성부(10)는 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성한다(S200). 상기의 과정은 키 생성부(10)에 포함된 색인 키 생성부(11)와 탐색 키 생성부(13)에서 각각 수행할 수 있다. 생성된 복수 개의 색인 키와 탐색 키는 저장부(40)에 저장된다.

다음으로, 키 비교 및 검색부(20)는 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색한다(S300). 색인 키와 탐색 키의 비교 결과, 일치하는 탐색 키는 저장부(40)에 저장된다.

다음으로, 어절 계산부(30)는 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산한다(S400). 구체적으로는, 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 저장부(40)에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있고, 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 개수를 계산할 수 있다.

마지막으로, 표절률 산출부(50)는 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출한다(S500). 구체적으로는, (표절 영역 내의 어절 수 / 검사 문서의 전체 어절 수) × 100 으로 종합 표절률을 산출한다.

그 밖에 구체적인 방법에 대해서는 도 1 내지 도 3에서 자세하게 설명하였으므로 생략하도록 한다.

한편, 이러한 본 발명에 의한 문서 표절률 산출 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디 롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

본 발명에 의하면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.

본 발명은 상기한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 되는 것임은 자명하다.

100: 문서 표절률 산출 장치 10: 키 생성부
11: 색인 키 생성부 13: 탐색 키 생성부
20: 키 비교 및 검색부 30: 어절 계산부
40: 저장부 41: 원본 문서
42: 검사 문서 43: 색인 키
44: 탐색 키 45: 색인 키와 탐색 키 비교 결과, 검색된 탐색 키 46: 상용구문
50: 표절률 산출부

Claims

문서 표절률 산출 장치에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부;
상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부;
상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부;
원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및
상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함하고,
상기 키 생성부는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치.
제1항에 있어서,
상기 키 생성부는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치.
제2항에 있어서,
상기 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치.
제1항에 있어서,
상기 키 생성부는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치.
삭제
제1항에 있어서,
상기 저장부는 일상적으로 많이 사용되는 상용구문을 복수 개 저장하고,
상기 어절 계산부는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 상기 저장부에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산하는 것을 특징으로 하는 문서 표절률 산출 장치.
제1항에 있어서,
상기 어절 계산부는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산하는 것을 특징으로 하는 문서 표절률 산출 장치.
문서 표절률 산출 방법에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a);
검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b);
상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c);
상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및
상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함하고,
상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법.
제8항에 있어서,
상기 단계(a)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법.
제9항에 있어서,
상기 단계(a)는 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법.
제8항에 있어서,
상기 단계(a)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법.
삭제
제8항에 있어서,
상기 단계(d)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 기 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산하는 것을 특징으로 하는 문서 표절률 산출 방법.
제8항에 있어서,
상기 단계(d)는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산하는 것을 특징으로 하는 문서 표절률 산출 방법.
문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a);
검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b);
상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c);
상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및
상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함하고,
상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체.