KR101264151B1 - 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 - Google Patents
문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 Download PDFInfo
- Publication number
- KR101264151B1 KR101264151B1 KR1020120118411A KR20120118411A KR101264151B1 KR 101264151 B1 KR101264151 B1 KR 101264151B1 KR 1020120118411 A KR1020120118411 A KR 1020120118411A KR 20120118411 A KR20120118411 A KR 20120118411A KR 101264151 B1 KR101264151 B1 KR 101264151B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- word
- plagiarism
- key
- keys
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 문서 표절률 산출 장치에 관한 것으로, 문서 표절률 산출 장치에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부; 상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부; 상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부; 원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및 상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함하는 것을 특징으로 하는 문서 표절률 산출 장치를 제공한다.
본 발명에 따르면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.
본 발명에 따르면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.
Description
본 발명은 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 관한 것으로, 보다 상세하게는 문서로부터 비교 키를 생성하고 이 비교 키를 이용하여 문서 집합으로부터 짜깁기 된 문서의 종합 표절률을 산출할 수 있는 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 관한 것이다.
최근, 인터넷이 대중화 됨에 따라, 일반인들은 손쉽게 웹의 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 표절되어 작성되고 있다. 자기소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있어, 표절 행위는 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜깁기하는 형태로 점점 더 정교화 되고 있다. 짜깁기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.
종래 문서의 표절을 탐지하는 방법은 문서와 문서간 1:1 비교에 기반을 두고, 검사 대상이 되는 문서와 가장 유사한 문서들을 찾아 서로 비교하여 A 문서와 B 문서가 몇 퍼센트 유사하다는 유사도 값을 계산할 수 있으나, A 문서가 전체 비교문서 집합으로부터 얼만큼 짜깁기 되었는지를 나타내는 종합 표절률을 구할 수 없는 문제가 있다.
본 발명은 상기의 종래 기술의 문제를 해결하기 위한 것으로, 원본 문서로부터 일정 개수의 어절 단위로 생성된 복수 개의 색인 키와 검사 문서로부터 일정 개수의 어절 단위로 생성된 복수 개의 탐색 키를 비교하고, 비교 결과 일치하는 탐색 키에 포함된 어절의 개수를 구하여 검사 문서의 종합 표절률을 산출할 수 있는 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체를 제공하고자 함에 발명의 목적이 있다.
상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일 측면에 따르면, 문서 표절률 산출 장치가 제공된다.
본 발명의 바람직한 일 실시 예에 따르면, 문서 표절률 산출 장치에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부; 상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부; 상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부; 원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및 상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함한다.
또한, 상기 키 생성부는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 키 생성부는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 키 생성부는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다.
또한, 상기 저장부는 일상적으로 많이 사용되는 상용구문을 복수 개 저장하고, 상기 어절 계산부는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 상기 저장부에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다.
또한, 상기 어절 계산부는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다.
본 발명의 다른 측면에 따르면 문서 표절률 산출 방법이 제공된다.
본 발명의 바람직한 일 실시 예에 따르면, 문서 표절률 산출 방법에 있어서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a); 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b); 상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c); 상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및 상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함한다.
또한, 상기 단계(a)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 단계(a)는 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 단계(a)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다.
또한, 상기 단계(d)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 기 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다.
또한, 상기 단계(d)는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다.
본 발명의 또 다른 측면에 따르면 문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체가 제공된다.
본 발명에 따른 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체에 의하면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.
도 1은 본 발명에 따른 문서 표절률 산출 장치의 블록도.
도 2는 본 발명의 키 생성부의 블록도.
도 3은 본 발명의 저장부의 블록도.
도 4는 본 발명에 따른 문서 표절률 산출 방법의 순서도.
도 2는 본 발명의 키 생성부의 블록도.
도 3은 본 발명의 저장부의 블록도.
도 4는 본 발명에 따른 문서 표절률 산출 방법의 순서도.
이하에서는, 첨부도면을 참고하여 본 발명에 따른 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 발명에 따른 문서 표절률 산출 장치의 블록도이고, 도 2는 본 발명의 키 생성부의 블록도이고, 도 3은 본 발명의 저장부의 블록도이다.
도 1 내지 도 3을 참조하면, 문서 표절률 산출 장치(100)는 서버, PC, 노트북 및 기타 전자기기 등 다양한 형태로 구현될 수 있다.
문서 표절률 산출 장치(100)는 키 생성부(10), 키 비교 및 검색부(20), 어절 계산부(30), 저장부(40) 및 표절률 산출부(50)를 포함한다.
키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성한다. 청크(chunk)는 몇 개의 데이터의 집합을 말한다. 어절은 문장 구성의 한 단위로서, 띄어쓰기 단위와 일치한다. 기 설정된 청크 개수 단위는 4, 5, 6 등으로 설정이 가능하며, 청크 개수 단위를 5로 하면 5 개의 어절을 묶어서 색인 키 및 탐색 키를 설정하게 된다. 여기서 원본 문서는 검사의 기준이 되는 문서를 말하고, 검사 문서는 표절 여부를 판단하기 위한 대상 문서를 말한다. 아래에서는 기 설정된 청크 개수 단위를 5라고 가정하고 설명한다.
키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
또한, 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 구체적으로는, 기 설정된 청크 개수 보다 작은 적어도 하나 이상의 어절씩 이동하면서 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성한다.
아래의 [표 1]과 [표 2]를 예로 들어 구체적으로 설명한다.
아래의 [표 1]은 원본 문서의 예 이며, [표 2]는 원본 문서에서 생성된 색인 키의 예이다. 구체적으로는, [표 1]의 원본 문서는 문장의 어절을 기 설정된 청크 개수인 5 보다 큰 소정의 개수 단위인 7 개 어절 단위로 분할한 것이다. 결국, 하나의 문장을 7 개의 어절 단위로 분할하는 경우, 3 개의 구문으로 나누어진다. 여기서 7 개 어절 단위로 나누는 것은 하나의 예로 든 것이다.
1 | 주로 가난한 자들을 위한 교육을 목적으로 실시되었는데 |
2 | 출세를 목적으로 실시되었고 도제 교육의 현장이었던 도시에서 |
3 | 학교는 인간 학습의 중요한 환경이자 장소였다. |
상기의 [표 1]에서와 같이 하나의 문장을 기 설정된 청크 개수인 5보다 큰 7 개 단위로 분할하면 총 3 개의 부분으로 나누어진다. [표 1]의 분할된 문장 또는 구문 내에 포함된 어절을 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 이때, 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수 있다.
아래의 [표 2]를 참조하면, [표 1]의 1번 문장은 [표 2]의 1-1, 1-2, 1-3의 3 개의 색인 키를 생성하며, [표 1]의 2번 문장은 [표 2]의 2-1, 2-2, 2-3의 3 개의 색인 키를 생성하고, [표 1]의 3번 문장은 [표 2]의 3-1, 3-2의 2 개의 색인 키를 생성한다. [표 2]의 각각의 색인 키는 기 설정된 청크 개수인 5 개의 어절 단위로 묶여 생성된다. 이 때, 키 생성부(10)는 [표 1]의 분할된 문장을 처음부터 적어도 하나 이상의 어절씩 스캔하면서 5 개의 어절 단위로 묶어서 색인 키를 생성한다. "주로"부터 "교육을"까지를 묶어 색인 키를 생성하고, 그 다음 어절인 "가난한"부터 "목적으로"까지 묶어 색인 키를 생성하고, 그 다음 어절인 "자들을"부터 "실시되었는데"까지 묶어 색인 키를 생성하는 것이다. "실시되었는데"가 분할된 문장의 마지막이므로 색인 키 생성 작업을 종료하고, 그 다음 분할된 문장의 색인 키 생성 작업을 진행한다.
키 번호 | 색인 키 | |
1 |
1-1 | “주로 가난한 자들을 위한 교육을” |
1-2 | “가난한 자들을 위한 교육을 목적으로” | |
1-3 | “자들을 위한 교육을 목적으로 실시되었는데” | |
2 |
2-1 | “출세를 목적으로 실시되었고 도제 교육의” |
2-2 | “목적으로 실시되었고 도제 교육의 현장이었던” | |
2-3 | “실시되었고 도제 교육의 현장이었던 도시에서” | |
3 |
3-1 | “학교는 인간 학습의 중요한 환경이자” |
3-2 | “인간 학습의 중요한 환경이자 장소였다” |
이상의 실시 예와 다르게, 키 생성부(10)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성할 수 있다. 구체적으로는, 기 설정된 청크 개수 보다 작은 적어도 하나 이상의 어절씩 이동하면서 기 설정된 청크 개수 단위로 묶어 복수 개의 색인 키를 생성한다. 예를 들면, 기 설정된 청크 개수인 5 보다 작은 하나 또는 두개의 어절씩 이동하면서 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성한다.
다시 말해서, 원본 문서에 포함된 문장의 어절을 기 설정된 청크 개수 보다 큰 소정의 개수 단위로 분할하지 않고, 하나의 문장을 적어도 하나 이상의 어절씩 스캔하면서 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 색인 키를 생성할 수도 있다. 이는 아래 [표 3] 및 [표 4]의 탐색 키 생성 방법과 같은 방법이다.
키 생성부(10)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성할 수 있다. 아래의 [표 3]은 검사 문서의 예이며, [표 4]는 검사 문서에서 생성된 탐색 키의 예이다.
[표 4]의 탐색 키는 [표 3]의 검사 문서의 문장을 적어도 하나 이상의 어절씩 스캔하면서 기 설정된 청크 개수인 5 개 단위로 묶어 복수 개의 탐색 키를 생성한 것이다. [표 4]의 실시 예에서는 검사 문서의 문장을 한 어절씩 스캔하면서 청크 개수인 5 개 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 설명한다.
원래 도제 교육은 가난한 자들을 위한 교육을 목적으로 실시되었고 도제 교육의 현장이었던 곳은 인간 학습의 중요한 환경이자 장소였다. |
키 번호 | 탐색 키 | 존재 여부 |
1 | “원래 도제 교육은 가난한 자들을” | |
2 | “도제 교육은 가난한 자들을 위한” | |
3 | “교육은 가난한 자들을 위한 교육을” | |
4 | “가난한 자들을 위한 교육을 목적으로” | 1-2 |
5 | “자들을 위한 교육을 목적으로 실시되었고” | |
6 | “위한 교육을 목적으로 실시되었고 도제” | |
7 | “교육을 목적으로 실시되었고 도제 교육의” | |
8 | “목적으로 실시되었고 도제 교육의 현장이었던” | 2-2 |
9 | “실시되었고 도제 교육의 현장이었던 곳은” | |
10 | “도제 교육의 현장이었던 곳은 인간” | |
11 | “교육의 현장이었던 곳은 인간 학습의” | |
12 | “현장이었던 곳은 인간 학습의 중요한” | |
13 | “곳은 인간 학습의 중요한 환경이자” | |
14 | “인간 학습의 중요한 환경이자 장소였다” | 3-2 |
키 생성부(10)는 색인 키 생성부(11)와 탐색 키 생성부(13)로 구성될 수 있다. 색인 키 생성부(11)에서 상기의 색인 키를 생성하고, 탐색 키 생성부(13)에서 상기의 탐색 키를 생성할 수 있다.
키 비교 및 검색부(20)는 키 생성부(10)에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색한다. 예를 들면, [표 4]의 탐색 키와 [표 2]의 색인 키를 비교하면, 4번 탐색 키가 1-2번 색인 키와 같고, 8번 탐색 키가 2-2번 색인 키와 같고, 14번 탐색 키가 3-2번 색인 키와 같음을 알 수 있다. 키 비교 및 검색부(20)는 4, 8, 14 번의 세 개의 탐색 키가 색인 키와 일치하는 것으로 판단한다. 결국, 4, 8, 14 번의 세 개의 탐색 키가 표절된 것으로 간주된다.
저장부(40)는 원본 문서 및 검사 문서 그리고 키 생성부(10)에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 키 비교 및 검색부(20)에서 검색된 탐색 키를 저장한다. 또한, 저장부(40)는 일상적으로 많이 사용되는 상용구문을 복수 개 저장할 수 있다. 도 3을 참조하면, 저장부(40)는 원본 문서(41), 검사 문서(42), 색인 키(43), 탐색 키(44), 색인 키와 탐색 키 비교 결과 검색된 탐색 키(45) 및 상용구문(46)을 저장할 수 있다. 색인 키와 탐색 키 비교 결과 검색된 탐색 키(45)는 [표 4]에서 보는 바와 같이, 4, 8, 14번의 세 개의 탐색 키가 저장되고, 상용구문(46)은 아래의 [표 5]의 예에서 보는 바와 같이, 일상적으로 많이 사용되는 상용구문을 저장한다. 상용구문은 아래에서 설명할 어절 계산부(30)에서 자세하게 설명한다. [표 5]의 상용구문은 실시 예일 뿐, 아래의 상용구문에 한정되지 않는다.
“어떤 것도 설명할 수 없다“ “한다는 사실을 알 수 있다” “도움을 줄 수 있을 것이다” “중의 하나라고 볼 수 있다” “대표적인 예라고 할 수 있는데” “수 있도록 하는 것이 바람직하다” |
어절 계산부(30)는 키 비교 및 검색부(20)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 계수를 계산한다. 구체적으로는, 키 비교 및 검색부(20)에서 검색된 탐색 키는 [표 4]에서 보는 바와 같이 4, 8, 14번의 탐색 키이다. 4, 8, 14번의 탐색 키에 포함되어 있는 어절이 표절된 문장이므로, 4, 8, 14번 탐색 키에 포함된 문장의 어절을 계산하는 것이다.
정확한 종합 표절률 산출을 위해서, 어절 계산부(30)는 복수 개의 탐색 키가 검색되는 경우, 즉 4, 8, 14번 세 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산할 수 있다. 아래의 [표 6]은 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절의 예이다. 4번 탐색 키와 8번 탐색 키에 포함된 어절 중 목적으로 어절이 서로 겹치는 것을 알 수 있다. 이와 같이 겹치는 어절은 종합 표절률 산출 시, 두 개의 어절이 아닌 하나의 어절로 계산하는 것이다.
키 번호 | |||||||||
4 | 가난한 | 자들을 | 위한 | 교육을 | 목적으로 | ||||
8 | 목적으로 | 실시되었고 | 도제 | 교육의 | 현장이었던 |
아래의 [표 7]은 겹치는 어절을 하나의 어절로 통합(merge)한 모습의 예이다. 이와 같이 4, 8번의 탐색 키에서 겹치는 어절은 하나의 어절로 하여 계산하고, 14번 탐색 키는 겹치는 부분이 없으므로, 종합 표절률 산출 시, 어절 전부를 그대로 계산한다.
가난한 | 자들을 | 위한 | 교육을 | 목적으로 | 실시되었고 | 도제 | 교육의 | 현장이었던 |
결국, 4, 8, 14번의 탐색 키에 포함된 어절을 계산하면, 표절된 어절의 개수는 14 개가 된다.
또한, 어절 계산부(30)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 저장부(40)에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있다. 상기의 [표 5]의 상용구문의 예에서 보는 바와 같이, 상용구문은 일상적으로 많이 사용되는 표현이므로, 검색된 탐색 키에 포함된 어절 중 저장부(40)에 저장된 상용구문과 일치하는 어절은 배제한 후 계산하여 검사 문서의 종합 표절률을 정확하게 산출할 수 있다.
표절률 산출부(50)는 어절 계산부(30)에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출한다. 구체적으로는, (표절 영역 내의 어절 수 / 검사 문서의 전체 어절 수) × 100 으로 종합 표절률을 산출한다. 예를 들면, 표절 영역 내의 어절 수는 상기에서 본 바와 같이 14 개가 되고, 검사 문서의 전체 어절 수는 [표 3]을 참조하면, 18 개가 된다.
결국, 문서의 종합 표절률은 (14 / 18) × 100 = 77.78% 가 된다.
도 4는 본 발명에 따른 문서 표절률 산출 방법의 순서도이다.
도 4를 참조하면, 먼저, 키 생성부(10)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성한다(S100).
다음으로, 키 생성부(10)는 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성한다(S200). 상기의 과정은 키 생성부(10)에 포함된 색인 키 생성부(11)와 탐색 키 생성부(13)에서 각각 수행할 수 있다. 생성된 복수 개의 색인 키와 탐색 키는 저장부(40)에 저장된다.
다음으로, 키 비교 및 검색부(20)는 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색한다(S300). 색인 키와 탐색 키의 비교 결과, 일치하는 탐색 키는 저장부(40)에 저장된다.
다음으로, 어절 계산부(30)는 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산한다(S400). 구체적으로는, 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 저장부(40)에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산할 수 있고, 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 개수를 계산할 수 있다.
마지막으로, 표절률 산출부(50)는 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출한다(S500). 구체적으로는, (표절 영역 내의 어절 수 / 검사 문서의 전체 어절 수) × 100 으로 종합 표절률을 산출한다.
그 밖에 구체적인 방법에 대해서는 도 1 내지 도 3에서 자세하게 설명하였으므로 생략하도록 한다.
한편, 이러한 본 발명에 의한 문서 표절률 산출 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디 롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
본 발명에 의하면, 원본 문서와 검사 문서로부터 생성한 키를 상호 비교함으로써, 문서의 집합으로부터 짜깁기 된 문서의 종합 표절률을 신속하게 산출할 수 있고, 일상적으로 많이 사용하는 상용구문은 표절 영역에서 배제하고, 표절 영역으로 검색된 복수의 키에서 중복되는 어절은 하나로 통합함으로써, 정확한 종합 표절률을 산출할 수 있다.
본 발명은 상기한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 되는 것임은 자명하다.
100: 문서 표절률 산출 장치 10: 키 생성부
11: 색인 키 생성부 13: 탐색 키 생성부
20: 키 비교 및 검색부 30: 어절 계산부
40: 저장부 41: 원본 문서
42: 검사 문서 43: 색인 키
44: 탐색 키 45: 색인 키와 탐색 키 비교 결과, 검색된 탐색 키 46: 상용구문
50: 표절률 산출부
11: 색인 키 생성부 13: 탐색 키 생성부
20: 키 비교 및 검색부 30: 어절 계산부
40: 저장부 41: 원본 문서
42: 검사 문서 43: 색인 키
44: 탐색 키 45: 색인 키와 탐색 키 비교 결과, 검색된 탐색 키 46: 상용구문
50: 표절률 산출부
Claims (15)
- 문서 표절률 산출 장치에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하고, 검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 키 생성부;
상기 키 생성부에서 생성된 복수 개의 탐색 키를 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 키 비교 및 검색부;
상기 키 비교 및 검색부에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 어절 계산부;
원본 문서 및 검사 문서 그리고 상기 키 생성부에서 생성된 복수 개의 색인 키 및 탐색 키를 저장하고, 상기 키 비교 및 검색부에서 검색된 탐색 키를 저장하는 저장부; 및
상기 어절 계산부에서 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 표절률 산출부를 포함하고,
상기 키 생성부는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치. - 제1항에 있어서,
상기 키 생성부는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치. - 제2항에 있어서,
상기 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치. - 제1항에 있어서,
상기 키 생성부는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 장치. - 삭제
- 제1항에 있어서,
상기 저장부는 일상적으로 많이 사용되는 상용구문을 복수 개 저장하고,
상기 어절 계산부는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 상기 저장부에 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산하는 것을 특징으로 하는 문서 표절률 산출 장치. - 제1항에 있어서,
상기 어절 계산부는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산하는 것을 특징으로 하는 문서 표절률 산출 장치. - 문서 표절률 산출 방법에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a);
검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b);
상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c);
상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및
상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함하고,
상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법. - 제8항에 있어서,
상기 단계(a)는 원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 보다 큰 소정의 개수 단위로 분할하고, 분할된 문장 내에 포함된 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법. - 제9항에 있어서,
상기 단계(a)는 분할된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법. - 제8항에 있어서,
상기 단계(a)는 원본 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법. - 삭제
- 제8항에 있어서,
상기 단계(d)는 검색된 적어도 하나 이상의 탐색 키로 찾아진 표절 영역들 중 기 저장된 상용구문과 일치하는 표절 영역을 제거한 후 계산하는 것을 특징으로 하는 문서 표절률 산출 방법. - 제8항에 있어서,
상기 단계(d)는 복수 개의 탐색 키가 검색되는 경우, 서로 다른 탐색 키에 포함된 어절 중 겹치는 어절을 기반으로, 탐색 키를 머지(merge)하여 표절 영역을 구하고, 표절 영역의 어절의 개수를 계산하는 것을 특징으로 하는 문서 표절률 산출 방법. - 문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체에 있어서,
원본 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 색인 키를 생성하는 단계(a);
검사 문서에 포함된 문장의 어절을 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 단계(b);
상기 복수 개의 탐색 키를 상기 색인 키와 비교하여 일치하는 탐색 키가 적어도 하나 이상 존재하는지 검색하는 단계(c);
상기 단계(c)에서 검색된 적어도 하나 이상의 탐색 키에 포함된 어절의 개수를 계산하는 단계(d); 및
상기 계산된 어절의 개수가 검사 문서에서 차지하는 비율을 계산하여 검사 문서의 종합 표절률을 산출하는 단계(e)를 포함하고,
상기 단계(b)는 검사 문서에 포함된 문장의 어절을 적어도 하나 이상의 어절씩 이동할 때 마다 기 설정된 청크(chunk) 개수 단위로 묶어 복수 개의 탐색 키를 생성하는 것을 특징으로 하는 문서 표절률 산출 방법을 구현하기 위한 프로그램을 기록한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120118411A KR101264151B1 (ko) | 2012-10-24 | 2012-10-24 | 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120118411A KR101264151B1 (ko) | 2012-10-24 | 2012-10-24 | 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101264151B1 true KR101264151B1 (ko) | 2013-05-14 |
Family
ID=48666204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120118411A KR101264151B1 (ko) | 2012-10-24 | 2012-10-24 | 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101264151B1 (ko) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015130185A1 (ru) * | 2014-02-26 | 2015-09-03 | Андрей Юрьевич ЩЕРБАКОВ | Способ индексирования, сравнения и поиска изображений в компьютерной системе |
KR101580784B1 (ko) * | 2015-09-04 | 2015-12-31 | 주식회사 무하유 | 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체 |
KR20160000022A (ko) * | 2014-06-23 | 2016-01-04 | 주식회사 아이서티 | 학교별 월렛 시스템 및 기업 사서함에 기초한 인재 매칭 시스템 |
CN105701085A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种网络查重方法及系统 |
CN105701076A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种论文抄袭检测方法及系统 |
KR101634681B1 (ko) * | 2015-09-03 | 2016-06-29 | 주식회사 무하유 | 검사문서 내 인용구문 탐색 방법 및 프로그램 |
KR20180054308A (ko) | 2016-11-15 | 2018-05-24 | 한국과학기술원 | 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체 |
KR20210048861A (ko) * | 2019-10-24 | 2021-05-04 | 상명대학교산학협력단 | 블록체인 기반의 논문 표절 검사를 통한 관리 방법 |
KR102297721B1 (ko) | 2021-02-18 | 2021-09-03 | 주식회사 투비유니콘 | 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 |
KR20240013650A (ko) | 2022-07-22 | 2024-01-30 | 주식회사 투비유니콘 | 전자기록물 검증 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
-
2012
- 2012-10-24 KR KR1020120118411A patent/KR101264151B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
Non-Patent Citations (1)
Title |
---|
T. WANG et al. "PLAGIARISM DETECTION IN CHINESE BASED ON CHUNK AND PARAGRAPH WEIGHT", IEEE Proceedings of the Seventh International Conference on Machine Learning and Cybernetics, Kunming, pp 2574-257* |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015130185A1 (ru) * | 2014-02-26 | 2015-09-03 | Андрей Юрьевич ЩЕРБАКОВ | Способ индексирования, сравнения и поиска изображений в компьютерной системе |
KR20160000022A (ko) * | 2014-06-23 | 2016-01-04 | 주식회사 아이서티 | 학교별 월렛 시스템 및 기업 사서함에 기초한 인재 매칭 시스템 |
KR101672002B1 (ko) | 2014-06-23 | 2016-11-16 | 주식회사 아이코노스 | 학교별 월렛 시스템 및 기업 사서함에 기초한 인재 매칭 시스템 |
KR101634681B1 (ko) * | 2015-09-03 | 2016-06-29 | 주식회사 무하유 | 검사문서 내 인용구문 탐색 방법 및 프로그램 |
KR101580784B1 (ko) * | 2015-09-04 | 2015-12-31 | 주식회사 무하유 | 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체 |
CN105701085A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种网络查重方法及系统 |
CN105701076A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种论文抄袭检测方法及系统 |
CN105701085B (zh) * | 2016-01-13 | 2018-05-22 | 湖南通远网络科技有限公司 | 一种网络查重方法及系统 |
CN105701076B (zh) * | 2016-01-13 | 2018-05-22 | 湖南通远网络科技有限公司 | 一种论文抄袭检测方法及系统 |
KR20180054308A (ko) | 2016-11-15 | 2018-05-24 | 한국과학기술원 | 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체 |
KR20210048861A (ko) * | 2019-10-24 | 2021-05-04 | 상명대학교산학협력단 | 블록체인 기반의 논문 표절 검사를 통한 관리 방법 |
KR102332722B1 (ko) * | 2019-10-24 | 2021-11-29 | 상명대학교산학협력단 | 블록체인 기반의 논문 표절 검사를 통한 관리 방법 |
KR102297721B1 (ko) | 2021-02-18 | 2021-09-03 | 주식회사 투비유니콘 | 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 |
KR20240013650A (ko) | 2022-07-22 | 2024-01-30 | 주식회사 투비유니콘 | 전자기록물 검증 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101264151B1 (ko) | 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체 | |
Jaidka et al. | Overview of the CL-SciSumm 2016 shared task | |
CN102945228B (zh) | 一种基于文本分割技术的多文档文摘方法 | |
Bhargava et al. | Atssi: Abstractive text summarization using sentiment infusion | |
US9965472B2 (en) | Content revision using question and answer generation | |
López-Monroy et al. | Using Intra-Profile Information for Author Profiling. | |
US10528662B2 (en) | Automated discovery using textual analysis | |
Ling et al. | Synthesizing union tables from the web | |
Tan et al. | Entity linking for queries by searching Wikipedia sentences | |
Tonellotto et al. | Query embedding pruning for dense retrieval | |
He et al. | Integrating N-best SMT Outputs into a TM System | |
San Vicente et al. | Polarity lexicon building: to what extent is the manual effort worth? | |
Trappett et al. | Overview of the INEX 2011 snippet retrieval track | |
Xu et al. | Sentence alignment for literary texts: The state-of-the-art and beyond | |
CN113901783B (zh) | 面向领域的文档查重方法及系统 | |
Wieling et al. | Hierarchical spectral partitioning of bipartite graphs to cluster dialects and identify distinguishing features | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
Hogan et al. | Dcu@ fire 2011: Sms-based faq retrieval | |
Langsenkamp et al. | Expanding Spatial Regions and Incorporating IDF for PHOC-Based Math Formula Retrieval at ARQMath-3 | |
KR101113787B1 (ko) | 텍스트 색인 장치 및 방법 | |
Silva et al. | Improving CoGrOO: the Brazilian Portuguese Grammar Checker | |
Vesanto | Detecting and analyzing text reuse with BLAST | |
Nawab et al. | External Plagiarism Detection using Information Retrieval and Sequence Alignment-Notebook for PAN at CLEF 2011. | |
KR101188939B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
JP2009157458A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180307 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190304 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20200302 Year of fee payment: 8 |