KR100717998B1 - 문서의 표절 검사 방법 - Google Patents

문서의 표절 검사 방법 Download PDF

Info

Publication number
KR100717998B1
KR100717998B1 KR1020050129610A KR20050129610A KR100717998B1 KR 100717998 B1 KR100717998 B1 KR 100717998B1 KR 1020050129610 A KR1020050129610 A KR 1020050129610A KR 20050129610 A KR20050129610 A KR 20050129610A KR 100717998 B1 KR100717998 B1 KR 100717998B1
Authority
KR
South Korea
Prior art keywords
plagiarism
sentences
document
index
sentence
Prior art date
Application number
KR1020050129610A
Other languages
English (en)
Inventor
임해창
최성원
우연문
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020050129610A priority Critical patent/KR100717998B1/ko
Application granted granted Critical
Publication of KR100717998B1 publication Critical patent/KR100717998B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서의 표절 검사 방법에 관한 것이다. 본 발명은 컴퓨터가 표절 검사 대상 문서의 표절 여부를 검사하는 방법에 있어서, (a) 상기 표절 검사 대상 문서에서 복수개의 검색어들을 추출하는 단계, (b) 인터넷을 통하여 상기 검색어들이 포함된 웹문서를 추출하는 단계, (c) 상기 표절 검사 대상 문서 내 문장들과 상기 추출된 웹문서 내 문장들로부터 복수개의 색인어들을 추출하는 단계, (d) 상기 표절 검사 대상 문서에서 추출된 색인어들과 상기 웹문서에서 추출된 색인어들을 비교하여 상기 색인어들이 포함된 문장들의 유사성을 검사하는 단계, 및 (e) 상기 유사성 검사 결과 서로 유사한 문장들이 발견되면 상기 유사한 문장들의 주변 문장들을 상호 비교하는 지역 유사성 검사를 하여 상기 표절 검사 대상 문서의 표절 여부를 판정하는 단계를 포함함으로써, 문서의 표절 검사에 대한 정확도가 높다.

Description

문서의 표절 검사 방법{Method for examining plagiarism of document}
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명을 적용하기 위한 컴퓨터 시스템의 블록도이다.
도 2는 본 발명에 따른 문서의 표절 검사 방법을 도시한 흐름도이다.
본 발명은 문서의 표절 검사 방법에 관한 것으로서, 특히 정확도가 높은 문서의 표절 검사 방법에 관한 것이다.
인터넷이 발달하고 일반인들이 용이하게 이용할 수 있게 됨에 따라 웹문서가 급격히 증가하게 되었으며, 그 결과, 사람들은 검색엔진을 이용하여 원하는 정보에 손쉽게 접근할 수 있게 되었다. 리포트나 논문을 작성해야 하는 학생들에게 이 정보는 유용한 참고자료가 될 수도 있으나 표절의 원천이 되기도 한다. 또한, 워드프로세서의 발전은 문서의 편집을 보다 용이하게 할 수 있게 해준다. 이런 일련의 기술 발전으로 인하여 학생들은 리포트나 논문을 작성하는 과정에서 "복사", "붙여넣기"와 같은 간단한 기능을 사용하여 문서를 편집할 수 있게 됨으로써 표절을 가 능하게 해준다. 이것은 표절의 문제를 교육계의 중요한 이슈 중 하나로 떠오르게 만들고 있다. 이 때문에 표절을 판별해 내는 시스템에 대한 필요성이 날로 증가하고 있으나, 기존의 영어권에서 사용된 표절 검사 방법을 한국어에 적용한 사례들은 한국어의 특징인 자유 어순에 따른 다양한 문서의 변화를 올바르게 반영할 수 없다는 점 때문에 표절 여부를 가려내는 데는 한계가 있을 수밖에 없는 것이 현실이다.
본 발명의 목적은 한국어의 특성을 고려하여 문서의 변형에 견고하며, 정확도가 높은 문서의 표절 검사 방법을 제공하는 것이다.
상기 기술적 과제를 이루기 위하여 본 발명은
컴퓨터가 표절 검사 대상 문서의 표절 여부를 검사하는 방법에 있어서, (a) 상기 표절 검사 대상 문서에서 복수개의 검색어들을 추출하는 단계; (b) 인터넷을 통하여 상기 검색어들이 포함된 웹문서를 추출하는 단계; (c) 상기 표절 검사 대상 문서 내 문장들과 상기 추출된 웹문서 내 문장들로부터 복수개의 색인어들을 추출하는 단계; (d) 상기 표절 검사 대상 문서에서 추출된 색인어들과 상기 웹문서에서 추출된 색인어들을 비교하여 상기 색인어들이 포함된 문장들의 유사성을 검사하는 단계; 및 (e) 상기 유사성 검사 결과 서로 유사한 문장들이 발견되면, 상기 유사한 문장들의 주변 문장들을 상호 비교하는 지역 유사성 검사를 하여 상기 표절 검사 대상 문서의 표절 여부를 판정하는 단계를 포함하는 문서의 표절 검사 방법을 제공한다.
바람직하기는, 상기 검색어들은 각각 단어열로 구성하며, 상기 단어열은 3개 이상의 단어들을 포함한다.
바람직하기는 또한, 상기 색인어들은 명사, 동사, 수식어, 외국어를 포함하는 실질 형태소이다.
바람직하기는 또한, 상기 (d) 단계의 유사성을 검사하기 위하여 먼저, 수학식(log
Figure 112005076212490-pat00001
×
Figure 112005076212490-pat00002
, K=k1((1-b)+b
Figure 112005076212490-pat00003
))을 이용하여 색인어 가중치를 계산하고, 다음에 수학식(Sim(Si,Sj)=
Figure 112005076212490-pat00004
)을 이용하여 문장 유사도를 계산한다.
바람직하기는 또한, 상기 문장 유사도 계산 결과가 (Sim(Si,Sj)≥δ1, δ1=0.5∼0.6)일 때 유사한 문장으로 판정한다.
바람직하기는 또한, 상기 (e) 단계의 지역 유사성 검사를 위해 수학식(Det(Si,Sj)=
Figure 112005076212490-pat00005
(Eval(
Figure 112005076212490-pat00006
,
Figure 112005076212490-pat00007
)+Eval(
Figure 112005076212490-pat00008
,
Figure 112005076212490-pat00009
)))을 이용하여 계산하고, 상기 계산 결과가 (Det(Si,Sj)≥δ2, δ2=1)일 때 상기 표절 검사 대상 문서는 표절한 것으로 판정한다.
바람직하기는 또한, 상기 (e) 단계 후에 상기 표절 검사 결과를 상기 컴퓨터의 모니터에 표시하는 단계를 더 포함한다.
바람직하기는 또한, 상기 검색어들은 상기 표절 검사 대상 문서에 포함된 문장들 중에서 임의의 순서로 선택된 문장들 중에서 추출한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명을 적용하기 위한 컴퓨터 시스템의 블록도이다. 도 1을 참조하면, 컴퓨터 시스템(101)은 컴퓨터(111), 인터넷, 및 다수개의 서버들(121∼123)에 연결된다.
컴퓨터(111)는 개인용 컴퓨터(Personal Computer)나, 회사에서 사용되는 서버로 구성될 수 있다. 컴퓨터(111)는 인터넷을 통해 서버들(121∼123)을 검색할 수 있는 검색 엔진을 내장하며, 또한, 문서의 표절 검사를 수행하기 위한 프로그램이 내장된다.
다수개의 서버들(121∼123)에는 각각 다양한 종류의 웹문서들이 내장되어 있다.
도 2는 본 발명에 따른 문서의 표절 검사 방법을 도시한 흐름도이다. 도 1을 참조하여 도 2에 도시된 문서의 표절 검사 방법을 설명하기로 한다.
제1 단계(211)로써, 컴퓨터(111)는 표절 검사 대상 문서에서 복수개의 검색어들을 추출한다. 표절 검사 대상 문서에는 많은 문장들이 있으며, 컴퓨터(111)는 그 중에서 임의의 순서, 예컨대 5번째줄마다 하나의 문장들을 선택하고, 상기 선택된 문장들 중에서 다수개의 검색어들을 추출한다. 상기 검색어들은 각각 단어열로 구성한다. 단어열은 3개 이상의 단어들을 포함한다. 예컨대, "전쟁이라는 상황이 그녀를 괴롭힌 또 하나의 주범이다"라는 문장에서는 "전쟁이라는 상황이 그녀를 괴 롭힌", "또 하나의 주범이다" 와 같이 2개의 단어열들이 추출될 수 있다.
검색어란 일반적인 검색엔진에서 원하는 문서를 찾고자 할 때 쓰는 키워드로써, 적절한 검색어의 선택은 표절의 대상이 되는 문서를 찾을 수 있는가의 중요한 요인이 된다. 그러나, 검색어 선택에 있어서 문서내의 모든 단어를 검색어로 사용할 경우, 원하는 웹문서, 즉 표절이 의심되는 문서를 찾아낼 수는 있으나, 검색 시간 및 관련이 없는 문서의 포함 등 효율성을 떨어뜨리는 원인이 되기도 한다. 따라서, 본 발명은 정확한 웹문서의 검색과 높은 효율성을 보장하기 위해 검사하고자 하는 각 문서 내에서 일정 간격으로 문장을 선택하고, 각 선택된 문장에서 추출된 복수개의 단어열을 검색어로 사용한다. 대부분의 표절 행위에서 단 하나의 문장이 아닌 여러 개의 문장이나, 단락 단위로 표절이 이루어진다는 점을 생각해 볼 때, 본 발명과 같이, 표절 검사용 문장에서 복수개의 단어열들을 검색어로 사용하는 방법은 원하는 표절 대상 문서의 검색이 가능한 동시에 검색어 숫자를 줄여 검색 속도가 향상된다.
제2 단계(221)로써, 컴퓨터(111)는 인터넷을 통하여 또는 자체 내에 저장된 자료들 중에서 상기 검색어들이 포함된 웹문서를 추출한다. 즉, 컴퓨터(111)는 웹 검색 엔진을 이용한 검색을 수행하여 표절의 대상이 될 수 있는 웹문서 집합을 추출한다.
제3 단계(231)로써, 컴퓨터(111)는 상기 표절 검사 대상 문서와 상기 검색어들이 포함된 웹문서 각각으로부터 복수개의 색인어들을 추출한다. 즉, 효율적인 표절 검사를 위해 표절 검사 대상 문서와 웹문서 추출단계에서 추출된 웹문서를 문 장 단위로 분리한 후, 각 문장에서 색인어를 추출한다. 상기 색인어들은 명사, 동사, 수식어, 외국어를 포함하는 실질 형태소이다. 예컨대, "문장 단위로 색인어를 추출해서 문장 검색에 사용한다"라는 문장에서 "문장", "단위", "색인어" "추출", "검색", "사용"을 색인어로써 추출한다.
기존의 방법이 문장 내의 일정 길이 이상의 단어열(3어절 이상)을 색인어로 사용한데 반해 본 발명에서는 실질 형태소 단위로 색인어를 사용하여 어순을 고려하지 않음으로써, 문장의 어순 변화 및 단어 삽입, 삭제 등의 변형에 보다 견고해지는 효과를 가져온다. 예를 들자면, "바로 전쟁이라는 상황이 그녀를 괴롭힌 또 하나의 주범이다" 라는 문장에 대해서 "그녀를 괴롭힌 것은 전쟁이라는 상황 그 것이었다"와 같이 어순을 변경하여 표절한 경우, 공통적으로 존재하는 일정 길이 이상의 단어열이 없기 때문에 기존의 방법들은 두 문장이 표절관계가 있음을 판정하지 못한다. 그러나, 본 발명은 형태소 분석을 통한 형태소 단위의 색인 및 검사를 수행하기 때문에 어순 변경에 영향을 받지 않게 되어 표절로 판정하는 것이 가능하다. 이 때, 형태소 단위의 색인의 어순을 고려하지 않는 점은 문장의 변형에는 견고하지만 비슷한 단어를 사용할 경우에는 다른 내용을 담고 있는 문장에 대해서도 표절로 판정하게 될 위험성이 높다. 그 때문에 본 발명에서는 문장의 지역 유사성 측정을 통해, 그 주변 문맥의 유사성을 표절 판단에 사용하여 형태소 단위의 색인 및 검색에서 발생하는 정확도의 감소를 줄여준다.
제4 단계(241)로써, 컴퓨터(111)는 상기 표절 검사 대상 문서 내 문장들의 색인어들과 상기 검색어들이 포함된 웹문서 내 문장들의 색인어들을 비교하여 유사 한 문장을 검사함으로써 문서의 유사성을 검사한다. 본 발명에서의 두 단어열 사이의 유사성 검사 방법은 정보검색 방식에 기반한 유사도 계산을 통해 수행된다. 단어열과 단어열의 유사도를 계산하는 정보검색 방식은 불리언 모델, 벡터 공간 모델, 확률 모델 등이 존재하는데, 본 발명에서는 두 문장의 표절 여부의 성능의 향상과 검사 용이성을 위해 아래 수학식 1과 같은 확률 모델의 일종인 오카피 모델의 색인어 가중치 계산식을 이용하여 색인어 가중치(Wki)를 계산한다.
Figure 112005076212490-pat00010
Figure 112005076212490-pat00011
Wki = log ×,
K = k1((1-b)+b
Figure 112005076212490-pat00012
)
여기서, k1은 1.2, b는 0.75, N 전체 문장 개수, tf는 i 문장 내의 k 색인어의 빈도, sf는 k 색인어가 존재하는 문장의 개수를 나타낸다.
다음, 아래 수학식 2와 같이 코사인 유사도 계산식을 이용하여 정규화된 유사도 값을 산출한다.
Figure 112005076212490-pat00013
Sim(Si,Sj)=
상기 수학식 2의 계산 결과를 가지고 아래 수학식 3에 의해 표절 가능성이 있는 유사 문장을 추려낸다.
Eval(Si,Sj) = 1 if Sim(Si,Sj)≥δ1, 0 otherwise.
여기서, δ1=0.5∼0.6이다.
수학식 3의 결과 유사 문장이 없으면(245), 상기 표절 검사용 문장은 표절되지 않은 것으로 판정한다(265).
이와 같이, 문장 단위로 표절 검사를 하며, 검색된 웹문서의 문장들로부터 색인어를 추출하여 표절을 검사함으로써 문장의 어순 변화 및 단어 삽입 삭제 등의 변형된 문장에 대해서도 정확한 표절 검사가 가능하다.
제5 단계(251)로써, 컴퓨터(111)는 상기 유사성 검사 결과 유사 문장이 있으면(245), 상기 유사한 문장들을 상호 비교하는 지역 유사성 검사를 하여 상기 표절 검사 대상 문서의 표절 여부를 판정한다. 즉, 상기 표절 검사 대상 문서의 색인어들이 포함된 문장의 전후 문장들과 상기 웹문서에서 추출된 색인어들이 포함된 문자의 주변 문장들과 비교하여 이들의 지역 유사성 검사를 하여 상기 표절 검사 대상 문서의 표절 여부를 판정한다.
즉, 표절 후보 문장쌍들을 대상으로 문장의 지역 유사성을 계산하여 문장쌍에 대한 표절 여부를 판단한다. 기존의 문장을 검사 단위로 한 표절 검사 방법들은 문장 쌍들을 주위 문맥과는 독립적으로 놓고 비교한다. 그러나, 표절은 단일 문장이 아니라 복수개의 문장을 단위로 이루어지기 때문에, 실제 표절이 이루어진 문장은 그 주변 문장들도 유사할 것이다. 따라서, 본 발명은 아래의 수학식 4에 제시된 지역 유사성 계산식을 통해 주변 문장의 유사성을 표절의 판단 기준으로 삼 는다.
예컨대, 표절 검사 대상 문서에
1; 그녀를 그렇게 괴롭게 만든 게 과연 무엇일까?
2; 바로 전쟁이라는 상황이 그녀를 괴롭힌 또 하나의 주범이다.
3; 전쟁이 바로 그녀를 황폐하게 만든 것이다.
라고 기재되어 있고, 유사한 웹문서에
1; 그녀를 무엇이 그렇게 괴롭게 만들었을까?
2; 전쟁이라는 상황이 그녀를 그렇게 괴롭힌 것이다.
3; 전쟁이 없었다면 그녀는 가족들과 행복하게 살고 있었을 것이다.
4; 이렇게 전쟁이라는 것이 사람의 마음을 황폐하게 만드는 것이다.
라고 기재되어 있을 때, 표절 검사 대상 문서의 제2 문장과 웹문서의 제2 문장이 비교 대상이며, 표절 검사 대상 문서의 제1 및 제3 문장과 웹문서의 제1, 제3 및 제4 문장은 지역 유사성을 검사하기 위하여 예시된 문장들이다. 구체적으로, 표절 검사 대상 문서의 제1 문장과 웹문서의 제1 문장이 유사하고, 표절 검사 대상 문서의 제3 문장과 웹문서의 제4 문장이 유사하다.
이와 같이, 표절 검사 대상 문서의 주변 문장들과 웹문서의 주변 문장들의 유사성을 검사함으로써, 표절 검사 대상 문서와 유사한 웹문서의 표절 여부를 정확하게 판정할 수가 있다.
Figure 112005076212490-pat00014
Figure 112005076212490-pat00015
Figure 112005076212490-pat00016
Figure 112005076212490-pat00017
Figure 112005076212490-pat00018
Det(Si,Sj)= (Eval(,)+Eval(,))
수학식 4의 계산 결과가 아래 수학식 5와 같을 때(165), 상기 표절 검사 대상 문서는 표절한 것으로 판정한다(261). 만일, 수학식 4의 계산 결과가 아래 수학식 5와 같지 않으면(255), 표절 검사 대상 문서는 표절되지 않은 것으로 판정된다(265).
Det(Si,Sj)≥δ2
여기서, δ2=1이다.
제6 단계로써, 컴퓨터(111)는 상기 표절 검사 결과를 모니터에 표시한다. 이 때, 컴퓨터(111)는 사용자의 요청에 따라 상기 표절 검사 결과를 모니터에 표시할 수 있다. 컴퓨터(111)는 문장과 문장 단위로 표절 관계를 저장하기 때문에 아래 표 1 및 표 2와 같이 실제 표절이 일어난 특정 부분만을 사용자가 편리하게 점검할 수 있는 환경을 제공한다. 표 1은 리포트별 표절 정보를 보여주고, 표 2는 표절 검사 대상 문서의 문장들과 검색된 웹문서의 유사 문장들을 보여준다.
리포트명 표절 정도(%) 크기 내용어수 고유단어비율(%)
문서3.hwp 62 29696 677 7.53
문서6.doc 57 1901 2396 3.17
문서18.hwp 52 33792 3880 2.50
문서4.doc 49 83456 2469 5.83
문서13.hwp 40 43008 5076 4.59
문서20.hwp 38 19456 950 6.32
문서8.doc 33 70144 1126 4.00
문서1.hwp 32 46592 1937 4.65
문서14.doc 32 478208 1970 8.22
문서23.doc 23 36864 676 2.22
문서26.doc 19 54784 2026 6.91
72.hwp 13 77824 874 13.73
문서17.hwp 7 63488 9354 11.06
문서25.doc 7 55808 1955 7.42
문서7.doc 1 33792 923 8.88
문서12.doc 0 27136 364 7.14
** 표절 검사 대상 문서 **
이 이론을 토대로 만들어진 독특한 스릴러 영화가 나비효과이다. 이 영화는 이 이론을 인생의 흐름에 대입시켜 순간의 선택이 한 사람의 인생 혹은 그와 관련된 주위 사람들까지의 인생을 얼마나 다르게 바꾸어 놓을 수 있는가를 보여주고 있다. 한 소년이 있다. 귀엽고 천진난만한 얼굴로 정신병원에 간 아빠를 그리워하지만 엄마를 가슴아프게 하지 않기 위해 견디는 착한 아이이다. 학교 그림시간에 장래 희망으로 사람을 살해하는 살인마가 되어있는 그림을 그려 선생님을 놀라게 한다. 그러나 이 소년은 그림을 그린 자신을 기억하지 못한다. 소년의 삶에서 이 같은 기억의 흐름이 종종 끊기는 일이 생긴다. 그것은 언제나 자신에게 성착취의 위기가 다가오거나 신변에 위험이 느껴지거나 의도하지 않게 사람을 죽이게 되는 사건에 휘말리거나 할 때처럼 감정적으로 크게 동요하게 될 때 꼭 나타난다.
** 웹문서의 유사 문장들 **
어린 시절 순간의 선택이 한 사람의 인생 혹은 그와 관련된 주위 사람들까지의 인생을 얼마나 다르게 바꾸어 놓을 수 있는가 하는 것이 영화가 내세우는 주제다. ............................................... 소년의 삶에서 이 같은 기억의 흐름이 종종 끊기는 일이 생긴다. 그것은 언제나 자신에게 성적인 착취의 위기가 다가오거나 의도하지 않게 사람을 죽이게 되는 사건에 휘말리거나 할 때처럼 감정적으로 크게 동요하게 될 때 꼭 나타난다. ............................................. 그러나 다시 돌아간 현제에서 그는 그 과거의 또 다른 선택 때문에 또 다른 불행에 맞닥뜨리게 된다.
표 1 및 표 2에서 밑줄친 문장들이 표절 가능성이 높은 문장들이다.
초.중.고 교육과정이 개편되고, 초.중.고등학교에서도 현재 대학생들의 리포트와 같은 탐구, 조사형 과제들이 빈번히 제출되고 있기 때문에 본 발명은 대학교뿐 아니라 초.중.고 에도 유용하게 적용될 수 있을 것이다.
도면과 명세서에서 최적 실시예가 개시되었으며, 여기서 사용된 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이며, 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 따라서, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능할 것이므로, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 기재된 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이, 본 발명은 복수개의 단어열을 검색어로 사용함으로써 원하는 표절 대상 웹문서의 검색이 가능할 뿐만 아니라 검색어 숫자가 감소되어 검색 속도가 빨라진다. 또, 정보 검색 방식을 통해 문장 단위 표절 검사를 수행하기 때문에, 기존의 정렬 알고리즘 또는 문자열 매칭을 이용한 표절 검사에 비해 단어의 교체 및 어순의 변경 등에 견고하게 작동하며 또한 사용 메모리 및 실행 속도 등의 효율성 면에서도 더 좋은 성능을 보인다. 또한, 주변 문장들에 대해 표절 검사를 수행하는 지역 유사성 검사를 수행함으로써 표절 검사의 정확도가 높다.

Claims (9)

  1. 컴퓨터가 표절 검사 대상 문서의 표절 여부를 검사하는 방법에 있어서,
    (a) 상기 표절 검사 대상 문서에서 복수개의 검색어들을 추출하는 단계;
    (b) 인터넷을 통하여 상기 검색어들이 포함된 웹문서를 추출하는 단계;
    (c) 상기 표절 검사 대상 문서 내 문장들과 상기 추출된 웹문서 내 문장들로부터 복수개의 색인어들을 추출하는 단계;
    (d) 상기 표절 검사 대상 문서에서 추출된 색인어들과 상기 웹문서에서 추출된 색인어들에 대해서, 전체 문장의 개수, 문장 내의 색인어의 빈도 및 색인어가 존재하는 문장의 개수에 따라 상기 색인어들의 색인어 가중치를 계산하고, 상기 색인어 가중치를 이용하여 상기 색인어들이 포함된 문장들의 유사성을 검사하는 단계; 및
    (e) 상기 유사성 검사 결과 서로 유사한 문장들이 발견되면, 상기 유사한 문장들의 주변 문장들을 상호 비교하는 지역 유사성 검사를 하여 상기 표절 검사 대상 문서의 표절 여부를 판정하는 단계를 포함하는 것을 특징으로 하는 문서의 표절 검사 방법.
  2. 제1항에 있어서, 상기 검색어들은 각각 단어열로 구성하는 것을 특징으로 하는 문서의 표절 검사 방법.
  3. 제2항에 있어서, 상기 단어열은 3개 이상의 단어들을 포함하는 것을 특징으로 하는 문서의 표절 검사 방법.
  4. 제1항에 있어서, 상기 색인어들은 명사, 동사, 수식어, 외국어를 포함하는 실질 형태소인 것을 특징으로 하는 문서의 표절 검사 방법.
  5. 제1항에 있어서, 상기 (d) 단계의 유사성을 검사하기 위하여 먼저, 수학식(log
    Figure 112005076212490-pat00019
    ×
    Figure 112005076212490-pat00020
    , K=k1((1-b)+b
    Figure 112005076212490-pat00021
    ))을 이용하여 색인어 가중치를 계산하고, 다음에 수학식(Sim(Si,Sj)=
    Figure 112005076212490-pat00022
    을 이용하여 문장 유사도를 계산하는 것을 특징으로 하는 문서의 표절 검사 방법.
  6. 제5항에 있어서, 상기 문장 유사도 계산 결과가 (Sim(Si,Sj)≥δ1,δ1=0.5∼0.6)일 때 유사한 문장으로 판정하는 것을 특징으로 하는 문서의 표절 검사 방법.
  7. 제1항에 있어서, 상기 (e) 단계의 지역 유사성 검사를 위해 수학식(Det(Si,Sj)=
    Figure 112005076212490-pat00023
    (Eval(
    Figure 112005076212490-pat00024
    ,
    Figure 112005076212490-pat00025
    )+Eval(
    Figure 112005076212490-pat00026
    ,
    Figure 112005076212490-pat00027
    )))을 이용하여 계산하고, 상기 계산 결과가 (Det(Si,Sj)≥δ2, δ2=1)일 때 상기 표절 검사 대상 문서는 표절한 것으로 판정하는 것을 특징으로 하는 문서의 표절 검사 방법.
  8. 제1항에 있어서, 상기 (e) 단계 후에 상기 표절 검사 결과를 상기 컴퓨터의 모니터에 표시하는 단계를 더 포함하는 것을 특징으로 하는 문서의 표절 검사 방법.
  9. 제1항에 있어서, 상기 검색어들은 상기 표절 검사 대상 문서에 포함된 문장들 중에서 임의의 순서로 선택된 문장들 중에서 추출하는 것을 특징으로 하는 문서의 표절 검사 방법.
KR1020050129610A 2005-12-26 2005-12-26 문서의 표절 검사 방법 KR100717998B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050129610A KR100717998B1 (ko) 2005-12-26 2005-12-26 문서의 표절 검사 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050129610A KR100717998B1 (ko) 2005-12-26 2005-12-26 문서의 표절 검사 방법

Publications (1)

Publication Number Publication Date
KR100717998B1 true KR100717998B1 (ko) 2007-05-15

Family

ID=38270695

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050129610A KR100717998B1 (ko) 2005-12-26 2005-12-26 문서의 표절 검사 방법

Country Status (1)

Country Link
KR (1) KR100717998B1 (ko)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR100918489B1 (ko) * 2007-10-17 2009-09-24 주식회사 컨텐츠컴퍼니제이 텍스트 비교 방법 및 텍스트 비교 시스템
KR100945223B1 (ko) * 2009-03-02 2010-03-03 (주)아이비즈넷 중복수상을 검증하는 경진대회 진행 시스템 및 그 방법
KR100948749B1 (ko) 2008-03-05 2010-03-22 엔에이치엔(주) 빈출 문구를 이용한 복사 문서 판단 시스템 및 방법,그리고 빈출 문구 추출 시스템 및 방법
KR101033670B1 (ko) * 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법
KR101115003B1 (ko) 2010-05-07 2012-03-06 (주)휴먼토크 통합뷰어를 활용한 표절검사 시스템
KR20140052685A (ko) * 2012-10-25 2014-05-07 에스케이텔레콤 주식회사 문장 유사도를 이용한 문장 평가 방법, 이를 위한 장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치
KR101580784B1 (ko) 2015-09-04 2015-12-31 주식회사 무하유 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
KR101687674B1 (ko) * 2015-11-26 2016-12-19 성신여자대학교 산학협력단 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
KR101713612B1 (ko) * 2015-09-22 2017-03-09 조선대학교산학협력단 지능형 스토리텔링 지원 시스템
KR20180054308A (ko) 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
KR20180078626A (ko) * 2016-12-30 2018-07-10 주식회사 로크미디어 출판 정보 제공 시스템 및 방법
KR20180109788A (ko) * 2018-09-21 2018-10-08 주식회사 로크미디어 웹 저작물 검증 시스템
KR20180109789A (ko) * 2018-09-21 2018-10-08 주식회사 로크미디어 온라인 저작물 평가 방법
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
JPH10171803A (ja) 1996-12-09 1998-06-26 Oki Electric Ind Co Ltd 文類似度計算装置
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법
KR20030044949A (ko) * 2003-04-24 2003-06-09 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
KR20040064681A (ko) * 2004-06-30 2004-07-19 부산대학교 산학협력단 프로그램 소스의 표절 탐색 방법 및 이를 이용한프로그래밍 과제의 채점 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
JPH10171803A (ja) 1996-12-09 1998-06-26 Oki Electric Ind Co Ltd 文類似度計算装置
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법
KR20030044949A (ko) * 2003-04-24 2003-06-09 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
KR20040064681A (ko) * 2004-06-30 2004-07-19 부산대학교 산학협력단 프로그램 소스의 표절 탐색 방법 및 이를 이용한프로그래밍 과제의 채점 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR100918489B1 (ko) * 2007-10-17 2009-09-24 주식회사 컨텐츠컴퍼니제이 텍스트 비교 방법 및 텍스트 비교 시스템
KR100948749B1 (ko) 2008-03-05 2010-03-22 엔에이치엔(주) 빈출 문구를 이용한 복사 문서 판단 시스템 및 방법,그리고 빈출 문구 추출 시스템 및 방법
KR101033670B1 (ko) * 2008-12-04 2011-05-12 (주)야긴스텍 문서 간 유사도 산출 시스템 및 방법
KR100945223B1 (ko) * 2009-03-02 2010-03-03 (주)아이비즈넷 중복수상을 검증하는 경진대회 진행 시스템 및 그 방법
KR101115003B1 (ko) 2010-05-07 2012-03-06 (주)휴먼토크 통합뷰어를 활용한 표절검사 시스템
KR102004831B1 (ko) * 2012-10-25 2019-07-29 에스케이텔레콤 주식회사 문장 유사도를 이용한 문장 평가 방법, 이를 위한 장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
KR20140052685A (ko) * 2012-10-25 2014-05-07 에스케이텔레콤 주식회사 문장 유사도를 이용한 문장 평가 방법, 이를 위한 장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
KR101580784B1 (ko) 2015-09-04 2015-12-31 주식회사 무하유 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
KR101713612B1 (ko) * 2015-09-22 2017-03-09 조선대학교산학협력단 지능형 스토리텔링 지원 시스템
KR101687674B1 (ko) * 2015-11-26 2016-12-19 성신여자대학교 산학협력단 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
KR20180054308A (ko) 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
KR20180078626A (ko) * 2016-12-30 2018-07-10 주식회사 로크미디어 출판 정보 제공 시스템 및 방법
KR101904063B1 (ko) * 2016-12-30 2018-11-28 주식회사 로크미디어 출판 정보 제공 시스템 및 방법
KR20180109788A (ko) * 2018-09-21 2018-10-08 주식회사 로크미디어 웹 저작물 검증 시스템
KR20180109789A (ko) * 2018-09-21 2018-10-08 주식회사 로크미디어 온라인 저작물 평가 방법
KR102037475B1 (ko) * 2018-09-21 2019-11-01 주식회사 로크미디어 온라인 게시 저작물 출판을 위한 출판 정보 제공 방법
KR102037473B1 (ko) * 2018-09-21 2019-11-01 주식회사 로크미디어 온라인 게시 저작물 출판을 위한 출판 정보 제공 시스템
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム

Similar Documents

Publication Publication Date Title
KR100717998B1 (ko) 문서의 표절 검사 방법
Kousha et al. Are Wikipedia citations important evidence of the impact of scholarly articles and books?
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
Bjørkelund et al. A study of opinion mining and visualization of hotel reviews
Overell et al. Using co‐occurrence models for placename disambiguation
Correia et al. Automatic generation of cloze question stems
JP2008282366A (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Hollenstein et al. Inconsistency detection in semantic annotation
US20190155912A1 (en) Multi-dimensional query based extraction of polarity-aware content
Boston et al. Wikimantic: Toward effective disambiguation and expansion of queries
Davoodi et al. Clac at semeval-2016 task 11: Exploring linguistic and psycho-linguistic features for complex word identification
CN105701085A (zh) 一种网络查重方法及系统
Dornescu et al. Relative clause extraction for syntactic simplification
Bär et al. Composing measures for computing text similarity
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Putri et al. Software feature extraction using infrequent feature extraction
Bracewell et al. Determining the conceptual space of metaphoric expressions
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
Piskorski et al. Exploiting twitter for border security-related intelligence gathering
Flanagan et al. Classification of English language learner writing errors using a parallel corpus with SVM
Thelwall et al. Are Wikipedia citations important evidence of the impact of scholarly articles and books?
Saqib et al. Semi supervised method for detection of ambiguous word and creation of sense: Using WordNet

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140310

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150502

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160503

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170202

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180504

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 13