KR102297721B1 - 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 - Google Patents

표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 Download PDF

Info

Publication number
KR102297721B1
KR102297721B1 KR1020210022154A KR20210022154A KR102297721B1 KR 102297721 B1 KR102297721 B1 KR 102297721B1 KR 1020210022154 A KR1020210022154 A KR 1020210022154A KR 20210022154 A KR20210022154 A KR 20210022154A KR 102297721 B1 KR102297721 B1 KR 102297721B1
Authority
KR
South Korea
Prior art keywords
plagiarism
document
section
syllables
module
Prior art date
Application number
KR1020210022154A
Other languages
English (en)
Inventor
윤진욱
Original Assignee
주식회사 투비유니콘
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 투비유니콘 filed Critical 주식회사 투비유니콘
Priority to KR1020210022154A priority Critical patent/KR102297721B1/ko
Application granted granted Critical
Publication of KR102297721B1 publication Critical patent/KR102297721B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.
구체적으로는, 음절에 기반한 표절구간을 탐색하여 표절률을 산출함으로써, 표절을 확인하고, 확인된 표절의 타당성에 대한 신뢰도를 확률적으로 평가할 수 있도록 함으로써, 표절분석에 대한 정확도를 향상시킬 수 있는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.

Description

표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템{SYSTEM FOR EVALUATION A VALIDITY OF PLAGIARISM, THE SYSTEM APPLICATION TO OUTPUT METHOD A PROBAVBILITY OF PLAGIARISM USING A SEARCH PLAGIARISM-AREA}
본 발명은 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.
구체적으로는, 음절에 기반한 표절구간을 탐색하여 표절률을 산출함으로써, 표절을 확인하고, 확인된 표절의 타당성에 대한 신뢰도를 확률적으로 평가할 수 있도록 함으로써, 표절분석에 대한 정확도를 향상시킬 수 있는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.
전자문서란 컴퓨터 등 정보처리능력을 가진 장치에 의하여 전자적인 형태로 작성되어 송수신되거나 저장된 문서형식의 자료로서 표준화된 것을 일컫는다.
이러한 전자문서는 작성 및 편집이 용이하다. 전자문서는 다양한 경로를 통하여 유통될 수 있다. 특히, 최근 인터넷이 대중화됨에 따라, 일반인들도 인터넷 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 무분별하게 표절되어 작성되고 있다.
예컨대, 자기 소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있다.
이에, 표절 행위가 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜집기하는 형태로 점점 더 정교화 되고 있다. 짜집기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.
또한, 문장이나 구절과 같은 텍스트 부분에 대한 표절 행위뿐만 아니라, 비텍스트 부분인 이미지, 수식, 표, 그래프 등과 같은 영역에 대해서도 표절 행위가 발생하고 있다. 따라서, 텍스트뿐만 아니라 비텍스트 부분에 대해 얼마만큼 표절을 했는지 찾아내는 기술이 필요하다.
이러한 요구에 의해 카피킬러(www.copykiller.com)라는 매체가 등장하였고, 이는 근래 모 연예인의 논문 표절이 논란이 된 바 있다.
뉴스에 따르면 모 연예인의 논문 표절이 74%에 해당한다고 기사화되고 있고, 해당 연예인의 소속사측에서는 논문 심사 교수의 말을 인용하면서 발생된 사항일 뿐, 연구 내용에 표절은 없다고 밝힌 바 있다.
이러한 논문 표절의 검증대상이 된 카피킬러는 키워드 기반으로 2개 문서의 표절을 분석하기 때문에, 상술된 모 연예인의 경우와 같이 키워드가 기반된 작성문서는 표절 가능성이 높음을 암시하게 된다.
실제로, 본 출원인이 [표 1]과 같이 카피킬러를 대상으로 띄어쓰기를 조작하여 검증을 수행한 결과, 표절률이 0%인 것으로 나타난 바 있다.
Figure 112021019994212-pat00001
이러한 표절검증에 관련하여, 등록특허공보 제10-2162711호의 비텍스트 영역의 표절 검사 방법 및 장치이 기재되어 있다.
상기 기술은, 컴퓨터가 수행하는 비텍스트 영역의 표절 검사 방법에 있어서, 표절검사대상인 타겟문서로부터 이미지 객체, 표 객체 또는 도형 객체를 추출하여 비텍스트 영역으로 인식하는 단계; 상기 인식된 비텍스트 영역의 객체 종류에 따라 범주를 분류하는 단계; 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함하며,
상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역과 비교하되, 상기 타겟문서의 비텍스트 영역과 상기 비교문서의 비텍스트 영역 사이의 형태적 유사도 및 내용적 유사도 중 적어도 하나를 비교하는 것을 기재하고 있다.
또한, 등록특허공보 제10-1580784호에서는 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체를 기재하고 있다.
상기 기술은, 서버가 클라이언트 장치로부터 수신된 검사대상 전자문서의 표절률을 산출하는 방법에 있어서, 상기 검사대상 전자문서에 포함된 복수의 문장데이터를 추출하는 단계, 상기 검사대상 전자문서의 종류 또는 문서양식에 대응하여 상기 검사대상 전자문서를 복수의 영역으로 구분하고, 상기 복수의 영역 중 검사조건을 기초로 소정 영역을 검사대상영역으로 결정하는 단계, 상기 복수의 문장데이터 중 상기 검사대상영역에 포함된 문장데이터를 검사대상 문장그룹으로 결정하는 단계, 상기 검사대상 문장그룹에 포함된 제1 문장데이터를 비교대상 전자문서에 포함된 제2 문장데이터와 비교하여 문장유사도를 산출하는 단계 및 복수의 상기 문장유사도를 기초로 상기 검사대상 전자문서의 표절률을 산출하는 단계를 포함하되, 상기 서버는, 추출된 상기 복수의 문장데이터를 상기 서버의 데이터베이스에 학습된 키워드그룹과 비교하여 상기 검사대상 전자문서의 상기 서식영역, 상기 주석영역, 상기 상용구문영역 및 상기 인용구문영역을 포함하는 복수의 영역을 구분하고, 상기 검사조건은, 상기 검사대상 전자문서의 서식영역을 구분하여 상기 검사대상영역에서 제외시키는 제1 검사조건, 상기 검사대상 전자문서의 주석영역을 구분하여 상기 검사대상영역에서 제외시키는 제2 검사조건, 상기 검사대상 전자문서의 상용구문영역을 구분하여 상기 검사대상영역에서 제외시키는 제3 검사조건 및 상기 검사대상 전자문서의 인용구문영역을 구분하여 상기 검사대상영역에서 제외시키는 제4 검사조건 중 하나를 포함한다.
또한, 등록특허공보 제10-1634681호에는 검사문서 내 인용구문 탐색 방법 및 프로그램이 기재되어 있다.
상기 기술에 따른 검사문서 내 인용구문 탐색 방법은, 검사문서 내에 포함된 식별대상을 탐색하는 단계(S100); 상기 식별대상을 바탕으로 인용문서를 결정하는 단계(S200); 및 상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계(S300);를 포함한다.
이에 따르면, 검사문서 내의 주석을 표시하여 인용한 영역이나 별도의 인용표시없이 일반적으로 인용하는 내용에 상응하는 영역이 표절로 판단되는 것을 방지할 수 있어, 표절률 산출의 정확도를 높일 수 있다.
즉, 키워드에 기반하여 표절을 검색하는 기술보다 나아가서, 보다 신뢰성 높은 표절검사를 수행할 수 있는 기술이 필요하다.
등록특허공보 제10-2162711호(2020.09.28. 등록) 등록특허공보 제10-1580784호(2015.12.22. 등록) 등록특허공보 제10-1634681호(2016.06.23. 등록) 등록특허공보 제10-1264151호(2013.05.08. 등록)
본 발명의 목적은, 음절에 기반한 표절구간을 탐색하여 표절률을 산출함으로써, 표절을 확인하고, 확인된 표절의 타당성에 대한 신뢰도를 확률적으로 평가할 수 있도록 함으로써, 표절분석에 대한 정확도를 향상시킬 수 있는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템을 제공하는데 있다.
상술된 목적을 달성하기 위하여 안출된 것으로 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템은,
문서입력을 위한 단말기와; 상기 단말기로부터 입력된 검증대상문서를 비교하여 표절을 분석하는 서버;를 포함하여 구성되되,
상기 서버는, 단말기로부터 검증대상문서를 입력받는 문서입력부와; 상기 문서입력부로부터 입력받은 검증대상문서를 비교하여 분석함으로써 표절을 분석하는 표절분석부;를 포함하여 구성되는 것을 특징으로 한다.
이때, 상기 표절분석부는,
검증대상문서를 이루는 기준문서와 검사문서를 대상으로, 각각 마침표를 기준으로 하여 문장으로 분류하는 기능을 수행하는 문장분류모듈과;
상기 문장분류모듈을 통해 분류된 문장들 각각을, 특수기호와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한 텍스트문장으로 변환하는 기능을 수행하는 온전한텍스트문장 변환모듈과;
상기 온전한텍스트문장 변환모듈을 통해 온전한 텍스트문장으로 변환된 기준문서와 검사문서의 6음절 이상이 겹치는 음절겹침영역을 판단하는 기능을 수행하는 음절겹침영역 판단모듈과;
상기 음절겹침영역 판단모듈을 통해 6음절 이상이 겹치는 문장이 기준문서와 검사문서에서 존재하는 경우, 해당 영역을 표절구간으로 인식하는 기능을 수행하는 표절구간 인식모듈과;
상기 표절구간 인식모듈을 통해 인식된 기준문서와 검사문서 각각의 표절구간 중, 음절수가 더 많은 쪽의 문서를 표절구간으로 확정하여 필터링하는 기능을 수행하는 표절구간 필터링모듈과;
상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하는 기능을 수행하는 표절확정확률 산출모듈;을 포함하는 것을 특징으로 한다.
또한, 상기 표절분석부는,
상기 표절구간 필터링모듈에서 표절구간으로 확정된 기준문서와 검사문서의 문장의 음절수를 합산하는 기능을 수행하는 표절문장 합산모듈과;
상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 표절문장 합산모듈의 합산된 음절수로 나누어 심리적표절확률을 산출하는 심리적표절확률 산출모듈;을 더 포함하는 것을 특징으로 한다.
또한, 상기 표절분석부는,
표절확정확률 산출모듈과 심리적표절확률 산출모듈에 기반하여 표절의 위험을 결과값으로 출력하는 것을 특징으로 한다.
또한, 상기 서버는,
문서입력부를 통해 기준문서와 검사문서로 이루어진 검증대상문서를 입력받은 후, 검증대상문서 상의 문장을 마침표를 기준으로 하여 분류하고, 특수기호(특수문자)와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한텍스트문장으로 변환하며,
이후, 기준문서와 검사문서 상의 온전한텍스트문장을 대상으로 음절겹침영역을 판단한 후, 6음절 이상이 겹치는 문장이 존재하는 경우, 해당 영역을 표절구간으로 인식하고, 인식된 표절구간 중, 음절수가 더 많은 쪽의 문서를 표정구간으로 확정하고 다른 문장으로부터 분리하는 필터링을 수행하며,
필터링된 표절구간의 음절수를, 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하여, 해당 표절구간이 표절일 확률을 분석하고,
이후, 표절구간으로 확정된 기분문서와 검사문서의 문장의 음절수를 합산한 뒤, 표절구간의 음절수를 합산된 음절수로 나누어 표절의 심각도를 의미하는 심리적표절확률을 산출하도록 한 후, 표절의 위험도를 분석하는 것을 특징으로 한다.
본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 의하면,
음절에 기반한 표절구간을 탐색하여 표절률을 산출함으로써, 표절을 확인하고, 확인된 표절의 타당성에 대한 신뢰도를 확률적으로 평가할 수 있도록 함으로써, 표절분석에 대한 정확도를 향상시킬 수 있다.
즉, 종래 키워드에 기반하여 표절여부를 검토하던 기술에 비하여 훨씬 높은 정확도와 신뢰성을 제공할 수 있는 장점이 있다.
도 1은 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템을 나타낸 것이다.
도 2는 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템의 표절분석부의 구성을 블록도로 나타낸 것이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서 본 명세서에 기재된 실시 예와 도면에 도시된 사항은 본 발명의 가장 바람직한 실시 예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
이하, 도면을 참조하여 설명하기에 앞서, 본 발명의 요지를 드러내기 위해서 필요하지 않은 사항 즉 통상의 지식을 가진 당업자가 자명하게 부가할 수 있는 공지 구성에 대해서는 도시하지 않거나, 구체적으로 기술하지 않았음을 밝혀둔다.
본 발명은 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.
구체적으로는, 음절에 기반한 표절구간을 탐색하여 표절률을 산출함으로써, 표절을 확인하고, 확인된 표절의 타당성에 대한 신뢰도를 확률적으로 평가할 수 있도록 함으로써, 표절분석에 대한 정확도를 향상시킬 수 있는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 관한 것이다.
도 1은 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템을 나타낸 것이고, 도 2는 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템의 표절분석부의 구성을 블록도로 나타낸 것이다.
첨부된 도면의 도 1에 따르면, 본 발명의 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템은, 문서입력을 위한 단말기와; 상기 단말기로부터 입력된 검증대상문서를 비교하여 표절을 분석하는 서버;를 포함하여 구성된다.
이때, 검증대상문서란, 베이스가 되는 '기준문서' 및 표절검사 대상이되는 '검사문서'를 포함하는 의미이다.
상기 서버는, 단말기로부터 검증대상문서를 입력받는 문서입력부와; 상기 문서입력부로부터 입력받은 검증대상문서를 비교하여 분석함으로써 표절을 분석하는 표절분석부;를 포함하여 구성된다.
이때, 상기 문서입력부는 종래 스캔, 저장 등 다양한 형태로 문서를 입력받을 수 있으며, 뿐만 아니라 문서의 확장자 역시 종래 통상의 기술자에 의해 구현 가능한 것이라면 어떤 것이든 적용이 가능하다.
상기 표절분석부는 첨부된 도면의 도 2와 같이 문장분류모듈; 온전한텍트스문장 변환모듈; 음절겹침영역 판단모듈; 표절구간 인식모듈; 표절구간 필터링모듈; 표절확정확률 산출모듈; 표절문장 합산모듈; 및 심리적표절확률 산출모듈;을 포함하여 구성된다.
상기 문장분류모듈은, 검증대상문서를 이루는 기준문서와 검사문서를 대상으로, 각각 마침표를 기준으로 하여 문장으로 분류하는 기능을 수행한다.
예컨대, '뼈를 보호하는 역할을 하는 연골은 신경세포가 없어 손상을 알아채기 힘들고 스스로 회복과 재생이 불가능하다. 이미 통증을 느끼는 단계라면 연골 손상이 많이 진행된 상태다.'의 내용에 대하여 마침표(.)를 기준으로 문장으로 분류하여 2개의 문장을 가지고 있음을 분류하는 것이다.
상기 온전한텍스트문장 변환모듈은, 상기 문장분류모듈을 통해 분류된 문장들 각각을, 특수기호와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한 텍스트문장으로 변환하는 기능을 수행한다.
상기 음절겹침영역 판단모듈은, 상기 온전한텍스트문장 변환모듈을 통해 온전한 텍스트문장으로 변환된 기준문서와 검사문서의 음절겹침영역을 판단하는 기능을 수행하되, 구체적으로는 6음절 이상이 겹치는 문장을 판단하도록 한다.
상기 표절구간 인식모듈은, 상기 음절겹침영역 판단모듈을 통해 6음절 이상이 겹치는 문장이 기준문서와 검사문서에서 존재하는 경우, 해당 영역을 표절구간으로 인식하는 기능을 수행한다.
상기 표절구간 필터링모듈은, 상기 표절구간 인식모듈을 통해 인식된 기준문서와 검사문서 각각의 표절구간 중, 음절수가 더 많은 쪽의 문서를 표절구간으로 확정하여 필터링하는 기능을 수행한다.
이때, 필터링의 의미는 제거의 의미가 아니라 문장에서 별도로 분리되도록 함을 의미한다.
또한, 표절구간으로 확정된 구간은 다수 개 일 수도 있다.
상기 표절확정확률 산출모듈은, 상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하는 기능을 수행한다.
이때, 표절구간 필터링모듈을 통해 필터링된 표절구간이 기준문서에서 확정된 경우, 총 음절수는 기준문서의 것으로 하고, 반대로 검사문서에서 표절구간이 확정된 경우, 검사문서의 총 음절수를 대상으로 한다.
여기서, 표절확정확률이란 시스템에 의해 산출된 표절일 확률을 의미한다.
예컨대, 총 음절수가 20개이고, 필터링된 표절구간의 음절수가 7개인 경우, 7 / 20 = 0.35, 즉 35%의 표절확정확률을 산출하는 것이다.
상기 표절문장 합산모듈은, 표절구간으로 확정된 기준문서와 검사문서의 문장의 음절수를 합산하는 기능을 수행한다.
예컨대, 상기 표절확정확률 산출모듈에서 사용된 표절구간의 음절수가 기준문서는 6개이고, 검사문서는 7개인 경우, 총 13개의 음절로 합산하는 것이다.
상기 심리적표절확률 산출모듈은, 상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 표절문장 합산모듈의 합산된 음절수로 나누어 심리적표절확률을 산출하는 기능을 수행한다.
예컨대, 위의 일예에 따르면, 상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수 7을, 상기 표절문장 합산모듈의 합산된 음절수인 13으로 나누어, 0.5384...., 즉 약 54%의 확률인 심리적 표절확률을 산출하는 것이다.
여기서, 심리적표절확률이란 음절에 기반하였을 때 해당 문장이 얼마나 표절되고 있는지 범위를 나타내는 것이다. 즉, 얼마나 표절이 심한가의 확률이다.
또한, 도면에 도시되지 않았지만, 표절분석부는 위 심리적표절확률 산출모듈까지의 결과를 기잔으로, 표절확정확률 및 심리적표절확률에 기반하여 표절의 위험을 결과값으로 출력하는데, 이때 위험의 정도는 설계자의 기준에 따르게 한다.
예컨대, 2개 확률 중 어느 하나라도 50%를 넘어서면 위험으로 도출하고, 30%미만인 경우, 안전으로 도출하는 것이 그 예이다.
정리하여 보면, 본 발명에 따른 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템은 다음의 과정으로 표절분석을 수행한다.
상기 서버는 문서입력부를 통해 기준문서와 검사문서로 이루어진 검증대상문서를 입력받은 후,
검증대상문서 상의 문장을 마침표를 기준으로 하여 분류하고,
특수기호(특수문자)와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한텍스트문장으로 변환한다.
이후, 기준문서와 검사문서 상의 온전한텍스트문장을 대상으로 음절겹침영역을 판단한 후,
6음절 이상이 겹치는 문장이 존재하는 경우, 해당 영역을 표절구간으로 인식하고, 인식된 표절구간 중, 음절수가 더 많은 쪽의 문서를 표정구간으로 확정하고 다른 문장으로부터 분리하는 필터링을 수행한다.
그리고 필터링된 표절구간의 음절수를, 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하여, 해당 표절구간이 표절일 확률을 분석한다.
이후, 표절구간으로 확정된 기분문서와 검사문서의 문장의 음절수를 합산한 뒤, 표절구간의 음절수를 합산된 음절수로 나누어 표절의 심각도를 의미하는 심리적표절확률을 산출하도록 한다.
이러한 산출결과에 기반하여, 서버는 표절의 위험도를 분석할 수 있다.
상기에서 도면을 이용하여 서술한 것은, 본 발명의 주요 사항만을 서술한 것으로, 그 기술적 범위 내에서 다양한 설계가 가능한 만큼, 본 발명이 도면의 구성에 한정되는 것이 아님은 자명하다.

Claims (5)

  1. 문서입력을 위한 단말기와; 상기 단말기로부터 입력된 검증대상문서를 비교하여 표절을 분석하는 서버;를 포함하여 구성되되,
    상기 서버는, 단말기로부터 검증대상문서를 입력받는 문서입력부와; 상기 문서입력부로부터 입력받은 검증대상문서를 비교하여 분석함으로써 표절을 분석하는 표절분석부;를 포함하여 구성되는 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템에 있어서,
    상기 표절분석부는,
    검증대상문서를 이루는 기준문서와 검사문서를 대상으로, 각각 마침표를 기준으로 하여 문장으로 분류하는 기능을 수행하는 문장분류모듈과;
    상기 문장분류모듈을 통해 분류된 문장들 각각을, 특수기호와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한 텍스트문장으로 변환하는 기능을 수행하는 온전한텍스트문장 변환모듈과;
    상기 온전한텍스트문장 변환모듈을 통해 온전한 텍스트문장으로 변환된 기준문서와 검사문서의 6음절 이상이 겹치는 음절겹침영역을 판단하는 기능을 수행하는 음절겹침영역 판단모듈과;
    상기 음절겹침영역 판단모듈을 통해 6음절 이상이 겹치는 문장이 기준문서와 검사문서에서 존재하는 경우, 해당 영역을 표절구간으로 인식하는 기능을 수행하는 표절구간 인식모듈과;
    상기 표절구간 인식모듈을 통해 인식된 기준문서와 검사문서 각각의 표절구간 중, 음절수가 더 많은 쪽의 문서를 표절구간으로 확정하여 필터링하는 기능을 수행하는 표절구간 필터링모듈과;
    상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하는 기능을 수행하는 표절확정확률 산출모듈과;
    상기 표절구간 필터링모듈에서 표절구간으로 확정된 기준문서와 검사문서의 문장의 음절수를 합산하는 기능을 수행하는 표절문장 합산모듈과;
    상기 표절구간 필터링모듈을 통해 필터링된 표절구간의 음절수를, 상기 표절문장 합산모듈의 합산된 음절수로 나누어 심리적표절확률을 산출하는 심리적표절확률 산출모듈;을 포함하되,
    표절확정확률 산출모듈과 심리적표절확률 산출모듈에 기반하여 표절의 위험을 결과값으로 출력하는 것을 특징으로 하는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 청구항 1에 있어서,
    상기 서버는,
    문서입력부를 통해 기준문서와 검사문서로 이루어진 검증대상문서를 입력받은 후, 검증대상문서 상의 문장을 마침표를 기준으로 하여 분류하고, 특수기호(특수문자)와 띄어쓰기를 제거하여 공백과 특수문자가 없는 온전한텍스트문장으로 변환하며,
    이후, 기준문서와 검사문서 상의 온전한텍스트문장을 대상으로 음절겹침영역을 판단한 후, 6음절 이상이 겹치는 문장이 존재하는 경우, 해당 영역을 표절구간으로 인식하고, 인식된 표절구간 중, 음절수가 더 많은 쪽의 문서를 표정구간으로 확정하고 다른 문장으로부터 분리하는 필터링을 수행하며,
    필터링된 표절구간의 음절수를, 온전한텍스트문장 변환모듈을 통해 변환된 검사문서의 총 음절수로 나누어 표절확정확률을 산출하여, 해당 표절구간이 표절일 확률을 분석하고,
    이후, 표절구간으로 확정된 기분문서와 검사문서의 문장의 음절수를 합산한 뒤, 표절구간의 음절수를 합산된 음절수로 나누어 표절의 심각도를 의미하는 심리적표절확률을 산출하도록 한 후, 표절의 위험도를 분석하는 것을 특징으로 하는, 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템.
KR1020210022154A 2021-02-18 2021-02-18 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 KR102297721B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210022154A KR102297721B1 (ko) 2021-02-18 2021-02-18 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210022154A KR102297721B1 (ko) 2021-02-18 2021-02-18 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Publications (1)

Publication Number Publication Date
KR102297721B1 true KR102297721B1 (ko) 2021-09-03

Family

ID=77784901

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210022154A KR102297721B1 (ko) 2021-02-18 2021-02-18 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Country Status (1)

Country Link
KR (1) KR102297721B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR101264151B1 (ko) 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체
KR101580784B1 (ko) 2015-09-04 2015-12-31 주식회사 무하유 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
KR101634681B1 (ko) 2015-09-03 2016-06-29 주식회사 무하유 검사문서 내 인용구문 탐색 방법 및 프로그램
KR102162711B1 (ko) 2018-12-26 2020-10-07 주식회사 무하유 비텍스트 영역의 표절 검사 방법 및 장치
KR102159336B1 (ko) * 2019-08-31 2020-10-14 한화시스템 주식회사 문서 상의 텍스트/이미지 검색 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR101264151B1 (ko) 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체
KR101634681B1 (ko) 2015-09-03 2016-06-29 주식회사 무하유 검사문서 내 인용구문 탐색 방법 및 프로그램
KR101580784B1 (ko) 2015-09-04 2015-12-31 주식회사 무하유 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
KR102162711B1 (ko) 2018-12-26 2020-10-07 주식회사 무하유 비텍스트 영역의 표절 검사 방법 및 장치
KR102159336B1 (ko) * 2019-08-31 2020-10-14 한화시스템 주식회사 문서 상의 텍스트/이미지 검색 장치 및 방법

Similar Documents

Publication Publication Date Title
CN109213870B (zh) 文档处理
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN111639177B (zh) 文本提取方法和装置
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN109902223B (zh) 一种基于多模态信息特征的不良内容过滤方法
Choudhury et al. Figure metadata extraction from digital documents
Mishra et al. FACTIFY: A Multi-Modal Fact Verification Dataset.
US20050251384A1 (en) Word extraction method and system for use in word-breaking
US9251248B2 (en) Using context to extract entities from a document collection
US20040139384A1 (en) Removal of extraneous text from electronic documents
CN110019641B (zh) 一种医疗否定术语的检出方法及系统
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
Wiedemann et al. Page stream segmentation with convolutional neural nets combining textual and visual features
CN113762100A (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
KR102297721B1 (ko) 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템
CN108021595A (zh) 检验知识库三元组的方法及装置
Oudah et al. Person name recognition using the hybrid approach
CN110321557A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN112559679B (zh) 政法新媒体传播力的检测方法、装置、设备及存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Raihani et al. A rich feature-based kernel approach for drug-drug interaction extraction
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant