KR101572021B1 - 검사문서 내 표절영역 표시방법 - Google Patents

검사문서 내 표절영역 표시방법 Download PDF

Info

Publication number
KR101572021B1
KR101572021B1 KR1020150063075A KR20150063075A KR101572021B1 KR 101572021 B1 KR101572021 B1 KR 101572021B1 KR 1020150063075 A KR1020150063075 A KR 1020150063075A KR 20150063075 A KR20150063075 A KR 20150063075A KR 101572021 B1 KR101572021 B1 KR 101572021B1
Authority
KR
South Korea
Prior art keywords
plagiarism
document
character
area
word
Prior art date
Application number
KR1020150063075A
Other languages
English (en)
Inventor
신동호
문민주
Original Assignee
주식회사 무하유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 무하유 filed Critical 주식회사 무하유
Priority to KR1020150063075A priority Critical patent/KR101572021B1/ko
Application granted granted Critical
Publication of KR101572021B1 publication Critical patent/KR101572021B1/ko

Links

Images

Classifications

    • G06F17/21
    • G06F17/218
    • G06F17/2705
    • G06F17/2725

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 검사문서 내 표절영역 표시방법에 관한 것이다.
본 발명의 일실시예에 따른 검사문서 내 표절영역 표시방법은, 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계(S100); 상기 표절의심영역이 위치하는 문서 내 페이지를 인식하고, 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득하는 단계(S110); 상기 오프셋정보를 바탕으로, 제1변환문서 내에서 상기 표절의심영역에 상응하는 추출영역을 탐색하여 제1식별표지를 표시하는 단계(S120); 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계(S130);를 포함한다.
본 발명에 따르면, 이미지 또는 플래시로 변환된 변환문서 내에서 특정한 복수의 문자의 오프셋정보 또는 탐색결과를 활용하여 표절의심영역을 탐색하므로, 표절의심영역의 탐색을 빠르게 수행할 수 있는 효과가 있다.

Description

검사문서 내 표절영역 표시방법 {METHOD FOR DISPLAYING THE PLAGIARIZED REGION IN DOCUMENT}
본 발명은 검사문서 내 표절영역 표시방법에 관한 것으로, 보다 자세하게는 사용자가 검사문서 내의 표절이 의심되는 영역을 용이하게 인식하고, 비교문서의 표절대상에 해당하는 영역과 비교를 용이하게 수행하는 방법에 관한 것이다.
컴퓨터 관련 산업이 비약적인 발전을 이루면서, 과거 필기도구를 이용하여 작성되던 종이문서가 최근 들어 전자문서로 대체되고 있는 추세이다. 전자문서란 컴퓨터 등 정보처리능력을 가진 장치에 의하여 전자적인 형태로 작성되어 송수신되거나 저장된 문서형식의 자료로서 표준화된 것을 일컫는다.
이러한 전자문서는 작성 및 편집이 용이하다. 전자문서는 다양한 경로를 통하여 유통될 수 있다. 특히, 최근 인터넷이 대중화 됨에 따라, 일반인들도 인터넷 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 무분별하게 표절되어 작성되고 있다. 자기소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있으며, 표절 행위는 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜깁기하는 형태로 점점 더 정교화 되고 있다. 짜깁기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.
표절을 하는 사람은 자신의 표절 행위가 밝혀지지 않게 하기 위해 짜깁기를 비롯한 다양한 편집 과정을 거치는데, 그럼에도 불구하고 어떤 문서에서 얼마만큼 표절했는지 찾아내는 기술이 표절검사 기술이다.
또한, 표절 검사를 수행한 후 사용자가 인식할 수 있도록 표절로 의심되는 부분을 표시할 필요가 있다. 기존에는 표절 검사를 수행 한 후 원본문서의 텍스트에 표절 의심 영역으로 판단되는 부분에 특정 태그 삽입하고, 태그가 삽입된 텍스트를 html 형태로 화면에 노출하는 방식을 적용하였다.
기존 방식에 따를 경우, html은 페이지 별로 구분되지 않아, 사용자는 여러 페이지로 구성된 문서의 어느 페이지 또는 특정 페이지의 어느 부분이 표절 의심영역인지 확인하기가 어려운 문제가 있었다. 또한, 표의 셀 내용이 표절의심문장으로 판단되는 경우, 표절의심영역이 문서 내 일반 텍스트인지 표의 특정 셀 내의 텍스트인지 결과화면을 통해 파악하기 어려운 문제가 있었다.
따라서 사용자의 글쓰기 흐름에 부합하며, 사용자에게 특정 문서의 표절 의심 부분을 직관적으로 확인할 수 있는 화면을 제공하여, 표절 검사 결과에 대한 신뢰도를 높일 수 있는, 검사문서 내 표절영역 표시방법을 제공하고자 한다.
또한, 표절의심영역 내 특정한 어절의 오프셋정보나 특정한 어절의 배치순서 및 특정한 어절 사이에 포함된 어절 개수를 이용하여 이미지 또는 플래시로 변환된 문서 내에서 표절의심영역을 빨리 추출하며, 문서상의 추출된 표절의심영역에 식별표지를 표시하여 사용자에게 제공함에 따라 실제 문서로 표절검사 결과를 검토하는 효과를 제공하는, 검사문서 내 표절영역 표시방법을 제공하고자 한다.
본 발명의 일실시예에 따른 검사문서 내 표절영역 표시방법은, 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계; 상기 표절의심영역이 위치하는 문서 내 페이지를 인식하고, 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득하는 단계; 상기 오프셋정보를 바탕으로, 제1변환문서 내에서 상기 표절의심영역에 상응하는 추출영역을 탐색하여 제1식별표지를 표시하는 단계; 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하고, 상기 제1변환문서는 상기 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서이고, 상기 오프셋정보는 상기 인식된 페이지의 처음 또는 끝으로부터 특정 문자의 나열 위치 정보이다.
또한, 상기 제1식별표지 표시단계는, 상기 오프셋정보를 통해 상기 제1변환문서 내 최초탐색문자 및 최종탐색문자를 탐색하는 단계; 상기 탐색문자와 상기 추출문자의 동일여부를 판단하는 단계; 및 상기 탐색문자와 상기 추출문자가 동일하지 않은 경우, 상기 탐색문자와 특정 거리 이내의 인접한 문자 중에서 상기 추출문자와 동일한 문자를 탐색하는 단계;를 포함할 수 있다.
또한, 상기 제1식별표지 표시단계는, 상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자의 일치 여부를 판단하는 단계; 및 상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자 중 어느 하나가 일치하지 않는 경우, 상기 탐색문자로부터 특정 거리 이내에 배치된 문자 중에서 앞 또는 뒤의 문자 배치가 상기 추출문자와 일치하는 문자를 탐색하는 단계;를 포함할 수 있다.
본 발명의 다른 일실시예에 따른 검사문서 내 표절영역 표시방법은, 분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계; 상기 표절의심영역을 어절단위로 분할하여 특정한 추출어절을 추출하는 단계; 상기 표절의심영역이 위치한 특정한 페이지에서 상기 추출어절과 동일한 어절을 탐색하여, 상기 추출어절의 상기 페이지 내 출현순번을 파악하는 단계; 제1변환문서 내의 상기 페이지에서 상기 추출어절과 동일한 복수의 어절에 상기 출현순번을 적용하여, 상기 추출어절에 대응되는 탐색어절을 탐색하는 단계; 상기 탐색어절로부터 상기 표절의심영역의 최초어절 및 최후어절까지의 떨어진 어절 개수를 상기 제1변환문서에 적용하여 추출영역을 탐색하는 단계; 상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계; 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하되, 상기 제1변환문서는 상기 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서이다.
본 발명의 또 다른 일실시예에 따른 검사문서 내 표절영역 표시방법은, 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계; 상기 표절의심영역을 어절단위로 분할하여 최초추출어절 및 최종추출어절을 추출하는 단계; 상기 최초추출어절 및 최종추출어절과 동일한 제1 및 제2어절을 제1변환문서 내에서 탐색하는 단계; 하나 이상의 상기 제1 및 제2어절의 배치순서 또는 중간 어절 개수를 바탕으로, 상기 표절의심영역에 상응하는 추출영역을 탐색하는 단계; 상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계; 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하되, 상기 제1변환문서는 상기 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서이다.
또한, 상기 표절의심영역의 중간어절 중에서 하나 이상의 키워드어절을 추출하는 단계; 및 상기 키워드어절과 동일한 보조어절을 상기 변환문서 내에서 탐색하는 단계;를 더 포함하고, 상기 추출영역 탐색단계는 상기 제1, 제2 및 하나 이상의 보조어절의 배치순서를 통해 상기 추출영역을 탐색하는 것을 특징으로 할 수 있다.
또한, 클라이언트로부터 특정한 상기 추출영역에 대한 선택입력을 수신하는 단계; 및 상기 추출영역에 연결된 상기 비교문서 내의 표절대상영역을 상기 클라이언트로 제공하는 단계;를 더 포함할 수 있다.
또한, 상기 표절대상영역 제공단계는, 상기 비교문서 내 상기 표절대상영역에 제2식별표지를 표시하는 제2변환문서를 생성하여 상기 클라이언트에 제공하며, 상기 제2변환문서는 상기 비교문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서일 수 있다.
또한, 상기 특정한 표절의심영역에 대한 상기 제1식별표지와 상기 특정한 표절의심영역에 대응하는 표절대상영역의 상기 제2식별표지는 동일한 색상의 마크 표시로 생성될 수 있다.
또한, 상기 검사문서와 연결된 상기 비교문서 리스트를 클라이언트로 제공하는 단계; 및 상기 클라이언트로부터 특정한 상기 비교문서를 선택받아, 상기 선택된 비교문서와 관련된 제1식별표지를 표시한 상기 제1변환문서를 상기 클라이언트로 전송하는 단계;를 더 포함할 수 있다.
또한, 상기 표절의심영역과 상기 표절대상영역을 비교하여 분석데이터를 생성하여 제공하는 단계;를 더 포함하되, 상기 분석데이터는 상기 표절대상영역에 대한 상기 표절의심영역의 표절률, 문장구성의 차이점, 추가 또는 제외된 어절 중 적어도 하나 이상을 포함할 수 있다.
또한, 상기 제1식별표지 표시단계는, 상기 표절대상영역과 차이가 나는 상기 추출영역 내의 부분을 차이식별표지로 표시하는 것을 특징으로 할 수 있다.
또한, 상기 검사문서가 다단문서로 작성된 경우, 인접문자간 거리가 특정기준 이내에 해당하는 문자를 특정한 문자그룹으로 구별하고, 상기 문자그룹을 각각의 단으로 판단하는 단계; 및 상기 검사문서 내에 저장된 작성흐름을 바탕으로, 복수의 상기 단의 진행순서를 판단하는 단계;를 더 포함할 수 있다.
상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.
첫째, 원본문서와 동일한 변환문서에 표절이 의심되는 영역을 표시하여, 사용자가 시각적으로 실제 문서 내의 어느 위치의 영역이 표절로 의심되는지 쉽게 확인할 수 있는 효과가 있다.
둘째, 이미지 또는 플래시로 변환된 변환문서 내에서 특정한 복수의 문자의 오프셋정보 또는 어절의 탐색결과를 활용하여 표절의심영역을 탐색하므로, 표절의심영역의 탐색을 빠르게 수행할 수 있는 효과가 있다.
셋째, 표절의심영역에 대응되는 추출영역에 비교문서가 연결되어, 사용자가 표절영역으로 의심되는 비교문서 정보와 비교문서 내의 표절대상영역을 바로 확인할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 오프셋정보를 이용한 검사문서 내 표절영역 표시방법의 순서도이다.
도 2는 본 발명의 일실시예에 따른 최초 및 최종 어절의 탐색을 이용한 검사문서 내 표절영역 표시방법의 순서도이다.
도 3은 본 발명의 일실시예에 따른 특정 페이지 내 특정한 추출어절의 출현순번을 검사문서 내 표절영역 표시방법의 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
본 명세서에서 검사문서는 표절 여부를 파악하는 대상문서를 의미하여, 복수의 비교문서 내 영역들과 비교되어 각 영역의 표절여부 판단 또는 문서의 표절률 산출이 수행되는 문서를 의미한다. 상기 비교문서는 검사문서의 표절여부를 검사하기 위해 이용되는 문서를 의미한다.
본 명세서에서 표절의심영역은 표절검사를 통해 검사문서 내의 비교문서의 특정한 영역을 표절한 것으로 의심되는 영역을 의미한다. 표절대상영역은 표절의심영역이 표절한 것으로 판단되는 비교문서 내의 영역을 의미한다. 추출영역은 이미지 또는 플래시로 변환한 변환문서에서 표절의심영역 또는 표절대상영역으로 판단되어 추출되는 영역을 의미한다.
본 명세서에서 어절은 어절구분자(예를 들어, 공백(또는 띄어쓰기), 작은 따옴표, 콤마 등)에 의해 나누어지는 문장의 구성 단위로, 조사 또는 어미가 결합된 형식뿐만 아니라 조사 또는 어미를 제외한 단어 자체(즉, 용언인 동사 또는 형용사의 어간, 또는 체언인 명사, 대명사, 수사 자체)도 포함한다. 어절구분자는 사람들이 언어적으로 분리하여 인식하도록 하는 모든 구분자를 포함한다. 본 명세서에서 문자(letter 또는 character)는 오프셋 정보를 이용할 수 있는 기본 단위에 해당하며, 각 어절 또는 단어를 구성하는 각각의 글자뿐만 아니라 공백문자, 줄 바꿈 기호, 기타 특수 문자들을 모두 포함할 수 있다. 예를 들어, 예를 들어서 "'D-트레인' 윌리스, 33세에 현역에서 은퇴"라는 문장은 각 글자, 작은 따옴표, 공백문자를 모두 포함하여 총 25개의 문자로 구성되어 있으며, 공백에 의해 "'D-트레인', 윌리스, 33세에, 현역에서, 은퇴"로 총 5개의 어절로 이루어진다.
도 1은 본 발명의 일실시예에 따른 오프셋정보를 이용한 검사문서 내 표절영역 표시방법의 순서도이다. 도 2는 본 발명의 일실시예에 따른 최초 및 최종 어절의 탐색을 이용한 검사문서 내 표절영역 표시방법의 순서도이다. 도 3은 본 발명의 일실시예에 따른 특정 페이지 내 특정한 추출어절의 출현순번을 검사문서 내 표절영역 표시방법의 순서도이다.
이하, 도면을 참조하여 본 발명의 실시예들에 따른 검사문서 내 표절영역 표시방법에 대해 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 오프셋정보를 이용한 검사문서 내 표절영역 표시방법의 순서도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 검사문서 내 표절영역 표시방법은, 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계(S100); 상기 표절의심영역이 위치하는 문서 내 페이지를 인식하고, 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득하는 단계(S110); 상기 오프셋정보를 바탕으로, 제1변환문서 내에서 상기 표절의심영역에 상응하는 추출영역을 탐색하여 제1식별표지를 표시하는 단계(S120); 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계(S130);를 포함한다. 본 발명의 일 실시예에 따른 검사문서 내 표절영역 표시방법을 순서대로 설명한다.
분석서버는 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신한다(S100). 분석서버는 검사문서에 대해서 표절검사를 수행하여 표절의심영역을 획득할 수 있고, 분석서버는 이미 표절검사를 수행하여 분석서버 내에 저장된 표절의심영역을 불러올 수 있다. 또한, 분석서버는 다른 외부서버에 의해 파악된 검사문서 내 표절의심영역을 수신할 수 있다.
상기 표절의심영역이 위치하는 문서 내 페이지를 인식하고, 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득한다(S110). 먼저, 분석서버는 파악한 표절의심영역이 위치한 검사문서 내 페이지를 파악한다. 분석서버는 표절의심영역이 한 페이지 내에 포함되어 있으면 특정 페이지만을 표절의심영역을 파악할 영역으로 판단할 수 있고, 표절의심영역이 복수의 페이지에 이어져서 나타나면 검사문서 내의 페이지 범위를 표절의심영역을 파악할 영역으로 판단할 수 있다. 그 후, 분석서버는 파악된 특정 페이지 또는 페이지 범위에 포함된 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득한다. 상기 오프셋정보는 상기 인식된 페이지의 처음 또는 끝으로부터 특정 문자의 나열 위치 정보이다. 즉, 분석서버는 표절의심영역의 최초추출문자 및 최종추출문자를 특정한 페이지의 첫 문자 또는 마지막 문자로부터 시작하여 몇 번째 문자에 해당하는 지를 파악할 수 있다.
분석서버는 특정한 페이지의 처음과 끝 중에서 어느 부분을 기준으로 위치를 측정할 지를 표절의심영역의 최초추출문자 및 최종추출문자의 특정한 페이지 내의 위치에 따라서 결정할 수 있다. 예를 들어, 표절의심영역의 최초추출문자가 페이지의 중심선으로부터 아래에 위치하거나 페이지의 줄(또는 라인) 수를 기준으로 페이지의 후반부에 위치한 경우 상기 페이지의 끝에서부터 떨어진 문자 수가 더 적으므로, 분석서버는 페이지의 끝을 기준으로 오프셋정보를 획득할 수 있다.
또한, 검사문서의 특정 페이지 또는 전체 페이지가 다단 형식으로 작성되어 있는 경우, 각 단을 별도의 영역으로 파악하여 각 단의 처음과 끝을 기준으로 오프셋정보를 계산할 기준점을 설정할 수 있고, 문자가 위치한 단에 따라 오프셋정보를 계산할 기준점을 설정할 수 있다. 분석서버가 검사문서 내에서 표절의심영역을 정확히 파악하기 위해서, 분석서버가 전자문서 내의 각 단을 식별하고, 검사문서 내 또는 특정 페이지 내의 각 단 사이의 관계를 인식할 필요가 있다.
분석서버가 페이지 내 단 나눔을 인식하는 방식은 다양하게 존재할 수 있다. 전자문서의 작성 흐름과 문자의 위치 변화를 바탕으로 단의 변화를 인식하여 페이지 내 각 단을 인식할 수 있다. 전자문서는 텍스트 및 속성 등을 저장할 때 작성된 순서대로 저장이 된다. 그러므로 분석서버가 작성된 흐름에 따라서 문서를 읽어가는 과정에서 문자의 위치가 갑자기 달라지면(예를 들어, 문자 위치가 다시 문서 페이지 처음의 높이로 이동하는 경우), 단이 변경된 것으로 인식할 수 있다.
또한, 검사문서가 다단 형식으로 구성되는 경우, 각각의 문자간의 거리를 바탕으로 각각의 단에 포함된 문자를 하나의 그룹(또는 클러스터)으로 분류하는 방식을 통해 각 단을 인식할 수 있다. 예를 들어, 검사문서는 각 글자(letter)마다 (left-top-x, left-top-y, right-bottom-x, right-bottom-y, '글자값')을 포함할 수 있다. 분석서버는 특정한 시작문자를 기준으로 인접 문자를 그룹에 포함시키고 특정한 시작문자로부터 인접 문자까지의 거리를 측정할 수 있다. 단 사이의 거리는 글자 간의 평균거리보다 길게 작성되는 점을 바탕으로, 분석서버는 문자그룹 내에 포함된 특정한 문자로부터 특정 기준값(예를 들어, 각각의 문자를 해당 문자그룹에 차례대로 포함시키면서, 문자그룹 내 인접 문자간 거리의 평균값으로 업데이트된 값)에 비해 일정비율이상 떨어져있는 문자를 해당 그룹 내에 포함시키지 않고, 별도의 단에 포함된 문자로 판단할 수 있다. 분석서버는, 다른 단으로 판단된 문자를 기준으로, 특정 단에 포함된 문자그룹을 생성하는 과정을 동일하게 수행할 수 있다. 이를 통해, 서버는 문서 내 각각의 단에 포함된 문자그룹을 형성할 수 있다.
검사문서 내 각각의 단을 구별하여 인식한 후, 분석서버는 검사문서 내 저장된 작성흐름 순서를 바탕으로 인식된 복수의 단의 순서를 인식할 수 있다. 이를 통해, 분석서버는 각각의 단을 순서대로 연결하여 적절한 표절의심영역을 파악할 수 있다.
검사문서 내 각각의 단이 구별되어 순서가 인식되면, 분석서버는 각 단에서 오프셋정보를 파악할 기준점을 설정하여 최초추출문자 및 최종추출문자의 오프셋정보를 획득할 수 있다. 예를 들어, 표절의심영역이 두 개의 단으로 구성된 페이지의 두 개의 단에 걸쳐서 존재하는 경우, 분석서버는 최초추출문자는 좌측 단의 처음 또는 끝으로부터 오프셋정보를 계산하고, 최종추출문자는 우측 단의 처음 또는 끝으로부터 오프셋정보를 계산할 수 있다.
분석서버는 상기 오프셋정보를 바탕으로, 제1변환문서 내에서 상기 표절의심영역에 상응하는 추출영역을 탐색하여 제1식별표지를 표시한다(S120). 상기 제1변환문서는 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서를 의미한다. 웹 어플리케이션 형식은 플래시 형식을 포함할 수 있다. 이미지 방식의 경우에는 텍스트문서를 이미지 파일로 변환한 후 특정한 텍스트(예를 들어, 문자, 단어 또는 어절)을 찾기 위해서 이미지 파일에서 다시 텍스트를 식별하는 과정이 필요하지만, 플래시 형식의 경우에는 플래시 파일 내에 텍스트나 기타 정보객체를 포함할 수 있어서 별도의 텍스트 식별과정이 없이 텍스트 탐색할 수 있다.
즉, 분석서버는 표절의심영역의 최초추출문자 및 최종추출문자의 페이지 정보와 오프셋정보를 바탕으로 제1변환문서 내에서 표절의심영역에 상응하는 영역을 추출한다. 그 후, 분석서버는 제1변환문서 내 추출영역에 제1식별표지를 표시한다. 상기 제1식별표지는 제1변환문서 내 표절의심영역에 상응하는 추출영역을 사용자가 시각적으로 인식할 수 있도록 표시하는 방식으로, 밑줄표시, 글자색상의 차이, 텍스트 강조색상의 표시, 글자 굵기 차이, 글자 기울기 차이 등의 다양한 방식이 해당할 수 있다.
상기 제1식별표지 표시단계(S120)에서, 분석서버는 추출영역(또는 표절의심영역) 내에서 표절검사 수행을 통해 비교문서 내 표절대상영역과 차이가 나는 것으로 판단된 부분을 차이식별표지로 달리 표시할 수 있다. 예를 들어, 표절대상영역과 표절의심영역 사이에 특정한 명사 뒤에 붙은 조사 변경이 있는 경우, 분석서버는 변경된 조사에 차이식별표지를 표시할 수 있다. 상기 차이식별표지는 밑줄표시, 글자색상의 차이, 텍스트 강조색상의 표시, 글자 굵기 차이, 글자 기울기 차이 등의 제1식별표지와 구별할 수 있는 다양한 시각적 표시방식이 해당될 수 있다.
상기 제1식별표지 표시단계(S120)는, 상기 오프셋정보를 통해 상기 제1변환문서 내 최초탐색문자 및 최종탐색문자를 탐색하는 단계; 상기 탐색문자와 상기 추출문자의 동일여부를 판단하는 단계; 및 상기 탐색문자와 상기 추출문자가 동일하지 않은 경우, 상기 탐색문자와 특정 거리 이내의 인접한 문자 중에서 상기 추출문자와 동일한 문자를 탐색하는 단계;를 포함할 수 있다. 분석서버는 상기 오프셋정보를 통해 상기 제1변환문서 내 최초탐색문자 및 최종탐색문자를 탐색할 수 있다. 그 후, 오프셋정보의 오차 또는 오류에 의해 제1변환문서 내 문자가 잘못 탐색되는 것을 방지하기 위해서, 분석서버는 탐색문자와 추출문자의 동일여부를 판단할 수 있다. 즉, 분석서버는 최초탐색문자와 최초추출문자의 동일여부 및 최후탐색문자와 최후추출문자의 동일여부를 판단할 수 있다. 그 후, 상기 탐색문자와 상기 추출문자가 동일하지 않은 경우, 분석서버는 상기 탐색문자와 특정 거리 이내의 인접한 문자 중에서 상기 추출문자와 동일한 문자를 탐색하고, 탐색된 문자를 최초 또는 최후탐색문자로 설정할 수 있다. 이를 통해, 분석서버가 해당 페이지의 처음 또는 마지막으로부터 떨어진 문자 수를 파악하는데 있어서 발생하는 오차를 보완할 수 있어서, 표절의심영역을 잘못 표시함에 따라 사용자들의 표절분석 서비스에 대한 신뢰가 떨어지는 것을 방지할 수 있다.
또한, 상기 제1식별표지 표시단계(S120)는, 상기 제1식별표지 표시단계는, 상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자의 일치 여부를 판단하는 단계; 및 상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자 중 어느 하나가 일치하지 않는 경우, 상기 탐색문자로부터 특정 거리 이내에 배치된 문자 중에서 앞 또는 뒤의 문자 배치가 상기 추출문자와 일치하는 문자를 탐색하는 단계;를 포함할 수 있다. 즉, 오프셋정보에 따라 탐색된 문자가 추출문자와 외관상으로 문자 자체는 동일하지만, 앞뒤에 배치된 문자가 상이한 실질적으로 다른 문자일 수 있다. 따라서 탐색문자의 앞 또는 뒤에 배치된 문자가 추출문자의 앞 또는 뒤에 배치된 문자와 동일한지 여부를 파악할 필요가 있다. 그 후, 상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자 중 어느 하나가 일치하지 않으면, 인접한 거리에 위치한 문자 중에서도 문자 배치가 동일한 새로운 탐색문자를 탐색할 수 있다.
상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결한다(S130). 즉, 분석서버는 검사문서 내의 표절의심영역(또는 제1변환문서 내의 추출영역)에 대응하는 표절대상영역을 포함하는 비교문서 정보를 획득하여 연결할 수 있다. 상기 표절대상영역은 분석서버 또는 외부서버의 표절검사 수행한 결과에서 검사문서의 특정한 영역이 표절한 것으로 판단된 비교문서 내 영역을 의미한다. 분석서버가 검사문서 내 특정한 표절의심영역에 대응하는 복수의 표절대상영역을 파악한 경우, 분석서버는 특정한 표절의심영역에 복수의 비교문서를 연결할 수 있다. 또한, 분석서버는 비교문서 내의 표절대상영역이 포함된 페이지 또는 표절대상영역이 포함된 문단부분으로 연결되도록 설정할 수 있다.
또한, 클라이언트로부터 특정한 상기 추출영역에 대한 선택입력을 수신하는 단계; 및 상기 추출영역에 연결된 상기 비교문서 내의 표절대상영역을 상기 클라이언트로 제공하는 단계;를 더 포함할 수 있다. 즉, 클라이언트는 사용자로부터 디스플레이에 표시된 제1변환문서 내의 특정한 추출영역을 선택하는 입력을 획득하고, 분석서버는 선택된 추출영역 데이터를 클라이언트로부터 수신할 수 있다. 클라이언트가 터치스크린을 구비한 디바이스인 경우, 클라이언트는 사용자로부터 화면상의 제1변환문서 내 특정한 추출영역 부분을 선택하는 터치입력을 획득할 수 있다. 클라이언트가 마우스와 같은 입력장치를 사용하는 디바이스인 경우, 클라이언트는 사용자로부터 특정한 추출영역 영역에 대한 클릭 또는 특정한 추출영역 영역 위의 마우스 오버를 통해 선택입력을 획득할 수 있다. 그 후, 분석서버는 선택된 추출영역에 연결된 비교문서를 파악하고, 비교문서 내의 추출영역(또는 표절의심영역)에 대응하는 표절대상영역을 탐색하여 클라이언트로 제공할 수 있다. 클라이언트는 분석서버로부터 표절대상영역을 수신하여 사용자가 표절의심영역과 동일한 추출영역과 표절대상영역을 비교할 수 있도록 화면상에 표시할 수 있다. 또한, 마우스 오버 방식과 같이, 실시간으로 요청되는 추출영역(또는 표절의심영역)이 달라지는 경우, 분석서버는 요청되는 추출영역에 대응하는 비교문서 내 표절대상영역을 실시간으로 제공할 수 있다.
또한, 상기 표절대상영역 제공단계는, 상기 비교문서 내 상기 표절대상영역에 제2식별표지를 표시하는 제2변환문서를 생성하여 상기 클라이언트에 제공할 수 있다. 상기 제2변환문서는, 상기 비교문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서일 수 있다. 즉, 분석서버는 사용자가 클라이언트의 화면을 통해 검사문서와 비교문서를 원본과 동일한 이미지 또는 플래시를 이용하여 비교할 수 있도록, 비교문서를 제2변환문서를 생성하여 클라이언트에 제공할 수 있다.
또한, 분석서버는 상기 특정한 표절의심영역에 대한 상기 제1식별표지와 상기 특정한 표절의심영역에 대응하는 표절대상영역의 상기 제2식별표지는 동일한 색상의 마크 표시로 생성될 수 있다. 즉, 분석서버는 제1변환문서 내의 표절의심영역과 제2변환문서 내의 표절대상영역에 동일한 식별표지를 표시하여 클라이언트에 제공하여, 사용자가 원본과 동일한 제1변환문서와 제2변환문서 내에서 상호 대응되는 부분을 시각적으로 확인 및 비교할 수 있다.
또한, 상기 검사문서와 연결된 상기 비교문서 리스트를 클라이언트로 제공하는 단계; 및 상기 클라이언트로부터 특정한 상기 비교문서를 선택받아, 상기 선택된 비교문서와 관련된 제1식별표지를 표시한 상기 제1변환문서를 상기 클라이언트로 전송하는 단계;를 더 포함할 수 있다. 즉, 사용자는 특정한 비교문서를 표절한 것으로 의심되는 원본문서 내 영역만을 추출하여 확인하기를 원할 수 있다. 이를 위해, 분석서버는 사용자로부터 특정한 비교문서를 선택받기 위해서 검사문서와 연결된 비교문서 리스트를 클라이언트로 제공할 수 있다. 그 후, 분석서버는 클라이언트로부터 선택받은 특정한 비교문서와 관련된(즉, 선택된 비교문서의 영역들을 표절한 것으로 의심되는) 추출영역에 제1식별표지를 표시한 제1변환문서를 생성하고, 상기 클라이언트로 제1변환문서를 전송할 수 있다.
또한, 분석서버가 상기 표절의심영역과 상기 표절대상영역을 비교하여 분석데이터를 생성하여 제공하는 단계;를 더 포함할 수 있다. 상기 분석데이터는, 상기 표절대상영역에 대한 상기 표절의심영역의 표절률, 문장구성의 차이점, 추가 또는 제외된 문자 등을 포함할 수 있다. 분석서버는 표절검사를 통해 파악된 분석데이터를 제1변환문서 내에 함께 포함하여 생성하여 제공할 수 있다. 예를 들어, 사용자가 특정한 표절의심영역을 선택하는 경우, 팝업을 통해 표절대상영역과의 문장구성의 차이점 또는 표절률을 표시하도록 각각의 표절의심영역에 메타데이터를 연결할 수 있다. 도 2는 본 발명의 일실시예에 따른 최초 및 최종 어절의 탐색을 이용한 검사문서 내 표절영역 표시방법의 순서도이다.
도 2를 참조하면, 본 발명의 다른 일실시예에 따른 검사문서 내 표절영역 표시방법은, 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계(S200); 상기 표절의심영역을 어절단위로 분할하여 최초추출어절 및 최종추출어절을 추출하는 단계(S210); 상기 최초추출어절 및 최종추출어절과 동일한 제1 및 제2어절을 제1변환문서 내에서 탐색하는 단계(S220); 하나 이상의 상기 제1 및 제2어절의 배치순서 또는 중간 어절 개수를 바탕으로, 상기 표절의심영역에 상응하는 추출영역을 탐색하는 단계(S230); 상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계(S240); 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계(S250);를 포함한다. 본 발명의 일 실시예에 따른 검사문서 내 표절영역 표시방법을 순서대로 설명한다. 이하, 기 설명된 단계에 대해서는 구체적인 설명을 생략한다.
표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신한다(S200; S100과 동일).
상기 표절의심영역을 어절단위로 분할하여 최초추출어절 및 최종추출어절을 추출한다(S210). 분석서버는 표절의심영역으로 판단된 영역을 어절단위로 분할하여 해당 영역의 첫 어절을 최초추출어절로, 해당 영역의 마지막 어절을 최종추출어절로 설정할 수 있다.
분석서버는 최초추출어절 및 최종추출어절과 동일한 제1 및 제2어절을 제1변환문서 내에서 탐색한다(S220). 분석서버는 제1변환문서 내에서 설정된 최초추출어절과 최종추출어절에 상응하는 복수의 제1 및 제2어절을 모두 탐색하여 추출한다. 상기 제1변환문서는 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서를 의미한다.
하나 이상의 상기 제1 및 제2어절의 배치순서 또는 중간 어절 개수를 바탕으로, 상기 표절의심영역에 상응하는 추출영역을 탐색한다(S230). 즉, 분석서버가 표절의심영역의 분할된 어절 개수를 통해 파악된 제1어절과 제2어절 사이의 중간어절 개수 및 제1어절과 제2어절의 배치순서를 반영하여 적합한 영역을 파악하여 추출영역으로 추출할 수 있다.
분석서버가 상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시한다(S240; S120과 동일).
상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결한다(S250; S130과 동일).
또한, 분석서버는 검사문서 내에서 표절의심영역을 정확히 파악하기 위해서, 분석서버가 전자문서 내의 각 단을 식별하고, 검사문서 내 또는 특정 페이지 내의 각 단 사이의 관계 또는 각 단의 순서를 인식할 수 있다.
또한, 본 발명의 일실시예는 상기 표절의심영역의 중간어절 중에서 하나 이상의 키워드어절을 추출하는 단계; 및 상기 키워드어절과 동일한 보조어절을 상기 변환문서 내에서 탐색하는 단계;를 더 포함할 수 있다. 분석서버가 표절의심영역의 최초추출어절과 최종추출어절만을 활용하여 제1변환문서 내에서 탐색을 수행할 경우, 복수의 제1변환문서 내 영역이 탐색될 가능성이 높다. 따라서 분석서버는 표절의심영역의 분할된 어절(즉, 표절의심영역의 제1어절과 제2어절 사이에 위치한 중간어절) 중에서 표절의심영역을 다른 영역과 구별할만한 적절한 키워드어절을 하나 이상 추출할 수 있다. 분석서버는 제1 및 제2어절의 추출과 같이, 추출된 키워드어절과 동일한 제1변환문서 내 보조어절을 모두 탐색하여 추출할 수 있다.
분석서버가 키워드어절을 추출하는 방법으로 검사문서 내에 어절의 등장횟수가 적은 표절의심영역 내 특정한 어절을 추출할 수 있다. 예를 들어, 분석서버는 표절의심영역 내의 전문용어로 판단되는 어절을 키워드어절로 추출할 수 있다. 다만, 키워드어절 추출 방식은 이에 한정되지 아니하고, 제1변환문서에서 표절의심영역을 추출하는 속도를 높일 수 있는 다양한 기준에 따라 키워드어절을 추출할 수 있다.
또한, 상기 추출영역 탐색단계(S230)는, 상기 제1, 제2 및 하나 이상의 보조어절의 배치순서를 통해 상기 추출영역을 탐색할 수 있다. 즉, 분석서버가 탐색된 전체 제1, 제2, 및 보조어절의 위치를 바탕으로 제1어절, 제2어절 및 하나 이상의 보조어절의 배치순서에 부합하는 영역을 파악하여 추출영역으로 추출할 수 있다.
또한, 상기 추출영역 탐색단계(S230)는, 제1, 제2 및 하나 이상의 보조어절 사이의 어절개수를 반영하여 추출영역을 탐색할 수 있다. 즉, 분석서버는 표절의심영역의 분할된 어절 개수를 통해 파악된 제1어절, 보조어절 및 제2어절 사이의 중간어절 개수를 반영하여 추출영역을 탐색할 수 있다.
또한, 클라이언트로부터 특정한 상기 추출영역에 대한 선택입력을 수신하는 단계; 및 상기 추출영역에 연결된 상기 비교문서 내의 표절대상영역을 상기 클라이언트로 제공하는 단계;를 더 포함할 수 있다.
또한, 상기 표절대상영역 제공단계는, 상기 비교문서 내 상기 표절대상영역에 제2식별표지를 표시하는 제2변환문서를 생성하여 상기 클라이언트에 제공하며, 상기 제2변환문서는, 상기 비교문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서일 수 있다.
또한, 상기 특정한 표절의심영역에 대한 상기 제1식별표지와 상기 특정한 표절의심영역에 대응하는 표절대상영역의 상기 제2식별표지는 동일한 색상의 마크 표시로 생성될 수 있다.
또한, 상기 검사문서와 연결된 상기 비교문서 리스트를 클라이언트로 제공하는 단계; 및 상기 클라이언트로부터 특정한 상기 비교문서를 선택받아, 상기 선택된 비교문서와 관련된 제1식별표지를 표시한 상기 제1변환문서를 상기 클라이언트로 전송하는 단계;를 더 포함할 수 있다.
또한, 상기 표절의심영역과 상기 표절대상영역을 비교하여 분석데이터를 생성하여 제공하는 단계;를 더 포함하되, 상기 분석데이터는, 상기 표절대상영역에 대한 상기 표절의심영역의 표절률, 문장구성의 차이점, 추가 또는 제외된 어절 중 적어도 하나 이상을 포함할 수 있다.도 3은 본 발명의 일실시예에 따른 특정 페이지 내 특정한 추출어절의 출현순번을 검사문서 내 표절영역 표시방법의 순서도이다.
도 3을 참조하면, 본 발명의 다른 일실시예에 따른 검사문서 내 표절영역 표시방법은,
본 발명의 다른 일실시예에 따른 검사문서 내 표절영역 표시방법은, 분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계(S300); 상기 표절의심영역을 어절단위로 분할하여 특정한 추출어절을 추출하는 단계(S310); 상기 표절의심영역이 위치한 특정한 페이지에서 상기 추출어절과 동일한 어절을 탐색하여, 상기 추출어절의 상기 페이지 내 출현순번을 파악하는 단계(S320); 제1변환문서 내의 상기 페이지에서 상기 추출어절과 동일한 복수의 어절에 상기 출현순번을 적용하여, 상기 추출어절에 대응되는 탐색어절을 탐색하는 단계(S330); 상기 탐색어절로부터 상기 표절의심영역의 최초어절 및 최후어절까지의 떨어진 어절 개수를 상기 제1변환문서에 적용하여 추출영역을 탐색하는 단계(S340); 상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계(S350); 및 상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계(S360);를 포함한다. 본 발명의 일 실시예에 따른 검사문서 내 표절영역 표시방법을 순서대로 설명한다. 이하, 기 설명된 단계에 대해서는 구체적인 설명을 생략한다.
분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신한다(S300; S100과 동일).
분석서버가 표절의심영역을 어절단위로 분할하여 특정한 추출어절을 추출한다(S310). 즉, 분석서버는 표절의심영역을 어절단위로 분할하고, 분할된 어절 중에서 특정 어절을 추출할 수 있다. 예를 들어, "한편 루마니아 부쿠레슈티 월드컵에서 왼쪽 발목을 다친 손연재는 귀국 이후 리듬체조 국가대표 선발전을 준비하고 있다." 가 표절의심문장에 해당할 때, 분석서버는 상기 표절의심영역 내의 '한편'을 특정한 추출어절로 선택할 수 있다.
상기 표절의심영역이 위치한 특정한 페이지에서 상기 추출어절과 동일한 어절을 탐색하여, 추출어절의 상기 페이지 내 출현순번을 파악한다(S320). 즉, 분석서버는 표절의심영역이 포함된 검사문서 내 페이지에서 추출어절과 동일한 어절이 등장하는 출현 횟수를 파악하고, 추출어절이 상기 출현횟수 중에서 몇 번째에 해당하는 지 상기 페이지 내 출현순번을 파악할 수 있다. 예를 들어, 분석서버는 '한편'이 표절의심영역이 포함된 페이지에서 3번 출현하고 표절의심영역의 '한편'은 2번째 출현순번에 해당함을 파악할 수 있다.
분석서버는 제1변환문서 내의 상기 페이지에서 상기 추출어절과 동일한 복수의 어절에 상기 출현순번을 적용하여, 상기 추출어절에 대응되는 탐색어절을 탐색한다(S330). 상기 제1변환문서는 검사문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서를 의미한다. 탐색어절은 검사문서 내의 추출어절에 대응되는 제1변환문서 내의 어절을 의미한다. 따라서, 분석서버는 추출어절이 위치하는 검사문서의 특정한 페이지와 일치하는 제1변환문서의 특정한 페이지 내에 존재하는 탐색어절후보군(즉, 추출어절과 동일한 어절들)에 상기 출현순번을 적용하여 탐색어절을 찾을 수 있다.
분석서버는 탐색어절로부터 상기 표절의심영역의 최초어절 및 최후어절까지의 떨어진 어절 개수를 상기 제1변환문서에 적용하여 추출영역을 탐색한다(S340). 즉, 분석서버는 검사문서에서 파악된 추출어절로부터 최초어절까지 떨어진 어절 개수 및 최후어절까지 떨어진 어절 개수를 변환문서에 적용하여 추출영역을 탐색한다. 추출어절이 표절의심영역의 최초어절 또는 최후어절인 경우, 분석서버는 표절의심영역의 총 어절 수를 인식하여 추출어절을 기준으로 표절의심영역에 상응하는 추출영역을 탐색할 수 있다.
상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시한다(S350; S120과 동일).
상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결한다(S360; S130과 동일).
또한, 분석서버는 검사문서 내에서 표절의심영역을 정확히 파악하기 위해서, 분석서버가 전자문서 내의 각 단을 식별하고, 검사문서 내 또는 특정 페이지 내의 각 단 사이의 관계 또는 각 단의 순서를 인식할 수 있다.
또한, 클라이언트로부터 특정한 상기 추출영역에 대한 선택입력을 수신하는 단계; 및 상기 추출영역에 연결된 상기 비교문서 내의 표절대상영역을 상기 클라이언트로 제공하는 단계;를 더 포함할 수 있다.
또한, 상기 표절대상영역 제공단계는, 상기 비교문서 내 상기 표절대상영역에 제2식별표지를 표시하는 제2변환문서를 생성하여 상기 클라이언트에 제공하며, 상기 제2변환문서는, 상기 비교문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서일 수 있다.
또한, 상기 특정한 표절의심영역에 대한 상기 제1식별표지와 상기 특정한 표절의심영역에 대응하는 표절대상영역의 상기 제2식별표지는 동일한 색상의 마크 표시로 생성될 수 있다.
또한, 상기 검사문서와 연결된 상기 비교문서 리스트를 클라이언트로 제공하는 단계; 및 상기 클라이언트로부터 특정한 상기 비교문서를 선택받아, 상기 선택된 비교문서와 관련된 제1식별표지를 표시한 상기 제1변환문서를 상기 클라이언트로 전송하는 단계;를 더 포함할 수 있다.
또한, 상기 표절의심영역과 상기 표절대상영역을 비교하여 분석데이터를 생성하여 제공하는 단계;를 더 포함하되, 상기 분석데이터는, 상기 표절대상영역에 대한 상기 표절의심영역의 표절률, 문장구성의 차이점, 추가 또는 제외된 어절 중 적어도 하나 이상을 포함할 수 있다.
상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.
첫째, 원본문서와 동일한 변환문서에 표절이 의심되는 영역을 표시하여, 사용자가 시각적으로 실제 문서 내의 어느 위치의 영역이 표절로 의심되는지 쉽게 확인할 수 있는 효과가 있다.
둘째, 이미지 또는 플래시로 변환된 변환문서 내에서 오프셋정보 또는 특정한 복수의 어절의 탐색결과를 활용하여 표절의심영역을 탐색하므로, 표절의심영역의 탐색을 빠르게 수행할 수 있는 효과가 있다.
셋째, 표절의심영역에 대응되는 추출영역에 비교문서가 연결되어, 사용자가 표절영역으로 의심되는 비교문서 정보와 비교문서 내의 표절대상영역을 바로 확인할 수 있는 효과가 있다.
넷째, 문서 내에 존재하는 어절 또는 문자 자체를 찾아서 변환문서 내의 추출영역 탐색을 수행하므로, 추출영역에 해당하는 텍스트에 해당하는 정확한 위치에 식별표지를 표시할 수 있다. 이를 통해, 사용자가 표절의심영역을 확인하는데 있어서 혼동이 발생하지 않으며, 식별이 쉽게 되는 장점이 있다.
다섯째, 문서가 다단 방식으로 되어 있는 경우, 문서 내 텍스트의 진행 순서를 활용하여 정확하게 변환문서 내에서 표절의심영역과 동일한 영역을 찾아낼 수 있는 효과가 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (13)

  1. 분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계;
    상기 표절의심영역이 위치하는 문서 내 페이지를 인식하고, 상기 표절의심영역의 최초추출문자 및 최종추출문자의 오프셋정보를 획득하는 단계;
    상기 오프셋정보를 바탕으로, 제1변환문서 내에서 상기 표절의심영역에 상응하는 추출영역을 탐색하는 단계로서, 상기 제1변환문서는 상기 검사문서 원본과 동일한 내용을 전부 포함하는 것인, 추출영역 탐색단계;
    상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계로서, 상기 제1식별표지에 의해 상기 제1변환문서 내에 상기 표절의심영역이 표시되는 것인, 표시단계; 및
    상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하고,
    상기 오프셋정보는 상기 인식된 페이지의 처음 또는 끝으로부터 특정 문자의 나열 위치 정보인, 검사문서 내 표절영역 표시방법.
  2. 제1항에 있어서,
    상기 추출영역 탐색단계는,
    상기 오프셋정보를 통해 상기 제1변환문서 내 최초탐색문자 및 최종탐색문자를 탐색하는 단계;
    탐색문자와 추출문자의 동일여부를 판단하는 단계; 및
    상기 탐색문자와 상기 추출문자가 동일하지 않은 경우, 상기 탐색문자와 특정 거리 이내의 인접한 문자 중에서 상기 추출문자와 동일한 문자를 탐색하는 단계;를 포함하며,
    상기 탐색문자는 최초탐색문자 및 최종탐색문자를 포함하고, 상기 추출문자는 최초추출문자 및 최종추출문자를 포함하는, 검사문서 내 표절영역 표시방법.
  3. 제1항에 있어서,
    상기 추출영역 탐색단계는,
    상기 오프셋정보를 통해 상기 제1변환문서 내 최초탐색문자 및 최종탐색문자를 탐색하는 단계;
    탐색문자와 추출문자의 앞 또는 뒤에 배치된 문자의 일치 여부를 판단하는 단계; 및
    상기 탐색문자와 상기 추출문자의 앞 또는 뒤에 배치된 문자 중 하나 이상이 일치하지 않는 경우, 상기 탐색문자로부터 특정 거리 이내에 배치된 문자 중에서 앞 또는 뒤의 문자 배치가 상기 추출문자와 일치하는 문자를 탐색하는 단계;를 포함하며,
    상기 탐색문자는 최초탐색문자 및 최종탐색문자를 포함하고, 상기 추출문자는 최초추출문자 및 최종추출문자를 포함하는, 검사문서 내 표절영역 표시방법.
  4. 분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계;
    상기 표절의심영역을 어절단위로 분할하여 최초추출어절 및 최종추출어절을 추출하는 단계;
    상기 최초추출어절 및 상기 최종추출어절과 동일한 제1어절 및 제2어절을 제1변환문서 내에서 탐색하는단계로서, 상기 제1변환문서는 상기 검사문서 원본과 동일한 내용을 전부 포함하는 것인, 표시단계;
    하나 이상의 상기 제1어절 및 상기 제2어절의 배치순서 또는 중간 어절 개수를 바탕으로, 상기제1변환문서에서상기표절의심영역에상응하는추출영역을탐색하는단계;
    상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계로서, 상기 제1식별표지에 의해 상기 제1변환문서 내에 상기 표절의심영역이 표시되는 것인, 표시단계; 및
    상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하는, 검사문서 내 표절영역 표시방법.
  5. 제4항에 있어서,
    상기 표절의심영역의 중간어절 중에서 하나 이상의 키워드어절을 추출하는 단계; 및
    상기 키워드어절과 동일한 보조어절을 상기 제1변환문서 내에서 탐색하는 단계;를 더 포함하고,
    상기 추출영역 탐색단계는,
    상기 제1어절, 상기 제2어절 및 하나 이상의 상기 보조어절의 배치순서를 통해 상기 추출영역을 탐색하는 것을 특징으로 하는, 검사문서 내 표절영역 표시방법.
  6. 분석서버가 표절 검사를 통해 파악된 검사문서 내 표절의심영역을 수신하는 단계;
    상기 표절의심영역을 어절단위로 분할하여 특정한 추출어절을 추출하는 단계;
    검사대상 페이지에서 상기 추출어절과 동일한 어절을 탐색하여, 상기 추출어절의 상기 페이지 내 출현순번을 파악하되, 상기 검사대상 페이지는 상기 검사문서 내의 상기 표절의심영역이 위치한 페이지인, 단계;
    상기 검사대상 페이지와 일치하는, 제1변환문서 내의 탐색대상 페이지에서 상기 추출어절과 동일한 하나 이상의 어절을 추출하고, 상기 하나 이상의 어절 중에서 상기 추출어절에 대응되는 탐색어절을 상기 출현순번을 바탕으로 탐색하되, 상기 제1변환문서는 상기 검사문서 원본과 동일한 내용을 전부 포함하는 것인, 단계;
    상기 탐색어절로부터 상기 표절의심영역의 최초어절 및 최후어절까지의 떨어진 어절 개수를 상기 제1변환문서에 적용하여 추출영역을 탐색하는 단계;
    상기 제1변환문서 내 상기 추출영역에 제1식별표지를 표시하는 단계로서, 상기 제1식별표지에 의해 상기 제1변환문서 내에 상기 표절의심영역이 표시되는 것인, 표시단계; 및
    상기 추출영역에 대응되는 표절대상영역을 포함하는 비교문서를 연결하는 단계;를 포함하는, 검사문서 내 표절영역 표시방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    클라이언트로부터 특정한 상기 추출영역에 대한 선택입력을 수신하는 단계; 및
    상기 추출영역에 연결된 상기 비교문서 내의 상기 표절대상영역을 상기 클라이언트로 제공하는 단계;를 더 포함하는, 검사문서 내 표절영역 표시방법.
  8. 제7항에 있어서,
    상기 표절대상영역 제공단계는,
    상기 비교문서 내 상기 표절대상영역에 제2식별표지를 표시하는 제2변환문서를 생성하여 상기 클라이언트에 제공하며,
    상기 제2변환문서는, 상기 비교문서를 이미지 형식 또는 웹 어플리케이션 형식으로 생성한 문서인, 검사문서 내 표절영역 표시방법.
  9. 제8항에 있어서,
    상기 특정한 표절의심영역에 대한 상기 제1식별표지와 상기 특정한 표절의심영역에 대응하는 표절대상영역의 상기 제2식별표지는 동일한 색상의 마크 표시로 생성되는, 검사문서 내 표절영역 표시방법.
  10. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 검사문서와 연결된 상기 비교문서 리스트를 클라이언트로 제공하는 단계; 및
    상기 클라이언트로부터 특정한 상기 비교문서를 선택받아, 상기 선택된 비교문서와 관련된 제1식별표지를 표시한 상기 제1변환문서를 상기 클라이언트로 전송하는 단계;를 더 포함하는, 검사문서 내 표절영역 표시방법.
  11. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 표절의심영역과 상기 표절대상영역을 비교하여 분석데이터를 생성하여 제공하는 단계;를 더 포함하되,
    상기 분석데이터는, 상기 표절대상영역에 대한 상기 표절의심영역의 표절률, 문장구성의 차이점, 추가 또는 제외된 어절 중 적어도 하나 이상을 포함하는, 검사문서 내 표절영역 표시방법.
  12. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제1식별표지 표시단계는,
    상기 표절대상영역과 차이가 나는 상기 추출영역 내의 부분을 차이식별표지로 표시하는 것을 특징으로 하는, 검사문서 내 표절영역 표시방법.
  13. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 검사문서가 다단문서로 작성된 경우,
    인접문자간 거리가 특정기준 이내에 해당하는 문자를 특정한 문자그룹으로 구별하고, 상기 문자그룹을 각각의 단으로 판단하는 단계; 및
    상기 검사문서 내에 저장된 작성흐름을 바탕으로, 복수의 상기 단의 진행순서를 판단하는 단계;를 더 포함하는, 검사문서 내 표절영역 표시방법.
KR1020150063075A 2015-05-06 2015-05-06 검사문서 내 표절영역 표시방법 KR101572021B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150063075A KR101572021B1 (ko) 2015-05-06 2015-05-06 검사문서 내 표절영역 표시방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150063075A KR101572021B1 (ko) 2015-05-06 2015-05-06 검사문서 내 표절영역 표시방법

Publications (1)

Publication Number Publication Date
KR101572021B1 true KR101572021B1 (ko) 2015-11-25

Family

ID=54845828

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150063075A KR101572021B1 (ko) 2015-05-06 2015-05-06 검사문서 내 표절영역 표시방법

Country Status (1)

Country Link
KR (1) KR101572021B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240013650A (ko) 2022-07-22 2024-01-30 주식회사 투비유니콘 전자기록물 검증 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
네이버 블로그(http://blog.naver.com/minearmy21/220168695276, 2014.11.01. 공개)*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240013650A (ko) 2022-07-22 2024-01-30 주식회사 투비유니콘 전자기록물 검증 시스템

Similar Documents

Publication Publication Date Title
CN107122400B (zh) 使用视觉提示细化查询结果的方法、计算系统及存储介质
US10198506B2 (en) System and method of sentiment data generation
US9483460B2 (en) Automated formation of specialized dictionaries
US7937338B2 (en) System and method for identifying document structure and associated metainformation
Barrón-Cedeño On the mono-and cross-language detection of text reuse and plagiarism
WO2011105607A1 (ja) 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
US20180004838A1 (en) System and method for language sensitive contextual searching
JP2007226792A (ja) 目次抽出におけるロバスト性向上
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
US10311113B2 (en) System and method of sentiment data use
WO2008070750A1 (en) Web-based collocation error proofing
CN110716991B (zh) 基于电子书的实体关联信息的展示方法及电子设备
AU2018226399A1 (en) Detecting style breaches in multi-author content or collaborative writing
JP2006190006A (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
US8782049B2 (en) Keyword presenting device
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
WO2013146394A1 (en) Information processing terminal and method, and information management apparatus and method
JP2017091000A (ja) 文書処理装置、方法、およびプログラム
Cucerzan MSR System for Entity Linking at TAC 2012.
KR20130017247A (ko) 검색 대상의 타입을 인터렉티브하게 표시하는 검색 서비스 제공 방법 및 장치
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
KR101565367B1 (ko) 숫자정규화를 이용한 문서 표절률 산출 방법
KR101572021B1 (ko) 검사문서 내 표절영역 표시방법
US20170293683A1 (en) Method and system for providing contextual information
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190910

Year of fee payment: 5