KR20110123368A - 통합뷰어를 활용한 표절검사 시스템 - Google Patents

통합뷰어를 활용한 표절검사 시스템 Download PDF

Info

Publication number
KR20110123368A
KR20110123368A KR1020100042807A KR20100042807A KR20110123368A KR 20110123368 A KR20110123368 A KR 20110123368A KR 1020100042807 A KR1020100042807 A KR 1020100042807A KR 20100042807 A KR20100042807 A KR 20100042807A KR 20110123368 A KR20110123368 A KR 20110123368A
Authority
KR
South Korea
Prior art keywords
electronic document
plagiarism
file
document
text
Prior art date
Application number
KR1020100042807A
Other languages
English (en)
Other versions
KR101115003B1 (ko
Inventor
주용호
Original Assignee
(주)휴먼토크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)휴먼토크 filed Critical (주)휴먼토크
Priority to KR1020100042807A priority Critical patent/KR101115003B1/ko
Publication of KR20110123368A publication Critical patent/KR20110123368A/ko
Application granted granted Critical
Publication of KR101115003B1 publication Critical patent/KR101115003B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

본 발명은 통합 뷰어를 활용한 표절검사 시스템에 관한 것으로서, 보다 상세하게는 클라이언트 단말에 응용 프로그램이 구비되어 있지 않더라도 다양한 포맷의 전자문서를 열람(viewing)할 수 있도록 하여주는 통합 뷰어를 활용하여 제출된 과제물인 전자문서 간의 표절 여부를 검사하고, 표절검사 대상인 기준대상 전자문서와 비교대상 전자문서를 모니터 한 화면에 함께 디스플레이하여 주고, 표절부분과 비표절부분의 텍스트를 색상을 달리하여 하이라이트하여 보여주는 표절 검사 시스템이다. 또한, 통합 뷰어 서비스 제공을 위해 구비되는 문서변환서버에 필요한 메모리 용량을 최소화하고, 열람을 위해 선택된 전자문서를 보다 신속하게 클라이언트 단말에 디스플레이하여 주고, 포맷 변환되어 클라이언트 단말에 디스플레이되는 전자문서에 오류의 발생을 줄여 품질을 높인 통합 뷰어 제공 시스템에 관한 것이다.
본 발명에 따른 통합 뷰어를 활용한 표절검사 시스템은 업로드된 다양한 포맷의 원본파일 전자문서를 저장하는 웹서버와, 상기 웹서버에서 다운로드된 원본파일 전자문서를 특정 포맷의 캐시파일 전자문서로 변환하여 저장하는 문서변환서버와, 웹브라우저 및 상기 캐시파일 전자문서를 열람할 수 있는 열람프로그램이 탑재되어 있는 클라이언트 단말이 네트워크로 연결되어 구성되는 통합 뷰어;와 상기 문서변환서버에 구비되고, 상기 웹서버에서 다운로드된 원본파일 전자문서에서 텍스트 정보를 추출하여 텍스트파일로 저장하는 텍스트추출부와, 상기 문서변환서버로부터 텍스트파일을 전송받아 저장하는 데이터베이스와, 상기 데이터베이스에 저장된 텍스트파일들의 텍스트 정보를 상호 비교분석하고, 비교분석 결과를 상기 데이터베이스에 저장하는 중계서버와, 상기 클라이어트 단말에 탑재되고, 상기 중계서버를 통해 상기 비교분석 결과를 전송받아 전자문서 상호 간의 표절여부를 검사하고 검사결과를 디스플레이하는 표절검사프로그램을 포함하는 표절검사수단;을 포함하여 이루어진다.

Description

통합뷰어를 활용한 표절검사 시스템{Plagiarism check system by using intergrated viewer}
본 발명은 통합 뷰어를 활용한 표절검사 시스템에 관한 것으로서, 보다 상세하게는 클라이언트 단말에 응용 프로그램이 구비되어 있지 않더라도 다양한 포맷의 전자문서를 열람(viewing)할 수 있도록 하여주는 통합 뷰어를 활용하여 제출된 과제물인 전자문서 간의 표절 여부를 검사하고, 표절검사 대상인 기준대상 전자문서와 비교대상 전자문서를 모니터 한 화면에 함께 디스플레이하여 주고, 표절부분과 비표절부분의 텍스트를 색상을 달리하여 하이라이트하여 보여주는 표절 검사 시스템이다.
또한, 통합 뷰어 서비스 제공을 위해 구비되는 문서변환서버에 필요한 메모리 용량을 최소화하고, 열람을 위해 선택된 전자문서를 보다 신속하게 클라이언트 단말에 디스플레이하여 주고, 포맷 변환되어 클라이언트 단말에 디스플레이되는 전자문서에 오류의 발생을 줄여 품질을 높인 통합 뷰어 제공 시스템에 관한 것이다.
인터넷의 발달로 과제에 대한 리포트를 전자문서로 작성하여 제출하는 일이 많아지고 있다.
그리고 인터넷의 발달은 표절을 용이하게 하였고, 학생 간에 베끼기가 만연해 있으며, 표절에 대한 도덕적 불감증도 만연해 있다. 그리하여 교수는 제출된 리포트에 대해 불신의 벽이 생기고 리포트 간에 변별력도 실종되고 있다.
이러한 표절은 학업실력 하향화, 막대한 자원낭비와 심각한 도덕성 상실을 초래하고, 종국에는 국가 경쟁력을 약화시키게 된다.
따라서, 표절을 예방할 수 있는 수단의 필요성이 강력히 제기되고 있다.
표절 예방의 시작은 리포트들 상호 간에 동일한 내용이 얼마나 되는지를 파악하여 표절인지 여부를 검사하는 것이고, 표절 여부 검사 결과에 따라 점수를 주거나 불이익을 주어 표절을 예방하게 된다.
표절 검사의 원시적인 방법은 교수가 리포트 모두를 일일이 읽어 파악한 후에, 하나의 기준대상 리포트와 다수의 비교대상 리포트를 일대일로 비교하여 표절 여부를 판단하는 것이다.
이러한 원시적인 표절 검사 방법은 리포트의 수가 몇 개 안될 때나 가능한 방법이다. 리포트 수가 5개만 되어도 리포트들을 상호 일대일로 비교 판단해야하는 경우의 수가 5!(5*4*3*2*1)로 120 가지나 된다. 따라서 이러한 원시적인 방법에 의한 표절 검사는 현실적으로 불가능한 방법이라고 할 것이다.
따라서 제출된 리포트로서 전자문서들의 내용을 자동으로 상호 비교하여 동일한 내용이 얼마나 되는지 추출하고 표절 여부를 검사할 수 있는 표절 검사 프로그램의 필요성이 제기되고 있다. 이에 대한 몇몇 프로그램이 개시되었다.
그러나 종래에 개시된 표절검사 프로그램은 리포트가 특정 포맷의 전자문서로 작성되어야하고, 지원되지 않는 포맷의 전자문서로 작성되는 때에는 표절검사가 되지 않을 뿐만 아니라 모니터에 열람되지도 아니한다. 현재 다양한 종류의 전자문서 작성용 응용 프로그램이 보급되어 있는 상황에서 학생들에게 특정 응용 프로그램으로 리포트를 작성하여 제출하는 것을 강요할 수도 없는 상황이다.
따라서 표절검사 프로그램은 리포트로 제출된 전자문서들의 포맷이 다르더라도 열람할 수 있고, 표절검사가 가능할 필요가 있다. 즉, 표절검사 프로그램은 통합 뷰어와 연계되어 활용될 필요가 있다.
또한, 종래에 개시된 표절검사 프로그램은 모니터에 표절검사 대상인 기준대상 전자문서와 비교대상 전자문서 중 어느 하나만이 열람(viewing)되고, 상호 간의 표절율만 표시될 뿐이어서 두 전자문서를 동시에 보면서 어느 부분이 표절되었는지 즉시 확인할 수 없다.
따라서 교수에게 기준대상 전자문서와 비교대상 전자문서를 한 화면에 함께 보여주면서, 표절부분과 비표절 부분을 구별하여 표시함으로써 표절 여부 파악을 편리하게 할 필요가 있다.
전술한 바와 같이 효율적인 표절 검사를 위해서는 표절검사 프로그램이 통합뷰어와 연계되어 있을 필요가 있다. 이하 종래의 통합뷰어에 대하여 기술한다.
IT기술의 급성에 따라 다양한 문서 작성용 프로그램이 개발되고 있고, 사용자마다 선호하는 편집 프로그램을 이용하여 문서를 작성하므로, 다양한 형식의 문서 포맷이 존재한다.
그리고 인터넷 다운로드, 메신저를 통한 파일전송, 이메일의 전자문서 첨부 등의 다양한 방식으로 많은 전자문서들이 교환되고 있다.
그러나 받은 전자문서가 사용자가 알지 못하는 형식의 포맷이거나 사용자의 컴퓨터(즉, 클라이언트 단말)에 설치되지 않은 프로그램의 포맷인 경우, 프로그램이 설치는 되었으나 프로그램의 버전이 다른 경우 등에는 받은 파일을 열람하거나 편집할 수 없다.
이와 같이 전자문서를 열람 할 수 없는 경우 사용자는 해당 응용 프로그램을 구입하여 설치(인스톨)하거나, 해당 응용 프로그램이 설치되어 있는 컴퓨터로 재전송하여 전자문서를 열람하여야 한다.
이와 같이 문제를 해결하기 위해 사용자의 클라이언트 단말에 응용 프로그램이 설치되어 있지 않아도 다양한 포맷의 전송받은 전자문서를 클라이언트 단말에서 열람할 수 있도록 하는 통합 뷰어 제공 시스템들이 개발되고 있다.
이러한 통합 뷰어 제공 시스템에 관한 종래기술로 (주)디지털직지의 공개특허 제2006-24847호 "통합뷰 서비스 제공 시스템 및 제공방법", (주)비시엔소프트의 등록특허 제729724호 "파일 제공 시스템, 방법 및 그 저장매체" 및 등록특허 제756360 "통합 파일 변환 서비스 제공 시스템 및 방법" 등이 개시되었다.
통합 뷰어 제공 시스템은 기본적으로 사용자가 이용하며 특정 포맷으로 변환된 전자문서를 열람할 수 있는 열람프로그램이 탑재되는 클라이언트 단말(통상 컴퓨터가 될 것임)과,
대기업이나 공공기관 등에서 주로 이용하는 것으로서 다양한 포맷의 전자문서가 업로드되어 저장되고 관리되는 인터넷 상의 웹서버와,
통합 뷰어 서비스 제공업자가 관리하며 웹서버에 저장된 전자문서를 다운로드하여 특정 포맷의 전자문서로 변환하여 클라이언트 단말로 제공하는 문서변환서버를 포함하여 이루어진다.
상기 종래기술로 언급한 통합 뷰어 제공 시스템들 역시 명칭은 상이하지만 이와 같이 클라이언트 단말, 웹서버, 문서변환서버를 포함하여 이루어진다.
상기 종래기술에 따른 통합 뷰어 제공 시스템들의 문제점을 이하 살펴본다.
첫째, 종래기술은 웹서버에 업로드되어 있는 원본파일의 전자문서를 다운로드하여 저장하고, 다운로드한 전자파일을 포맷 변환한 후에 저장하는 데이터베이스가 문서변환서버에 연결(또는 문서변환서버의 일부로 구성)되어 있다.
따라서 원본파일의 전자문서와 변환파일의 전자문서가 모두 데이터베이스에 저장되므로 데이터베이스는 저장 용량이 커야 한다.
그리고 데이터베이스는 저장 공간을 체계적으로 구획하여 각 공간에 정보를 저장하게 되므로, 클라이언트 단말로 전송할 변환파일 전자문서를 데이터베이스에 독출하는데 많은 시간이 소요된다.
둘째, 종래기술은 클라이언트 단말이 특정 포맷으로 변환된 전자문서를 문서변환서버에서 제공받기까지 클라이언트 단말과, 웹서버와, 문서변환서버 상호 간에 각종 데이터의 송수신과, 수신한 데이터의 분석과, 데이터 분석에 따른 후속 처리 등의 복잡한 절차를 거친다.
예를 들어, 웹서버에서 어떤 전자문서를 열람하기 위해 선택한 경우에 선택된 전자문서는 직접 문서변환서버로 다운로드되면 될 것인데 클라이언트 단말이 웹서버에서 다운로드한 후에 다시 문서변환서버로 재전송하거나, 클라이언트 단말이 변환파일 전자문서를 요청하는 데이터를 문서변환서버로 송신하면 문서변환서버는 수신한 데이터를 분석하여 해당 변환파일 전자문서가 데이터베이스 어디에 저장되어 있는지 검색하여 추출한 후에 다시 클라이언트 단말로 전송하는 것 등이다.
이처럼 클라이언트 단말과, 웹서버와, 문서변환서버 상호 간에 여러 데이터를 송수신하고, 수신한 데이터를 분석하고, 분석된 데이터에 따라 후속조치를 취하게 되면 당연히 클라이언트 단말에서 선택한 전자문서를 열람하는데 시간이 많이 소요된다.
그리고 통합 뷰어 제공 시스템에서 클라이언트 단말은 사용자가 관리 및 사용하고, 웹서버는 대기업이나 공공기관 등에서 관리하고, 문서변환서버는 시스템 제공업자가 관리하는 것이 일반적이다.
통합 뷰어 제공 시스템에 문제가 발생된 경우, 그 문제의 책임소재가 어디에 있는지 종종 문제가 된다. 특히, 피해 규모가 큰 경우에는 더욱 책임소재의 주체가 문제된다.
따라서 전문가인 서비스 제공업자는 문제의 발생 원인을 밝혀내고, 이를 웹서버 관리자인 대기업이나 공공기관(클라이언트 단말 사용자는 일반적으로 대기업이나 공공기관의 직원일 것이므로 같이 취급)이 납득하도록 설명을 하여야 한다.
그런데 비전문가인 웹서버 관리자에게 납득시킨다는 것이 쉽지 않은 것이 현 실정이므로, 시스템 제공업자는 문서변환서버가 원인이 되어 통합 뷰어 시스템에 문제가 발생한 것이 아님을 명확히 납득시켜 책임소재에서 벗어나는 것이 바람직하다.
그런데 종래기술과 같이 문서변환서버가 클라이언트 단말과, 웹서버와 각종 데이터의 송수신하고, 수신한 데이터를 분석하여 다시 데이터 송신하는 경우에는 문서변환서버가 클라이언트 단말이나 웹서버에 송신하는 데이터에 의해 통합 뷰어 시스템에 문제가 발생할 수도 있다는 의구심을 웹서버 관리자에게 완전히 해소시키기 어렵다.
셋째, 종래기술은 문서변환서버에서 특정 포맷의 형식으로 변환된 변환파일의 전자문서는 메타정보와 폰트정보가 포함되지 않은 전자문서이다.
따라서 클라이언트 단말에서 디스플레이되는 변환된 전자문서는 원본파일 전자문서와 비교하여 변형된 오류가 발생될 위험이 크고, 디스플레이되는 전자문서를 확대하거나 축소시키는 경우 오류 발생 위험은 더욱 크다.
본 발명은 상기와 같이 종래기술이 갖는 문제를 해결하기 위해 안출된 발명으로서, 표절검사 시스템이 통합뷰어에 연계되어 리포트로 제출되는 전자문서의 포맷이 다르더라도 열람 및 표절 검사가 가능하고,
표절 검사 대상이 되는 기준대상 전자문서와 비교대상 전자문서를 한 화면에 함께 디스플레이하고, 기준대상 전자문서와 비교대상 전자문서의 디스플레이를 개별적으로 제어가능함을 물론 동시 제어도 가능하고, 표절 부분과 비표절 부분을 색상을 달리하여 하이라트하여 보여줌으로써 검사자(즉, 교수)의 표절 여부 확인이 편리한 표절검사 시스템을 제공함을 목적으로 하고,
표절검사 시스템에 연계된 통합 뷰어의 문서변환서버에 연결되거나 문서변환서버를 구성하는 메모리에 필요한 저장용량을 줄이고, 원본파일의 전자문서가 특정 포맷으로 변환된 전자문서가 요청시 보다 신속하게 클라이언트 단말에 열람되도록 하고, 시스템 제공업자의 잘못으로 시스템에 문제가 발생되는 것을 줄이면서 책임소재를 납득시키기 간편하고, 클라이언트 단말에 디스플레이되는 포맷이 변환된 전자문서의 품질이 뛰어난 통합 뷰어를 활용한 표절검사 시스템을 제공함을 목적으로 한다.
이와 같은 목적을 달성하기 위한 본 발명에 따른 통합 뷰어를 활용한 표절검사 시스템은
업로드된 다양한 포맷의 원본파일 전자문서를 저장하는 웹서버와,
상기 웹서버에서 다운로드된 원본파일 전자문서를 특정 포맷의 캐시파일 전자문서로 변환하여 저장하는 문서변환서버와,
웹브라우저 및 상기 캐시파일 전자문서를 열람할 수 있는 열람프로그램이 탑재되어 있는 클라이언트 단말이 네트워크로 연결되어 구성되는 통합 뷰어;와
상기 문서변환서버에 구비되고, 상기 웹서버에서 다운로드된 원본파일 전자문서에서 텍스트 정보를 추출하여 텍스트파일로 저장하는 텍스트추출부와,
상기 문서변환서버로부터 텍스트파일을 전송받아 저장하는 데이터베이스와,
상기 데이터베이스에 저장된 텍스트파일들의 텍스트 정보를 상호 비교분석하고, 비교분석 결과를 상기 데이터베이스에 저장하는 중계서버와,
상기 클라이어트 단말에 탑재되고, 상기 중계서버를 통해 상기 비교분석 결과를 전송받아 전자문서 상호 간의 표절여부를 검사하고 검사결과를 디스플레이하는 표절검사프로그램을 포함하는 표절검사수단;을 포함하여 이루어진다.
그리고 상기 표절검사수단의 표절검사프로그램은
상기 열람프로그램을 제어하여 표절검사의 대상이 되는 기준대상 전자문서와 비교대상 전자문서가 클라이언트 단말의 모니터에 함께 디스플레이되도록 하고, 상기 기준대상 전자문서와 비교대상 전자문서의 디스플레이 방식을 개별적으로 제어하고 또한 동시에 제어도 하는 통합툴바와,
디스플레이되는 기준대상 전자문서 및 비교대상 전자문서를 각각 상기 데이터베이스에 저장되어 있는 해당 비교대상 전자문서의 텍스트파일 및 기준대상 전자문서의 텍스트파일과 비교하여 전자문서에서 표절 텍스트와 비표절 텍스트를 추출하고, 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서에서 추출된 표절 텍스트와 비표절 텍스트를 색상을 달리하여 디스플레이하여 구별되도록 하는 표절텍스트 추출프로그램을 포함하여 이루어지는 것을 특징으로 하고,
상기 문서변환서버는 상기 캐시파일이 저장되는 URL경로를 상기 웹서버의 해당 원본파일의 URL경로를 카피한 URL경로로 하고,
상기 웹서버는 상기 클라이언트 단말이 접속하여 특정 원본파일 전자문서를 선택하는 경우, 선택한 원본파일에 대한 캐시파일의 URL경로를 자동 생성하여 상기 클라이언트 단말로 전송함으로써,
상기 웹서버로부터 캐시파일의 URL경로를 전송받은 상기 클라이언트 단말은 상기 문서변환서버에서 다이렉트로 해당 캐시파일을 다운로드하는 것을 특징으로 하고,
상기 클라이언트가 상기 문서변환서버에서 캐시파일을 다운로드하는 방식은 하이퍼 텍스트 트랜스퍼 프로토콜(HTTP)을 이용한 스트리밍 방식이고,
상기 문서변환서버는 상기 원본파일 전자문서를 캐시파일 전자문서로 변환하는 포맷 변환부를 포함하되,
상기 포맷 변환부를 통해 변환 생성되는 캐시파일은 메타정보와 폰트정보를 포함하고 있는 것을 특징으로 한다.
본 발명에 따른 통합 뷰어를 활용한 표절 검사 시스템은 학생들이 제출하는 리포트로서 전자문서들의 포맷이 다르더라도 열람과 표절여부 검사가 가능하고,
표절 검사 대상이 되는 두 전자문서(기준대상 전자문서 및 비교대상 전자문서)를 한 화면에 같이 디스플레이시키고, 디스플레이 방식을 두 전자문서 개별적으로 제어 가능함을 물론 동시에도 가능하고, 표절 부분과 비표절 부분을 분리하여 표시하여 줌으로써 두 전자문서간 표절여부의 확인이 편리하고,
통합 뷰어의 문서변환서버에 원본파일 전자문서가 별도로 저장되지 않고, 포맷이 변환된 전자문서도 캐시파일로 저장되므로 필요한 메모리의 저장 용량을 줄일 수 있고,
클라이언트 단말은 캐시파일 URL경로 정보를 이용하여 다이렉트로 문서변환서버에서 캐시파일을 가져오고, 캐시파일을 스트리밍 방식으로 가져오므로 사용자는 선택한 전자문서를 보다 신속하게 열람할 수 있고,
문서변환서버는 클라이언트 단말이 캐시파일을 가져가고, 웹서버에서 원본파일 전자문서를 다운로드하는 것 이외에 특별하게 이들과 다른 데이터를 송수신하지 아니하므로 시스템에 문제가 발생한 경우에 시스템 제공업자는 시스템 문제 발생원인이 자신들에게 있지 않음을 명확히 납득시킬 수 있어 책임소재에서 벗어나기 쉽고,
캐시파일에는 메타정보와 폰트정보가 포함되어 있으므로 클라이언트 단말에 디스플레이되는 캐시파일은 원본파일의 전자문서와 비교하여 오류가 적은 통합 뷰어를 활용한 표절 검사 시스템으로써, 산업발전에 매우 유용한 발명이다.
도 1 은 본 발명에 따른 통합 뷰어를 활용한 표절 검사 시스템의 개략적인 전체 블록 구성도.
도 2 는 본 발명에 따른 통합 뷰어를 활용한 표절 검사 시스템에서 전체적인 절차 흐름도.
도 3 은 클라이언트 단말의 절차 흐름도.
도 4 는 문서변환서버의 절차 흐름도.
도 5 는 원본파일을 캐시파일로 변환 저장하는 과정에서 원본파일에서 메타정보를 추출한 후에 메타정보들을 최적화하여 캐시파일에 필요한 메타정보를 첨부하는 절차 흐름도.
도 6 은 클라이언트 단말의 표절 검사 절차 흐름도.
도 7 은 통합툴바에 의해 클라이어트 단말에 디스플레이되는 표절검사 대상이되는 두 전자문서의 일례도.
도면에서 보는 바와 같이 본 발명에 따른 통합 뷰어를 활용한 표절 검사 시스템은 통합 뷰어를 구성하는 클라이언트 단말(100), 웹서버(200), 문서변환서버(300)와, 상기 통합 뷰어와 연계되어 표절 여부를 검사하는 표절검사수단으로서 중계서버(500)와, 데이터베이스(600)와, 클라이언트 단말에 탑재된 표절검사프로그램(700)을 포함하여 이루어진다.
우선, 도2 내지 도5를 참조하여, 다양한 포맷의 전자문서에 대해 열람 및 표절검사가 가능하도록 지원하는 통합뷰어에 대해 설명한다.
상기 클라이언트 단말(100)은 사용자가 사용하는 단말기로서, 컴퓨터가 일반적으로 사용되지만, 컴퓨터 이외에 인터넷 네트워크에 연결되고 입력수단으로 키보드와 출력수단으로 모니터가 구비되고 전자문서를 디스플레이할 수 있는 각종 단말기가 사용될 수도 있다.
상기 클라이언트 단말(100)은 인터넷에서 필요한 정보를 획득하여 열람하기 위한 웹브라우저(110)와, 본 시스템에서 제공되는 전자문서를 열람할 수 있도록 하는 응용 프로그램으로 열람프로그램(120)이 탑재된다.
상기 열람프로그램(120)은 전자문서를 열람할 수 있도록 할 뿐만 아니라 편집할 수 있도록 하는 기능을 구비할 수도 있다.
상기 열람프로그램(120)은 Active X방식으로 가동되며, 문서변환부(300)에서 변환된 EDI 포맷의 전자문서를 열람시키고, 이외에 프로그램 제작사가 프로그램의 소스를 공개하였으며 전 세계적으로 널리 사용되는 PDF 포맷의 전자문서나 CAD 포맷의 전자문서나, TIF나 JPG 포맷과 같은 이미지 전자문서를 열람시킬 수 있다.
상기 웹서버(200)는 대기업이나 공공기관과 같이 큰 조직에서 구성원들이 사용하고 조직에서 운영 및 관리하거나, 사업주가 인터넷에서 불특정 다수인을 상대로 자사를 홍보하거나 자사의 제품을 판매하는 등의 목적으로 운영관리하는데 사용되는 인터넷 상의 서버이고, 조직의 구성원이나 사업주가 다양한 포맷의 전자문서를 업로드하여 저장시킨다.
상기 웹서버(200)에는 업로드되는 각종 포맷의 원본파일 전자문서가 저장되는 전자문서DB(210)와, 웹서버에 접속을 허용하는 인증과 관련된 정보가 저장되는 인증DB(230)와, 접속이 허용되는 회원에 대한 인적사항, 등급, 권한 등에 대한 정보가 저장되는 회원DB(220), 클라이언트 단말(100)로부터 전자문서DB에 저장된 전자문서를 열람하는 요청이 있는 경우 열람에 필요한 각종 정보를 생성하여 클라이언트 단말로 전송하는 정보 생성부(240)와, 웹서버를 전체적으로 제어하는 제어부(250)를 포함하여 이루어진다. 상기 정보 생성부(240)가 생성하여 전송하는 정보에 대하여는 후술한다.
상기 문서변환서버(300)는 본 발명의 시스템을 제공하는 제공업자가 운영 및 관리하고, 상기 웹서버(200)에 저장되어 있는 원본파일 전자문서를 다운로드하여 특정 포맷의 전자문서로 변환한 후에 캐시파일로 저장하고, 클라이언트 단말(100)에서 저장된 캐시파일을 다운로드하여 간다.
상기 문서변환서버(300)는 상기 웹서버(200)에서 다운로드한 원본파일 전자문서를 특정 포맷의 전자문서로 변환하는 포맷 변환부(310)와, 포맷 변환부(310)에서 포맷이 변환된 전자문서를 캐시파일 형식으로 저장하는 메모리(320)와, 문서변환서버를 전체적으로 제어하는 제어부(330)를 포함하여 이루어진다.
이하에서는 도2 내지 도4를 참조하여 본 발명에 따른 통합 뷰어를 구성하는 클라이언트 단말(100), 웹서버(200), 문서변환서버(300)의 기능과 역할 등에 대해 보다 구체적으로 설명한다.
도2는 본 시스템의 개략적인 절차 흐름도로서, 통합 뷰어의 절차흐름을 살펴본다.
우선, 클라이언트 단말(100)이 문서변환서버(300)에 접속하여 사용할 권한이 있는지 여부를 확인하기 위해 인증절차를 거친다. (S1~S3)
이때 인증 여부는 웹서버(200)에 저장된 회원DB와 연동하여 자동으로 인증되도록 할 수도 있고(S1,S2), 문서변환서버(300)에 연결된 별도의 인증서버(400)를 통해 별도로 인증을 할 수도 있다(S1,S3).
인증을 거친 후에, 사용자가 클라이언트 단말(100)을 통해 웹서버(200)에 접속한 후에 전자문서DB에 저장된 전자문서들 중 어느 하나를 선택한다.(S4)
특정 전자문서가 선택되면 웹서버(200)는 선택된 전자문서의 열람에 관한 정보를 정보생성부(240)가 생성하여 클라이언트 단말(100)로 전송한다.
클라이언트 단말(100)은 웹서버(200)로부터 열람에 관한 정보를 받았을 때, 클라이언트 단말(100)에 응용 프로그램으로서 열람프로그램이 설치되어 있지 아니한 경우에는 열람프로그램을 설치한다. 즉, 최초 1회 열람프로그램을 설치하면 된다.
그리고 선택한 전자문서를 단순히 열람하기 위해 통합뷰어만을 실행하는 것이 아니라, 선택한 전자문서에 대한 표절여부를 검사하기 위해 본 발명의 표절검사 시스템을 실행하는 경우에는 열람프로그램(EDIViewer)과 표절검사프로그램(Anti-Paracy)을 같이 설치한다. 표절프로그램 역시 최초 1회 설치하면 된다.
상기 열람프로그램은 클라이언트 단말에서 일반 응용프로그램 형태로 실행되는 EDIActiveX 방식과, 웹브라우저나 타 응용프로그램 내부에 삽입되어 실행되는 EDIViewer 방식의 두 가지 UI(User Interface)를 제공한다. 위의 두 가지 동작 방식은 동일하며 UI만 다르다. 본 발명에서는 통합뷰어의 열람프로그램은 표절검사프로그램과 연동하여 실행되고 한 화면에 두 전자문서를 동시에 보여주는 관계로 EDIViewer 방식을 취한다.
그리고 상기 열람프로그램은 Active X 방식으로 가동되어 클라이언트 단말에 자동 설치되고, 문서변환서버(300)로부터 전자문서를 신속하게 불러와 디스플레이한다.
또한, 클라이언트 단말(100)은 웹서버(200)로부터 열람에 관한 정보를 받은 후에는 통합뷰어를 가동하여 통합 뷰어를 이용하여 전자문서를 열람할 수 있는 환경을 설정한다.(S6)
그런 후에 클라이언트 단말(100)은 문서변환서버(300)로 웹서버(200)에서 전송받은 전자문서 열람에 관한 정보를 전송한다.(S7)
문서변환서버(300)는 클라이언트 단말(100)로부터 전송받은 정보를 갖고 웹서버(200)에서 해당 원본파일 전자문서를 다운로드한다.(S8) 여기서, 다운로드는 전송받은 정보 중 원본파일 URL 정보를 이용하여 HTTP 프로토콜을 통해 신속히 이루어진다.
원본파일 전자문서를 다운로드한 문서변환서버(300)는 이를 특정 포맷의 전자문서로 변환한 후에 캐시파일로 메모리(320)에 저장한다.(S9)
문서변환서버(300)에서 캐시파일이 생성되면 클라이언트 단말(100)이 해당 캐시파일을 다운로드하여 디스플레이한다.(S10)
도3은 클라이언트 단말(100)에서의 보다 구체적인 절차 흐름도이다.
클라이언트 단말이 웹서버에서 특정 전자파일을 선택하여 열람을 요청하면, 웹서버는 전자문서의 열람에 필요한 정보로서, 캡(cab)파일 경로, 문서변환서버 IP, 변환포트, 캐시파일 URL 경로, 원본파일 URL 경로, 각종 옵션 및 DaView 가동함수를 생성하여 클라이언트 단말로 전송한다.
여기서, 상기 캡(cab)파일은 열람프로그램인 Active X 파일에 대한 압축파일이고, 변환서버 IP는 웹서버에 매칭된 문서변환서버의 주소(IP)이고, 변환포트는 문서변환서버에 접속할 포트이고, 원본파일 URL 경로는 선택된 전자문서가 웹서버에서 저장된 장소의 경로이고, 캐시파일 URL 경로는 상기 원본파일 URL 경로를 카피한 경로로서 문서변환서버에서 원본파일이 캐시파일로 변환되어 저장될 장소의 경로이고, 각종 옵션은 클라이언트 단말을 통해 접속한 사용자에게 열람과 편집 등을 허용할 범위 등의 옵션이고, DaView 가동함수는 클라이언트 단말이 문서변환서버에 접속되어 본 시스템이 본격적으로 가동될 수 있도록 하는 함수에 대한 정보이다.
참고로, 원본파일 URL 경로의 예로는 웹서버의 인터넷 상에서의 주소, 웹서버에서 각 항목들 중 해당 전자문서가 저장되어 있는 전자문서DB에 대한 항목, 전자문서DB에서 상위 폴더들 중에서 해당 전자문서가 저장되어 있는 상위 폴더의 이름, 상위 폴더 내의 하위 폴더들 중 해당 전자문서가 저장되어 있는 하위 폴더의 이름, 하위 폴더에 저장되어 있는 전자문서들 중 해당 전자문서의 파일명을 순차적으로 표시하는 기호가 있을 수 있고, 원본파일 URL 경로를 카피한 캐시파일 URL 경로는 위의 원본파일 URL 경로를 표시하는 기호 중에서 웹서버의 인터넷 상에서의 주소를 표시하는 기호가 문서변환서버의 인터넷 상에서의 주소를 표시하는 기호로 대체되는 것이다.
위와 같은 전자문서의 열람에 필요한 정보가 저장되면, 최초 1회에 한에 클라이언트 단말은 캡파일 경로 정보를 이용해 열람프로그램을 Active X 파일로 자동 설치하고, 통합뷰어를 가동한다.
그리고 나서 전송받은 변환서버 IP 정보를 이용하여 해당되는 문서변환서버에 접속을 시도하여 문서변환서버가 가동중인지 확인한다. 문서변환서버가 가동이 되고 있지 않을 때에는 에러메시지를 모니터로 출력한 후에 본 시스템을 종료한다.
문서변환서버가 가동 중인 경우에는 문서변환서버의 변환포트가 오픈되었는지 확인한 후에, 오픈되어 있으면 캐시파일 URL 경로 정보를 이용하여 메모리에 저장된 캐시파일이 있는지 확인한다.
캐시파일이 존재하면, 메모리에서 해당 캐시파일을 다이렉트로 다운로드하여 클라이언트 단말에서 열람프로그램을 이용하여 모니터에 열람(viewing)한다. 이때 다운로드할 때에는 캐시파일의 폰트를 확인하여 클라이언트에 해당 폰트가 없을 때에는 문서변환서버에서 해당 폰트나 해당 폰트가 없을 시에는 가장 유사한 폰트를 함께 다운로드한다.
여기서, 클라이언트가 캐시파일을 다이렉트로 다운로드한다는 것은 클라이언트가 문서변환서버의 제어부를 거치지 않고, 캐시파일 URL 경로 정보를 이용하여 메모리에서 직접 캐시파일을 가져오는 것을 의미한다.
그리고 캐시파일의 다운로드는 HTTP 프로토콜을 이용하여 신속하게 다운로드되고, 스트리밍 방식으로 다운로드되어 클라이언트 단말은 캐시파일 전체가 다운로드 되기 전이라도 다운로드된 분량의 캐시파일은 열람할 수 있다.
캐시파일이 메모리에 존재하지 아니할 때에는 클라이언트 단말은 웹서버에 원본파일이 존재하는지 확인을 하여 존재할 때에는 원본파일의 포맷을 확인한다.
웹서버의 원본파일 포맷이 열람프로그램으로 열람 가능한 PDF, CAD, 이미지(TIF, JPG), EDI 포맷 중 어느 하나일 때에는 웹서버에서 원본파일을 다운로드 한 후에 열람프로그램을 이용하여 클라이언트 단말에 디스플레이시킨다. 그리고 이때에도 원본파일의 폰트를 확인하여 클라이언트 단말에 해당 폰트가 없으면 다서버에서 해당 폰트 또는 가장 유사한 폰트를 다운로드 한다.
웹서버의 원본파일 포맷이 열람프로그램으로 열람 가능한 PDF, CAD, 이미지(TIF, JPG), EDI 포맷 중 어느 것도 아닐 때에는, 클라이언트는 이에 대한 정보(즉, 캐시파일이 존재하지 않고 원본파일이 열람할 수 없는 포맷)를 문서변환서버로 전송하여 문서변환서버가 원본파일을 웹서버에서 다운로드하여 캐시파일로 변환 저장하도록 한 후에, 문서변환서버에서 캐시파일을 다운로드하여 열람시킨다.
참고로, 원본파일의 존재 여부를 확인하는 과정 이후의 단계는 캐시파일이 존재 여부를 확인하는 과정과 상관없이 클라이언트 단말에서 직접 수행될 수 있다. 즉, 클라이언트 단말이 웹서버에서 원본파일 전자문서를 선택한 경우에 웹서버가 선택한 원본파일의 포맷 정보를 전송하여, 클라이언트가 전송받은 포맷 정보가 PDF, CAD, 이미지(TIF, JPG), EDI 포맷 중 어느 하나일 때에는 직접 웹서버에서 원본파일을 다운로드하고, 위 포맷이 아닐 때에는 웹서버에서 전송받은 열람 가능한 정보를 문서변환서버로 전송하여 문서변환서버가 원본파일을 다운로드한 후에 캐시파일로 변환 저장하도록 하고, 클라이언트 단말이 문서변환서버에서 변환 저장된 캐시파일을 다운로드하는 것이다.
도4는 문서변환서버(300)에서 원본파일 전자문서를 다운로드하여 캐시파일 전자문서로 변환 저장하는 절차 흐름도이다.
이 과정은 클라이언트 단말이 문서변환서버에 접속한 후에 문서변환에 관한 정보(즉, 클라이언트 단말이 웹서버에서 전송받은 문서 열람에 관한 정보)를 전송함으로써 전자문서 변환과정이 시작된다. 참고로, 문서 열람에 관한 정보는 클라이언트단말뿐 아니라 웹서버에서 전송받을 수도 있다.
그리고 이 과정에서 전송받는 문서변환에 관한 정보는 웹서버가 클라이언트 단말에 전송하는 열람에 관한 정보에다 변환될 캐시파일의 포맷에 관한 정보(즉, 생성파일 형식)를 더 포함할 수 있다.
문서변환에 관한 정보가 전송되면 문서변환서버는 원본파일 URL 경로정보를 이용해 웹서버에 원본파일이 존재하는지 확인하여 존재하는 경우 원본파일을 HTTP 프로토콜을 이용하여 웹서버에서 다운로드한다.
원본파일이 다운로드되면 포맷을 확인하여 문서변환이 필요한지(즉, 응용 프로그램의 필요여부) 확인하다. 포맷이 PDF, 이미지(TIF, JPG), EDI 포맷 중 어느 하나일 때에는 문서변환이 필요 없으므로 곧바로 메모리에 캐시파일 형식으로 저장한다.
문서변환이 필요한 때에는 응용 프로그램을 실행하여 포맷 변환부를 가동시킨다.
포맷 변환부는 프린트 드라이버를 이용하여 원본파일을 변환하되, 변환하는 파일의 포맷은 전송받은 문서변환에 관한 정보 중 생성파일형식 정보를 이용하여 PDF, 이미지(JPG, TIF), EDI 형식 중의 하나로 생성한다. 그리고 변환 생성된 파일은 메모리에 캐시파일 형식으로 저장된다.
여기서 EDI 포맷은 본 출원인이 정의한 포맷으로, 변환된 파일에 메타정보 및 폰트정보를 첨부시킨 파일의 포맷이다.
프린트 드라이버(311)로 변환된 변환파일은 일반적으로 메타정보와 폰트정보가 포함되지 않는다. 그리고 메타정보와 폰트정보가 없는 파일을 디스플레이하게 되면 원본과 비교하여 변형된 부분(즉, 오류 부분)이 발생하기 쉽다. ]
따라서 본 발명은 포맷 변환부(310)에 프린트드라이버(311) 외에 메타정보/폰트정보 추출부(312)와 메타정보/폰트정보 첨부부(313)를 구비하여 변환된 파일에 메타정보와 폰트정보를 첨부시켰다.
위의 과정을 통해 원본파일이 캐시파일로 변환 저장된 이후에는 도3의 과정에서 설명한 바와 같이 클라이언트 단말에서 캐시파일을 다운로드하여 열람시키게 된다.
도5는 포맷 변환부(310)에서 변환 저장되는 캐시파일에 메타정보를 첨부하는 절차 흐름도이다.
포맷 변환부(310)는 원본파일이 전송되면, 메타정보/폰트정보 추출부(311)에서 원본파일의 모든 메타정보를 추출한다. 참고로, 메타정보에는 폰트정보가 포함된다.
추출한 메타정보의 유형은 다양한데, 이중 파일의 열람에 영향을 주지 않는 메타정보들을 제거한다.
그리고 제거되지 않고 남은 메타정보들은 중복서식 제거, 분산 데이터 취합, 이미지 최적화, 기록방식 최적화, 필요 용량 축소 등의 과정을 거쳐 최적화된다.
그리고 최적화된 메타정보 외에 도면에 도시된 바와 같은 서버정보, 보안정보, 문서정보 등에 관한 메타정보를 추가하여 메타정보/폰트정보 첨부부(313)가 캐시피일에 첨부한다.
이상에서는 본 발명에 따른 표절검사 시스템에서 웹서버(200)에 업로드되어 저장된 원본파일 전자문서들의 포맷이 다양하더라도 클라이언트 단말(100)에 열람시킬 수 있는 통합뷰어에 대해 설명을 하였다.
이하에서는 이와 같은 통합뷰어를 활용하여 전자문서들 상호 간의 표절여부를 검사하는 표절검사수단을 설명한다.
상기 표절검사수단은 도1에 도시된 바와 같이 상기 문서변환서버(300)에 구비되고, 다운로드된 원본파일 전자문서에서 텍스트 정보를 추출하여 저장하는 텍스트추출부(340)와,
상기 텍스트추출부(340)가 추출한 텍스트파일을 전송받아 저장하는 데이터베이스(600)와,
상기 데이터베이스에 저장된 텍스트파일들의 텍스트 정보를 상호 비교분석하고, 그 결과를 데이터베이스에 저장하는 중계서버(500)와,
상기 클라이언트 단말에 탑재되고, 표절검사 대상이되는 전자문서들 상호 간의 표절여부를 검사하는 표절검사프로그램(700)을 포함하여 이루어진다.
상기 표절검사프로그램은 열람프로그램과 같이 Active X 방식으로 클라이언트 단말에 설치되어 가동되며, 최초 1회에 한해 클라이언트 단말에 설치된다.
상기 텍스트추출부(340)는 상기 웹서버(200)에서 원본파일 전자문서가 다운로드되면, 다운로드된 원본파일 전자문서에서 텍스트 정보를 추출한 후에, 추출된 텍스트 정보를 텍스트파일로 하여 메모리(320)에 저장한다.
여기서, 텍스트 정보라 함은 표절 여부에 직접 관련된 전자문서의 데이터를 말하는 것이다. 즉, 문단부호, 워터마크, 하이퍼링크, 폰트 등과 같이 표절 검사에 관련 없는 데이터를 제외한 것이다.
상기 텍스트 파일 역시 상기 캐시파일과 마찬가지로 원본파일의 URL경로를 카피하여 URL경로로 메모리에 저장된다.
상기 데이터베이스(600)는 텍스트파일이 저장되는 텍스트파일DB(610)와, 각각의 텍스트파일DB에 관련된 표절검사 관련정보가 저장되는 학생정보DB(620)와, 텍스트파일들을 상호 비교분석한 결과가 저장되는 비교분석결과DB(630)를 포함한다.
상기 텍스트파일DB(610)에 저장되는 텍스트파일은 상기 문서변환서버에서 전송되어 저장되고, 상기 학생정보DB(620)에 저장되는 관련정보는 상기 웹서버의 DB(210,220,230)에서 전송되어 저장되고, 상기 비교분석결과DB(630)에 저장되는 비교분석결과는 중계서버(500)에서 전송되어 저장된다.
그리고 상기 학생정보DB(620)에 저장된 리포트(즉, 원본파일 전자문서)를 제출한 학생정보, 교수정보, 학과과정 정보, 리포트 제출일자 정보 등과, 비교분석결과DB(630)에 저장된 텍스트파일과 동일유사한 텍스트와 비유사한 텍스트에 대한 정보 등은 클라이언트 단말(100)로 전송되어 표절여부를 검사하는데 사용되고, 클라이언트 단말에서 이들을 활용하여 표절여부를 검사하고 그 결과에 반영한 리포트 점수 등에 대한 정보는 다시 데이터베이스(600)에 업데이트되어 저장된다.
상기 중계서버(500)는 상기 문서변환서버(300)에서 텍스트파일을 받아 상기 데이터베이스의 텍스트파일DB(610)에 저장하고, 각 텍스트파일에 해당하는 표절검사 관련정보(예; 학생ID, 과정ID, 리포트 제출일자 등)를 웹서버로부터 전송받아 학생정보DB(620)에 저장하며, 클라이언트 단말(100)과 데이트베이스(600) 간의 표절검사에 관련된 각종 데이터의 송수신을 중계한다.
상기 중계서버(500)는 텍스트파일DB에 저장된 텍스트파일들의 텍스트 정보를 상호 비교분석하여 비교분석결과를 데이터베이스(600)의 비교분석결과DB(630)에 저장한다. 즉, 텍스트파일 간에 일치하는 텍스트와 불일치하는 텍스트를 찾아 비교분석결과DB에 저장한다.
상기 표절검사프로그램(700)은 클라이언트 단말(100)에 탑재되고, 통합툴바(710), 표절 텍스트 추출 프로그램(720), 표절검사 프로그램(730), 편집 프로그램(740)을 포함하여 이루어진다.
상기 통합툴바(710)는 상기 열람프로그램(120)을 제어하여 표절여부 검사 대상이 되는 두 전자문서, 즉, 기준대상 전자문서와 비교대상 전자문서를 클라이언트 단말(100)의 모니터 한 화면에 함께 디스플레이시키고, 기준대상 전자문서와 비교대상 전자문서의 모니터에서의 디스플레이가 개별적으로 제어될 수 있을 뿐만 아니라 동시에 같이 제어되도록 한다.
도7에 도시된 바와 같이 통합툴바(710)에 의해 제어되는 화면을 보면, 통합툴바는 화면 왼쪽에는 기준대상 전자문서를 디스플레이하고, 오른쪽에는 비교대상 전자문서를 디스플레이한다. 또한, 한 화면에 함께 디스플레이된 각 전자문서의 상단에는 각 전자문서의 디스플레이되는 양식(예; 확대, 축소, 페이지 넘기기 등)을 제어하는 메뉴판이 표시되고, 화면 우측에는 두 전자문서의 디스플레이 양식을 동시에 같이 제어하는 메뉴판이 표시되어 있다.
또한, 통합툴바는 도7에서 보는 바와 같이 화면 위쪽에 기준대상 전자문서에 대한 관련정보와, 비교대상 전자문서들에 대한 리스트를 두 전자문서와 같이 디스플레이한다.
상기 표절 텍스트 추출 프로그램(720)은 모니터에 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서를 각각 상기 데이터베이스(600)에 저장되어 있는 해당 비교대상 전자문서의 텍스트파일 및 기준대상 전자문서의 텍스트파일과 비교하여 두 전자문서에서 표절 텍스트와 비표절 텍스트를 추출하고,
추출 결과를 통합툴바(710)로 전송하여 통합툴바가 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서에서 추출된 표절 텍스트와 비표절 텍스트를 색상을 달리하여 화면에 디스플레이하도록 한다. 도7을 참조하면, 화면에서 표절 텍스트 부분은 노란색으로 하이라이트하고, 비표절 텍스트 부분은 파란색으로 하이라이트하여 구별하고 있다.
상기 표절검사 프로그램(730)은 상기 표절 텍스트 추출 프로그램(720)에서 추출한 결과를 바탕으로 두 전자문서 간의 표절비율, 비표절비율을 각각 연산하고, 연산 결과를 바탕으로 표절여부를 검사하며, 상기 통합툴바(710)를 통해 그 결과를 모니터에 디스플레이한다.
상기 편집 프로그램(740)은 디스플레이되는 두 전자문서에 각각 첨삭을 하거나, 점수를 부여하는 등의 편집을 할 수 있도록 한다.
도2와 도7을 참조하여 통합뷰어를 활용한 표절검사 과정을 클라이언트 단말(100)에서 살펴본다.
우선, 클라이언트 단말(100)을 통해 웹서버(200)에 접속하여 표절 검사 대상이 되는 원본파일 전자문서들을 선택하면, 클라이언트 단말에 열람프로그램과 표절검사프로그램이 최초 1회에 한에 설치되고, 선택된 원본파일 전자문서들은 문서변환서버(300)로 다운로드되고 캐시파일로 변환 저장되어 클라이언트 단말이 열람할 수 있는 전자문서로 생성되고, 또한 텍스트 정보가 추출 저장되어 표절여부 검사에 활용되도록 텍스트파일로 생성되고, 이 텍스트파일은 중계서버(500)를 통해 데이터베이스(600)에 저장된다. 또한, 선택된 각 원본파일 전자문서에 대한 표절검사 관련정보들(학생ID, 과정ID 등)은 중계서버를 통해 데이터베이스(600)에 저장된다. 이리하여 표절 검사를 위한 환경이 준비된다.
표절검사프로그램(Anti-Piracy)(700)이 가동되면 클라이언트 단말(100)은 웹프로그래밍 소스(예;웹프로그래밍 소스, jsp, php)를 가동하여 데이터베이스(600)의 학생정보DB(620)로부터 표절검사를 위해 선택된 전자문서들에 대한 관련정보를 가져오고, 통합툴바(710)는 가져온 정보를 이용하여 표절검사 대상이 되는 전자문서들의 리스트를 화면에 출력한다. 이때 임의로 어느 한 전자문서가 기준대상 전자문서로 자동 선택되고, 나머지 전자문서들 중 리스트의 첫번째 전자문서가 비교대상 전자문서로 선택되어 화면에 관련정보가 디스플레이된다. 물론, 이는 처음에 화면에 디스플레이되는 것이고, 사용자(교수)는 디스플레이되는 화면을 통해 기준대상 전자문서와 비교대상 전자문서를 선택할 수 있다.
기준대상 전자문서와 비교대상 전자문서가 선택되면 통합툴바(710)는 열람프로그램(120)을 제어하여, 열람프로그램이 선택된 기준대상 전자문서와 비교대상 전자문서에 해당하는 캐시파일을 문서변환서버(300)에서 다운로드하여 한 화면에 함께 디스플레이하도록 한다.
두 전자문서, 즉, 기준대상 전자문서와 비교대상 전자문서가 화면에 디스플레이되면, 표절 텍스트 추출 프로그램(720)은 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서를 각각 상기 데이터베이스(600)에 저장되어 있는 해당 비교대상 전자문서의 텍스트파일 및 기준대상 전자문서의 텍스트파일과 비교하여 전자문서에서 표절 텍스트와 비표절 텍스트를 추출하고, 추출된 결과를 통합툴바(710)로 전송한다. 그러면 통합툴바(710)는 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서에서 추출된 표절 텍스트와 비표절 텍스트를 색상을 달리하여 하이라이트 디스플레이하여 표절부분과 비표절부분을 구별시킨다.
이후 사용자는 통합툴바(710)를 이용하여 표절부분과 비표절부분이 하이라이트 표시되어 구분된 두 전자문서를 확대, 축소, 페이지 넘기기 등을 통해 직접 표절 여부와 표절 정도를 확인하는 과정을 거친다. 그리고 확인하는 과정에서 사용자는 표절 텍스트 추출부가 추출한 표절부분과 비표절부분을 정정할 수도 있다.
표절부분과 비표절 부분이 추출되면, 표절검사 프로그램(730)은 두 전자문서의 텍스트 간에 표절부분비율, 비표절부분비율, 확인불가부분비율을 연산하여 그 결과를 화면에 디스플레이한다. 그리고 연산 결과에 따라 표절여부에 대한 잠정적인 결론을 내리고, 사용자의 선택에 의해 표절여부가 확정적으로 결정된다. 사용자에 의한 표절여부 결정이 없으면 잠정적으로 내린 결정에 따른다.
이러한 과정을 통해 두 전자문서 간의 표절여부가 결정되면, 추출된 표절 텍스트 등과 사용자에 의해 정정된 표절 텍스트에 대한 정보는 중계서버(500)를 통해 데이터베이스(600)에 업데이트되어 저장된다.
그리고 어느 한 기준대상 전자문서는 그대로 두고, 비교대상 전자문서를 바꿔 가면서 표절 검사 대상이 되는 전체 전자문서에 대해 표절 여부가 검사되고, 이러한 방식을 통해 전자문서 전체의 상호 간의 표절 여부가 검사된다.
표절 텍스트 추출 프로그램(720)은 내부적으로 화면에 디스플레이되지 않는 전자문서 상호 간에 표절부분과 비표절부분에 대한 텍스트를 지속적으로 추출하고, 표절검사 프로그램(730)은 전자문서 상호 간의 표절율을 지속적으로 연산한다. 그리하여 화면에 디스플레이되는 기준대상 전자문서와 비교대상 전자문서가 바뀌면 통합툴바(710)가 즉시 그 결과를 디스플레이할 수 있도록 한다.
이상에서 본 발명을 설명함에 있어 첨부된 도면을 참조하여 특정 구성과 절차로 진행되는 통합 뷰어를 활용한 표절 검사 시스템에 대해 설명하였으나 본 발명은 당업자에 의하여 다양한 변형 및 변경이 가능하고, 이러한 변형 및 변경은 본 발명의 보호범위에 속하는 것으로 해석되어야 한다.
100 : 클라이언트 단말 120 : 열람프로그램
200 : 웹서버 210 : 전자문서DB
240 : 정보 생성부 250 : 제어부
300 : 문서변환서버 310 : 포맷 변환부
340 : 텍스트 추출부 400 : 인증서버
500 : 중계서버 600 : 데이터베이스
700 :표절검사 프로그램 710 : 통합툴바
720 : 텍스트 추출 프로그램 730 : 표절검사 프로그램

Claims (4)

  1. 업로드된 다양한 포맷의 원본파일 전자문서를 저장하는 웹서버와,
    상기 웹서버에서 다운로드된 원본파일 전자문서를 특정 포맷의 캐시파일 전자문서로 변환하여 저장하는 문서변환서버와,
    웹브라우저 및 상기 캐시파일 전자문서를 열람할 수 있는 열람프로그램이 탑재되어 있는 클라이언트 단말이 네트워크로 연결되어 구성되는 통합 뷰어;와

    상기 문서변환서버에 구비되고, 상기 웹서버에서 다운로드된 원본파일 전자문서에서 텍스트 정보를 추출하여 텍스트파일로 저장하는 텍스트추출부와,
    상기 문서변환서버로부터 텍스트파일을 전송받아 저장하는 데이터베이스와,
    상기 데이터베이스에 저장된 텍스트파일들의 텍스트 정보를 상호 비교분석하고, 비교분석 결과를 상기 데이터베이스에 저장하는 중계서버와,
    상기 클라이어트 단말에 탑재되고, 상기 중계서버를 통해 상기 비교분석 결과를 전송받아 전자문서 상호 간의 표절여부를 검사하고 검사결과를 디스플레이하는 표절검사프로그램을 포함하는 표절검사수단;을 포함하여 이루어지는 통합뷰어를 활용한 표절검사 시스템.
  2. 제 1 항에 있어서, 상기 표절검사수단의 표절검사프로그램은
    상기 열람프로그램을 제어하여 표절검사의 대상이 되는 기준대상 전자문서와 비교대상 전자문서가 클라이언트 단말의 모니터에 함께 디스플레이되도록 하고, 상기 기준대상 전자문서와 비교대상 전자문서의 디스플레이 방식을 개별적으로 제어하고 또한 동시에 제어도 하는 통합툴바와,
    디스플레이되는 기준대상 전자문서 및 비교대상 전자문서를 각각 상기 데이터베이스에 저장되어 있는 해당 비교대상 전자문서의 텍스트파일 및 기준대상 전자문서의 텍스트파일과 비교하여 전자문서에서 표절 텍스트와 비표절 텍스트를 추출하고, 디스플레이되는 기준대상 전자문서 및 비교대상 전자문서에서 추출된 표절 텍스트와 비표절 텍스트를 색상을 달리하여 디스플레이하여 구별되도록 하는 표절텍스트 추출프로그램을 포함하여 이루어지는 것을 특징으로 하는 통합뷰어를 활용한 표절검사 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 문서변환서버는 상기 캐시파일이 저장되는 URL경로를 상기 웹서버의 해당 원본파일의 URL경로를 카피한 URL경로로 하고,
    상기 웹서버는 상기 클라이언트 단말이 접속하여 특정 원본파일 전자문서를 선택하는 경우, 선택한 원본파일에 대한 캐시파일의 URL경로를 자동 생성하여 상기 클라이언트 단말로 전송함으로써,
    상기 웹서버로부터 캐시파일의 URL경로를 전송받은 상기 클라이언트 단말은 상기 문서변환서버에서 다이렉트로 해당 캐시파일을 다운로드하는 것을 특징으로 하는 통합뷰어를 활용한 표절검사 시스템.
  4. 제 3 항에 있어서,
    상기 클라이언트가 상기 문서변환서버에서 캐시파일을 다운로드하는 방식은 하이퍼 텍스트 트랜스퍼 프로토콜(HTTP)을 이용한 스트리밍 방식이고,
    상기 문서변환서버는 상기 원본파일 전자문서를 캐시파일 전자문서로 변환하는 포맷 변환부를 포함하되,
    상기 포맷 변환부를 통해 변환 생성되는 캐시파일은 메타정보와 폰트정보를 포함하고 있는 것을 특징으로 하는 통합뷰어를 활용한 표절검사 시스템.
KR1020100042807A 2010-05-07 2010-05-07 통합뷰어를 활용한 표절검사 시스템 KR101115003B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100042807A KR101115003B1 (ko) 2010-05-07 2010-05-07 통합뷰어를 활용한 표절검사 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100042807A KR101115003B1 (ko) 2010-05-07 2010-05-07 통합뷰어를 활용한 표절검사 시스템

Publications (2)

Publication Number Publication Date
KR20110123368A true KR20110123368A (ko) 2011-11-15
KR101115003B1 KR101115003B1 (ko) 2012-03-06

Family

ID=45393535

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100042807A KR101115003B1 (ko) 2010-05-07 2010-05-07 통합뷰어를 활용한 표절검사 시스템

Country Status (1)

Country Link
KR (1) KR101115003B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150008277A (ko) * 2013-07-11 2015-01-22 삼성전자주식회사 전자문서를 공유하는 방법 및 이를 위한 장치들
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
KR101687674B1 (ko) * 2015-11-26 2016-12-19 성신여자대학교 산학협력단 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717998B1 (ko) 2005-12-26 2007-05-15 고려대학교 산학협력단 문서의 표절 검사 방법
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150008277A (ko) * 2013-07-11 2015-01-22 삼성전자주식회사 전자문서를 공유하는 방법 및 이를 위한 장치들
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
KR101687674B1 (ko) * 2015-11-26 2016-12-19 성신여자대학교 산학협력단 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체

Also Published As

Publication number Publication date
KR101115003B1 (ko) 2012-03-06

Similar Documents

Publication Publication Date Title
US10067923B2 (en) Unified electronic forms management system
EP1958119B1 (en) System and method for appending security information to search engine results
US20070250531A1 (en) System and Method of Web Browser-Based Document and Content Management
KR101477763B1 (ko) 원격 모듈용 메시지 목록
US20190042208A1 (en) Analyzing objects from a graphical interface for standards verification
AU2014400621B2 (en) System and method for providing contextual analytics data
US9727660B2 (en) System and method to aid assistive software in dynamically interpreting internet websites and the like
US10552303B2 (en) Segmented accessibility testing in web-based applications
US9665543B2 (en) System and method for reference validation in word processor documents
US20080269921A1 (en) System and Method for Providing Support Assistance
US20080104226A1 (en) Using feed usage data in an access controlled team project site environment
EP2290530A1 (en) Widget framework
US20110282978A1 (en) Browser plug-in
KR101115003B1 (ko) 통합뷰어를 활용한 표절검사 시스템
CN102346835A (zh) 内容管理设备和内容管理方法
KR101115002B1 (ko) 통합 뷰어 제공 시스템
Kiesel et al. A dataset for content error detection in web archives
JP2008299788A (ja) ウェブサーバ装置、ウェブサーバプログラムおよびウェブサーバ装置の管理方法
CN116991694B (zh) 一种网页操作采集方法
AU2010201444B2 (en) Information processing apparatus, information processing method and computer program
CA2571092C (en) Document output processing using content data and form data
Godiah Forensic analysis of office open XML spreadsheets
JP2011081685A (ja) 業務システム機能分析方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170303

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee