KR20100115048A - System for distinguishing copy document and method therefor - Google Patents
System for distinguishing copy document and method therefor Download PDFInfo
- Publication number
- KR20100115048A KR20100115048A KR1020090033551A KR20090033551A KR20100115048A KR 20100115048 A KR20100115048 A KR 20100115048A KR 1020090033551 A KR1020090033551 A KR 1020090033551A KR 20090033551 A KR20090033551 A KR 20090033551A KR 20100115048 A KR20100115048 A KR 20100115048A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- document
- module
- copied
- personal database
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 복사 문서 판별 시스템에 관한 것으로서, 더욱 상세하게는 검사하고자 하는 문서의 문장을 추출하고, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단함으로써, 문서의 직접 작성 진위를 판별하는 시스템 및 그 방법에 관한 것이다. The present invention relates to a copy document discrimination system, and more particularly, extracts a sentence of a document to be examined, and determines whether a sentence or phrase corresponding to the extracted sentence exists on the Internet web, thereby making the document authentic. The present invention relates to a system and a method for determining the same.
일반적으로, 교수들은 학생들에게 리포트를 지시할 경우, 교수들은 지시한 리포트가 학생들이 직접 작성한 것인지 여부를 검증할 필요가 있다. 이때, 교수들은 적게는 수십, 많게는 수백 개의 문서를 확인해야 한다. In general, when professors direct students to a report, they need to verify whether the report they wrote is their own. At this point, professors should identify at least tens or hundreds of documents.
그러나, 학생들이 제출하는 리포트 중, 상당수가 인터넷 또는 다른 학생들의 리포트에서 복사된 것이며, 이러한 복사 리포트는 검사할 가치가 없음에도 불구하고 교수들은 일일이 모든 리포트를 검사해야 할 수 밖에 없으며, 이에 따른 시간 소모 및 낭비되는 인적 자원의 가치는 이루말 할 수 없다. However, many of the reports that students submit are copied from the Internet or from other students' reports, and although these copies are not worth checking, the professors are forced to inspect all the reports one by one. The value of consumed and wasted human resources is immeasurable.
본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 본 발명의 제 1 목적은, 검사하고자 하는 특성 문서를 대상으로, 문서를 직접 작성하지 않고 인터넷 웹 상의 다른 문서에서 일정 부분을 복사하였는지 여부를 판별하는데 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and a first object of the present invention is to determine whether a certain part is copied from another document on the Internet web without directly creating a document for a characteristic document to be inspected. To determine.
또한 본 발명의 제 2 목적은, 인터넷 웹 검색을 통해 복사 문서라고 판별하지 못하였을 경우, 개인 데이터베이스 검색을 통해 복사 여부를 판별하는데 있다. In addition, the second object of the present invention is to determine whether to copy through a personal database search, if it is not determined that the copy document through the Internet Web search.
그리고 본 발명의 제 3 목적은, 웹 검색 및 개인 데이터베이스 검색을 통해 모두 검색이 되지 않은 문장의 경우, 해당 문장을 개인 데이터베이스에 저장함으로써, 차후 다른 문서 검사 시, 활용하도록 함에 있다. In addition, the third object of the present invention is to store the sentence in the personal database in case of a sentence that has not been searched through both web search and personal database search, so that it can be used later when inspecting other documents.
이러한 기술적 과제를 달성하기 위하여, 본 발명은, 복사 문서 판별 시스템에 관한 것으로서, 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 문장 추출모듈; 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 웹 검색모듈; 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 사용자의 개인 데이터베이스 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스에 존재하는지 여부를 판단하는 개인 데이터베이스 검색모듈; 및 상기 문장 추출모듈로부터 검사대상 문서를 입력받고, 웹 검색모듈 및 개인 데이터베이스 검색모듈로부터 웹 검색정보 및 데이터베이스 검색정보를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 보고서 생성모듈; 을 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, the present invention relates to a copy document identification system, which receives a user's inspection target document, a sentence extraction module for extracting a specific sentence consisting of a plurality of words; A web search module for determining whether a sentence or phrase matching the extracted sentence exists on the internet web by performing an internet web search using the sentence extracted by the sentence extracting module; A personal database search module for determining whether a sentence or phrase matching the extracted sentence exists in the user's personal database by performing a user's personal database search using the sentence extracted through the sentence extraction module; And receiving a document to be inspected from the sentence extraction module, receiving web search information and a database search information from a web search module and a personal database search module, respectively, and analyzing a test target document and a document to be compared to analyze a report on the test target document. Report generation module for generating information; Characterized in that it comprises a.
또한, 본 발명은 복사 문서 판별 방법에 관한 것으로서, (a) 문장 추출모듈이 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 과정; (b) 웹 검색모듈이 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 과정; (c) 상기 (b) 과정 판단결과, 존재할 경우 상기 웹 검색모듈이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭을 포함하는 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 를 생성하는 과정; (d) 상기 (b) 과정의 판단결과, 존재하지 않을 경우 개인 데이터베이스 검색모듈이 사용자의 개인 데이터베이스 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스에 존재하는지 여부를 판단하는 과정; (e) 상기 (d) 과정의 판단결과, 존재할 경우 상기 개인 데이터베이스 검색모듈이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭이 포함된 비교대상 문서의 출처정보가 포함된 '데이터베이스 검색정보' 를 생성하는 과정; (f) 보고서 생성모듈이 상기 문장 추출모듈로부터 검사대상 문서를 입력받고, 상기 웹 검색모듈 및 개인 데이터베이스 검색모듈로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보' 를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 과정; 을 포함하는 것을 특징으로 한다.In addition, the present invention relates to a copy document discrimination method, comprising: (a) a sentence extracting module receiving a user's inspection target document and extracting a specific sentence composed of a plurality of words; (b) the web search module performing an internet web search using the sentences extracted by the sentence extraction module to determine whether a sentence or phrase matching the extracted sentence exists on the internet web; (c) as a result of the process (b), if it exists, the web search module sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence is searched, and the URL or Generating 'web search information' including source information of a comparison target document including a file name; (d) As a result of the determination of step (b), if it does not exist, the personal database search module searches the user's personal database to determine whether a sentence or phrase matching the extracted sentence exists in the user's personal database. process; (e) if the determination result of step (d) indicates that the personal database search module, if present, sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence is searched, Generating 'database search information' including source information of a comparison target document including a URL or a file name; (f) the report generation module receives the document to be inspected from the sentence extraction module, the sentence set to be copied from the web search module and the personal database search module, the original content of the comparison document from which the sentence is searched, and the document to be compared. Generating report information about the inspection target document by receiving the 'web search information' and 'database search information' including the source information of each, and analyzing the inspection target document and the comparison target document; Characterized in that it comprises a.
상기와 같은 본 발명에 따르면, 검사하고자 하는 문서를 일정 비율 이상 복사된 것으로, 따로 필터링이 가능한 바, 사용자로 하여금 복사 여부 확인을 위한 시간을 절약할 수 있는 효과가 있다. According to the present invention as described above, the document to be examined is copied to a certain ratio or more, bar filtering is possible separately, there is an effect that the user can save time for checking whether the copy.
또한 본 발명에 따르면, 웹 검색 뿐 아니라, 개인 데이터베이스를 통해 검색을 수행함으로써, 복사 여부 판별율을 높일 수 있는 효과도 있다. In addition, according to the present invention, by performing a search through a personal database as well as the web search, there is an effect that can increase the discrimination rate.
또한, 본 발명에 따르면, 웹 검색 및 개인 데이터베이스 검색을 통해 모두 검색이 되지 않은 문장의 경우, 해당 문장을 개인 데이터베이스에 저장함으로써, 차후 다른 문서 검사 시, 활용할 수 있는 효과도 있다. In addition, according to the present invention, in the case of a sentence that has not been searched through both web search and personal database search, by storing the sentence in a personal database, there is an effect that can be utilized when checking other documents later.
그리고 본 발명에 따르면, 복사된 글자의 비율 및 그 비율에 따른 색상으로 차등 표시하고, 복사된 원본 내용 및 그 출처를 표시함으로써, 사용자로 하여금 복사된 문장에 대한 확인이 용이한 효과도 있다. In addition, according to the present invention, by differentially displaying the ratio of the copied text and the color according to the ratio, and displaying the copied original content and its source, the user can easily check the copied text.
본 발명의 구체적 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.Specific features and advantages of the present invention will become more apparent from the following detailed description based on the accompanying drawings. In the meantime, when it is determined that the detailed description of the known function and the configuration related to the present invention may unnecessarily obscure the subject matter of the present invention, it should be noted that the detailed description is omitted.
이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명한다. Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.
본 발명에 따른 복사 문서 판별 시스템(S)에 관하여 도 1 내지 도 4 를 참조하여 설명하면 다음과 같다. The copy document determination system S according to the present invention will be described with reference to FIGS. 1 to 4 as follows.
도 1 은 본 발명에 따른 복사 문서 판별 시스템(S)을 개념적으로 도시한 전체 구성도이며, 도 2 는 본 발명에 따른 보고서 생성모듈(400)에 관한 세부 구성도이며, 도 3 은 본 발명에 따른 비교대상 문서에 대한 검사대상 문서의 생성 정보를 보이는 일예시도이며, 도 4 는 본 발명에 따른 다수의 검사대상 문서에 대한 종합 보고서 정보를 보이는 일예시도이다. 1 is an overall configuration diagram conceptually illustrating a copy document determination system S according to the present invention, FIG. 2 is a detailed configuration diagram of the
도 1 에 도시된 바와 같이, 본 발명에 따른 복사 문서 판별 시스템(S)은 문장 추출모듈(100), 웹 검색모듈(200), 개인 데이터베이스 검색모듈(300) 및 보고서 생성모듈(400)을 포함하여 이루어진다. As shown in FIG. 1, the copy document determination system S according to the present invention includes a
문장 추출모듈(100)은 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장(sentence)을 추출한다. 즉, 문장 추출모듈(100)은 검사대상 문서 전체를 각각의 문장으로 구분하여 추출할 수 있으며, 검사대상 문서 중, 하나의 문장만을 추출할 수도 있다. The
여기서, 특정 문장은, 따옴표, 마침표 등의 특수기호로 구분될 수 있으며, 띄어쓰기에 의해 다수의 어절(문장 성분의 최소단위)로 이루어진다. Here, the specific sentence may be divided into special symbols such as quotation marks and periods, and may be composed of a plurality of words (minimum units of sentence components) by spaces.
예를 들어, "본 발명은 복사 문서 판별 시스템에 관한 것으로서" 라는 하나의 문장은, '본' , '발명은' , '복사' , '문서' , '판별' , '시스템에', '관한', ' 것으로서' 와 같이 8개의 어절로 이루어진 것으로 볼 수 있다. For example, one sentence, "The present invention relates to a copy document discrimination system," may be used to refer to a copy, an invention, a copy, a document, a discrimination, a system, It can be regarded as composed of eight words such as', 'as'.
또한, 웹 검색모듈(200)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단한다.In addition, the
판단결과, 존재할 경우 웹 검색모듈(200)은 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 이른바, '웹 검색정보' 를 생성한다.As a result of determination, the
또한, 개인 데이터베이스 검색모듈(300)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단한다.In addition, the personal database search module 300 performs a search of the user's
판단결과, 존재할 경우 개인 데이터베이스 검색모듈(300)은 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 이른바, '데이터베이스 검색정보' 를 생성한다.As a result of determination, the personal database search module 300, if present, sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence was searched, and the source of the comparison target document (URL). Or 'database search information' including file name) information.
한편, 문장 추출모듈(100)을 통해 추출된 문장이, 웹 검색모듈(200)과 개인 데이터베이스 검색모듈(300)을 통해 모두 검색이 되지 않을 경우, 개인 데이터베이 스 검색모듈(300)은 이러한 문장은 개인 데이터베이스(310)에 저장한다. On the other hand, if the sentence extracted through the
즉, 이러한 문장은, 기존에 저장된 문장(또는 문서) 이외에, 차후 이루어지는 개인 데이터베이스(310) 검색 시, 사용되는 비교대상 문서로서 저장되는 것으로 이해하는 것이 바람직하다. That is, it is preferable to understand that such sentences are stored as comparison target documents to be used when searching the
그리고, 보고서 생성모듈(400)은 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보'를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 기능을 수행하는 바, 도 2 에 도시된 바와 같이, 글자 수 계산부(410), 비율 계산부(420) 및 원본 내용 추출부(430)를 포함한다. In addition, the
글자 수 계산부(410)는 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산한다.The
비율 계산부(420)는 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시한다. The
본 실시예에서, 복사된 글자의 비율을 50%~100%는 빨간색, 20%~49는 노란색, 그 이하는 녹색으로 설정하겠으나, 본 발명이 이에 한정되지 않는 바, 다양하게 설계변경 가능하다. In the present embodiment, the ratio of the copied letters is set to 50% to 100% in red, 20% to 49 in yellow, and the following are green, but the present invention is not limited thereto, and various design changes are possible.
원본 내용 추출부(430)는 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 입력된, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용 및 비교대상 문서의 출처정보가 포함된 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 를 바탕으로, 복사된 문장의 해당 내용 및 그 출처를 추출한다. The original
이에 따라, 보고서 생성모듈(400)은 도 3 에 도시된 바와 같이, 비교대상 문서에 대한 검사대상 문서의 정보 즉, 파일명(A), 전체 글자 수(B), 웹 상에서 복사된 글자 수(C), 개인 데이터베이스에서 복사된 글자 수(D), 복사된 비율(E) 및 그에 따른 색상(F), 비교대상 문서의 원본 내용(G) 및 그 출처(H)에 관한 정보를 세부적으로 생성하여 나타낼 수 있다. Accordingly, the
이때, 본 발명에 따른 보고서 생성모듈(400)은 상기 도 3 에 나타낸 바와 같이, 단일의 검사대상 문서에 대하여, 단일의 비교대상 문서에 대한 보고서 정보를 생성하여 도시하고 있으나, 도 4 에 도시된 바와 같이 다수의 검사대상 문서에 대한 종합 보고서 정보를 생성할 수 있으며, 도시하지는 않았으나 단일의 검사대상 문서에 대하여 다수의 비교대상 문서에 대한 보고서 정보를 생성할 수 있음은 당연하다. In this case, the
상술한 시스템(S)을 이용한 복사 문서 판별 방법에 관하여 도 5 및 도 6 을 참조하여 설명하면 다음과 같다. A method of determining a copy document using the above-described system S will be described with reference to FIGS. 5 and 6 as follows.
도 5 는 본 발명에 따른 복사 문서 판별 방법에 관한 전체 흐름도이며, 도 6 은 본 발명에 따른 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 제 S90 과정에 관한 세부 흐름도이다. 5 is a flowchart illustrating a method of determining a copy document according to the present invention, and FIG. 6 is a detailed description of the process S90 of generating report information about an inspection target document by analyzing the inspection target document and the comparison target document according to the present invention. It is a flow chart.
도 5 에 도시된 바와 같이 문장 추출모듈(100)은 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출한다(S10).As shown in FIG. 5, the
이후, 웹 검색모듈(200)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단한다(S20).Thereafter, the
제 S20 과정의 판단결과, 존재할 경우 웹 검색모듈(200)은 해당 문장을 복사된 문장으로 설정하고(S30), 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 '웹 검색정보' 를 생성한다(S40).As a result of the determination of step S20, if present, the
한편, 제 S20 과정의 판단결과, 존재하지 않을 경우 개인 데이터베이스 검색모듈(300)은 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단한다(S50).On the other hand, as a result of the determination in step S20, if there is no personal database search module 300 performs a search of the user's
제 S50 과정의 판단결과, 존재할 경우 개인 데이터베이스 검색모듈(300)은 해당 문장을 복사된 문장으로 설정하고(S60), 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 '데이터베이스 검색정보' 를 생성한다(S70).As a result of the determination of step S50, the personal database search module 300, if present, sets the sentence as a copied sentence (S60), the sentence set as copied, and the original content of the comparison target document in which the sentence is searched and compared. Generate 'database search information' including the source (URL or file name) information of the target document (S70).
한편, 제 S50 과정의 판단결과, 존재하지 않을 경우, 개인 데이터베이스 검색모듈(300)은 해당 문장을 개인 데이터베이스(310)에 저장한다(S80). On the other hand, if the determination result of step S50, if not present, the personal database search module 300 stores the sentence in the personal database 310 (S80).
이후, 보고서 생성모듈(400)은 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보' 를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성한다(S90).Subsequently, the
도 6 을 참조하여 제 S90 과정을 상세히 살피면, 도시된 바와 같이 보고서 생성모듈(400)의 글자 수 계산부(410)는 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하고(S92), 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산한다(S94).Referring to FIG. 6, the process of S90 is described in detail. As shown, the
또한, 비율 계산부(420)는 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시한다(S96).In addition, the
이후, 원본 내용 추출부(430)는 웹 검색모듈(200) 및 개인 데이터베이스 검 색모듈(300)로부터 입력된 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 즉, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보를 바탕으로, 복사된 문장의 해당 내용 및 그 출처를 추출한다(S98). Then, the original
이상에서 설명한 본 발명은 국문에만 적용되는 것은 아니며, 영문을 비롯한 타 언어에 대해서도 능히 적용될 수 있다. 또한, 본 발명은 상술한 각 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록매체에도 구현될 수 있다. The present invention described above is not only applicable to the Korean language, but can also be applied to other languages including English. Further, the present invention can also be implemented in a program for realizing a function corresponding to each of the above-described configurations, or in a recording medium on which the program is recorded.
그리고, 이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다. And while described and illustrated in connection with a preferred embodiment for illustrating the technical idea of the present invention, the present invention is not limited to the configuration and operation as shown and described as described above, it deviates from the scope of the technical idea It will be appreciated by those skilled in the art that many modifications and variations can be made to the present invention without departing from the scope of the invention. Accordingly, all such suitable changes and modifications and equivalents should be considered to be within the scope of the present invention.
도 1 은 본 발명에 따른 복사 문서 판별 시스템을 개념적으로 도시한 전체 구성도.1 is an overall configuration diagram conceptually showing a copy document discrimination system according to the present invention;
도 2 는 본 발명에 따른 보고서 생성모듈에 관한 세부 구성도.Figure 2 is a detailed configuration diagram for the report generation module according to the present invention.
도 3 은 본 발명에 따른 비교대상 문서에 대한 검사대상 문서의 생성 정보를 보이는 일예시도.3 is an exemplary view showing generation information of an inspection target document for a comparison target document according to the present invention;
도 4 는 본 발명에 따른 다수의 검사대상 문서에 대한 종합 보고서 정보를 보이는 일예시도.Figure 4 is an exemplary view showing the comprehensive report information for a plurality of inspection target documents in accordance with the present invention.
도 5 는 본 발명에 따른 복사 문서 판별 방법에 관한 전체 흐름도.5 is an overall flowchart of a copy document discrimination method according to the present invention;
도 6 은 본 발명에 따른 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 과정에 관한 세부 흐름도. 6 is a detailed flowchart of a process of generating report information about an inspection target document by analyzing the inspection target document and the comparison target document according to the present invention;
** 도면의 주요 부분에 대한 부호의 설명 **** Description of symbols for the main parts of the drawing **
S: 복사 문서 판별 시스템S: copy document determination system
100: 문장 추출모듈 200: 웹 검색모듈100: sentence extraction module 200: web search module
300: 개인 데이터베이스 검색모듈 400: 보고서 생성모듈300: personal database search module 400: report generation module
410: 글자 수 계산부 420: 비율 계산부410: character count calculator 420: ratio calculator
430: 원본 내용 추출부430: original content extraction unit
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090033551A KR20100115048A (en) | 2009-04-17 | 2009-04-17 | System for distinguishing copy document and method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090033551A KR20100115048A (en) | 2009-04-17 | 2009-04-17 | System for distinguishing copy document and method therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100115048A true KR20100115048A (en) | 2010-10-27 |
Family
ID=43134022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090033551A KR20100115048A (en) | 2009-04-17 | 2009-04-17 | System for distinguishing copy document and method therefor |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20100115048A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101634681B1 (en) * | 2015-09-03 | 2016-06-29 | 주식회사 무하유 | Method and program for searching quoted phrase in document |
KR20170078777A (en) * | 2014-10-30 | 2017-07-07 | 알리바바 그룹 홀딩 리미티드 | Web page deduplication method and apparatus |
CN113239016A (en) * | 2021-06-01 | 2021-08-10 | 通号智慧城市研究设计院有限公司 | Database design assistance apparatus and method |
-
2009
- 2009-04-17 KR KR1020090033551A patent/KR20100115048A/en not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170078777A (en) * | 2014-10-30 | 2017-07-07 | 알리바바 그룹 홀딩 리미티드 | Web page deduplication method and apparatus |
US10691769B2 (en) | 2014-10-30 | 2020-06-23 | Alibaba Group Holding Limited | Methods and apparatus for removing a duplicated web page |
KR101634681B1 (en) * | 2015-09-03 | 2016-06-29 | 주식회사 무하유 | Method and program for searching quoted phrase in document |
CN113239016A (en) * | 2021-06-01 | 2021-08-10 | 通号智慧城市研究设计院有限公司 | Database design assistance apparatus and method |
CN113239016B (en) * | 2021-06-01 | 2024-04-02 | 通号智慧城市研究设计院有限公司 | Database design assistance apparatus and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914968B2 (en) | Official document processing method, device, computer equipment and storage medium | |
CN115204110A (en) | Extracting searchable information from digitized documents | |
JP2007226792A (en) | Table of content extraction with improved robustness | |
JP2002297588A (en) | Method, program and apparatus for automatic creation for dictionary of translation example | |
CN111488466A (en) | Chinese language error corpus generating method, calculating device and storage medium | |
US20060285746A1 (en) | Computer assisted document analysis | |
JP5508953B2 (en) | Document processing apparatus and program | |
CN113673294B (en) | Method, device, computer equipment and storage medium for extracting document key information | |
KR20100115048A (en) | System for distinguishing copy document and method therefor | |
US20120265520A1 (en) | Text processor and method of text processing | |
US12045280B2 (en) | Method and system for facilitating keyword-based searching in images | |
JP6056489B2 (en) | Translation support program, method, and apparatus | |
Kurmi et al. | Text summarization using enhanced MMR technique | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
CN116360794A (en) | Database language analysis method, device, computer equipment and storage medium | |
Vesanto | Detecting and analyzing text reuse with BLAST | |
CN115908027A (en) | Financial data consistency auditing module of financial long text rechecking system | |
TWI598754B (en) | Method,computer program and computer-readable recording medium for essay and reference analysis | |
JP2006309347A (en) | Method, system, and program for extracting keyword from object document | |
JP2006119697A (en) | Question answering system, question answering method, and question answering program | |
Heinzerling et al. | Visual error analysis for entity linking | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
Stahl et al. | Mind the Gap: Automated Corpus Creation for Enthymeme Detection and Reconstruction in Learner Arguments | |
CN113722421A (en) | Contract auditing method and system and computer readable storage medium | |
JP6677158B2 (en) | Document data processing apparatus, document data processing method, and document data processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |