KR20100115048A - System for distinguishing copy document and method therefor - Google Patents

System for distinguishing copy document and method therefor Download PDF

Info

Publication number
KR20100115048A
KR20100115048A KR1020090033551A KR20090033551A KR20100115048A KR 20100115048 A KR20100115048 A KR 20100115048A KR 1020090033551 A KR1020090033551 A KR 1020090033551A KR 20090033551 A KR20090033551 A KR 20090033551A KR 20100115048 A KR20100115048 A KR 20100115048A
Authority
KR
South Korea
Prior art keywords
sentence
document
module
copied
personal database
Prior art date
Application number
KR1020090033551A
Other languages
Korean (ko)
Inventor
정원석
Original Assignee
정원석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정원석 filed Critical 정원석
Priority to KR1020090033551A priority Critical patent/KR20100115048A/en
Publication of KR20100115048A publication Critical patent/KR20100115048A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A system for distinguishing copied document and a method thereof are provided to distinguish whether a document was not out written directly and was duplicated in the other document on the internet. CONSTITUTION: A report generating module(400) receives a checking object document from a sentence extracting module(100). The report generating module receives the web searching information and database searching information from a web search module(200) and a personal database search module(300). The report generating module analyzes the checking object document and a comparative object document. The report generating module creates the report information about the checking object document.

Description

복사 문서 판별 시스템 및 그 방법{SYSTEM FOR DISTINGUISHING COPY DOCUMENT AND METHOD THEREFOR}Copy document identification system and method thereof {SYSTEM FOR DISTINGUISHING COPY DOCUMENT AND METHOD THEREFOR}

본 발명은 복사 문서 판별 시스템에 관한 것으로서, 더욱 상세하게는 검사하고자 하는 문서의 문장을 추출하고, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단함으로써, 문서의 직접 작성 진위를 판별하는 시스템 및 그 방법에 관한 것이다. The present invention relates to a copy document discrimination system, and more particularly, extracts a sentence of a document to be examined, and determines whether a sentence or phrase corresponding to the extracted sentence exists on the Internet web, thereby making the document authentic. The present invention relates to a system and a method for determining the same.

일반적으로, 교수들은 학생들에게 리포트를 지시할 경우, 교수들은 지시한 리포트가 학생들이 직접 작성한 것인지 여부를 검증할 필요가 있다. 이때, 교수들은 적게는 수십, 많게는 수백 개의 문서를 확인해야 한다. In general, when professors direct students to a report, they need to verify whether the report they wrote is their own. At this point, professors should identify at least tens or hundreds of documents.

그러나, 학생들이 제출하는 리포트 중, 상당수가 인터넷 또는 다른 학생들의 리포트에서 복사된 것이며, 이러한 복사 리포트는 검사할 가치가 없음에도 불구하고 교수들은 일일이 모든 리포트를 검사해야 할 수 밖에 없으며, 이에 따른 시간 소모 및 낭비되는 인적 자원의 가치는 이루말 할 수 없다. However, many of the reports that students submit are copied from the Internet or from other students' reports, and although these copies are not worth checking, the professors are forced to inspect all the reports one by one. The value of consumed and wasted human resources is immeasurable.

본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 본 발명의 제 1 목적은, 검사하고자 하는 특성 문서를 대상으로, 문서를 직접 작성하지 않고 인터넷 웹 상의 다른 문서에서 일정 부분을 복사하였는지 여부를 판별하는데 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and a first object of the present invention is to determine whether a certain part is copied from another document on the Internet web without directly creating a document for a characteristic document to be inspected. To determine.

또한 본 발명의 제 2 목적은, 인터넷 웹 검색을 통해 복사 문서라고 판별하지 못하였을 경우, 개인 데이터베이스 검색을 통해 복사 여부를 판별하는데 있다. In addition, the second object of the present invention is to determine whether to copy through a personal database search, if it is not determined that the copy document through the Internet Web search.

그리고 본 발명의 제 3 목적은, 웹 검색 및 개인 데이터베이스 검색을 통해 모두 검색이 되지 않은 문장의 경우, 해당 문장을 개인 데이터베이스에 저장함으로써, 차후 다른 문서 검사 시, 활용하도록 함에 있다. In addition, the third object of the present invention is to store the sentence in the personal database in case of a sentence that has not been searched through both web search and personal database search, so that it can be used later when inspecting other documents.

이러한 기술적 과제를 달성하기 위하여, 본 발명은, 복사 문서 판별 시스템에 관한 것으로서, 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 문장 추출모듈; 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 웹 검색모듈; 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 사용자의 개인 데이터베이스 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스에 존재하는지 여부를 판단하는 개인 데이터베이스 검색모듈; 및 상기 문장 추출모듈로부터 검사대상 문서를 입력받고, 웹 검색모듈 및 개인 데이터베이스 검색모듈로부터 웹 검색정보 및 데이터베이스 검색정보를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 보고서 생성모듈; 을 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, the present invention relates to a copy document identification system, which receives a user's inspection target document, a sentence extraction module for extracting a specific sentence consisting of a plurality of words; A web search module for determining whether a sentence or phrase matching the extracted sentence exists on the internet web by performing an internet web search using the sentence extracted by the sentence extracting module; A personal database search module for determining whether a sentence or phrase matching the extracted sentence exists in the user's personal database by performing a user's personal database search using the sentence extracted through the sentence extraction module; And receiving a document to be inspected from the sentence extraction module, receiving web search information and a database search information from a web search module and a personal database search module, respectively, and analyzing a test target document and a document to be compared to analyze a report on the test target document. Report generation module for generating information; Characterized in that it comprises a.

또한, 본 발명은 복사 문서 판별 방법에 관한 것으로서, (a) 문장 추출모듈이 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 과정; (b) 웹 검색모듈이 상기 문장 추출모듈을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 과정; (c) 상기 (b) 과정 판단결과, 존재할 경우 상기 웹 검색모듈이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭을 포함하는 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 를 생성하는 과정; (d) 상기 (b) 과정의 판단결과, 존재하지 않을 경우 개인 데이터베이스 검색모듈이 사용자의 개인 데이터베이스 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스에 존재하는지 여부를 판단하는 과정; (e) 상기 (d) 과정의 판단결과, 존재할 경우 상기 개인 데이터베이스 검색모듈이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭이 포함된 비교대상 문서의 출처정보가 포함된 '데이터베이스 검색정보' 를 생성하는 과정; (f) 보고서 생성모듈이 상기 문장 추출모듈로부터 검사대상 문서를 입력받고, 상기 웹 검색모듈 및 개인 데이터베이스 검색모듈로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보' 를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 과정; 을 포함하는 것을 특징으로 한다.In addition, the present invention relates to a copy document discrimination method, comprising: (a) a sentence extracting module receiving a user's inspection target document and extracting a specific sentence composed of a plurality of words; (b) the web search module performing an internet web search using the sentences extracted by the sentence extraction module to determine whether a sentence or phrase matching the extracted sentence exists on the internet web; (c) as a result of the process (b), if it exists, the web search module sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence is searched, and the URL or Generating 'web search information' including source information of a comparison target document including a file name; (d) As a result of the determination of step (b), if it does not exist, the personal database search module searches the user's personal database to determine whether a sentence or phrase matching the extracted sentence exists in the user's personal database. process; (e) if the determination result of step (d) indicates that the personal database search module, if present, sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence is searched, Generating 'database search information' including source information of a comparison target document including a URL or a file name; (f) the report generation module receives the document to be inspected from the sentence extraction module, the sentence set to be copied from the web search module and the personal database search module, the original content of the comparison document from which the sentence is searched, and the document to be compared. Generating report information about the inspection target document by receiving the 'web search information' and 'database search information' including the source information of each, and analyzing the inspection target document and the comparison target document; Characterized in that it comprises a.

상기와 같은 본 발명에 따르면, 검사하고자 하는 문서를 일정 비율 이상 복사된 것으로, 따로 필터링이 가능한 바, 사용자로 하여금 복사 여부 확인을 위한 시간을 절약할 수 있는 효과가 있다. According to the present invention as described above, the document to be examined is copied to a certain ratio or more, bar filtering is possible separately, there is an effect that the user can save time for checking whether the copy.

또한 본 발명에 따르면, 웹 검색 뿐 아니라, 개인 데이터베이스를 통해 검색을 수행함으로써, 복사 여부 판별율을 높일 수 있는 효과도 있다. In addition, according to the present invention, by performing a search through a personal database as well as the web search, there is an effect that can increase the discrimination rate.

또한, 본 발명에 따르면, 웹 검색 및 개인 데이터베이스 검색을 통해 모두 검색이 되지 않은 문장의 경우, 해당 문장을 개인 데이터베이스에 저장함으로써, 차후 다른 문서 검사 시, 활용할 수 있는 효과도 있다. In addition, according to the present invention, in the case of a sentence that has not been searched through both web search and personal database search, by storing the sentence in a personal database, there is an effect that can be utilized when checking other documents later.

그리고 본 발명에 따르면, 복사된 글자의 비율 및 그 비율에 따른 색상으로 차등 표시하고, 복사된 원본 내용 및 그 출처를 표시함으로써, 사용자로 하여금 복사된 문장에 대한 확인이 용이한 효과도 있다. In addition, according to the present invention, by differentially displaying the ratio of the copied text and the color according to the ratio, and displaying the copied original content and its source, the user can easily check the copied text.

본 발명의 구체적 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.Specific features and advantages of the present invention will become more apparent from the following detailed description based on the accompanying drawings. In the meantime, when it is determined that the detailed description of the known function and the configuration related to the present invention may unnecessarily obscure the subject matter of the present invention, it should be noted that the detailed description is omitted.

이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명한다. Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.

본 발명에 따른 복사 문서 판별 시스템(S)에 관하여 도 1 내지 도 4 를 참조하여 설명하면 다음과 같다. The copy document determination system S according to the present invention will be described with reference to FIGS. 1 to 4 as follows.

도 1 은 본 발명에 따른 복사 문서 판별 시스템(S)을 개념적으로 도시한 전체 구성도이며, 도 2 는 본 발명에 따른 보고서 생성모듈(400)에 관한 세부 구성도이며, 도 3 은 본 발명에 따른 비교대상 문서에 대한 검사대상 문서의 생성 정보를 보이는 일예시도이며, 도 4 는 본 발명에 따른 다수의 검사대상 문서에 대한 종합 보고서 정보를 보이는 일예시도이다. 1 is an overall configuration diagram conceptually illustrating a copy document determination system S according to the present invention, FIG. 2 is a detailed configuration diagram of the report generation module 400 according to the present invention, and FIG. FIG. 4 is an exemplary view showing generation information of an inspection target document for a comparison target document, and FIG. 4 is an exemplary view showing comprehensive report information on a plurality of inspection target documents according to the present invention.

도 1 에 도시된 바와 같이, 본 발명에 따른 복사 문서 판별 시스템(S)은 문장 추출모듈(100), 웹 검색모듈(200), 개인 데이터베이스 검색모듈(300) 및 보고서 생성모듈(400)을 포함하여 이루어진다. As shown in FIG. 1, the copy document determination system S according to the present invention includes a sentence extraction module 100, a web search module 200, a personal database search module 300, and a report generation module 400. It is done by

문장 추출모듈(100)은 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장(sentence)을 추출한다. 즉, 문장 추출모듈(100)은 검사대상 문서 전체를 각각의 문장으로 구분하여 추출할 수 있으며, 검사대상 문서 중, 하나의 문장만을 추출할 수도 있다. The sentence extraction module 100 receives a user's inspection target document and extracts a specific sentence composed of a plurality of words. That is, the sentence extraction module 100 may extract the entire inspection target document into respective sentences, and may extract only one sentence among the inspection target documents.

여기서, 특정 문장은, 따옴표, 마침표 등의 특수기호로 구분될 수 있으며, 띄어쓰기에 의해 다수의 어절(문장 성분의 최소단위)로 이루어진다. Here, the specific sentence may be divided into special symbols such as quotation marks and periods, and may be composed of a plurality of words (minimum units of sentence components) by spaces.

예를 들어, "본 발명은 복사 문서 판별 시스템에 관한 것으로서" 라는 하나의 문장은, '본' , '발명은' , '복사' , '문서' , '판별' , '시스템에', '관한', ' 것으로서' 와 같이 8개의 어절로 이루어진 것으로 볼 수 있다. For example, one sentence, "The present invention relates to a copy document discrimination system," may be used to refer to a copy, an invention, a copy, a document, a discrimination, a system, It can be regarded as composed of eight words such as', 'as'.

또한, 웹 검색모듈(200)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단한다.In addition, the web search module 200 performs an internet web search using the sentences extracted by the sentence extraction module 100 to determine whether a sentence or phrase that matches the extracted sentence exists on the internet web.

판단결과, 존재할 경우 웹 검색모듈(200)은 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 이른바, '웹 검색정보' 를 생성한다.As a result of determination, the web search module 200, if present, sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence is searched, and the source (URL or Create a so-called 'web search information' containing file name) information.

또한, 개인 데이터베이스 검색모듈(300)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단한다.In addition, the personal database search module 300 performs a search of the user's personal database 310 by using the sentence extracted by the sentence extraction module 100, so that the sentence or phrase matching the extracted sentence is the user's personal database 310. ) To determine if it exists.

판단결과, 존재할 경우 개인 데이터베이스 검색모듈(300)은 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 이른바, '데이터베이스 검색정보' 를 생성한다.As a result of determination, the personal database search module 300, if present, sets the sentence as a copied sentence, the sentence set as copied, the original content of the comparison target document in which the sentence was searched, and the source of the comparison target document (URL). Or 'database search information' including file name) information.

한편, 문장 추출모듈(100)을 통해 추출된 문장이, 웹 검색모듈(200)과 개인 데이터베이스 검색모듈(300)을 통해 모두 검색이 되지 않을 경우, 개인 데이터베이 스 검색모듈(300)은 이러한 문장은 개인 데이터베이스(310)에 저장한다. On the other hand, if the sentence extracted through the sentence extraction module 100 is not searched through both the web search module 200 and the personal database search module 300, the personal database search module 300 is such a sentence Stores in the personal database 310.

즉, 이러한 문장은, 기존에 저장된 문장(또는 문서) 이외에, 차후 이루어지는 개인 데이터베이스(310) 검색 시, 사용되는 비교대상 문서로서 저장되는 것으로 이해하는 것이 바람직하다. That is, it is preferable to understand that such sentences are stored as comparison target documents to be used when searching the personal database 310 to be performed in addition to the previously stored sentences (or documents).

그리고, 보고서 생성모듈(400)은 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보'를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 기능을 수행하는 바, 도 2 에 도시된 바와 같이, 글자 수 계산부(410), 비율 계산부(420) 및 원본 내용 추출부(430)를 포함한다. In addition, the report generation module 400 receives the inspection target document from the sentence extraction module 100, the sentence set to be copied from the web search module 200 and the personal database search module 300, and the corresponding sentence is compared Generates report information on the document to be inspected by analyzing the document to be inspected and the document to be compared by receiving the original document contents and 'web search information' and 'database search information' including the source information of the compared document. As shown in FIG. 2, a character count calculator 410, a ratio calculator 420, and an original content extractor 430 are included.

글자 수 계산부(410)는 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산한다.The character count calculator 410 receives the document to be examined from the sentence extraction module 100, calculates the total number of characters of the document to be inspected, and is copied from the web search module 200 and the personal database search module 300. The set sentence is compared with the original content of the comparison target document in which the sentence is searched, and the number of characters copied on the web and the number of characters copied in the personal database are calculated.

비율 계산부(420)는 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시한다.  The ratio calculation unit 420 calculates the ratio of the copied characters based on the total number of characters of the inspection target document, the number of characters copied on the web, and the number of characters copied from the personal database, and calculates the ratio of the copied characters in color according to the calculated ratio. Differential display.

본 실시예에서, 복사된 글자의 비율을 50%~100%는 빨간색, 20%~49는 노란색, 그 이하는 녹색으로 설정하겠으나, 본 발명이 이에 한정되지 않는 바, 다양하게 설계변경 가능하다. In the present embodiment, the ratio of the copied letters is set to 50% to 100% in red, 20% to 49 in yellow, and the following are green, but the present invention is not limited thereto, and various design changes are possible.

원본 내용 추출부(430)는 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 입력된, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용 및 비교대상 문서의 출처정보가 포함된 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 를 바탕으로, 복사된 문장의 해당 내용 및 그 출처를 추출한다. The original content extraction unit 430 is a sentence set to be copied, input from the web search module 200 and the personal database search module 300, and the source information of the comparison target document original content and the comparison target document searched for the sentence Based on the included 'web search information' and 'database search information', the corresponding content of the copied sentence and its source are extracted.

이에 따라, 보고서 생성모듈(400)은 도 3 에 도시된 바와 같이, 비교대상 문서에 대한 검사대상 문서의 정보 즉, 파일명(A), 전체 글자 수(B), 웹 상에서 복사된 글자 수(C), 개인 데이터베이스에서 복사된 글자 수(D), 복사된 비율(E) 및 그에 따른 색상(F), 비교대상 문서의 원본 내용(G) 및 그 출처(H)에 관한 정보를 세부적으로 생성하여 나타낼 수 있다. Accordingly, the report generation module 400, as shown in Figure 3, the information of the inspection target document for the comparison target document, that is, the file name (A), the total number of characters (B), the number of characters copied on the web (C ), Information about the number of characters copied (D), the proportion copied (E) and the corresponding color (F) from the personal database, the original content (G) of the document to be compared and its source (H) Can be represented.

이때, 본 발명에 따른 보고서 생성모듈(400)은 상기 도 3 에 나타낸 바와 같이, 단일의 검사대상 문서에 대하여, 단일의 비교대상 문서에 대한 보고서 정보를 생성하여 도시하고 있으나, 도 4 에 도시된 바와 같이 다수의 검사대상 문서에 대한 종합 보고서 정보를 생성할 수 있으며, 도시하지는 않았으나 단일의 검사대상 문서에 대하여 다수의 비교대상 문서에 대한 보고서 정보를 생성할 수 있음은 당연하다. In this case, the report generation module 400 according to the present invention generates and shows report information for a single comparison target document for a single inspection target document, as shown in FIG. As described above, comprehensive report information on a plurality of inspection target documents can be generated, and although not shown, report information on a plurality of comparison target documents can be generated for a single inspection target document.

상술한 시스템(S)을 이용한 복사 문서 판별 방법에 관하여 도 5 및 도 6 을 참조하여 설명하면 다음과 같다. A method of determining a copy document using the above-described system S will be described with reference to FIGS. 5 and 6 as follows.

도 5 는 본 발명에 따른 복사 문서 판별 방법에 관한 전체 흐름도이며, 도 6 은 본 발명에 따른 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 제 S90 과정에 관한 세부 흐름도이다. 5 is a flowchart illustrating a method of determining a copy document according to the present invention, and FIG. 6 is a detailed description of the process S90 of generating report information about an inspection target document by analyzing the inspection target document and the comparison target document according to the present invention. It is a flow chart.

도 5 에 도시된 바와 같이 문장 추출모듈(100)은 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출한다(S10).As shown in FIG. 5, the sentence extracting module 100 receives a user's inspection target document and extracts a specific sentence composed of a plurality of words (S10).

이후, 웹 검색모듈(200)은 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단한다(S20).Thereafter, the web search module 200 performs an internet web search using the sentences extracted by the sentence extraction module 100 to determine whether a sentence or phrase matching the extracted sentence exists on the internet web (S20). ).

제 S20 과정의 판단결과, 존재할 경우 웹 검색모듈(200)은 해당 문장을 복사된 문장으로 설정하고(S30), 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 '웹 검색정보' 를 생성한다(S40).As a result of the determination of step S20, if present, the web search module 200 sets the sentence as a copied sentence (S30), the sentence set as copied, the original content of the comparison target document in which the sentence is searched, and the comparison target. Create 'web search information' including the source (URL or file name) information of the document (S40).

한편, 제 S20 과정의 판단결과, 존재하지 않을 경우 개인 데이터베이스 검색모듈(300)은 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단한다(S50).On the other hand, as a result of the determination in step S20, if there is no personal database search module 300 performs a search of the user's personal database 310, the sentence or phrase matching the extracted sentence is stored in the user's personal database 310 It is determined whether there exists (S50).

제 S50 과정의 판단결과, 존재할 경우 개인 데이터베이스 검색모듈(300)은 해당 문장을 복사된 문장으로 설정하고(S60), 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, 비교대상 문서의 출처(URL 또는 파일명칭)정보가 포함된 '데이터베이스 검색정보' 를 생성한다(S70).As a result of the determination of step S50, the personal database search module 300, if present, sets the sentence as a copied sentence (S60), the sentence set as copied, and the original content of the comparison target document in which the sentence is searched and compared. Generate 'database search information' including the source (URL or file name) information of the target document (S70).

한편, 제 S50 과정의 판단결과, 존재하지 않을 경우, 개인 데이터베이스 검색모듈(300)은 해당 문장을 개인 데이터베이스(310)에 저장한다(S80). On the other hand, if the determination result of step S50, if not present, the personal database search module 300 stores the sentence in the personal database 310 (S80).

이후, 보고서 생성모듈(400)은 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보' 를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성한다(S90).Subsequently, the report generation module 400 receives the inspection target document from the sentence extraction module 100, compares the sentence set to be copied from the web search module 200 and the personal database search module 300, and the corresponding sentence is searched. Generates report information on the document to be inspected by analyzing the document to be inspected and the document to be compared by receiving the original document contents and 'web search information' and 'database search information' including the source information of the compared document. (S90).

도 6 을 참조하여 제 S90 과정을 상세히 살피면, 도시된 바와 같이 보고서 생성모듈(400)의 글자 수 계산부(410)는 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하고(S92), 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산한다(S94).Referring to FIG. 6, the process of S90 is described in detail. As shown, the character count calculator 410 of the report generation module 400 receives the inspection target document from the sentence extraction module 100 to display all the characters of the inspection target document. Counting (S92), by comparing the sentences set to be copied from the web search module 200 and the personal database search module 300 and the original content of the comparison target document searched for the sentence, the number of characters copied on the web and The number of characters copied from the personal database is calculated (S94).

또한, 비율 계산부(420)는 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시한다(S96).In addition, the ratio calculation unit 420 calculates the ratio of the copied characters based on the total number of characters of the inspection target document, the number of characters copied on the web, and the number of characters copied from the personal database, and according to the calculated ratio. Differential display in color (S96).

이후, 원본 내용 추출부(430)는 웹 검색모듈(200) 및 개인 데이터베이스 검 색모듈(300)로부터 입력된 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 즉, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보를 바탕으로, 복사된 문장의 해당 내용 및 그 출처를 추출한다(S98). Then, the original content extraction unit 430 is the 'web search information' and 'database search information' input from the web search module 200 and the personal database search module 300, that is, the sentence set to be copied, and Based on the original content of the comparison target document in which the sentence was searched and the source information of the comparison target document, the corresponding content of the copied sentence and its source are extracted (S98).

이상에서 설명한 본 발명은 국문에만 적용되는 것은 아니며, 영문을 비롯한 타 언어에 대해서도 능히 적용될 수 있다. 또한, 본 발명은 상술한 각 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록매체에도 구현될 수 있다. The present invention described above is not only applicable to the Korean language, but can also be applied to other languages including English. Further, the present invention can also be implemented in a program for realizing a function corresponding to each of the above-described configurations, or in a recording medium on which the program is recorded.

그리고, 이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다. And while described and illustrated in connection with a preferred embodiment for illustrating the technical idea of the present invention, the present invention is not limited to the configuration and operation as shown and described as described above, it deviates from the scope of the technical idea It will be appreciated by those skilled in the art that many modifications and variations can be made to the present invention without departing from the scope of the invention. Accordingly, all such suitable changes and modifications and equivalents should be considered to be within the scope of the present invention.

도 1 은 본 발명에 따른 복사 문서 판별 시스템을 개념적으로 도시한 전체 구성도.1 is an overall configuration diagram conceptually showing a copy document discrimination system according to the present invention;

도 2 는 본 발명에 따른 보고서 생성모듈에 관한 세부 구성도.Figure 2 is a detailed configuration diagram for the report generation module according to the present invention.

도 3 은 본 발명에 따른 비교대상 문서에 대한 검사대상 문서의 생성 정보를 보이는 일예시도.3 is an exemplary view showing generation information of an inspection target document for a comparison target document according to the present invention;

도 4 는 본 발명에 따른 다수의 검사대상 문서에 대한 종합 보고서 정보를 보이는 일예시도.Figure 4 is an exemplary view showing the comprehensive report information for a plurality of inspection target documents in accordance with the present invention.

도 5 는 본 발명에 따른 복사 문서 판별 방법에 관한 전체 흐름도.5 is an overall flowchart of a copy document discrimination method according to the present invention;

도 6 은 본 발명에 따른 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 과정에 관한 세부 흐름도. 6 is a detailed flowchart of a process of generating report information about an inspection target document by analyzing the inspection target document and the comparison target document according to the present invention;

** 도면의 주요 부분에 대한 부호의 설명 **** Description of symbols for the main parts of the drawing **

S: 복사 문서 판별 시스템S: copy document determination system

100: 문장 추출모듈 200: 웹 검색모듈100: sentence extraction module 200: web search module

300: 개인 데이터베이스 검색모듈 400: 보고서 생성모듈300: personal database search module 400: report generation module

410: 글자 수 계산부 420: 비율 계산부410: character count calculator 420: ratio calculator

430: 원본 내용 추출부430: original content extraction unit

Claims (8)

복사 문서 판별 시스템(S)에 있어서,In the copy document determination system S, 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 문장 추출모듈(100);A sentence extraction module 100 which receives a user's inspection target document and extracts a specific sentence composed of a plurality of words; 상기 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 웹 검색모듈(200);A web search module 200 which determines whether a sentence or phrase that matches the extracted sentence exists on the internet web by performing an internet web search using the sentence extracted by the sentence extraction module 100; 상기 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단하는 개인 데이터베이스 검색모듈(300); 및By searching the user's personal database 310 by using the sentence extracted by the sentence extraction module 100, an individual who determines whether a sentence or phrase matching the extracted sentence exists in the user's personal database 310 Database search module 300; And 상기 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 웹 검색정보 및 데이터베이스 검색정보를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 보고서 생성모듈(400); 을 포함하는 것을 특징으로 하는 복사 문서 판별 시스템.The document to be inspected is input from the sentence extraction module 100, the web search information and the database search information are received from the web search module 200 and the personal database search module 300, respectively. A report generation module 400 for generating report information on the document to be inspected by analyzing the document; Copy document determination system comprising a. 제 1 항에 있어서,The method of claim 1, 상기 웹 검색모듈(200)은,The web search module 200, 상기 문장 추출모듈(100)을 통해 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재할 경우, If a sentence or phrase matching the sentence extracted by the sentence extraction module 100 exists on the Internet web, 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭을 포함하는 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 를 생성하는 것을 특징으로 하는 복사 문서 판별 시스템.After setting the sentence as a copied sentence, the web search information including the sentence set as copied, the original content of the compared document searched for the sentence, and the source information of the compared document including a URL or file name A copy document identification system, characterized in that for generating '. 제 1 항에 있어서,The method of claim 1, 상기 개인 데이터베이스 검색모듈(300)은,The personal database search module 300, 상기 문장 추출모듈(100)을 통해 추출한 문장과 일치하는 문장 또는 구문이 개인 데이터베이스(310)에 존재할 경우, If a sentence or phrase matching the sentence extracted by the sentence extraction module 100 exists in the personal database 310, 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭을 포함하는 비교대상 문서의 출처정보가 포함된 '데이터베이스 검색정보' 를 생성하는 것을 특징으로 하는 복사 문서 판별 시스템.After setting the sentence as a copied sentence, the 'database search information' including the sentence set as copied, the original content of the compared document searched for the sentence, and source information of the compared document including a URL or file name A copy document identification system, characterized in that for generating '. 제 1 항에 있어서,The method of claim 1, 상기 개인 데이터베이스 검색모듈(300)은, The personal database search module 300, 상기 문장 추출모듈(100)을 통해 추출된 문장이, 웹 검색모듈(200)과 개인 데이터베이스 검색모듈(300)을 통해 모두 검색이 되지 않을 경우, 상기 추출된 문장을 개인 데이터베이스(310)에 저장하는 것을 특징으로 하는 복사 문서 판별 시스템.When the sentences extracted through the sentence extraction module 100 are not searched through both the web search module 200 and the personal database search module 300, the extracted sentences are stored in the personal database 310. Copy document identification system, characterized in that. 제 1 항에 있어서,The method of claim 1, 상기 보고서 생성모듈(400)은, The report generation module 400, 상기 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하고, 상기 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산하는 글자 수 계산부(410); Receiving the inspection target document from the sentence extraction module 100, calculates the total number of characters of the inspection target document, the sentence set to be copied from the web search module 200 and the personal database search module 300, and the corresponding sentence A character count calculator 410 for comparing the retrieved comparison target document contents and calculating the number of characters copied on the web and the number of characters copied from a personal database; 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시하는 비율 계산부(420); 및 Based on the total number of characters in the document to be inspected, the number of characters copied on the web, and the number of characters copied from the personal database, a ratio calculating unit calculates the ratio of the copied characters and displays them in color according to the calculated ratio. 420); And 상기 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 를 바탕으로, 복사된 문장의 해당 내용 및 그 출처를 추출하는 원본 내용 추출부(430); 를 포함하는 것을 특징으로 하는 복사 문서 판별 시스템.Based on the 'web search information' and 'database search information' from the web search module 200 and the personal database search module 300, the original content extraction unit 430 for extracting the corresponding content of the copied sentence and its source ); Copy document determination system comprising a. 문장 추출모듈(100), 웹 검색모듈(200), 개인 데이터베이스 검색모듈(300) 및 보고서 생성모듈(400)을 포함하는 시스템(S)을 이용한 복사 문서 판별 방법에 있어서, In the copy document determination method using a system (S) including a sentence extraction module 100, a web search module 200, a personal database search module 300 and a report generation module 400, (a) 상기 문장 추출모듈(100)이 사용자의 검사대상 문서를 입력받아, 다수개의 어절로 이루어진 특정 문장을 추출하는 과정;(a) the sentence extraction module 100 receiving a user's inspection target document and extracting a specific sentence composed of a plurality of words; (b) 상기 웹 검색모듈(200)이 상기 문장 추출모듈(100)을 통해 추출한 문장을 이용하여 인터넷 웹 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 인터넷 웹 상에 존재하는지 여부를 판단하는 과정;(b) the web search module 200 performs an internet web search using the sentences extracted by the sentence extraction module 100 to determine whether a sentence or phrase matching the extracted sentence exists on the internet web. Process of doing; (c) 상기 (b) 과정 판단결과, 존재할 경우 상기 웹 검색모듈(200)이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭을 포함하는 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 를 생성하는 과정;(c) as a result of the process (b), if the web search module 200, if present, sets the sentence as a copied sentence, the sentence set as copied, and the original content of the comparison target document in which the sentence is searched. Generating 'web search information' including source information of a comparison target document including a URL or a file name; (d) 상기 (b) 과정의 판단결과, 존재하지 않을 경우 상기 개인 데이터베이스 검색모듈(300)이 사용자의 개인 데이터베이스(310) 검색을 수행함으로써, 추출한 문장과 일치하는 문장 또는 구문이 사용자의 개인 데이터베이스(310)에 존재하는지 여부를 판단하는 과정;(d) As a result of the determination of step (b), if it does not exist, the personal database search module 300 searches the user's personal database 310, so that the sentence or phrase matching the extracted sentence is the user's personal database. Determining whether it is present at 310; (e) 상기 (d) 과정의 판단결과, 존재할 경우 상기 개인 데이터베이스 검색모 듈(300)이 해당 문장을 복사된 문장으로 설정한 후, 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서의 원본 내용과, URL 또는 파일명칭이 포함된 비교대상 문서의 출처정보가 포함된 '데이터베이스 검색정보' 를 생성하는 과정;(e) As a result of the determination of step (d), if it exists, the personal database search module 300 sets the sentence as a copied sentence, and then sets the copied sentence and the comparison target document in which the sentence is found. Generating 'database search information' including original content and source information of a comparison target document including a URL or file name; (f) 상기 보고서 생성모듈(400)이 상기 문장 추출모듈(100)로부터 검사대상 문서를 입력받고, 상기 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용과, 비교대상 문서의 출처정보가 포함된 '웹 검색정보' 및 '데이터베이스 검색정보' 를 각각 입력받아, 검사대상 문서와 비교대상 문서를 분석함으로써 검사대상 문서에 관한 보고서 정보를 생성하는 과정; 을 포함하는 것을 특징으로 하는 복사 문서 판별 방법.(f) the report generation module 400 receives the inspection target document from the sentence extraction module 100, and the sentence set as copied from the web search module 200 and the personal database search module 300, and The contents of the document to be compared are searched by receiving the original contents of the document to be searched and the 'web search information' and 'database search information' including the source information of the document to be compared. Generating report information; Copy document determination method comprising a. 제 6 항에 있어서,The method of claim 6, (e-1) 상기 (d) 과정의 판단결과, 존재하지 않을 경우, (e-1) If the determination result of step (d) does not exist, 상기 개인 데이터베이스 검색모듈(300)이 해당 문장을 개인 데이터베이스(310)에 저장하는 과정; 을 더 포함하는 것을 특징으로 하는 복사 문서 판별 방법.Storing, by the personal database search module 300, the sentence in the personal database 310; Copy document determination method further comprises. 제 6 항에 있어서,The method of claim 6, 상기 (f) 과정은, The above (f) process, (f-1) 보고서 생성모듈(400)의 글자 수 계산부(410)가 상기 문장 추출모듈(100)로부터 검사대상 문서를 입력받아 검사대상 문서의 전체 글자 수를 계산하는 단계; (f-1) the character count calculator 410 of the report generation module 400 receiving the inspection target document from the sentence extraction module 100 and calculating the total number of characters of the inspection target document; (f-2) 보고서 생성모듈(400)의 글자 수 계산부(410)가 상기 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 복사된 것으로 설정된 문장과, 해당 문장이 검색된 비교대상 문서 원본 내용을 비교하여, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 계산하는 단계; (f-2) a sentence set by the character count calculating unit 410 of the report generation module 400 is copied from the web search module 200 and the personal database search module 300, and the comparison target document in which the sentence is searched. Comparing original contents to calculate the number of characters copied on the web and the number of characters copied from a personal database; (f-3) 보고서 생성모듈(400)의 비율 계산부(420)가 검사대상 문서의 전체 글자 수와, 웹 상에서 복사된 글자 수 및 개인 데이터베이스에서 복사된 글자 수를 바탕으로, 복사된 글자의 비율을 계산하고, 계산된 비율에 따라 색상으로 차등 표시하는 단계; 및 (f-3) The ratio calculation unit 420 of the report generation module 400 determines the number of copied characters based on the total number of characters of the document to be inspected, the number of characters copied on the web, and the number of characters copied from the personal database. Calculating a ratio and differentially displaying the color according to the calculated ratio; And (f-4) 보고서 생성모듈(400)의 원본 내용 추출부(430)가 상기 웹 검색모듈(200) 및 개인 데이터베이스 검색모듈(300)로부터 입력된 상기 '웹 검색정보' 및 '데이터베이스 검색정보' 를 바탕으로 복사된 문장의 해당 내용 및 그 출처를 추출하는 단계; 를 포함하는 것을 특징으로 복사 문서 판별 방법.(f-4) the 'web search information' and 'database search information' inputted by the original content extraction unit 430 of the report generation module 400 from the web search module 200 and the personal database search module 300; Extracting the corresponding content of the copied sentence and its source based on the result; Copy document determination method comprising a.
KR1020090033551A 2009-04-17 2009-04-17 System for distinguishing copy document and method therefor KR20100115048A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090033551A KR20100115048A (en) 2009-04-17 2009-04-17 System for distinguishing copy document and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090033551A KR20100115048A (en) 2009-04-17 2009-04-17 System for distinguishing copy document and method therefor

Publications (1)

Publication Number Publication Date
KR20100115048A true KR20100115048A (en) 2010-10-27

Family

ID=43134022

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090033551A KR20100115048A (en) 2009-04-17 2009-04-17 System for distinguishing copy document and method therefor

Country Status (1)

Country Link
KR (1) KR20100115048A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101634681B1 (en) * 2015-09-03 2016-06-29 주식회사 무하유 Method and program for searching quoted phrase in document
KR20170078777A (en) * 2014-10-30 2017-07-07 알리바바 그룹 홀딩 리미티드 Web page deduplication method and apparatus
CN113239016A (en) * 2021-06-01 2021-08-10 通号智慧城市研究设计院有限公司 Database design assistance apparatus and method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170078777A (en) * 2014-10-30 2017-07-07 알리바바 그룹 홀딩 리미티드 Web page deduplication method and apparatus
US10691769B2 (en) 2014-10-30 2020-06-23 Alibaba Group Holding Limited Methods and apparatus for removing a duplicated web page
KR101634681B1 (en) * 2015-09-03 2016-06-29 주식회사 무하유 Method and program for searching quoted phrase in document
CN113239016A (en) * 2021-06-01 2021-08-10 通号智慧城市研究设计院有限公司 Database design assistance apparatus and method
CN113239016B (en) * 2021-06-01 2024-04-02 通号智慧城市研究设计院有限公司 Database design assistance apparatus and method

Similar Documents

Publication Publication Date Title
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
CN115204110A (en) Extracting searchable information from digitized documents
JP2007226792A (en) Table of content extraction with improved robustness
JP2002297588A (en) Method, program and apparatus for automatic creation for dictionary of translation example
CN111488466A (en) Chinese language error corpus generating method, calculating device and storage medium
US20060285746A1 (en) Computer assisted document analysis
JP5508953B2 (en) Document processing apparatus and program
CN113673294B (en) Method, device, computer equipment and storage medium for extracting document key information
KR20100115048A (en) System for distinguishing copy document and method therefor
US20120265520A1 (en) Text processor and method of text processing
US12045280B2 (en) Method and system for facilitating keyword-based searching in images
JP6056489B2 (en) Translation support program, method, and apparatus
Kurmi et al. Text summarization using enhanced MMR technique
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
CN116360794A (en) Database language analysis method, device, computer equipment and storage medium
Vesanto Detecting and analyzing text reuse with BLAST
CN115908027A (en) Financial data consistency auditing module of financial long text rechecking system
TWI598754B (en) Method,computer program and computer-readable recording medium for essay and reference analysis
JP2006309347A (en) Method, system, and program for extracting keyword from object document
JP2006119697A (en) Question answering system, question answering method, and question answering program
Heinzerling et al. Visual error analysis for entity linking
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
Stahl et al. Mind the Gap: Automated Corpus Creation for Enthymeme Detection and Reconstruction in Learner Arguments
CN113722421A (en) Contract auditing method and system and computer readable storage medium
JP6677158B2 (en) Document data processing apparatus, document data processing method, and document data processing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application