KR101453867B1 - Method of copy detection visualizing copy sections with a unified document tpye - Google Patents

Method of copy detection visualizing copy sections with a unified document tpye Download PDF

Info

Publication number
KR101453867B1
KR101453867B1 KR1020120084666A KR20120084666A KR101453867B1 KR 101453867 B1 KR101453867 B1 KR 101453867B1 KR 1020120084666 A KR1020120084666 A KR 1020120084666A KR 20120084666 A KR20120084666 A KR 20120084666A KR 101453867 B1 KR101453867 B1 KR 101453867B1
Authority
KR
South Korea
Prior art keywords
document
simulation
simulated
query
section
Prior art date
Application number
KR1020120084666A
Other languages
Korean (ko)
Other versions
KR20140018508A (en
Inventor
박호진
양희민
윤도현
이명현
이현우
권영현
박희근
안영민
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020120084666A priority Critical patent/KR101453867B1/en
Publication of KR20140018508A publication Critical patent/KR20140018508A/en
Application granted granted Critical
Publication of KR101453867B1 publication Critical patent/KR101453867B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Abstract

본 발명은 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법에 관한 것이다.
본 발명의 방법은, (a) 입력수단에 의해 모사 검출 시스템으로 질의문서를 입력하는 단계; (b) 모사 검출 시스템 내의 모사대상문서군집을 검색하여 모사 대상 문서를 찾는 단계; (c) 모사 대상 문서들의 본문들을 1개의 문서로 통합하는 단계; (d) 1:N(N은 자연수) 모사검출연산을 통합문서와 1:1로 처리하는 단계; 및 (e) 1개의 통합보기(상기 질의 문서 본문의 모사 구간을 메인으로 하고, 상기 모사 대상 문서 본문의 모사구간을 서브로 하여 1개의 문서로 통합한다) 형태로 1:N(N은 자연수)의 모사 검출 결과를 상기 모사 검출 시스템의 단말 화면을 통해 출력하는 단계를 포함한다.
The present invention relates to a simulation detection method for visualizing a simulation section in an integrated view form.
The method includes the steps of: (a) inputting a query document into a simulation detection system by input means; (b) searching a document cluster to be copied in the copy detection system to find a document to be copied; (c) merging the texts of the documents to be copied into one document; (d) processing 1: N (N is a natural number) simulation detection operation with the integrated document in 1: 1; 1: N (N is a natural number) in the form of one integrated view (main section of the query document body is main, and the simulation section of the body of the document to be copied is subordinated to one document) And outputting the result of the simulation detection on the terminal screen of the simulation detection system.

Description

통합보기 형태로 모사구간을 가시화하는 모사 검출 방법{METHOD OF COPY DETECTION VISUALIZING COPY SECTIONS WITH A UNIFIED DOCUMENT TPYE}METHOD OF COPY DETECTION VISUALIZING COPY SECTIONS WITH A UNIFIED DOCUMENT TYPE "

본 발명은 문서의 모사 검출을 하는 방법에 관한 것이다.
The present invention relates to a method for performing a simulated detection of a document.

오늘날 인터넷이 발달한 시대에서는 검색 엔진을 통해서 자신이 원하는 형태의 자료를 쉽게 찾을 수 있다. 그리고 자료를 편집할 수 있는 다양한 도구들이 개발되어 있기 때문에 원하는 자료를 다양한 형태로 손쉽게 가공할 수 있게 됐다. 그 결과 다른 사람이 작성한 자료를 인터넷으로 검색하고, 검색된 자료를 편집 도구로 읽어와 원하는 형태로 가공하는 과정에서 모사가 비일비재하게 발생하고 있다. 이것은 원저작자 또는 창작자의 권리와 명예를 빼앗을 수 있기 때문에 나쁜 영향을 초래하곤 한다. 예컨대 위와 같은 형태로 가공되고 배포되는 모사 문서의 영역이 논문, 리포트, 기사까지 이르러서 사회적 파장을 피할 수 없게 되는 것이다. 이러한 문제를 해결하기 위해서 모사 검출 시스템을 통해 모사를 미연에 찾아내어 방지하는 데까지 기술이 발전하고 있다.In the age of the Internet today, search engines can easily find the type of data that you want. And because there are various tools to edit the data, it is possible to easily process the desired data in various forms. As a result, there is a common occurrence in the process of searching the data created by other people on the Internet, reading the retrieved data with the editing tool, and processing it into a desired form. This can have a negative impact because it can take away the rights and honor of the original author or creator. For example, the area of the simulated document, which is processed and distributed in the above form, reaches the paper, the report, the article, and the social wave can not be avoided. In order to solve these problems, techniques are being developed to detect and prevent duplication through a simulation detection system.

모사 검출 시스템이란, 다양한 종류의 문서들을 비교하여 대상문서들 간의 모사 정도를 표현하고, 모사 영역을 시각화하거나 보고서 형태의 결과를 생성하는 시스템을 말한다. 모사 검출 방식은 크게 두 가지 방식으로 동작한다. 첫 번째 모사 검출 방식인 실시간 모사 검출은, 일반 검색엔진처럼 모사여부를 판단하고자 하는 문서를 질의하여 판별에 이용할 대상 문서들과 비교 및 결과를 도출하는 방식이다. 또 다른 방법인 오프라인 모사 검출은, 주어진 문서들 상호 간 모사 정도를 비교한 후 그에 대한 보고서를 결과로 보여주는 방식이다.A simulation detection system refers to a system that compares various kinds of documents to represent the degree of simulation between target documents, visualize the simulation area, or generate the result of the report form. The simulation detection method operates in two ways. The first simulation detection method, real-time simulation detection, is a method of comparing a document to be used for discrimination and a result, by querying a document to judge whether it is simulated like a general search engine. Another method, offline detection, is a method of comparing the degree of simulation between given documents and then showing the result of the report.

모사 검출 결과에서 특정 문서의 모사도가 높다고 하여 모사 검출 시스템에서 모사 문서라고 정하기에는 어려움이 있다. 긴 인용구를 사용한 문서들 간에는 모사도가 높게 나오지만, 인용구 이외의 부분이 전혀 다른 경우 두 문서는 모사된 문서라고 할 수 없고, 모사도가 낮지만 보호되어야 하는 핵심적인 문맥을 모사한 경우에는 모사된 문서라고 판단해야 하기 때문이다. 즉 최종 판단은 사람이 내려야 하고, 결국 모사 검출 시스템은 사람이 검토해야 하는 문서의 양을 축소하는 역할을 한다. Since there is a high degree of simulation of a specific document in the result of the detection of the simulation, it is difficult to define the document as a simulated document in the simulation detection system. A document with a long quote appears high, but if the quote is completely different, the two documents can not be said to be a simulated document, and if they simulate a core context that has a low degree of mosaicism, It is because we have to judge. In other words, the final judgment must be made by the person, and eventually the simulation detection system serves to reduce the amount of documents that a person has to examine.

따라서 사용자가 모사 검출 시스템을 이용하여 모사 문서들을 효율적으로 검출해내기 위해서는, 기본적으로 중요한 모사도를 계산하는 방법론 이외에, 어떠한 방식으로 모사 검출 결과를 보여주는 것에 대한 방법 또한 진지하게 검토되어야 한다. Therefore, in order for the user to efficiently detect the simulated documents using the simulated detection system, the method of showing the result of the simulated detection in addition to the method of calculating basically important simulations should also be seriously examined.

본 발명의 발명가들은 위와 같은 문제인식 하에 오랫동안 연구 노력한 끝에 본 발명을 완성하게 되었다.
The inventors of the present invention have endeavored to research for a long time under the recognition of the above problems, and thus the present invention has been completed.

본 발명의 목적은 모사를 검출하고자 하는 문서를 모사대상문서군집에 질의한 결과를 도출하고 표시함에 있어서 보다 효율적인 구현 방법을 제공함에 있다. 이를 통해서 보다 빠른 결과 도출 및 효율적인 모사 판단의 근거를 제시하고자 한다.It is an object of the present invention to provide a more efficient implementation method for deriving and displaying a result of querying a document group to be simulated to a document to be simulated. Through this, we are going to present the basis for quicker results and efficient simulation judgment.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
On the other hand, other unspecified purposes of the present invention will be further considered within the scope of the following detailed description and easily deduced from the effects thereof.

위와 같은 목적을 달성하기 위하여, 본 발명의 제1국면은, 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법으로서:In order to achieve the above object, a first aspect of the present invention is a simulation detection method for visualizing a simulation section in an integrated view mode,

(a) 입력수단에 의해 모사 검출 시스템으로 질의문서를 입력하는 단계; (a) inputting a query document into a simulation detection system by an input means;

(b) 모사 검출 시스템 내의 모사대상문서군집을 검색하여 모사 대상 문서를 찾는 단계;(b) searching a document cluster to be copied in the copy detection system to find a document to be copied;

(c) 모사 대상 문서들의 본문들을 1개의 문서로 통합하는 단계;(c) merging the texts of the documents to be copied into one document;

(d) 1:N(N은 자연수) 모사검출연산을 통합문서와 1:1로 처리하는 단계; 및 (d) processing 1: N (N is a natural number) simulation detection operation with the integrated document in 1: 1; And

(e) 1개의 통합보기(상기 질의 문서 본문의 모사 구간을 메인으로 하고, 상기 모사 대상 문서 본문의 모사구간을 서브로 하여 1개의 문서로 통합한다) 형태로 1:N(N은 자연수)의 모사 검출 결과를 상기 모사 검출 시스템의 단말 화면을 통해 출력하는 단계를 포함하는 것을 특징으로 한다. (e) One integrated view (1: N (N is a natural number)) in the form of a merged view (main section of the query document body is main, and the simulation section of the document body of the above- And outputting the result of the simulation detection through the terminal screen of the simulation detection system.

또한, 본 발명에 따른 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법의 바람직한 일 실시예에 있어서, 상기 (c) 단계는, Also, in a preferred embodiment of the simulation detection method for visualizing the simulation section in the integrated view form according to the present invention, the step (c)

(1) 통합하는 과정 중 각 모사 대상 문서의 통합문서 내의 영역 값을 저장하는 단계; (1) storing an area value in a merged document of each simulation target document during a merging process;

(2) 상기 질의문서에 대한 통합문서의 모사도 및 모사구간을 산출하는 단계; 및(2) calculating a simulation diagram and a simulation section of the integrated document with respect to the query document; And

(3) 상기 (1) 단계의 영역 값을 기준으로 통합문서 내에서 모사구간별 모사 대상문서의 본문을 위치시키는 단계를 포함하는 것이 좋다.(3) locating the body of the document to be copied in each of the simulation sections in the integrated document based on the area value in the step (1).

또한, 본 발명에 따른 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법의 바람직한 일 실시예에 있어서, 상기 (e) 단계의 검출결과는 상기 질의문서 본문의 모사구간별로 분리하여 표시하는 1개 이상의 화면 표시 영역을 가지며,Also, in a preferred embodiment of the simulation detection method for visualizing the simulation section in the integrated view type according to the present invention, the detection result of the step (e) may include one or more Screen display area,

상기 화면 표시 영역 내에서 해당 질의문서 본문의 모사구간에 대응하는 모사 대상 문서 본문의 모사구간을 1개 이상의 리스트로 나타내는 것이 좋다.It is preferable that the simulation section of the text of the document to be simulated corresponding to the simulated section of the body of the query document in the screen display area is represented by one or more lists.

본 발명의 제 2 국면은 모사 검출 시스템에 있어서,According to a second aspect of the present invention, there is provided a simulation detection system,

상기 시스템 서버는 모사 검출을 판단하기 위해 이용되는 N개의 문서들의 집합인 모사대상문서군집 데이터베이스를 구축하고, The system server constructs a database of document-to-be-replicated, which is a set of N documents used for judging the detection of duplication,

사용자 단말(입력기)에 의해 질의 문서가 입력되는 경우에, 상기 시스템 서버는 상기 질의 문서 내의 고유한 모사구간을 리스트로 먼저 배치하고, 상기 모사구간에 대응하는 모사 대상 문서들을 배치하는, 1개의 통합보기 형태로 모사 결과를 산출하여 가시화하는 것을 특징으로 한다.When a query document is input by a user terminal (input device), the system server first arranges a unique simulation section in the query document as a list, and arranges simulation target documents corresponding to the simulation section, And the simulation result is calculated and visualized in the form of a view.

또한, 본 발명의 일 실시예에 있어서, 상기 통합보기 결과 내에 표시되는 상기 질의 문서 및 상기 모사 대상 문서의 모사 구간은 각 문서 본문의 기재사항이며, 해당 모사 대상 문서의 링크를 제공할 수 있다.
Further, in one embodiment of the present invention, the simulation section of the query document and the simulation target document displayed in the integrated view result is a description of each document body, and can provide a link of the simulation target document.

위와 같은 본 발명에 따르면, 최종적으로 사람에 의해 수행되는 모사판단을 신속하고 효율적으로 수행할 수 있다는 장점이 있다. 특정 문서의 모사 정도를 판정하기 위해서는 해당 문서 내의 모사대상문서군집에 대한 모사 부분을 검토해야 한다. 1:N 검출 결과 구성 시 고유한 모사영역을 먼저 배치하고 그에 해당하는 모사대상문서들을 배치함으로써, 연관성 있는 데이터들을 모아 한눈에 가시화할 수 있다. According to the present invention as described above, it is possible to quickly and efficiently perform a simulation judgment finally performed by a person. In order to determine the degree of copying of a specific document, the copy of the copy of the document to be copied in the document should be reviewed. The 1: N detection result can be visualized at once by associating the relevant data by arranging the original simulation area in advance and arranging the corresponding document to be simulated.

이를 통해 모사 가능성이 있는 문서들을 모두 열어보지 않고도 빠르게 모사 판별이 가능하다는 현저한 효과를 거둘 수 있다. 모사 검출 결과가 1개의 통합문서 형태로 가시화되기 때문이다.This can have a remarkable effect that it is possible to quickly discriminate between documents without having to open all the documents with the possibility of simulating them. This is because the result of the simulation detection is visualized as one integrated document.

본 발명의 명세서에서 구체적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
Even if effects not specifically mentioned in the specification of the present invention are incorporated, the provisional effects expected by the technical features of the present invention are treated as described in the specification of the present invention.

도 1은 본 발명에 따른 모사 검출 장치의 구성의 예를 개념적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 전체 프로세스의 구성을 개략적으로 나타내는 플로우 도면이다.
도 3은 본 발명에 따라 통합문서를 생성함에 있어 질의문서와 모사 대상 문서의 상관관계를 개념적으로 나타내는 도면이다.
도 4는 본 발명에 따라 단말 화면으로 표시되는 통합문서로서의 모사 검출 결과의 일 예를 나타내는 도면이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
1 is a conceptual diagram showing an example of a configuration of a simulation detecting apparatus according to the present invention.
2 is a flowchart schematically showing a configuration of an overall process according to an embodiment of the present invention.
3 is a diagram conceptually illustrating a correlation between a query document and a document to be simulated in generating an integrated document according to the present invention.
4 is a diagram showing an example of a result of simulation detection as an integrated document displayed on a terminal screen according to the present invention.
* The accompanying drawings illustrate examples of the present invention in order to facilitate understanding of the technical idea of the present invention, and thus the scope of the present invention is not limited thereto.

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may obscure the subject matter of the present invention.

도 1은 본 발명에 따른 모사 검출 시스템의 구성을 예시하고 있다. 문서 검출 장치(100)는 프로세서(110), 입력부(120), 출력부(130), 메모리부(미도시)를 포함한다. 그리고 모사를 판단하기 위해 이용하는 문서들의 데이터베이스(20)가 구축되어 있다. 본 발명에서 모사 판단에 이용되는 이들 문서들은 문서들의 집합으로서 모사대상문서군집(21)이라는 표현으로 통칭된다.1 illustrates a configuration of a simulation detection system according to the present invention. The document detecting apparatus 100 includes a processor 110, an input unit 120, an output unit 130, and a memory unit (not shown). And a database 20 of documents used for judging the simulations are constructed. In the present invention, these documents used for the simulated judgment are collectively referred to as the document to be simulated cluster 21 as a set of documents.

질의문서(10)는 모사대상문서군집(21)과의 모사도를 판단하기 위해 입력문서로 사용되는 문서이다. 질의문서(10)는 입력부(120)를 통해서 모사 검출 장치(100)로 로딩되어 질의문서(10)에 대한 모사도 측정용 데이터를 생성하게 된다. 그리고 모사대상문서군집(21)과 비교되어 그 결과(50)가 출력부(130)를 통해서 출력되게 된다. 한편, 모사대상문서군집의 경우에도 각 문서별 모사도 측정용 데이터를 미리 생성해 놓을 것이다. 모사 검출 결과(50)는 모사 검출 시스템의 예컨대 단말 화면을 통해서 가시화된다. 한편, 모사 검출 장치의 메모리부는 필요한 프로그램과 리소스를 저장한다.The query document 10 is a document used as an input document to judge the degree of conformity with the simulation target document cluster 21. The query document 10 is loaded into the simulation detection apparatus 100 through the input unit 120 to generate simulation measurement data for the query document 10. Then, the result is compared with the simulation target document cluster 21, and the result 50 is outputted through the output unit 130. On the other hand, in the case of the document group to be simulated, the data for the degree of simulation for each document will be generated in advance. The simulation detection result 50 is visualized through, for example, a terminal screen of the simulation detection system. On the other hand, the memory unit of the simulation detection apparatus stores necessary programs and resources.

본 발명의 프로세서(110)는 모사 검출을 하기 전에 질의문서(10) 및 모사대상문서군집(21)에 대한 모사판단을 위한 비교, 모사도 산출연산과 모사구간 검출 프로세스를 실행한다. 또한 프로세서(110)는 설치된 모사 검출 소프트웨어를 이용하여 모사대상문서군집을 검색하여 모사 대상 문서를 찾는 한편, 관련 모사 대상 문서들의 본문들을 하나의 문서로 통합한다. The processor 110 of the present invention executes a comparison, a computation calculation, and a simulation section detection process for simulation judgment on the query document 10 and the simulation target document cluster 21 before performing the simulation detection. In addition, the processor 110 searches the target document clusters using the installed copy detection software to find the target document, and integrates the texts of the related target documents into one document.

또한, 프로세서(110)는 통합문서 형태로 이를 가시화 한다. 어떻게 통합문서의 형태로 결합하며 가시화하는지에 대해서는 이하의 실시예에서 상세히 설명될 것이다. 한편, 모사 구간의 검출에 필요한 요소는 소프트웨어 모듈로 구성된다. In addition, the processor 110 visualizes this in the form of a workbook. How to combine and visualize in the form of a workbook will be described in detail in the following embodiments. On the other hand, the elements necessary for the detection of the simulation section are composed of software modules.

본 발명의 장치는 상기 프로세서와 메모리를 갖는 컴퓨터 장치이다. 사용자가 인접하여 이용할 수 있는 컴퓨터(PC, 노트북 컴퓨터, 랩탑 컴퓨터)가 바람직하다. An apparatus of the present invention is a computer apparatus having the processor and the memory. A computer (a PC, a notebook computer, a laptop computer) which is usable adjacent to the user is preferable.

또한, 본 발명의 장치는 상기 프로세서와 메모리를 갖는 모사 검출 시스템 서버일 수 있다. 사용자 단말은 인터넷을 통해 이 모사 검출 시스템 서버에 접속하며 질의문서를 업로딩하여 모사 검출 작업을 실행할 수 있다. 즉 모사 검출 작업은 원격에서 실행될 수 있다. 이러한 원격의 모사 검출 실시예에 있어서, 본 발명의 장치는 상기 프로세서와 메모리를 갖는 네트워크 장치일 수 있다. 예컨대 학사행정시스템이나 입사행정시스템에 본 발명의 장치를 통합하는 것이 가능하다.
Further, the apparatus of the present invention may be a simulation detection system server having the processor and the memory. The user terminal may access the simulation detection system server via the Internet and upload a query document to execute the simulation detection operation. That is, the simulation detection operation can be executed remotely. In this remote simulation detection embodiment, the apparatus of the present invention may be a network device having the processor and the memory. It is possible, for example, to integrate the device of the present invention into a bachelor's administration system or an incumbent administration system.

도 2는 본 발명의 일 실시예에 따른 통합문서 형태로 모사구간을 가시화하는 전체 프로세스를 개략적으로 나타낸다. 먼저 질의문서에 대한 모사도 측정용 데이터를 생성한다(S100). 이 단계는 단말의 입력수단에 의해 모사 검출 시스템으로 질의 문서를 입력함으로써 실행될 수 있다. 2 schematically shows an overall process of visualizing a simulation section in the form of an integrated document according to an embodiment of the present invention. First, measurement data for the query document is generated (S100). This step can be executed by inputting the query document into the simulation detection system by the input means of the terminal.

다음으로 생성된 모사도 측정용 데이터를 이용하여 모사대상문서군집을 검색한다(S110). 이를 통해서 모사 검출 시스템 내의 관련 모사 대상 문서들을 찾게 된다. The simulation target document cluster is searched using the generated simulation degree measurement data (S110). Through this, the relevant documents to be simulated in the simulation detection system are found.

종래의 모사 검출 방법은 각 관련 모사 대상 문서별로 질의문서에 대한 모사도 및 모사구간을 구해야 하며, 모사도 측정을 위해 준비하는 사전 데이터를 매 연관 모사 대상 문서별로 생성해야 한다. 또한 최종 결과 데이터의 생성도 고유한 모사구간 리스트 및 모사구간별 모사 대상 문서들을 구성하여야 한다. 그런데 모사 검출은 일반 쿼리 검색에 비해 연산 량이 많고 수행시간이 오래 걸린다. 이를 해결하기 위해서 본 발명에서는 이하의 단계를 실행하는 것이다.In the conventional method, the simulation data and the simulation data of the query document must be obtained for each relevant document to be simulated, and the dictionary data for preparing the simulation data must be generated for each document to be simulated. Also, the final result data should be composed of a unique simulation section list and simulation target documents for each simulation section. However, the simulation detection requires more computation and longer execution time than general query retrieval. In order to solve this problem, the present invention carries out the following steps.

즉, 관련 모사 대상 문서들의 본문들을 하나의 문서로 통합한다(S120). 그리고 통합하는 과정 중 각 모사 대상 문서의 통합 문서 내의 영역값을 저장한다. 이는 각 모사 대상 문서가 화면상에 표시되는 위치정보를 의미할 수 있다. 본 발명의 통합문서는 모사 여부를 최종 판단하는 사용자에게 제시하는 결과물로서 통합보기를 포함한다. 통합문서는 모사검출 연산시 모든 문서를 하나의 문서로 이어 붙여서 질의문서와 1:1로 비교한 후, 모사 영역 부분을 각 문서들의 영역으로 다시 나누어 1:N 방식과 동일한 결과를 보다 효과적으로 처리하기 위해 고안된 개념이다. 통합보기는 이렇게 통합문서로 처리된 결과를 효과적으로 배치하는 가시적인 결과물이 된다. 본 발명에 따르면 1:N 모사검출연산을 통합문서와 1:1로 처리하게 되는 것이다.That is, the bodies of related document to be analyzed are integrated into one document (S120). And stores the area values in the integrated document of each document to be simulated during the integration process. This may mean location information where each copy target document is displayed on the screen. The integrated document of the present invention includes an integrated view as a result to be presented to a user who finally determines whether or not to perform the simulation. The workbook combines all the documents in one document with the query document in a one-to-one correspondence, and then divides the simulated area into each of the document areas to more effectively process the same result as the 1: N method. It is a concept designed for. The consolidated view becomes a visible result of effectively deploying the results of this workbook. According to the present invention, the 1: N simulation detection operation is processed in a 1: 1 manner with the integrated document.

다음으로 질의문서에 대한 통합보기의 모사도 및 모사구간을 산출한다(S130). 그리고 통합보기의 형태로 1:N의 모사검출결과를 출력하게 된다(S140). 상기 S140 단계는 통합보기 내의 모사 대상 문서 영역 값을 기준으로 모사구간별로 모사 대상 문서들을 구성하여, 통합문서의 모사구간 리스트와 함께 최종 결과를 생성하는 것으로 모사 검출 시스템의 단말상의 화면으로 표시되게 된다.Next, a simulation diagram and a simulation section of the integrated view of the query document are calculated (S130). Then, the result of the 1: N simulation is output in the form of an integrated view (S140). In step S140, the simulation target documents are configured for each simulation period based on the simulation target document area value in the integrated view, and a final result is generated together with a simulation section list of the integrated document, thereby being displayed as a screen on the terminal of the simulation detection system .

즉, 1개의 통합보기는 검출 결과로서 단말의 화면에 표시되는 문서를 지칭하는데, 질의문서 본문의 모사구간을 메인으로 하고, 모사 대상 문서들 본문의 모사구간을 서브로 하여 통합보기를 구성할 수 있다.That is, one integrated view refers to a document displayed on the screen of the terminal as a detection result. The integrated view of the body of the query document is set as the main section, and the simulated section of the body of the document to be simulated is set as the subordinate section. have.

도 3에 개념적으로 나타낸 것처럼, 어떤 가상의 통합보기(150')가 있다고 가정할 때, 여기에는 질의문서 본문 내의 모사 구간(151)과 모사 대상 문서들 본문 내의 모사 구간(155)이 포함될 수 있다. 질의문서의 1개 이상의 모사구간이 통합보기(150)의 메인에 리스트로 배치되며, 1개 이상의 모사 대상 문서들의 대응하는 모사 구간이 질의문서의 메인 영역에 종속하여 표시되는 구조이다.As conceptually shown in FIG. 3, there may be included a simulation section 151 in the query document body and a simulation section 155 in the body of the document to be simulated, assuming that there is a virtual integrated view 150 ' . One or more simulation regions of the query document are arranged in a list in the main portion of the integrated view 150 and a corresponding simulation region of one or more simulation target documents is displayed depending on the main region of the query document.

도 4는 이를 구체적으로 예시하고 있다. 도 4는 1:N 모사 검출결과로서 화면상에 가시화되는 통합보기의 형태를 예시하고 있다. 이것은 질의 문서와 모사 대상 문서의 원문을 비교하는 통합보기의 형태로 제시된다. 도면에는 표시되지 않았으나, 질의문서의 명칭이 검색결과의 최상단에 위치하게 될 것이다. Figure 4 specifically illustrates this. FIG. 4 illustrates a form of the integrated view that is visualized on the screen as a result of 1: N simulation detection. This is presented in the form of a unified view that compares the original document of the query document with the document to be copied. Although not shown in the figure, the name of the query document will be located at the top of the search result.

도시된 바와 같이 모든 모사대상문서군집 대비 질의문서 내의 고유한 모사영역 리스트가 출력되게 된다. 이들 리스트는 151a, 151b … 로 표시되어 있다. 그리고 각 모사영역별로 대응하는 모사 대상 문서들의 대응 모사 영역 텍스트가 질의문서의 모사영역에 종속하여 함께 출력되는 것이다. 즉, 질의문서 본문의 모사구간별로 분리하여 표시하는 1개 이상의 화면 표시 영역(질의문서 모사구간 표시영역)을 가지며, 이 화면 표시 영역 내에서 해당 질의문서 본문의 모사구간에 대응하는 모사 대상 문서 본문의 모사구간을 1개 이상의 리스트로 나타내는 구조가 된다.As shown in the figure, a list of simulation areas unique to all the simulation target document grouping query documents is output. These lists include 151a, 151b ... Respectively. The corresponding simulation region texts of the corresponding simulation target documents in the respective simulation regions are output together depending on the simulation region of the query document. In other words, it has one or more screen display areas (query document simulation section display area) for displaying separately for each simulation section of the query document body, and in this screen display area, the body of the document to be simulated corresponding to the simulation section of the query document body Is a structure that represents one or more lists of simulation sections.

예컨대, “창조적인 민간 외교관으로서 능동적인 21세기를 준비하고자 합니다.”라는 문장이 질의문서 내에서 모사된 것으로 검출되었다면, 이것을 질의문서 모사구간 표시영역(151a)에 표시하고, 이 문장에 대응하는 모사 대상 문서의 모사 정보를 문서별로 각각 표시할 수 있다(1550, 1551). 모사 대상 문서의 모사 정보는 해당 문서의 이름(예컨대 파일명)을 표시하는 부분(1550a, 1551a)과 해당 문서의 본문의 모사 구간을 표시하는 부분(1550b, 1551b)을 통해 표시될 수 있다. 그리고 모사 대상 문서의 모사정보 표시부(1550, 1551)에는 해당 모사 대상 문서를 불러오는 링크가 부여될 수 있다. 사용자가 질의 문서와 모사대상문서의 원문을 비교하고자 하는 경우 입력기를 이용하여 링크를 활성화할 수 있다.For example, if it is detected that the statement " Preparing for the active 21st century as a creative civil diplomat " is simulated in the query document, it is displayed in the query document simulation section display area 151a, The simulated information of the document to be simulated can be displayed separately for each document (1550, 1551). The simulation information of the document to be simulated can be displayed through the portions 1550a and 1551a for displaying the name (e.g., file name) of the document and the portions 1550b and 1551b for displaying the simulation region of the body of the document. The simulation information display units 1550 and 1551 of the simulation target document may be given a link to load the simulation target document. When the user wants to compare the query document with the original document of the document to be copied, the user can activate the link using the input device.

마찬가지로, “전문지식인으로서의 소명의식을”이라는 문장이 질의문서 내에서 모사된 것으로 검출되었다면, 이것을 또 다른 질의문서 모사구간 표시영역(151b)에 표시하고, 이 문장에 대응하는 모사 대상 문서의 모사 정보를 문서별로 각각 표시할 수 있다(1553, 1554). 모사 대상 문서의 모사 정보는 해당 문서의 이름(예컨대 파일명)을 표시하는 부분(1553a, 1554a)과 해당 문서 본문의 모사 구간을 표시하는 부분(1553b, 1554b)을 통해 표시될 수 있다. 그리고 모사 대상 문서의 모사정보 표시부(1553, 1554)에는 해당 모사 대상 문서를 불러오는 링크가 존재하도록 함으로써, 사용자가 질의 문서와 모사대상문서의 원문을 비교하고자 하는 경우 입력기를 이용하여 링크를 활성화할 수 있다. Likewise, if the sentence " as a profession of a professional person " is detected as being replicated in the query document, it is displayed in another query document simulation section display area 151b and the simulation information of the document to be simulated (1553, 1554), respectively. The simulation information of the document to be simulated can be displayed through the portions 1553a and 1554a for displaying the name (e.g., file name) of the document and the portions 1553b and 1554b for displaying the simulation region of the document body. In the simulation information display units 1553 and 1554 of the simulation target document, there is a link for loading the simulation target document. When the user wants to compare the query document and the original document of the simulation target document, the user can activate the link using the input unit have.

사용자는 육안을 통해서 도 4의 통합문서를 살펴봄으로써 모사 여부를 직관적으로 판단할 수 있으며, 보다 정확하게는 열람하고자 하는 해당 모사 대상 문서의 링크를 활성화함으로써 비교할 수 있게 된다. 이 말은 곧 모사 가능성이 있는 문서들을 모두 열어보지 않고도 신속하게 모사 판별이 가능하다는 점을 시사한다.
The user can intuitively determine whether or not the document is copied by looking at the integrated document of FIG. 4 through the naked eye. More precisely, the user can compare the document by activating the link of the document to be inspected. This implies that it is possible to quickly identify a copy without having to open all the documents with the possibility of copying.

이상에서 설명한 것처럼, 사용자 단말(입력기)에 질의 문서를 입력하고, 시스템 서버가 모사 검출을 위한 일련의 연산을 수행하고, 그 결과를 1개의 통합보기 형태로 가시화함에 있어서, 모사검출처리의 효율성을 위해 질의 문서의 각 모사부분에 해당하는 문서로 하나의 통합문서를 구성하고, 통합문서에 대한 질의 문서 내의 고유한 모사구간을 리스트로 먼저 배치하고, 해당 모사구간에 대응하는 모사 대상 문서들의 모사정보를 배치함으로써 전술한 효과를 거둘 수 있게 된다. 그러나 화면 배치 방식과 디자인은 다양하게 변형될 수 있다. 또한, 질의문서의 모사구간 리스트의 정렬 순서와 이에 종속하여 대응하는 모사 대상 문서의 모사 정보의 정렬 순서는, 프로세서가 산출한 모사도의 크기에 따라 정하는 것이 바람직하다. 그러나 그 경우에도 다양한 변형이 가능할 것이다.As described above, when a query document is input to a user terminal (input device), a system server performs a series of operations for detecting a simulation, and visualizes the result in a single integrated view, the efficiency of the simulation detection processing A single integrated document is constructed from documents corresponding to the respective simulation portions of the query document, and a unique simulation region in the query document for the integrated document is first arranged as a list, and the simulation information The above-described effects can be obtained. However, screen layout and design can be modified in various ways. It is also preferable that the sorting order of the list of the simulation section of the query document and the sorting order of the simulation information of the corresponding simulation target document depending on the sort order are determined according to the size of the simulation image calculated by the processor. However, in that case, various variations will be possible.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.
The scope of protection of the present invention is not limited to the description and the expression of the embodiments explicitly described in the foregoing. It is again to be understood that the scope of protection of the present invention can not be limited by obvious alterations or permutations of the present invention.

Claims (5)

(a) 입력수단에 의해 모사 검출 시스템으로 질의문서를 입력하는 단계;
(b) 모사 검출 시스템 내의 모사 판단에 이용되는 문서들의 집합인 모사대상문서군집을 검색하여 모사 대상 문서를 찾는 단계;
(c) 모사 대상 문서들의 본문들을 1개의 문서로 통합하는 단계;
(d) 상기 질의문서와의 모사검출연산을 통합문서와 1:1로 비교하여 처리하는 단계; 및
(e) 상기 질의문서 본문의 모사 구간을 메인으로 하고, 상기 모사 대상 문서 본문의 모사구간을 서브로 하는 1개의 통합보기 형태로 모사 검출 결과를 상기 모사 검출 시스템의 단말 화면을 통해 출력하는 단계를 포함하는, 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법.
(a) inputting a query document into a simulation detection system by an input means;
(b) searching a target document cluster, which is a set of documents used for a simulation judgment in the simulation detection system, to find a target document;
(c) merging the texts of the documents to be copied into one document;
(d) comparing the query detection operation with the query document 1: 1 with the integrated document and processing the same; And
(e) outputting the result of the simulation detection through the terminal screen of the simulation detection system in a single integrated view form in which the simulation section of the body of the query document is main and the simulation section of the body of the simulation object document is served A simulated detection method for visualizing a simulated section in an integrated view form.
제1항에 있어서,
상기 (c) 단계는, 통합하는 과정 중 각 모사 대상 문서의 통합문서 내의 영역 값을 각 모사 대상 문서가 화면상에 표시되는 위치정보로서 저장하는 단계를 더 포함하는, 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법.
The method according to claim 1,
Wherein the step (c) further includes the step of storing area values in a merged document of each of the simulation target documents as position information in which each simulation target document is displayed on the screen during the merging process, A method of detecting a simulated visualization.
제1항에 있어서,
상기 (e) 단계의 검출결과는 상기 질의문서 본문의 모사구간별로 분리하여 표시하는 1개 이상의 화면 표시 영역을 가지며,
상기 화면 표시 영역 내에서 해당 질의문서 본문의 모사구간에 대응하는 모사 대상 문서 본문의 모사구간을 1개 이상의 리스트로 나타내는 것인, 통합보기 형태로 모사구간을 가시화하는 모사 검출 방법.

The method according to claim 1,
Wherein the detection result of the step (e) has at least one screen display area for displaying separately for each simulation section of the body of the query document,
Wherein the simulation section of the body of the document to be simulated corresponding to the simulated section of the body of the query document in the screen display area is represented by one or more lists, and the simulated section is visualized in the form of an integrated view.

삭제delete 삭제delete
KR1020120084666A 2012-08-02 2012-08-02 Method of copy detection visualizing copy sections with a unified document tpye KR101453867B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120084666A KR101453867B1 (en) 2012-08-02 2012-08-02 Method of copy detection visualizing copy sections with a unified document tpye

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120084666A KR101453867B1 (en) 2012-08-02 2012-08-02 Method of copy detection visualizing copy sections with a unified document tpye

Publications (2)

Publication Number Publication Date
KR20140018508A KR20140018508A (en) 2014-02-13
KR101453867B1 true KR101453867B1 (en) 2014-10-23

Family

ID=50266497

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120084666A KR101453867B1 (en) 2012-08-02 2012-08-02 Method of copy detection visualizing copy sections with a unified document tpye

Country Status (1)

Country Link
KR (1) KR101453867B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117445A (en) * 1997-06-17 1999-01-12 Fuji Xerox Co Ltd Integrated document management device
WO2002010967A2 (en) * 2000-07-31 2002-02-07 Iit Research Institute System for similar document detection
JP2008015774A (en) * 2006-07-05 2008-01-24 Nagaoka Univ Of Technology Imitation document detection system and program
KR20100071287A (en) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) Method and apparatus for detecting document plagiarism

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117445A (en) * 1997-06-17 1999-01-12 Fuji Xerox Co Ltd Integrated document management device
WO2002010967A2 (en) * 2000-07-31 2002-02-07 Iit Research Institute System for similar document detection
JP2008015774A (en) * 2006-07-05 2008-01-24 Nagaoka Univ Of Technology Imitation document detection system and program
KR20100071287A (en) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) Method and apparatus for detecting document plagiarism

Also Published As

Publication number Publication date
KR20140018508A (en) 2014-02-13

Similar Documents

Publication Publication Date Title
Chuang et al. TopicCheck: Interactive alignment for assessing topic model stability
Dąbrowski et al. Analysing app reviews for software engineering: a systematic literature review
Gomez-Jauregui et al. Information management and improvement of citation indices
US20120047123A1 (en) System and method for document analysis, processing and information extraction
White et al. Sentence-based natural language plagiarism detection
US20130204874A1 (en) Hyper Adapter and Method for Accessing Documents in a Document Base
Falessi et al. A comprehensive characterization of NLP techniques for identifying equivalent requirements
JP5587989B2 (en) Providing patent maps by viewpoint
US8386504B1 (en) System and method for file differencing with importance ranking
JP2012164211A (en) Software similarity evaluation method
Angelini et al. CLAIRE: A combinatorial visual analytics system for information retrieval evaluation
Bajammal et al. Semantic web accessibility testing via hierarchical visual analysis
Rio et al. Websites Quality: Does It Depend on the Application Domain?
Blasco et al. A fine-grained requirement traceability evolutionary algorithm: Kromaia, a commercial video game case study
Ferro CLEF 15th birthday: Past, present, and future
CN115017315A (en) Leading edge theme identification method and system and computer equipment
US9262735B2 (en) Identifying and amalgamating conditional actions in business processes
JP2013174988A (en) Similar document retrieval support apparatus and similar document retrieval support program
CN116860311A (en) Script analysis method, script analysis device, computer equipment and storage medium
KR101453867B1 (en) Method of copy detection visualizing copy sections with a unified document tpye
Al-Zubidy et al. Review of systematic literature review tools
US8239362B1 (en) Using metadata fragments as authoritative manufacturing work instructions
Arcega et al. On the influence of models at run-time traces in dynamic feature location
Renteria-Agualimpia et al. Identifying hidden geospatial resources in catalogues
Subašić et al. Story graphs: Tracking document set evolution using dynamic graphs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171016

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181015

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191015

Year of fee payment: 6