WO2012008655A1 - Document browsing device and method having dynamic threshold - Google Patents

Document browsing device and method having dynamic threshold Download PDF

Info

Publication number
WO2012008655A1
WO2012008655A1 PCT/KR2010/006426 KR2010006426W WO2012008655A1 WO 2012008655 A1 WO2012008655 A1 WO 2012008655A1 KR 2010006426 W KR2010006426 W KR 2010006426W WO 2012008655 A1 WO2012008655 A1 WO 2012008655A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
documents
similarity
threshold
browsing
Prior art date
Application number
PCT/KR2010/006426
Other languages
French (fr)
Korean (ko)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2012008655A1 publication Critical patent/WO2012008655A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Definitions

  • the present invention relates to a document browsing apparatus and method to which a dynamic threshold is applied to search for a document having a similarity or higher than a threshold set for a reference document and to generate a similarity between the retrieved documents in a browsing connection configuration.
  • the document search or information search is for searching a document or information desired by a user for a large amount of information.
  • the keyword is processed for the input natural language text, weighted for each keyword, and then searched.
  • search engines are provided to search a large amount of information on the Internet.
  • a search engine When a keyword is entered in a search engine, a search for a document corresponding to the keyword is displayed on the user's web browser screen.
  • the general search engine may search for a document having a similarity or more than a predetermined threshold, but there is a problem in that the degree of similarity or the number of documents to be searched cannot be adjusted by changing the threshold.
  • the present invention provides a document browsing device, a method and a recordable electronic device for applying a dynamic threshold that can reset a threshold and continuously search for a document having a similarity above the reset threshold to generate a browsing connection configuration. It is about the medium.
  • a similar document search for searching for a document having a similarity or higher than a threshold set for a reference document by searching for a document management module and a document management module for managing the similarity between each document with respect to an input or stored document.
  • a document browsing apparatus applied with a dynamic threshold including a browsing connection configuration module for selecting any one of the module and retrieved documents and continuously searching for documents having a similarity or higher than a threshold set from the selected document to create a browsing connection configuration.
  • the document browsing apparatus to which the dynamic threshold value is applied may include a main word storage module for extracting the upper N main words from each document and assigning and storing them as representative main words of each document for the input or stored documents, and for each document pair.
  • the method may further include a similarity calculation module that compares the assigned representative subject words with each other and calculates similarity between documents.
  • the similarity calculation module may calculate the similarity between documents for all document pairs in a batch manner for all document pairs.
  • the similarity calculation module may calculate the similarity between the newly added document and the inputted or stored document in an incremental manner when a new document is added.
  • the document browsing apparatus to which the dynamic threshold is applied may further include a visualization module that visualizes the similarity between the documents retrieved in the similar document search module and the browsing connection configuration generated in the browsing connection configuration module.
  • the document browsing apparatus to which the dynamic threshold is applied may further include a threshold reset module for changing the set threshold.
  • the threshold reset module may include a threshold reset unit configured to change a previously set threshold value to a new threshold value when a new threshold value is input through a user interface for inputting a threshold value and a user interface.
  • the similar document retrieval module may re-search the similar document based on the reset threshold value when the threshold is reset, and the browsing connection configuration module may generate a browsing connection configuration for the re-searched documents.
  • Comparing representative subject words for all document pairs with each other and calculating and storing the similarity between documents may calculate the similarity between documents for all document pairs in a batch manner for a plurality of input or stored documents. .
  • Comparing the representative subjects for all document pairs with each other and calculating and storing the similarity between the documents may be performed to calculate the similarity between the newly added document and the inputted or stored document in an incremental manner when a new document is added. Can be.
  • the method may further include displaying the retrieved documents.
  • the document browsing method to which the dynamic threshold is applied includes the similarity between the retrieved documents after selecting any one of the retrieved documents and continuously searching for documents having a similarity or higher than a set threshold from the selected document to create a browsing connection configuration. And visualizing the browsing connection configuration between the document and the document.
  • the browsing method to which the dynamic threshold is applied may include selecting a one of the retrieved documents and continuously searching for documents having a similarity or higher than the set threshold from the selected document to generate a browsing connection configuration.
  • the method may further include a threshold reset step of changing and setting a new threshold value.
  • a program for executing a document browsing method to which a dynamic threshold is applied is provided and provides a recording medium readable by an electronic device.
  • the present invention it is possible to search for a variety of documents having different similarities to the reference document, and to search for documents having a similarity more than or equal to the reset threshold according to user selection.
  • FIG. 1 is a block diagram illustrating an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • FIG. 2 is a block diagram illustrating an embodiment of a threshold reset module of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • FIG. 3 is a flow diagram illustrating a first embodiment of a document browsing method with a dynamic threshold applied in accordance with another aspect of the present invention.
  • FIG. 4 is a flow diagram illustrating a second embodiment of a document browsing method with a dynamic threshold applied in accordance with another aspect of the present invention.
  • FIG. 5 is a flowchart illustrating a third embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
  • FIG. 6 is a view for explaining a document similarity calculation result of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • FIG. 7 is a view for explaining a result of searching similar documents according to a threshold of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • FIG. 8 is a view for explaining a configuration of a browsing connection between documents of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention
  • FIG. 9 is a view illustrating a threshold value change of a document browsing apparatus to which a dynamic threshold value is applied according to an aspect of the present invention.
  • FIG. 10 is a view for explaining document similarity comparison using an incremental method of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • FIG. 1 is a view schematically showing a configuration diagram showing an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention
  • FIG. 2 is a document to which the dynamic threshold is applied according to an aspect of the present invention.
  • a schematic diagram illustrating an exemplary embodiment of a threshold reset module of a browsing device is illustrated.
  • the document browsing apparatus 100 to which the dynamic threshold is applied may include a document management module 110, a similar document search module 120, and a browsing connection configuration module 130. It includes.
  • the document browsing apparatus 100 to which the dynamic threshold is applied may further include any one or more of a main control storage module 140, a similarity calculation module 150, a threshold reset module 160, and a visualization module 170. Can be.
  • the key word storage module 140 extracts the top N key words included in each document with respect to a newly input or pre-stored document, assigns and stores them as a representative key word of each document, and the similarity calculation module 150 stores all document pairs The similarity between the documents can be calculated by comparing the representative subjects with each other.
  • the keyword storage module 140 stores a topic dictionary storing valuable terms as a main subject and an unusable dictionary containing the unworthy terms as a subject, and searches for terms extracted from each document from the thesaurus and the unused dictionary as subjects. Can be selected.
  • the candidate candidates are selected, and the main candidates are term frequency and document frequency.
  • the ranking criteria may be applied and the N top candidates may be selected as the representative subjects.
  • the method of extracting the top N main words may extract the top N main words from each document in various ways, in accordance with an embodiment.
  • the similarity calculation module 150 may calculate the similarity by comparing representative key words of each document with respect to all document pairs.
  • the similarity calculation module 150 may assign the top five main words of each document as representative main words of each document, and compare the representative main words of each document with each other to calculate the number of matching representative main words among the representative main words in%.
  • representative keywords of 'document 1' are 'main control 1', 'main control 2', 'main control 3', 'main control 4' and 'main control 5'
  • the main keywords of 'document 2' are 'main control 2'.
  • 'Document 1' and 'Document 2' have a similarity of 60% because three of the five representative keywords match.
  • the similarity calculation method is an example and may be calculated in various ways.
  • the similarity calculation module 150 may calculate the similarity between documents in a batch manner for all document pairs.
  • Batch is a method that combines the data to be processed into a certain management unit, and calculates the similarity between documents in a batch method.
  • the first document is (n-1). Similarity is compared with two documents, and the second document is a similarity comparison with (n-2) documents.
  • the similarity calculation module 150 may calculate the similarity between the newly added document and the input or stored document in an incremental manner when a new document is added.
  • Incremental method processes data one by one, not data at once. Incremental method calculates the similarity between each document in incremental method. Is assigned as a representative subject, the similarity is calculated with previously stored documents, and the similarity relationship is broken when the document is deleted.
  • the newly entered documents can be compared with n pre-stored documents to calculate the similarity between all documents, thereby reducing service response time compared to comparing similarities using batch methods. .
  • the document management module 110 may manage the similarity between the documents calculated by the similarity calculation module 150 with respect to the input or stored document.
  • the document management module 110 may store and manage the similarity between documents in a two-dimensional matrix or a data structure having an equivalent effect, and may immediately change the batch if the similarity is updated in an incremental manner.
  • the similar document search module 120 may search the document management module 110 to search for a document having a similarity or higher than a threshold set for the reference document.
  • the browsing connection configuration module 130 may select one of the retrieved documents and continuously search for documents having a similarity or more than a threshold set from the selected document to generate a browsing connection configuration.
  • the browsing connection configuration module 130 searches for documents having a similarity or higher than a threshold set based on a document arbitrarily selected by a user among the searched documents, and retrieves documents having a similarity or higher than a threshold set based on each of the retrieved documents.
  • the browsing connection configuration may be generated by searching documents having similarity above a threshold in succession in order of searching again.
  • the visualization module 170 may visualize and display the similarity between the documents retrieved by the similar document search module 120 and the browsing connection configuration generated by the browsing connection configuration module 130.
  • the threshold reset module 160 includes a user interface 162 and a threshold reset unit 164, and may change a set threshold.
  • the user interface 162 of the threshold reset module 160 may be formed in the form of a selection box that specifies a plurality of thresholds.
  • the threshold value reset unit 164 may change the previously set threshold value to a new threshold value and set it.
  • the threshold value may be changed during document search to search for documents having different similarities.
  • the similar document retrieval module 120 may re-search the similar document based on the reset threshold value, and the browsing connection configuration module 130 may generate a browsing connection configuration for the re-searched documents.
  • FIG. 1 is a view schematically showing a configuration diagram showing an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention
  • FIG. 2 is a document to which the dynamic threshold is applied according to an aspect of the present invention.
  • a schematic diagram illustrating an exemplary embodiment of a threshold reset module of a browsing device is illustrated.
  • the document browsing apparatus 100 to which the dynamic threshold is applied may include a document management module 110, a similar document search module 120, and a browsing connection configuration module 130. It includes.
  • the document browsing apparatus 100 to which the dynamic threshold is applied may further include any one or more of a main control storage module 140, a similarity calculation module 150, a threshold reset module 160, and a visualization module 170. Can be.
  • the key word storage module 140 extracts the top N key words included in each document with respect to a newly input or pre-stored document, assigns and stores them as a representative key word of each document, and the similarity calculation module 150 stores all document pairs. The similarity between the documents can be calculated by comparing the representative subjects with each other.
  • the keyword storage module 140 stores a subject dictionary storing valuable terms as a main subject, and an unusable subject dictionary storing unsatisfactory terms as a subject, and searches for terms extracted from each document from the subject dictionary and the unused topic dictionary as subject words. Can be selected.
  • the main candidates are selected, and the main candidates are term frequency and document frequency.
  • the ranking criteria may be applied and the N top candidates may be selected as the representative subjects.
  • the method of extracting the top N main words may extract the top N main words from each document in various ways, in accordance with an embodiment.
  • the similarity calculation module 150 may calculate the similarity by comparing representative key words of each document with respect to all document pairs.
  • FIG. 6 is a diagram illustrating a document similarity calculation result of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • the similarity calculation module 150 assigns the top five main words of each document as representative main words of each document, compares the representative main words of each document with each other, and matches among the representative main words.
  • the number of representative keywords can be calculated in%.
  • the main keywords of 'Document 1' are 'Main Control 1', 'Main Control 2', 'Main Control 3', 'Main Control 4' and 'Main Control 5'.
  • the main keywords of 'Document 2' are 'Main Control 2' and 'Main Control 4'. ',' Main control 5 ',' main control 6 'and' main control 9 '.
  • 'Document 1' and 'Document 2' have a similarity of 60% because three of the five representative keywords match.
  • the similarity calculation method is an example and may be calculated in various ways.
  • the similarity calculation module 150 may calculate the similarity between documents in a batch manner for all document pairs.
  • Batch is a method that combines the data to be processed into a certain management unit, and calculates the similarity between documents in a batch method.
  • the first document is (n-1). Similarity is compared with two documents, and the second document is a similarity comparison with (n-2) documents.
  • the similarity calculation module 150 may calculate the similarity between the newly added document and the input or stored document in an incremental manner when a new document is added.
  • FIG. 10 illustrates a comparison of document similarities using an incremental method of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • Incremental is a method of processing data one by one instead of processing the data at once, as shown in Figure 10, the method of calculating the similarity between each document in an incremental method is added when a new document is added After assigning the top N subjects to the representative subjects, the similarity is calculated with the previously stored documents, and the similarity relationship is broken when the documents are deleted.
  • the newly entered documents can be compared with n pre-stored documents to calculate the similarity between all documents, thereby reducing service response time compared to comparing similarities using batch methods. .
  • the document management module 110 may manage the similarity between the documents calculated by the similarity calculation module 150 with respect to the input or stored document.
  • the document management module 110 may store and manage the similarity between documents in a two-dimensional matrix or a data structure having an equivalent effect, and may immediately change the batch if the similarity is updated in an incremental manner.
  • the similar document search module 120 may search the document management module 110 to search for a document having a similarity or higher than a threshold set for the reference document.
  • FIG. 7 is a diagram for describing a result of searching similar documents according to a threshold of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • the browsing connection configuration module 130 may select one of the retrieved documents and continuously search for documents having a similarity or more than a threshold set from the selected document to generate a browsing connection configuration.
  • the browsing connection configuration module 130 searches for documents having a similarity or higher than a threshold set based on a document arbitrarily selected by a user among the searched documents, and retrieves documents having a similarity or higher than a threshold set based on each of the retrieved documents.
  • the browsing connection configuration may be generated by searching documents having similarity above a threshold in succession in order of searching again.
  • FIG. 8 is a diagram illustrating a configuration of a browsing connection between documents in a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • the browsing connection configuration module 130 may allow a user to select one of 'Document 2', 'Document 3', and 'Document 4' having a similarity level of 60% or more with the reference document 'Document 1'.
  • Documents having a similarity level of 60% or more can be continuously searched from a randomly selected document (for example, document 1).
  • the browsing connection configuration module 130 searches for 'document 2', 'document 3', and 'document 4' having a similarity of 60% or more with respect to 'document 1' to generate a browsing connection configuration (arrow), and then retrieves the 'document' 2), 'Document 3', and 'Document 4' are searched for documents with a similarity of 60% or more to create a browsing connection configuration.
  • create a browsing connection configuration by searching for 'Document 1' with a similarity level of 60% or more based on 'Document 2', and then search for 'Document 1' and 'Document 4' with a similarity level of 60% or more based on 'Document 3'.
  • the browsing connection configuration may be generated by searching, and the browsing connection configuration may be generated by searching for 'Document 1' and 'Document 3' having a similarity of 60% or more based on 'Document 4'.
  • a browsing connection configuration according to the similarity may be newly generated based on a document arbitrarily selected by a user among documents having a similarity to 60% or more.
  • the visualization module 170 may visualize and display the similarity between the documents retrieved by the similar document search module 120 and the browsing connection configuration generated by the browsing connection configuration module 130.
  • the threshold reset module 160 includes a user interface 162 and a threshold reset unit 164, and may change a set threshold.
  • FIG. 9 is a diagram illustrating a threshold change of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
  • the user interface 162 of the threshold reset module 160 may be formed in a selection box that designates a plurality of thresholds.
  • the threshold value reset unit 164 may change the previously set threshold value to a new threshold value and set it.
  • the threshold value may be changed during document search to search for documents having different similarities.
  • the similar document search module 120 may re-search similar documents based on the reset threshold value, and the browsing connection configuration module 130 may generate a browsing connection configuration for the re-searched documents.
  • FIG. 3 is a flowchart illustrating a first embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
  • a method for browsing a document to which a dynamic threshold is applied includes extracting and storing a main word (S310), calculating and storing a document similarity (S320), and searching for a document having a similarity or higher than a set threshold value (S320).
  • a browsing connection configuration may be generated in operation S340.
  • the top N main words included in each document may be extracted and stored for the input or stored document.
  • the extraction of the top N keywords may be performed in various ways, and the top N keywords extracted from each document may be allocated and stored as representative keywords of each document.
  • Similarity calculation between each document can calculate the similarity between each document in batch method for all input or stored multiple documents or preset amount of documents and incremental when new document is added. In this way, the similarity between the newly added document and the input or stored document can be calculated.
  • a document having a similarity or higher than a threshold set for the reference document is searched, and one of the searched documents is selected to continuously search for documents having a similarity or higher than the threshold set from the selected document to generate a browsing connection configuration.
  • FIG. 4 is a flowchart illustrating a second embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
  • the main word extraction and storage is performed (S410), the document similarity is calculated and stored (S420), and has a similarity or higher than a set threshold.
  • Search for the document S430
  • display the searched document S440
  • create a browsing connection configuration between the retrieved documents S440
  • visualize the similarity between the retrieved documents S460.
  • the document browsing method to which the dynamic threshold is applied according to the second embodiment is a process of searching for a document having a similarity or higher than a threshold set for the reference document ( Between step S430 and step (S450) of continuously searching for documents having a similarity level higher than or equal to a threshold value selected from the selected documents (S450), a process of visualizing and displaying the similarity between the searched documents (S440) is shown. There is a configuration difference in that it includes more.
  • the document browsing method to which the dynamic threshold is applied according to the second embodiment is performed after generating a browsing connection configuration between retrieved documents (S450).
  • a process S460 that can visualize and display the browsing connection configuration between documents, the similarity between the retrieved documents.
  • FIG. 5 is a flowchart illustrating a third embodiment of a document browsing method to which a dynamic threshold is applied according to another aspect of the present invention.
  • the main word extraction and storage is performed (S510), the document similarity is calculated and stored (S520), and has a similarity greater than or equal to the set threshold.
  • Search for documents (S530), create a browsing connection configuration between retrieved documents (S540), reset thresholds (S560), similarity between retrieved documents according to set or reset thresholds, and browse connections between documents
  • the configuration may be visualized and displayed (S550).
  • the process of searching for a document having a similarity or higher than the reset threshold with respect to the reference document (S530) and continuously searching for documents having a similarity or higher than the reset threshold from the selected document among the retrieved documents The process of generating a browsing connection configuration may be repeated (S540).
  • a program for performing a document browsing method to which a dynamic threshold is applied may be recorded and recorded on a recording medium readable by the electronic device.
  • the document browsing method to which the dynamic threshold is applied can be written in a computer program, and codes and code segments constituting the program can be easily inferred by a computer programmer in the art.
  • the document browsing method to which the dynamic threshold is applied is stored in a computer readable medium, and when the threshold is changed by being read and executed by the computer, the document browsing method has a similarity to the reference document or more than the changed threshold. You can search the document to create a browsing connection configuration.
  • the present invention can be applied to a document browsing device and a device for retrieving data using the dynamic threshold value that can dynamically change the threshold value and thereby search for similar documents to create a browsing connection configuration between the retrieved documents. have.

Abstract

The present invention relates to a document browsing device and method having a dynamic threshold, and comprises: a document management module for managing the similarities between each of the documents that has been inputted or stored; a similar documents search module for searching the document management module for documents having similarities greater than the threshold set for standard documents; and a browsing connection configuration module for selecting one of the searched documents, successively searching for documents having similarities greater than the threshold set for the selected document, and generating a browsing connection configuration.

Description

동적 임계값이 적용된 문서 브라우징 장치 및 방법Apparatus and method for browsing documents with dynamic thresholds
본 발명은 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고 검색된 문서들 사이의 유사도를 브라우징 연결 구성으로 생성하는 동적 임계값이 적용된 문서 브라우징 장치 및 방법에 관한 것이다. The present invention relates to a document browsing apparatus and method to which a dynamic threshold is applied to search for a document having a similarity or higher than a threshold set for a reference document and to generate a similarity between the retrieved documents in a browsing connection configuration.
최근 무수히 쏟아지고 있는 문서 정보를 처리하여 사용자의 요구에 해당하는 정보만을 추출하여 사용자에게 제공하는 문서 검색 시스템이 널리 이용되고 있다. Recently, a document retrieval system that processes a myriad of document information, extracts only information corresponding to a user's request, and provides the information to a user is widely used.
문서 검색 또는 정보 검색은 대량의 정보에 대하여 사용자가 원하는 문서 또는 정보를 검색해 주는 것으로, 입력된 자연 언어 텍스트에 대하여 키워드를 처리하고, 각각의 키워드에 대해 가중치를 부여한 후 검색하게 된다. The document search or information search is for searching a document or information desired by a user for a large amount of information. The keyword is processed for the input natural language text, weighted for each keyword, and then searched.
일반적으로 인터넷에서 방대한 양의 정보 검색을 위해 다양한 검색 엔진을 제공하고 있으며 검색 엔진에 키워드가 입력되면 키워드에 해당하는 문서를 검색하여 사용자의 웹 브라우저 화면에 검색된 문서를 디스플레이시켜 준다. Generally, various search engines are provided to search a large amount of information on the Internet. When a keyword is entered in a search engine, a search for a document corresponding to the keyword is displayed on the user's web browser screen.
그러나, 상기의 일반적인 검색 엔진은 미리 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있으나 임계값을 변경하여 검색되는 문서의 유사도 정도나 문서의 개수 등을 조절할 수 없는 문제가 있다. However, the general search engine may search for a document having a similarity or more than a predetermined threshold, but there is a problem in that the degree of similarity or the number of documents to be searched cannot be adjusted by changing the threshold.
본 발명은 임계값을 재설정할 수 있고 재설정된 임계값 이상의 유사도를 가지는 문서를 연속적으로 검색하여 브라우징 연결 구성을 생성하는 동적 임계값이 적용된 문서 브라우징 장치, 그 방법 및 이를 기록한 전자 장치에서 판독 가능한 기록매체에 관한 것이다. The present invention provides a document browsing device, a method and a recordable electronic device for applying a dynamic threshold that can reset a threshold and continuously search for a document having a similarity above the reset threshold to generate a browsing connection configuration. It is about the medium.
본 발명의 한 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 관리하는 문서 관리 모듈, 문서 관리 모듈을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 브라우징 연결 구성 모듈을 포함하는 동적 임계값이 적용된 문서 브라우징 장치를 제공한다. According to an aspect of the present invention, a similar document search for searching for a document having a similarity or higher than a threshold set for a reference document by searching for a document management module and a document management module for managing the similarity between each document with respect to an input or stored document. Provides a document browsing apparatus applied with a dynamic threshold including a browsing connection configuration module for selecting any one of the module and retrieved documents and continuously searching for documents having a similarity or higher than a threshold set from the selected document to create a browsing connection configuration. do.
동적 임계값이 적용된 문서 브라우징 장치는, 입력되거나 저장된 문서에 대하여, 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈 및 모든 문서 쌍에 대하여 상기 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈을 더 포함할 수 있다.  The document browsing apparatus to which the dynamic threshold value is applied may include a main word storage module for extracting the upper N main words from each document and assigning and storing them as representative main words of each document for the input or stored documents, and for each document pair. The method may further include a similarity calculation module that compares the assigned representative subject words with each other and calculates similarity between documents.
유사도 계산 모듈은, 모든 문서 쌍에 대하여 배치(Batch) 방식으로 모든 문서 쌍에 대해 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module may calculate the similarity between documents for all document pairs in a batch manner for all document pairs.
유사도 계산 모듈은, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module may calculate the similarity between the newly added document and the inputted or stored document in an incremental manner when a new document is added.
동적 임계값이 적용된 문서 브라우징 장치는, 유사 문서 검색 모듈에서 검색된 문서 사이의 유사도와 브라우징 연결 구성 모듈에서 생성된 브라우징 연결 구성을 시각화하는 시각화 모듈을 더 포함할 수 있다. The document browsing apparatus to which the dynamic threshold is applied may further include a visualization module that visualizes the similarity between the documents retrieved in the similar document search module and the browsing connection configuration generated in the browsing connection configuration module.
동적 임계값이 적용된 문서 브라우징 장치는, 설정된 임계값을 변경하는 임계값 재설정 모듈을 더 포함할 수 있다. The document browsing apparatus to which the dynamic threshold is applied may further include a threshold reset module for changing the set threshold.
임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스 및 사용자 인터페이스를 통해 새로운 임계값이 입력되면 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정부를 포함할 수 있다. The threshold reset module may include a threshold reset unit configured to change a previously set threshold value to a new threshold value when a new threshold value is input through a user interface for inputting a threshold value and a user interface.
유사 문서 검색 모듈은, 임계값이 재설정되면 재설정된 임계값을 기준으로 유사 문서를 재검색하고 브라우징 연결 구성 모듈은, 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성할 수 있다. The similar document retrieval module may re-search the similar document based on the reset threshold value when the threshold is reset, and the browsing connection configuration module may generate a browsing connection configuration for the re-searched documents.
본 발명의 다른 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계, 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계를 포함하는 동적 임계값이 적용된 문서 브라우징 방법을 제공한다. According to another aspect of the invention, the step of extracting the top N key words from each document for the input or stored document and assigning and storing as a representative key word of each document, comparing the representative key words for all document pairs between the documents Calculating and storing a similarity of the search results, retrieving a document having a similarity greater than or equal to a threshold set for the reference document, and selecting any one of the retrieved documents and continuously searching for documents having a similarity or higher than the threshold set from the selected document. It provides a method for browsing a document applied with a dynamic threshold comprising the step of generating a browsing connection configuration.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 입력되거나 저장된 다수의 문서에 대하여 배치(Batch) 방식으로 모든 문서 쌍에 대해 문서 사이의 유사도를 계산할 수 있다. Comparing representative subject words for all document pairs with each other and calculating and storing the similarity between documents may calculate the similarity between documents for all document pairs in a batch manner for a plurality of input or stored documents. .
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다. Comparing the representative subjects for all document pairs with each other and calculating and storing the similarity between the documents may be performed to calculate the similarity between the newly added document and the inputted or stored document in an incremental manner when a new document is added. Can be.
동적 임계값이 적용된 문서 브라우징 방법은, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계와 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 사이에, 검색된 문서들을 디스플레이하는 단계를 더 포함할 수 있다. In the document browsing method to which the dynamic threshold is applied, searching for a document having a similarity level higher than or equal to a threshold set for a reference document, selecting one of the retrieved documents, and sequentially searching documents having a similarity or higher than a threshold set from the selected document Between searching and creating a browsing connection configuration, the method may further include displaying the retrieved documents.
동적 임계값이 적용된 문서 브라우징 방법는, 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에, 검색된 문서들 사이의 유사도와 문서 사이의 브라우징 연결 구성을 시각화하여 나타내는 단계를 더 포함할 수 있다. The document browsing method to which the dynamic threshold is applied includes the similarity between the retrieved documents after selecting any one of the retrieved documents and continuously searching for documents having a similarity or higher than a set threshold from the selected document to create a browsing connection configuration. And visualizing the browsing connection configuration between the document and the document.
동적 임계값이 적용된 브라우징 방법은, 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정 단계를 더 포함할 수 있다. The browsing method to which the dynamic threshold is applied may include selecting a one of the retrieved documents and continuously searching for documents having a similarity or higher than the set threshold from the selected document to generate a browsing connection configuration. The method may further include a threshold reset step of changing and setting a new threshold value.
임계값이 재설정되면, 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계를 반복할 수 있다. When the threshold is reset, retrieving a document having a similarity above the reset threshold with respect to the reference document and selecting any one of the retrieved documents and continuously searching for documents having a similarity above the reset threshold from the selected document. You can repeat the steps of creating a browsing connection configuration.
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체를 제공한다.According to still another aspect of the present invention, a program for executing a document browsing method to which a dynamic threshold is applied is provided and provides a recording medium readable by an electronic device.
본 발명에 따르면, 기준 문서와 유사도가 다른 다양한 문서를 검색할 수 있고, 사용자 선택에 따라 재설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있는 효과가 있다. According to the present invention, it is possible to search for a variety of documents having different similarities to the reference document, and to search for documents having a similarity more than or equal to the reset threshold according to user selection.
또한, 검색된 전체 문서들을 대상으로 기준 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서를 연속적으로 검색하여 브라우징 연결 구성을 생성함으로써 검색된 문서들 사이의 유사도에 대한 정보를 획득할 수 있는 효과가 있다. In addition, it is possible to obtain information about the similarity between the retrieved documents by continuously searching for documents having a similarity or more from a reference value set from the reference document with respect to all the retrieved documents.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 일 실시예를 나타내는 구성도.1 is a block diagram illustrating an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도.2 is a block diagram illustrating an embodiment of a threshold reset module of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제1 실시예를 나타내는 흐름도.3 is a flow diagram illustrating a first embodiment of a document browsing method with a dynamic threshold applied in accordance with another aspect of the present invention.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제2 실시예를 나타내는 흐름도.4 is a flow diagram illustrating a second embodiment of a document browsing method with a dynamic threshold applied in accordance with another aspect of the present invention.
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제3 실시예를 나타내는 흐름도.5 is a flowchart illustrating a third embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 유사도 계산 결과를 설명하기 위한 도면.6 is a view for explaining a document similarity calculation result of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
도 7은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면.7 is a view for explaining a result of searching similar documents according to a threshold of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
도 8는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 사이의 브라우징 연결 구성을 설명하기 위한 도면.8 is a view for explaining a configuration of a browsing connection between documents of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention;
도 9은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 변경을 설명하기 위한 도면.9 is a view illustrating a threshold value change of a document browsing apparatus to which a dynamic threshold value is applied according to an aspect of the present invention.
도 10은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면.FIG. 10 is a view for explaining document similarity comparison using an incremental method of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention. FIG.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이다. 1 is a view schematically showing a configuration diagram showing an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention, and FIG. 2 is a document to which the dynamic threshold is applied according to an aspect of the present invention. A schematic diagram illustrating an exemplary embodiment of a threshold reset module of a browsing device is illustrated.
본 발명의 실시예에 따르면, 도 1에 도시한 바와 같이, 동적 임계값이 적용된 문서 브라우징 장치(100)는 문서 관리 모듈(110), 유사 문서 검색 모듈(120) 및 브라우징 연결 구성 모듈(130)을 포함한다. According to the exemplary embodiment of the present invention, as shown in FIG. 1, the document browsing apparatus 100 to which the dynamic threshold is applied may include a document management module 110, a similar document search module 120, and a browsing connection configuration module 130. It includes.
또한, 동적 임계값이 적용된 문서 브라우징 장치(100)는 주제어 저장 모듈(140), 유사도 계산 모듈(150), 임계값 재설정 모듈(160) 및 시각화 모듈(170) 중 어느 하나 이상을 더 포함하여 구성될 수 있다. In addition, the document browsing apparatus 100 to which the dynamic threshold is applied may further include any one or more of a main control storage module 140, a similarity calculation module 150, a threshold reset module 160, and a visualization module 170. Can be.
주제어 저장 모듈(140)은 문서가 새로 입력되거나 미리 저장된 문서에 대하여 각 문서에 포함되는 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하고, 유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산할 수 있다. The key word storage module 140 extracts the top N key words included in each document with respect to a newly input or pre-stored document, assigns and stores them as a representative key word of each document, and the similarity calculation module 150 stores all document pairs The similarity between the documents can be calculated by comparing the representative subjects with each other.
주제어 저장 모듈(140)은 주제어로 가치 있는 용어들을 저장한 주제어 사전과 주제어로 가치없는 용어들을 저장한 불용 주제어 사전을 저장하고 각 문서에서 추출되는 용어를 주제어 사전 및 불용 주제어 사전에서 검색하여 주제어로 선정할 수 있다. The keyword storage module 140 stores a topic dictionary storing valuable terms as a main subject and an unusable dictionary containing the unworthy terms as a subject, and searches for terms extracted from each document from the thesaurus and the unused dictionary as subjects. Can be selected.
여기서, 주제어는 특정 문서의 연구 내용, 주장을 대표할 수 있는 문서 내에 존재하는 용어를 의미한다. Here, the term "mean" refers to a term that exists in a document that can represent the research content and claim of a specific document.
구체적으로, 입력 문서로부터 색인자(Indexer)를 이용하여 색인어들을 추출하고 이를 주제어 사전, 불용 주제어 사전과 매칭하여 주제어 후보들을 선정한 후, 주제어 후보들을 용어 빈도(term frequency), 문서 빈도(document frequency) 등의 기준을 적용하여 순위화(ranking)하고 N개의 상위 주제어 후보들을 대표 주제어로 선정할 수 있다. Specifically, after extracting index words using an indexer from an input document and matching them with a main dictionary and an unused main dictionary, the candidate candidates are selected, and the main candidates are term frequency and document frequency. The ranking criteria may be applied and the N top candidates may be selected as the representative subjects.
상기의 상위 N개의 주제어를 추출하는 방법은 일 실시예에 불구하며 다양한 방법으로 각각의 문서로부터 상위 N개의 주제어를 추출할 수 있다. The method of extracting the top N main words may extract the top N main words from each document in various ways, in accordance with an embodiment.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 각 문서의 대표 주제어를 서로 비교하여 유사도를 계산할 수 있다.The similarity calculation module 150 may calculate the similarity by comparing representative key words of each document with respect to all document pairs.
유사도 계산 모듈(150)운 각 문서의 상위 5개의 주제어를 각 문서의 대표 주제어로 할당하고, 각 문서의 대표 주제어를 서로 비교하여 대표 주제어 중 일치되는 대표 주제어 개수를 %로 계산할 수 있다.  The similarity calculation module 150 may assign the top five main words of each document as representative main words of each document, and compare the representative main words of each document with each other to calculate the number of matching representative main words among the representative main words in%.
예를들어, '문서1'의 대표 주제어는 '주제어1', '주제어2', '주제어3', '주제어4' 및 '주제어5'이고, '문서2'의 대표 주제어는 '주제어2', '주제어4', '주제어5', '주제어6' 및 '주제어9'이다. For example, representative keywords of 'document 1' are 'main control 1', 'main control 2', 'main control 3', 'main control 4' and 'main control 5', and the main keywords of 'document 2' are 'main control 2'. , 'Main control 4', 'main control 5', 'main control 6' and 'main control 9'.
'문서1'과 '문서2'는 전체 5개의 대표 주제어 중 3개의 대표 주제어가 일치하므로 60%의 유사도를 가진다. 'Document 1' and 'Document 2' have a similarity of 60% because three of the five representative keywords match.
상기의 유사도 계산 방법은 일 실시예를 든 것으로 다양한 방법으로 계산될 수 있다. The similarity calculation method is an example and may be calculated in various ways.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 배치(Batch) 방식으로 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module 150 may calculate the similarity between documents in a batch manner for all document pairs.
배치(Batch) 방식은 데이터 처리 대상이 되는 데이터를 어느 일정한 관리 단위로 종합한 것으로, 배치 방식으로 각 문서 사이의 유사도를 계산하는 방법은 n개의 문서가 입력되면 첫 번째 문서는 (n-1)개의 문서와 유사도를 비교하고, 두 번째 문서는 (n-2)개의 문서와 유사도를 비교하는 방법이다. Batch is a method that combines the data to be processed into a certain management unit, and calculates the similarity between documents in a batch method. When n documents are input, the first document is (n-1). Similarity is compared with two documents, and the second document is a similarity comparison with (n-2) documents.
배치 방식으로 저장된 n개 문서의 유사도를 비교하는 경우, 유사도 비교 횟수는
Figure PCTKR2010006426-appb-I000001
이다.
If you compare the similarity of n documents stored in a batch, the similarity comparison count is
Figure PCTKR2010006426-appb-I000001
to be.
유사도 계산 모듈(150)은 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module 150 may calculate the similarity between the newly added document and the input or stored document in an incremental manner when a new document is added.
증분(Incremental) 방식은 데이터를 한꺼번에 처리하지 않고 하나의 문서씩 순차적으로 처리하는 방법으로, 증분 방식으로 각 문서 사이의 유사도를 계산하는 방법은 새로운 문서가 추가되면 추가된 문서에 대하여 상위 N개의 주제어를 대표 주제어로 할당한 후 미리 저장된 문서들과 유사도를 계산하고, 문서가 삭제되는 경우 유사도 관계를 끊는 방법이다. Incremental method processes data one by one, not data at once. Incremental method calculates the similarity between each document in incremental method. Is assigned as a representative subject, the similarity is calculated with previously stored documents, and the similarity relationship is broken when the document is deleted.
증분 방식을 사용하여 유사도를 비교할 경우 새로 입력된 문서와 미리 저장된 n개의 문서를 비교하여 모든 문서 사이의 유사도를 산출할 수 있으므로 배치 방식을 사용하여 유사도를 비교할 경우보다 서비스 응답 시간을 감소시킬 수 있다. When comparing similarities using incremental methods, the newly entered documents can be compared with n pre-stored documents to calculate the similarity between all documents, thereby reducing service response time compared to comparing similarities using batch methods. .
문서 관리 모듈(110)은 입력되거나 저장된 문서에 대하여 유사도 계산 모듈(150)에서 계산된 각 문서 사이의 유사도를 관리할 수 있다. The document management module 110 may manage the similarity between the documents calculated by the similarity calculation module 150 with respect to the input or stored document.
구체적으로, 문서 관리 모듈(110)은 2차원 행렬 또는 이와 대등한 효과를 가진 데이터 구조에 문서 사이의 유사도를 저장하고 관리할 수 있고, 증분 방식으로 유사도가 갱신되는 경우 즉시 일괄 변경할 수 있다. In detail, the document management module 110 may store and manage the similarity between documents in a two-dimensional matrix or a data structure having an equivalent effect, and may immediately change the batch if the similarity is updated in an incremental manner.
유사 문서 검색 모듈(120)은 문서 관리 모듈(110)을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있다. The similar document search module 120 may search the document management module 110 to search for a document having a similarity or higher than a threshold set for the reference document.
브라우징 연결 구성 모듈(130)은 검색된 문서들 중 어느 하나를 선택하고, 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성할 수 있다. The browsing connection configuration module 130 may select one of the retrieved documents and continuously search for documents having a similarity or more than a threshold set from the selected document to generate a browsing connection configuration.
즉, 브라우징 연결 구성 모듈(130)은 검색된 문서들 중 사용자가 임의로 선택한 문서를 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 검색하고, 검색된 각각의 문서들을 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 다시 검색하는 순서로 연속적으로 임계값 이상의 유사도를 가지는 문서들을 검색하여 브라우징 연결 구성을 생성할 수 있다. That is, the browsing connection configuration module 130 searches for documents having a similarity or higher than a threshold set based on a document arbitrarily selected by a user among the searched documents, and retrieves documents having a similarity or higher than a threshold set based on each of the retrieved documents. The browsing connection configuration may be generated by searching documents having similarity above a threshold in succession in order of searching again.
시각화 모듈(170)은 유사 문서 검색 모듈(120)에서 검색된 문서 사이의 유사도와 브라우징 연결 구성 모듈(130)에서 생성된 브라우징 연결 구성을 시각화하여 나타낼 수 있다. The visualization module 170 may visualize and display the similarity between the documents retrieved by the similar document search module 120 and the browsing connection configuration generated by the browsing connection configuration module 130.
임계값 재설정 모듈(160)은, 도 2에 도시한 바와 같이, 사용자 인터페이스(162) 및 임계값 재설정부(164)를 포함하여 구성되며, 설정된 임계값을 변경할 수 있다.  As illustrated in FIG. 2, the threshold reset module 160 includes a user interface 162 and a threshold reset unit 164, and may change a set threshold.
임계값 재설정 모듈(160)의 사용자 인터페이스(162)는 다수의 임계값을 지정하는 선택 박스(box) 형태로 형성될 수 있다. The user interface 162 of the threshold reset module 160 may be formed in the form of a selection box that specifies a plurality of thresholds.
사용자가 사용자 인터페이스(162)를 통해 새로운 임계값을 입력하면, 임계값 재설정부(164)는 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정할 수 있다. When a user inputs a new threshold value through the user interface 162, the threshold value reset unit 164 may change the previously set threshold value to a new threshold value and set it.
따라서, 문서 검색 중 임계값을 변경하여 유사도가 다른 문서들을 검색할 수 있다. Accordingly, the threshold value may be changed during document search to search for documents having different similarities.
임계값이 재설정되면, 유사 문서 검색 모듈(120)은 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 브라우징 연결 구성 모듈(130)은 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성할 수 있다. When the threshold is reset, the similar document retrieval module 120 may re-search the similar document based on the reset threshold value, and the browsing connection configuration module 130 may generate a browsing connection configuration for the re-searched documents.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to be limited to the specific embodiment of the present invention, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.
이제 본 발명의 실시예에 따른 동적 임계값이 적용된 문서 브라우징 장치 및 방법, 이를 기록한 전자장치에 의해 판독 가능한 기록매체에 대하여 도면을 참조하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. Now, a document browsing apparatus and method to which a dynamic threshold is applied according to an embodiment of the present invention, and a recording medium readable by the electronic device recording the same, will be described in detail with reference to the accompanying drawings. Elements are given the same reference numerals and redundant description thereof will be omitted.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이다. 1 is a view schematically showing a configuration diagram showing an embodiment of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention, and FIG. 2 is a document to which the dynamic threshold is applied according to an aspect of the present invention. A schematic diagram illustrating an exemplary embodiment of a threshold reset module of a browsing device is illustrated.
본 발명의 실시예에 따르면, 도 1에 도시한 바와 같이, 동적 임계값이 적용된 문서 브라우징 장치(100)는 문서 관리 모듈(110), 유사 문서 검색 모듈(120) 및 브라우징 연결 구성 모듈(130)을 포함한다. According to the exemplary embodiment of the present invention, as shown in FIG. 1, the document browsing apparatus 100 to which the dynamic threshold is applied may include a document management module 110, a similar document search module 120, and a browsing connection configuration module 130. It includes.
또한, 동적 임계값이 적용된 문서 브라우징 장치(100)는 주제어 저장 모듈(140), 유사도 계산 모듈(150), 임계값 재설정 모듈(160) 및 시각화 모듈(170) 중 어느 하나 이상을 더 포함하여 구성될 수 있다. In addition, the document browsing apparatus 100 to which the dynamic threshold is applied may further include any one or more of a main control storage module 140, a similarity calculation module 150, a threshold reset module 160, and a visualization module 170. Can be.
주제어 저장 모듈(140)은 문서가 새로 입력되거나 미리 저장된 문서에 대하여 각 문서에 포함되는 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하고, 유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산할 수 있다. The key word storage module 140 extracts the top N key words included in each document with respect to a newly input or pre-stored document, assigns and stores them as a representative key word of each document, and the similarity calculation module 150 stores all document pairs. The similarity between the documents can be calculated by comparing the representative subjects with each other.
주제어 저장 모듈(140)은 주제어로 가치 있는 용어들을 저장한 주제어 사전과 주제어로 가치없는 용어들을 저장한 불용 주제어 사전을 저장하고 각 문서에서 추출되는 용어를 주제어 사전 및 불용 주제어 사전에서 검색하여 주제어로 선정할 수 있다. The keyword storage module 140 stores a subject dictionary storing valuable terms as a main subject, and an unusable subject dictionary storing unsatisfactory terms as a subject, and searches for terms extracted from each document from the subject dictionary and the unused topic dictionary as subject words. Can be selected.
여기서, 주제어는 특정 문서의 연구 내용, 주장을 대표할 수 있는 문서 내에 존재하는 용어를 의미한다. Here, the term "mean" refers to a term that exists in a document that can represent the research content and claim of a specific document.
구체적으로, 입력 문서로부터 색인자(Indexer)를 이용하여 색인어들을 추출하고 이를 주제어 사전, 불용 주제어 사전과 매칭하여 주제어 후보들을 선정한 후, 주제어 후보들을 용어 빈도(term frequency), 문서 빈도(document frequency) 등의 기준을 적용하여 순위화(ranking)하고 N개의 상위 주제어 후보들을 대표 주제어로 선정할 수 있다. Specifically, after extracting index words from an input document using indexers and matching them with the main dictionary and the unused main dictionary, the main candidates are selected, and the main candidates are term frequency and document frequency. The ranking criteria may be applied and the N top candidates may be selected as the representative subjects.
상기의 상위 N개의 주제어를 추출하는 방법은 일 실시예에 불구하며 다양한 방법으로 각각의 문서로부터 상위 N개의 주제어를 추출할 수 있다. The method of extracting the top N main words may extract the top N main words from each document in various ways, in accordance with an embodiment.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 각 문서의 대표 주제어를 서로 비교하여 유사도를 계산할 수 있다. The similarity calculation module 150 may calculate the similarity by comparing representative key words of each document with respect to all document pairs.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 유사도 계산 결과를 설명하기 위한 도면이다. FIG. 6 is a diagram illustrating a document similarity calculation result of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
예를 들어, 도 6에 도시한 바와 같이, 유사도 계산 모듈(150)운 각 문서의 상위 5개의 주제어를 각 문서의 대표 주제어로 할당하고, 각 문서의 대표 주제어를 서로 비교하여 대표 주제어 중 일치되는 대표 주제어 개수를 %로 계산할 수 있다. For example, as shown in FIG. 6, the similarity calculation module 150 assigns the top five main words of each document as representative main words of each document, compares the representative main words of each document with each other, and matches among the representative main words. The number of representative keywords can be calculated in%.
'문서1'의 대표 주제어는 '주제어1', '주제어2', '주제어3', '주제어4' 및 '주제어5'이고, '문서2'의 대표 주제어는 '주제어2', '주제어4', '주제어5', '주제어6' 및 '주제어9'이다. The main keywords of 'Document 1' are 'Main Control 1', 'Main Control 2', 'Main Control 3', 'Main Control 4' and 'Main Control 5'. The main keywords of 'Document 2' are 'Main Control 2' and 'Main Control 4'. ',' Main control 5 ',' main control 6 'and' main control 9 '.
'문서1'과 '문서2'는 전체 5개의 대표 주제어 중 3개의 대표 주제어가 일치하므로 60%의 유사도를 가진다. 'Document 1' and 'Document 2' have a similarity of 60% because three of the five representative keywords match.
상기의 유사도 계산 방법은 일 실시예를 든 것으로 다양한 방법으로 계산될 수 있다. The similarity calculation method is an example and may be calculated in various ways.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 배치(Batch) 방식으로 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module 150 may calculate the similarity between documents in a batch manner for all document pairs.
배치(Batch) 방식은 데이터 처리 대상이 되는 데이터를 어느 일정한 관리 단위로 종합한 것으로, 배치 방식으로 각 문서 사이의 유사도를 계산하는 방법은 n개의 문서가 입력되면 첫 번째 문서는 (n-1)개의 문서와 유사도를 비교하고, 두 번째 문서는 (n-2)개의 문서와 유사도를 비교하는 방법이다. Batch is a method that combines the data to be processed into a certain management unit, and calculates the similarity between documents in a batch method. When n documents are input, the first document is (n-1). Similarity is compared with two documents, and the second document is a similarity comparison with (n-2) documents.
배치 방식으로 저장된 n개 문서의 유사도를 비교하는 경우, 유사도 비교 횟수는
Figure PCTKR2010006426-appb-I000002
이다.
If you compare the similarity of n documents stored in a batch, the similarity comparison count is
Figure PCTKR2010006426-appb-I000002
to be.
유사도 계산 모듈(150)은 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다. The similarity calculation module 150 may calculate the similarity between the newly added document and the input or stored document in an incremental manner when a new document is added.
도 10은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면이다. FIG. 10 illustrates a comparison of document similarities using an incremental method of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
증분(Incremental) 방식은 데이터를 한꺼번에 처리하지 않고 하나의 문서씩 순차적으로 처리하는 방법으로, 도 10에 도시한 바와 같이, 증분 방식으로 각 문서 사이의 유사도를 계산하는 방법은 새로운 문서가 추가되면 추가된 문서에 대하여 상위 N개의 주제어를 대표 주제어로 할당한 후 미리 저장된 문서들과 유사도를 계산하고, 문서가 삭제되는 경우 유사도 관계를 끊는 방법이다. Incremental (Incremental) is a method of processing data one by one instead of processing the data at once, as shown in Figure 10, the method of calculating the similarity between each document in an incremental method is added when a new document is added After assigning the top N subjects to the representative subjects, the similarity is calculated with the previously stored documents, and the similarity relationship is broken when the documents are deleted.
증분 방식을 사용하여 유사도를 비교할 경우 새로 입력된 문서와 미리 저장된 n개의 문서를 비교하여 모든 문서 사이의 유사도를 산출할 수 있으므로 배치 방식을 사용하여 유사도를 비교할 경우보다 서비스 응답 시간을 감소시킬 수 있다. When comparing similarities using incremental methods, the newly entered documents can be compared with n pre-stored documents to calculate the similarity between all documents, thereby reducing service response time compared to comparing similarities using batch methods. .
문서 관리 모듈(110)은 입력되거나 저장된 문서에 대하여 유사도 계산 모듈(150)에서 계산된 각 문서 사이의 유사도를 관리할 수 있다. The document management module 110 may manage the similarity between the documents calculated by the similarity calculation module 150 with respect to the input or stored document.
구체적으로, 문서 관리 모듈(110)은 2차원 행렬 또는 이와 대등한 효과를 가진 데이터 구조에 문서 사이의 유사도를 저장하고 관리할 수 있고, 증분 방식으로 유사도가 갱신되는 경우 즉시 일괄 변경할 수 있다. In detail, the document management module 110 may store and manage the similarity between documents in a two-dimensional matrix or a data structure having an equivalent effect, and may immediately change the batch if the similarity is updated in an incremental manner.
유사 문서 검색 모듈(120)은 문서 관리 모듈(110)을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있다. The similar document search module 120 may search the document management module 110 to search for a document having a similarity or higher than a threshold set for the reference document.
도 7은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면이다.  7 is a diagram for describing a result of searching similar documents according to a threshold of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
예를 들어, 도 7에 도시한 바와 같이, 기준 문서를 '문서1'로 임계값을 60%로 설정하면, 기준 문서인 '문서1'에 대하여 유사도가 60% 이상을 가지는 문서들이 검색된다. For example, as shown in FIG. 7, when the reference document is set to 'Document 1' and the threshold value is set to 60%, documents having a similarity or more than 60% with respect to the reference document 'Document 1' are searched.
즉, '문서1'과 60%의 유사도를 가지는 '문서2', '문서3', '문서1'과 80%의 유사도를 가지는 '문서4'가 검색된다.  That is, 'Document 2', 'Document 3', and 'Document 4' having a similarity of 60% to 'Document 1' are searched.
브라우징 연결 구성 모듈(130)은 검색된 문서들 중 어느 하나를 선택하고, 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성할 수 있다. The browsing connection configuration module 130 may select one of the retrieved documents and continuously search for documents having a similarity or more than a threshold set from the selected document to generate a browsing connection configuration.
즉, 브라우징 연결 구성 모듈(130)은 검색된 문서들 중 사용자가 임의로 선택한 문서를 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 검색하고, 검색된 각각의 문서들을 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 다시 검색하는 순서로 연속적으로 임계값 이상의 유사도를 가지는 문서들을 검색하여 브라우징 연결 구성을 생성할 수 있다. That is, the browsing connection configuration module 130 searches for documents having a similarity or higher than a threshold set based on a document arbitrarily selected by a user among the searched documents, and retrieves documents having a similarity or higher than a threshold set based on each of the retrieved documents. The browsing connection configuration may be generated by searching documents having similarity above a threshold in succession in order of searching again.
도 8는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 사이의 브라우징 연결 구성을 설명하기 위한 도면이다.FIG. 8 is a diagram illustrating a configuration of a browsing connection between documents in a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
예를 들어, 도 8에 도시한 바와 같이, 브라우징 연결 구성 모듈(130)은 기준 문서 '문서1'과 60% 이상의 유사도를 가지는 '문서2', '문서3', '문서4' 중 사용자가 임의로 선택한 문서(예를 들어, 문서1)로부터 유사도가 60% 이상인 문서들을 연속적으로 검색할 수 있다. For example, as illustrated in FIG. 8, the browsing connection configuration module 130 may allow a user to select one of 'Document 2', 'Document 3', and 'Document 4' having a similarity level of 60% or more with the reference document 'Document 1'. Documents having a similarity level of 60% or more can be continuously searched from a randomly selected document (for example, document 1).
브라우징 연결 구성 모듈(130)은 '문서1'에 대하여 유사도가 60% 이상인 '문서2', '문서3', '문서4'가 검색하여 브라우징 연결 구성(화살표)을 생성하고, 다시 검색된 '문서2', '문서3', '문서4'를 기준으로 유사도가 60% 이상인 문서들을 검색하여 브라우징 연결 구성을 생성한다. The browsing connection configuration module 130 searches for 'document 2', 'document 3', and 'document 4' having a similarity of 60% or more with respect to 'document 1' to generate a browsing connection configuration (arrow), and then retrieves the 'document' 2), 'Document 3', and 'Document 4' are searched for documents with a similarity of 60% or more to create a browsing connection configuration.
즉, '문서2'를 기준으로 유사도가 60% 이상인 '문서1'을 검색하여 브라우징 연결 구성을 생성하고, '문서3'을 기준으로 유사도가 60% 이상인 '문서1', '문서4'를 검색하여 브라우징 연결 구성을 생성하고, '문서4'를 기준으로 유사도가 60% 이상인 '문서1', '문서3'을 검색하여 브라우징 연결 구성을 생성할 수 있다. In other words, create a browsing connection configuration by searching for 'Document 1' with a similarity level of 60% or more based on 'Document 2', and then search for 'Document 1' and 'Document 4' with a similarity level of 60% or more based on 'Document 3'. The browsing connection configuration may be generated by searching, and the browsing connection configuration may be generated by searching for 'Document 1' and 'Document 3' having a similarity of 60% or more based on 'Document 4'.
따라서, 기준 문서와 유사도가 60% 이상인 문서들 중 사용자가 임의로 선택한 문서를 기준으로 유사도에 따른 브라우징 연결 구성을 새롭게 생성할 수 있다. Accordingly, a browsing connection configuration according to the similarity may be newly generated based on a document arbitrarily selected by a user among documents having a similarity to 60% or more.
시각화 모듈(170)은 유사 문서 검색 모듈(120)에서 검색된 문서 사이의 유사도와 브라우징 연결 구성 모듈(130)에서 생성된 브라우징 연결 구성을 시각화하여 나타낼 수 있다. The visualization module 170 may visualize and display the similarity between the documents retrieved by the similar document search module 120 and the browsing connection configuration generated by the browsing connection configuration module 130.
임계값 재설정 모듈(160)은, 도 2에 도시한 바와 같이, 사용자 인터페이스(162) 및 임계값 재설정부(164)를 포함하여 구성되며, 설정된 임계값을 변경할 수 있다.  As illustrated in FIG. 2, the threshold reset module 160 includes a user interface 162 and a threshold reset unit 164, and may change a set threshold.
도 9는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 변경을 설명하기 위한 도면이다. 9 is a diagram illustrating a threshold change of a document browsing apparatus to which a dynamic threshold is applied according to an aspect of the present invention.
예를 들어, 도 9에 도시한 바와 같이, 임계값 재설정 모듈(160)의 사용자 인터페이스(162)는 다수의 임계값을 지정하는 선택 박스(box) 형태로 형성될 수 있다. For example, as illustrated in FIG. 9, the user interface 162 of the threshold reset module 160 may be formed in a selection box that designates a plurality of thresholds.
사용자가 사용자 인터페이스(162)를 통해 새로운 임계값을 입력하면, 임계값 재설정부(164)는 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정할 수 있다. When a user inputs a new threshold value through the user interface 162, the threshold value reset unit 164 may change the previously set threshold value to a new threshold value and set it.
따라서, 문서 검색 중 임계값을 변경하여 유사도가 다른 문서들을 검색할 수 있다. Accordingly, the threshold value may be changed during document search to search for documents having different similarities.
임계값이 재설정되면, 유사 문서 검색 모듈(120)은 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 브라우징 연결 구성 모듈(130)은 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성할 수 있다. When the threshold value is reset, the similar document search module 120 may re-search similar documents based on the reset threshold value, and the browsing connection configuration module 130 may generate a browsing connection configuration for the re-searched documents.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제1 실시예를 나타내는 흐름도를 도시한 도면이다. 3 is a flowchart illustrating a first embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
본 발명의 제1 실시예에 따르면, 동적 임계값이 적용된 문서 브라우징 방법은 주제어 추출 및 저장하고(S310), 문서 유사도 계산 및 저장하고(S320), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S330), 브라우징 연결 구성을 생성할 수 있다(S340). According to the first embodiment of the present invention, a method for browsing a document to which a dynamic threshold is applied includes extracting and storing a main word (S310), calculating and storing a document similarity (S320), and searching for a document having a similarity or higher than a set threshold value (S320). In operation S330, a browsing connection configuration may be generated in operation S340.
먼저, 입력되거나 저장된 문서에 대하여 각 문서에 포함되는 상위 N개의 주제어를 추출하여 저장할 수 있다. First, the top N main words included in each document may be extracted and stored for the input or stored document.
각각의 문서로부터 상위 N개의 주제어 추출은 상술한 바와 같이, 다양한 방법으로 수행할 수 있고, 각 문서로부터 추출된 상위 N개의 주제어는 각 문서의 대표 주제어로 할당되어 저장될 수 있다. As described above, the extraction of the top N keywords may be performed in various ways, and the top N keywords extracted from each document may be allocated and stored as representative keywords of each document.
저장된 모든 문서 쌍에 대하여, 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장할 수 있다. For all stored document pairs, representative subject words can be compared with each other to calculate and store similarities between documents.
각각의 문서 사이의 유사도 계산은 입력되거나 저장된 다수의 문서 전체 또는 미리 설정된 양의 문서 전체에 대하여 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산할 수 있고, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다. Similarity calculation between each document can calculate the similarity between each document in batch method for all input or stored multiple documents or preset amount of documents and incremental when new document is added. In this way, the similarity between the newly added document and the input or stored document can be calculated.
다음으로, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고, 검색된 문서들 중 어느 하나를 선택하여 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성할 수 있다. Next, a document having a similarity or higher than a threshold set for the reference document is searched, and one of the searched documents is selected to continuously search for documents having a similarity or higher than the threshold set from the selected document to generate a browsing connection configuration. Can be.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제2 실시예를 나타내는 흐름도를 도시한 도면이다. 4 is a flowchart illustrating a second embodiment of a method for browsing a document to which a dynamic threshold is applied according to another aspect of the present invention.
제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은, 도 4에 도시한 바와 같이, 주제어 추출 및 저장하고(S410), 문서 유사도 계산 및 저장하고(S420), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S430), 검색된 문서를 디스플레이하고(S440), 검색된 문서 사이에 브라우징 연결 구성을 생성하고(S440), 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있다(S460). In the document browsing method to which the dynamic threshold is applied according to the second embodiment, as shown in FIG. 4, the main word extraction and storage is performed (S410), the document similarity is calculated and stored (S420), and has a similarity or higher than a set threshold. Search for the document (S430), display the searched document (S440), create a browsing connection configuration between the retrieved documents (S440), visualize the similarity between the retrieved documents, and the browsing connection configuration between the documents can be visualized ( S460).
제1 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법과 비교할 때, 제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 과정(S430)와 검색된 문서들 중 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 과정(S450) 사이에, 검색된 문서 사이의 유사도를 시각화하여 나타내는 과정(S440)을 더 포함하는 점에 구성상 차이가 있다. Compared to the document browsing method to which the dynamic threshold is applied according to the first embodiment, the document browsing method to which the dynamic threshold is applied according to the second embodiment is a process of searching for a document having a similarity or higher than a threshold set for the reference document ( Between step S430 and step (S450) of continuously searching for documents having a similarity level higher than or equal to a threshold value selected from the selected documents (S450), a process of visualizing and displaying the similarity between the searched documents (S440) is shown. There is a configuration difference in that it includes more.
또한, 제1 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법과 비교할 때, 제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은 검색된 문서 사이의 브라우징 연결 구성을 생성하는 과정(S450) 이후, 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있는 과정(S460)을 더 포함하는 점에 구성상 차이가 있다. In addition, when compared with the document browsing method to which the dynamic threshold is applied according to the first embodiment, the document browsing method to which the dynamic threshold is applied according to the second embodiment is performed after generating a browsing connection configuration between retrieved documents (S450). There is a difference in configuration in that it further includes a process (S460) that can visualize and display the browsing connection configuration between documents, the similarity between the retrieved documents.
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제3 실시예를 나타내는 흐름도를 도시한 도면이다. 5 is a flowchart illustrating a third embodiment of a document browsing method to which a dynamic threshold is applied according to another aspect of the present invention.
제3 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은, 도 5에 도시한 바와 같이, 주제어 추출 및 저장하고(S510), 문서 유사도 계산 및 저장하고(S520), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S530), 검색된 문서 사이에 브라우징 연결 구성을 생성하고(S540), 임계값을 재설정하고(S560), 설정된 또는 재설정된 임계값에 따라 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있다(S550). In the document browsing method to which the dynamic threshold is applied according to the third embodiment, as shown in FIG. 5, the main word extraction and storage is performed (S510), the document similarity is calculated and stored (S520), and has a similarity greater than or equal to the set threshold. Search for documents (S530), create a browsing connection configuration between retrieved documents (S540), reset thresholds (S560), similarity between retrieved documents according to set or reset thresholds, and browse connections between documents The configuration may be visualized and displayed (S550).
임계값이 재설정되면(S560), 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 과정(S530) 및 검색된 문서들 중 선택된 문서로부터 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 과정(S540)을 반복할 수 있다.  When the threshold is reset (S560), the process of searching for a document having a similarity or higher than the reset threshold with respect to the reference document (S530) and continuously searching for documents having a similarity or higher than the reset threshold from the selected document among the retrieved documents The process of generating a browsing connection configuration may be repeated (S540).
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체에 기록될 수 있다. According to another aspect of the present invention, a program for performing a document browsing method to which a dynamic threshold is applied may be recorded and recorded on a recording medium readable by the electronic device.
동적 임계값이 적용된 문서 브라우징 방법은 컴퓨터 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. The document browsing method to which the dynamic threshold is applied can be written in a computer program, and codes and code segments constituting the program can be easily inferred by a computer programmer in the art.
또한, 동적 임계값이 적용된 문서 브라우징 방법은 컴퓨터가 읽을 수 있는 정보저장매체(Computer Readable Medium)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 임계값이 변경된 경우 기준 문서와 변경된 임계값 이상의 유사도를 가지는 문서를 검색하여 브라우징 연결 구성을 생성할 수 있다. In addition, the document browsing method to which the dynamic threshold is applied is stored in a computer readable medium, and when the threshold is changed by being read and executed by the computer, the document browsing method has a similarity to the reference document or more than the changed threshold. You can search the document to create a browsing connection configuration.
본 발명은 임계값을 동적으로 변경하고 이에 따라 유사한 문서를 검색하여 검색된 문서 사이에 브라우징 연결 구성을 생성할 수 있는 동적 임계값이 적용된 문서 브라우징 장치 및 이를 이용하여 데이터를 검색하는 장치 등에 적용할 수 있다. The present invention can be applied to a document browsing device and a device for retrieving data using the dynamic threshold value that can dynamically change the threshold value and thereby search for similar documents to create a browsing connection configuration between the retrieved documents. have.

Claims (16)

  1. 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 관리하는 문서 관리 모듈;A document management module that manages the similarity between each document with respect to the input or stored document;
    상기 문서 관리 모듈을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈; 및A similar document retrieval module for retrieving the document management module and retrieving a document having a similarity or higher than a threshold set for a reference document; And
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 브라우징 연결 구성 모듈;을 포함하는 동적 임계값이 적용된 문서 브라우징 장치.A browsing connection configuration module which selects any one of the retrieved documents and continuously searches for documents having a similarity or more from the selected threshold value from the selected document to generate a browsing connection configuration; .
  2. 제1항에 있어서, The method of claim 1,
    상기 입력되거나 저장된 문서에 대하여, 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈; 및A main word storage module for extracting the upper N main words from each document and allocating and storing the top N main words from the respective documents as the representative main words of each document; And
    모든 문서 쌍에 대하여 상기 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈;을 더 포함하는 동적 임계값이 적용된 문서 브라우징 장치.And a similarity calculation module for calculating similarity between documents by comparing the representative subject words assigned to each document with respect to all document pairs.
  3. 제2항에 있어서,The method of claim 2,
    상기 유사도 계산 모듈은, 상기 모든 문서 쌍에 대하여 배치(Batch) 방식으로 상기 모든 문서 쌍에 대해 문서 사이의 유사도를 계산하는 동적 임계값이 적용된 문서 브라우징 장치.And the similarity calculation module is configured to calculate a similarity between documents for all the document pairs in a batch manner for all the document pairs.
  4. 제2항에 있어서,The method of claim 2,
    상기 유사도 계산 모듈은, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 동적 임계값이 적용된 문서 브라우징 장치.And the similarity calculation module is configured to calculate a similarity between the newly added document and the inputted or stored document in an incremental manner when a new document is added.
  5. 제1항에 있어서,The method of claim 1,
    상기 유사 문서 검색 모듈에서 검색된 문서 사이의 유사도와, 상기 브라우징 연결 구성 모듈에서 생성된 브라우징 연결 구성을 시각화하는 시각화 모듈을 더 포함하는 동적 임계값이 적용된 문서 브라우징 장치.And a visualization module configured to visualize similarity between documents retrieved by the similar document search module and a browsing connection configuration generated by the browsing connection configuration module.
  6. 제1항에 있어서,The method of claim 1,
    상기 설정된 임계값을 변경하는 임계값 재설정 모듈을 더 포함하는 동적 임계값이 적용된 문서 브라우징 장치.And a threshold reset module for changing the set threshold.
  7. 제6항에 있어서,The method of claim 6,
    상기 임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스; 및The threshold reset module includes a user interface for inputting a threshold; And
    상기 사용자 인터페이스를 통해 새로운 임계값이 입력되면, 이전에 설정된 임계값을 상기 새로운 임계값으로 변경하여 설정하는 임계값 재설정부;를 포함하는 동적 임계값이 적용된 문서 브라우징 장치.And a new threshold value input through the user interface, wherein the threshold value reset unit changes and sets a previously set threshold value to the new threshold value.
  8. 제6항에 있어서,The method of claim 6,
    상기 임계값이 재설정되면, 상기 유사 문서 검색 모듈은 상기 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 상기 브라우징 연결 구성 모듈은 상기 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 장치.When the threshold value is reset, the similar document search module re-searches similar documents based on the reset threshold value, and the browsing connection configuration module generates a browsing connection configuration for the re-searched documents. Document browsing device with dynamic threshold.
  9. 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계; Extracting the top N main words from each document with respect to the input or stored documents, and assigning and storing the top N main words as representative keywords of the respective documents;
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계; Calculating and storing the similarity between the documents by comparing the representative subject words with respect to all the document pairs;
    기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계; 및Retrieving a document having a similarity level equal to or greater than a threshold set for the reference document; And
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계;를 포함하는 동적 임계값이 적용된 문서 브라우징 방법.Selecting one of the retrieved documents and continuously searching for documents having similarity above the set threshold from the selected document to generate a browsing connection configuration.
  10. 제9항에 있어서,The method of claim 9,
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 상기 입력되거나 저장된 다수의 문서에 대하여 배치(Batch) 방식으로 상기 모든 문서 쌍에 대해 문서 사이의 유사도를 계산하는 것을 특징으로 하는 동적 임계값이 적용된 브라우징 방법.Computing and storing the similarity between the documents by comparing the representative key words with respect to all the document pairs, calculating the similarity between the documents for all the document pairs in a batch manner for the plurality of input or stored documents A browsing method to which a dynamic threshold is applied.
  11. 제9항에 있어서,The method of claim 9,
    모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 방법.Comparing representative subject words for all document pairs with each other and calculating and storing the similarity between the documents, the similarity between the newly added document and the inputted or stored document in incremental manner when a new document is added. A method for browsing a document to which a dynamic threshold is applied, characterized in that the calculation is performed.
  12. 제9항에 있어서,The method of claim 9,
    기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계와 상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 사이에,Creating a browsing connection configuration by searching for a document having a similarity greater than or equal to a threshold set for a reference document and selecting one of the searched documents, and continuously searching for documents having a similarity or greater than the set threshold from the selected document; In between steps,
    상기 검색된 문서들을 디스플레이하는 단계를 더 포함하는 동적 임계값이 적용된 문서 브라우징 방법.And displaying the retrieved documents. 10. The method of claim 1, further comprising displaying the retrieved documents.
  13. 제9항에 있어서,The method of claim 9,
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에,After selecting any one of the retrieved documents and continuously searching for documents having a similarity above the set threshold from the selected document to generate a browsing connection configuration,
    상기 검색된 문서들 사이의 유사도와, 문서 사이의 브라우징 연결 구성을 시각화하여 나타내는 단계를 더 포함하는 동적 임계값이 적용된 브라우징 방법. And visualizing and displaying similarity between the retrieved documents and a browsing connection configuration between the documents.
  14. 제9항에 있어서,The method of claim 9,
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에,After selecting any one of the retrieved documents and continuously searching for documents having a similarity above the set threshold from the selected document to generate a browsing connection configuration,
    이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정 단계를 더 포함하는 동적 임계값이 적용된 문서 브라우징 방법.And a threshold reset step of changing and setting a previously set threshold to a new threshold.
  15. 제14항에 있어서,The method of claim 14,
    상기 임계값이 재설정되면, 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계; 및If the threshold is reset, retrieving a document having a similarity above the reset threshold for the reference document; And
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계;를 반복하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 방법.Selecting any one of the retrieved documents and continuously searching for documents having similarity above the reset threshold from the selected document to generate a browsing connection configuration; How to browse.
  16. 제9항 내지 제15항 중 어느 한 항에 있어서,The method according to any one of claims 9 to 15,
    상기 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체.And a program for executing a document browsing method to which the dynamic threshold is applied, which can be read by the electronic device.
PCT/KR2010/006426 2010-07-12 2010-09-17 Document browsing device and method having dynamic threshold WO2012008655A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100066745A KR101077982B1 (en) 2010-07-12 2010-07-12 Apparatus and method for browsing documents using dynamic threshold
KR10-2010-0066745 2010-07-12

Publications (1)

Publication Number Publication Date
WO2012008655A1 true WO2012008655A1 (en) 2012-01-19

Family

ID=45033575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/006426 WO2012008655A1 (en) 2010-07-12 2010-09-17 Document browsing device and method having dynamic threshold

Country Status (2)

Country Link
KR (1) KR101077982B1 (en)
WO (1) WO2012008655A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101931714B1 (en) * 2016-12-20 2018-12-26 주식회사 와이즈넛 System and method for extracting named entity using similar document recommand device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305505A (en) * 1996-05-10 1997-11-28 Nec Corp Automatic electronic mail sorting system
JP2000090103A (en) * 1998-09-10 2000-03-31 Fuji Xerox Co Ltd Information retrieval device and computer-readable recording medium recorded with information retrieving program
JP2002334045A (en) * 2001-05-11 2002-11-22 Hitachi Ltd Electronic mail classifying method, and its implementing device and its processing program
KR20060099222A (en) * 2005-03-11 2006-09-19 인하대학교 산학협력단 System and method for classification of e-mail

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305505A (en) * 1996-05-10 1997-11-28 Nec Corp Automatic electronic mail sorting system
JP2000090103A (en) * 1998-09-10 2000-03-31 Fuji Xerox Co Ltd Information retrieval device and computer-readable recording medium recorded with information retrieving program
JP2002334045A (en) * 2001-05-11 2002-11-22 Hitachi Ltd Electronic mail classifying method, and its implementing device and its processing program
KR20060099222A (en) * 2005-03-11 2006-09-19 인하대학교 산학협력단 System and method for classification of e-mail

Also Published As

Publication number Publication date
KR101077982B1 (en) 2011-10-31

Similar Documents

Publication Publication Date Title
WO2013081282A1 (en) System and method for recommending application by using keyword
WO2012070840A2 (en) Apparatus and method for consensus search
WO2010137814A2 (en) Method of providing by-viewpoint patent map and system thereof
WO2020251233A1 (en) Method, apparatus, and program for obtaining abstract characteristics of image data
WO2011136425A1 (en) Device and method for resource description framework networking using an ontology schema having a combined named dictionary and combined mining rules
WO2016125949A1 (en) Automatic document summarizing method and server
WO2011065630A1 (en) Apparatus and method for analyzing research information about a researcher, and computer-readable storage medium for storing computer-executable program for the method
WO2017115994A1 (en) Method and device for providing notes by using artificial intelligence-based correlation calculation
WO2015129983A1 (en) Device and method for recommending movie on basis of distributed mining of fuzzy association rules
WO2011162446A1 (en) Module and method for deciding named entity of term using named entity dictionary combined with ontology schema and mining rule
WO2021060920A1 (en) System and method for solving text sensitivity based bias in language model
WO2014058146A1 (en) User terminal apparatus supporting fast web scroll of web documents and method therefor
WO2012030049A2 (en) Apparatus and method for classifying similar documents by applying a dynamic threshold value
WO2012046906A1 (en) Device and method for providing resource search information on marked correlations between research subjects using a knowledge base from a combination of multiple resources
WO2015080371A1 (en) Image search system and method
WO2017099454A1 (en) Keyword search method on basis of mind map and apparatus therefor
WO2012008655A1 (en) Document browsing device and method having dynamic threshold
WO2012144685A1 (en) Method and device for visualizing development of technology
WO2023113158A1 (en) Criminal profiling method, device performing same, and computer program
WO2017179778A1 (en) Search method and apparatus using big data
WO2016072772A1 (en) Data visualizing method and system using reference meaning map
WO2016036049A1 (en) Search service providing apparatus, system, method, and computer program
WO2016088954A1 (en) Spam classifying method, recording medium for implementing same, and spam classifying device
WO2011136413A1 (en) Apparatus and method for configuring a comprehensive intellectual property rights star network by detecting patent similarity
EP2499551A2 (en) Method and apparatus for displaying data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10854777

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10854777

Country of ref document: EP

Kind code of ref document: A1