KR20070102033A - System and method for searching documents - Google Patents

System and method for searching documents Download PDF

Info

Publication number
KR20070102033A
KR20070102033A KR1020060033658A KR20060033658A KR20070102033A KR 20070102033 A KR20070102033 A KR 20070102033A KR 1020060033658 A KR1020060033658 A KR 1020060033658A KR 20060033658 A KR20060033658 A KR 20060033658A KR 20070102033 A KR20070102033 A KR 20070102033A
Authority
KR
South Korea
Prior art keywords
input
document
user
keyword
extracting
Prior art date
Application number
KR1020060033658A
Other languages
Korean (ko)
Other versions
KR100816912B1 (en
Inventor
차완규
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR20060033658A priority Critical patent/KR100816912B1/en
Priority to US11/621,820 priority patent/US8200695B2/en
Priority to CN2007100054355A priority patent/CN101055580B/en
Publication of KR20070102033A publication Critical patent/KR20070102033A/en
Application granted granted Critical
Publication of KR100816912B1 publication Critical patent/KR100816912B1/en

Links

Images

Classifications

    • G06F17/30

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A system and a method for searching documents are provided to help a user to search documents by allowing a user to adjust weighted value to key words output by the input requests. A system for searching documents comprises a database(210), an input unit(110), extraction units(120,220), a weighted value applying unit(230), and a searching unit(240). The database stores documents. The input unit allows a user to input answering words. The extraction unit picks up keywords from the answering words. The weighted value applying unit applies a predetermined weighted value to the keywords. The searching unit lists up similar documents within a predetermined range by using vector formed by the keywords with weighted value.

Description

문서검색 시스템 및 그 방법{System and method for searching documents}System and method for searching documents

도 1은 본 발명의 실시예에 따른 문서검색 시스템을 설명하기 위한 블록도.1 is a block diagram illustrating a document search system according to an embodiment of the present invention.

도 2는 본 발명의 제 1실시예에 따라 사용자가 질의어를 입력하기 위한 사용자 인터페이스.2 is a user interface for a user to input a query in accordance with a first embodiment of the present invention.

도 3 및 도 4는 키워드에 부여된 가중치와 부여된 가중치를 변경하는 방법을 설명하는 도면.3 and 4 are diagrams for explaining a method for changing weights given to keywords and weights given to them.

도 5는 본 발명의 제 2실시예에 따라 첨부된 문서와 유사한 문서를 검색하는 방법을 설명하는 흐름도.5 is a flow chart illustrating a method for retrieving a document similar to the attached document according to the second embodiment of the present invention.

도 6 및 도 7은 첨부되는 문서와 유사한 문서를 검색하는 방법을 설기 위한 도면.6 and 7 are diagrams for explaining a method for searching a document similar to the attached document.

도 8 내지 도 10은 본 발명의 제 3실시예에 따라 검색되는 문서를 질의어로 이용하기 위한 방법을 설명하는 도면.8 to 10 illustrate a method for using a query as a query word according to a third embodiment of the present invention.

본 발명은 문서검색 시스템에 대한 것으로서, 상세하게는, 입력되는 질의어에 대하여 소정의 유사도를 가지는 문서들을 검색하기 위한 문서검색 시스템 및 그 방법에 대한 것이다. The present invention relates to a document retrieval system, and more particularly, to a document retrieval system and method for retrieving documents having a predetermined similarity with respect to an input query.

최근에는 무수히 쏟아지고 있는 문서 정보를 처리하여 사용자의 요구에 해당하는 정보만을 추출하여 사용자에게 제공하여 주는 문서검색 시스템이 널리 이용되고 있다. Recently, a document retrieval system that processes a myriad of document information, extracts only information corresponding to a user's request, and provides the information to a user is widely used.

즉, 문서 검색 또는 정보 검색이란 대량의 정보에 대하여 검색하고자 하는 사용자가 원하는 문서 또는 정보를 검색해 주는 것을 말한다. 정보를 검색하기 위해서는 먼저, 자연언어 텍스트에 대하여 키워드를 처리하고, 각 키워드에 대해 가중치를 부여한 후 검색 및 순서화를 하게 된다. That is, document search or information search refers to searching for a document or information desired by a user who wants to search for a large amount of information. To search for information, first, keywords are processed for natural language text, weighted for each keyword, and then searched and ordered.

종래의 문서검색 시스템은 단순한 사용자의 질의어를 받아들여 이를 공통적인 시스템에 의해 추출된 공통적인 결과를 사용자에게 출력한다. 이때, 일반적인 검색 시스템은 사용자로부터 수신된 질의어의 영역을 중심으로 구분하는 정도의 검색에 지나지 않았기 때문에, 이를 받아보는 사용자들은 자신의 취향 및 특성에 따라 특성화된 맞춤정보를 제공받기 어렵다.The conventional document retrieval system accepts a simple user's query and outputs the common results extracted by the common system to the user. In this case, since the general search system is only a search that divides the area of the query word received from the user, it is difficult for the users who receive it to be provided with personalized information specialized according to their tastes and characteristics.

또한, 종래에는 사용자가 원하는 정보를 단순히 사용자가 입력한 질의어에 대해서만 검색하므로 검색범위가 매우 넓어지게 되고, 이로 인해 사용자가 원하는 정보와 검색된 결과와의 사이에 많은 차이가 발생하는등의 검색된 결과의 정확도와 신뢰도가 떨어지게 되는 문제점이 있다.In addition, conventionally, since the user simply searches only the information input by the user, the search range becomes very wide, which causes a large difference between the information desired by the user and the searched result. There is a problem that the accuracy and reliability are reduced.

그리고, 종래의 문서검색 시스템은 사용자로부터 수신된 질의어 검색시 정보를 제공하는 사이트들이 이용하는 검색 시스템에 의존하여 작업을 수행하기 때문에 검색되는 정보들의 정확도가 떨어지고, 실시간 정보제공이 어렵다. 그러나, 특허문 서와 같이 생성된 즉시 또는 오랜시간이 경과되기 전에 검색되어야 하는 경우에는 문서의 접근 방법과 함께 사용자에게 특성화된 검색방법이 요구된다고 할 것이다. In addition, since the conventional document retrieval system performs a task depending on a retrieval system used by sites providing information when searching a query received from a user, the accuracy of the retrieved information is inferior and it is difficult to provide real time information. However, if it is to be searched immediately after being generated like a patent document or before a long time elapses, it will be said that a user-specific search method is required along with a document access method.

본 발명은 상기되는 문제점을 해결하기 위하여 제안되는 것으로서, 사용자가 다양한 루트를 통해 질의어를 입력할 수 있는 문서검색 시스템 및 그 방법을 제안하는 것을 목적으로 한다.The present invention is proposed to solve the above problems, and an object of the present invention is to propose a document search system and a method for allowing a user to input a query word through various routes.

또한, 입력된 질의로부터 추출되는 키워드에 대한 가중치의 조절이 사용자의 간편한 조작에 의해 수행되도록 함으로써, 사용자에게 특성화된 문서검색이 수행되도록 하는 문서검색 시스템 및 그 방법을 제안하는 것을 목적으로 한다. In addition, an object of the present invention is to propose a document search system and a method for allowing a user to perform a specialized document search by adjusting a weight of a keyword extracted from an input query by a user's simple operation.

상기되는 목적을 달성하기 위한 본 발명의 실시예에 따른 문서검색 시스템은 문서가 저장되는 데이터베이스; 사용자가 질의어를 입력하기 위한 입력수단; 입력된 질의어로부터 키워드를 추출하기 위한 추출수단; 상기 추출수단에 의해 추출된 키워드에 소정의 가중치를 부여하기 위한 가중치부여수단; 및 상기의 가중치가 부여된 키워드에 의해 형성되는 벡터를 이용하여 소정 범위 내의 유사문서들을 상기 데이터베이스로부터 추출하기 위한 검색수단;이 포함된다.Document search system according to an embodiment of the present invention for achieving the above object is a database that stores the document; Input means for a user to input a query; Extracting means for extracting a keyword from an input query; Weighting means for giving a predetermined weight to the keyword extracted by said extracting means; And retrieving means for extracting similar documents within a predetermined range from the database using a vector formed by the weighted keyword.

또한, 상기 입력수단을 통해 텍스트 형태의 파일을 업로드하는 것이 가능하고, 상기 추출수단은 업로드된 파일로부터 키워드를 추출하는 것을 특징으로 한다. In addition, it is possible to upload a file in the form of a text through the input means, the extraction means is characterized in that to extract a keyword from the uploaded file.

또한, 상기 입력수단에는 상기 질의어 외에 추가정보를 입력하기 위한 힌트 입력부가 형성되고, 상기 가중치부여수단은 상기 힌트 입력부를 통해 입력되는 사 항에 대해서는 소정 범위 가중치를 더 부여하는 것을 특징으로 한다. The input unit may include a hint input unit for inputting additional information in addition to the query word, and the weighting unit may further give a predetermined range weight to the item input through the hint input unit.

본 발명의 다른 측면에 따른 문서검색 방법은 입력수단을 통해 소정의 질의어가 입력되는 단계; 상기 질의어로부터 키워드가 추출되는 단계; 상기 키워드에 소정의 가중치가 부여되는 단계; 상기의 가중치가 부여된 키워드를 기반으로 데이터베이스로부터 유사문서를 추출하는 단계; 및 추출된 유사문서가 출력수단을 통해 표시되는 단계;가 포함되고, 사용자는 상기 입력수단을 통해 소정의 질의어로서 단어 또는 문장을 입력하거나 텍스트 형태의 파일을 첨부하는 것이 가능한 것을 특징으로 한다. Document searching method according to another aspect of the present invention comprises the steps of inputting a predetermined query via the input means; Extracting a keyword from the query word; Assigning a predetermined weight to the keyword; Extracting a similar document from a database based on the weighted keyword; And displaying the extracted similar document through an output means. The user may input a word or a sentence as a predetermined query word or attach a file in a text form through the input means.

제안되는 바와 같은 문서검색 시스템 및 그 방법에 의해서, 사용자가 다양한 루트를 통해 질의어를 입력할 수 있는 장점이 있다. According to the document retrieval system and the method as proposed, there is an advantage that the user can enter a query through a variety of routes.

또한, 입력된 질의로부터 추출되는 키워드에 대한 가중치의 조절이 사용자의 간편한 조작에 의해 수행되도록 함으로써, 사용자에게 특성화된 문서검색이 수행될 수 있는 장점이 있다. In addition, by adjusting the weight of the keyword extracted from the input query to be performed by the user's simple operation, there is an advantage that the user can perform a document search specialized.

이하에서는 본 발명의 바람직한 실시 예를 첨부되는 도면을 참조하여 상세하게 설명한다. 다만, 본 발명의 사상이 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상의 범위 내에 든다고 할 것이다.Hereinafter, with reference to the accompanying drawings, preferred embodiments of the present invention will be described in detail. However, the spirit of the present invention is not limited to the embodiments in which the present invention is presented, and those skilled in the art who understand the spirit of the present invention may easily add other embodiments by adding, changing, deleting or adding components within the scope of the same idea. It may be suggested, but this will also fall within the scope of the spirit of the present invention.

도 1은 본 발명의 실시예에 따른 문서검색 시스템을 설명하기 위한 블록도이다.1 is a block diagram illustrating a document search system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 문서검색 시스템에는 문서검색을 위한 질의어 입력 및 상기 입력에 대한 문서 검색결과가 표시되는 클라이언트(1)와, 상기 클라이언트(1)와 연결되어 사용자에 의해 입력된 질의어에 대한 문서검색을 수행하는 검색서버(2)가 포함된다.Referring to FIG. 1, a document search system according to the present invention includes a client 1 for displaying a query word for a document search and a document search result for the input, and is connected to the client 1 and inputted by a user. A search server 2 for performing a document search for a query is included.

상세히, 상기 클라이언트(1)에는 사용자가 상기 검색서버(2)로 소정의 질의어를 전송하는 입력수단(110)과, 상기 검색서버(2)로부터 전송되는 문서정보를 수신하여 사용자에게 표시되도록 하는 출력수단(120)이 구비된다.In detail, the client 1 has an input means 110 for transmitting a predetermined query to the search server 2 and an output for receiving the document information transmitted from the search server 2 and displaying it to the user. Means 120 are provided.

그리고, 상기 입력수단(110)은 사용자가 소정의 질의어를 입력하기 위한 사용자 인터페이스가 되고, 질의어의 입력은 사용자의 선택에 따라 다양한 루트를 통해 이루어질 수 있다.The input unit 110 may be a user interface for a user to input a predetermined query, and the input of the query may be performed through various routes according to the user's selection.

상기 질의어의 입력은 문장단위 또는 텍스트 파일의 첨부 또는 검색결과 문서의 선택에 의해 수행될 수 있으며, 이에 대한 상세한 설명은 첨부되는 도면을 참조하여 구체적으로 설명하기로 한다.The input of the query word may be performed by attaching a sentence or a text file or selecting a search result document, which will be described in detail with reference to the accompanying drawings.

또한, 상기 검색서버(2)와 연결되는 상기 클라이언트(1)는 IP네트워크를 통하여 2이상이 연결될 수 있으며, 도시된 도면에서는 상기 검색서버(2)와 클라이언트(1)가 별도로 구성되어 있으나, 상기 입력수단(110) 및 출력수단(120)이 상기 검색서버(2) 내에 형성되는 것도 가능하다. In addition, two or more clients 1 connected to the search server 2 may be connected to each other through an IP network. In the drawing, the search server 2 and the client 1 are separately configured. Input means 110 and output means 120 may be formed in the search server (2).

또한, 상기 검색서버(2)에는 다수의 문서가 저장되는 데이터베이스(210)와, 상기 입력수단(110)을 통해 입력된 질의어로부터 키워드를 추출하기 위한 추출수단(220)과, 상기 추출수단(220)에 의해 추출된 키워드에 소정의 가중치를 부여하기 위한 가중치 부여수단(230)과, 상기의 가중치가 부여된 키워드를 중심으로 소정 범위 이내의 유사문서들을 상기 데이터베이스(210) 또는 소정의 웹 서버로부터 검색하기 위한 검색수단(240)이 포함된다.In addition, the search server 2 includes a database 210 storing a plurality of documents, extraction means 220 for extracting a keyword from a query word input through the input means 110, and the extraction means 220. Weighting means 230 for assigning a predetermined weight to the keyword extracted by the < RTI ID = 0.0 >), < / RTI > and similar documents within a predetermined range based on the weighted keyword from the database 210 or the predetermined web server Search means 240 for searching is included.

보다 상세히, 상기 데이터베이스(210)에는 다수의 문서가 저장되고, 상기 문서는 특허문서 또는 논문등의 자료가 될 수 있다. 그리고, 상기 데이터베이스(210)는 소정의 네트워크 인터페이스(Network Interface,미도시)를 통하여 다수의 문서를 제공할 수 있는 웹 서버에 접속될 수 있으며, 접속된 웹 서버로부터 제공되는 문서가 상기 데이터베이스(210)에 저장될 수 있다. In more detail, a plurality of documents are stored in the database 210, and the documents may be data such as patent documents or papers. In addition, the database 210 may be connected to a web server capable of providing a plurality of documents through a network interface (not shown), and the documents provided from the connected web server may be connected to the database 210. ) Can be stored.

또한, 상기 추출수단(220)은 상기 입력수단(110)을 통해 입력되는 질의어의 루트에 따라 다양하게 키워드를 추출할 수 있으며, 특히 사용자가 상기 입력수단(110)을 통해 텍스트 파일을 첨부함으로써 첨부된 파일과 유사한 문서를 검색하고자 하는 경우에, 상기 추출수단(220)은 첨부된 파일의 컨텐츠 정보를 선행하여 읽어들이고, 상기 컨텐츠 정보로부터 텍스트 정보만을 추출하는 역할을 수행할 수 있다. In addition, the extraction means 220 may extract a variety of keywords according to the root of the query word input through the input means 110, in particular the user is attached by attaching a text file through the input means 110 In the case of searching for a document similar to the read file, the extracting unit 220 may read content information of the attached file in advance and extract only text information from the content information.

그리고, 상기 가중치 부여수단(230)은 상기 추출수단(220)에 의해 추출되는 키워드에 소정의 가중치를 부여하기 위한 역할을 수행한다. 이를 위해, 다수의 키워드 각각에 대한 가중치가 부여된 데이터DB가 상기 가중치 부여수단(230)과 연결될 수 있으며, 이 경우 상기 가중치 부여수단(230)은 상기 데이터DB를 참조하여 입력된 질의어로부터 추출된 키워드에 소정의 가중치를 부여할 수 있다.Then, the weighting means 230 serves to give a predetermined weight to the keyword extracted by the extraction means 220. To this end, a weighted data DB for each of a plurality of keywords may be connected to the weighting means 230, in which case the weighting means 230 is extracted from a query input with reference to the data DB. A predetermined weight can be given to a keyword.

그리고, 상기 가중치 부여수단(230)에 의해 각각의 키워드에 부여된 가중치 정보는 사용자의 요청에 의해 상기 출력수단(120)으로 제공될 수 있으며, 사용자는 상기 입력수단(110)을 통해 키워드에 부여된 가중치를 변경할 수 있다.In addition, weight information assigned to each keyword by the weighting means 230 may be provided to the output means 120 at the request of the user, and the user may assign the keyword to the keyword through the input means 110. Changed weights.

또한, 상기 검색수단(240)은 상기 추출수단(220) 및 가중치 부여수단(230)에 의한 키워드와 상기 키워드에 대한 가중치를 참조하여 상기 데이터베이스(210)로부터 질의어에 대한 문서를 검색하는 역할을 수행한다. In addition, the search means 240 performs a role of searching for the document for the query word from the database 210 by referring to the keyword by the extraction means 220 and the weighting means 230 and the weight of the keyword. do.

이 경우, 상기 검색수단(240)에 의해 검색되는 문서는 소정의 서지정보로 상기 출력수단(120)에 제공되고, 이를 통해 사용자가 검색된 문서의 정보를 확인할 수 있다. In this case, the document searched by the search means 240 is provided to the output means 120 as predetermined bibliographic information, through which the user can check the information of the searched document.

또한, 상기 출력수단(120)으로 제공되는 문서검색의 결과 즉, 상기 검색수단(240)에 의해 검색된 문서들로부터 문서의 특성을 도출하여 문서들을 벡터화하기 위한 분석수단이 더 포함될 수 있다. 이 경우, 상기 벡터들을 이용하여 문서들간의 유사도가 판단될 수 있다. In addition, analysis means for vectorizing documents by deriving characteristics of documents from the results of the document search provided to the output means 120, that is, the documents searched by the search means 240 may be further included. In this case, the similarity between documents may be determined using the vectors.

도 2는 본 발명의 제 1실시예에 따라 사용자가 질의어를 입력하기 위한 사용자 인터페이스이고, 도 3 및 도 4는 키워드에 부여된 가중치와 부여된 가중치를 변경하는 방법을 설명하는 도면이다.2 is a user interface for a user to input a query in accordance with a first embodiment of the present invention, and FIGS. 3 and 4 are diagrams for explaining a method for changing a weight assigned to a keyword and a weight assigned to the keyword.

도 2 내지 도 4를 참조하면, 상기 입력수단(110)에 의해 사용자에 제공되는 입력을 위한 사용자 인터페이스에는 질의어로서 문장이 입력되도록 하기 위한 문장입력 모드부(111)와, 문서를 첨부함으로써 첨부된 문서가 질의어가 되도록 하기 위한 문서첨부 모드부(112)와, 검색된 결과의 문서들중 선택되는 문서들이 질의어가 되도록 하기 위한 문서선택 모드부(113)와, 검색되는 문서에 대해서 출원인을 구분 하기 위한 출원인 분류부(114)와, 상기 문장입력 모드부(111) 선택시 사용자가 문장을 입력하기 위한 문장 입력부(115)와, 상기 문장 입력부(115)를 통해 입력되는 사항외에 소정의 가중치가 더 부여되도록 하기 위한 힌트 입력부(116)와, 입력된 질의어에 대해 부여된 가중치를 확인하고, 상기 가중치의 변경을 할 수 있는 가중치 조절부(117)가 포함된다.2 to 4, the user interface for input provided to the user by the input means 110 is attached by attaching a document and a sentence input mode 111 for allowing a sentence to be input as a query word. A document attachment mode unit 112 for making a document a query word, a document selection mode unit 113 for making documents selected among the documents of the searched results become a query word, and for distinguishing an applicant with respect to the searched document. Applicant classification unit 114, a sentence input unit 115 for the user to input a sentence when the sentence input mode 111 is selected, and a predetermined weight is given in addition to the items input through the sentence input unit 115 It includes a hint input unit 116 for checking, and a weight adjusting unit 117 that can check the weight given to the input query, and can change the weight.

그리고, 사용자가 소정의 기술분류를 선택하기 위한 기술분류 코드가 더 형성되며, 상기 기술분류 코드에는 기술분야별 특성이 될 수 있는 키워드들의 집합으로 이루어질 수 있다. 따라서, 사용자는 상기 기술분류 코드를 이용함으로써 문서 검색결과의 정확도를 향상시킬 수 있다.In addition, a technical classification code for the user to select a predetermined technical classification is further formed, the technical classification code may be made of a set of keywords that can be a characteristic for each technical field. Therefore, the user can improve the accuracy of the document search result by using the technical classification code.

상세히, 상기 문장입력 모드부(111)는 사용자가 질의어로 문장을 입력하기 위한 모드가 선택되도록 하고, 이 경우 상기 추출수단(220)은 입력되는 문장으로부터 키워드를 추출한다. In detail, the sentence input mode 111 allows a user to select a mode for inputting a sentence as a query, and in this case, the extraction means 220 extracts a keyword from the input sentence.

그리고, 상기 출원인 분류부(114)는 검색되는 문서의 검색조건으로서 출원인 구분을 사용자가 선택하기 위한 것으로서, 상기 출원인 분류부(114)를 통해 사용자가 타사문서 또는 자사문서를 선택하는 경우에 입력된 출원인의 설정에 해당되는 문서를 상기 데이터베이스(210)로부터 추출한다. In addition, the applicant classification unit 114 is for a user to select an applicant category as a search condition of a searched document, and is input when the user selects a third party document or a company document through the applicant classification unit 114. The document corresponding to the applicant's setting is extracted from the database 210.

상기 출원인 분류부(114)에 의해 문서의 출원인이 분류되도록 하기 위하여, 상기 검색수단(240)은 상기 클라이언트(1)의 사용자 정보를 미리 저장하고 있을 수 있으며, 사용자에 의해 선택되는 자사 또는 타사의 분류에 대하여 상기 검색수단(240)은 상기 데이터베이스(210)로부터 출원인을 분류하여 검색한다.In order for the applicant of the document to be classified by the applicant classification unit 114, the search means 240 may store user information of the client 1 in advance, and may be selected by a user or a third party. Regarding the classification, the searching means 240 classifies and searches the applicant from the database 210.

또한, 상기 힌트 입력부(116)는 상기 문장입력 모드부(111) 뿐만 아니라 상기 문서첨부 모드부(112)와 문서선택 모드부(113)에서도 구비될 수 있으며, 사용자가 상기 힌트 입력부(116)에 소정의 키워드를 입력하는 경우에는 상기 가중치 부여수단(230)에 의해 상기 힌트 입력부(116)에 입력된 키워드에 대하여 보다 높은 가중치가 부여된다.In addition, the hint input unit 116 may be provided not only in the sentence input mode unit 111 but also in the document attachment mode unit 112 and the document selection mode unit 113, and the user may enter the hint input unit 116. When a predetermined keyword is inputted, a higher weight is given to the keyword inputted to the hint input unit 116 by the weighting means 230.

또한, 상기 가중치 조절부(117)는 상기 가중치 부여수단(230)에 의해 부여된 가중치를 사용자가 확인할 수 있도록 하고, 사용자는 부여된 가중치를 선호도에 따라 변경할 수 있다.In addition, the weight adjusting unit 117 allows the user to check the weight given by the weighting means 230, the user can change the weight assigned according to the preference.

상기 가중치 조절부(117)가 사용자에 의해 입력되는 경우에는, 도 3에 도시된 바와 같이, 추출된 키워드에 대하여 가중치가 부여된 상태가 별도의 창으로 표시된다. When the weight adjusting unit 117 is input by the user, as shown in FIG. 3, the weighted state of the extracted keyword is displayed in a separate window.

그리고, 사용자는 상기 가중치 조절부(117)에 의해 부여된 가중치를 확인하고, 특정의 키워드에 부여된 가중치를 변경하고자 하는 경우에는 상기 도 4에 도시된 바와 같이 특정의 키워드를 선택하여 가중치를 직접 입력함으로써, 키워드에 부여된 가중치의 변경이 수행될 수 있다. And, when the user checks the weight given by the weight adjusting unit 117, and wants to change the weight given to a specific keyword, as shown in FIG. By input, the weight change given to the keyword can be performed.

도 5는 본 발명의 제 2실시예에 따라 첨부된 문서와 유사한 문서를 검색하는 방법을 설명하는 흐름도이고, 도 6 및 도 7은 첨부되는 문서와 유사한 문서를 검색하는 방법을 설명하기 위한 도면이다.5 is a flowchart illustrating a method for searching for a document similar to the attached document according to the second embodiment of the present invention, and FIGS. 6 and 7 are views for explaining a method for searching for a document similar to the attached document. .

도 5 내지 도 7을 참조하면, 사용자가 상기 문서첨부 모드부(112)를 입력한 다음에(S101), 상기 입력수단(110)을 통해 사용자에게 제공되는 문서 첨부키(118) 를 입력한다.5 to 7, after the user inputs the document attachment mode unit 112 (S101), the user inputs a document attachment key 118 provided to the user through the input means 110.

그리고, 상기 문서 첨부키(118)가 입력됨에 따라 도 6에 도시된 바와 같이 문서 첨부를 위한 파일 선택창이 표시되고, 사용자는 상기 파일 선택창을 통해 텍스트 형태의 파일을 선택한다(S103).As the document attachment key 118 is input, a file selection window for attaching a document is displayed as shown in FIG. 6, and the user selects a file in a text form through the file selection window (S103).

그 다음, 조회키(search)를 입력하여 첨부된 파일의 문서와 유사한 문서를 검색하는 과정이 수행되는데, 이를 위해 상기 추출수단(220)은 문서가 첨부되는 경우에 첨부된 문서의 콘텐츠 정보를 읽어들인다. 그리고, 읽어들인 컨텐츠 정보로부터 텍스터 형태의 정보를 추출한다(S105). Then, a process of searching for a document similar to a document of an attached file by inputting a search key is performed. For this purpose, the extraction means 220 reads content information of the attached document when the document is attached. It is. Then, the text form information is extracted from the read content information (S105).

그리고, 상기 문서 첨부키(118)를 입력함으로써 첨부될 수 있는 문서는 hwp,doc, txt등의 텍스트 형태의 파일이 될 수 있으며, 문서에는 jpg,bmp와 같은 이미지 파일등이 저장될 수 있으므로 상기 추출수단(220)은 첨부된 파일의 컨텐츠 정보로부터 텍스트 정보를 추출한다. In addition, the document that can be attached by inputting the document attachment key 118 may be a file in the form of a text such as hwp, doc, txt, the document may be stored in the image file such as jpg, bmp, etc. The extraction unit 220 extracts text information from the content information of the attached file.

그리고, 추출된 텍스트 정보로부터 소정의 키워드들이 도출되고(S107), 상기 가중치 부여수단(230) 및 검색수단(240)에 의한 유사 문서의 검색이 수행된다(S109).Then, predetermined keywords are derived from the extracted text information (S107), and similar documents are searched by the weighting means 230 and the searching means 240 (S109).

도 8 내지 도 10은 본 발명의 제 3실시예에 따라 검색되는 문서를 질의어로 이용하기 위한 방법을 설명하는 도면이다.8 through 10 are diagrams for describing a method for using a search word as a query word according to the third embodiment of the present invention.

도 8 내지 도 10을 참조하면, 상기 문장입력 모드부(111) 또는 문서첨부 모드부(112)를 통해 소정의 문서들이 검색된 다음에는, 검색되어 표시되는 문서를 이용하여 검색할 수 있으며, 사용자는 검색 결과로 표시되는 문서들중에서 소정의 문 서를 선택할 수 있다.8 to 10, after predetermined documents are searched through the sentence input mode unit 111 or the document attachment mode unit 112, the user may search using the searched and displayed documents. A document may be selected from the documents displayed as a search result.

상세히, 소정의 질의어에 대한 응답으로서, 검색되는 문서들이 사용자에 인터페이스로 제공되고, 사용자는 상기 출력수단(120)에 의해 표시되는 문서들중에서 소정의 문서를 선택하기 위한 선택키(119a)가 형성된다.In detail, in response to a predetermined query, the documents to be searched are provided to the user as an interface, and the user is provided with a selection key 119a for selecting a predetermined document from among the documents displayed by the output means 120. do.

그리고, 사용자는 상기 선택키(119a)를 입력함으로써, 표시된 문서들중에서 특정의 문서들을 선택할 수 있다.Then, the user can select specific documents from the displayed documents by inputting the selection key 119a.

그리고, 선택된 문서들을 질의어로 사용하여, 선택된 문서들과 유사한 문서를 검색하고자 하는 경우에 사용자는 문서검색키(119b)를 입력하며, 이 경우 도 9에 도시된 바와 같이 선택된 특정의 문서들이 번호검색결과(119c)로서 표시된다.When the user wants to search for documents similar to the selected documents using the selected documents as a query, the user inputs a document search key 119b. In this case, as shown in FIG. Displayed as result 119c.

이 경우, 상기 번호검색결과(119c)로 표시된 문서들은 유사문서를 검색하기 위한 질의어에 해당하게 된다. 그리고, 상기 번호검색결과(119c)에 표시된 문서들을 중에서도 특정의 문서에 대해서 선택할 수 있으며, 선택된 문서와 유사한 문서를 검색하고자 하는 경우에는 조회키를 입력함으로써 도 10에 도시된 바와 같이 유사한 문서들이 상기 데이터베이스(210)로부터 독출되어 표시된다.In this case, the documents indicated by the number search result 119c correspond to a query for searching similar documents. Further, among the documents displayed in the number search result 119c, a specific document can be selected, and if a document similar to the selected document is to be searched, similar documents are displayed as shown in FIG. 10 by inputting an inquiry key. It is read out from the database 210 and displayed.

제안되는 바와 같은 문서검색 시스템 및 그 방법에 의해서, 사용자가 다양한 루트를 통해 질의어를 입력할 수 있는 장점이 있다. According to the document retrieval system and the method as proposed, there is an advantage that the user can enter a query through a variety of routes.

또한, 입력된 질의로부터 추출되는 키워드에 대한 가중치의 조절이 사용자의 간편한 조작에 의해 수행되도록 함으로써, 사용자에게 특성화된 문서검색이 수행될 수 있는 장점이 있다. In addition, by adjusting the weight of the keyword extracted from the input query to be performed by the user's simple operation, there is an advantage that the user can perform a document search specialized.

Claims (11)

문서가 저장되는 데이터베이스;A database in which documents are stored; 사용자가 질의어를 입력하기 위한 입력수단;Input means for a user to input a query; 입력된 질의어로부터 키워드를 추출하기 위한 추출수단;Extracting means for extracting a keyword from an input query; 상기 추출수단에 의해 추출된 키워드에 소정의 가중치를 부여하기 위한 가중치부여수단; 및Weighting means for giving a predetermined weight to the keyword extracted by said extracting means; And 상기의 가중치가 부여된 키워드에 의해 형성되는 벡터를 이용하여 소정 범위 내의 유사문서들을 상기 데이터베이스로부터 추출하기 위한 검색수단;이 포함되는 문서 검색 시스템. And retrieving means for extracting similar documents within a predetermined range from the database using a vector formed by the weighted keyword. 제 1 항에 있어서,The method of claim 1, 상기 입력수단을 통해 텍스트 형태의 파일을 업로드하는 것이 가능하고, 상기 추출수단은 업로드된 파일로부터 키워드를 추출하는 것을 특징으로 하는 문서 검색 시스템. It is possible to upload a file in the form of a text through the input means, the extraction means is a document retrieval system, characterized in that for extracting a keyword from the uploaded file. 제 2 항에 있어서,The method of claim 2, 상기 추출수단은 업로드된 파일의 컨텐츠로부터 텍스트를 분류함으로써 소정의 키워드를 추출하는 것을 특징으로 하는 문서 검색 시스템. And said extracting means extracts a predetermined keyword by classifying text from contents of an uploaded file. 제 1 항에 있어서,The method of claim 1, 상기 입력수단에는 상기 질의어 외에 추가정보를 입력하기 위한 힌트 입력부가 형성되고,The input means is provided with a hint input unit for inputting additional information in addition to the query word, 상기 가중치부여수단은 상기 힌트 입력부를 통해 입력되는 사항에 대해서는 소정 범위 가중치를 더 부여하는 것을 특징으로 하는 문서 검색 시스템. And the weighting means further assigns a predetermined range weight to a matter input through the hint input unit. 제 1 항에 있어서,The method of claim 1, 상기 입력수단에는 상기 문서에 대해서 사용자가 출원인 구분을 위한 출원인분류부 및/또는 기술분류 코드가 형성되고,The input means is provided with an applicant classification unit and / or technical classification code for the user to distinguish the applicant for the document, 상기 출원인분류부 및/또는 기술분류 코드를 통해 사용자가 타사문서 또는 자사문서를 선택하는 경우에, 상기 검색수단은 입력된 출원인 설정에 해당되는 문서를 상기 데이터베이스로부터 추출하는 것을 특징으로 하는 문서 검색 시스템. When the user selects a third party document or a company document through the applicant classification unit and / or technical classification code, the search means extracts a document corresponding to the input applicant setting from the database. . 제 1 항에 있어서,The method of claim 1, 상기 가장치부여수단에 의해 부여된 가중치 결과는 소정의 출력수단을 통해 사용자에게 표시되고,The weight result given by the impersonation means is displayed to the user through a predetermined output means, 사용자는 상기 입력수단을 통해 표시된 가중치를 변경가능한 것을 특징으로 하는 문서 검색 시스템. The user can change the displayed weight through the input means. 입력수단을 통해 소정의 질의어가 입력되는 단계;Inputting a predetermined query word through an input means; 상기 질의어로부터 키워드가 추출되는 단계;Extracting a keyword from the query word; 상기 키워드에 소정의 가중치가 부여되는 단계; 및Assigning a predetermined weight to the keyword; And 상기의 가중치가 부여된 키워드를 기반으로 데이터베이스로부터 유사문서를 추출하는 단계;가 포함되는 문서 검색 방법.Extracting a similar document from a database based on the weighted keyword. 제 7 항에 있어서,The method of claim 7, wherein 사용자는 상기 입력수단을 통해 소정의 질의어로서 단어 또는 문장을 입력하거나 텍스트 형태의 파일을 첨부하는 것이 가능한 것을 특징으로 하는 문서 검색 방법. A user can input a word or sentence as a predetermined query word through the input means or attach a file in a text form. 제 7 항에 있어서,The method of claim 7, wherein 상기 입력수단에는 상기 질의어 외에 추가정보를 입력하기 위한 힌트 입력부가 형성되고,The input means is provided with a hint input unit for inputting additional information in addition to the query word, 상기 가중치가 부여되는 단계는 상기 힌트 입력부를 통해 입력되는 사항에 대해서는 소정 범위 가중치를 더 부여하는 것을 특징으로 하는 문서 검색 방법. Wherein the weighting step is a document search method, characterized in that further gives a predetermined range weight for the matter input through the hint input unit. 제 7 항에 있어서,The method of claim 7, wherein 상기 가중치가 부여되는 단계는 사용자가 상기 입력수단을 통해 부여된 가중치의 변경이 가능한 것을 특징으로 하는 문서 검색 방법. Wherein the weighting step is a document search method, characterized in that the user can change the weight given through the input means. 제 7 항에 있어서,The method of claim 7, wherein 상기 입력수단에는 상기 문서의 출원인을 구분하기 위한 출원인분류부 및/또는 기술분류 코드가 형성되고, The input means is provided with an applicant classification unit and / or technical classification code for identifying the applicant of the document, 상기 데이터베이스로부터 유사문서를 추출하는 단계는 상기 출원인분류부 및/또는 기술분류 코드에 의해 분류된 출원인에 관한 문서를 추출하는 것을 특징으로 하는 문서 검색 방법. The step of extracting a similar document from the database may include extracting a document about applicants classified by the applicant classification unit and / or technical classification code.
KR20060033658A 2006-04-13 2006-04-13 System and method for searching documents KR100816912B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR20060033658A KR100816912B1 (en) 2006-04-13 2006-04-13 System and method for searching documents
US11/621,820 US8200695B2 (en) 2006-04-13 2007-01-10 Database for uploading, storing, and retrieving similar documents
CN2007100054355A CN101055580B (en) 2006-04-13 2007-02-08 System, method and user interface for retrieving documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20060033658A KR100816912B1 (en) 2006-04-13 2006-04-13 System and method for searching documents

Publications (2)

Publication Number Publication Date
KR20070102033A true KR20070102033A (en) 2007-10-18
KR100816912B1 KR100816912B1 (en) 2008-03-26

Family

ID=38795417

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20060033658A KR100816912B1 (en) 2006-04-13 2006-04-13 System and method for searching documents

Country Status (2)

Country Link
KR (1) KR100816912B1 (en)
CN (1) CN101055580B (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100963885B1 (en) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Related search system and method based on resource description framework network
KR101145471B1 (en) * 2009-05-15 2012-05-15 주식회사 엘지유플러스 System and method for providing mobile shopping mall service
KR101456599B1 (en) * 2013-05-07 2014-11-03 한국원자력 통제기술원 Strategic items judgement system and its method
CN117235242A (en) * 2023-11-15 2023-12-15 浙江力石科技股份有限公司 Hot spot information screening method and system based on intelligent question-answering database

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101263403B1 (en) 2005-11-16 2013-05-10 정태우 Apparatus and method for keyword searching according to priority of inputted word and computer readable medium having stored thereon computer executable instruction for performing the method
KR101224660B1 (en) 2008-07-09 2013-01-21 고려대학교 산학협력단 A searching apparatus and method for similar sentence, a storage means and a service system and method for automatic chatting
US8244711B2 (en) 2009-09-28 2012-08-14 Chin Lung Fong System, method and apparatus for information retrieval and data representation
CN102024027B (en) * 2010-11-17 2013-03-20 北京健康在线网络技术有限公司 Method for establishing medical database
KR101850886B1 (en) 2010-12-23 2018-04-23 네이버 주식회사 Search system and mehtod for recommending reduction query
CN103064840A (en) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 Indexing equipment, indexing method, search device, search method and search system
US9298826B2 (en) 2012-01-05 2016-03-29 International Business Machines Corporation Goal-oriented user matching among social networking environments
CN103294693A (en) * 2012-02-27 2013-09-11 华为技术有限公司 Searching method, server and system
JP5567049B2 (en) * 2012-02-29 2014-08-06 株式会社Ubic Document sorting system, document sorting method, and document sorting program
CN104182432A (en) * 2013-05-28 2014-12-03 天津点康科技有限公司 Information retrieval and publishing system and method based on human physiological parameter detecting result
CN103886063B (en) * 2014-03-18 2017-03-08 国家电网公司 A kind of text searching method and device
CN105069157A (en) * 2015-08-25 2015-11-18 长沙市麓智信息科技有限公司 Retrieval type based patent retrieval system
CN106095737A (en) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 Documents Similarity computational methods and similar document the whole network retrieval tracking
CN107818091B (en) * 2016-09-12 2023-01-06 百度在线网络技术(北京)有限公司 Document processing method and device
CN107506498A (en) * 2017-09-28 2017-12-22 合肥博力生产力促进中心有限公司 A kind of intellectual property data collection system of processing and method
CN109325094A (en) * 2018-09-18 2019-02-12 江苏润桐数据服务有限公司 A kind of automatic denoising method of patent retrieval and device
CN110955633A (en) * 2018-09-26 2020-04-03 北京国双科技有限公司 Retrieval method and device
CN109522389B (en) * 2018-11-07 2020-09-01 中国联合网络通信集团有限公司 Document pushing method and device and storage medium
CN110955763A (en) * 2019-11-15 2020-04-03 深圳供电局有限公司 Data searching method and system based on audit risk database

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (en) * 1999-06-28 2001-01-15 정선종 Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method using this system
KR100685023B1 (en) * 2001-11-13 2007-02-20 주식회사 포스코 Example-base retrieval method and system for similarity examination
KR20030094966A (en) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 Rule based document auto taxonomy system and method
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
KR20040048548A (en) * 2002-12-03 2004-06-10 김상수 Method and System for Searching User-oriented Data by using Intelligent Database and Search Editing Program
CN1517912A (en) * 2003-01-16 2004-08-04 财团法人资讯工业策进会 Method of patent document retrieval
US20060294060A1 (en) * 2003-09-30 2006-12-28 Hiroaki Masuyama Similarity calculation device and similarity calculation program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145471B1 (en) * 2009-05-15 2012-05-15 주식회사 엘지유플러스 System and method for providing mobile shopping mall service
KR100963885B1 (en) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Related search system and method based on resource description framework network
WO2011122730A1 (en) * 2010-03-30 2011-10-06 한국과학기술정보연구원 System and method for a related search service based on an rdf network
KR101456599B1 (en) * 2013-05-07 2014-11-03 한국원자력 통제기술원 Strategic items judgement system and its method
CN117235242A (en) * 2023-11-15 2023-12-15 浙江力石科技股份有限公司 Hot spot information screening method and system based on intelligent question-answering database
CN117235242B (en) * 2023-11-15 2024-02-06 浙江力石科技股份有限公司 Hot spot information screening method and system based on intelligent question-answering database

Also Published As

Publication number Publication date
CN101055580A (en) 2007-10-17
CN101055580B (en) 2011-10-05
KR100816912B1 (en) 2008-03-26

Similar Documents

Publication Publication Date Title
KR100816912B1 (en) System and method for searching documents
KR100816934B1 (en) Clustering system and method using search result document
US20220261427A1 (en) Methods and system for semantic search in large databases
US8200695B2 (en) Database for uploading, storing, and retrieving similar documents
KR100785928B1 (en) Method and system for searching photograph using multimodal
JP5420243B2 (en) Determining the desired repository
CN100535898C (en) System and method for question-reply type document search
KR100754768B1 (en) System and method for providing recommended word of adjustment each user and computer readable recording medium recording program for implementing the method
US8019758B2 (en) Generation of a blended classification model
US20070016556A1 (en) Destination searching system and method
KR20100107610A (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
JP3849318B2 (en) Information search device, information search method, and computer-readable recording medium storing information search program
US10621252B2 (en) Method for searching in a database
EP2306333A1 (en) Offline software library
CN109063171A (en) Semantic-based reso urce matching method
TW201415402A (en) Forensic system, forensic method, and forensic program
JP2015144011A (en) Device and method for search result ordering using reliability of representative
CN116738065B (en) Enterprise searching method, device, equipment and storage medium
CN111831885B (en) Internet information retrieval system and method
JP2006251975A (en) Text sorting method and program by the method, and text sorter
CN113032549B (en) Document sorting method and device, electronic equipment and storage medium
JP2003208447A (en) Device, method and program for retrieving document, and medium recorded with program for retrieving document
KR20140091135A (en) System and method of subdivided-topic generating and subscribing
KR20080039864A (en) User interface system for analysing documents
JP2018018428A (en) Information processing device and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111221

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130226

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee