KR20160112746A - A system and a method for searching prior art information and measuring similarity thereof - Google Patents

A system and a method for searching prior art information and measuring similarity thereof Download PDF

Info

Publication number
KR20160112746A
KR20160112746A KR1020150038997A KR20150038997A KR20160112746A KR 20160112746 A KR20160112746 A KR 20160112746A KR 1020150038997 A KR1020150038997 A KR 1020150038997A KR 20150038997 A KR20150038997 A KR 20150038997A KR 20160112746 A KR20160112746 A KR 20160112746A
Authority
KR
South Korea
Prior art keywords
prior
information
art
search target
search
Prior art date
Application number
KR1020150038997A
Other languages
Korean (ko)
Other versions
KR102370044B1 (en
Inventor
오병석
Original Assignee
오병석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오병석 filed Critical 오병석
Priority to KR1020150038997A priority Critical patent/KR102370044B1/en
Publication of KR20160112746A publication Critical patent/KR20160112746A/en
Application granted granted Critical
Publication of KR102370044B1 publication Critical patent/KR102370044B1/en

Links

Images

Classifications

    • G06F17/30011
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30722
    • G06F17/30967

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)

Abstract

The present invention relates to a system for automatically searching for prior art information and measuring similarity. The system for automatically searching for prior art information and measuring similarity includes: a prior art information managing module; a search target technology input module which receives information about a search target technology that a user inputted; a search keyword selecting module which selects a search keyword; a prior art information extracting module which extracts content of hit prior art information; and a similarity evaluating module which evaluates similarity in content between the search target technology and each prior art technology information, based on reference technology vector space characteristic information and prior art technology vector space characteristic information.

Description

선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법{A system and a method for searching prior art information and measuring similarity thereof}Technical Field [0001] The present invention relates to a system and a method for automatic search and similarity measurement of prior art information,

본 발명은 사용자가 입력한 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 입력된 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 방법에 관한 것이다.
The present invention relates to a system and method for automatically searching for prior art information having relevance to a search target technology inputted by a user and automatically measuring the similarity between the searched prior art information and the inputted search target description.

최근 컴퓨터를 학습시켜 다양한 정보로부터 특정 결과를 산출하게 하는 기계 학습이 급격히 발전하고 있다. 이러한 기계 학습 기술을 통해 문자 인식, 얼굴 인식, 사용자의 구매 패턴, 논문의 유사성 측정, 특허의 선행 기술 검색 등을 실행하는 기술이 알려져 있다. 그러나, 이러한 통상의 기계 학습 시스템은 특허 문서나 특허 제도의 특성을 고려하지 못하여 특허 기술과 관련성이 높은 선행 기술 정보를 검색하고 그 유사도를 측정하는 데에는 충분한 성능을 발휘하지 못하고 있다.
Recently, machine learning has been rapidly developed to allow a computer to learn and to produce specific results from various information. With such a machine learning technique, techniques for performing character recognition, face recognition, user purchase pattern, similarity measurement of a thesis, prior art search of a patent, and the like are known. However, these conventional machine learning systems fail to take into consideration the characteristics of the patent document or the patent system, so that they do not perform enough to retrieve the prior art information related to the patent technology and to measure the similarity thereof.

특허 출원 공개 제10-2011-0027729호Patent Application Publication No. 10-2011-0027729

본 발명은, 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 그 방법을 제공하는 것을 목적으로 한다.
An object of the present invention is to provide a system and a method for automatically searching for prior art information having relevance to a search target technology and automatically measuring the similarity between the searched prior art information and search target technology.

상기 과제를 해결하기 위하여, 본 발명의 제1 국면에 의하면, 선행 기술 정보 자동 검색 및 유사도 측정 시스템에 있어서, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈; 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈; 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈; 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈; 및 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈을 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 시스템이 제공된다.According to a first aspect of the present invention, there is provided a system for automatically searching for prior art information and a system for measuring similarity, comprising: a database configured with prior art information, which is a technical document (including an online document) A prior art information management module for storing and managing the information; A search target description input module that receives information on a search target description input by a user; A search keyword selection module for selecting a search keyword for searching for the prior art information based on the content of the search target description; A prior art information extraction module that extracts the contents of the prior art information retrieved from the database of the prior art information based on a search query using the search keyword; And a search target description vector configured by a combination of technical terms selected from description contents of the search target description technique, and measures a vector space property of the search target description vector with respect to the vector space of the search target description, And generating prior art vector spatial characteristic information by measuring vector spatial characteristics of the retrieval description vector with respect to the vector space of each of the extracted prior art information, There is provided a prior art information automatic searching and similarity measuring system including a similarity evaluating module for evaluating a content similarity between the retrieval object technique and each preceding art information on the basis of respective prior art vector space characteristic information.

본 발명의 제2 국면에 의하면, 선행 기술 정보 자동 검색 및 유사도 측정 방법에 있어서, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계; 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계; 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계; 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계; 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계를 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 방법이 제공된다.
According to a second aspect of the present invention, there is provided a method for automatic search and similarity measurement of prior art information, comprising the steps of: constructing, storing, and managing prior art information, which is a technical document (including an online document) Management step; A search target technology receiving step of receiving information on a search target technology input by a user; A search keyword selecting step of selecting a search keyword for searching for the prior art information based on the content of the search target technology; A prior art information extracting step of extracting the contents of the prior art information retrieved from the database of the prior art information based on a search query using the search keyword; A search target description vector configured by a combination of technical terms selected from the description contents of the search target description technology and measuring a vector space property of the search target description vector with respect to the vector space of the search target description, Information on the reference vector space characteristic information and the vector space characteristic of the retrieval description vector with respect to the vector space of each of the extracted prior art information to generate the prior art vector space characteristic information, A similarity degree evaluation step of evaluating a content similarity degree between the search target technique and each of the prior art information based on the prior art vector space characteristic information of the prior art vector space characteristic information of the prior art information.

본 발명에 의하면, 사용자가 입력한 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 그 방법을 제공할 수 있다.
According to the present invention, it is possible to provide a system and method for automatically searching for prior art information having relevance to a search target technology input by a user, and automatically measuring the similarity between the searched prior art information and search target technology .

도 1은 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 시스템의 구성을 예시한 블록도이다.1 is a block diagram illustrating a configuration of a system for automatically detecting prior art information and a system for measuring similarity according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 관하여 상세히 설명하다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 시스템(이하, 간략히 "시스템"이라고도 함) 100은, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈 2000과, 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈 3000과, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈 4000과, 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈 5000과, 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈 6000을 포함한다.As shown in FIG. 1, a prior art information automatic searching and similarity measuring system (hereinafter, simply referred to as "system") 100 according to an embodiment of the present invention includes a technical document ), A search target technology input module 3000 for receiving information on a search target technology inputted by a user, and a search target technology input module 3000 for searching for the content of the search target technology A search keyword selection module 4000 for selecting a search keyword for searching for the prior art information based on the search keyword, A prior art information extraction module 5000 for extracting contents, And generating a reference description vector space characteristic information by measuring a vector space characteristic of the search target description vector with respect to the vector space of the search target description, The vector space characteristic of the search target description vector with respect to the vector space of the prior art information on the basis of the reference description vector space property information and the respective prior art vector space property information And a similarity evaluation module 6000 for evaluating the content similarity between the retrieval target technique and each of the preceding description information.

먼저, 상기 선행 기술 정보 관리 모듈 2000은, 데이터베이스 관리 모듈(도시되지 않음)을 포함할 수 있다. 상기 선행 기술 정보 관리 모듈 2000에 의하여 관리되는 선행 기술 정보는, 기술적인 내용이 기술된 것이면, 그 형식이나 종류를 가리지 않는다. 상기 선행 기술 정보의 예를 들면 각국 특허청으로부터 제공되는 공개 특허 공보, 등록 특허 공보 등의 특허 문서나 각종 기술 논문, 신문이나 잡지의 기술 기사 등이 있을 수 있다. 특히, 상기 선행 기술 정보는 공개적으로 접근할 수 있는 것이 아니어도 상관없음을 주의하여야 한다. 이런 경우는, 예를 들어 특정 조직 내에서 자체 보유한 선행 기술 정보와 검색 대상 기술 사이의 유사도를 평가하는 경우가 있을 수 있다. 이러한 경우 자체 보유한 선행 기술 정보 중에는 공개적으로 접근 가능한 정보가 아닌 정보가 포함될 수 있다.First, the prior art information management module 2000 may include a database management module (not shown). The prior art information managed by the prior art information management module 2000 does not discriminate the type and the type of the prior art information if the technical content is described. Examples of the prior art information may include patent documents such as published patent publications and registered patent publications provided by respective national patent offices, various technical papers, technical articles of newspapers and magazines, and the like. In particular, it should be noted that the prior art information may not be publicly accessible. In such a case, for example, there may be a case where the degree of similarity between prior art information possessed in a specific organization and the search target description is evaluated. In this case, some of the own prior art information may include information that is not publicly accessible information.

다음으로, 상기 검색 대상 기술 입력 모듈 3000은, 사용자가 지정하거나 입력한 검색 대상 기술에 관한 정보를 수신한다. 사용자는, 예를 들어, 각국의 특허 출원 번호, 특허 공개 번호 또는 특허 등록 번호 등의 특허 번호를 입력하여 검색 대상 기술을 지정할 수 있다. 또는, 사용자는 자신이 검색하고자 하는 검색 대상 기술의 기술적 내용을 설명하는 기술 설명문을 직접 입력함으로써 검색 대상 기술에 관한 정보를 본 시스템 100에 입력할 수 있다. 이 경우, 검색 대상 기술에 관한 정보는 사용자가 입력한 텍스트 정보가 된다. 본 발명의 다른 실시예에 의하면, 상기 검색 대상 기술 입력 모듈 3000은 사용자가 입력한 정보의 포맷을 점검하여 검색 대상 기술을 특정할 수 있기에 충분하고 적절한 정보가 입력되었는지를 판단할 수 있다. 또한 이러한 판단의 결과를 사용자에게 제공하여 사용자로 하여금 자신이 입력한 정보가 정확히 시스템 100으로 입력되었는지 확인하게 하거나, 또는 새로운 정보를 입력하게 할 수도 있다.Next, the search target description input module 3000 receives information about a search target description specified or input by the user. The user can designate the search target description by inputting a patent number such as a patent application number, a patent publication number, or a patent registration number of each country, for example. Alternatively, the user can input information about the search target technology into the system 100 by directly inputting a technical description describing the technical content of the search target technology to be searched by the user. In this case, the information on the search target description is the text information input by the user. According to another embodiment of the present invention, the search target description input module 3000 can check the format of the information input by the user, and determine whether adequate information is input to specify the search target description. In addition, the result of the determination may be provided to the user so as to allow the user to confirm whether the information entered by the user is input to the system 100, or to input new information.

다음으로, 상기 검색 키워드 선정 모듈 4000은, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정한다. 예를 들어, 상기 검색 대상 기술이 특허 문서인 경우, 그 특허 문서의 특정 청구항 또는 전체 청구항을 먼저 추출하고, 추출된 청구항에 사용된 단어들의 전부 또는 일부를 검색 키워드로서 사용할 수 있다. 추출된 청구항은 사용자로 하여금 지정하도록 할 수도 있다. 상기 청구항의 단어들 중 일부만을 검색 키워드로 사용하는 경우, 검색 키워드를 선별하는 방식에는, 예를 들어, 금지어 방식, 개념 범주 방식, 중요도 방식 등이 사용될 수 있다. 상기 금지어 방식은, 키워드로 사용되어서는 안되는 금지어를 시스템 설계자 등이 미리 지정하거나, 사용자가 자신의 금지어를 입력하게 하여 상기 금지어 이외의 단어만을 사용하는 방식이다. 상기 개념 범주 방식은, 상위 개념의 단어와 하위 개념의 단어를 구분하여 둘 중 어느 한쪽의 단어들만을 검색 키워드로 사용하는 방식이다. 이러한 단어의 개념 범주를 구분하기 위하여는, 각 개념 범주에 속하는 단어의 목록을 이용하거나, 기계 학습 기술을 이용할 수 있다. 또한 중요도 방식은, 각 단어가 당해 검색 대상 기술을 설명하는데에 얼마나 중요한 것인가를 측정하여, 중요도가 높은 것을 검색 키워드로서 사용하는 방식이다. 이러한 개별 단어의 중요도의 측정은, 당해 단어가 그 검색 대상 기술의 설명 문서에서 얼마나 자주 등장하는지 등의 변수를 측정하거나 상기한 기계 학습 기술을 이용하여 실현할 수 있다.Next, the search keyword selection module 4000 selects a search keyword for searching for the prior art information based on the content of the search target technology. For example, when the search target description is a patent document, a specific claim or entire claim of the patent document may be extracted first, and all or a part of the words used in the extracted claim may be used as a search keyword. The extracted claim may be designated by the user. When only a part of the words of the claim is used as a search keyword, for example, a prohibited word method, a concept category method, an importance method, or the like can be used as a method of selecting a search keyword. The prohibited word method is a method in which a system designer or the like designates in advance a prohibited word that should not be used as a keyword, or a user inputs his / her prohibited word and uses only words other than the prohibited word. The concept category method is a method in which only one of the words is used as a search keyword by distinguishing words of a higher concept and words of a lower concept. In order to classify the concept categories of these words, a list of words belonging to each concept category can be used or a machine learning technique can be used. In addition, the importance method measures how important each word is to explain the search target description, and uses a keyword having a high importance as a search keyword. The measurement of the importance of individual words can be realized by measuring variables such as how frequently the word appears in the description document of the search target description or by using the above-described machine learning technique.

만약 검색 대상 기술이 사용자가 입력한 기술 설명문(텍스트 정보)인 경우, 그 중의 전부 또는 일부로부터 상기한 방법으로 검색 키워드를 선정할 수 있다. 만약 기술 설명문의 일부로부터 검색 키워드를 선정하는 경우에는, 그 부분을 사용자가 지정하게 할 수 있다. 또는 특정 구분 기호를 사용하여 검색 키워드의 선정에 사용될 부분을 지정하게 할 수도 있다.If the search target description is a technical description (text information) input by the user, the search keyword can be selected from all or a part of the description text in the manner described above. If a search keyword is selected from a part of the technical description query, the user can specify the search keyword. Alternatively, a specific delimiter may be used to specify the portion to be used in the selection of the search keyword.

다음으로, 상기 선행 기술 정보 추출 모듈 5000은, 상기와 같이 선정된 검색 키워드를 사용하여, 상기 선행 기술 정보 관리 모듈 2000에 전송할 검색 쿼리(search query)를 생성한다. 상기 선행 기술 정보 관리 모듈 2000은, 전송된 검색 쿼리를 수신하여, 상기 선행 기술 정보의 데이터베이스로부터 그 쿼리에 의해 검색된(즉, 히트(hit)된) 결과 데이터를 상기 선행 기술 정보 추출 모듈 5000으로 회신한다. 상기 선행 기술 정보 추출 모듈 5000은, 회신된 검색 결과 데이터에 기초하여 검색된(hit) 선행 기술 정보의 내용을 추출한다.Next, the prior art information extraction module 5000 generates a search query to be transmitted to the prior art information management module 2000 using the search keyword selected as described above. The prior art information management module 2000 receives the transmitted search query and returns the resultant data retrieved (i.e., hit) by the query from the database of the prior art information to the prior art information extraction module 5000 do. The prior art information extraction module 5000 extracts the contents of the hit prior art information based on the returned search result data.

다음으로, 상기 유사도 평가 모듈 6000은, 상기 검색 대상 기술의 기술 내용을 참조하여 검색 대상 기술 벡터를 생성한다. 이때, 검색 대상 기술 벡터를 선정할 때 사용되는 검색 대상 기술의 기술 내용은 당해 기술 내용 전체를 사용하거나, 또는 상기 검색 키워드를 선정할 때 사용된 부분에 기재된 내용을 사용하여도 좋다. 또한 상기 검색 대상 기술 벡터는, 상기 참조 부분의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성될 수 있다.Next, the similarity evaluation module 6000 generates a search target description vector by referring to the description content of the search target description. At this time, the description content of the technology to be searched to be used in selecting the search target description vector may be the entire contents of the technical description, or the contents described in the portion used for selecting the search keyword may be used. The search target description vector may be composed of a combination of technical terms selected from description contents of the reference portion.

또한, 상기 유사도 평가 모듈 6000은, 상기 검색 대상 기술의 전체 내용에 기초하여 그 기술 내용을 표상하는 검색 대상 기술의 벡터 공간을 설정하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성한다.The similarity degree evaluation module 6000 sets the vector space of the search target description technology that represents the description content based on the entire contents of the search target description technique and sets the vector space of the search target description vector The vector space property is measured to generate the reference description vector space property information.

나아가, 상기 유사도 평가 모듈 6000은, 상기 추출된 각각의 선행 기술 정보의 기술 내용에 기초하여 그 선행 기술 정보의 기술 내용을 표상하는 선행 기술 정보의 벡터 공간을 설정하고, 상기 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성한다. Further, the similarity evaluation module 6000 sets the vector space of the prior art information representing the description contents of the prior art information based on the description contents of the extracted respective prior art information, and sets the vector space of the prior art information And generates the prior art vector space characteristic information by measuring the vector space characteristic of the search target description vector.

나아가, 상기 유사도 평가 모듈 6000은, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가한다. 예를 들어, 상기 내용상 유사도의 평가는, 상기 기준 기술 벡터 공간 특성 정보와 각 선행 기술 벡터 특정 정보 사이의 유클리디언 거리, 코사인 거리, 지지 벡터 분류, 군집 분류 등과 같은 기계 학습 알고리즘을 사용할 수 있다.Furthermore, the similarity evaluation module 6000 evaluates the content similarity between the search target technique and the respective prior art information, based on the reference description vector space characteristic information and the respective prior art vector space characteristic information. For example, the evaluation of the content similarity may use a machine learning algorithm such as Euclidean distance, cosine distance, support vector classification, cluster classification, etc. between the reference description vector space characteristic information and each prior art vector specifying information .

다음으로, 상기 본 시스템 100은, 사용자가 본 시스템 100의 서비스를 제공받고자 하는 경우, 그 서비스에 가입하고, 가입된 사용자가 로그인할 수 있게 하는 사용자 정보 관리 모듈 1000을 더 포함할 수 있다. 이 경우, 본 시스템 100은 정상적으로 로그인한 사용자에 대해서만 본 발명에 의한 서비스를 제공하도록 설정될 수 있다. 나아가 상기 사용자 정보 관리 모듈 1000은, 서비스에 가입한 사용자의 아이디, 비밀번호, 연락처(이메일 주소 또는 전화번호 등) 등과 같은 사용자 정보를 입력받아 저장하고 관리할 수 있다.The system 100 may further include a user information management module 1000 for subscribing to the service and allowing the subscribed user to log in if the user desires to receive the service of the system 100. In this case, the present system 100 can be set to provide the service according to the present invention only for the normally logged-in user. Further, the user information management module 1000 can receive, store, and manage user information such as an ID, a password, a contact (e-mail address or telephone number) of a user subscribed to the service, and the like.

다음으로, 도 2를 참조하여, 본 발명의 다른 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 방법에 관하여 상세히 설명한다.Next, referring to FIG. 2, a method of automatically detecting prior art information and measuring a degree of similarity according to another embodiment of the present invention will be described in detail.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 방법은, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계 S2000과, 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계 S3000과, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계 S4000과, 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계 S5000과, 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계 S6000을 포함한다.As shown in FIG. 2, the method for automatically searching for prior art information and measuring the degree of similarity according to an embodiment of the present invention includes constructing and storing prior art information, which is a technical document (including an online document) A search target technology receiving step S3000 for receiving information on a search target technology inputted by the user, a search target technology receiving step S3000 for searching for a search keyword for searching for the prior art information on the basis of the content of the search target technology (S4000), a preceding technology information extracting step (S5000) for extracting the contents of the prior art information retrieved from the database of the prior art information based on a search query using the retrieval keyword , A sword constituted by a combination of technical terms selected from technical contents of the search target technology Generating a reference description vector space property information by measuring a vector space property of the search subject description vector with respect to the vector space of the search object description; Wherein the search target description vector and the search target description vector are generated based on the reference description vector space property information and the respective prior art vector space property information, And a similarity degree evaluation step S6000 for evaluating the similarity degree of contents between respective prior art information items.

각 단계의 상세한 동작은 도 1을 참조하여 상기한 모듈들 중 대응되는 것의 동작에 대응된다.The detailed operation of each step corresponds to the operation of the corresponding one of the above-mentioned modules with reference to Fig.

이상, 본 발명의 구체적인 실시예를 들어 본 발명의 기술 사상을 상세히 설명하였으나, 본 발명의 기술적 범위는 상기한 실시예에 한정되지 않는다. 본 발명의 기술 분야에서 통상의 지식을 가진 자라면 상기한 실시예를 기초로 한 다양한 변형과 응용이 가능하며, 이들이 본 발명의 기술적 범위에서 벗어나지 않는다는 것을 주의하여야 한다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. It will be understood by those skilled in the art that various changes and modifications may be made without departing from the spirit and scope of the invention as defined by the appended claims.

Claims (2)

선행 기술 정보 자동 검색 및 유사도 측정 시스템에 있어서,
기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈;
사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈;
상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈;
상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈; 및
상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈
을 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 시스템.
A system for automatic search and similarity measurement of prior art information,
A prior art information management module for constructing, storing, and managing prior art information, which is a technical document (including an online document) on which technical contents are described, as a database;
A search target description input module that receives information on a search target description input by a user;
A search keyword selection module for selecting a search keyword for searching for the prior art information based on the content of the search target description;
A prior art information extraction module that extracts the contents of the prior art information retrieved from the database of the prior art information based on a search query using the search keyword; And
A search target description vector configured by a combination of technical terms selected from the description contents of the search target description technology and measuring a vector space property of the search target description vector with respect to the vector space of the search target description, Information on the reference vector space characteristic information and the vector space characteristic of the retrieval description vector with respect to the vector space of each of the extracted prior art information to generate the prior art vector space characteristic information, A similarity evaluating module for evaluating a content similarity between the retrieval target technology and each of the prior art information based on the prior art vector space characteristic information of the retrieval target vector,
And a similarity measurement system.
선행 기술 정보 자동 검색 및 유사도 측정 방법에 있어서,
기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계;
사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계;
상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계;
상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계;
상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계
를 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 방법.
A method for automatic search and similarity measurement of prior art information,
A prior art information management step of constructing, storing and managing prior art information, which is a technical document (including an on-line document) in which a technical content is described, as a database;
A search target technology receiving step of receiving information on a search target technology input by a user;
A search keyword selecting step of selecting a search keyword for searching for the prior art information based on the content of the search target technology;
A prior art information extracting step of extracting the contents of the prior art information retrieved from the database of the prior art information based on a search query using the search keyword;
A search target description vector configured by a combination of technical terms selected from the description contents of the search target description technology and measuring a vector space property of the search target description vector with respect to the vector space of the search target description, Information on the reference vector space characteristic information and the vector space characteristic of the retrieval description vector with respect to the vector space of each of the extracted prior art information to generate the prior art vector space characteristic information, A similarity degree evaluation step of evaluating the content similarity between the search target technique and each of the prior art information based on the prior art vector space characteristic information of
And a method for measuring similarity.
KR1020150038997A 2015-03-20 2015-03-20 A system and a method for searching prior art information and measuring similarity thereof KR102370044B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150038997A KR102370044B1 (en) 2015-03-20 2015-03-20 A system and a method for searching prior art information and measuring similarity thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150038997A KR102370044B1 (en) 2015-03-20 2015-03-20 A system and a method for searching prior art information and measuring similarity thereof

Publications (2)

Publication Number Publication Date
KR20160112746A true KR20160112746A (en) 2016-09-28
KR102370044B1 KR102370044B1 (en) 2022-03-02

Family

ID=57101992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150038997A KR102370044B1 (en) 2015-03-20 2015-03-20 A system and a method for searching prior art information and measuring similarity thereof

Country Status (1)

Country Link
KR (1) KR102370044B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761227A (en) * 2020-08-12 2021-12-07 北京沃东天骏信息技术有限公司 Text data searching method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110027729A (en) 2008-06-24 2011-03-16 샤론 벨렌손 Search engine and methodology, particularly applicable to patent literature
KR20110117440A (en) * 2010-04-21 2011-10-27 엔에이치엔(주) System and method for calculating similarity between documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110027729A (en) 2008-06-24 2011-03-16 샤론 벨렌손 Search engine and methodology, particularly applicable to patent literature
KR20110117440A (en) * 2010-04-21 2011-10-27 엔에이치엔(주) System and method for calculating similarity between documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761227A (en) * 2020-08-12 2021-12-07 北京沃东天骏信息技术有限公司 Text data searching method and device

Also Published As

Publication number Publication date
KR102370044B1 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
KR100816912B1 (en) System and method for searching documents
US8533203B2 (en) Identifying synonyms of entities using a document collection
US20110264651A1 (en) Large scale entity-specific resource classification
CN111767716B (en) Method and device for determining enterprise multi-level industry information and computer equipment
US10860565B2 (en) Database update and analytics system
US20140229476A1 (en) System for Information Discovery & Organization
JP7252914B2 (en) Method, apparatus, apparatus and medium for providing search suggestions
CN106095738B (en) Recommending form fragments
JP2012533818A (en) Ranking search results based on word weights
CN110929125A (en) Search recall method, apparatus, device and storage medium thereof
US20200272674A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
US20160147867A1 (en) Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
US20120239657A1 (en) Category classification processing device and method
CN114722137A (en) Security policy configuration method and device based on sensitive data identification and electronic equipment
US20120130972A1 (en) Concept disambiguation via search engine search results
CN110543484A (en) prompt word recommendation method and device, storage medium and processor
CN110019751A (en) Machine learning model modification and natural language processing
US20110289070A1 (en) Dynamic resource orchestration system for data retrieval and output generation
JP6677093B2 (en) Table data search device, table data search method, and table data search program
KR20190101718A (en) User review based rating re-calculation apparatus and method, storage media storing the same
KR102285308B1 (en) Automatic mapping system for management standard specification
KR102370044B1 (en) A system and a method for searching prior art information and measuring similarity thereof
KR20080088026A (en) System and method for providing a intellectual trade mark search service
JP2019200582A (en) Search device, search method, and search program
CN116418705A (en) Network asset identification method, system, terminal and medium based on machine learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant