KR102370044B1 - 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법 - Google Patents

선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법 Download PDF

Info

Publication number
KR102370044B1
KR102370044B1 KR1020150038997A KR20150038997A KR102370044B1 KR 102370044 B1 KR102370044 B1 KR 102370044B1 KR 1020150038997 A KR1020150038997 A KR 1020150038997A KR 20150038997 A KR20150038997 A KR 20150038997A KR 102370044 B1 KR102370044 B1 KR 102370044B1
Authority
KR
South Korea
Prior art keywords
prior
search target
search
vector
art information
Prior art date
Application number
KR1020150038997A
Other languages
English (en)
Other versions
KR20160112746A (ko
Inventor
오병석
함수옥
Original Assignee
아이피루씨 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이피루씨 주식회사 filed Critical 아이피루씨 주식회사
Priority to KR1020150038997A priority Critical patent/KR102370044B1/ko
Publication of KR20160112746A publication Critical patent/KR20160112746A/ko
Application granted granted Critical
Publication of KR102370044B1 publication Critical patent/KR102370044B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)

Abstract

본 발명은, 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 그 방법을 제공하기 위하여, 선행 기술 정보 자동 검색 및 유사도 측정 시스템에 있어서, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈; 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈; 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈; 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈; 및 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈을 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 시스템이 제공된다.

Description

선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법{A system and a method for searching prior art information and measuring similarity thereof}
본 발명은 사용자가 입력한 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 입력된 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 방법에 관한 것이다.
최근 컴퓨터를 학습시켜 다양한 정보로부터 특정 결과를 산출하게 하는 기계 학습이 급격히 발전하고 있다. 이러한 기계 학습 기술을 통해 문자 인식, 얼굴 인식, 사용자의 구매 패턴, 논문의 유사성 측정, 특허의 선행 기술 검색 등을 실행하는 기술이 알려져 있다. 그러나, 이러한 통상의 기계 학습 시스템은 특허 문서나 특허 제도의 특성을 고려하지 못하여 특허 기술과 관련성이 높은 선행 기술 정보를 검색하고 그 유사도를 측정하는 데에는 충분한 성능을 발휘하지 못하고 있다.
특허 출원 공개 제10-2011-0027729호
본 발명은, 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 그 방법을 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위하여, 본 발명의 제1 국면에 의하면, 선행 기술 정보 자동 검색 및 유사도 측정 시스템에 있어서, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈; 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈; 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈; 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈; 및 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈을 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 시스템이 제공된다.
본 발명의 제2 국면에 의하면, 선행 기술 정보 자동 검색 및 유사도 측정 방법에 있어서, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계; 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계; 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계; 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계; 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계를 포함하는 선행 기술 정보 자동 검색 및 유사도 측정 방법이 제공된다.
본 발명에 의하면, 사용자가 입력한 검색 대상 기술과 관련성을 갖는 선행 기술 정보를 자동으로 검색하고, 검색된 선행 기술 정보와 검색 대상 기술 사이의 유사도를 자동으로 측정하는 시스템 및 그 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 시스템의 구성을 예시한 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 관하여 상세히 설명하다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 시스템(이하, 간략히 "시스템"이라고도 함) 100은, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈 2000과, 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈 3000과, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈 4000과, 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈 5000과, 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈 6000을 포함한다.
먼저, 상기 선행 기술 정보 관리 모듈 2000은, 데이터베이스 관리 모듈(도시되지 않음)을 포함할 수 있다. 상기 선행 기술 정보 관리 모듈 2000에 의하여 관리되는 선행 기술 정보는, 기술적인 내용이 기술된 것이면, 그 형식이나 종류를 가리지 않는다. 상기 선행 기술 정보의 예를 들면 각국 특허청으로부터 제공되는 공개 특허 공보, 등록 특허 공보 등의 특허 문서나 각종 기술 논문, 신문이나 잡지의 기술 기사 등이 있을 수 있다. 특히, 상기 선행 기술 정보는 공개적으로 접근할 수 있는 것이 아니어도 상관없음을 주의하여야 한다. 이런 경우는, 예를 들어 특정 조직 내에서 자체 보유한 선행 기술 정보와 검색 대상 기술 사이의 유사도를 평가하는 경우가 있을 수 있다. 이러한 경우 자체 보유한 선행 기술 정보 중에는 공개적으로 접근 가능한 정보가 아닌 정보가 포함될 수 있다.
다음으로, 상기 검색 대상 기술 입력 모듈 3000은, 사용자가 지정하거나 입력한 검색 대상 기술에 관한 정보를 수신한다. 사용자는, 예를 들어, 각국의 특허 출원 번호, 특허 공개 번호 또는 특허 등록 번호 등의 특허 번호를 입력하여 검색 대상 기술을 지정할 수 있다. 또는, 사용자는 자신이 검색하고자 하는 검색 대상 기술의 기술적 내용을 설명하는 기술 설명문을 직접 입력함으로써 검색 대상 기술에 관한 정보를 본 시스템 100에 입력할 수 있다. 이 경우, 검색 대상 기술에 관한 정보는 사용자가 입력한 텍스트 정보가 된다. 본 발명의 다른 실시예에 의하면, 상기 검색 대상 기술 입력 모듈 3000은 사용자가 입력한 정보의 포맷을 점검하여 검색 대상 기술을 특정할 수 있기에 충분하고 적절한 정보가 입력되었는지를 판단할 수 있다. 또한 이러한 판단의 결과를 사용자에게 제공하여 사용자로 하여금 자신이 입력한 정보가 정확히 시스템 100으로 입력되었는지 확인하게 하거나, 또는 새로운 정보를 입력하게 할 수도 있다.
다음으로, 상기 검색 키워드 선정 모듈 4000은, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정한다. 예를 들어, 상기 검색 대상 기술이 특허 문서인 경우, 그 특허 문서의 특정 청구항 또는 전체 청구항을 먼저 추출하고, 추출된 청구항에 사용된 단어들의 전부 또는 일부를 검색 키워드로서 사용할 수 있다. 추출된 청구항은 사용자로 하여금 지정하도록 할 수도 있다. 상기 청구항의 단어들 중 일부만을 검색 키워드로 사용하는 경우, 검색 키워드를 선별하는 방식에는, 예를 들어, 금지어 방식, 개념 범주 방식, 중요도 방식 등이 사용될 수 있다. 상기 금지어 방식은, 키워드로 사용되어서는 안되는 금지어를 시스템 설계자 등이 미리 지정하거나, 사용자가 자신의 금지어를 입력하게 하여 상기 금지어 이외의 단어만을 사용하는 방식이다. 상기 개념 범주 방식은, 상위 개념의 단어와 하위 개념의 단어를 구분하여 둘 중 어느 한쪽의 단어들만을 검색 키워드로 사용하는 방식이다. 이러한 단어의 개념 범주를 구분하기 위하여는, 각 개념 범주에 속하는 단어의 목록을 이용하거나, 기계 학습 기술을 이용할 수 있다. 또한 중요도 방식은, 각 단어가 당해 검색 대상 기술을 설명하는데에 얼마나 중요한 것인가를 측정하여, 중요도가 높은 것을 검색 키워드로서 사용하는 방식이다. 이러한 개별 단어의 중요도의 측정은, 당해 단어가 그 검색 대상 기술의 설명 문서에서 얼마나 자주 등장하는지 등의 변수를 측정하거나 상기한 기계 학습 기술을 이용하여 실현할 수 있다.
만약 검색 대상 기술이 사용자가 입력한 기술 설명문(텍스트 정보)인 경우, 그 중의 전부 또는 일부로부터 상기한 방법으로 검색 키워드를 선정할 수 있다. 만약 기술 설명문의 일부로부터 검색 키워드를 선정하는 경우에는, 그 부분을 사용자가 지정하게 할 수 있다. 또는 특정 구분 기호를 사용하여 검색 키워드의 선정에 사용될 부분을 지정하게 할 수도 있다.
다음으로, 상기 선행 기술 정보 추출 모듈 5000은, 상기와 같이 선정된 검색 키워드를 사용하여, 상기 선행 기술 정보 관리 모듈 2000에 전송할 검색 쿼리(search query)를 생성한다. 상기 선행 기술 정보 관리 모듈 2000은, 전송된 검색 쿼리를 수신하여, 상기 선행 기술 정보의 데이터베이스로부터 그 쿼리에 의해 검색된(즉, 히트(hit)된) 결과 데이터를 상기 선행 기술 정보 추출 모듈 5000으로 회신한다. 상기 선행 기술 정보 추출 모듈 5000은, 회신된 검색 결과 데이터에 기초하여 검색된(hit) 선행 기술 정보의 내용을 추출한다.
다음으로, 상기 유사도 평가 모듈 6000은, 상기 검색 대상 기술의 기술 내용을 참조하여 검색 대상 기술 벡터를 생성한다. 이때, 검색 대상 기술 벡터를 선정할 때 사용되는 검색 대상 기술의 기술 내용은 당해 기술 내용 전체를 사용하거나, 또는 상기 검색 키워드를 선정할 때 사용된 부분에 기재된 내용을 사용하여도 좋다. 또한 상기 검색 대상 기술 벡터는, 상기 참조 부분의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성될 수 있다.
또한, 상기 유사도 평가 모듈 6000은, 상기 검색 대상 기술의 전체 내용에 기초하여 그 기술 내용을 표상하는 검색 대상 기술의 벡터 공간을 설정하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성한다.
나아가, 상기 유사도 평가 모듈 6000은, 상기 추출된 각각의 선행 기술 정보의 기술 내용에 기초하여 그 선행 기술 정보의 기술 내용을 표상하는 선행 기술 정보의 벡터 공간을 설정하고, 상기 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성한다.
나아가, 상기 유사도 평가 모듈 6000은, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가한다. 예를 들어, 상기 내용상 유사도의 평가는, 상기 기준 기술 벡터 공간 특성 정보와 각 선행 기술 벡터 특정 정보 사이의 유클리디언 거리, 코사인 거리, 지지 벡터 분류, 군집 분류 등과 같은 기계 학습 알고리즘을 사용할 수 있다.
다음으로, 상기 본 시스템 100은, 사용자가 본 시스템 100의 서비스를 제공받고자 하는 경우, 그 서비스에 가입하고, 가입된 사용자가 로그인할 수 있게 하는 사용자 정보 관리 모듈 1000을 더 포함할 수 있다. 이 경우, 본 시스템 100은 정상적으로 로그인한 사용자에 대해서만 본 발명에 의한 서비스를 제공하도록 설정될 수 있다. 나아가 상기 사용자 정보 관리 모듈 1000은, 서비스에 가입한 사용자의 아이디, 비밀번호, 연락처(이메일 주소 또는 전화번호 등) 등과 같은 사용자 정보를 입력받아 저장하고 관리할 수 있다.
다음으로, 도 2를 참조하여, 본 발명의 다른 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 방법에 관하여 상세히 설명한다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 의한 선행 기술 정보 자동 검색 및 유사도 측정 방법은, 기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계 S2000과, 사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계 S3000과, 상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계 S4000과, 상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계 S5000과, 상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계 S6000을 포함한다.
각 단계의 상세한 동작은 도 1을 참조하여 상기한 모듈들 중 대응되는 것의 동작에 대응된다.
이상, 본 발명의 구체적인 실시예를 들어 본 발명의 기술 사상을 상세히 설명하였으나, 본 발명의 기술적 범위는 상기한 실시예에 한정되지 않는다. 본 발명의 기술 분야에서 통상의 지식을 가진 자라면 상기한 실시예를 기초로 한 다양한 변형과 응용이 가능하며, 이들이 본 발명의 기술적 범위에서 벗어나지 않는다는 것을 주의하여야 한다.

Claims (9)

  1. 선행 기술 정보 자동 검색 및 유사도 측정 시스템에 있어서,
    기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 모듈;
    사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 입력 모듈;
    상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 모듈;
    상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 모듈; 및
    상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성과, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 모듈
    을 포함하고,
    상기 검색 대상 기술은 특허 문서이고,
    상기 검색 키워드 선정 모듈은 특정 청구항을 추출하고, 상기 추출된 청구항과 상기 검색 대상 기술의 설명 문서를 비교하여 상기 추출된 청구항에 사용된 단어들의 중요도를 측정하고, 상기 중요도에 기초하여 검색 키워드를 선정하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  2. 제1항에 있어서,
    상기 유사도 평가 모듈은, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 기준 기술 벡터 공간 특성 정보를 생성하고, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성을 측정하여 선행 기술 벡터 공간 특성 정보를 생성하고, 상기 기준 기술 벡터 공간 특성 정보와 상기 각각의 선행 기술 벡터 공간 특성 정보에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  3. 제1항에 있어서,
    상기 검색 키워드 선정 모듈은, 상기 추출된 청구항에 사용된 단어들이 상기 검색 대상 기술의 설명 문서에서 얼마나 자주 등장하는지를 측정하여 당해 단어들의 중요도를 평가하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  4. 제1항에 있어서,
    상기 검색 키워드 선정 모듈은, 상기 특허 문서의 전체 청구항에 사용된 단어들로부터 검색 키워드를 선정하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  5. 제1항에 있어서,
    상기 검색 키워드 선정 모듈은, 기계 학습 기술을 이용하여 상기 추출된 청구항에 사용된 단어들의 중요도를 측정하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  6. 제1항에 있어서,
    상기 유사도 평가 모듈은, 상기 검색 대상 기술의 내용 전체를 사용하여 상기 검색 대상 기술 벡터를 생성하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  7. 제1항에 있어서,
    상기 유사도 평가 모듈은, 상기 검색 대상 기술에 있어서 상기 검색 키워드를 선정할 때 사용된 부분에 기재된 내용을 사용하여 상기 검색 대상 기술 벡터를 생성하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  8. 제2항에 있어서,
    상기 유사도 평가 모듈은, 상기 기준 기술 벡터 공간 특성 정보와 각 선행 기술 벡터 특정 정보 사이의 유클리디언 거리, 코사인 거리, 지지 벡터 분류, 군집 분류를 포함하는 기계 학습 알고리즘 중 적어도 하나를 사용하여 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는,
    선행 기술 정보 자동 검색 및 유사도 측정 시스템.
  9. 선행 기술 정보 자동 검색 및 유사도 측정 방법에 있어서,
    기술적 내용이 기재된 기술 문서(온라인 문서를 포함함)인 선행 기술 정보를 데이터베이스로 구축하여 저장하고 관리하는 선행 기술 정보 관리 단계;
    사용자가 입력한 검색 대상 기술에 관한 정보를 수신하는 검색 대상 기술 수신 단계;
    상기 검색 대상 기술의 내용에 기초하여 선행 기술 정보를 검색하기 위한 검색 키워드를 선정하는 검색 키워드 선정 단계;
    상기 검색 키워드를 사용한 검색 쿼리(search query)에 기초하여 상기 선행 기술 정보의 데이터베이스로부터 검색된(hit) 선행 기술 정보의 내용을 추출하는 선행 기술 정보 추출 단계;
    상기 검색 대상 기술의 기술 내용으로부터 선정된 기술 용어의 조합으로 구성된 검색 대상 기술 벡터를 생성하고, 상기 검색 대상 기술의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성과, 상기 추출된 각각의 선행 기술 정보의 벡터 공간에 대한 상기 검색 대상 기술 벡터의 벡터 공간 특성에 기초하여, 상기 검색 대상 기술과 상기 각 선행 기술 정보 사이의 내용상 유사도를 평가하는 유사도 평가 단계
    를 포함하고,
    상기 검색 대상 기술은 특허 문서이고,
    상기 검색 키워드 선정 단계는, 특정 청구항을 추출하고, 상기 추출된 청구항과 상기 검색 대상 기술의 설명 문서를 비교하여 상기 추출된 청구항에 사용된 단어들의 중요도를 측정하고, 상기 중요도에 기초하여 검색 키워드를 선정하는,
    선행 기술 정보 자동 검색 및 유사도 측정 방법.
KR1020150038997A 2015-03-20 2015-03-20 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법 KR102370044B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150038997A KR102370044B1 (ko) 2015-03-20 2015-03-20 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150038997A KR102370044B1 (ko) 2015-03-20 2015-03-20 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20160112746A KR20160112746A (ko) 2016-09-28
KR102370044B1 true KR102370044B1 (ko) 2022-03-02

Family

ID=57101992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150038997A KR102370044B1 (ko) 2015-03-20 2015-03-20 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102370044B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761227B (zh) * 2020-08-12 2024-10-18 北京沃东天骏信息技术有限公司 文本数据的搜索方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2321772A2 (en) 2008-06-24 2011-05-18 Sharon Belenzon Search engine and methodology, particularly applicable to patent literature
KR101099908B1 (ko) * 2010-04-21 2011-12-28 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법

Also Published As

Publication number Publication date
KR20160112746A (ko) 2016-09-28

Similar Documents

Publication Publication Date Title
KR100816912B1 (ko) 문서검색 시스템 및 그 방법
US20170116203A1 (en) Method of automated discovery of topic relatedness
US8190538B2 (en) Methods and systems for matching records and normalizing names
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US20110264651A1 (en) Large scale entity-specific resource classification
EP1391834A2 (en) Document retrieval system and question answering system
US10860565B2 (en) Database update and analytics system
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN106095738A (zh) 推荐表单片段
US20120239657A1 (en) Category classification processing device and method
CN110019751A (zh) 机器学习模型修改和自然语言处理
US10353927B2 (en) Categorizing columns in a data table
EP3301603A1 (en) Improved search for data loss prevention
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
JP6677093B2 (ja) 表データ検索装置、表データ検索方法、及び表データ検索プログラム
KR20190101718A (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
KR102370044B1 (ko) 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법
JP2014134920A (ja) 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
Pomp et al. Enhancing Knowledge Graphs with Data Representatives.
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
CN111752898B (zh) 一种文件处理方法及装置
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JPWO2014002212A1 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant