KR100718745B1 - 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법 - Google Patents

텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법 Download PDF

Info

Publication number
KR100718745B1
KR100718745B1 KR1020050096793A KR20050096793A KR100718745B1 KR 100718745 B1 KR100718745 B1 KR 100718745B1 KR 1020050096793 A KR1020050096793 A KR 1020050096793A KR 20050096793 A KR20050096793 A KR 20050096793A KR 100718745 B1 KR100718745 B1 KR 100718745B1
Authority
KR
South Korea
Prior art keywords
intellectual property
information
search
user
prior
Prior art date
Application number
KR1020050096793A
Other languages
English (en)
Other versions
KR20070041068A (ko
Inventor
유재영
정의섭
장태종
서진이
권오진
김강회
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020050096793A priority Critical patent/KR100718745B1/ko
Publication of KR20070041068A publication Critical patent/KR20070041068A/ko
Application granted granted Critical
Publication of KR100718745B1 publication Critical patent/KR100718745B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지적자산 정보의 특허 검색 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 텍스트마이닝을 이용한 주제어 정보 DB 를 사용함으로써 특허 검색이 용이하게 이루어지도록 하는 것에 관한 것이다. 따라서, 본 발명은 인터넷에서 특허검색시에 검색된 웹문서의 텍스트내에서 빈도수가 높은 단어의 순서대로 데이터에 저장하여 일정 순위까지 주제어로 정하여 그 주제어를 불리언 연산자를 사용하여 다시 한번 자동적으로 검색을 하는 시스템을 이용하여 용이하고 원활한 특허검색을 통하여 높은 검색율과 동시에 정확한 검색정보를 얻도록 하는 효과가 있다.
데이터마이닝, 검색, 특허

Description

텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법{PATENT RETRIEVE SYSTEM AND METHOD BY USING TEXT MINING}
도 1은 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 시스템 구성을 나타낸 망 구성도.
도 2는 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 방법을 나타낸 동작 플로우챠트.
도 3a는 도 2에 따른 특허 검색 방법에서 사용자 단말의 검색 메인 화면을 통해 특정 지적재산권에 대한 특허 검색 결과 리스트가 디스플레이되는 모습을 보여주는 참조 도면.
도 3b는 도 3a 리스트 중 하나의 특허문헌을 선택한 경우 선택된 문헌의 간략정보를 보여주는 참조도면이다.
도 3c는 도 3b에 도시된 “관련기술 더 보기” 버튼을 클릭시에 나타나는 관련기술 리스트를 보여주는 도면.
도 4는 본 발명에 따른 주제어를 추출하는 순서를 나타내는 순서도.
도 5는 도 2에 따른 지적자산 정보의 특허 검색 방법에서 주제어 정보 DB를 구성하는 주제어 빈도 저장부에 존재하는 주제어별 빈도수를 나타내는 도면.
도 6은 도 2에 따른 지적자산 정보의 특허 검색 방법에서 주제어 정보 DB를 구성하는 주제어 순위 저장부에 존재하는 주제어별 순위를 나타내는 도면.
도 7은 본 발명에 따른 텍스트 마이닝을 위한 시스템 구성을 설명하기 위한 도면.
*** 도면의 주요 부분에 대한 부호의 설명 ***
100 : 데이터베이스부 110 : 회원 DB
120 : 선행기술 DB 130 : 검색결과 DB
140 : 주제어 정보 DB 141 : 주제어 저장부
142 : 주제어 빈도 저장부 143 : 주제어 순위 저장부
144 : 지적재산 정보의 리스트 저장부 150 : 백업 DB
200 : 지적재산 정보제공 서버 300 : 클라이언트 단말
본 발명은 지적자산 정보의 특허 검색 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 텍스트마이닝을 이용하여 구축된 주제어 정보 DB를 사용함으로써 특허 검색이 용이하게 이루어지도록 하는 것에 관한 것이다.
오늘날 특허정보는 연구개발 뿐만 아니라, 과학기술에 대한 국가 정책에 영향을 줄 만큼 그 활용도에 있어서 다양하게 활용되고 있다. 또한 특허정보가 가지 는 장점인 잘 정리된 형태의 문서를 이용하여 원하는 정보를 찾아내는 것은 연구개발시 기존 연구 개발된 결과를 파악하는 것뿐만 아니라, 심판이나 소송에서의 증거자료를 찾는 목적에서 매우 중요한 일이 아닐 수 없다. 따라서 기존에 구축되어 있는 특허정보를 잘 활용하는 것은 기업에 있어서 불필요한 연구개발 비를 예방할 수 있고, 새로운 연구개발 방향을 설정하는 측면에서도 매우 중요한 일이라고 할 수 있다.
이러한 측면에서 특허 데이터베이스로부터의 관련 문헌을 찾는 일은 매우 효율적이어야 하고, 번거롭게 검색어를 찾기 위해서 특허 문헌을 자세히 읽어서 내용을 파악하는 데 소요되는 노력을 줄일 수 있는 것은 매우 중요한 일이라고 할 수 있다.
특허검색은 공개 및 공보 문헌을 뒤져서 원하는 문헌을 찾을 수는 있지만, 이는 매우 비효율적이어서 통상적으로는 인터넷을 통하여 각국 특허청의 공개공보 및 등록공보를 찾는 방법이 있고, 각국의 특허정보 데이터베이스를 구비하여 서비스하는 전문적인 특허정보 검색 사이트를 유료로 이용할 수 있다,
그러나 이들 사이트를 통한 검색에서는 한번 주제어를 입력하여 검색을 한 이후, 검색된 문헌 리스트 중 하나를 읽어보고 이 문헌과 관련된 문헌을 더 자세히 알고 싶을 경우, 이 문헌의 내용을 통해서 조사된 주제어를 다시 검색 창에 입력하여 다시 검색을 수행하여야 하는 번거로움이 있었다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 검색된 하나의 특허문헌 내의 요약서 및 대표 청구항 등의 내용으로부터 자동적으로 주제어를 추출하여 자동적으로 특허검색이 이루어질 수 있도록 한 것에 관한 것이다.
하나의 특허문헌으로부터 주제어를 추출하는 과정은 소위 텍스트마이닝 기법을 이용하였다. 이러한 기법을 통하여 출현 빈도수가 높은 단어의 순서대로 데이터에 저장하여 일정 순위까지 주제어로 정한다음 그 주제어를 AND 연산자를 사용하여 다시 한 번 자동적으로 검색이 되도록 하는 시스템을 구축하여 용이하고 원활한 검색과 동시에 정확한 검색정보를 얻도록 하는 시스템 및 그 방법을 제공하는데 목적이 있다.
상기 목적을 달성하기 위하여 본 발명의 시스템은 다수의 사용자들의 정보, 다량의 지적재산권의 선행기술 정보, 검색 결과 정보, 주제어 정보를 저장하여 관리하는 데이터베이스부, 지적자산 정보 검색을 위해 검색식 또는 검색어를 입력받으면 이에 해당하는 지적재산권의 리스트를 상기 데이터베이스부로부터 추출하여 디스플레이시키고, 이후 상기 디스플레이된 리스트 중 해당 사용자가 선택한 목록에 따른 해당 선행기술의 서지적 사항 및 내용중의 일부분을 상기 데이터베이스로부터 추출한 후 해당 사용자에게 제공하고 추출된 해당 선행기술 정보에서 관련기술 더 보기 메뉴를 선택받으면 텍스트마이닝을 통하여 자동으로 검색하여 관련 지 적재산권의 리스트를 해당 클라이언트에게 다시 제공하는 지적자산 정보제공 서버 및 지적자산 정보 검색을 위해 검색식 또는 검색어를 입력받으면, 상기 지적자산 정보제공 서버와의 인터넷 접속을 통해 검색하고자 하는 해당 지적재산권에 대한 각종 정보를 제공받아 각 사용자들에게 디스플레이시키는 다수개의 사용자 단말로 구성된다.
또한, 상기의 목적을 달성하기 위해 본 발명에서 제시하는 방법은 회원 DB, 선행기술 DB, 검색결과 DB, 주제어 정보 DB, 및 백업 DB 로 이루어진 데이터베이스부와, 지적자산 정보제공 서버와, 다수개의 사용자 단말을 구비한 지적자산 정보 검색 시스템에서의 지적자산 정보 제공 방법에 있어서, 사용자가 상기 사용자 단말을 통해 로그인을 선택하면, 상기 지적자산 정보제공 서버가 상기 회원 DB의 회원 정보를 토대로 인증 절차를 처리하는 제 1단계, 상기 지적자산 정보제공 서버가 사용자가 상기 사용자 단말의 검색 메인 화면에서 지적재산 정보 검색을 위한 검색식 또는 검색어를 입력했는지의 여부를 판단하는 제 2단계, 상기 제 2단계에서 사용자가 검색식 또는 검색어를 입력하면, 상기 지적자산 정보제공 서버가 이에 해당하는 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB에 존재하는지의 여부를 확인하는 제 3단계, 상기 제 3단계에서 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB 에 존재하면, 상기 지적자산 정보제공 서버가 그 선행 지적재산권의 리스트를 추출하여 상기 사용자 단말을 통해 디스플레이시키는 제 4단계, 상기 지적자산 정보제공 서버가 상기 선행 지적재산권의 리스트 중 사용자가 선택한 지적재산권의 서지적 사항 및 내용 중의 일부를 사용자 단말을 통해 디스플레이시키 며 사용자가 선행기술 더 보기 메뉴를 선택했는지의 여부를 판단하는 제 5단계, 상기 제 5단계에서 사용자가 선행기술 더 보기 메뉴를 선택하면, 상기 지적자산 정보제공 자동으로 서버가 상기 주제어 정보 DB로부터 주제어 순위를 추출하여 해당 지적재산권에 대한 검색식을 불리언 연산자를 이용하여 조합한 후 이에 해당하는 지적자산 정보의 리스트를 추출하여 상기 사용자 단말을 통해 지적자산 정보의 리스트를 다시 디스플레이시키는 제 6단계 및 상기 지적자산 정보제공 서버가 사용자가 상기 사용자 단말을 통해 로그아웃을 선택했는지의 여부를 판단하여, 로그아웃을 선택하지 않으면 제 2단계로 진행하는 한편, 로그아웃을 선택하면 해당 사용자 단말의 인증을 해제한 후 검색 처리 동작을 종료하는 제 7단계로 이루어진 것을 특징으로 한다.
상기 제 3단계에서 사용자가 입력한 검색식 또는 검색어에 해당하는 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB에 존재하지 않으면, 상기 지적자산 정보제공 서버가 해당 선행 지적재산권이 없음을 알리는 에러 메시지를 상기 사용자 단말을 통해 사용자에게 디스플레이시킨 후 상기 제 7단계로 진행하는 제8단계가 추가로 이루질 수 있다.
이하 첨부한 도면을 참조하여 본 발명을 보다 상세하게 설명하고자 한다. 도 1은 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 시스템 구성을 나타낸 망 구성도이며, 도 2는 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 방법을 나타낸 동작 플로우챠트이며, 도 3a는 도 2에 따른 특허 검색 방법에서 사용 자 단말의 검색 메인 화면을 통해 특정 지적재산권에 대한 특허 검색 결과 리스트가 디스플레이되는 모습을 보여주는 참조 도면이며, 도 3b는 도 3a 리스트 중 하나의 특허문헌을 선택한 경우 선택된 문헌의 간략정보를 보여주는 참조도면이다. 도 3c는 도 3b에 도시된 “관련기술 더 보기” 버튼을 클릭시에 나타나는 관련기술 리스트를 보여주는 화면이고, 도 4는 본 발명에 따른 주제어를 추출하는 순서를 나타내는 순서도이며, 도 5는 도 2 에 따른 지적자산 정보의 특허 검색 방법에서 주제어 정보 DB 를 구성하는 주제어 빈도 저장부에 존재하는 주제어별 빈도수를 나타내는 도면이며, 도 6은 도 2에 따른 지적자산 정보의 특허 검색 방법에서 주제어 정보 DB를 구성하는 주제어 순위 저장부에 존재하는 주제어별 순위를 나타내는 도면이며, 도 7은 본 발명에 따른 텍스트 마이닝을 위한 시스템 구성을 설명하기 위한 도면이다.
도면에서 보인 바와 같이, 도 1은 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 시스템 구성을 나타낸 망 구성도로서, 본 발명의 일 실시예에 의한 텍스트마이닝을 이용한 특허검색 장치는 데이터베이스부(100), 지적자산 정보제공 서버(200) 및 다수개의 클라이언트(사용자) 단말(300)로 구성되어 있다. 여기서 지적자산 또는 지적재산권이란 특허, 실용신안 권리를 의미한다.
이때, 상기 데이터베이스부(100)는 다수의 클라이언트들의 회원 정보, 다량의 지적재산권의 선행기술 정보, 검색 결과 정보, 각 지적재산권에 대한 주제어 정보 및 백업 정보를 저장하여 관리하는 저장부로서, 도1에 도시된 것처럼 다수의 클라이언 트들의 회원 정보를 저장하여 관리하는 회원 DB(Database)(110)와, 다량의 지적재산권의 선행기술 정보를 저장하여 관리하는 선행기술 DB(120)와, 각 클라이언트들의 지적재산권 검색 결과 정보를 저장하여 관리하는 검색결과 DB(130)와, 상기 선행기술 DB(120)에 저장된 각 지적재산권에 대한 주제어 관련 정보를 저장하여 관리하는 주제어 정보 DB(140)와, 각 지적재산권이 검색 결과에 대한 백업 정보를 저장하여 관리하는 백업 DB(150)로 구성되어 있다.
데이터베이스부의 상기 선행기술 DB는 일정주기마다 자동 업데이트 하는 것이 바람직하다.
또한, 상기 데이터베이스부(100)의 주제어 정보 DB(140)는 도 1에 도시된 바와 같이, 각 지적재산권에 대해 추출한 주제어들을 저장하는 주제어 저장부(141)와, 각 지적재산권에 대해 추출된 각 주제어별 빈도를 저장하는 주제어 빈도 저장부(142)와, 각 지적 재산권에 대한 추출된 주제어별 빈도에 따른 주제어의 순위를 저장해 놓는 주제어 순위 저장부(143)와, 각 지적재산권에 대해 추출된 주제어의 순위에 따라 만들어진 검색식이나 검색어로 검색된 정보를 저장해 놓는 지적재산 정보의 리스트 저장부(144)로 구성되어 있다.
이때, 상기 주제어 정보 DB(140)의 주제어 저장부(141)에 저장된 각 주제어는 지적재산권 텍스트에 대한 텍스트마이닝 과정을 거쳐서 결정된다. 본 발명의 텍스트 마이닝은 데이터 마이닝의 일종으로 데이터마이닝은 대량의 데이터들로부터 유용한 정보를 얻어내는 과정을 의미한다. 이러한 과정은 KDD(Knowledge Discovery in Database)과정이라고도 표현되며, 거대한 데이터 집합(Database)에서 유용한 지 식을 획득(Knowledge Discovery)하는 과정을 표현하는 용어로 사용된다. 이러한 과정은 대량의 데이터에서 선택한 특정 정보가 유용한 지식인지 아닌지를 판단하여 법칙(rule)으로 규정할지를 정해야 하기 때문에, 상호 대화적(interactive)이며 반복적인 특성을 지닌다.
주제어 정보 DB화 과정은 텍스트 마이닝 엔진내에서 선택된 문서를 호출하고, 호출된 문서의 텍스트내에서 주제어를 도출함으로써 이루어진다. 또한 도출된 주제어를 통해 검색된 선행기술 리스트를 인터넷 망을 통해서 사용자의 단말기에 디스플레이 해준다.
또한, 도면 1 에 도시된 주제어 정보 DB내의 주제어 저장부에 저장된 주제어를 추출하는 과정을 상세히 살펴보면 먼저, 부수적 단어(supplementary word)를 제거하는 과정, 접사를 배제하고 어근을 분리해 내는 과정, 분리된 어근의 출현 빈도를 계산해 어근별 순위를 정하는 과정으로 결정된다.
또한, 각 지적재산권에 대한 부수적 단어를 제거하는 과정은 정관사(a, the등)나 대명사(it, he)를 주제어 선정 과정에서 제외시키는 과정이고, 접사를 배제하고 어근을 분리해 내는 과정은 문장의 특성을 결정지을 때 중심적인 역할을 하지 않는 접두사, 접미사 등을 제거하여 어근을 구분해 내는 과정이다.
또한, 분리된 어근의 출현 빈도를 계산하여 어근별 출현빈도 순위를 정하는 과정은 초록 및 대표 청구항의 텍스트에 대해서 데이터 마이닝을 통해서 찾아낸 각 어근들의 출현 빈도를 계산함으로써 순위를 결정하는 과정이다.
또한, 상기 주제어 빈도 저장부(142)에 저장된 정보에 따라서 빈도가 많은 것부터 순서대로 미리 정한 순위까지 주제어의 순위를 정하여 주제어 순위 저장부(143)에 저장한다. 이때, 지정된 순위의 주제어를 불리언 연산자(AND)를 이용하여 검색식을 만들어 자동으로 지적재산 정보를 다시 검색하여 지적재산 정보의 목록들을 지적재산 정보의 리스트 저장부(144)에 저장하는 동시에 클라이언트 단말을 통해서 그 결과를 디스플레이시켜준다.
도 2는 본 발명의 일 실시예에 따른 지적자산 정보의 특허 검색 방법을 나타낸 동작 플로우챠트이다. 도시된 바와 같이, 회원 DB, 선행기술 DB, 검색결과 DB, 주제어 DB, 및 백업 DB 로 이루어진 데이터베이스부와, 지적자산 정보제공 서버와, 다수개의 사용자 단말을 구비한 지적자산 정보 검색 시스템에서의 지적자산 정보 제공 방법에 있어서, 사용자가 상기 사용자 단말을 통해 로그인을 선택하면, 상기 지적자산 정보제공 서버가 상기 회원 DB의 회원 정보를 토대로 인증 절차를 처리하는 단계(S1)로 시작된다.
S1단계에서 지적자산 정보제공 서버가 회원 DB의 회원정보를 토대로 인증 절차를 처리하면, 상기 지적자산 정보제공 서버에서 사용자가 상기 사용자 단말의 검색 메인 화면에서 지적재산 정보 검색을 위한 검색식 또는 검색어를 입력했는지의 여부를 판단(S2)하여 사용자가 검색식 또는 검색어를 입력하면, 상기 지적자산 정보제공 서버가 이에 해당하는 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB에 존재하는지의 여부를 확인하는 단계(S3)를 거쳐 상기 S3 단계에서 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB 에 존재하면, 상기 지적자산 정 보제공 서버가 그 선행 지적재산권의 리스트 및 그와 관련된 출원번호, 출원국가 등의 각종 정보를 추출하여 상기 사용자 단말을 통해 디스플레이(S4)시킨다.
만약 상기 S3 단계에서 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB 에 존재하지 않으면, 지적자산 정보제공 서버가 해당 선행 지적재산권이 없음을 알리는 에러 메시지를 클라이언트 단말을 통해 사용자에게 디스플레이(S8)해준다.
그 이후 상기 선행 지적재산권의 리스트 중 사용자가 특정한 문헌을 선택할 경우 그 지적재산권의 서지적 사항 및 내용 중의 일부를 사용자 단말을 통해 디스플레이시키며 사용자가 “관련기술 더 보기” 메뉴를 선택했는지의 여부를 판단한다(S5).
그 후, 사용자가 클라이언트 단말을 통해 특정 지적재산권에 대한 "관련기술 더 보기" 메뉴를 선택한 경우에는 상기 지적자산 정보제공 서버는 데이터 마이닝 엔진을 가동하여 선택된 문헌의 주제어를 상기 주제어 정보 DB에 저장하게 되고, 상기 주제어 정보 DB로부터 주제어 순위를 추출하여 해당 지적재산권에 대한 검색식을 불리언 연산자를 이용하여 자동으로 입력받아 지적자산 정보의 리스트를 추출하여 상기 사용자 단말을 통해 지적자산 정보의 리스트를 다시 디스플레이시키는 S6 단계로 이루어진다.
여기서 불리언 연산자란 정보 검색엔진에서 주로 사용하는 용어이다. 이러한 검색엔진에서 사용되는 용어로서, 불리언 연산자에는 AND, OR, NOT 등이 있다.
그 후 지적자산 정보제공 서버가 사용자가 상기 사용자 단말을 통해 로그아 웃을 선택했는지의 여부를 판단하여, 로그아웃을 선택하지 않으면 제 2단계로 진행하는 한편, 로그아웃을 선택하면 해당 사용자 단말의 인증을 해제한 후 검색 처리 동작을 종료하는 S7 단계로 이루어진다.
도 3a는 도 2에 따른 특허 검색 방법에서 사용자 단말의 검색 메인 화면을 통해 특정 지적재산권에 대한 특허 검색 결과 리스트가 디스플레이되는 모습을 보여주는 참조 도면이다. 도면에 보인 바와 같이, 사용자가 블리언 연산자를 이용하여검색어를 입력하여 검색을 실행시키면 검색식에 해당되는 특허문헌의 리스트가 표시된다. 사용자는 리스트 된 특허문헌 중에서 원하는 문헌의 발명의 명칭 예를들어 도 3a의 첫 번째 문헌을 클릭하면 도 3b와 같이 클릭된 문헌의 서지적 사항, 요약 및 대표 청구항 등의 간략정보가 표시되게 된다. 사용자는 표시된 간략정보를 보고 이 문헌과 관련된 문헌을 더 깊이 찾고 싶은 경우에는 이 문헌의 요약서 및 대표 청구항등을 읽어서 내용을 파악한 후 주제어를 찾아내어서 통상은 다시 도 3a의 검색화면으로 들어가서 찾은 주제어를 연산자를 이용하여 다시 검색을 수행하여야 하는 불편함이 있었다. 본 발명은 이러한 단점을 해결하기 위해서 도 3b에서 표시되는 특허문헌의 간략정보 화면에서 “관련기술 더 보기” 버튼을 클릭할 경우 도7에서 도시하는 바와 같이 텍스트 마이닝 엔진은 선택된 특허문헌의 간략정보 중 발명의 초록 및 대표청구항의 텍스트를 이용하여 주제어를 자동으로 추출하게 된다.
도 4는 텍스트마이닝을 이용하여 주제어를 추출하는 순서를 나타내는 순서도로서 도시된 바와 같이 주제어를 추출하는 과정은 선택된 특허문헌의 간략정보 중 초록 및 대표청구항의 텍스트를 이용하여 부수적 단어를 제거하는 과정, 접사를 배제하고 어근을 분리해내는 과정, 분리된 어근의 출현 빈도 계산 과정, 어근별 순위를 정하는 과정으로 이루어진다. 각 과정을 상세히 살펴보면 부수적 단어 제거 과정은 정관사나 대명사를 주제어 선정 과정에서 제외시키는 과정이며, 접사를 배제하고 어근을 분리해내는 과정은 문장의 특성을 결정지을 때 중심적인 역할을 하지 않는 접두사, 접미사 등을 제거하여 어근을 구분해 내는 과정이고, 분리된 어근의 출현 빈도 계산 과정은 각 지적재산권의 텍스트에서 상기 주제어 정보 저장부에 저장된 주제어별 출현 빈도를 계산함으로써 각 주제어별로 일정 횟수 이상 출현한 주제어에 대해서만 빈도를 저장하여 제공하는 과정이다.
도 5는 도 2에 따른 지적자산 정보의 특허 검색 방법에서 주제어 정보 DB (140)를 구성하는 주제어 빈도 저장부(142)에 존재하는 주제어별 출현 빈도수를 나타내는 도면이다. 여기서 A, B, C, D, E는 텍스트마이닝을 통해 선별된 주제어를 나타낸다.
도6은 각 주제어별 순위를 나타내는 것으로서 이 순위는 도1의 주제어 순위저장부(143)에 저장된다. 결국 선택된 지적재산권(특허문헌)의 주제어는 주제어순위저장부(143)에 저장된 주제어 중 일정한 순위까지 만을 선택함으로써 결정된다. 통상 순위 중 5위까지만을 선택하는 것이 바람직하지만, 필요에 따라서는 사용자기 다른 숫자로 지정할 수도 있다.
부연하여 설명하면 선택된 지적재산권의 간략정보를 이용하여 선택된 주제어들은 검색연산자를 이용하여 조합하게 되고, 이러게 만들어진 검색식을 도 3a 화면 의 검색창에 자동으로 입력하여 검색을 수행하게 된다. 이러한 검색에 의해서 찾아낸 관련기술 리스트는 클라이언트 단말을 통해서 사용자에게 도 3c와 같이 디스플레이시켜주게 된다. 도 3c에는 도 3b에 나타난 초록 및 대표청구항을 기초로 하여 데이터마이닝을 통하여 찾은 주제어인 “피니언”, “마그네틱”, “모터”, “스위치”를 이용하여 자동 검색에 의해서 찾아진 관련기술 리스트를 도시한 것이다.
이러한 방법으로 선택된 주제어는 불리언 연산자를 통하여 검색식이 만들어지는 조합은 다양한 방법이 있을 수 있으나, 통상 추출된 주제어를 "AND" 연산자를 사용하여 검색하는 것이 바람직하다.
이상에서 설명한 바와 같이, 본 발명은 인터넷에서 특허검색시 검색된 기술문의 초록 및 청구항을 기초로 하여 데이터 마이닝을 통하여 텍스트내에서 빈도수가 높은 단어의 순위를 이용하여 주제어로 정하고, 그 주제어를 불리언 연산자를 사용하여 다시 한번 자동적으로 검색을 하는 시스템을 이용함으로써 용이하고 원활한 특허검색을 할 수 있다.
이상에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다. 따라서 특허청구범위의 등가적인 의미나 범위에 속하는 모든 변화들은 전부 본 발명의 권리범위안에 속함을 밝혀둔다.

Claims (17)

  1. 다수의 사용자들의 정보, 다량의 지적재산권의 선행기술 정보, 검색 결과 정보, 주제어 정보를 저장하여 관리하는 데이터베이스부;
    지적자산 정보 검색을 위해 검색식 또는 검색어를 입력받으면 이에 해당하는 지적재산권의 리스트를 상기 데이터베이스부로부터 추출하여 디스플레이시키고, 이후 상기 디스플레이된 리스트 중 해당 사용자가 선택한 목록에 따른 해당 선행기술의 서지적 사항 및 내용중의 일부분을 상기 데이터베이스로부터 추출한 후 해당 사용자에게 제공하고 추출된 해당 선행기술 정보에서 관련기술 더 보기 메뉴를 선택받으면 텍스트마이닝을 통하여 자동으로 검색하여 관련 지적재산권의 리스트를 해당 클라이언트에게 다시 제공하는 지적자산 정보제공 서버; 및
    지적자산 정보 검색을 위해 검색식 또는 검색어를 입력받으면, 상기 지적자산 정보제공 서버와의 인터넷 접속을 통해 검색하고자 하는 해당 지적재산권에 대한 각종 정보를 제공받아 각 사용자들에게 디스플레이시키는 다수개의 사용자 단말로 구성되고,
    상기 데이터베이스부는, 다수의 사용자들의 회원 정보를 저장하여 관리하는 회원 DB;
    다량의 지적재산권의 선행기술 정보를 저장하여 관리하는 선행기술 DB;
    각 사용자들의 지적재산권 검색 결과 정보를 저장하여 관리하는 검색결과 DB;
    상기 선행기술 DB에 저장된 각 지적재산권에 대한 텍스트마이닝을 통한 주제어 결과를 저장하여 관리하는 주제어 정보 DB; 및
    각 지적재산권의 검색 결과에 대한 백업 정보를 저장하여 관리하는 백업 DB를 포함하여 구성되고,
    상기 주제어 정보 DB는, 각 지적재산권 텍스트에 대한 텍스트마이닝을 통하여 주제어를 추출하여 주제어 정보를 저장하는 주제어 저장부;
    상기 추출된 주제어에 대한 주제어별 빈도 정보를 저장하여 관리하는 주제어 빈도 저장부;
    각 지적재산권의 주제어별 빈도를 통하여 주제어별 순위를 저장하여 관리하는 주제어 순위 저장부; 및
    각 지적재산권에 대한 주제어별 순위에 따른 지적자산 정보의 리스트 저장부를 포함하여 구성되고,
    상기 주제어 저장부에 저장된 각 지적재산권 텍스트에 대한 주제어 정보는, 정보의 DB화 과정에서 각 지적재산권에 대한 부수적 단어를 제거하는 과정, 접사를 배제하고 어근을 분리해 내는 과정, 분리된 어근의 출현 빈도를 계산해 어근별 순위를 정하는 과정으로 구분되어 저장 관리되고,
    상기 각 지적재산권에 대한 부수적 단어를 제거하는 과정은, 정관사나 대명사를 주제어 선정 과정에서 제외시키는 과정이고,
    상기 각 지적재산권에 대한 접사를 배제하고 어근을 분리해 내는 과정은, 문장의 특성을 결정지을 때 중심적인 역할을 하지 않는 접두사, 접미사 등을 제거하여 어근을 구분해 내는 과정이고,
    상기 주제어 빈도 저장부에 저장된 각 지적재산권의 주제어 빈도 정보는, 각 지적재산권의 텍스트에서 상기 주제어 저장부에 저장된 주제어별 출현 빈도를 계산함으로써 각 주제어별로 일정 횟수 이상 출현한 주제어에 대해서만 빈도를 저장해 놓는 것이고,
    상기 지적자산 정보제공 서버가 사용자의 요청에 따라 해당 사용자 단말로 제공하는 선행기술 DB는 일정주기마다 자동 업데이트되어 제공함을 특징으로 하는 특허 검색 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 회원 DB, 선행기술 DB, 검색결과 DB, 주제어 정보 DB, 및 백업 DB 로 이루어진 데이터베이스부와, 지적자산 정보제공 서버와, 다수개의 사용자 단말을 구비한 지적자산 정보 검색 시스템에서의 지적자산 정보 제공 방법에 있어서,
    사용자가 상기 사용자 단말을 통해 로그인을 선택하면, 상기 지적자산 정보제공 서버가 상기 회원 DB의 회원 정보를 토대로 인증 절차를 처리하는 제 1단계;
    상기 지적자산 정보제공 서버가 사용자가 상기 사용자 단말의 검색 메인 화면에서 지적재산 정보 검색을 위한 검색식 또는 검색어를 입력했는지의 여부를 판단하는 제 2단계;
    상기 제 2단계에서 사용자가 검색식 또는 검색어를 입력하면, 상기 지적자산 정보제공 서버가 이에 해당하는 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB에 존재하는지의 여부를 확인하는 제 3단계;
    상기 제 3단계에서 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB 에 존재하면, 상기 지적자산 정보제공 서버가 그 선행 지적재산권의 리스트를 추출하여 상기 사용자 단말을 통해 디스플레이시키는 제 4단계;
    상기 지적자산 정보제공 서버가 상기 선행 지적재산권의 리스트 중 사용자가 선택한 지적재산권의 서지적 사항 및 내용 중의 일부를 사용자 단말을 통해 디스플레이시키며 사용자가 선행기술 더 보기 메뉴를 선택했는지의 여부를 판단하는 제 5단계;
    상기 제 5단계에서 사용자가 선행기술 더 보기 메뉴를 선택하면, 상기 지적자산 정보제공 자동으로 서버가 상기 주제어 정보 DB로부터 주제어 순위를 추출하여 해당 지적재산권에 대한 검색식을 불리언 연산자를 이용하여 조합한 후 이에 해당하는 지적자산 정보의 리스트를 추출하여 상기 사용자 단말을 통해 지적자산 정보의 리스트를 다시 디스플레이시키는 제 6단계; 및
    상기 지적자산 정보제공 서버가 사용자가 상기 사용자 단말을 통해 로그아웃을 선택했는지의 여부를 판단하여, 로그아웃을 선택하지 않으면 제 2단계로 진행하는 한편, 로그아웃을 선택하면 해당 사용자 단말의 인증을 해제한 후 검색 처리 동작을 종료하는 제 7단계로 이루어지고,
    상기 제 2단계에서 사용자가 지적재산 정보 검색을 위한 검색식 또는 검색어를 입력하지 않거나, 또는 상기 제 5단계에서 사용자가 상기 사용자 단말을 통해 특정 지적재산권에 대한 "관련 기술 더 보기" 메뉴를 선택하지 않으면, 상기 지적자산 정보제공 서버가 상기 제 7단계로 진행하고,
    상기 제 3단계에서 사용자가 입력한 검색식 또는 검색어에 해당하는 하나 이상의 선행 지적재산권의 정보가 상기 선행기술 DB에 존재하지 않으면, 상기 지적자산 정보제공 서버가 해당 선행 지적재산권이 없음을 알리는 에러 메시지를 상기 사용자 단말을 통해 사용자에게 디스플레이시킨 후 상기 제 7단계로 진행하는 제8단계가 추가로 이루어지고,
    상기 제5단계의 주제어 저장부에 저장된 각 지적재산권에 대한 주제어 정보는, 각 지적재산권에 대한 텍스트 내에서 부수적 단어를 제거하는 과정, 접사를 배제하고 어근을 분리해 내는 과정, 분리된 어근의 출현 빈도를 계산해 어근별 순위를 정하는 과정으로 구분되어 저장 관리되고,
    상기 각 지적재산권에 대한 텍스트 내에서 부수적 단어를 제거하는 과정은, 정관사나 대명사의 부수적 단어를 주제어 선정 과정에서 제외시키고,
    상기 각 지적재산권에 대한 텍스트 내에서 접사를 배제하고 어근을 분리해 내는 과정은, 문장의 특성을 결정지을 때 중심적인 역할을 하지 않는 접두사, 접미사 등을 제거하여 어근을 구분해 내고,
    상기 분리된 어근의 출현 빈도를 계산해 어근별 순위를 정하는 과정은 일정 횟수 이상 출현한 주제어에 대해서만 순위를 저장하고,
    상기 선행기술 DB는 일정주기마다 자동 업데이트되고,
    사용자가 선택한 지적재산권의 서지적 사항 및 내용 중의 일부는 초록 및 대표청구항을 포함하는 것을 특징으로 하는 특허 검색 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
KR1020050096793A 2005-10-14 2005-10-14 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법 KR100718745B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050096793A KR100718745B1 (ko) 2005-10-14 2005-10-14 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050096793A KR100718745B1 (ko) 2005-10-14 2005-10-14 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070041068A KR20070041068A (ko) 2007-04-18
KR100718745B1 true KR100718745B1 (ko) 2007-05-15

Family

ID=38176593

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050096793A KR100718745B1 (ko) 2005-10-14 2005-10-14 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100718745B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040734B1 (ko) * 2008-11-25 2011-06-13 한국과학기술정보연구원 지적재산 가이던스 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101954512B1 (ko) * 2017-02-28 2019-03-05 주식회사 워트인텔리전스 특허 검색 방법 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020009730A (ko) * 2000-07-26 2002-02-02 윤종용 지적자산 정보 분석 및 활용 방법과 이를 수행하기 위한시스템
KR20040086913A (ko) * 2003-04-03 2004-10-13 재단법인서울대학교산학협력재단 특허 정보의 텍스트 마이닝(Text Mining)에의한 기술 공백의 발견 방법과 그 시스템
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020009730A (ko) * 2000-07-26 2002-02-02 윤종용 지적자산 정보 분석 및 활용 방법과 이를 수행하기 위한시스템
KR20040086913A (ko) * 2003-04-03 2004-10-13 재단법인서울대학교산학협력재단 특허 정보의 텍스트 마이닝(Text Mining)에의한 기술 공백의 발견 방법과 그 시스템
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040734B1 (ko) * 2008-11-25 2011-06-13 한국과학기술정보연구원 지적재산 가이던스 시스템 및 방법

Also Published As

Publication number Publication date
KR20070041068A (ko) 2007-04-18

Similar Documents

Publication Publication Date Title
US10997678B2 (en) Systems and methods for image searching of patent-related documents
US7769752B1 (en) Method and system for updating display of a hierarchy of categories for a document repository
US20100241947A1 (en) Advanced features, service and displays of legal and regulatory information
US20100057725A1 (en) Information retrieval device, information retrieval method, and program
US20110082803A1 (en) Business flow retrieval system, business flow retrieval method and business flow retrieval program
CN106156111B (zh) 专利文件检索方法、装置和系统
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US11232137B2 (en) Methods for evaluating term support in patent-related documents
JP2002157276A (ja) 問題解決支援方法及びシステム
US20040078361A1 (en) System and method for analyzing patent families
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
KR100718745B1 (ko) 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
US20150161183A1 (en) Indexing presentation slides
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
JP2004046870A (ja) 情報単位群操作装置
EP0743606B1 (en) Data unit group handling apparatus
EP2438543A2 (en) Advanced features, service and displays of legal and regulatory information
JP2006185020A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20150046437A1 (en) Search Method
JP2009294768A (ja) 情報共有装置及び情報共有プログラム
US20080228725A1 (en) Problem/function-oriented searching method for a patent database system
JP2012008613A (ja) 情報検索システム
JP2006072844A (ja) キーワード特定装置、キーワード特定方法及びキーワード特定プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120327

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130410

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee