KR20040086913A

KR20040086913A - 특허 정보의 텍스트 마이닝(ＴｅｘｔＭｉｎｉｎｇ)에의한 기술 공백의 발견 방법과 그 시스템

Info

Publication number: KR20040086913A
Application number: KR1020030021093A
Authority: KR
Inventors: 박용태; 윤병운; 이성주
Original assignee: 재단법인서울대학교산학협력재단
Priority date: 2003-04-03
Filing date: 2003-04-03
Publication date: 2004-10-13
Also published as: KR100714267B1

Abstract

본 발명은 신기술 개발 프로세스를 지원하는 시스템으로서 기존 출원 특허들의 기술적 특성을 고려하여 특허지도(Patent Map)를 작성하고 이를 바탕으로 공백 기술을 파악하여 유망한 신기술 개발 영역을 분석함으로써 기업 경영, 기술 개발 상의 의사 결정을 지원하기 위한 방법과 그 시스템을 제공한다.

본 발명에서의 공백 기술 발견 시스템은 특허 자료 소스로부터 특허 문서를 다운로드하는 자료 수집 모듈, 저장된 특허 문서를 주제어 벡터로 전환하는 자료 변환 모듈, 주요인 분석에 의해 다차원의 주제어로부터 주요인을 생성하고 이들을 축으로 특허 지도를 작성하는 특허 지도 생성 모듈, 지도에서 공백을 발견하는 특허 공백 발견 모듈, 개발 가치를 지닌 유망한 기술 영역으로 평가되는 공백을 도출하는 공백 유효성 조사 모듈 등 총 5개의 모듈로 구성되어 있다.

본 발명에서 제시하는 시스템은 텍스트 마이닝(Text Mining)을 통해 얻어진 주제어를 활용함으로써 상세한 기술 내용을 고려할 수 있으며, 특허 지도 작성 자체에 의미를 두는 기존의 특허 지도와는 달리, 실제로 공백을 찾아내고 분석에 의해서 유망한 신기술 개발의 공백을 시스템적으로 도출할 수 있다는 장점이 있다.

Description

특허 정보의 텍스트 마이닝(ＴｅｘｔＭｉｎｉｎｇ)에 의한 기술 공백의 발견 방법과 그 시스템{the process and system for finding patent vaccum by text mining}

본 발명은 특허 지도를 활용하여 유망한 기술을 도출함으로써 신기술 개발을 지원하는 방법에 관련된 것이다. 정보화 시대의 도래로 말미암아 지식은 기업의 성공과 생존의 중요한 요인으로 받아들여지고 있다. 다시 말해, 시장의 특성이나 구조가 빈번하게 변화하고 기술의 발전 주기가 급속히 단축되고 있으며 제품이 출시되고 사장될 때까지의 기간이 현저하게 감소되는 추세이기 때문에, 성공적인 기업은 지속적으로 새로운 지식을 창출하고 축적된 지식을 활용하는 경향이 있다. 이와 같이 축적된 지식들은 신기술 개발의 중요한 촉진제 역할을 하고 있다는 점에서 신기술 개발 프로세스는 지식 경영의 대표적인 예라고 할 수 있다.

신기술 개발에 활용되는 지식들은 종류나 형태 측면에서 매우 다양하지만 최근에는 기술의 최신 경향을 반영하는 특허에 관심이 집중되고 있다. 특허 자료는 기술 혁신에 대한 학술적 연구를 수행하는 연구자들에게 뿐만 아니라 실제 기술을 개발하는 기술자들에게도 기술 변화의 추세와 기술 특성 파악에 매우 중요한 자료로 활용되고 있다. 따라서 특허 정보를 이용한 공백 기술 발견 시스템의 개발은 과거 기술들의 특성을 매우 방대한 자료에 기초하여 분석할 수 있기 때문에 축적된 지식을 새로운 지식 창출에 이용한다는 측면에서 의미가 있다고 할 수 있다.

신기술 개발에 있어 공백 기술을 찾아내는 방법은 개인적(천재적) 발명이나 전문가들의 판단에 의존한 매우 정성적 성격을 띠고 있다. 체계적인 과정을 통해 유망한 기술의 영역을 찾아내기 보다는 우연에 의해 기술을 개발하거나 작업의 효율성을 높이기 위한 공정 기술 개발이 주를 이루게 된다. 이것은 거시적 기술 진화를 조사하기 보다는 매우 협소한 영역의 작은 단위의 기술을 개발하는 데 초점을 맞추고 있다. 이에 비해 전문가들의 판단에 의한 방법은 집단적인 의사소통의 과정을 통해 얻어지는 것으로서 미래 기술을 예측할 수 있다는 점에서 기술 개발의 방향을 제시할 수 있다. 이와 관련된 대표적인 방법인 델파이법은 여러 전문가의 의견을 수렴할 수 있다는 장점이 있으나 위에서 제시한 개인적 발명에서와 같이 시스템적인 과정을 통해 기술 개발이 이루어지는 것이 아닌 정성적인 방법에 의존하기 때문에 공백 기술 발견의 체계적 지원은 매우 절실하다.

따라서 본 시스템은 특허 자료를 기반으로 특허간 관계를 규명하고 이를 토대로 특허 지도를 작성하여 유망한 기술 영역을 도출하며 이를 신기술 개발에 활용할 수 있도록 지원하도록 한다. 따라서 연구개발의 결과물인 특허에 관련된 특허공보나 초록 등의 일련의 특허 정보들을 가공, 분석, 분류, 정리하여 시각적으로 도표화한 특허 지도(Patent Map)는 지적재산권 및 기술동향 파악을 위한 일종의 특허 정보 해석 보고서로서 본 시스템에서는 신기술 개발을 지원하기 위한 정보로 활용된다.

도 1은 특허 지도의 작성에 활용되는 특허 정보와 지도의 활용 목적, 작성방법을 토대로 특허 지도를 정의한 것이다.

도 1을 참조하면, 특허지도는 특허 정보의 서지 사항(예: 출원인, 출원일자, 발명자, 특허 분류 등)과 기술 내용(예: 특허가 해결하고자 하는 기술적 과제, 세부 기술의 원리와 작동 기제 등), 권리 정보(예: 특허권의 범위 및 기간, 권리이전, 각국에서의 진행상황 등)등을 활용하여 각 정보를 분류/정리, 분석/가공하고 이들을 조합하여 분석 결과를 사용자가 이해하기 쉽게 한 눈에 파악할 수 있는 도표로 표시한 것이다.

이러한 특허지도를 작성함에 있어 특허 정보로부터 활용 가능한 분석 항목을 조합하는 것은 경우의 수가 매우 많아지고 이를 표현하는 방식도 다양하며 특허지도 작성 목적도 상이한 경우가 많다. 따라서 특허지도는 목적에 맞는 형태를 그에맞는 방식으로 작성되어야 한다. 도 1에서 제시하는 바와 같이 특허 지도의 활용 목적에 따라 분류를 하면 크게 경영 정보적 활용, 기술 정보적 활용, 권리 정보적 활용으로 나뉘어 질 수 있다.

첫째, 경영 정보적 활용은 기업 연구관리 동향, 경쟁 기업의 동향, 상품 개발의 동향, 기업 특허관리 동향, 국가별 시장 규모 예측 등을 위해 작성하는 것으로서 그 종류로는 기술 동향 지도, 기술 분포 지도, 신규 참여 기업 지도 등이 있다.

둘째, 기술 정보적 활용은 기술 발전의 흐름을 통해 핵심 기술을 파악하고 미래 기술의 방향을 설정하거나 연구 개발의 주제 선정, 공백 기술의 발견을 목적으로 하는 것으로서 신제품 개발 동향 지도, 기술 추진 지도, 기술비교 지도 등이 있다.

마지막으로 권리 정보적 활용을 위한 특허지도는 특허 권리 범위를 파악하고 특허의 취득이나 침해 가능성을 파악하는 데 유용한 지도로서 인용 관계 지도, 구성 요건 지도, 특허 패밀리 지도 등이 활용되고 있다.

도 2는 특허 지도를 개발하는 기존의 방법들의 과정을 설명하는 플로어차트(Flowchart)이다.

도 2를 참조하면, 우선 개발하고자하는 특허 지도의 작성 목적과 작성 범위를 명확히 한 후, 이를 위한 자료를 수집한다. 이를 토대로 분석 시트(Sheet)라 할 수 있는 요약 카드를 작성하고 이를 연도별, 국가별, 목적별, 구조별, 재료별로 그룹핑(Grouping)한다. 그 다음으로는 각 분류 기준별로 그룹핑한 자료들을 조합하여 매트릭스(Matrix)를 작성하며 마지막으로는 기술의 발전 관계를 규명하기 위해 위의 매트릭스들을 상호 접속하게 된다.

그러나 이러한 기존의 특허 지도들은 모두 몇 가지 제한된 변수들의 조합을 통해 표나 그래프로 시각화하여 작성되기 때문에 특허가 지니고 있는 세부적 기술 내용에 대해서는 충분한 고려를 하고 있지 못한다는 단점이 있다. 특히, 공백 기술의 발견을 통한 유망한 신기술 개발의 분야를 찾아내는 활동은 연도별 출원 건수의 추이나 기술 동향 파악 등과 같은 단순한 분석이나 2, 3개의 변수의 조합에 의해서는 이루어질 수 없는 영역이다. 또한 풍부한 자료에 기초한 것이 아닌 전문가의 분석에 의존하여 유망한 신기술을 도출하는 것은 시간과 비용의 문제가 있고, 사람의 작업이라는 측면에서 야기될 수 있는 오류가 발생할 위험도 존재하며, 사람이 발견할 수 없는 외관상으로는 드러나지 않는 특허간 관계가 존재할 수도 있다. 따라서 기존의 특허 지도를 활용하여 유망한 신기술 영역을 발견하는 데에는 설명력과 작성 효율성, 정확성 등의 측면에서 문제를 보이고 있다고 볼 수 있다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 본 발명의 목적은 신기술 개발에 특허 지도를 작성하여 활용함에 있어 방대한 양의 특허 문서 자료에 대한 사람의 직접적인 분석 없이 텍스트 마이닝과 주성분 분석(Principle Component Analysis: PCA)을 이용하여 특허 지도를 작성하고 이를 통해 기술 공백을 찾아내어 신기술 개발 영역을 도출하는 방법을 제공하는 데 있다.

본 발명의 다른 목적은 기존의 특허 지도가 공백 기술을 발견함에 있어 2개나 3개의 변수만을 고려하여 2차원이나 3차원으로 관련 특허를 단순하게 매핑하는 수준에서 벗어나 특허 문서에 포함되어 있는 기술의 다양한 특질을 고려하여 작성하는 방법을 제공하는 데 있다.

본 발명의 또 다른 목적은 특허를 그래프로 표현하는 것에서 그치는 것이 아닌 지도에서 기술 공백을 도출하여 시스템적으로 특허 지도에 도시하고 이들 중에서 의미 있고 유망한 영역을 구분해내는 데 있다.

도 1은 특허 지도의 작성에 활용되는 특허 정보와 지도의 활용 목적, 작성 방법을 토대로 특허 지도를 정의하는 도면.

도 2는 도 1에서의 특허 지도의 작성 절차를 설명하기 위한 도면.

도 3은 본 발명에 따른 특허 지도를 작성하기 위한 모듈의 구성과 흐름을 설명하기 위한 도면.

도 4는 도 3의 모듈들을 실행하기 위해 구성된 특허 작성 시스템의 구조도를 설명하기 위한 도면.

도 5는 도 3의 모듈 중 첫 번째 자료 수집 모듈(Data Collection Module)을 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 6은 도 3의 모듈 중 두 번째 자료 변환 모듈(Data Transformation Module)에서 텍스트 마이닝(Text Mining)을 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 7은 도 3의 모듈 중 두 번째 자료 변환 모듈 중에서 주제어 벡터 생성 프로그램에 의한 문서의 벡터화를 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 8은 도 3의 모듈 중 세 번째 특허 지도 작성 모듈(Patent Map Generation Module)을 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 9는 도 3의 모듈 중 네 번째인 특허 공백 발견 모듈(Patent Vacuum Identification Module)을 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 10은 도 3의 모듈 중 다섯 번째인 특허 유효성 조사 모듈(Vacuum Validity Test Module)을 실행하기 위한 시스템 구성을 설명하기 위한 도면.

도 11은 도 5에서의 자료 수집 모듈이 외부의 소스로부터 특허 자료를 다운로드하여 저장하는 과정을 설명하는 도면.

도 12는 도 6에서의 자료 변환 모듈 중 텍스트 마이닝 엔진이 저장된 문서에서 주제어를 도출하는 과정을 설명하는 도면.

도 13은 도 7에서의 자료 구조화되어 있지 않은 특허 문서로부터 구조화된 자료인 주제어 벡터로 변환하는 과정을 설명하는 도면.

도 14는 특허 문서를 벡터로 전환하는 예를 설명하는 도면.

도 15는 주제어를 활용하여 문서를 벡터로 변환하는 주제어 벡터 생성 프로그램을 설명하는 도면.

도 16는 도 8에서의 특허 지도 생성 모듈이 다차원의 주제어 벡터를 2차원 평면에 사상하여 특허 지도를 작성하는 과정을 설명하는 도면.

도 17은 도 9에서의 특허 공백 발견 모듈에서 특허 지도에 공백의 영역을 도시하는 과정을 설명하는 도면.

도 18은 도 10에서의 공백 유효성 검증 모듈이 공백의 중요도를 분석하여 신기술 개발에 유용한 공백을 도출하는 과정을 설명하는 도면.

도 19는 도 16에서 제시한 과정을 통해 실제 데이터를 이용하여 작성된 특허 지도에 도 17의 과정을 통해 공백을 도시한 예를 보여주는 도면.

도 20은 도 18에서의 과정을 적용하여 다양한 분석을 통해 공백별 중요도를 도출한 결과를 사용자에게 출력하는 시스템 화면을 예시하는 도면.

상기 목적을 달성하기 위하여 본 발명의 특허공백기술 조사 시스템은 사용자가 검색어를 입력시킬 수 있는 입력장치; 네트워크를 통해 특허 데이터베이스에 접속하여 입력된 검색어를 포함하는 문서를 검색하고 기억장치에 이를 다운로드하여데이터베이스화하는 프로그램화된 자료 수집 모듈; 데이터베이스로부터 문서를 호출하여 메모리에 저장하고, 호출된 특허 문서들로부터 주제어를 도출하고 이를 벡터화하여 기억장치에 데이터베이스화하는 프로그램화된 자료 변환 모듈; 주제어 벡터의 차원을 요구되는 수준에 따라 감소시키는 프로그램화된 차원 감소 모듈; 벡터화된 데이터로부터 소정의 지도 작성 알고리즘을 이용해 지도를 제작하여 모니터에 디스플레이하는 프로그램화된 지도 생성 모듈; 작성된 지도를 바탕으로 특허 기술의 공백부분의 정보를 찾아내는 특허 공백 발견 모듈; 찾아낸 특허 공백의 정보를 비교, 판단하여 유효성을 제시하는 공백 유효성 조사 모듈; 상기 정보를 저장하기 위한 기록매체와 상기 결과를 디스플레이하기 위한 출력장치를 포함한다.

본 발명에서 공백기술 조사방법은 (a) 인터페이스를 통해 검색어를 입력하는 단계와, (b) 검색 수단이 네트워크를 통해 특허 데이터베이스에 접속하여 상기 검색어를 포함하는 문서를 검색하고 이를 기억장치에 다운로드 하여 데이터베이스화하는 단계와, (c) 데이터베이스화된 상기 (b) 단계의 문서를 호출하고 호출된 특허 문서들로부터 주제어를 도출하고 이를 벡터화하여 기억장치에 데이터베이스화하는 단계와, (d) 벡터화된 데이터를 호출하여 주요인을 도출하고 소정의 개수를 조합하며 조합된 주요인을 축으로 하는 특허 지도를 작성하고 디스플레이 하고 기억장치에 데이터베이스화하는 단계와,(e) 상기 작성된 지도를 호출하여 공백부분을 지정하면 공백부분을 정리하여 공백별로 포함된 특허들의 정보를 제시하고 기억장치에 데이터베이스화하는 단계 및 (f) 상기 공백부분의 특허를 소정의 분석 기준에의해 공백별 중요도를 계산하고 제시하며 이를 기억장치에 데이터베이스화하는 단계를 포함한다.

본 발명에서 상기 (b) 단계는 기억장치에 문서를 다운로드하여 문서를 소정의 형식으로 변환하는 단계를 포함한다.

본 발명에서 상기 (c) 단계의 주제어 도출은 (c1) 부수적 단어를 제거하는 단계와, (c2) 접사를 배제하고 어근을 분리해 내는 단계와, (c3) 분리된 어근의 출현 빈도를 미리 정해진 문턱값과 비교하는 단계 및 (c4) 문턱값을 넘은 어근을 주제어로 판단하는 단계를 포함한다.

본 발명에서 상기 (d) 단계는 주제어를 도출하여 벡터화를 수행한 후 고유값에 의해 차원을 감소시키는 단계를 추가로 포함한다.

본 발명에서 상기 (e) 단계는 사용자가 공백 영역을 직접 지정하도록 이루어진다.

이하 첨부한 도면을 참조하여 본 발명을 보다 상세하게 설명하고자 한다.

도 3은 본 발명에 따른 특허 지도를 작성하기 위한 모듈의 구성과 흐름을 나타낸 플로어차트이다.

상기 모듈은, 자료수집모듈, 자료변환모듈, 특허지도생성모듈, 특허공백발견모듈, 공백유효성조사모듈을 포함한다.

도 3을 참조하면, 각각의 모듈은 일련의 과정에 의해서 진행된다.

이하 첨부한 도면을 참조하여 각각의 모듈에 대해 상세하게 설명하고자 한다.

도 5는 도 3의 모듈 중 첫 번째 자료 수집 모듈(Data Collection Module)을 실행하기 위한 시스템 구성을 나타낸 도면이다.

상기 구성에서, 자료수집 모듈은 자료수집을 위한 서치엔진과, 사용자 인터페이스, 특허문서 데이터베이스를 포함한다.

신기술 개발에 활용되는 자료는 도처에 산재하여 있기 때문에 풍부한 자료를 다양한 채널을 통해 수집하는 것이 중요하다. 본 발명에서 공백 기술을 도출하기 위해 이용하는 자료는 특허 자료이며 이것은 인터넷 및 분산된 데이터베이스로부터 수집된다. 본 시스템은 문서를 토대로 하여 특허 지도를 작성하는 것이므로 프로그램에서 이를 분석하기 위해서는 자료 형태가 전자 포맷 (Electronic format)이어야 한다.

상기 서치 엔진(Search Engine)을 통해 한국 특허청(KIPO: Korea Intellectual Property Organization)이나 미국 특허청(USPTO: United States Patent and Trademark Office)등과 같이 공공적 성격을 가지고 있는 데이터베이스에 접속하여 하이퍼텍스트 전송프로토콜(HTTP: Hypertext transfer Protocol) 형태나 텍스트 파일 형태(.txt)의 특허 문서들을 다운로드 받는다. 이것은 특허 문서 데이터 베이스(Patent Document DB)에 저장이 된다. 사용자는 인터페이스를 통해서 특허자료를 검색, 저장을 할 수 있다.

도 6은 도 3의 모듈 중 두 번째 자료 변환 모듈(Data Transformation Module)에서 텍스트 마이닝(Text Mining)을 실행하기 위한 시스템 구성을 설명하고 있다.

상기 자료변환 모듈은 텍스트 마이닝 엔진, 사용자 인터페이스, 특허문서 데이터베이스, 특허 주제어 데이터 베이스를 포함한다.

도 6을 참조하면, 두 번째 모듈인 자료 변환 모듈 (Data Transformation Module)에서는 텍스트 파일 형태로 되어 있는 특허 자료를 특허 문서에 포함되어있는 주제어를 이용하여 벡터로 전환한다.

텍스트 형태로 되어 있는 자료는 구조화되어 있지 않은 자료(unstructured data)이므로 이를 토대로 특허들을 2차원 평면상에 위치시켜 특허 지도를 작성하기에는 부적당하다. 따라서 각 특허 문서들은 텍스트 마이닝(Text Mining) 엔진에 의해 벡터 형태를 가지는 구조화된 자료(structured data)로 전환된다. 텍스트 마이닝은 문서들로부터 주제어를 도출할 수 있는 도구이며 이 주제어들을 통해 각 문서들의 주제어 벡터를 구할 수 있다. 본 발명에서는 문서의 벡터화를 자동화하기 위해 주제어 벡터 생성 엔진(Keyword Vector Construction Engine)을 개발하였다. 각 특허들의 특성을 설명하는 주제어 벡터들은 특허 주제어 벡터 데이터베이스 (Patent Keyword Vector DB)에 입력된다.

도 7은 도 3의 모듈 중 두 번째 자료 변환 모듈 중에서 주제어 벡터 생성 프로그램에 의한 문서의 벡터화를 실행하기 위한 시스템 구성을 설명하고 있다.

상기 자료변환 모듈은 주제어 벡터엔진, 사용자 인터페이스, 특허 주제어 인터페이스, 특허 주제어 벡터 데이터베이스를 포함한다.

도 8은 도 3의 모듈 중 세 번째 특허 지도 작성 모듈(Patent Map Generation Module)을 실행하기 위한 시스템 구성을 설명하고 있다.

상기 특허 지도 작성 모듈은 PCA엔진, 사용자 인터페이스, 특허 주제어 벡터 데이터베이스, 특허 지도 데이터베이스를 포함한다.

텍스트 마이닝에 의해 도출된 주제어 벡터는 다차원이기 때문에 이 수준에서 의미를 찾아내는 것은 불가능하다. 따라서 이 모듈에서는 다차원을 2차원으로 감소함으로써 특허들을 시각화할 수 있을 것이다.

이를 담당하는 것이 도 8에서의 PCA 엔진이다. 이 분석은 다양한 변수들(X₁, X₂,..., Xp )이 관측될 때, 이 변수들이 가지고 있는 전체 정보를 최대한 보유할 수 있는 적은 수의 새로운 변수들을 생성하여 전체 자료의 구조를 파악하기 쉽게 하는 방법이다. 다시 말해, PCA는 원래의 변수들이 가지고 있는 정보의 양을 가장 많이 확보하는 순서대로 변수들의 선형결합을 이용하여 새로운 변수를 구하는 과정이다. 가령, p개의 변수(X₁, X₂,..., Xp )는 선형결합에 의하여 다음과 같이 k개(k<p)의 변수로 변환될 수 있다.

.............

이때 중요한 것은 새로 생성된 변수들 중에서 어떤 변수를 우선적으로 택하며 몇 개의 변수를 선택하여 특허 지도를 작성할 것인가 하는 점이다. 즉, k의 결정이 중요한 사안이며 본 발명에서는 PCA의 결과 도출된 고유값(eigenvalue)을 기준으로 주요인의 갯수를 선택하였다. 각 주요인은 고유값은 가지고 있으며 이 수치는 원래 자료의 정보를 보유하는 정도를 표시하는 값이라고 해석할 수 있다. 따라서 높은 고유값을 갖는 Yk 를 새로운 변수에 포함시키게 된다. 본 발명에서는 기본적으로는 4개의 주요인을 택하도록 시스템을 설계하며 이는 사용자에 목적에 의해 조정될 수 있도록 하였다. 만약 시스템이 지정한 대로 4개의 주요인을 택하여 특허 지도를 작성하게 된다면 4개에서 2개씩을 조합하여 6개의 특허 지도가 사용자에게 제공될 것이며 사용자는 각 지도를 분석하여 공백 기술을 다양한 각도에서 도출할 수 있다. 작성된 지도들은 특허 지도 데이터베이스(Patent Map DB)에 저장되기 때문에 이미 분석되어 있는 지도를 참고할 수 있으며 다양한 자료에 대한 지도를 비교, 분석할 수 있을 것이다. 도 8은 이 모듈에서의 시스템 구조도를 설명하고 있다.

도 9는 도 3의 모듈 중 네 번째인 특허 공백 발견 모듈(Patent Vacuum Identification Module)을 실행하기 위한 시스템 구성을 설명하고 있다.

상기 특허 공백 발견 모듈은 공백 발견엔진, 사용자 인터페이스, 특허맵 데이터 베이스, 특허 공백 데이터베이스를 포함한다.

특허 정보를 바탕으로 작성된 특허 지도는 특정한 방법에 의해 해석, 분석되어야 의미를 지닐 수 있다. 본 발명은 특허 지도에서 신기술 개발을 위한 공백을 찾아내는 기능을 지니고 있다. 이를 위해 사용자는 특허 지도에서의 특허들의 분포를 파악하여 직접 몇 개의 공백을 지정하게 된다. 이 때, 사용자가 지도에 몇 개의 점을 찍으면 시스템은 그 점들을 연결시켜 자동적으로 공백의 영역을 생성하게 된다. 이렇게 생성된 공백들은 특허 지도에 대한 정보와 함께 특허 공백 데이터베이스(Patent Vacuum Database)에 저장되게 된다.

도 10은 도 3의 모듈 중 다섯 번째인 특허 유효성 조사 모듈(Vacuum Validity Test Module)을 실행하기 위한 시스템 구성을 설명하고 있다.

상기 특허 유효성 조사 모듈은 공백 유효성 조사 엔진, 사용자 인터페이스, 특허공백 데이터베이스, 특허 인용 데이터베이스, 특허 정보 데이터 베이스를 포함한다.

특허 공백 발견 모듈에서 도출된 공백들은 그 유효성을 보장할 수 없다. 다시 말해, 현재까지 개발되지 않은 기술 영역 중에는 유망한 미래의 기술도 있지만 개발할 만큼 의미를 지니지 못했기 때문에 개발이 되지 않았고 미래에 사장될 영역도 존재하기 때문이다. 따라서 이 모듈에서는 특정한 분석에 의해 의미 있는 공백을 찾아내도록 시스템이 지원하게 된다. 그 방법은 공백을 둘러싸고 있는 특허들의 특성을 특허 인용 관계에 기초한 분석과 특허의 권리 청구 범위, 지도상에서 나타나는 밀도 등을 활용하여 공백을 평가하게 된다. 이를 위해 특허 인용 데이터베이스 (Patent Citation Database)와 특허의 다양한 정보를 가지고 있는 특허 정보 데이터베이스(Patent Information Database), 특허 공백 데이터베이스와 연동하여 자료를 입력하고 출력하게 된다.

도 4는 본 발명의 프로세스를 처리하기 위한 공백 기술 발견 시스템의 전체적인 구성을 나타낸 도면이다.

도 4를 참조하면, 공백 기술 발견 시스템은 각 모듈을 구현하기 위해 각각의 엔진(Search Engine, Text Mining Engine, Keyword Vector Engine, PCA Engine, Vacuum Engine, Validity Test Engine)이 존재하며, 이들은 각각의 데이터베이스(Patent Document DB, Patent Keyword DB, Patent Keyword Vector DB, Patent Map DB, Patent Vacuum DB, Patent Citation DB, Patent Information DB)와 연동 된다. 결론적으로 본 발명에서의 공백 기술 발견 시스템은 개인용 컴퓨터에서 실행될 수 있도록 한 소프트웨어로서 내부적으로는 6개의 엔진을 가지고 있고 특허에 관련된 다양한 데이터베이스가 필수적이다. 그러나 모든 과정이 자동화되는 것은 아니며, 중간 과정에서 인터페이스를 통해 사용자와의 상호작용이 반드시 필요하다.

이하, 첨부된 도면을 참고하여 본 발명의 공백 기술 조사방법에 대해 설명한다.

도 11은 자료 수집 모듈의 적용 과정을 나타내는 플로어차트이다.

상기 과정에는 관련기술을 입력하는 단계, 자료를 검색하는 단계, 검색 자료의 정리 단계, 관련문서 다운로드 단계, 파일 형식 변환단계, 데이터베이스화 하는 단계, 저장된 자료에 대한 정보 전달 단계를 포함한다.

도 11을 참조하면, 사용자가 서치 엔진을 통해 관심 대상이 되는 관련 기술을 입력하게 되면, 이 엔진이 분산되어 있는 특허 데이터베이스에 접속하여 해당 기술에 관련된 문서를 검색한다. 사용자에게 검색된 결과를 정리하여 그 정보를 제시하고 사용자가 확인 버튼을 누르면 자료를 다운로드하여 저장한다. 따라서 서치엔진은 네트워크로 각 기관에서 제시하는 특허 데이터베이스와 연결되어야 한다. 다운로드된 문서는 자료의 포맷이 대부분 하이퍼텍스트(HTML) 문서이거나 텍스트 문서로서 이들은 텍스트 마이닝에 적절한 문서 형태를 취하고 있어야 한다. 본 발명에서의 시스템은 컴퓨터에서 판독 가능한 전자 문서(electronic document) 형태로 되어 있는 특허 문서들만을 분석할 수 있으며 확장자는 모두 txt여야 한다. 만약 하이퍼텍스트 형태나 이미지 파일(pdf), 문서 파일(doc, hwp) 등의 형태로 구성되어 있다면 본 시스템에 적용하기 위해 텍스트 포맷의 파일로 변환되어야 한다. 특허출원번호는 제한된 공간에 시각화하기에는 길이가 길고 복잡하여 혼란을 줄 수 있으므로 출원연도를 기준으로 순서대로 번호를 다시 부여하며, 이 정보는 원래의 번호와 함께 저장하여 본래의 정보를 상실하지 않도록 한다. 따라서 수집된 모든 특허 문서들은 새롭게 부여된 일련번호가 부가되어 2차원 평면에 시각화하는데 적절한 포맷으로 특허 문서 데이터베이스에 저장된다.

도 12는 자료 변환 모듈에서의 작용 과정을 설명하는 플로어차트이다.

상기 과정에는, 문서를 호출하는 단계, 문장에서 부수적인 단어를 제거하는 단계, 각 단어에서 어근을 분리하는 단계, 어근들의 출현 빈도수를 계산하는 단계, 주제어 결정을 위한 빈도수 수준을 결정하는 단계, 도출된 주제어 목록에 대한 정보를 제시하는 단계, 상기 정보를 데이터베이스화 하는 단계를 포함한다.

도 12를 참조하면, 우선 특허 문서 데이터베이스에 저장되어 있는 텍스트 자료들을 호출하여 메모리에 저장한다. 여기에서 텍스트 마이닝을 실행하면 앞서 호출된 특허 문서들로부터 주제어를 도출하게 된다. 주제어 도출은 다음과 같은 4단계의 과정을 통해 수행된다. 1단계는 부수적인 단어(supplementary word)의 제거이다. 영어에서의 정관사(a, the등)나 대명사(it, he등)는 주제어 선정에서 제외되어야 하는 부수적인 단어들이다. 2단계는 어근(word stem)의 구분이다. 문장을 구성하는 단어에는 접두사, 접미사 등이 결합되어 있으며 이들은 문장의 특성을 결정짓는 중심적인 역할을 하지 않기 때문에 접사들을 제거한 어근을 구분해내는 것이 필요하다. 3단계에서는 각 어근들의 출현 빈도를 계산한다. 여기에서는 각 문서에서 어근들이 출현하는 횟수를 계산함으로써 주제어 판단의 근거를 제시한다. 마지막 단계에서는 일정한 빈도 이상으로 출현하는 어근에 대해 주제어라고 판단할 수 있도록 하는 수치(threshold)를 사용자가 지정할 수 있도록 한다. 문서에서 출현하는 모든 단어를 주제어라고 할 수 없으며 이를 결정짓는 기준이 필요하다. 텍스트 마이닝 엔진은 이를 위해 사용자가 기준이 되는 수치를 입력하도록 요구하며, 사용자가 이를 지정하면 이 수치를 넘는 단어들을 주제어로 판명한다. 텍스트 마이닝 엔진은 사용자에게 분석 결과에 의해 도출된 주제어의 목록에 대한 정보를 제시하게 된다. 이 결과는 특허 주제어 데이터베이스에 저장된다.

도 13은 텍스트 마이닝에서 도출된 주제어를 토대로 각 특허 문서를 벡터화하는 주제어 벡터 엔진을 설명하는 플로어차트이다.

상기 과정은, 주제어를 호출하는 단계, 문서를 호출하는 단계, 각 문서에서 주제어 출현 빈도수를 계산하는 단계, 문서들의 벡터화 단계, 엑셀파일로 변환하는단계, 사용자에게 변환 결과를 통지하는 단계, 상기 결과를 데이타베이스화 하는 단계를 포함한다.

도 13을 참조하면, 우선 앞에서 정리되었던 특허 주제어를 데이터베이스로부터 호출하고 이를 적용시킬 특허 문서도 호출하게 된다. 각 문서에서 주제어들이 출현하는 빈도를 계산한 뒤, 이 수치들을 활용하여 각 문서들을 벡터화하게 된다. 이 벡터 정보는 엑셀 파일로 변환되어 사용자에게 그 결과에 대한 정보를 제공하게 된다. 즉, 분석 대상이 되는 특허들은 문서 포맷으로부터 주제어에 의해 구조화된 자료로 변환되며, 주제어 벡터의 필드에는 각 문서에서 특정 주제어가 출현하는 빈도수가 입력된다.

도 14는 각 특허가 문서로부터 벡터로 바뀐 예시를 보여주는 것으로서 특허 번호는 출원연도를 기준으로 순서대로 새로 붙여진 것이다.

도 14를 참조하면, 1번 특허 문서는 첫 번째 주제어가 92번, 두 번째 주제어가 43번, 마지막 주제어가 18번 출현한다는 것을 보여주고 있다.

도 15는 주제어를 활용하여 문서를 벡터로 변환하는 주제어 생성프로그램을 설명하는 도면이다.

도 15를 참조하면, 도시된 소프트웨어는 본 발명이 위와 같은 과정을 수행할 수 있도록 개발된 것으로서, 주제어 리스트와 검색 문서를 선택하면 각 문서에 대해 주제어 출현 빈도를 계산하여 결과를 엑셀 파일로 정리, 저장한다. 모든 문서는 이 프로그램에 의해 문서에서 벡터로 변환되며 이 정보는 특허 주제어 벡터 데이터베이스에 저장된다.

도 16은 다차원의 특허들의 벡터는 사용자가 특허들의 전체적인 구조를 파악할 수 없게 만들기 때문에 차원의 수를 감소시켜 2차원 평면으로 시각화하는 과정을 나타낸 플로어차트이다.

상기 과정은, 주제어 벡터를 호출하는 단계, 주요인 개수를 결정하는 단계, PCA의 세부 파라미터를 결정하는 단계, PCA결과에 대한 정보를 정리하는 단계, 도출된 주요인을 조합하는 단계, 2개씩 주요인을 축으로 하는 특허 지도의 작성 단계, 사용자에게 작성된 지도를 제시하는 단계, 상기 지도를 데이터베이스화하는 단계를 포함한다.

도 16을 참조하면, 세 번째 모듈인 특허 지도 작성 모듈에서는 우선 앞에서 얻어진 특허 주제어 벡터를 호출한다. 사용자로부터 주요인 개수를 입력받은 후에는 PCA에 필요한 다양한 파라메터들을 결정하게 된다. 요인 회전 방법이나 임계값 설정을 사용자가 필요한 경우 입력하게 된다. 모든 파라메터들이 결정되면 PCA를실행하게 되며 그 결과를 정리하여 사용자에게 제시한다. 도출된 주요인들을 사용자가 확인하고 난 후, 주요인들을 조합하여 2개씩의 주요인을 축으로 하는 특허 지도를 작성하게 된다. 본 발명은 기술 공백 조사를 통한 신기술 개발이 목적이므로 단순히 1개의 특허 지도를 작성하는 것이 아닌, 다수의 특허 지도 개발을 통해 경영자나 기술자들이 다양한 관점에서의 신기술 개발의 아이디어를 착안할 수 있도록 설계하였다. 특허 지도 작성에 대한 결과가 정보가 사용자에게 제시되고 사용자가 이를 확인하면 각 특허 지도는 특허 지도 데이터베이스에 저장된다.

도 17은 특허 지도로부터 공백을 찾아내는 과정을 설명하는 플로어차트이다.

상기 과정은, 특허지도를 호출하는 단계, 사용자가 공백지역의 외곽 점을 입력하는 단계, 입력된 점으로부터 공백 영역을 연결하는 단계, 공백 영역에 속한 특허들을 정리하는 단계, 사용자에게 각 공백별로 포함된 특허들의 정보를 제시하는 단계, 상기 정보를 데이타베이스화하는 단계를 포함한다.

도 17을 참조하면, 우선 특허 지도 데이터베이스에서 특허 지도를 호출하고 난 뒤, 사용자에게 특허 공백 부분을 지도상에 표현하게 한다. 사용자가 공백이라고 추측되는 부분에 몇 개의 점을 찍으면 공백 엔진이 입력된 점들을 연결하여 공백 영역을 구분 짓는다. 공백이 발견되고 나면 여기에 속한 특허들을 공백별로 정리하게 된다. 이는 다음 모듈에서 특허 공백들의 중요도를 판단하기 위해 활용될 것이다. 공백에 속하는 특허들은 이 영역의 내부에 존재하거나 이 경계선에서 O.1정도의 거리를 두고 위치하고 있는 모든 특허들을 말한다. 위의 수치는 사용자의 판단에 의해 수정될 수 있도록 설계하였다.

도 18은 의미 있는 공백 기술을 찾기 위한 모듈의 흐름을 도시한 플로어차트이다.

상기 과정은 공백 정보를 호출하는 단계, 특허 인용 데이터베이스와 특허 정보 데이터베이스로부터 자료를 호출하는 단계, 공백별로 포함된 특허들의 인용, 권리 청구 범위를 정리하는 단계, 공백을 둘러싼 특허들의 중요도를 도출하는 단계, 각각의 분석 기준으로 공백별 중요도를 계산하고 정리하는 단계, 사용자에게 중요한 공백을 제시하는 단계, 상기 자료를 데이터베이스화 하는 단계를 포함한다.

도 18을 참조하면, 마지막 모듈은 특허 공백 발견 모듈에서 도출된 공백 중에서 신기술 개발에 활용될 수 있는 유망한 기술을 평가하는 것이다. 우선 앞에서 발견된 공백을 호출하고 각각의 데이터베이스로부터 특허들의 인용정보나 권리 청구 범위 등과 같은 다양한 자료도 입력받는다. 본 모듈에서는 공백의 중요성을 비교하기 위해 인용 분석, 권리 청구 범위 분석, 밀도 분석을 활용한다. 인용 분석에서는 피인용 횟수를 활용하여 특허의 상대적 중요도를 측정하며, 특허가 가지고 있는 권리 청구 범위도 그 항목이 늘어날수록 특허의 깊이나 범위가 증가하고 특허의 가치는 커지기 때문에 유용한 자료로 이용된다. 또한, 특허 지도에서의 공백의 밀도(공백에 속한 특허 수/공백의 크기)가 커질수록 해당 공백의 중요도는 상대적으로 크다고 할 수 있다. 따라서 시스템은 각 공백의 평균 피인용수, 평균 권리 청구 항목 수, 밀도를 계산하여 사용자에게 제공하게 되고 사용자는 공백 기술이라고 생각되는 부분을 택하게 된다. 이 과정에서 도출된 모든 정보는 특허 공백 데이터베이스에 저장되게 된다.

도 19는 실제 데이터를 활용하여 작성한 특허지도에 도출된 기술 공백을 도시한 결과를 예시한 것이다.

도 20은 본 발명의 시스템 중, 이 모듈을 구현한 부분을 실제 데이터를 통해 예시하는 화면이다.

의미 있는 공백은 분석 기준에 따른 중요도 정보를 활용하여 도출될 수 있을 것이다.

본 발명은 특허 문서에 내재된 기술적 특성들을 고려하여 특허 지도를 개발하고 이를 통해 의미 있는 기술의 공백을 발견함으로써 신기술 개발에서의 의사 결정을 지원할 수 있다.

상술한 바와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

데이터 처리를 위해 컴퓨터를 이용하는 특허공백기술 조사 시스템에 있어서,

사용자가 검색어를 입력시킬 수 있는 입력장치;

네트워크를 통해 특허 데이터베이스에 접속하여 입력된 검색어를 포함하는 문서를 검색하고 기억장치에 이를 다운로드하여 데이터베이스화하는 프로그램화된 자료 수집 모듈;

데이터베이스로부터 문서를 호출하여 메모리에 저장하고, 호출된 특허 문서들로부터 주제어를 도출하고 이를 벡터화하여 기억장치에 데이터베이스화하는 프로그램화된 자료 변환 모듈;

주제어 벡터의 차원을 요구되는 수준에 따라 감소시키는 프로그램화된 차원 감소 모듈;

벡터화된 데이터로부터 소정의 지도 작성 알고리즘을 이용해 지도를 제작하여 모니터에 디스플레이하는 프로그램화된 지도 생성 모듈;

작성된 지도를 바탕으로 특허 기술의 공백부분의 정보를 찾아내는 특허 공백 발견 모듈;

찾아낸 특허 공백의 정보를 비교, 판단하여 유효성을 제시하는 공백 유효성 조사 모듈;

상기 정보를 저장하기 위한 기록매체와,

상기 결과를 디스플레이하기 위한 출력장치를 포함하는 것을 특징으로 하는특허공백기술 발견 시스템.
(a) 인터페이스를 통해 검색어를 입력하는 단계와,

(b) 검색 수단이 네트워크를 통해 특허 데이터베이스에 접속하여 상기 검색어를 포함하는 문서를 검색하고 이를 기억장치에 다운로드 하여 데이터베이스화하는 단계와,

(c) 데이터베이스화된 상기 (b) 단계의 문서를 호출하고 호출된 특허 문서들로부터 주제어를 도출하며 이를 벡터화하여 기억장치에 데이터베이스화하는 단계와,

(d) 벡터화된 데이터를 호출하여 주요인을 도출하고 소정의 개수를 조합하며 조합된 주요인을 축으로 하는 특허 지도를 작성하고 디스플레이 하며 기억장치에 데이터베이스화하는 단계와,

(e) 상기 작성된 지도를 호출하여 공백부분을 지정하면 공백부분을 정리하여 공백별로 포함된 특허들의 정보를 제시하고 기억장치에 데이터베이스화하는 단계, 및

(f) 상기 공백부분의 특허를 소정의 분석 기준에 의해 공백별 중요도를 계산하고 제시하며 이를 기억장치에 데이터베이스화하는 단계를 포함하는 것을 특징으로 하는 특허공백기술 발견방법
제 2항에 있어서, 상기 (b) 단계는

기억장치에 문서를 다운로드하여 문서를 소정의 형식으로 변환하는 단계를 포함함을 특징으로 하는 특허공백기술 발견방법.
제 2항에 있어서, 상기 (c) 단계의 주제어 도출은

(c1) 부수적 단어를 제거하는 단계와,

(c2) 접사를 배제하고 어근을 분리해 내는 단계와,

(c3) 분리된 어근의 출현 빈도를 미리 정해진 문턱값과 비교하는 단계, 및

(c4) 문턱값을 넘은 어근을 주제어로 판단하는 단계를 포함함을 특징으로 하는 특허공백기술 발견방법.
제 2항에 있어서, 상기 (d) 단계는

주제어를 도출하여 벡터화를 수행한 후 고유값에 의해 차원을 감소시키는 단계를 추가로 포함함을 특징으로 하는 특허공백기술 발견방법.
제 2항에 있어서, 상기 (e) 단계는 사용자가 공백 영역을 직접 지정하는 것을 특징으로 하는 특허공백기술 발견방법.