KR101278135B1

KR101278135B1 - 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법

Info

Publication number: KR101278135B1
Application number: KR1020110041329A
Authority: KR
Inventors: 박용태; 이창용; 조양래
Original assignee: 서울대학교산학협력단
Priority date: 2011-05-02
Filing date: 2011-05-02
Publication date: 2013-06-27
Also published as: KR20120123784A

Abstract

확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법이 개시된다. 특허의 인용 데이터를 추출하는 데이터 수집부, 상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함하는 특허 인용 행렬을 생성하는 인용 행렬 구축부 및 상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 상기 특허의 미래 인용수를 추정하는 데이터 처리부를 포함하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치는 인용 패턴에 기반하여 특허 진부화율을 고려함으로써 특허 검색 시스템에서 새로운 검색 방법으로 활용할 수 있으며, 인용 시점을 고려하여 미래의 특허 가치를 평가하기 위한 통계적 분석을 수행할 수 있다.

Description

확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법{Apparatus and method for assessing future impacts of patents based on stochastic patent citation analysis}

본 발명은 서비스 시스템에 관한 것으로, 특히 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법에 관한 것이다.

기술 예측은 미래의 기술 변화에 대한 전망을 가능하게 한다. 기술 변화로 인한 영향력은 국가마다 다르지만, 일반적으로 기업들은 그들의 경쟁분야에서 기술 변화를 파악하고 선도함으로써, 이익 창출의 기회를 마련한다. 한편, 많은 연구 결과를 통해 확인된 것처럼, 기술 변화에 부적절하게 대응하면 오래 지속되던 회사도 쇠퇴할 수 있다. 따라서 기술 변화에 대한 적절한 예상 및 예측은 우선순위 설정, 자원 할당 및 위험 감소와 같은 경영 문제에 있어서 의사결정을 돕는데 매우 중요하다.

최근에, 기술이 더 빠르고 복잡하게 발전하며 경쟁이 더욱 심화되면서, 기술 예측 또한 전략적으로 더욱 중요해졌다. 그 결과, 기술 예측 과정을 공식화하기 위해 적절한 모형, 방법 및 툴(tool)을 사용한 다양한 시도가 이루어지고 있다.

기술 변화와 혁신 과정은 종래 및 새로운 기술들을 결합하는 메커니즘에 기반한 프로세스로 여겨진다. 이는 분리된 기능보다는 상호 연결된 기술들의 복잡한 기능에 의존하는데, 이러한 점에서 현재 기술 중에서 미래의 기술 변화를 주도할 기술을 예측하는 것은 매우 중요하다.

기술 예측에서 중요한 가정들은 크게 두 가지를 들 수 있는데, 현재의 기술 성장은 다가오는 기술 변화의 전조가 된다는 것과 이러한 기술 변화는 관련 기술에 의해 영향을 받을 것이라는 것이다. 현재 기술 성장이 미래 기술에 어떠한 영향을 미칠 것인가를 이해하는 것은 기술 예측에서 가장 중요한 작업 중 하나인데, 이는 다른 활동들에 직접적인 영향을 미치기 때문이다. 이러한 배경 하에서 미래 기술 영향을 평가하기 위한 시스템적 접근 방법을 개발하는 것은 전략적 의사 결정에 도움을 주는 중요한 정보를 주기 위해 반드시 필요하다.

미래 기술 영향을 평가하는 것은 미래에 대한 불확실성, 신뢰할 수 없는 데이터 및 현실적인 피드백의 복잡성 등과 같은 어려움 때문에, 본질적으로 매우 다루기 힘든 작업이다. 이러한 불확실성을 줄이고, 의사 결정 과정을 지원하기 위한 몇 가지 기법이 고안되어 왔지만, 종래의 방법들은 서로 다른 목적에서는 유용하지만, 분석 결과가 데이터 소스에 강하게 의존한다는 한계점을 가지고 있다.

이러한 한계점을 극복하기 위해 기술 데이터베이스 및 혁신적인 계산 알고리즘 등이 도입되었다. 이는 환경 조사, 기술 로드맵, 계량서지학적 분석 및 창의적 문제 해결 이론과 같이 매우 강력하고 설득력 있는 기술 예측의 개발을 촉진하였는데, 이 가운데 특허 인용 분석은 기술 영향에 대한 개념적 및 경험적 분석을 위해 가장 많이 채택되는 방법 중에 하나이다.

특허 인용 분석의 기본적인 개념은 어떤 특허가 다른 특허를 인용하는 경우 두 특허간 기술적 연결 관계가 존재한다는 것이다. 전통적으로 특허 인용 분석은 기술 변화에 대한 개념적이고 질적인 분석 수요를 충족시켜줄 유일한 기회를 제공할 뿐만 아니라, 경험적으로도 기술 혁신의 대부분을 설명하고 있다고 인식되어 왔다.

이러한 특허 인용 분석은 기술 예측에 대한 시스템적이면서 경험적인 분석을 가능하게 한다는 측면에서 강점이 있지만, 과거 경향이 미래에도 같이 나타난다고 가정해야 하는 한계점을 가지고 있으며, 이러한 한계점은 결국 특허 인용 분석 결과가 기술 영향의 변화를 적절히 반영하지 못하게 한다.

그러므로 특허 인용 분석 결과는 유효성 측면에서 심각한 도전에 직면하게 되며, 이는 빠르게 변하는 기술분야에서 더욱 두드러진다. 즉, 특허가 내포하는 가치가 조직의 기술 개발 상황에 따라 달라지는 것과 마찬가지로 기술 영향이 개별 기술마다 특유하게 나타나게 되는데, 이러한 기술 영향은 불안정하며, 개별 기술의 수명에 따라 동적으로 변하는 특징을 가지고 있다. 종래의 특허 인용 분석은 상기 요소들을 고려할 수 없는 결정론적 방법이지만, 이러한 방법은 불확실성이 높은 기술 예측 분야에 적합하지 않다. 이에 따라 결정론적 방법보다는 확률론적 예측 방법이 많이 적용되고 있으나, 이러한 방법 또한 정확성에 대한 의심은 끊임없이 제기되고 있는 상황이다.

모든 기술 정보의 80% 정도가 특허 공보에서 발견되는 것처럼, 특허는 기술 및 상업 지식의 핵심으로 간주되고 있다. 이러한 점에서, 기술 예측 분야에서 특허를 기술에 대한 대용지표로 간주하는 특허분석은 중요한 분석 툴로서 사용되어 왔다.

특허 분석의 가장 일반적인 방법은 간단히 특허의 수를 세고 각 집단, 예를 들면, 국가, 회사 또는 특정 기술분야 등에 특허가 얼마나 있는지 비교하는 방법이다. 하지만, 특허 가치가 매우 왜곡된 상태로 분포되어 있기 때문에, 간단히 특허 수에 기반하여 중요성을 판단하는 것은 많은 경우에 있어서 매우 편협할 수 있으며, 집단 간의 영향 또는 연결 관계를 반영하지 못한다는 문제점이 있다.

한편 특허 간의 인용 정보는 특허 분석에서 매우 중요한 정보로 사용되어 왔다. 이러한 인용 정보를 이용하면 다양한 측면에서 특허 분석의 활용이 가능한데, 특허 인용 분석 기법은 기술 변화의 개념적 및 질적 분석을 가능하게 하며, 경험적으로도 기술 혁신의 많은 측면을 설명할 수 있다고 인정받는다.

최근에, 혁신 프로세스가 점점 복잡해지고, 혁신 주기가 더 짧아지며, 시장 수요가 점점 불안해짐에 따라, 특허 인용 분석의 전략적 중요성은 더욱 명확해지고 있다. 특허 인용 분석이 기술 가치 평가 및 보급을 위해 자주 사용된 이유는 다음과 같다.

첫째, 기술적 중요성이라는 관점에서, 특허 인용 수는 특허의 양적 및 질적인 중요성을 반영한다. 이와 관련하여 더 자주 인용되는 특허가 기술적 경제적으로 더욱 높은 가치를 가진다는 점은 기존의 많은 연구들에서 입증되었다. 또한 기업, 기관 또는 국가의 기술 경쟁력을 비교 평가하는 경우에도 이와 같은 특허 인용 수가 많이 활용되어 왔다.

둘째, 지식 보급의 관점에서, 특허 인용 정보를 행위자간 지식 흐름의 대용지표로서 활용한 연구가 많이 존재한다. 이러한 연구들의 경우, 특허와 관련된 공동발명, 인용 및 과학적 활동을 조사함으로써, 이에 대한 경제적 모형을 개발하였다. 이러한 특허 인용 정보는 다양한 레벨, 예를 들면, 국가, 산업, 회사 및 기술 레벨 등에서 지식 흐름을 조사하기 위해 활용되어 왔다.

또한, 특허 인용은 과학에서 기술로, 기술에서 과학으로 지식이 전파되는 프로세스에 대한 지표로 여겨져 왔으며, 이에 따라 간단한 빈도수뿐만 아니라 인용-피인용 정도 및 연결관계, 기술 범위 및 기술 주기와 같은 지표가 개발되어 왔다.

하지만 많은 관련 연구에서 기술 예측을 위한 특허 인용 분석의 한계점이 지적되고 있다.

첫째로, 이러한 분석은 과거 경향이 미래에도 동일하게 나타난다고 가정한다. 이러한 이유 때문에, 특허 인용 분석은 급변하는 기술분야에서 특히 정확성이 약한 문제점이 있다.

둘째로, 첫 번째 한계와 관련하여, 인용하는 시점을 고려하지 못한다는 문제점도 존재한다. 특히 특허 인용 분석에서 결정된 결과는 미리 설정된 기간에 높은 의존도를 보이는데, 이러한 설정 기간은 연구자의 주관적인 판단에 의해 정해진다는 한계점도 가지고 있다. 마지막으로, 기존의 어떠한 특허 인용 분석도 기술 영향의 변화를 정량적으로 분석할 수 없다는 문제점을 들 수 있다.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 발명은 미래 시점의 특허의 기술적 가치 평가를 위한 특허 정보의 수집, 가공, 평가에 이르기까지 자동화된 방법 및 그 시스템을 제공하여 시간적, 경제적 비용을 절감할 수 있는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법을 제공하기 위한 것이다.

또한, 본 발명은 기존 특허 인용 분석 방법론들과 차별적으로 시계열적, 확률론적 분석 방법을 채택하고 특허들 간의 이질성을 분석에 반영함으로써 분석 모형의 타당성을 높였으며, 도출되는 결과는 미래 시점의 핵심 특허에 대한 사전적인 평가 및 관리를 가능하게 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법을 제공하기 위한 것이다.

또한, 본 발명은 인용 패턴에 기반하여 특허 진부화율을 고려함으로써 특허 검색 시스템에서 새로운 검색 방법으로 활용할 수 있으며, 인용 시점을 고려하여 미래의 특허 가치를 평가하기 위한 통계적 분석을 수행하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법을 제공하기 위한 것이다.

본 발명이 제시하는 이외의 기술적 과제들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.

본 발명의 일 측면에 따르면, 특허의 인용 데이터를 추출하는 데이터 수집부, 상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함하는 특허 인용 행렬을 생성하는 인용 행렬 구축부 및 상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 상기 특허의 미래 인용수를 추정하는 데이터 처리부를 포함하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치가 제시된다.

여기서, 상기 데이터 수집부는, 입력되는 분석 대상 기술분야에 상응하는 상기 특허가 저장된 특허 데이터베이스로부터 상기 인용 데이터를 추출하거나 또는 상기 특허의 특허 문서로부터 데이터 구문분석 기법을 이용하여 상기 인용 데이터를 추출할 수 있다.

또한, 상기 특허 인용 행렬은 현재를 기준으로 가장 최근 상기 특허가 인용된 단위 기간인 최신인용시점을 포함할 수 있으며, 상기 특허가 인용된 상기 단위 기간의 빈도수인 인용시점빈도를 포함할 수도 있다.

여기서, 상기 데이터 처리부는, 상기 특허의 인용이 발생하는 상기 미래 시점에 대한 단위 기간의 빈도수를 추정하는 빈도수 추정부, 상기 특허가 상기 단위 기간당 인용되는 예상 평균 인용수를 추정하는 인용수 추정부 및 상기 추정된 단위 기간의 미래 빈도수와 평균 인용수를 곱하여 상기 미래 인용수를 산출하는 미래 인용수 산출부를 포함할 수 있다.

여기서, 상기 빈도수 추정부는 상기 미래 시점에 특허의 인용이 발생하는 단위 기간의 빈도수를 하기 식에 의해 추정할 수 있다.

.

여기서, NTU(T, T+T^*)는 인용이 (T, T+T^*]에 발생할 단위 기간의 수, T와 T^*는 시간, x는 인용시점빈도, t_x는 최신인용시점, X는 인용 패턴,

,

,

, λ는 사건 비율, μ는 이탈율, α와 r은 사건 비율 λ에 대한 확률모형인 NBD 모형의 모수, β와 s는 이탈율μ에 대한 확률모형인 Pareto 모형의 모수,

는 시간이 경과함에 따른 사건 비율과 이탈율의 변화를 모형에 적용하기 위한 확률밀도함수가 될 수 있다.

또한, 상기 모수 α, β, r 및 s는 상기 특허의 최신인용시점과 상기 인용시점빈도를 이용하여 추정될 수 있다. 여기서, 상기 데이터 처리부는, 각 특허 별로 상기 인용 데이터를 관찰하는 기간을 설정하고, 상기 설정된 관찰 기간 동안 각 특허 별로 관찰된 인용시점빈도를 산출하며, 최대우도방법을 사용하여 곡선적합을 실시하고, 하기 식을 이용하여 상기 모수 α, β, r 및 s를 추정할 수 있다.

여기서, T는 설정된 관찰 기간,

는 산출된 인용시점빈도로 대체될 수 있다.

또한, 상기 인용수 추정부는 하기 식에 의해 상기 예상 평균 인용수를 추정할 수 있다.

.

여기서, E(C)는 예상 평균 인용수, p와 q는 gamma 분포의 형상모수, γ는 gamma 분포의 척도모수, c_x는 관측된 평균 인용수,

, c_x는 인용이 발생하는 x 단위 기간에 대한 평균 인용수, z_ij는 j번째 단위 기간에서 i번째 특허의 인용수이다.

여기서, 상기 p, q 및 γ는 상기 특허 인용 행렬에 포함된 인용수를 이용하여 추정될 수 있다. 여기서, 상기 데이터 처리부에서는, 분석 대상 특허의 z_ij데이터를 바탕으로 최소자승법에 의한 gamma-gamma 분포의 모수 p, q 및 γ를 추정할 수 있다.

또한, 본 발명의 다른 측면에 따르면, 특허의 인용 데이터를 추출하는 데이터 수집부, 상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함한 특허 인용 행렬을 생성하는 인용 행렬 구축부, 상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점에 대한 단위 기간의 빈도수를 Pareto/NBD 모형으로 추정하는 빈도수 추정부, 상기 특허가 상기 단위 기간당 인용되는 예상 평균 인용수를 gamma-gamma 모형으로 추정하는 인용수 추정부 및 상기 추정된 단위 기간의 미래 빈도수와 평균 인용수를 곱하여 상기 미래 인용수를 산출하는 미래 인용수 산출부를 포함하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치가 제공될 수 있다.

또한, 본 발명의 또 다른 측면에 따르면, 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치가 미래 유망 특허를 탐색하는 방법에 있어서, 특허의 인용 데이터를 추출하는 단계, 상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함하는 특허 인용 행렬을 생성하는 단계, 및 상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 상기 특허의 미래 인용수를 추정하는 단계를 포함하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법이 제공된다.

또한, 본 발명의 또 다른 측면에 따르면, 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법을 수행하기 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체가 제공된다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법은 미래 시점의 특허의 기술적 가치 평가를 위한 특허 정보의 수집, 가공, 평가에 이르기까지 자동화된 방법 및 그 시스템을 제공하여 시간적, 경제적 비용을 절감할 수 있다.

또한, 본 발명에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법은 기존 특허 인용 분석 방법론들과 차별적으로 시계열적, 확률론적 분석 방법을 채택하고 특허들 간의 이질성을 분석에 반영함으로써 분석 모형의 타당성을 높였으며, 도출되는 결과는 미래 시점의 핵심 특허에 대한 사전적인 평가 및 관리를 가능하게 한다.

또한, 본 발명에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법은 인용 패턴에 기반하여 특허 진부화율을 고려함으로써 특허 검색 시스템에서 새로운 검색 방법으로 활용할 수 있으며, 인용 시점을 고려하여 미래의 특허 가치를 평가하기 위한 통계적 분석을 수행할 수 있다.

도 1a는 본 발명의 실시예에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치의 블록 구성도.
도 1b는 본 발명의 실시예에 따른 데이터 처리부의 블록 구성도.
도 1c는 다른 인용 패턴을 가지는 특허에 대한 도면.
도 2는 본 발명의 실시예에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법의 흐름도.
도 3은 자주 인용된 상위 11개 특허들의 인용 패턴을 도시한 도면.
도 4는 본 발명의 실시예에 따른 1년 예측에 대한 적중률 분석 결과를 종래기술과 비교한 도면.
도 5는 본 발명의 실시예에 따른 3년 예측에 대한 적중률 분석 결과를 종래기술과 비교한 도면.
도 6은 본 발명의 실시예에 따른 5년 예측에 대한 적중률 분석 결과를 종래기술과 비교한 도면.
도 7은 본 발명의 실시예에 따른 특허 인용 행렬을 도시한 도면.
도 8은 디스플레이 기술에 대한 특허의 요약을 도시한 도면.
도 9는 본 발명의 실시예에 따른 특허 인용 행렬의 내용을 일부 도시한 도면.
도 10은 본 발명의 실시예에 따른 분기에 대한 평균 인용수에 대한 기술 통계 내용을 도시한 도면.
도 11은 본 발명의 실시예에 따른 모형 매개변수의 최대 가능 측정치를 도시한 도면.
도 12는 본 발명의 실시예에 따른 1년 예측 결과를 도시한 도면.
도 13은 본 발명의 실시예에 따른 3년 예측 결과를 도시한 도면.
도 14는 본 발명의 실시예에 따른 5년 예측 결과를 도시한 도면.
도 15는 본 발명의 실시예에 따른 상관 분석 결과를 도시한 도면.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

또한, 명세서에 기재된 "…부", "…모듈", "…수단" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1a는 본 발명의 실시예에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치의 블록 구성도이다. 도 1a를 참조하면, 미래 유망 특허 탐색 장치(100)는 데이터 수집부(110), 인용 행렬 구축부(120), 데이터 처리부(130), 제어 유닛(140)을 포함할 수 있다.

본 발명은 특허 기술의 가치를, 즉, 미래의 특허 기술 가치를 예측하기 위해서 특허가 인용되는 시점을 고려하여 인용 정보를 이용하는 특징이 있다. 즉, 본 발명은 특허가 과거에 인용된 패턴을 분석하고, 미래 시점에서 특허가 인용될 회수를 확률론적으로 산출하여 이를 기초로 특허 기술의 가치를 평가하는 특징이 있다.

본 발명에서 언급하는 인용 정보는 특정 특허가 다른 특허에 의해 인용될 때 발생하는 데이터로서, 인용 시점, 인용 회수 등을 포함할 수 있다.

본 발명은 미래 인용수를 대용지표로서 활용하여 관심기간에서의 미래 기술 영향을 평가할 수 있는 확률론적 특허 인용 분석 기법을 제시한다. 이를 위하여 필요한 것은 과거 인용 패턴에 기반한 확률론적 변수를 기술 영향의 동적이면서 특유한 특징들로 취급하는 것이다. 본 발명의 일 실시예에 따르면, 특허 인용 분석과, 행위자에 대한 미래 사건수를 확률론적으로 예측할 수 있는 Pareto/NBD(Negative Binomial Distribution) 모형을 통합함으로써 필요 사항이 얻어질 수 있다.

Pareto/NBD 모형의 강점은 무엇보다도 시간에 대한 사건의 흐름과 각 행위자의 이질성을 모형화하는 능력에 있다. 본 발명의 실시예에 따르면, 특허로부터 적용가능한 인용 데이터를 추출하고 그 모형의 입력과 출력을 재정의함으로써 Pareto/NBD 모형을 활용한다.

따라서 본 발명의 실시예에 따른 확률론적 특허 인용 분석은 종래의 특허 인용 분석에서 가정한 한계를 극복함으로서 기술 영향의 특유하고 동적인 특징들을 고려할 수 있다. 이러한 확률론적 특허 인용 분석은 현실과 잘 어울릴 수 있으며, 제안된 기법은 다양한 분야, 예를 들면, 협의의 특허 가치 평가 분야에서 넓게는 기술 분석 및 기획 분야까지 활용될 수 있다.

미래 유망 특허 탐색 장치(100)는 로컬 서버, 컴퓨터 단말기와 같이 사용자가 해당 장치에 연결된 입력 장치를 이용하여 조작할 수 있는 장치이거나 또는 유선 또는 무선 인터넷 상에서 사용자가 접근하여 조작할 수 있는 장치가 될 수 있다. 따라서 미래 유망 특허 탐색 장치(100)는 회사 또는 가정 내에 로컬로 구비되거나 외부 사용자가 접근 가능하도록 유선 또는 무선 인터넷에 연결될 수 있다.

데이터 수집부(110)는 특허의 인용 데이터를 추출한다. 여기서, 데이터 수집부(110)는 소정의 특허 데이터베이스로부터 인용 데이터를 추출하거나 또는 특허 문서로부터 인용 데이터를 추출할 수 있다.

특허 데이터베이스는 특허 문서 및 서지적 정보, 예를 들면, 출원일, 출원번호, 출원인, 등록일, 인용하는 발명, 인용되는 발명 등 다양한 정보를 저장하는 데이터베이스가 될 수 있다. 특허의 인용 데이터는 특허번호(출원번호, 공개번호, 등록번호와 같이 식별력 있는 번호), 일자(출원일, 공개일, 등록일과 같은 일자), 인용된 시점과 같은 정보를 포함할 수 있다.

데이터 수집부(110)는 사용자로부터 입력받은 기술분야, 특정 특허번호, 소정의 검색식, 특정 특허분류 등에 상응하여 해당 기술분야에 해당하는 특허번호, 특정 특허번호, 소정의 검색식에 의해 검색된 특허번호, 특정 특허분류(IPC, USPC, F-Term, ECLA 등)에 상응하는 특허번호를 추출하고, 해당 특허번호에 상응하는 인용 데이터를 추출할 수 있다.

또한, 데이터 수집부(110)가 특허 문서로부터 인용 데이터를 추출하는 경우 데이터 수집부(110)는 구문분석 기법을 이용하여 인용 데이터를 추출할 수 있다. 구문분석 기법은 다양한 방식이 있을 수 있으며, 예를 들면, 낱말 분석(lexical analysis) 결과로 만들어진 토큰들을 문법에 따라 분석하는 파싱(parsing) 작업을 수행하여 파싱 트리를 구성하는 방식이 될 수 있다. 본 발명에 따른 구문분석 기법은 특허 문서에서 인용(cited, citation, cite 등), 참조(reference, refer 등) 등과 같은 단어를 특허 문서에서 추적하고, 해당 단어와 연관된 구조에 기재된 인용 특허번호를 추출하여 인용 데이터를 추출할 수도 있다.

인용 행렬 구축부(120)는 추출된 인용 데이터를 이용하여 단위 기간별 특허의 인용수를 포함하는 특허 인용 행렬을 생성한다. 여기서, 단위 기간은 다양한 기간이 될 수 있으며, 예를 들면, 보름, 월, 반기, 분기, 년 등의 기간이 될 수 있다.

특허 인용 행렬은 특허번호, 일자, 각 특허가 인용된 단위 기간과 그 단위 기간에 인용된 횟수, 한 단위 기간에서 평균적으로 인용된 특허 인용수인 평균인용회수 등을 포함할 수 있다. 또한, 특허 인용 행렬은 현재를 기준으로 가장 최근에 특허가 인용된 단위 기간인 최신인용시점을 포함할 수도 있고, 특허가 인용된 단위 기간의 빈도수인 인용시점빈도를 포함할 수 있다.

데이터 처리부(130)는 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 특허의 미래 인용수를 추정한다. 여기서 미래 인용수는 해당 특허가 미래에 인용될 회수를 의미하며, 확률론적인 방법에 의해 추정된다.

데이터 처리부(130)는 도 1b에 도시된 바와 같이 빈도수 추정부(132), 인용수 추정부(134) 및 미래 인용수 산출부(136)를 포함할 수 있다.

빈도수 추정부(132)는 특허의 인용이 발생하는 미래 시점에 대한 단위 기간의 빈도수를 추정한다. 여기서, 빈도수를 추정하는 모형은 다양한 방식에 의해 구현될 수 있으며, 예를 들면, Pareto/NBD 모형이 될 수 있다. 빈도수 추정 방식에 대한 자세한 설명은 후술한다.

인용수 추정부(134)는 특허가 상기 단위 기간당 인용되는 예상 평균 인용수를 추정한다. 여기서, 단위 기간당 인용되는 예상 평균 인용수를 추정하는 모형도 다양한 방식에 의해 구현될 수 있으며, 예를 들면, gamma-gamma 모형이 될 수 있고 이에 대한 자세한 설명도 후술한다.

여기서, 후술할 모수 r, α, s 및 β은 특허의 최신인용시점과 인용시점빈도를 이용하여 추정되며, p, q 및 γ는 특허 인용 행렬에 포함된 인용수를 이용하여 추정될 수 있다.

미래 인용수 산출부(136)는 추정된 단위 기간의 미래 빈도수와 평균 인용수를 곱하여 미래 인용수를 산출한다. 제어 유닛(140)은 상술한 데이터 수집부(110), 인용 행렬 구축부(120), 데이터 처리부(130), 빈도수 추정부(132), 인용수 추정부(134) 및 미래 인용수 산출부(136)를 제어하여 상술한 기능이 효과적으로 수행될 수 있도록 한다.

최근, 계량서지학적 분석의 관심의 중심은 인용 데이터를 대용지표로 활용하여 진부화를 모형화하는 것이다. 가정에 얽매이지 않고 인용 분석의 한계를 극복할 수 있는 다양한 확률론적 모형들이 논문의 인용 정보를 분석하여 제안되고 있다. 종래 연구들은 참조 문헌의 시기 분포, 특정 논문에 대한 인용, 첫 번째 인용 분포, n번째 인용 분포 및 미래 인용 행위에 대한 분석들과 관련된다.

지금까지 광범위하게 많은 제안들과 주제(이슈)들이 제시되어 왔지만, 아직도 종래 통계학적 모형들을 특허 인용 분석에 적용할만한 상당한 이슈가 존재한다. 이러한 이슈들은 가정, 모형 및 실증적 뒷받침이라는 세 가지 카테고리로 나뉠 수 있다.

먼저, 가정적 한계라는 관점에서, 이전의 확률론적 모형들은 동일한 논문의 수명과 특정 형태의 진부화 기능을 가정한다. 그러나 수명과 기술 진부화 정도는 조직에서의 기술 개발 상황에 따라 달라질 수 있다. 이러한 특징들은 기술 영향의 변화를 적절히 반영하기 위해 포함될 필요가 있다.

둘째, 모형 한계라는 관점에서, 과거 인용 패턴은 고려되지 않는다. 도 1c에 도시된 바와 같이, 특허 A와 특허 B가 인용된 경우를 가정하면, T는 현재 시간이고, 특허 A의 인용수는 특허 B의 인용수와 서로 같지만, 두 특허의 인용 패턴은 인용되는 시점 측면에서 서로 다르다. 이 경우 어떤 특허가 T와 T+T^* 사이에 인용될 가능성이 더 많은지 고려할 때, 종래 확률론적 모형에 따르면 특허 A와 특허 B는 미래 인용수가 동일하게 도출되겠지만, 이는 현실적이지 않다.

마지막으로, 실증적으로 뒷받침되는지 여부와 관련하여, 종래의 기법들은 실제 세계로부터 피드백을 받기에는 일반적으로 복잡하기 때문에 거의 검증되지 않고 있다. 이론적이고 개념적인 모형들만 유일하게 실증적 뒷받침없이 제안된다. 요약하면, 특허 인용 정보에 기반하여 관심 기간에서의 미래 기술 영향을 평가하는 방법에 대해서는 연구할 영역이 아직 많다.

상기한 바와 같이, 종래 기술에 따른 계량서지학적 연구는 종래의 인용 분석 방법을 개발해 왔지만, 실제 세계와 잘 맞지 않을 정도로 단순하기 때문에 유용하지 않다. Pareto/NBD 모형은 과거 패턴을 기반으로 하여 행위자를 위한 미래 사건수를 예측할 수 있는 통계적 방법이다.

이 모형은 행위자의 이탈(dropout)이 관찰되지 않고 특유하게 표현되는 비계약적 설정에서의 시간에 대한 사건을 설명한다. 특히, 행위자가 이탈하는 시간은 Pareto 시간 모형(Pareto timing model)을 이용하여 모형화되고 반복 사건의 행위는 NBD 수 모형(NBD count model)을 이용하여 모형화된다. Pareto/NBD 모형의 강점은 무엇보다도, 사건과 행위자의 동적이며 특유한 특징을 모형화하는 능력에 있다.

이러한 연구에 따르면, 동일 시간 또는 다른 시간에 발생한 특허와 인용은 행위자와 사건으로 표현된다. 특허 인용 분석을 Pareto/NBD 모형과 결합함으로써, 확률론적 특허 인용 분석은 계량서지학적 연구에서 기존의 확률론적 모형의 가정과 모형 한계를 극복할 수 있다.

Pareto/NBD 모형을 유추하는데 필요한 확률론적 특허 인용 분석의 5가지 가정을 요약하면 다음과 같다. 개별적 기술에 대해서는 다음과 같은 가정을 세운다.

1) Poisson 사건 : 특허의 수명동안, 각 특허(및 특허가 나타내는 기술)의 사건은 사건 비율(event rate)(λ)을 가진 Poisson 프로세스에 따라 분포한다. 여기서, 사건 비율은 특허 인용이 일어나는 비율을 의미한다.

2) 지수적(Exponential) 수명 : 각 특허는 특정 이탈율(dropout rate)(μ)을 가지고 지수적으로 분포되는 기간으로서 표현되는 수명동안 지속적으로 인용된다. 여기서, 더 이상 인용이 일어나지 않는 특허를 이탈(dropout)되었다고 표현하며, 특허의 이탈은 지수분포를 따른다고 가정한다.

또한, 기술간 이질성을 처리하기 위해서는 다음과 같은 가정을 세운다.

3) 감마(gamma) 분포를 가지는 사건 비율 : 서로 다른 특허의 사건 비율은 특허들 간에 서로 다른 감마 분포를 가진다.

4) 감마 분포를 가지는 이탈율 : 서로 다른 특허의 이탈율은 특허들 간에 서로 다른 감마 분포를 가진다.

5) 독립성 : 사건 비율(λ)과 이탈율(μ)은 서로 독립적으로 분포한다.

이와 같은 확률론적 특허 인용 분석의 5가지 가정에 대한 근거는 다음과 같다. 1)과 3) 가정에서, Poisson 사건 프로세스는 특정 단위 기간에서의 인용이 특정 비율(λ)로 발생되며, 각 비율은 특허마다 다르다는 것을 의미한다.

NBD 모형은 종래의 계량서지학적 연구에서 상당히 성공적으로 사용되었다. 가정 2)에서, 특허의 지수적 수명도 합리적인 것으로 평가된다. 기술 대체와 같은 특허 이탈을 작동시키는 요소들도 Poisson 방식으로 처리될 수 있다. 특정 요소들이 Poisson 분포를 따르지 않더라도, 모든 가능한 요소들은 개별적인 요소의 중첩이며, 이러한 프로세스는 Poisson 프로세스와 근접하게 된다.

가정 4)에서 언급된 바와 같이, 특허에 대해 동일한 이탈율을 가정할 이유는 없다. 예를 들면, 어떤 특허들은 다른 특허들보다 더 빨리 이탈에 도달하거나 그 역이 성립될 수 있다. 이러한 점에서, 감마 분포는 특허의 이탈 및 사건이라는 특유한 특징들을 감지할 수 있는 유연한 분포가 될 수 있다.

더욱이, 가정 5)에서, 사건 비율과 이탈율은 실제로 기술 진부화와 기술 영향의 서로 다른 다양한 패턴들을 독립적으로 모형화하는 것으로 추정된다. 운영적 관점에서, 단지 최신인용시점(Recency)과 인용시점빈도(Frequency)와 같은 두 종류의 정보만이 Pareto/NBD 모형을 운영하는데 필요하다.

첫째, 최신인용시점은 마지막 사건이 발생한 시간과 관련되며, 둘째, 인용시점빈도는 과거에 얼마나 많은 사건이 생성되었는지에 관련된다.

이러한 정보를 이용하면, 확률론적 특허 인용 분석은 다음과 같은 결과를 도출할 수 있다 : (1) 과거(X = x, t, T]의 인용 패턴을 가진 특허가 특정 시점인 시간 T^* 에 도달할 확률 및 (2) 사건이 구간(T, T+T^*]에서 발생할 예상 단위 기간 X^*.

(0,T]에서의 인용시점빈도와 최신인용시점은 x와 t로 표현된다. 이렇게 표현하면, 확률론적 특허 인용 분석은 수학적으로 다루기 쉽게 될 뿐만 아니라 현실적인 작업이 될 수 있다.

본 발명에 적용된 특허 데이터의 주요 공급원은 미국특허청(USPTO) 데이터베이스이다. 타국에 출원된 특허들이 미국에도 많이 출원되고 미국이 세계에서 가장 큰 시장이기 때문에 미국특허청 데이터베이스는 국제적 기술을 분석하기 위한 대표적인 시스템이 될 수 있다.

미국특허청은 등록된 특허를 USPC(Unites States Patent Classification)로 정의되는 관련 기술 분류로 구분한다. USPC의 각 주제 분류는 클래스와 서브클래스로 지칭되는 주성분과 부성분을 포함한다. 클래스는 기술을 구분되게 설명하며 몇 가지 서브클래스로 구성된다. 서브클래스는 클래스 범위내에 포함된 주제의 프로세스, 구조적 특징 및 기능적 특징들을 기술한다.

클래스 레벨에서의 분석은 다수의 서브그룹으로 분류될 수 있는 많은 특허를 포함한다. 서브클래스 레벨의 분석에서는 너무 적은 특허를 대상으로 하여 기술 변화에 영향을 미치는 중요한 개발을 발견하는데 어려움이 있을 수 있다.

이하에서는 본 실시예에 따른 각 단계를 간단히 설명하여 제안된 기법의 전체 과정을 설명한다. 도 2에 도시된 바와 같이 제안된 기법은 세 개의 단계로 구분된다.

단계 S210에서는 데이터 수집 및 전처리 단계인 예비 단계가 수행되고, 단계 S220에서는 과거의 인용 패턴을 가진 각 단위 기간에 대해 특허 인용 행렬이 구축되며, 단계 S230에서는 인용이 발생할 단위 기간에 Pareto/NBD 서브모형을 적용하고, 각 단위 기간마다의 인용수를 위해 감마-감마(gamma-gamma) 서브모형을 적용하여 미래 기술 영향을 도출한다.

관심 기술분야의 특허 문서가 다양한 검색 조건으로 미국특허청으로부터 수집될 수 있다. 수집된 특허 문서는 단지 텍스트로 표현된 구조적 항목 및 비구조적 항목의 혼합으로 되어 있기 때문에 전처리할 필요가 있다.

이러한 이유 때문에, 특허 문서들은 문서의 구조를 기초로 분석된 후 구조화된 특허 데이터베이스로 변형된다. 특허 데이터베이스는 구조화된 아이템뿐만 아니라 비구조화된 아이템들도 포함한다. 이들 중에서, 특허번호, 등록일 및 인용 정보에 대한 데이터 필드는 미래 기술 영향을 평가하기 위해 활용될 수 있다.

이 단계에서, 특허 인용 행렬이 특허 데이터베이스를 기반으로 각 단위 기간마다 구축된다. 특허 인용 행렬의 기본 형태는 도 7에 예시되어 있다. Pi와 Qi는 각각 i번째 특허의 특허번호와 등록일자이고, Ci,j는 j번째 단위 기간에 있는 i번째 특허의 인용수를 나타낸다.

Ci,j와 Qi를 기반으로, 과거의 인용 패턴이 도시된 바와 같이 최신인용시점(Recency), 인용시점빈도(Frequency) 및 단위 기간에 대한 평균 인용수(Average citation count)라는 용어로 표현된다. Ri, Fi 및 ACi는 각각 가장 최근 시간, 단위 기간의 번호 및 인용이 발생할 때의 단위 기간들에 대한 평균 인용수를 나타낸다.

본 발명에 따른 모형은 Schmittlein et al. (1987)(D.C. Schmittlein, D.G. Morrison, R. Colombo, Counting your customers: who are they and what will they do next, Manage. Sci. 33(1) (1987) 1-24)과 Fader et al. (2005)(P.S. Fader, G.S.B. Hardie, K.L. Lee, RFM and CLV: using iso-value curves for customer base analysis, Am. Market. Assoc. 42(4) (2005) 415-430)의 연구를 활용할 수 있다. 여기서는 특허 인용 정보에 기반한 미래 기술 영향 평가의 맥락에 적합하게 그 모형의 입력과 출력을 재정의할 수 있다.

제안된 확률론적 특허 인용 분석은 두가지 서브모형으로 나뉜다. 첫째, Pareto/NBD 서브모형에 기반하여, 인용이 발생할 단위 기간의 수는 최신인용시점과 인용시점빈도의 입력으로 얻어진다.

둘째, 단위 기간당 기대 인용수는 과거 인용수의 입력으로 gamma-gamma 서브모형에 의해 도출될 수 있다. 관심기간에서 미래 인용수에 기반한 미래 기술 영향은 인용이 발생할 단위 기간의 수에 단위 기간 당 기대 인용수를 곱하여 얻어질 수 있다.

이하에서는 Pareto/NBD 서브모형과 gamma-gamma 서브모형의 핵심 방정식만을 제시한다. 두 서브모형의 유도에 대한 보다 자세한 정보는 상술한 바와 같은 기반 연구를 참조하여 얻을 수 있다.

시간 T(T>0)에 대해서, 특허는 T에서 여전히 유효하고, 인용이 발생할 단위 기간의 수는 가정 1)로부터 다음과 같은 Poisson 분포를 가진다.

(1)

이탈까지의 시간 τ는 가정 2)로부터 지수 분포를 따르며, 확률 밀도 함수는 다음과 같다.

(2)

(0,T]에서 사건 비율 λ, 이탈율 μ, 인용시점빈도 x, 최신인용시점 t_x 인 경우, 이 특허가 T에 여전히 유효할 확률은 다음과 같다.

(3)

하지만, 수식(3)은 λ와 μ가 모르는 값이기 때문에 바로 사용될 수는 없다. 가정 3)과 4)와 같이, 사건 비율과 이탈율은 서로 다른 특허들에 대해 다음과 같이 서로 다른 gamma 분포를 따른다.

(4)

(5)

수식(1)과 (4)는 특허가 활동적인 동안 인용이 발생할 단위 기간의 수가 다음과 같이 NBD 모형을 따른다는 것을 의미한다.

(6)

수식(2)과 (5)로부터, 특허들에 대한 이탈율은 다음과 같은 확률 밀도 함수를 가지는 두 번째 종류의 Pareto 모형으로 변형된다.

(7)

r, α, s 및 β는 Pareto/NBD 변수를 나타낸다. 따라서 인용 패턴 (X = x, tx, T)을 가지는 임의로 선택된 특허에 대해서, 이 특허가 여전히 활동적일(이탈되지 않을) 확률은 다음과 같다.

(8)

수식(8)은 수식(3)에 기재된 각 레벨 확률들의 λ와 μ에 대한 가중 평균이다.

는 측정된 인용 패턴이 주어진 λ와 μ의 업데이트된 분포이다. 따라서 인용이 (T, T+T^*]에 발생할 단위 기간의 수(the number of time units : NTU))는 다음과 같다.

(9)

여기서, T와 T^*는 시간, X는 인용 패턴, α와 r은 사건 비율 λ에 대한 확률모형인 NBD 모형의 모수, β와 s는 이탈율μ에 대한 확률모형인 Pareto 모형의 모수,

,

는 시간이 경과함에 따른 사건 비율과 이탈율의 변화를 모형에 적용하기 위한 확률밀도함수이다.

또한, 모수 α, β, r 및 s는 특허의 최신인용시점과 인용시점빈도를 이용하여 추정될 수 있다. 이를 추정하기 위해 다음과 같은 식이 사용될 수 있으며, 세부적인 절차는 다음과 같다.

(9-1)

(1) 각 특허 별로 특허인용정보를 관찰하는 기간 T를 설정한다.

(2) 각 특허 별로 기간 T 동안 관찰된 인용시점빈도를 산출한다.

(3) 설정된 관찰 기간을 상기 식의 우변의 T값에 대입한다.

(4) 기간 T 동안 관찰된 인용시점빈도를 식 (9-1)의 좌변식

대신 대입한다.

(5) 모든 특허에 대해 절차 (1)-(5)를 수행하고, 최대우도방법을 사용하여 곡선적합을 실시한다.

(6) 곡선적합의 결과로 추정된 모수 α, β, r 및 s의 값을 다시 상기 식 (9)에 대입한다.

(7) 모수값을 대입함으로써 완성된 상기 식에 각 특허의 T, T^*, x, t_x값을 대입하여 NTU(T,T+T^*)를 추산한다. 이렇게 추산된 NTU(T,T+T^*)는 미래 기간 (T,T+T^*)동안 해당 특허가 인용된다고 추론되는 예상 인용시점빈도를 나타낸다.

gamma-gamma 서브모형에서, 각 단위 기간당 인용수는 예상 평균값 E(C) 주위에서 변한다고 가정한다. 하지만 관측된 평균값

은 E(C)의 불완전한 값이다. 여기서, c_x와 z_ij는 각각 인용이 발생하는 x 단위 기간에 대한 평균 인용수와 j번째 단위 기간에서 i번째 특허의 인용수를 나타낸다.

이러한 이유 때문에, 예상 평균 인용수는 과거의 인용수에 기반하여 측정될 필요가 있다. 이는 70% 특허의 인용시점빈도가 0 또는 1인 특허 인용의 경우에 특히 중요하다.

평균 인용수의 분포는 기술분야마다 서로 다르지만, 일반적으로 우편향 왜도 분포로 관측된다. 이러한 이유 때문에, 수식(10)과 같이 일반적 분포 대신, gamma 모형이 평균 인용수를 측정하는데 사용된다. 이 식에서 p와 ν는 gamma 분포의 형상모수와 척도모수이다.

(10)

특허간 평균 인용수의 이질성을 설명하기 위해서, 척도모수 ν가 형상모수 q와 척도모수 γ를 가진 gamma 분포에 따라 분포된다고 추정된다. 척도모수 v의 분포에 대해

의 기대치를 취하면 c_x에 대해 다음과 같이 주변 분포가 발생한다.

(11)

바람직한 양

에 도달하기 위해서, 평균 인용수 c_x를 가진 특허에 대해 ν의 사후 분포(posterior distribution)는 수식(12)과 같은 Bayes 정리(Bayes' theorem)를 이용하여 도출된다.

(12)

수식(12)은 형상모수 px+q와 척도모수 γ+c_xx를 가진 gamma 분포이다. x 단위 기간에 c_x의 평균 인용수를 가진 특허에 관한 예상 평균 인용수는 다음과 같다.

(13)

여기서, p, q 및 γ는 특허 인용 행렬에 포함된 인용수를 이용하여 추정될 수 있으며, 추정하는 세부적인 절차는 다음과 같다.

(1) 모든 특허의 z_ij데이터를 바탕으로 최소자승법에 의한 gamma-gamma 분포의 모수 p, q 및 γ를 추정한다.

(2) 추정된 p, q 및 γ 값을 상기 식(13)의 우변에 대입한다.

(3) 각 특허 별로 평균 인용수 c_x와 인용발생시점 빈도수 x를 산출한다.

(4) 산출된 c_x와 x값을 상기 식 우변에 대입함으로써 예상 평균 인용수 E(C)를 추산한다.

마지막으로, 미래 기술 영향은 NTU(T, T+T^*)와 E(C)를 곱하여 구한다.

이하에서는, 본 발명의 실시예를 실제 특허 분석에 적용한 결과에 대하여 설명한다. USPTO 데이터베이스의 디스플레이 기술에 대한 특허가 다음과 같은 두가지 이유로 실증적 분석에 이용되었다.

첫째, 디스플레이 기술은 가장 빠르게 변화하며 복잡한 기술분야 중에 하나이며, 몇 가지 후보 기술이 현재 지배적 기술이 되기 위해 경쟁중이다. 이러한 상황에서 미래 기술 영향을 평가하는 것은 다른 어떤 것들보다도 더 중요하게 된다. 그러한 불안한 상황은 도 3에 도시된 바와 같이 특허의 인용 패턴에서도 잘 나타나 있다.

2008년 자주 인용되는 상위 11개의 특허들을 보면, 2003년에는 그 특허들의 70%가 상위 10위에 포함되지 않았으며, 심지어 50%는 상위 50위 밖에 있거나 공개되지 않았다.

이러한 조건하에서는, 종래의 특허 인용 분석보다는 본 발명의 실시예에 따른 확률론적 특허 인용 분석이 보다 잘 기능할 것이다. 디스플레이 기술은 의학, 자동차, 통신 등과 같은 다양한 산업에서 차세대 제품을 발전시키는 핵심 기술 중 하나인 것으로 인식된다.

디스플레이 기술에서 기술 변화를 이해하는 것은 비즈니스 관심 영역 중 중요한 부분으로 인식되고 있어서, 미래 기술 영향을 평가하는 적합한 도구가 기술 변화에 대한 의사 결정을 돕는데 요구되고 있다.

종래 기술(J. Shin, Y. Park, Building the national ICT frontier: the case of Korea, Inf. Econ. Pol. 19(2) (2007) 249-277.)에 따르면, 디스플레이 기술 특허는 도 8에 나타난 바와 같이, 10개 클래스와 230개 메인라인 서브클래스로 구성된다. 본 발명과 관련해서는, 디스플레이 기술에서 중요한 이미지 중첩 기술(USPC: 345/7)을 중심으로 살펴본다.

정량적 분석을 위해 1995년부터 2008년에 등록된 특허들을 수집하였으며, n년 예측의 경우에는 (2008-n)년까지의 데이터를 학습 데이터로 활용하여 (2008-n+1)년부터 2008년까지의 결과와 비교하는 방식으로 진행하였다.

특허수가 매우 많기 때문에 수작업으로 이들을 모두 수집할 수는 없어서, 자체 개발한 JAVA 기반 웹 마이닝 프로그램을 이용하여 특허 문서를 자동으로 다운로드하였다. 1995년부터 2008년까지 이미지 중첩 기술에 대해 전체 1,103 특허를 수집하였다. 인용하는 특허는 156개 메인라인 서브클래스에 해당하는 3,464개의 특허이다. 이후 특허 데이터베이스는 MS 오피스 액세스를 이용하여 구축하였다.

단위 기간을 자유롭게 설정하는 경우, 가장 이상적인 분석과 다루기 쉬운 모형을 가진 단순한 분석 사이에 균형을 유지할 필요가 존재한다. 이러한 판단 하에, 단위 기간은 특허 데이터베이스로부터 정보를 추출하는 과정에서 한 분기로 결정되었다.

특허 인용 행렬은 분기들에 대한 최신인용시점, 인용시점빈도 및 평균 인용수의 관점에서 과거 인용 패턴을 가진 56개의 분기들에 대해 구축되었다. 결과적으로 특허 인용 행렬은 1103*61 행렬이 되었으며, 여기서는 지면의 제약상 전체를 도시하지는 않았다. 특허 인용 행렬의 일부분은 도 9에 도시된다.

특허들의 평균 인용수에 대한 기술 통계 내용은 도 10에 도시된다. 이는 특허들에 대한 평균 인용수의 분포가 높은 우편향 왜도 분포를 가짐을 나타낸다.

상술한 바와 같이, 이러한 결과는 특허의 이질성이 정규 분포로 특징지을 수 없다는 사실을 나타낸다. 특허의 이질성을 고려하여 특허의 예상 평균 인용수를 도출하기 위해 gamma-gamma 모형이 사용된다.

단기, 중기 및 장기 기술 기획에서 의사 결정을 돕기 위해 1년, 3년 및 5년에 대한 미래 기술 영향이 평가된다. 1년 예측의 경우, 2008년의 기술 영향이 1995년부터 2007년까지 특허 인용 정보에 기반하여 예측된다. 3년 및 5년 예측은 각각 1995년부터 2005년까지 및 1995년부터 2003년까지의 특허 인용 정보를 활용하여 예측된다.

Pareto/NBD 모형 및 gamma-gamma 모형의 매개변수는 각각 MATLAB과 openbugs를 이용하여 측정하였다. 모형 매개변수의 최대 가능 측정치(maximum likelihood estimates)는 도 11에 도시된다.

결과적으로, 1년, 3년 및 5년의 기술 영향은 도 12, 도 13 및 도 14에서와 같이 상술한 NTU(T, T+T^*)와 E(C)를 곱하여 얻어진다. 여기서, 기술 영향은 TI (technological impact)를 나타낸다.

과거 특허의 인용수는 기술 영향을 위한 대용지표로 자주 사용되었다. 본 실시예에 따른 확률론적 특허 인용 분석은 관심 기간의 미래 인용수를 활용하여 미래 기술 영향을 평가한다. 특허가 과거 단위 기간들에서 보다 자주, 보다 최근에, 보다 많이 인용될 때 유도된 기술 영향은 높아지는 경향이 있다.

예를 들면, 도 12에서, 특허번호 제5469185호와 제5469298호는 인용시점빈도(frequency)면에서 같은 값을 가지지만, 단위 기간들에서 최신인용시점(recency)과 평균 인용수(average citation count)가 서로 달라서 유도된 기술 영향값이 서로 다르게 나타난다. 따라서 특허번호 제5469298호가 특허번호 제5469185호 보다 더 중요한 것으로 도출된다.

같은 맥락에서, 같은 인용수를 가진 특허에 대해서도, 이들의 기술 영향은 과거 인용 패턴에 기반한 확률론적 특허 인용 분석에 의해 우선시 될 수 있다. 도 12에서, 특허번호 제5455601호와 제5469184호에 대한 기술 영향은 0.49와 0.76인데, 이는 특허번호 제5469184호가 더 최근에 인용되었기 때문이다.

확률론적 특허 인용 분석의 성능은 상관(correlation) 분석 및 적중률(hit ratio) 분석 관점에서도 나타난다. 첫째, 예측 기간의 상관 정도가 서로 다름에도 불구하고, 통계학적으로 중요한 0.01 레벨에서, 유도된 기술 영향이 실제 인용수와 매우 관련 있다는 것을 Pearson 상관 계수는 알려준다.

도 15를 참조하면, 유도된 기술 영향과 실제 인용수의 상관 계수는 단순 인용수에 의한 값보다 더 높음을 알 수 있다. 인용수를 양적 빈도수와 질적인 기술의 중요성으로 고려함으로써, 제안된 인덱스가 빠르게 변화하는 기술분야에서 기술 예측을 위해 보다 적절한 대용지표로 활용될 수 있음을 알 수 있다. 이러한 결과는 신뢰수준 0.01에서 유의하였다.

둘째, 적중률 분석 관점에서, 기술 예측에서 가장 중요한 문제 중 하나는 어떠한 기술이 중요한가 하는 것이다. 이러한 맥락에서 상위 n개의 유명한 특허가 실제 인용수를 대용지표로서 선택되었다.

적중률은 관심 기간에서 상위 n개의 실제 인용수를 가진 특허수에 대한 상위 n개의 기술 영향을 가진 특허수에 의해 계산한다. 적중률 분석의 결과는 도 4 내지 도 6에 도시된다.

적중률 분석 결과는 확률론적 특허 인용 분석이 단순 인용수를 반영한 종래 분석 기법보다 우수함을 보여준다. 더욱이, 확률론적 특허 인용 분석 성능은 n과 기간이 늘어날수록 증가하는 반면 단순 인용수 분석시 적중률은 상대적으로 변화가 작다.

요약하면, 확률론적 특허 인용 분석은 단순 인용수에 기반한 종래 기술에 따른 특허 인용 분석보다 우수하며, 미래 기술 영향의 변화를 적절히 반영할 수 있다.

상술한 바와 같이, 본 발명은 미래 인용수를 대용지표로 활용하여 관심 기간에서 특허의 미래 기술 영향을 평가하는 시스템적 기법을 제시한다.

이를 위하여, Pareto/NBD 모형을 적용하였으며, 그 모형의 입력과 출력을 특허 인용 정보에 기반하여 재정의하였다. 또한, 단위 기간들에 대한 최신인용시점, 인용시점빈도 및 평균 인용수가 과거 인용 패턴으로서 고려되었다.

Pareto/NBD 모형의 강점과 특허 인용 분석의 장점을 결합하여, 확률론적 특허 인용 분석은 기술 영향의 변화를 적절히 반영할 수 있다. 본 발명에 따른 방법은 가장 유망한 기술에 대해 신속하고 효율적인 합의를 촉진시킬 수 있는 미래 기술 영향에 대한 정량적 및 분포기반 측정치를 제공할 수 있다. 디스플레이 기술에 대한 케이스 스터디가 본 발명에 따른 모형의 검증을 위해 수행되었다.

본 발명의 기여 및 잠재적 활용 방안은 크게 두 가지로 나뉠 수 있다. 첫째, 본 발명은 특허 인용 정보를 기반으로 미래 기술 영향을 정량적으로 평가한 첫 번째 시도라는 측면에서, 기술 예측 연구 분야에 이론적으로 기여할 수 있다.

확률론적 특허 인용 분석은 과거 인용 패턴을 고려하여 과거 경향이 미래에도 동일하게 나타날 것이라는 정적인 특허 인용 분석의 한계를 극복할 수 있다. 본 실시예에 따른 확률론적 특허 인용 분석은 다양한 분야, 예를 들면, 협의의 특허 및 기술 평가에서 광의의 기술 분석 및 기획 분야에서도 활용될 수 있다. 또한, 본 실시예에 따른 방법은 더 일반적인 모형 연구를 위한 출발점이 될 수 있다.

둘째, 방법론적 관점에서, 본 발명은 계량서지학적 분석에 Pareto/NBD 모형을 처음 도입한 것이다. 이를 특허 인용 분석에 적용하기 위해, 특허 정보로부터 적용가능한 데이터를 추출하고 상기 모형의 입력 및 출력 데이터를 재정의하였다.

Pareto/NBD 모형 기법은 종래에 제시된 확률론적 모형의 가정과 한계를 극복할 수 있다. 본 발명은 Pareto/NBD 모형을 특허 인용 분석에 적용하는데 제한되지 않는다. 또한, 입력, 처리량(throughput) 및 출력 관점에서 확률론적 특허 인용 분석의 시스템적 프로세스는 주목할 필요가 하다. 연구 결과는 기술 예측 및 전략적 기획에서 실제로 이용될 수 있다.

본 발명의 실시예에 따른 기법에 의해 제공되는 무수한 가능성에도 불구하고, 본 발명은 단지 탐구적인 연구 단계로서, 다음과 같은 추가 연구 가능성을 제시할 수 있다.

먼저, 특허 연장(renewal)과 같은 다른 기술 정보가 정확성을 향상시키기 위해 통합될 수 있다. 둘째, 기간들에 대한 인용수의 분포는 결코 고정되지 않는다. 이는 기술의 특성에 따라 달라질 수 있다. 셋째, 자동 지원 시스템이 개발되었음에도, 운영상 효율성을 강화하기 위한 추가 작업이 상당히 존재한다. 마지막으로, 본 발명은 보다 넒은 범위의 기술과 관련된 특허를 이용하여 더 많은 테스트 작업을 거쳐서 검증될 필요가 있으며, 이는 외부 검증을 위해 필수적인 것이다.

이러한 추가 연구는 다음과 같은 주제를 포함할 것이다.

첫째로 가장 중요하게, 다른 특징들을 활용하여 예측 모형의 정확성을 향상시키기 위해 시스템적 기법이 제안될 필요가 있다. 둘째, 제안된 기법은 특허 인용의 방향, 예를 들면, 인용하는 집단 및 인용되는 집단을 고려하여, 특허 인용 네트워크에 의해 기술적 지식의 흐름의 구조 및 관계를 예측하도록 확장될 수 있다. 이를 위하여, 전체 과정이 시스템화되고 자동화될 필요가 있다. 마지막으로, 다른 정량적 지표 개발이 분석의 범위를 확장하고 다양화시키기 위해 요구된다. 이러한 것들이 미래 연구를 위해 유익한 분야가 될 것이다.

그 외 본 발명의 실시예에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치에 대한 구체적인 시스템 구성도, 임베디드 시스템, O/S 등의 공통 플랫폼 기술과 통신 프로토콜, I/O 인터페이스 등 인터페이스 표준화 기술 등에 대한 구체적인 설명은 본 발명이 속하는 기술분야의 통상의 지식을 가진자에게 자명한 사항이므로 생략하기로 한다.

본 발명에 따른 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 즉, 기록 매체는 컴퓨터에 상술한 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 될 수 있다.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합한 형태로 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

또한, 상술한 각 구성 요소는 물리적으로 인접한 하나의 부품으로 구현되거나 서로 다른 부품으로 구현될 수도 있다. 후자의 경우 각 구성 요소는 인접하거나 또는 서로 다른 구역에 위치하여 제어될 수 있으며, 이 경우 본 발명은 각 구성 요소를 제어하는 별도의 제어수단 또는 제어실을 구비하여 유선 또는 무선으로 각 구성요소를 제어할 수도 있다.

상기한 바에서, 각 실시예에서 설명한 각 구성요소 및/또는 기능은 서로 복합적으로 결합하여 구현될 수 있으며, 해당 기술분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

110 : 데이터 수집부 120 : 인용 행렬 구축부
130 : 데이터 처리부 132 : 빈도수 추정부
134 : 인용수 추정부 136 : 미래 인용수 산출부
140 : 제어 유닛

Claims

특허의 인용 데이터를 추출하는 데이터 수집부;
상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함하는 특허 인용 행렬을 생성하는 인용 행렬 구축부; 및
상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 상기 특허의 미래 인용수를 추정하는 데이터 처리부를 포함하되,
상기 데이터 처리부는,
상기 특허의 인용이 발생하는 상기 미래 시점에 대한 단위 기간의 빈도수를 추정하는 빈도수 추정부;
상기 특허가 상기 단위 기간당 인용되는 예상 평균 인용수를 추정하는 인용수 추정부; 및
상기 추정된 단위 기간의 미래 빈도수와 평균 인용수를 곱하여 상기 미래 인용수를 산출하는 미래 인용수 산출부를 포함하고,
상기 빈도수 추정부는 상기 미래 시점에 특허의 인용이 발생하는 단위 기간의 빈도수를 하기 식에 의해 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.

.
여기서, NTU(T, T+T^*)는 인용이 (T, T+T^*]에 발생할 단위 기간의 수, T와 T^*는 시간, x는 인용시점빈도, t_x는 최신인용시점, X는 인용 패턴,

,
,

, λ는 사건 비율, μ는 이탈율, α와 r은 사건 비율 λ에 대한 확률모형인 NBD 모형의 모수, β와 s는 이탈율μ에 대한 확률모형인 Pareto 모형의 모수,
는 시간이 경과함에 따른 사건 비율과 이탈율의 변화를 모형에 적용하기 위한 확률밀도함수임.
제1항에 있어서,
상기 데이터 수집부는,
입력되는 분석 대상 기술분야에 상응하는 상기 특허가 저장된 특허 데이터베이스로부터 상기 인용 데이터를 추출하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
제1항에 있어서,
상기 데이터 수집부는,
상기 특허의 특허 문서로부터 데이터 구문분석 기법을 이용하여 상기 인용 데이터를 추출하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
제1항에 있어서,
상기 특허 인용 행렬은 현재를 기준으로 가장 최근 상기 특허가 인용된 단위 기간인 최신인용시점을 포함하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
제1항에 있어서,
상기 특허 인용 행렬은 상기 특허가 인용된 상기 단위 기간의 빈도수인 인용시점빈도를 포함하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
삭제
삭제
제1항에 있어서,
상기 모수 α, β, r 및 s는 상기 특허의 최신인용시점과 상기 인용시점빈도를 이용하여 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
제8항에 있어서,
상기 데이터 처리부는,
각 특허 별로 상기 인용 데이터를 관찰하는 기간을 설정하고, 상기 설정된 관찰 기간 동안 각 특허 별로 관찰된 인용시점빈도를 산출하며, 최대우도방법을 사용하여 곡선적합을 실시하고, 하기 식을 이용하여 상기 모수 α, β, r 및 s를 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.

여기서, T는 설정된 관찰 기간,
는 산출된 인용시점빈도로 대체됨.
제1항에 있어서,
상기 인용수 추정부는 하기 식에 의해 상기 예상 평균 인용수를 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.

.
여기서, E(C)는 예상 평균 인용수, p와 q는 gamma 분포의 형상모수, γ는 gamma 분포의 척도모수, c_x는 관측된 평균 인용수,
, c_x는 인용이 발생하는 x 단위 기간에 대한 평균 인용수, z_ij는 j번째 단위 기간에서 i번째 특허의 인용수임.
제10항에 있어서,
상기 p, q 및 γ는 상기 특허 인용 행렬에 포함된 인용수를 이용하여 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
제11항에 있어서,
상기 데이터 처리부는,
분석 대상 특허의 z_ij데이터를 바탕으로 최소자승법에 의한 gamma-gamma 분포의 모수 p, q 및 γ를 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치.
삭제
삭제
삭제
확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치가 미래 유망 특허를 탐색하는 방법에 있어서,
특허의 인용 데이터를 추출하는 단계;
상기 추출된 인용 데이터를 이용하여 단위 기간별 상기 특허의 인용수를 포함하는 특허 인용 행렬을 생성하는 단계; 및
상기 특허 인용 행렬을 이용하여 현재에 대한 소정의 미래 시점의 단위 기간별 상기 특허의 미래 인용수를 추정하는 단계를 포함하되,
상기 특허의 미래 인용수를 추정하는 단계는,
상기 특허의 인용이 발생하는 상기 미래 시점에 대한 단위 기간의 빈도수를 추정하는 단계;
상기 특허가 상기 단위 기간당 인용되는 예상 평균 인용수를 추정하는 단계; 및
상기 추정된 단위 기간의 미래 빈도수와 평균 인용수를 곱하여 상기 미래 인용수를 산출하는 단계를 포함하고,
상기 빈도수를 추정하는 단계에서, 상기 미래 시점에 특허의 인용이 발생하는 단위 기간의 빈도수를 하기 식에 의해 추정하는 것을 특징으로 하는 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법.

.
여기서, NTU(T, T+T^*)는 인용이 (T, T+T^*]에 발생할 단위 기간의 수, T와 T^*는 시간, x는 인용시점빈도, t_x는 최신인용시점, X는 인용 패턴,

,
,

, λ는 사건 비율, μ는 이탈율, α와 r은 사건 비율 λ에 대한 확률모형인 NBD 모형의 모수, β와 s는 이탈율μ에 대한 확률모형인 Pareto 모형의 모수,
는 시간이 경과함에 따른 사건 비율과 이탈율의 변화를 모형에 적용하기 위한 확률밀도함수임.
제16항에 기재된 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 방법을 수행하기 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체.