KR101779892B1

KR101779892B1 - 기술발전도 생성 시스템 및 그 방법

Info

Publication number: KR101779892B1
Application number: KR1020150162659A
Authority: KR
Inventors: 윤장혁; 김무진; 박영진
Original assignee: 건국대학교 산학협력단
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2017-09-19
Also published as: KR20170058715A

Abstract

본 발명의 특허 문서간의 인용정보에 문서간의 의미론적 분석을 통한 유사도정보를 반영하여 구현하는 기술발전도 생성 시스템 및 그 방법에 관한 것으로, 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계, 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계, 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 단계, 및 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 단계를 포함할 수 있다.

Description

기술발전도 생성 시스템 및 그 방법{SYSTEM FOR GENERATING PATENT DEVELOPMENT MAPS AND METHOD THEREOF}

본 발명은 특허 문서간의 인용정보에 문서간의 의미론적 분석을 통한 유사도정보를 반영하여 구현하는 기술발전도 생성 시스템 및 그 방법에 관한 것이다.

현재 국가 혹은 기업 간의 기술 경쟁에 있어, 특허는 고부가가치를 창출하는 핵심경쟁력으로 작용하므로 국가, 기업은 특허를 중심으로 한 성장전략을 강화하고 있다. 또한, 경쟁이 활발하게 이루어지는 산업에서 산업 내 주요 특허를 보유한 기업의 기업 성과가 높은 것을 확인할 수 있으며, 지식재산권 정보의 전략적 이용으로, 개발 기술의 기존 특허에 대한 침해 여부 파악 및 공백 기술 발견을 통한 연구과제 제시 등이 가능하다. 즉 ‘지식재산권 중심의 기술 획득 전략’등을 통한 지식재산권 확보 및 전략적 활용이 중요해짐에 따라, IP-R&D(지식재산권 중심의 연구개발)의 중요성이 높아지고 있다.

성공적인 IP-R&D를 위해, IP-R&D 기획 단계에서 전반적인 특허 기술발전관계를 파악하는 것이 중요하다. 이를 위해, 이머징 기술(Emerging Technology) 분야 혹은 변화가 빠른 기술 분야에 대해서 해당 기술 분야 내의 기술의 발전 흐름을 효율적으로 분석하여, 시시각각 변하는 기술 분야에 대해 지속적인 모니터링이 필요하다.

기술 발전 관계 파악을 위해서 기존에 대양한 연구가 진행되었다. 다수의 연구들이 기술간 관계 파악을 위해 특허 인용 정보를 활용한 분석이 널리 이용되고 있다.

하지만 기술 발전 관계 분석을 위해 널리 이용되는 특허 인용정보 분석에도 한계점이 존재한다. 단순하게 인용정보 만을 이용하여 도출한 특허 발전 관계 정보의 경우, 특정 특허를 인용한 정보가 있다 하더라고 해당 특허로 실질적 지식흐름이 발생하지 않아 내용적 계승이 일어나지 않을 수 있다. 단적인 예시로 특허 인용의 목적이 해당 특허의 한계점 언급과 같이, 부정적 목적으로 특허의 인용이 발생할 수 있기 때문이다.

따라서, 특허 수준에서 기술 발전 흐름을 파악하기 위해서는 특허 인용 정보만을 이용하는 것은 미흡하며, IP-R&D 기획을 위한 기술발전도나 기술 네트워크 생성을 위해 특허 발전관계의 내용적 측면이 고려될 필요성이 있다. 또한 기술 발전 관계를 파악하는 방법과 관련된 연구들이 대부분 수작업으로 이루어지고, 전문가의 의존도가 높으므로, 특허의 내용적 측면을 고려한 기술발전도 생성 시스템에 대한 개발 필요성이 증대되고 있다.

하기의 선행특허문헌들은 단순 인용맵을 제공하거나 키워드를 이용한 시맨틱 분석에 따라 정확성이 떨어질 수 있는 것으로, 상술한 문제에 대한 해결책(인용정보의 의미론적 분석을 이용한 기술발전도 자동 생성)을 제시하지 못하고 있다.

한국특허공개 제2013-0042531호 한국특허공개 제2010-0060734호

본 발명은 상기한 종래 기술의 문제점을 해결하기 위한 것으로써, 특허 문서간의 의미론적 분석을 통한 유사도정보를 문서 간의 인용정보에 반영함에 따라 단순 인용이 아니라 실질적인 기술계승 강도를 의미하는 기술발전도(Patent development maps)의 구현이 가능한 기술발전도 생성 시스템 및 그 방법을 제공한다.

또한, 본 발명의 목적은 문서데이터에 포함된 키워드가 아니라 단어(형용사, 명사)를 모두 추출하고 단어의 출현빈도를 통해 문서간 유사도정보를 산출함으로써, 실질적인 내용 측면에서의 인용관계를 나타낼 수 있는 기술발전도 생성 시스템 및 그 방법을 제공한다.

상기 목적을 달성하기 위한 본 발명의 기술발전도 생성 방법은, (a) 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계; (b) 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계; (c) 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 단계; 및 (d) 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 단계;를 포함할 수 있다.

그리고, 상기 (c)단계는, 수집된 문서데이터로부터 단어를 추출하는 단계; 상기 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 단계; 상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 단계; 및 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출하는 단계;를 포함할 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명의 기술발전도 생성 시스템은, 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하는 인용관계분석부; 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 유사도분석부; 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하는 인용정보생성부; 및 상기 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 기술발전도생성부;를 포함할 수 있다.

본 발명에 의하면, 특허 문서간의 의미론적 분석을 통한 유사도정보를 문서 간의 인용정보에 반영함에 따라 단순 인용이 아니라 실질적인 기술계승 강도를 의미하는 기술발전도의 구현이 가능함으로써, 특정 기술분야에 대한 모니터링의 효율성을 높이고, 전문가에게도 익숙하지 않는 새로운 초기 기술분야에 대한 이해를 높이며, 시각화된 결과물을 통해 기술 발전 관계에 대한 직관적 이해를 도와 IP-R&D 초기 단계에 통합하여 활용할 수 있다.

또한, 본 발명은 문서데이터에 포함된 키워드가 아니라 단어(형용사, 명사)를 모두 추출하고 단어의 출현빈도를 통해 문서간 유사도정보를 산출함으로써, 실질적인 내용 측면에서의 정확한 인용관계를 나타낼 수 있어 정확한 기술 흐름을 단시간에 정확하게 파악할 수 있는 효과가 있다.

도 1은 본 발명에 의한 기술발전도 생성 시스템을 나타낸 구성도이다.
도 2는 실시예에 의한 도 1의 유사도분석부의 세부 구성을 나타낸 도면이다.
도 3은 실시예에 의한 도 1의 인용관계분석부를 설명하기 위한 도면이다.
도 4는 실시예에 의한 도 2의 가중치도출부를 설명하기 위한 도면이다.
도 5a 내지 도 5c는 도 2의 주제확률분포산출부에 적용된 LDA를 설명하기 위한 도면이다.
도 6은 실시예에 의한 도 2의 유사도산출부를 설명하기 위한 도면이다.
도 7은 실시예에 의한 도 1의 기술발전도생성부를 설명하기 위한 도면이다.
도 8은 본 발명에 의한 기술발전도 생성 과정을 나타낸 흐름도이다.
도 9는 실시예에 의한 도 8의 문서간 유사도 산출 단계를 나타낸 흐름도이다.
도 10은 실시예에 의한 도 9의 단어 추출 단계를 나타낸 흐름도이다.
도 11은 실시예에 의한 도 9의 단어별 가중치 산출 단계를 나타낸 흐름도이다.
도 12는 본 발명의 일 실시예에 의한 가시적 인용 네트워크를 나타낸 도면이다.
도 13은 본 발명의 다른 실시예에 의한 가시적 인용 네트워크를 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다.

그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시 형태로 한정되는 것은 아니다. 또한, 본 발명의 실시형태는 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.

본 발명에 참조된 도면에서 실질적으로 동일한 구성과 기능을 가진 구성요소들은 동일한 부호가 사용될 것이며, 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.

그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

도 1은 본 발명에 의한 기술발전도 생성 시스템을 설명하기 위한 구성도로서, 시스템(1)은 저장부(10), 인용관계분석부(110), 유사도분석부(130), 인용정보생성부(150), 및 기술발전도생성부(170) 등을 포함할 수 있다.

여기서, 시스템(1)은 윕스온(Wipson), 윈텔립스(Wintelips), 위즈도메인(WISDOMAIN; FOCUST), 구글특허(Google Patent), 델피온(Delphi-on), 키프리스(Kipris) 등과 같은 특허 검색 시스템이거나 사용자 컴퓨터가 될 수 있다.

저장부(10)는 문서데이터 검색 시스템에 의해 키워드 검색식을 통해 수집된 다수의 특허 문서데이터를 제공받아 저장하는 문서데이터저장부(11) 등으로 구성되어 있다. 문서데이터에는 서지정보(출원번호, 출원일자, 공개번호, 공개일자, 출원인, 제목 등)와 요약, 청구항 및 인용정보 등이 포함될 수 있다. 인용정보는 임의의 기준특허에 영향을 준 선행 특허정보인 전방인용정보(Forward citation) 및 기준특허가 영향을 준 후발 특허정보인 후방인용정보(Backward citation)로 나눌 수 있다.

처리장치(100)의 인용관계분석부(110)는 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하도록 구성되어 있다. 여기서, 문서간 인용 매트릭스는 문서간의 인용관계 여부에 따라 도 3과 같이 '1' 또는 '0'의 값으로 표기될 수 있는 데, 예컨대 인용관계에 있을 경우 '1'로 기재되고, 인용관계에 없을 경우 '0'으로 기재될 수 있다. 이와 같이 생성된 인용 매트릭스 정보는 저장부(10)의 인용정보저장부(15)에 저장될 수 있다.

유사도분석부(130)는 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출할 수 있다.

예컨대, 유사도분석부(130)는 도 2와 같이 단어추출부(131), 가중치도출부(133), 주제확률분포산출부(135) 및 유사도산출부(137)를 포함하여 구성될 수 있다.

단어추출부(131)는 문서데이터저장부(11)에 수집된 문서데이터로부터 형용사, 명사와 같은 단어를 추출할 수 있다. 일례로, 단어추출부(131)는 문서데이터에 대해 자연어처리를 통해 상기 문서데이터에 포함된 문장을 추출할 수 있고, 상기 추출된 문장의 품사 분석을 통해 형용사 및 명사에 해당하는 단어를 추출할 수 있으며, 추출된 단어 중 미리 설정된 불용어 리스트에 포함된 단어를 제거할 수 있다.

가중치도출부(133)는 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 데, 단어별 가중치는 단어의 출현 빈도수(tf; Term Frequency)와 역문서 빈도수(idf; Inverse Document Frequency)를 이용한 tf-idf 알고리즘에 의해 산출된다. 도 4는 가중치산출부에 의해 생성된 단어별 가중치 매트릭스(TF-IDF matrix)를 나타낸 것이다.

여기서, 단어의 출현 빈도수(tf)는 특정 단어가 해당 문서데이터 내에 얼마나 자주 등장하는지를 나타내는 빈도수이고, 역문서 빈도수(idf)는 임의의 한 단어가 다수의 문서데이터 전체에서 얼마나 공통적으로 포함되어 있는지를 나타내며, 전체 문서 수를 상기 단어를 포함한 문서데이터의 수로 나눈 뒤 로그 스케일을 취하여 산출할 수 있다.

일예로, 역문서 빈도수(IDF)는 이하의 수학식에 의해 산출될 수 있다. 여기서 '1'을 가산하는 이유는 로그 스케일의 밑수에 따라 역문서 빈도수가 음수가 나올 수 있는 데, 이를 방지하기 위함이다.

[수학식 1]

여기서, t; 임의의 단어, d; 임의의 문서, D; 전체 문서 수, |d∈D:t∈d|; 단어 t가 포함된 문서 수.

그리고, 단어별 가중치는 상기에서 구해진 단어 출현빈도수와 역문서 빈도수를 승산함에 따라 산출될 수 있다. 여기서, 특정 문서데이터 내에서 단어 출현 빈도수가 높을수록, 그리고 전체 문서데이터 중 상기 단어를 포함한 문서데이터가 적을수록 단어별 가중치(TF-IDF값)이 커지게 된다.

주제확률분포산출부(135)는 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation) 알고리즘을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출할 수 있다.

LDA 알고리즘은 공지기술로 문서의 주제(Topic)별 분류에서 일반적으로 사용되는 툴로서, 도 5와 같은 매트랩 코드(Matlab Code)를 참조하여 간단하게 설명하고자 한다. 기본적으로 LDA 알고리즘은 문서가 단어의 묶음이고, 문서는 특정 주제를 가지고 있으며, 주제는 문서들마다 공유된다는 전제에서 시작된다. 예를 들어 도 5a와 같이 8개의 문서가 있고, 각 문서는 총 16개의 단어로 이루어져 있다고 가정할 경우 단어의 출현빈도에 따라 칼라로 표시하는 것이 가능하다. 초록색이 짙을수록 단어의 출현빈도가 높은 것이고, 파란색이 짙을수록 출현빈도가 낮은 것을 의미한다. 도 5a의 7번 문서의 경우 매트릭스 (3,4)의 단어만 출현빈도가 상당히 높은 것을 알 수 있다.

도 5b는 주제에 대한 분포를 나타내는 것으로, 8개의 주제(Topic1~Topic8)가 있고 주제별로 어떤 단어들을 가지고 있는지를 나타낸다. 즉, 주제는 단어들에 대한 분포를 의미한다. 예컨대, 주제1의 경우는 첫 번째에서 네 번째((1,1)~(1,4))까지 단어들의 출현빈도가 높은 것이다. 따라서, 각 문서별 단어별 가중치에 대해 LDA를 적용하면 도 5b와 같은 비슷한 양상을 보이게 되며, 이를 통해 각 주제를 찾게 된다.

도 5c는 각 문서에 대한 주제의 분포를 나타낸 것으로, 빨간색은 데이터를 만들 때 사용된 것이고, 파란색이 LDA를 통해서 찾아낸 것이다. 즉, x축에 해당되는 주제의 순서를 무시했을 때, 결국 LDA를 통해 각 문서의 주제를 유사하게 찾아낼 수 있다는 것을 알 수 있다.

유사도산출부(137)는 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출할 수 있으며, 유사도 산출은 헬링거 디스턴스 알고리즘에 의해 산출될 수 있다.

일예로, 유사도산출부(137)는 아래 헬링거 디스턴스(Hellinger distance; H(P,Q))에 의해 기준 문서데이터와 다른 비교 대상 문서데이터 사이의 유사도를 산출할 수 있다.

[수학식 2]

여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.

헬링거 디스턴스로 산출되는 결과값(H(P,Q))은 '0'에서 '1' 사이의 값을 가지게 되는 데, 결과값이 작을수록 두 문서데이터 사이의 유사도 정도가 크고, 결과값이 클수록 두 문서데이터 간의 유사도 정도가 작다. 따라서, 직관적인 이해가 용이하도록 결과값을 '1'로 감산(1H(P,Q))한 후 감산된 값을 유사도산출부(137)에서 산출된 최종 유사도 값으로 사용하는 것이 바람직하다.

이와 같이 유사도분석부(130)는 도 6에서와 같이 추출된 단어를 이용하여 단어별 가중치인 TF-IDF와 주제별 확률분포 및 헬링거 디스턴스 알고리즘을 순차적으로 적용함에 따라 문서간 유사도를 산출해 낸다.

인용정보생성부(150)는 유사도분석부(130)를 통해 산출된 문서간 유사도 및 인용관계분석부(110)를 통해 얻어진 문서간 인용 매트릭스의 각각의 해당 요소를 연산하여 가중(weighted) 인용 매트릭스를 생성할 수 있다. 일례로, 가중 인용 매트릭스의 각 값은 특정 문서간 유사도와 인용 상태값이 승산(multiply)될 수 있으며, 인용 상태값은 '1' 또는 '0'일 수 있다.

기술발전도생성부(170)는 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하여 디스플레이(200)에 표시할 수 있다. 도 7에 도시된 바와 같이 기술발전도가 생성될 때 문서 인용횟수 또는 유사도 정도(Threshold value)에 따라 가시적 인용 네트워크를 가공하여 생성할 수 있다. 이때 인용횟수와 유사도 정도는 시스템에 설정된 기준값에 따라 가변될 수 있으며, 유사도가 낮은 문서는 기술적 계승 강도가 약하므로 제거될 수 있다.

이와 같이 구성된 기술발전도 생성 시스템의 세부 프로세스는 도 8 내지 도 13을 참조하여 설명하고자 한다.

도 8은 본 발명에 따른 기술발전도 생성 방법을 설명하기 위한 흐름도이다.

도 8을 참조하면, 먼저 문서데이터 검색 시스템(1)은 사용자로부터 입력된 키워드 검색식 또는 특허번호(출원번호, 공개번호 또는 등록번호)를 제공받아 특허문서 데이터베이스로부터 관련 문서데이터를 검색하게 되고, 검색된 문서데이터는 문서데이터저장부(11)에 저장될 수 있다(S100). 여기에서 문서데이터저장부(11)에 저장된 문서데이터는 키워드로 검색된 경우에는 노이즈가 제거된 유효데이터일 수 있으며, 이는 서지정보(출원번호, 출원일자, 공개번호, 공개일자, 출원인, 제목 등)와 요약, 청구항 및 인용정보 등이 포함될 수 있다.

이어, 기술발전도 생성 시스템(100)의 인용관계분석부(110)는 사용자의 요청에 따라 문서데이터저장부(11)에 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하여 인용정보저장부(15)에 저장한다(S200). 여기서, 문서간 인용 매트릭스는 하기 표 1과 같이 문서간의 인용관계 여부에 따라 '1' 또는 '0'의 값으로 표기될 수 있는 데, 예컨대 인용관계에 있을 경우 '1'로 기재되고, 인용관계에 없을 경우 '0'으로 기재될 수 있다.

[표 1]

다음으로, 유사도분석부(130)는 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출할 수 있다(S300).

여기서, 유사도분석은 도 9를 참조하면, 단어추출단계(S310)와 가중치도출단계(S320), 주제확률분포산출단계(S330) 및 유사도산출단계(S340)를 수행하게 된다.

단어추출단계(S310)는 도 10에 도시된 바와 같이 단어추출부(131)에 의해 문서데이터에 대해 자연어처리를 통해 상기 문서데이터에 포함된 문장을 추출하고(S311), 상기 추출된 문장의 품사 분석을 통해 형용사 및 명사에 해당하는 단어를 추출하며(S312), 추출된 단어 중 미리 설정된 불용어 리스트에 포함된 단어를 제거하는 단계(S313)가 수행될 수 있다.

이어, 추출된 단어는 가중치도출부(133)에 의해 단어통계 분석 과정이 수행되며, 먼저 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치가 도출된다(S320). 도 11을 참조하면, 가중치도출단계(S320)는 복수의 문서데이터 각각에 대하여 상기 추출한 단어의 출현 빈도수를 산출하는 단계(S321), 상기 추출한 단어의 역문서 빈도수를 산출하는 단계(S322) 및 상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어빈도-역문서빈도(TF-IDF) 값을 산출하고 상기 산출한 TF-IDF값을 단어 통계정보로 획득하는 단계(S323)를 포함할 수 있다.

즉, 단어별 가중치는 단어의 출현 빈도수(TF; Term Frequency)와 역문서 빈도수(IDF; Inverse Document Frequency)를 이용한 TF-IDF 알고리즘에 의해 산출된다.

일예로, 단어빈도(TF)-역문서빈도수(IDF)는 하기 수학식 3에 의해 산출될 수 있으며, 단어 출현빈도수와 역문서 빈도수를 승산한다. 여기서 역문서빈도수에 '1'을 가산하는 이유는 로그 스케일의 밑(base)에 따라 역문서 빈도수가 음수가 나올 수 있으므로 이를 방지하기 위함이며, 로그 스케일의 밑이 1보다 큰 경우에는 '1'을 가산하지 않을 수도 있다.

[수학식 3]

여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.

단어별 가중치(TF-IDF값)는 하기 표 2에 나타낸 바와 같이 특정 문서데이터 내에서 단어 출현 빈도수가 높을수록, 그리고 전체 문서데이터 중 상기 단어를 포함한 문서데이터가 적을수록 가중치가 커지게 된다.

[표 2]

다음으로, 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation) 알고리즘을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출할 수 있다(S330). LDA 알고리즘은 공지기술로 문서의 주제별 분류에서 일반적으로 사용되는 툴이다.

예컨대, 주제(Topic; '기술분야'에 해당됨)의 수는 시스템에 미리 설정될 수 있으며, 주제의 수는 여러번의 테스트에 걸쳐 8개 내지 10개로 분류하는 것이 가장 적절한 것으로 확인되었다. 따라서, 하기 표 3과 같이 주제를 먼저 9개로 분류한 후 다수의 문서데이터에 LDA를 적용하여 각 주제별로 분류하였다.

하기 표 3에서와 같이 LDA의 결과로 도출된 각 주제에 속하는 특허 문서의 수와 각 주제를 구성하는 주요 키워드 정보를 나타낼 수 있으며, 각 주제에 대응하는 주요 키워드 정보를 이용하여, 해당 주제의 특성을 판단하는 것이 가능하다. 예를 들어 Topic 1의 경우 작은 입자를 접착하는 방식(Adhesive particulate bonding)의 기술 군집임을 유추할 수 있다.

[표 3]

이와 같이 주제확률분포산출부(135)는 주제별 키워드를 추출하고, 각 특허 문서별로 각 주제에 속할 확률분포를 하기 표 4와 같이 산출할 수 있다.

[표 4]

이어, 유사도산출부(137)는 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출할 수 있으며, 유사도 산출은 헬링거 디스턴스 알고리즘에 의해 산출될 수 있다(S340).

일예로, 유사도산출부(137)는 하기 수학식 4의 헬링거 디스턴스(Hellinger distance; H(P,Q))에 의해 기준 문서데이터와 다른 비교 대상 문서데이터 사이의 유사도를 산출할 수 있다.

[수학식 4]

헬링거 디스턴스로 산출되는 결과값(H(P,Q))은 0에서 1 사이의 값을 가지게 되는 데, 결과값이 작을수록 두 문서데이터 사이의 유사도 정도가 크고, 결과값이 클수록 두 문서데이터 간의 유사도 정도가 작다. 따라서, 최종 유사도 값(S(P,Q))은 직관적인 이해가 용이하도록 헬링커 디스턴스의 결과값(H(P,Q))을 하기 수학식 5와 같이 1로 감산한 후 감산된 값을 유사도 값으로 사용하는 것이 바람직하다.

[수학식 5]

하기 표 5는 상기 수학식 4 및 5에 의해 산출된 문서별 유사도 매트릭스의 일례를 나타낸 것이다.

[표 5]

다음으로, 인용정보생성부(150)는 유사도분석부(130)를 통해 산출된 문서간 유사도 및 인용관계분석부(110)를 통해 얻어진 문서간 인용 매트릭스의 각각의 해당 요소를 연산하여 가중(weighted) 인용 매트릭스를 하기 표 6과 같이 생성할 수 있다(S400). 일례로, 가중 인용 매트릭스의 각 값은 특정 문서간 유사도와 인용 상태값이 승산될 수 있으며, 인용 상태값은 '0' 또는 '1'일 수 있다. 즉, 하기 표 6에서와 같이 인용정보저장부(15)에 저장된 인용정보가 '0'일 경우에는 문서간 유사도에 관계없이 가중 인용정보는 '0'이다. 한편, 문서간 유사도와 인용 상태값을 가산할 경우에는 가중 인용 매트릭스의 결과값은 인용 상태값이 '0'일 경우에도 0보다 큰 값이 나올 수 있으며, 이 경우에는 아래의 가시적 인용 네트워크를 생성할 때 컷오프 기준값의 조정을 통해 구현하면 되므로 문제될 것이 없다.

[표 6]

다음으로, 기술발전도생성부(170)는 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성할 수 있다. 기술발전도가 생성될 때 문서 인용횟수 또는 유사도 정도에 따라 가시적 인용 네트워크를 가공하여 생성할 수 있다(S500). 이때 인용횟수와 유사도 정도는 시스템의 설정에 따라 가변될 수 있다.

기술발전도생성부(170)는 가시적 네트워크를 생성할 때, 인용 정보를 기준으로 하여 인용횟수가 설정된 횟수 이상인 핵심특허 문서를 추출하고, 해당 특허들에 대한 네트워크를 생성할 수 있다. 이때 유사도가 설정된 기준 이상인 특허 문서만 표시되도록 할 수 있다.

도 12는 인용횟수가 20회 이상인 특허문서들에 대한 핵심특허 발전도로서, 유사도 값이 0.7 이상인 문서만 링크가 표시되도록 함으로써, 실질적 내용 계승이 발생한 특허 간의 인용관계 네트워크를 생성한 것이다. 네트워크의 각 노드(Node)는 특허 문서를 나타내며, 각 노드의 크기는 인용횟수의 정도를 나타내며, 각 노드의 칼라(Color)는 해당 노드가 속한 주제를 나타낸다. 또한 링크의 방향은 인용의 방향을 의미하며, 링크의 굵기는 유사도의 정도로서 굵을수록 유사도가 높다는 것을 의미하므로, 내용적 계승이 크게 일어난 것을 의미한다.

이때, 인용횟수 기준이 너무 높을 경우 최근의 특허가 나타나지 않는다는 단점이 있을 수 있으므로 인용횟수를 도 13과 같이 10회로 낮출 경우 도 12보다 링크는 더 복잡해지며, 최근 특허와의 관련성도 보다 쉽게 확인할 수 있다.

이상에서 설명한 본 발명의 실시예 및 첨부된 도면에 의해 권리범위가 한정되는 것이 아니고 후술하는 특허청구범위에 의해 정해지며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.

1: 발전도 생성 시스템 10: 저장부
11: 문서데이터저장부 15: 인용정보저장부
100: 처리장치 110: 인용관계분석부
130: 유사도분석부 131: 단어추출부
133: 가중치도출부 135: 주제확률분포산출부
137: 유사도산출부 150: 인용정보생성부
170: 기술발전도생성부 200: 디스플레이

Claims

특허의 서지사항과 인용정보가 포함된 문서데이터를 이용하여 기술발전도를 생성하는 시스템에 있어서,
(a) 시스템은 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계;
(b) 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계;
(c) 상기 각 문서데이터로부터 단어를 추출하고, 상기 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 단계;
(d) 상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 단계;
(e) 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 설정된 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 단계; 및
(f) 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 단계;를 포함하며,
상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 방법.
수식

여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
삭제
삭제
청구항 1에 있어서,
상기 단어별 가중치는,
상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하는 단계;
전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하는 단계; 및
상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 단계;를 포함하는, 기술발전도 생성 방법.
청구항 1에 있어서,
상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 방법.
[수식]

여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.
삭제
청구항 1에 있어서,
상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 방법.
[수식]
청구항 1에 있어서,
상기 가시적 인용 네트워크는 문서의 인용횟수 또는 유사도 정도에 따라 가공되어 표현되는, 기술발전도 생성 방법.
삭제
수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하는 인용관계분석부;
상기 수집된 문서데이터로부터 추출된 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 가중치도출부;
상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 주제확률분포산출부;
상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 유사도산출부;
상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하는 인용정보생성부; 및
상기 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 기술발전도생성부;를 포함하며,
상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 시스템.
수식

여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
삭제
삭제
청구항 10에 있어서,
상기 가중치도출부는,
상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하고, 전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하되, 상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 것을 특징으로 하는, 기술발전도 생성 시스템.
청구항 10에 있어서,
상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 시스템.
수식

여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.
청구항 10에 있어서,
상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 시스템.
수식
청구항 10에 있어서,
상기 기술발전도생성부는 문서간의 인용횟수 또는 유사도에 따라 가시적 인용 네트워크를 가공하여 생성하는, 기술발전도 생성 시스템.