KR101616544B1 - Lda를 이용한 특허 문헌 분석 방법 - Google Patents

Lda를 이용한 특허 문헌 분석 방법 Download PDF

Info

Publication number
KR101616544B1
KR101616544B1 KR1020140025048A KR20140025048A KR101616544B1 KR 101616544 B1 KR101616544 B1 KR 101616544B1 KR 1020140025048 A KR1020140025048 A KR 1020140025048A KR 20140025048 A KR20140025048 A KR 20140025048A KR 101616544 B1 KR101616544 B1 KR 101616544B1
Authority
KR
South Korea
Prior art keywords
patent documents
document
keywords
word
words
Prior art date
Application number
KR1020140025048A
Other languages
English (en)
Other versions
KR20150103509A (ko
Inventor
장동식
김갑조
박상성
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140025048A priority Critical patent/KR101616544B1/ko
Publication of KR20150103509A publication Critical patent/KR20150103509A/ko
Application granted granted Critical
Publication of KR101616544B1 publication Critical patent/KR101616544B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

특허 문헌 분석 방법이 개시된다. 상기 특허 문헌 분석 방법은 다수의 특허 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 특허 문헌들 각각에 포함된 다수의 단어들 각각의 빈도 수(term frequency)를 요소로 하는 문서-단어 행렬을 생성하는 단계, 상기 문서-단어 행렬에 포함된 요소들 각각에 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중에서 다수의 키워드들을 선정하는 단계, 및 상기 다수의 키워드들에 LDA(Latent Dirichlet Allocation)를 적용하여 상기 다수의 특허 문헌들에 잠재된 다수의 주제들을 추출하는 단계를 포함한다.

Description

LDA를 이용한 특허 문헌 분석 방법{METHOD FOR ANALYZING PATENT DOCUMENTS USING A LATENT DIRICHLET ALLOCATION}
본 발명의 개념에 따른 실시 예는 특허 문헌 분석 방법에 관한 것으로, 특히 LDA(Latent Dirichlet Allocation)을 이용하여 특허 문헌들에 잠재되어 있는 주제들을 추출하고, 추출된 주제들 각각과 관련된 기술 분야의 기술 동향을 분석할 수 있는 특허 문헌 분석 방법에 관한 것이다.
최근 과학 기술 분야에서 급변하고 있는 기술의 동향을 분석할 수 있는 효과적인 방법론에 대한 요구가 높아지고 있다. 연구 개발의 초기 단계에서, 기업이나 국가는 투자할 가치가 있는 기술 분야를 선정하고, 선정된 기술 분야에 대한 연구 개발을 진행하는 전략을 가져야 한다.
이에 따라, 동일 기술 분야 또는 유사 기술 분야에 종사하고 있는 경쟁 회사나 기술 선도 기업의 기술을 모니터링할 수 있는 기술 동향 분석 방법론은 신제품 연구 개발에 필수적인 과정으로 자리잡고 있다. 이러한 기술 동향 분석은 기술에 대한 중요 정보와 지식을 포함하고 있는 특허 문헌을 분석함으로써 이루어질 수 있다.
특허 출원은 논문이나 기타 연구자료보다 이전에 진행되는 것이 일반적이기 때문에, 특허 분석 자료는 해당 분야의 기술동향을 파악할 수 있는 가장 기본적인 판단자료라고 할 수 있다.
그러나 현재까지의, 특허 문헌을 이용한 기술 동향 분석 방법에는 분석자나 연구자의 주관적 판단에 기초한 정성적 기법이 포함되어 있어, 분석 결과에 대한 객관성을 확보하기 어려운 문제점이 있다. 또한, 단순히 특허의 출원 수와 특허의 인용 수에 기초한 기술 동향 분석 방법에는 특허 문헌에 포함된 기술적 정보를 정확하게 표현하기 어려운 한계점이 존재한다. 따라서, 객관적이며 정확한 기술동향 분석 방법이 필요하다.
대한민국 공개특허공보 제2012-0021789호 일본국 공개특허공보 특개2006-318005호
본 발명이 이루고자 하는 기술적인 과제는 특허 문헌들을 텍스트 마이닝하여 구조화하고, 상기 특허 문헌들에 잠재된 주제들을 추출하여, 상기 주제들 각각과 관련된 기술 분야의 기술 동향을 파악할 수 있는 특허 문헌 분석 방법을 제공하는 것이다.
본 발명의 실시 예에 특허 문헌 분석 방법은, 다수의 특허 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 특허 문헌들 각각에 포함된 다수의 단어들 각각의 빈도 수(term frequency)를 요소로 하는 문서-단어 행렬을 생성하는 단계, 상기 문서-단어 행렬에 포함된 요소들 각각에 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중에서 다수의 키워드들을 선정하는 단계, 및 상기 다수의 키워드들에 LDA(Latent Dirichlet Allocation)를 적용하여 상기 다수의 특허 문헌들에 잠재된 다수의 주제들을 추출하는 단계를 포함한다.
상기 특허 문헌 분석 방법은, 상기 다수의 주제들 중 적어도 하나의 주제에 대한 연도별 특허 문헌의 분포를 추출하는 단계를 더 포함할 수 있다.
또한, 상기 특허 문헌 분석 방법은, 상기 적어도 하나의 주제와 관련된 기술 분야의 연구 개발 활성화 여부를 결정하는 단계를 더 포함할 수 있다.
상기 가중치는 상기 빈도 수에 비례하고, 상기 다수의 단어들 각각을 포함하는 특허 문헌의 수(inverse document frequency)에 반비례할 수 있다.
또한, 상기 특허 문헌 분석 방법은, 상기 문서-단어 행렬을 생성하는 단계 이전에, 적어도 하나의 DB(data base)로부터 제1 특허 문헌들을 수신하는 단계를 더 포함하고, 상기 제1 특허 문헌들은 상기 다수의 특허 문헌들에 포함될 수 있다.
상기 다수의 키워드들을 선정하는 단계는, 상기 다수의 단어들 중에서 미리 정해진 값보다 큰 가중치를 갖는 단어들을 키워들로 선정할 수 있다.
또한, 상기 다수의 주제들을 추출하는 단계는, VEM(Variational expectation maximization) 알고리즘을 사용하여 상기 다수의 주제들을 추출할 수 있다.
또한, 상기 문서-단어 행렬을 생성하는 단계는, 상기 다수의 특허 문헌들 각각에 대한 불용어 제거, 공백의 제거, 시제의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나를 포함할 수 있다.
본 발명의 실시 예에 따른 특허 문헌 분석 방법은 특허 문헌들을 텍스트 마이닝 함으로써, 구조화된 데이터를 통하여 상기 특허 문헌들을 분석할 수 있는 효과가 있다.
또한, 상기 특허 문헌 분석 방법은 LDA를 활용하여 특허 문헌들에 잠재되어 있는 주제들을 추출하고, 추출된 주제들에 대한 기술 분야의 연구 개발 현황을 추측할 수 있는 자료를 제공할 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 특허 분석 장치의 기능 블럭도이다.
도 2는 도 1에 도시된 특허 분석 장치가 DB로부터 데이터를 수신하는 과정을 설명하기 위한 도면이다.
도 3은 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 방법을 설명하기 위한 흐름도이다.
도 4는 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 결과의 일 예를 도시한다.
도 5는 부상하는 기술에 대한 분석 그래프의 일 예를 도시하고, 도 6은 쇠퇴하는 기술에 대한 분석 그래프의 일 예를 도시한다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
도 1은 본 발명의 일 실시 예에 따른 특허 분석 장치의 기능 블럭도이다.
도 1을 참조하면, 특허 분석 장치(10)는 텍스트 마이닝 모듈(100), 특징 선택 모듈(200), 주제 추출 모듈(300), 분석 모듈(400), 저장부(500), 및 제어 모듈(600)를 포함한다. 실시 예에 따라, 특허 분석 장치(10)는 입출력 모듈(700)과 통신 모듈(800)을 더 포함할 수 있다.
텍스트 마이닝 모듈(100)은 다수의 특허 문헌들 각각을 텍스트 마이닝할 수 있다. 텍스트 마이닝 모듈(100)은 상기 다수의 특허 문헌들 각각에 포함된 기재 내용 전체를 대상으로 하거나 상기 다수의 특허 문헌들 각각의 일부만을 대상으로 하여 텍스트 마이닝할 수 있다.
예컨대, 텍스트 마이닝 모듈(100)은 다수의 특허 문헌들 각각에 포함된 "요약" 부분만을 대상으로 텍스트 마이닝할 수 있다. 특허 문헌의 "요약" 부분에는 상기 특허 문헌에 기술된 발명의 내용이 요약되어 있거나 정리되어 있어, 발명에 대한 중요 정보를 포함하고 있는 핵심 부분으로 볼 수 있기 때문이다.
텍스트 마이닝 모듈(100)의 구제척인 동작을 살펴보면, 텍스트 마이닝 모듈(100)은 상기 다수의 특허 문헌들 각각에 포함된 단어들에 대한 표준화 작업을 수행할 수 있다. 상기 표준화 작업에는 불용어의 제거, 공백의 제거, 시제의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나의 과정이 포함될 수 있다. 상기 표준화 작업의 결과로써, 상기 다수의 문헌들에 포함된 다수의 단어들이 도출될 수 있다.
또한, 텍스트 마이닝 모듈(100)은 표준화 작업을 수행한 후, 상기 다수의 특허 문헌들 각각에 포함된 상기 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있다. 즉, 텍스트 마이닝 모듈(100)은 텍스트 마이닝 기법을 통하여 비구조화된 텍스트를 포함하고 있는 상기 다수의 특허 문헌들 각각을 구조화할 수 있다. 실시 예에 따라, 텍스트 마이닝 모듈(100)은 상기 다수의 단어들 각각이 상기 다수의 문헌들 각각에 포함된 빈도 수를 요소로 하는 문서-단어 행렬(X)을 생성할 수 있다.
상기 문서-단어 행렬(X)는 아래와 같이 표현될 수 있다.
Figure 112014020858248-pat00001
여기서, m(m은 1 이상의 자연수)은 텍스트 마이닝의 대상이 된 상기 다수의 특허 문헌들의 갯수를 나타낸다. 즉, 텍스트 마이닝 모듈(100)은 m 개의 특허 문헌들을 대상으로 텍스트 마이닝할 수 있다.
또한, n(n은 1 이상의 자연수)은 텍스트 마이닝의 결과로써 도출될 상기 다수의 단어들의 갯수를 의미한다. 즉, 텍스트 마이닝 모듈(100)은 m 개의 특허 문헌들을 텍스트 마이닝 하여 n 개의 단어들을 도출할 수 있다. 상기 문서-단어 행렬(X)는 m × n 행렬일 수 있다.
상기 문서-단어 행렬(X)의 각 요소 xkl(1≤k≤m, 1≤l≤n, k와 l은 자연수)은 k 번째 특허 문헌(dk)에 포함된 l 번째 단어(tl)의 갯수를 의미할 수 있다.
상기 문서-단어 행렬(X)는 아래의 수학식을 만족시킨다.
Figure 112014020858248-pat00002
여기서, D는 상기 다수의 특허 문헌들을 요소로 하는 m × 1의 행렬이고, T는 상기 다수의 단어들을 요소로 하는 m × 1의 행렬이다. 상기 행렬 D와 상기 행렬 T는 다음과 같이 표현될 수 있다.
Figure 112014020858248-pat00003
,
Figure 112014020858248-pat00004
특징 선택 모듈(200)은 텍스트 마이닝 모듈(100)에 의하여 구조화된 텍스트에 포함된 다수의 단어들 중 중요 단어, 즉 키워드를 선택할 수 있다. 구체적으로 특징 선택 모듈(200)은 상기 문서-단어 행렬(X)의 각 요소에 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중 키워드를 선택할 수 있다.
예컨대, 특징 선택 모듈(200)은 TF-IDF 가중치를 사용할 수 있다. 여기서 TF(term frequency)는 상기 다수의 특허 문헌들 각각에서 특정 단어가 포함된 빈도수를 의미한다. 상기 TF의 값이 클수록 상기 TF에 대응하는 단어가 중요 단어로 고려될 수 있다.
DF(document frequency)는 특정 단어가 나타난 문서의 수를 의미하며, 상기 DF의 역수를 IDF(inverse document frequency)라 한다. 상기 IDF의 값이 클수록 상기 IDF에 대응하는 단어가 중요 단어로 고려될 수 있다.
본 발명에서는 상기 TF와 상기 IDF의 곱을 가중치, 즉 TF-IDF 가중치로 사용한다. 결과적으로 상기 TF-IDF 가중치는 상기 TF와 상기 IDF의 곱으로 표현되며, 단어의 빈도수가 높을수록, 해당 단어가 포함된 문서의 수가 적을수록 높은 값을 가진다. 상기 TF-IDF 가중치가 높을수록 중요 단어, 즉 키워드로 판단될 수 있다.
상기 TF는 아래와 같이 계산될 수 있다.
Figure 112014020858248-pat00005
상기 TFi ,l은 상기 문서-단어 행렬(X)의 요소 중 i 번째 행 l 번째 열의 요소 즉, xil의 TF 값이다. 실시 예에 따라, 상기 TF 값은 상기 식과는 다른 식을 이용하여 도출될 수도 있다.
상기 IDF는 아래와 같이 계산될 수 있다.
Figure 112014020858248-pat00006
여기서, N은 상기 다수의 특허 문헌들의 갯수이며, 상기 j 는 상기 문서-단어 행렬(X)의 l 번째 열에 해당하는 단어, 즉 tl 의 빈도수를 의미한다. 즉, 상기 IDF 값은 특정 단어별로 동일한 값을 가질 수 있다.
실시 예에 따라 상기 IDF는 아래와 같이 계산될 수도 있다.
Figure 112014020858248-pat00007
또 다른 실시 예에서 상기 IDF는 상기 수학식들과는 다른 수학식을 이용하여 도출될 수도 있다.
아래의 행렬은 TF-IDF 가중치가 부여된 문서-단어 행렬(X´)을 나타낸다.
Figure 112014020858248-pat00008
특징 선택 모듈(200)은 TF-IDF 가중치에 기초하여 상기 다수의 단어들로부터 키워드를 선택할 수 있다. 예컨대, 특징 선택 모듈(200)은 TF-IDF 가중치가 0.1 보다 큰 단어들만을 키워드로 선택할 수 있다. 즉, 특징 선택 모듈(200)은 상기 TF-IDF 가중치가 부여된 문서-단어 행렬(X´)의 열(column) 단위로 TF-IDF 가중치가 미리 정해진 값보다 큰 경우 또는 크거나 같은 경우에 해당하는 열(column)에 대응하는 단어를 키워드로 선택할 수 있다.
주제 추출 모듈(300)은 선택된 키워드들에 기초하여 상기 다수의 특허 문헌들에 잠재되어 있는 주제들을 추출할 수 있다. 구체적으로 주제 추출 모듈(300)은 토픽 모델링 기법, 특히 LDA(Latent Dirichlet Allocation)를 통해 상기 다수의 특허 문헌들에 잠재되어 있는 주제들을 추출할 수 있다.
LDA에 따르면, 주제들은 단어들의 확률 분포이다. 예컨대, '얼룩무늬 고양이(tabby)', '그르렁거림(purr)', 및 '새끼 고양이(kitten)'라는 단어들과 관련된 특정한 확률 분포를 갖는 주제는 '고양이'일 수 있다. 주제 추출 모듈(300)은 예컨대, 다수의 특허 문헌들에 포함된 '얼룩무늬 고양이', '그르렁거림', 및 '새끼 고양이'라는 단어들 각각의 확률 분포를 계산하여 상기 다수의 특허 문헌들을 분석할 수 있다. 계산된 확률 분포는 상기 다수의 특허 문헌들이 '고양이'라는 주제와 관련된다라는 가능성(likehood)을 나타낼 수 있다. 주제는 추상적이며, '고양이'라는 단어는 추상적인 주제에 대해 임의적으로 부여된 이름(또는 라벨)에 불과하다.
LDA는 다수의 특허 문헌들 내에 잠재된 주제들을 추출하는 알고리즘으로서 VEM(variational expectation maximization)을 이용할 수 있다. 또한 LDA를 적용하기 위해서는 사전에 주제의 수가 결정되야 한다. 주제 추출 모듈(300)은 주제의 수를 결정하기 위해 혼잡도(perplexity; P)를 이용할 수 있다.
상기 혼잡도(P)는 학습된 생성 모델이 실제 관찰 가능한 결과를 생성해낼 확률을 측정하는 것으로, 상기 혼잡도(P)가 낮을수록 모델의 성능이 우수하다고 볼 수 있다. 주제 추출 모듈(300)은 아래의 수식을 통해 상기 혼잡도(P)를 계산하고, 계산된 혼잡도(P)에 대응하는 갯수의 주제들을 추출할 수 있다.
Figure 112014020858248-pat00009
여기서, M은 상기 다수의 특허 문헌들의 갯수이고, wd는 특허 문헌 d에 포함된 키워드들을 의미하고, p(wd)는 wd가 상기 특허 문헌 d에 존재할 확률을 의미한다. 또한, Nd는 특허 문헌 d 에 포함된 키워들의 갯수를 의미한다.
추출된 주제들과 관련하여, 상기 다수의 특허 문헌들 각각은 하나의 주제에 매칭될 수 있고, 경우에 따라서는 다수의 주제에 매칭될 수 있다. 즉, 하나의 특허 문헌은 하나 이상의 추출된 주제를 가질 수 있다.
분석 모듈(400)은 추출된 다수의 주제들 각각에 대하여 해당 주제에 매칭된 특허 문헌들을 추출할 수 있다. 즉, 분석 모듈(400)은 상기 다수의 주제들과 상기 다수의 특허 문헌들에 대한 매칭 동작을 수행할 수 있다. 또한, 분석 모듈(400)은 상기 다수의 주제들 각각에 매칭된 특허 문헌들의 출원일을 기준으로, 상기 다수의 주제들 각각에 대한 특허 문헌들의 연도별 분포를 분석할 수 있다.
또한 분석 모듈(400)은 상기 다수의 주제들 각각의 연도별 분포에 기초하여, 각각의 주제가 개발이 활성화되는 기술에 대한 주제인지 개발이 쇠퇴하는 기술에 대한 주제인지 여부를 결정할 수 있다.
저장부(500)는 프로그램 저장부와 데이터 저장부를 포함할 수 있다. 상기 프로그램 저장부에는 특허 분석 장치(10)의 동작을 제어하기 위한 프로그램들이 저장될 수 있다. 상기 데이터 저장부에는 상기 프로그램들을 수행하는 과정 중에 발생되는 데이터들이 저장될 수 있다. 또한, 상기 데이터 저장부에는 분석 대상인 특허 문헌들이 저장될 수 있다.
제어 모듈(600)은 특허 분석 장치(10)의 전반적인 동작을 제어한다. 즉, 제어 모듈(600)은 텍스트 마이닝 모듈(100), 특징 선택 모듈(200), 주제 추출 모듈(300), 분석 모듈(400), 저장부(500), 입출력 모듈(700), 및 통신 모듈(800)의 동작을 제어할 수 있다.
입출력 모듈(700)은 키보드, 마우스, 터치 패드 등과 같은 입력 장치를 통하여 사용자로부터 입력 데이터를 수신할 수 있다. 상기 입력 데이터는 특허 문헌들에 대한 데이터일 수 있다.
통신 모듈(800)은 제어 모듈(600)의 제어 하에 유·무선 통신망을 이용하여 적어도 하나의 DB(data base)로부터 특허 문헌들에 대한 데이터를 수신하거나 다운로드할 수 있다. 또한, 통신 모듈(800)은 제어 모듈(600)의 제어 하에 수신되거나 다운로드된 데이터를 저장부(500)에 저장할 수 있다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것이 아니다.
또한, 본 명세서에서 DB라 함은, 각각의 DB에 대응되는 정보를 저장하는 소프트웨어 및 하드웨어의 기능적 구조적 결합을 의미할 수 있다. DB는 적어도 하나의 테이블로 구현될 수도 있으며, 상기 DB에 저장된 정보를 검색, 저장, 및 관리하기 위한 별도의 DBMS(Database Management System)를 더 포함할 수도 있다. 또한, 링크드 리스트(linked-list), 트리(Tree), 관계형 DB의 형태 등 다양한 방식으로 구현될 수 있으며, 상기 DB에 대응되는 정보를 저장할 수 있는 모든 데이터 저장매체 및 데이터 구조를 포함한다.
도 2는 도 1에 도시된 특허 분석 장치가 DB로부터 데이터를 수신하는 과정을 설명하기 위한 도면이다.
도 1과 도 2를 참조하면, 특허 분석 장치(10)는 적어도 하나의 DB(30, 50 및 70)로부터 특허 문헌을 수신할 수 있다. 예컨대, 제1 DB(30)는 대한민국에 출원되어 공개된 특허 문헌들에 대한 자료를 제공해주는 DB일 수 있다. 또한, 제2 DB(50)는 미합중국에 출원되어 공개된 특허 문헌들에 대한 자료를 제공해 주는 DB로서, 미합중국 특허상표청(USPTO)에서 운영하는 DB일 수 있다. 또한, 제3 DB(70)는 가입된 회원에게만 특허 문헌들에 대한 자료를 제공해 주는 DB로서, 유로 DB일 수 있다.
도 2에는 3개의 DB만이 도시되어 있으나, 본 발명이 도 2에 도시된 DB의 갯수나 특정 DB에 한정되는 것은 아니다.
특허 분석 장치(10)의 통신 모듈(800)은 제어 모듈(600)의 제어 하에, 특허 문헌들에 대한 데이터를 수신할 수 있고, 수신된 데이터는 저장부(500)에 저장될 수 있다. 저장부(500)에 저장된 데이터는 특허 분석 장치(10)의 분석 대상이 될 수 있다.
도 3은 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 방법을 설명하기 위한 흐름도이다. 이하에서는 상술한 내용과 중복된 내용에 관하여는 그 기재를 생략하기로 한다.
도 1과 도 3을 참조하면, 특허 분석 장치(10)의 텍스트 마이닝 모듈(100)은 다수의 특허 문헌들 각각을 텍스트 마이닝할 수 있다(S100). 텍스트 마이닝 모듈(100)은 상기 다수의 특허 문헌들 각각에 포함된 기재 내용 전체를 대상으로 하거나 상기 다수의 특허 문헌들 각각의 일부만을 대상으로, 예컨대 다수의 특허 문헌들 각각에 포함된 "요약" 부분만을 대상으로 텍스트 마이닝할 수 있다.
텍스트 마이닝 모듈(100)은 상기 다수의 특허 문헌들 각각에 포함된 단어들에 대한 표준화 작업을 수행하고, 상기 표준화 작업의 결과로써, 상기 다수의 문헌들에 포함된 다수의 단어들을 추출할 수 있다.
또한, 텍스트 마이닝 모듈(100)은 표준화 작업을 수행한 후, 상기 다수의 특허 문헌들 각각에 포함된 상기 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있다. 즉, 텍스트 마이닝 모듈(100)은 텍스트 마이닝 기법을 통하여 비구조화된 텍스트를 포함하고 있는 상기 다수의 특허 문헌들 각각을 구조화할 수 있다. 실시 예에 따라, 텍스트 마이닝 모듈(100)은 상기 다수의 단어들 각각이 상기 다수의 문헌들 각각에 포함된 빈도 수를 요소로 하는 문서-단어 행렬(X)을 생성할 수 있다.
특징 선택 모듈(200)은 텍스트 마이닝 모듈(100)에 의하여 구조화된 텍스트에 포함된 다수의 단어들 중 중요 단어, 즉 키워드를 선택할 수 있다(S200). 구체적으로 특징 선택 모듈(200)은 상기 문서-단어 행렬(X)의 각 요소에 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중 키워드를 선택할 수 있다.
예컨대, 특징 선택 모듈(200)은 TF-IDF 가중치에 기초하여, 상기 다수의 단어들 중에서 다수의 키워드들을 선택할 수 있다.
주제 추출 모듈(300)은 선택된 키워드들에 기초하여 상기 다수의 특허 문헌들에 잠재되어 있는 주제들을 추출할 수 있다(S500). 구체적으로 주제 추출 모듈(300)은 토픽 모델링 기법, 특히 LDA(Latent Dirichlet Allocation)를 통해 상기 다수의 특허 문헌들에 잠재되어 있는 주제들을 추출할 수 있다. LDA는 다수의 특허 문헌들 내에 잠재된 주제들을 추출하는 알고리즘으로서 VEM(variational expectation maximization)을 이용할 수 있다.
주제 추출 모듈(300)은 주제의 수를 결정하기 위해 혼잡도(perplexity; P)를 이용할 수 있다. 추출된 주제들과 관련하여, 상기 다수의 특허 문헌들 각각은 하나의 주제에 매칭될 수 있고, 경우에 따라서는 다수의 주제에 매칭될 수 있다. 즉, 하나의 특허 문헌은 하나 이상의 추출된 주제를 가질 수 있다.
분석 모듈(400)은 상기 다수의 주제들과 상기 다수의 특허 문헌들에 대한 매칭 동작을 수행하고, 매칭 결과를 기초로 상기 다수의 특허 문헌들을 분석할 수 있다(S700). 즉, 분석 모듈(400)은 추출된 다수의 주제들 각각에 대하여 해당 주제에 매칭된 특허 문헌들을 추출할 수 있다. 또한, 분석 모듈(400)은 상기 다수의 주제들 각각에 매칭된 특허 문헌들의 출원일을 기준으로, 상기 다수의 주제들 각각에 대한 특허 문헌들의 연도별 분포를 분석할 수 있다.
또한 분석 모듈(400)은 상기 다수의 주제들 각각의 연도별 분포에 기초하여 각각의 주제가 개발이 활성화되는 기술에 대한 주제인지 개발이 쇠퇴하는 기술에 대한 주제인지 여부를 결정할 수 있다.
본 발명의 일 실시 예에 의한 특허 분석 방법은 S100 단계 이전에 적어도 하나의 DB로부터 특허 문헌들에 대한 데이터를 수신하는 단계를 더 포함할 수 있다.
도 4는 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 결과의 일례를 도시한다.
도 1과 도 4를 참조하면, 특허 분석 장치(10)의 분석 모듈(400)은 임의의 주제에 대한 연도별 특허 문헌의 분포를 분석할 수 있고, 분석 결과는 도시되지 않은 디스플레이를 통하여 사용자에게 제공할 수 있다.
도 4의 가로축은 연도를 표시하고, 세로축은 각 연도별 상기 임의의 주제가 포함된 특허 문헌의 갯수를 도시한다.
사용자는 제공된 그래프를 통하여 상기 제1 주제에 관련된 기술의 경우, 2000년대 초반부터 활발한 연구가 진행되다가 2010년대 초반부터 연구가 쇠퇴하는 것으로 판단할 수 있다.
도 5는 부상하는 기술에 대한 분석 그래프의 일 예를 도시하고, 도 6은 쇠퇴하는 기술에 대한 분석 그래프의 일 예를 도시한다.
도 1, 도 5 및 도 6을 참조하면, 그래프의 가로축은 연도를 의미하고, 세로축은 각 주제에 대한 연도별 특허 문헌 수를 의미한다. 또한, 도 5와 도 6에 기재된 Y1, Y2, Y3, 및 Y4는 특정 연도를 의미할 수 있고, 실시 예에 따라 200년대 초반, 2000년대 중반, 또는 2000년대 후반과 같은 개략적인 연도를 의미할 수도 있다.
도 5에 도시된 제2 주제에 대한 연도별 분포 그래프(G1), 제3 주제에 대한 연도별 분포 그래프(G2) 및 제4 주제에 대한 연도별 분포 그래프(G3)는 모두 전체적으로 연도가 흐름에 따라 우상향을 향하는 그래프에 해당한다. 따라서, 도 5를 제공받은 사용자는 상기 제2 주제, 상기 제3 주제, 및 상기 제4 주제에 대한 기술 분야의 연구가 활발히 진행되고, 상기 기술 분야를 부상하는 또는 성장하는 기술 분야로 판단할 수 있다.
도 6에 도시된 제5 주제에 대한 연도별 분포 그래프(G4), 제6 주제에 대한 연도별 분포 그래프(G5), 및 제7 주제에 대한 연도별 분포 그래프(G6)는 모두 우하향을 향하는 그래프에 해당한다. 따라서, 도 6을 제공받은 사용자는 상기 제5주제, 상기 제6 주제, 및 상기 제7 주제에 대한 기술 분야의 연구가 쇠퇴하고 있으며, 상기 기술 분야를 쇠퇴하는 기술 분야로 판단할 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 특허 분석 장치 30 : 제1 DB
50 : 제2 DB 70 : 제3 DB
100 : 텍스트 마이닝 모듈 200 : 특징 선택 모듈
300 : 주제 추출 모듈 400 : 분석 모듈
500 : 저장부 600 : 제어 모듈
700 : 입출력 모듈 800 : 통신 모듈

Claims (8)

  1. 다수의 특허 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 특허 문헌들 각각에 포함된 다수의 단어들 각각의 빈도 수(term frequency)를 요소로 하는 문서-단어 행렬을 생성하는 단계;
    상기 문서-단어 행렬에 포함된 요소들 각각에 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중에서 다수의 키워드들을 선정하는 단계;
    추출될 다수의 주제들의 개수를 결정하는 단계; 및
    상기 다수의 키워드들에 LDA(Latent Dirichlet Allocation)를 적용하여 상기 다수의 특허 문헌들에 잠재된 상기 다수의 주제들을 추출하는 단계를 포함하며,
    상기 다수의 주제들의 개수는 수학식에 의해 정의되는 혼잡도(P)에 대응하는,
    특허 문헌 분석 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 주제와 관련된 기술 분야의 연구 개발 활성화 여부를 결정하는 단계를 더 포함하는 특허 문헌 분석 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 가중치는 상기 빈도 수에 비례하고, 상기 다수의 단어들 각각을 포함하는 특허 문헌의 수(inverse document frequency)에 반비례하고,
    상기 수학식은
    Figure 112015045854017-pat00016
    이고,
    상기 M은 상기 다수의 특허 문헌들의 개수이고,
    상기 wd는 특허 문헌(d)에 포함된 키워드들을 의미하고,
    상기 p(wd)는 상기 wd가 상기 특허 문헌(d)에 존재할 확률을 의미하고,
    상기 Nd는 상기 특허 문헌(d)에 포함된 키워드들의 개수를 의미하는,
    특허 문헌 분석 방법.
  5. 제1항에 있어서,
    상기 문서-단어 행렬을 생성하는 단계 이전에,
    적어도 하나의 DB(data base)로부터 제1 특허 문헌들을 수신하는 단계를 더 포함하고,
    상기 제1 특허 문헌들은 상기 다수의 특허 문헌들에 포함되는 특허 문헌 분석 방법.
  6. 제1항에 있어서,
    상기 다수의 키워드들을 선정하는 단계는, 상기 다수의 단어들 중에서 미리 정해진 값보다 큰 가중치를 갖는 단어들을 키워들로 선정하는 특허 문헌 분석 방법.
  7. 제1항에 있어서,
    상기 다수의 주제들을 추출하는 단계는,
    VEM(Variational expectation maximization) 알고리즘을 사용하여 상기 다수의 주제들을 추출하는 특허 문헌 분석 방법.
  8. 제1항에 있어서,
    상기 문서-단어 행렬을 생성하는 단계는,
    상기 다수의 특허 문헌들 각각에 대한 불용어 제거, 공백의 제거, 시제의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나를 포함하는 단어 표준화 단계를 포함하는 특허 문헌 분석 방법.
KR1020140025048A 2014-03-03 2014-03-03 Lda를 이용한 특허 문헌 분석 방법 KR101616544B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140025048A KR101616544B1 (ko) 2014-03-03 2014-03-03 Lda를 이용한 특허 문헌 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140025048A KR101616544B1 (ko) 2014-03-03 2014-03-03 Lda를 이용한 특허 문헌 분석 방법

Publications (2)

Publication Number Publication Date
KR20150103509A KR20150103509A (ko) 2015-09-11
KR101616544B1 true KR101616544B1 (ko) 2016-04-28

Family

ID=54243693

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140025048A KR101616544B1 (ko) 2014-03-03 2014-03-03 Lda를 이용한 특허 문헌 분석 방법

Country Status (1)

Country Link
KR (1) KR101616544B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026351A (ko) 2018-08-29 2020-03-11 동국대학교 산학협력단 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법
KR20200064520A (ko) 2018-11-29 2020-06-08 유혜정 분석 알고리즘을 활용한 연구개발 방향 설정용 특허분석시스템 및 이를 이용한 특허분석방법
KR102389671B1 (ko) 2021-02-08 2022-04-25 주식회사 잡쇼퍼 인공지능 기반의 학업 탐구 주제 데이터베이스 생성 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091628B1 (ko) * 2017-08-11 2020-03-20 고려대학교 산학협력단 토픽 모델링과 주성분 분석을 이용한 특허 공백기술 도출 장치 및 방법
CN109165290A (zh) * 2018-06-21 2019-01-08 太原理工大学 一种基于全覆盖粒计算的文本特征选择方法
KR102221267B1 (ko) * 2018-12-10 2021-03-02 건국대학교 산학협력단 기술 경쟁 정보 제공 장치 및 방법
KR102418239B1 (ko) * 2019-09-09 2022-07-07 청주대학교 산학협력단 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치
KR102161666B1 (ko) * 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318005A (ja) 2005-05-10 2006-11-24 Ird:Kk 特許価値算出装置、特許価値算出方法およびプログラム
KR101199527B1 (ko) 2010-08-17 2012-11-09 한국과학기술정보연구원 특허정보에 기반한 기술구조 분석 시스템 및 방법
KR101372928B1 (ko) * 2012-02-03 2014-03-14 한국과학기술원 사용자 선호주제 기반 tv프로그램 콘텐츠 자동추천 장치, 시스템, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kurt Hornik et al., ‘topicmodels: An R Package for Fitting Topic Models’, Journal of Statistical Software May 2011, Volume 40, Issue 13
최도한, ‘부상 기술 예측을 위한 특허키워드정보분석에 관한 연구’, 고려대학교 산업경영공학과 학위논문(석사), 2014.02

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026351A (ko) 2018-08-29 2020-03-11 동국대학교 산학협력단 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법
KR20200064520A (ko) 2018-11-29 2020-06-08 유혜정 분석 알고리즘을 활용한 연구개발 방향 설정용 특허분석시스템 및 이를 이용한 특허분석방법
KR102389671B1 (ko) 2021-02-08 2022-04-25 주식회사 잡쇼퍼 인공지능 기반의 학업 탐구 주제 데이터베이스 생성 방법

Also Published As

Publication number Publication date
KR20150103509A (ko) 2015-09-11

Similar Documents

Publication Publication Date Title
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
Soibelman et al. Management and analysis of unstructured construction data types
Baur et al. Analysis of ratios in multivariate morphometry
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
Koper et al. A guide to developing resource selection functions from telemetry data using generalized estimating equations and generalized linear mixed models
US9305076B1 (en) Flattening a cluster hierarchy tree to filter documents
US20140278339A1 (en) Computer System and Method That Determines Sample Size and Power Required For Complex Predictive and Causal Data Analysis
US20140365403A1 (en) Guided event prediction
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
Ezzeldin et al. Metaresearching structural engineering using text mining: Trend identifications and knowledge gap discoveries
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
US20190197043A1 (en) System and method for analysis and represenation of data
CN111198897A (zh) 科研热点主题分析方法、装置与电子设备
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
CN107256254B (zh) 一种行业景气指数获取方法、存储设备及终端
Kim et al. Automated detection of influential patents using singular values
Schepers et al. TwoMP: A MATLAB graphical user interface for two-mode partitioning
Scholta Semi-automatic inductive derivation of reference process models that represent best practices in public administrations
KR101492016B1 (ko) 문서 분석 방법
US11768852B2 (en) System and method for data analysis and presentation of data
CN110837604A (zh) 基于住房监控平台的数据分析方法及装置
KR101327159B1 (ko) 문서의 토픽 흐름 분석방법
CN106933815B (zh) 文献价值获取方法与装置
CN111611397A (zh) 信息匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant