KR101505546B1 - 텍스트 마이닝을 이용한 키워드 도출 방법 - Google Patents

텍스트 마이닝을 이용한 키워드 도출 방법 Download PDF

Info

Publication number
KR101505546B1
KR101505546B1 KR1020140043649A KR20140043649A KR101505546B1 KR 101505546 B1 KR101505546 B1 KR 101505546B1 KR 1020140043649 A KR1020140043649 A KR 1020140043649A KR 20140043649 A KR20140043649 A KR 20140043649A KR 101505546 B1 KR101505546 B1 KR 101505546B1
Authority
KR
South Korea
Prior art keywords
document
word
keyword
weight
text mining
Prior art date
Application number
KR1020140043649A
Other languages
English (en)
Inventor
장동식
박상성
김갑조
최도한
김종찬
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140043649A priority Critical patent/KR101505546B1/ko
Application granted granted Critical
Publication of KR101505546B1 publication Critical patent/KR101505546B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Abstract

키워드 도출 방법이 개시된다. 상기 키워드 도출 방법은 다수의 기술 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 기술 문헌들 각각에 포함된 다수의 단어들 각각의 단어-빈도 수(term frequency; TF)를 요소로 하는 문서-단어 행렬을 생성하는 단계, 역-문서 빈도 수(inverse document frequency; IDF)를 이용하여 상기 문서-단어 행렬의 각 요소의 제1 가중치를 결정하는 단계, 단어별로 상기 단어에 대응하는 제1 가중치의 총 합을 상기 단어가 포함된 문헌의 수로 나눈 값을 제2 가중치로 결정하는 단계, 및 상기 제2 가중치를 기초로 키워드를 선정하는 단계를 포함한다.

Description

텍스트 마이닝을 이용한 키워드 도출 방법{KEYWORD EXTRACTING METHOD USING TEXT MINING}
본 발명의 개념에 따른 실시 예는 키워드 도출 방법에 관한 것으로, 특히 텍스트 마이닝을 이용하여 기술 문헌을 표준화 또는 구조화하고, 제1 가중치와 제2 가중치를 부여하여 상기 기술 문헌에 포함된 단어들 중에서 키워드를 도출할 수 있는 키워드 도출 방법에 관한 것이다.
최근 과학 기술 분야에서 급변하고 있는 기술의 동향을 분석할 수 있는 효과적인 방법론에 대한 요구가 높아지고 있다. 연구 개발의 초기 단계에서, 기업이나 국가는 투자할 가치가 있는 기술 분야를 선정하고, 선정된 기술 분야에 대한 연구 개발을 진행하는 전략을 가져야 한다.
이에 따라, 동일 기술 분야 또는 유사 기술 분야에 종사하고 있는 경쟁 회사나 기술 선도 기업의 기술을 모니터링할 수 있는 기술 동향 분석 방법론은 신제품 연구 개발에 필수적인 과정으로 자리잡고 있다. 이러한 기술 동향 분석은 기술에 대한 중요 정보와 지식을 포함하고 있는 특허 문헌을 분석함으로써 이루어질 수 있다.
특허 출원은 논문이나 기타 연구자료보다 이전에 진행되는 것이 일반적이기 때문에, 특허 분석 자료는 해당 분야의 기술동향을 파악할 수 있는 가장 기본적인 판단자료라고 할 수 있다.
그러나 현재까지의, 특허 문헌 분석 방법에는 분석자나 연구자의 주관적 판단에 기초한 정성적 기법이 포함되어 있어, 분석 결과에 대한 객관성을 확보하기 어려운 문제점이 있다. 또한, 단순히 단어 빈도 수(TF; term frequency)와 역-문서 빈도 수(inverse-document frequency)를 이용한 키워드 도출 방법은 특허 문헌의 키워드를 적절히 도출해 내지 못하고 있는 실정이다. 따라서, 객관적이며 정확한 키워드 도출 방법이 필요하다.
대한민국 공개특허공보 제2012-0021789호 일본국 공개특허공보 특개2006-318005호
본 발명이 이루고자 하는 기술적인 과제는 기술 문헌들을 텍스트 마이닝하여 구조화하고, 상기 기술 문헌들에 포함된 다수의 단어들 중에서 키워드를 도출함으로써, 상기 기술 문헌들을 용이하게 분석할 수 있는 키워드 도출 방법을 제공하는 것이다.
본 발명의 실시 예에 따른 키워드 도출 방법은, 다수의 기술 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 기술 문헌들 각각에 포함된 다수의 단어들 각각의 단어-빈도 수(term frequency; TF)를 요소로 하는 문서-단어 행렬을 생성하는 단계, 역-문서 빈도 수(inverse document frequency; IDF)를 이용하여 상기 문서-단어 행렬의 각 요소의 제1 가중치를 결정하는 단계, 단어별로 상기 단어에 대응하는 제1 가중치의 총 합을 상기 단어가 포함된 문헌의 수로 나눈 값을 제2 가중치로 결정하는 단계, 및 상기 제2 가중치를 기초로 키워드를 선정하는 단계를 포함할 수 있다.
상기 다수의 기술 문헌들은 다수의 특허 문헌들이고, 상기 문서-단어 행렬을 생성하는 단계는 상기 다수의 특허 문헌들 각각의 요약 부분만을 대상으로 텍스트 마이닝할 수 있다.
또한, 상기 문서-단어 행렬을 생성하는 단계는 상기 문서-단어 행렬의 각 요소를 정규화하는 단계를 포함할 수 있다.
또한, 상기 제1 가중치는 상기 문서-단어 행렬의 각 요소와 상기 역-문서 빈도 수의 곱을 이용하여 결정될 수 있다.
또한, 상기 키워드 도출 방법은 상기 문서-단어 행렬을 생성하는 단계 이전에 적어도 하나의 DB(data base)로부터 제1 기술 문헌들을 수신하는 단계를 더 포함하고, 상기 제1 기술 문헌들은 상기 다수의 기술 문헌들에 포함될 수 있다.
또한, 상기 키워드를 선정하는 단계는 상기 다수의 단어들 중에서 미리 정해진 값보다 큰 제2 가중치를 갖는 단어를 상기 키워드로 선정할 수 있다.
또한, 상기 문서-단어 행렬을 생성하는 단계는 상기 다수의 기술 문헌들 각각에 대한 불용어 제거, 공백의 제거, 시제의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나를 포함하는 표준화 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 키워드 도출 방법은 다수의 기술 문헌들을 텍스트 마이닝 함으로써, 구조화된 데이터를 통하여 상기 다수의 기술 문헌들을 분석할 수 있는 효과가 있다.
또한, 상기 키워드 도출 방법은 제1 가중치와 제2 가중치를 이용하여 상기 다수의 기술 문헌들에 포함된 다수의 단어들 중에서 키워드를 도출할 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 키워드 도출 장치의 기능 블럭도이다.
도 2는 도 1에 도시된 키워드 도출 장치가 DB로부터 데이터를 수신하는 과정을 설명하기 위한 도면이다.
도 3은 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 방법을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
도 1은 본 발명의 일 실시 예에 따른 키워드 도출 장치의 기능 블럭도이다.
도 1을 참조하면, 키워드 도출 장치(10)는 문헌 수집 모듈(110), 텍스트 마이닝 모듈(130), 키워드 선택 모듈(150), 저장부(170) 및 제어 모듈(190)을 포함한다. 실시 예에 따라, 키워드 도출 장치(10)는 키워드 도출 결과를 사용자에게 제공하기 위한 입출력 모듈과 디스플레이를 더 포함할 수 있다.
문헌 수집 모듈(110)은 제어 모듈(190)의 제어 하에 유·무선 통신망을 이용하여 적어도 하나의 DB(data base)로부터 기술 문헌들에 대한 데이터를 수신하거나 다운로드할 수 있다. 또한, 문헌 수집 모듈(110)은 제어 모듈(190)의 제어 하에 수신되거나 다운로드된 데이터를 저장부(170)에 저장할 수 있다. 상기 기술 문헌들은 특허 문헌들이거나 논문들일 수 있다.
텍스트 마이닝 모듈(130)은 다수의 기술 문헌들, 예컨대 다수의 특허 문헌들 각각을 텍스트 마이닝할 수 있다. 텍스트 마이닝 모듈(130)은 상기 다수의 특허 문헌들 각각에 포함된 기재 내용 전체를 대상으로 하거나 상기 다수의 특허 문헌들 각각의 일부만을 대상으로 하여 텍스트 마이닝할 수 있다.
예컨대, 텍스트 마이닝 모듈(130)은 다수의 특허 문헌들 각각에 포함된 "요약" 부분만을 대상으로 텍스트 마이닝할 수 있다. 특허 문헌의 "요약" 부분에는 상기 특허 문헌에 기술된 발명의 내용이 요약되어 있거나 정리되어 있어, 발명에 대한 중요 정보를 포함하고 있는 핵심 부분으로 볼 수 있기 때문이다.
텍스트 마이닝 모듈(130)의 구제척인 동작을 살펴보면, 텍스트 마이닝 모듈(130)은 상기 다수의 특허 문헌들 각각에 대한 표준화 작업을 수행할 수 있다. 상기 표준화 작업에는 특수문자의 제거, 불용어의 제거, 공백의 제거, 시제의 제거, 전치사의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나의 과정이 포함될 수 있다. 텍스트 마이닝 모듈(130)은 상기 표준화 작업의 결과로써, 상기 다수의 특허 문헌들 각각을 하나의 문서로 변환할 수 있다. 즉 변환된 문서는 표준화 작업이 수행된 문서로서, 대응하는 특허 문헌에 포함된 다수의 단어들을 포함하고 있다.
또한, 텍스트 마이닝 모듈(130)은 표준화 작업을 수행한 후, 상기 다수의 특허 문헌들 각각에 포함된 상기 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있다. 즉, 텍스트 마이닝 모듈(130)은 텍스트 마이닝 기법을 통하여 비구조화된 텍스트를 포함하고 있는 상기 다수의 특허 문헌들 각각을 구조화할 수 있다. 실시 예에 따라, 텍스트 마이닝 모듈(130)은 상기 다수의 단어들 각각이 상기 다수의 문헌들 각각에 포함된 빈도 수(TF; term frequency)를 요소(또는 성분)로 하는 문서-단어 행렬(X)을 생성할 수 있다.
예컨대, 상기 문서-단어 행렬(X)은 아래와 같이 표현될 수 있다.
Figure 112014034869166-pat00001
여기서, m(m은 1 이상의 자연수)은 텍스트 마이닝의 대상이 된 상기 다수의 특허 문헌들의 갯수를 나타낸다. 즉, 텍스트 마이닝 모듈(130)은 m 개의 특허 문헌들을 대상으로 텍스트 마이닝할 수 있다.
또한, n(n은 1 이상의 자연수)은 텍스트 마이닝의 결과로써 도출된 상기 다수의 단어들의 갯수를 의미한다. 즉, 텍스트 마이닝 모듈(130)은 m 개의 특허 문헌들을 텍스트 마이닝 하여 n 개의 단어들을 도출할 수 있다. 상기 문서-단어 행렬(X)은 m × n 행렬일 수 있다.
상기 문서-단어 행렬(X)의 각 요소 xkl(1≤k≤m, 1≤l≤n, k와 l은 자연수)은 k 번째 특허 문헌(dk)에 포함된 l 번째 단어(tl)의 갯수를 의미할 수 있다.
상기 문서-단어 행렬(X)은 아래의 수학식을 만족시킨다.
Figure 112014034869166-pat00002
여기서, D는 상기 다수의 특허 문헌들을 요소로 하는 m × 1의 행렬이고, T는 상기 다수의 단어들을 요소로 하는 n × 1의 행렬이다. 상기 행렬 D와 상기 행렬 T는 다음과 같이 표현될 수 있다.
Figure 112014034869166-pat00003
,
Figure 112014034869166-pat00004
그러나, 다수의 기술 문헌들, 즉 다수의 특허 문헌들 각각의 문서 길이(또는 문서 분량)는 상이하며, 이러한 차이로 인해 상기 다수의 특허 문헌들 각각에 출현하는 단어 빈도 수(TF)가 달라지는 문제점이 발생할 수 있다. 이러한 문제점은 단어의 중요도 측정 시에 정확성을 감소시키는 요인이 될 수 있다. 따라서, 실시 예에 따라, 텍스트 마이닝 모듈(130)은 상기 문서-단어 행렬(X)의 각 요소를 정규화함으로써, 정규화된 문서-단어 행렬(X´)을 생성할 수 있다. 상기 문서-단어 행렬(X)의 각 요소(x)는 아래의 수학식을 통하여 정규화될 수 있다.
Figure 112014034869166-pat00005
이때, 상기 a는 음이 아닌 실수이고 상기 b는 양의 실수이다. 실시 예에 따라 상기 a 와 상기 b의 값은 동일할 수 있고, 동일한 값은 0.5일 수 있다.
키워드 선택 모듈(150)은 텍스트 마이닝 모듈(130)에 의하여 구조화된 텍스트에 포함된 다수의 단어들 중 중요 단어, 즉 키워드를 선택할 수 있다. 구체적으로 키워드 선택 모듈(150)은 문서-단어 행렬(X) 또는 정규화된 문서-단어 행렬(X´)의 각 요소에 제1 가중치와 제2 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중에서 키워드를 선택할 수 있다.
예컨대, 키워드 선택 모듈(150)은 상기 제1 가중치로 TF-IDF 가중치를 사용할 수 있다. 여기서 TF(term frequency)는 상기 다수의 특허 문헌들 각각에서 특정 단어가 포함된 빈도 수를 의미한다. 상기 TF의 값이 클수록 상기 TF에 대응하는 단어가 중요 단어로 고려될 수 있다.
DF(document frequency)는 특정 단어가 나타난 문서의 수를 의미하며, 상기 DF의 역수를 IDF(inverse document frequency)라 한다. 상기 IDF의 값이 클수록 상기 IDF에 대응하는 단어가 중요 단어로 고려될 수 있다. 실시 예에 따라, 상기 TF는 텍스트 마이닝 모듈(130)에 의해 정규화된 TF(문서-단어 행렬의 정규화된 요소)일 수도 있다.
본 발명에서는 상기 TF와 상기 IDF의 곱을 제1 가중치, 즉 TF-IDF 가중치로 사용한다. 결과적으로 상기 TF-IDF 가중치는 상기 TF와 상기 IDF의 곱으로 표현되며, 단어의 빈도 수가 높을수록, 해당 단어가 포함된 문서의 수가 적을수록 높은 값을 가진다. 상기 TF-IDF 가중치가 높을수록 중요 단어, 즉 키워드로 판단될 수 있다.
상기 TF는 상기 문서-단어 행렬(X) 또는 상기 정규화된 문서-단어 행렬(X´)의 각 요소를 의미한다. 즉, 아래의 수학식이 성립한다.
Figure 112014034869166-pat00006
, 또는
Figure 112014034869166-pat00007
상기 TFkl은 상기 문서-단어 행렬(X) 또는 상기 정규화된 문서-단어 행렬(X´)의 요소 중 k 번째 행 l 번째 열의 요소, 즉 xkl을 의미한다.
실시 예에 따라, 상기 IDF는 아래와 같이 계산될 수 있다.
Figure 112014034869166-pat00008
상기 수학식에서, D는 분석 대상인 상기 다수의 기술 문헌들, 즉 상기 다수의 특허 문헌들의 수를 의미하고, Dl는 단어(tl)가 포함된 문서의 수를 의미한다. 상기 제1 가중치를 계산할 때, 상기 IDF보다 상기 TF의 비중 또는 기여도를 높이기 위하여 상기 IDF에는 log 함수를 포함할 수 있다. 따라서, 상기 TF-IDF 가중치는 특정 문서에서 많이 등장하고 전체 문서에서 흔하게 등장하지 않는 단어에 높은 가중치를 부여하게 된다. 상기와 같이 구해진 IDF 값은 특정 단어별로 동일한 값을 가질 수 있다.
결국 상기 제1 가중치, 즉 TF-IDF 가중치는 아래의 식을 만족하게 된다.
Figure 112014034869166-pat00009
상기와 같이, 키워드 선택 모듈(150)은 상기 문서-단어 행렬(X) 또는 상기 정규화된 문서-단어 행렬(X´)로부터 제1 가중치가 부여된 문서-단어 행렬(X1)을 생성할 수 있다.
또한, 키워드 선택 모듈(150)은 상기 문서-단어 행렬(X1)로부터 제2 가중치(TIC; TF-IDF Criterion)가 부여된 문서-단어 행렬(X2)을 생성할 수 있다. 제2 가중치는 아래의 수학식을 이용하여 계산될 수 있다.
Figure 112014034869166-pat00010
상기 제2 가중치(TIC)는 단어(tl)에 대한 TF-IDF 가중치, 즉 제1 가중치의 총합을 단어(tl)가 등장한 문서의 수(Dl)로 나눈 값으로서, 각 단어마다 통합된 하나의 제2 가중치(TIC)가 부여된다. 키워드 선택 모듈(150)은 상기 제2 가중치(TIC)가 부여된 문서-단어 행렬(X2)을 생성하고, 상기 문서-단어 행렬(X2)에 포함된 상기 제2 가중치(TIC)의 값을 기준으로 키워드를 선택할 수 있다. 구체적으로, 키워드 선택 모듈(150)은 다수의 단어들 중에서 임계치 이상(또는 초과)의 값에 해당하는 상기 제2 가중치(TIC)를 갖는 단어만을 키워드로 선택할 수 있다.
저장부(170)는 프로그램 저장부와 데이터 저장부를 포함할 수 있다. 상기 프로그램 저장부에는 키워드 도출 장치(10)의 동작을 제어하기 위한 프로그램들이 저장될 수 있다. 상기 데이터 저장부에는 상기 프로그램들을 수행하는 과정 중에 발생되는 데이터들이 저장될 수 있다. 또한, 상기 데이터 저장부에는 분석 대상인 특허 문헌들 또는 기술 문헌들이 저장될 수 있다.
제어 모듈(190)은 키워드 도출 장치(10)의 전반적인 동작을 제어한다. 즉, 제어 모듈(190)은 문헌 수집 모듈(110), 텍스트 마이닝 모듈(130), 키워드 선택 모듈(150), 및 저장부(170)의 동작을 제어할 수 있다.
입출력 모듈은 키보드, 마우스, 터치 패드 등과 같은 입력 장치를 통하여 사용자로부터 입력 데이터를 수신할 수 있다. 상기 입력 데이터는 특허 문헌들 또는 기술 문헌들에 대한 데이터일 수 있다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것이 아니다.
또한, 본 명세서에서 DB라 함은, 각각의 DB에 대응되는 정보를 저장하는 소프트웨어 및 하드웨어의 기능적 구조적 결합을 의미할 수 있다. DB는 적어도 하나의 테이블로 구현될 수도 있으며, 상기 DB에 저장된 정보를 검색, 저장, 및 관리하기 위한 별도의 DBMS(Database Management System)를 더 포함할 수도 있다. 또한, 링크드 리스트(linked-list), 트리(Tree), 관계형 DB의 형태 등 다양한 방식으로 구현될 수 있으며, 상기 DB에 대응되는 정보를 저장할 수 있는 모든 데이터 저장매체 및 데이터 구조를 포함한다.
도 2는 도 1에 도시된 키워드 도출 장치가 DB로부터 데이터를 수신하는 과정을 설명하기 위한 도면이다.
도 1과 도 2를 참조하면, 키워드 도출 장치(10)는 적어도 하나의 DB(30, 50 및 70)로부터 기술 문헌 또는 특허 문헌을 수신할 수 있다. 예컨대, 제1 DB(30)는 대한민국에 출원되어 공개된 특허 문헌들에 대한 자료를 제공해주는 DB일 수 있다. 또한, 제2 DB(50)는 미합중국에 출원되어 공개된 특허 문헌들에 대한 자료를 제공해 주는 DB로서, 미합중국 특허상표청(USPTO)에서 운영하는 DB일 수 있다. 또한, 제3 DB(70)는 가입된 회원에게만 특허 문헌들에 대한 자료를 제공해 주는 DB로서, 유로 DB일 수 있다.
도 2에는 3개의 DB만이 도시되어 있으나, 본 발명이 도 2에 도시된 DB의 갯수나 특정 DB에 한정되는 것은 아니다.
키워드 도출 장치(10)의 문헌 수집 모듈(110)은 제어 모듈(190)의 제어 하에, 특허 문헌들에 대한 데이터를 수신할 수 있고, 수신된 데이터는 저장부(170)에 저장될 수 있다. 저장부(170)에 저장된 데이터는 키워드 도출 장치(10)의 분석 대상이 될 수 있다.
도 3은 도 1에 도시된 특허 분석 장치를 이용한 특허 분석 방법을 설명하기 위한 흐름도이다. 이하에서는 상술한 내용과 중복된 내용에 관하여는 그 기재를 생략하기로 한다.
도 1 내지 도 3을 참조하면, 키워드 도출 장치(10)의 문헌 수집 모듈(110)은 적어도 하나의 DB(30, 50, 70)로부터 다수의 기술 문헌들, 예컨대 다수의 특허 문헌들을 수신할 수 있다(S100). 수신된 상기 다수의 기술 문헌들은 제어 모듈(190)의 제어 하에 저장부(170)에 저장될 수 있다.
텍스트 마이닝 모듈(130)은 다수의 특허 문헌들 각각을 텍스트 마이닝할 수 있다. 텍스트 마이닝 모듈(100)은 상기 다수의 특허 문헌들 각각에 포함된 기재 내용 전체를 대상으로 하거나 상기 다수의 특허 문헌들 각각의 일부만을 대상으로, 예컨대 다수의 특허 문헌들 각각에 포함된 "요약" 부분만을 대상으로 텍스트 마이닝할 수 있다.
텍스트 마이닝 모듈(130)은 상기 다수의 특허 문헌들 각각에 포함된 단어들에 대한 표준화 작업을 수행하고, 상기 표준화 작업의 결과로써, 상기 다수의 문헌들에 포함된 다수의 단어들을 추출할 수 있다.
또한, 텍스트 마이닝 모듈(130)은 표준화 작업을 수행한 후, 상기 다수의 특허 문헌들 각각에 포함된 상기 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있다. 즉, 텍스트 마이닝 모듈(130)은 텍스트 마이닝 기법을 통하여 비구조화된 텍스트를 포함하고 있는 상기 다수의 특허 문헌들 각각을 구조화할 수 있다. 실시 예에 따라, 텍스트 마이닝 모듈(130)은 상기 다수의 단어들 각각이 상기 다수의 문헌들 각각에 포함된 빈도 수를 요소로 하는 문서-단어 행렬(X)을 생성할 수 있다(S300).
키워드 선택 모듈(150)은 텍스트 마이닝 모듈(130)에 의하여 구조화된 텍스트에 포함된 다수의 단어들 중 중요 단어, 즉 키워드를 선택할 수 있다. 구체적으로 키워드 선택 모듈(150)은 상기 문서-단어 행렬(X)의 각 요소에 제1 가중치와 제2 가중치를 부여하고, 부여된 가중치를 기초로 상기 다수의 단어들 중 키워드를 선택할 수 있다.
예컨대, 키워드 선택 모듈(150)은 문서-단어 행렬(X) 또는 정규화된 문서-단어 행렬(X´)에 제1 가중치를 부여하여 제1 가중치가 부여된 문서-단어 행렬(X1)을 생성할 수 있다(S500). 또한, 키워드 선택 모듈(150)은 상기 문서-단어 행렬(X1)에 제2 가중치를 부여하여 제2 가중치가 부여된 문서-단어 행렬(X2)을 생성할 수 있다(S700).
키워드 선택 모듈(150)은 상기 제2 가중치에 기초하여 다수의 단어들 중에서 키워드를 선택할 수 있다(S900).
상술한 바와 같이, 키워드 도출 장치(10)는 다수의 기술 문헌들, 예컨대 다수의 특허 문헌들에 포함된 단어들 중에서 키워드를 도출할 수 있다. 도출된 키워드는 상기 다수의 기술 문헌들의 기술 분야, 기술 내용 및 주제 등을 추론하는 데 활용될 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 키워드 도출 장치
30 : 제1 DB
50 : 제2 DB
70 : 제3 DB
110 : 문헌 수집 모듈
130 : 텍스트 마이닝 모듈
150 : 키워드 선택 모듈
170 : 저장부
190 : 제어 모듈

Claims (7)

  1. 다수의 기술 문헌들 각각을 텍스트 마이닝(text mining)하여 상기 다수의 기술 문헌들 각각에 포함된 다수의 단어들 각각의 단어-빈도 수(term frequency; TF)를 요소로 하는 문서-단어 행렬을 생성하는 단계;
    역-문서 빈도 수(inverse document frequency; IDF)를 이용하여 상기 문서-단어 행렬의 각 요소의 제1 가중치를 결정하는 단계;
    단어별로 상기 단어에 대응하는 제1 가중치의 총 합을 상기 단어가 포함된 문헌의 수로 나눈 값을 제2 가중치로 결정하는 단계; 및
    상기 제2 가중치를 기초로 키워드를 선정하는 단계를 포함하는 키워드 도출 방법.
  2. 제1항에 있어서,
    상기 다수의 기술 문헌들은 다수의 특허 문헌들이고,
    상기 문서-단어 행렬을 생성하는 단계는 상기 다수의 특허 문헌들 각각의 요약 부분만을 대상으로 텍스트 마이닝하는 키워드 도출 방법.
  3. 제1항에 있어서,
    상기 문서-단어 행렬을 생성하는 단계는 상기 문서-단어 행렬의 각 요소를 정규화하는 단계를 포함하는 키워드 도출 방법.
  4. 제1항에 있어서,
    상기 제1 가중치는 상기 문서-단어 행렬의 각 요소와 상기 역-문서 빈도 수의 곱을 이용하여 결정되는 키워드 도출 방법.
  5. 제1항에 있어서,
    상기 문서-단어 행렬을 생성하는 단계 이전에,
    적어도 하나의 DB(data base)로부터 제1 기술 문헌들을 수신하는 단계를 더 포함하고,
    상기 제1 기술 문헌들은 상기 다수의 기술 문헌들에 포함되는 키워드 도출 방법.
  6. 제1항에 있어서,
    상기 키워드를 선정하는 단계는 상기 다수의 단어들 중에서 미리 정해진 값보다 큰 제2 가중치를 갖는 단어를 상기 키워드로 선정하는 키워드 도출 방법.
  7. 제1항에 있어서,
    상기 문서-단어 행렬을 생성하는 단계는,
    상기 다수의 기술 문헌들 각각에 대한 불용어 제거, 공백의 제거, 시제의 제거, 및 대문자의 소문자로의 변환 중 적어도 하나를 포함하는 표준화 단계를 포함하는 키워드 도출 방법.
KR1020140043649A 2014-04-11 2014-04-11 텍스트 마이닝을 이용한 키워드 도출 방법 KR101505546B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140043649A KR101505546B1 (ko) 2014-04-11 2014-04-11 텍스트 마이닝을 이용한 키워드 도출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140043649A KR101505546B1 (ko) 2014-04-11 2014-04-11 텍스트 마이닝을 이용한 키워드 도출 방법

Publications (1)

Publication Number Publication Date
KR101505546B1 true KR101505546B1 (ko) 2015-03-26

Family

ID=53028447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140043649A KR101505546B1 (ko) 2014-04-11 2014-04-11 텍스트 마이닝을 이용한 키워드 도출 방법

Country Status (1)

Country Link
KR (1) KR101505546B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190097669A (ko) 2018-02-13 2019-08-21 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
KR20210062934A (ko) 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
US11573790B2 (en) 2019-12-05 2023-02-07 International Business Machines Corporation Generation of knowledge graphs based on repositories of code
CN116881437A (zh) * 2023-09-08 2023-10-13 北京睿企信息科技有限公司 一种获取文本集的数据处理系统
CN117407835A (zh) * 2023-12-15 2024-01-16 四川易利数字城市科技有限公司 一种数据要素需求挖掘方法
US11907278B2 (en) 2021-10-21 2024-02-20 Samsung Electronics Co., Ltd. Method and apparatus for deriving keywords based on technical document database
US11954424B2 (en) 2022-05-02 2024-04-09 International Business Machines Corporation Automatic domain annotation of structured data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157102A (ja) 2008-12-26 2010-07-15 Ntt Data Corp 単語抽出装置、単語抽出方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010157102A (ja) 2008-12-26 2010-07-15 Ntt Data Corp 単語抽出装置、単語抽出方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"문서분류 성능 향상을 위한 단어 가중치 기법에 관한 연구", 김민희 외1인, 2011 대한산업공학회 추계학술대회 (2011.12.31) *
"자동문헌 분류를 위한 대표 색인어 추출에 관한 연구", 황재영외 1인, 한국정보관리학회 제10회 학술대회 논문집 (2003.08.31) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190097669A (ko) 2018-02-13 2019-08-21 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법
KR20210062934A (ko) 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
US11573790B2 (en) 2019-12-05 2023-02-07 International Business Machines Corporation Generation of knowledge graphs based on repositories of code
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
US11907278B2 (en) 2021-10-21 2024-02-20 Samsung Electronics Co., Ltd. Method and apparatus for deriving keywords based on technical document database
US11954424B2 (en) 2022-05-02 2024-04-09 International Business Machines Corporation Automatic domain annotation of structured data
CN116881437A (zh) * 2023-09-08 2023-10-13 北京睿企信息科技有限公司 一种获取文本集的数据处理系统
CN116881437B (zh) * 2023-09-08 2023-12-01 北京睿企信息科技有限公司 一种获取文本集的数据处理系统
CN117407835A (zh) * 2023-12-15 2024-01-16 四川易利数字城市科技有限公司 一种数据要素需求挖掘方法
CN117407835B (zh) * 2023-12-15 2024-03-12 四川易利数字城市科技有限公司 一种数据要素需求挖掘方法

Similar Documents

Publication Publication Date Title
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
Gould et al. A note on performance profiles for benchmarking software
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
CN105389349B (zh) 词典更新方法及装置
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN104077407B (zh) 一种智能数据搜索系统及方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
JP2014078109A (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US11550937B2 (en) Privacy trustworthiness based API access
US20140365403A1 (en) Guided event prediction
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
US20180068017A1 (en) Providing known distribution patterns associated with specific measures and metrics
US10353927B2 (en) Categorizing columns in a data table
CN109344400A (zh) 一种文献入库的判断方法和装置
WO2016009553A1 (ja) 知財評価システム、知財評価システムの制御方法、および知財評価プログラム
US8918406B2 (en) Intelligent analysis queue construction
CN110427626B (zh) 关键词的提取方法及装置
JP4604097B2 (ja) 文書分類付与方法、システムまたはコンピュータプログラム
JP2017010107A (ja) 情報処理装置、情報処理システム及びプログラム
CN109918420B (zh) 一种竞争对手推荐方法、服务器
CN111611397A (zh) 信息匹配方法、装置、计算机设备和存储介质
JP2019083076A (ja) 評価装置、評価方法、および評価プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190211

Year of fee payment: 5