KR101684442B1 - 정보분석 장치 및 방법 - Google Patents

정보분석 장치 및 방법 Download PDF

Info

Publication number
KR101684442B1
KR101684442B1 KR1020150117161A KR20150117161A KR101684442B1 KR 101684442 B1 KR101684442 B1 KR 101684442B1 KR 1020150117161 A KR1020150117161 A KR 1020150117161A KR 20150117161 A KR20150117161 A KR 20150117161A KR 101684442 B1 KR101684442 B1 KR 101684442B1
Authority
KR
South Korea
Prior art keywords
information
similarity
module
data
coefficient
Prior art date
Application number
KR1020150117161A
Other languages
English (en)
Inventor
이창환
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020150117161A priority Critical patent/KR101684442B1/ko
Application granted granted Critical
Publication of KR101684442B1 publication Critical patent/KR101684442B1/ko

Links

Images

Classifications

    • G06F17/30598
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30722
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 특허와 관련된 정보를 계량화하여 신속하고 정확한 분석이 가능하게 하기 위함이다.
이를 위해 본 발명은, 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 단계; 상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출하는 단계; 상기 추출된 적어도 하나 이상의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 제1의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 구한 유사도계수들 중 최대값을 추출하는 단계; 상기 추출된 최대값에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링 단계를 포함한다.

Description

정보분석 장치 및 방법{ apparatus for analying information and method for ananlying information}
본 발명은 분석가능한 데이터베이스로부터 분석하고자 하는 데이터를 내려 받아 이들 정보를 정량 혹은 정성 분석하는 정보분석 장치 및 방법에 관한 것이다.
지식은 정보를 매개로 하여 성장하고, 인간의 사고와 혁신의 결과물로 인간 그 자체에 체화된 무형적 자산이다. 이러한 인간이 가진 무형적 지식은 다양한 커뮤니케이션을 통해서 전수되고 전달된다. 특히 논문, 특허 등은 이러한 지식을 전달하는 중요한 매개체이고 중요한 1차 정보자원이다. 특히 인터넷의 등장으로 지식혁명이 가속화되면서 정보와 지식발현은 가히 폭발적으로 증가하고 있다. 연구활동에 필요한 정보자원은 논문, 특허 등의 문헌정보 외에도 연구자, 연구기관, 연구시설, 커뮤니티정보, 산업시장정보 등 다양한 정보가 필요하다. 그런데 연구활동에 필요한 이러한 정보자원이 인터넷 이전에는 주로 공개되는 논문, 특허를 중심으로 조사되었지만, 인터넷의 발달로 개인 연구자의 능력과 역량으로 수집되었던 정보들도 쉽게 접근할 수 있게 되었다. 이처럼 다양한 정보의 대부분이 온라인을 통해서 공개, 접근 가능하게 되면서 가용 가능한 정보자원은 점점 많아지고 있다. 연구활동 수행 시 정보 조사 및 분석은 매우 중요하다.
한편, 학문적인 방법으로 계량과학학, 계량정보학 들이 발전하면서 이를 실제 문제에 적용하기 위한 다양한 정보분석시스템 기술도 개발되었다. 대표적으로 미국 조지아텍 대학의 VantagePoint, 오스트리아 연구회(ARC)의 BibTechMon, 미국 인디애나 대학의 CiteSpace 등의 문헌정보 분석시스템이 대표적인 툴이라 할 수 있다. 이 외에도 특허데이터베이스와 연동되어 분석기능을 제공하는 MicroPatent의 Aureka, Delphion Patlab 등의 다양한 툴이 개발되고 있다. 또한 검색된 데이터의 시각화에 중점을 둔 InXight, Omni Viz, SciFinder Panorama 등도 나왔다.
그런데, 1990년대 후반 이후부터 다양한 분석시스템이 개발되었지만 실제로 이러한 분석시스템을 활용하여, 문제를 해결하는 데는 한계를 지니고 있다. 첫째, 많은 분석시스템은 DB 사용을 전제로 한 시스템으로서 지나치게 특정 DB에 종속적이다. 둘째, DB에 분석시스템이 결합이 되면 정밀분석에 필수적인 데이터의 정제(cleansing)와 자유로운 편집을 할 수 없다는 문제점이 있다. 셋째, 종래의 분석 시스템은 이용자가 자유자재로 원하는 항목 간을 연계시키면서 다양한 분석을 수행할 수 있도록 설계된 것이 아니라, 특정한 기능만을 제공하는 단점이 있다. 넷째, 종래의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 않았다. 즉, 수요자가 처해 있는 정보분석의 활용 맥락에서 필요로 하는 요구사항을 시스템화는 노력, 분석시스템을 이용한 다양한 활용 로직을 개발하는 노력보다는 구조화된 정보자원에서 나타나는 패턴을 시각화하는 것에만 치중을 한 것이다. 따라서 실제 수요자는 기존 정보분석시스템을 활용한다고 하더라도 언제나 “해석”의 어려움에 빠지거나, 실제 원하는 분석을 수행하지 못하는 어려움에 빠질 수밖에 없었다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로 분석가능한 데이터베이스로부터 분석하고자 하는 데이터를 내려받아 이들 정보를 정량 혹은 정성 분석하는 정보분석 장치 및 방법을 제공하는 데 그 목적이 있다.
이와 같은 목적을 달성하기 위한, 본 발명의 제 1 측면에 따르면, 본 발명에 따른 정보분석방법은 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 단계; 상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출하는 단계; 상기 추출된 적어도 하나 이상의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 제1의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계; 상기 구한 유사도계수들 중 최대값을 추출하는 단계; 상기 추출된 최대값에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링 단계를 포함한다.
또한 본 발명의 제 2측면에 따르면, 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 입력모듈; 상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출하는 유사도정보추출모듈; 상기 추출된 적어도 하나 이상의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 유사도계수를 구하는 제3유사도모듈; 상기 제1의 유사도정보를 이용하여 유사도계수를 구하는 제1유사도모듈; 상기 제2의 유사도정보를 이용하여 유사도계수를 구하는 제2유사도모듈; 상기 구한 유사도계수들 중 최대값을 추출하는 최대값추출모듈; 상기 추출된 최대값에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링하는 클러스터링모듈을 포함한다.
이상에서 설명한 바와 같이 본 발명에 의하면 정보 분석 장치 및 방법을 제공함으로써 특허와 관련된 정보를 신속하게 분석할 수 있다.
또한 정보 분석 장치 및 방법을 제공함으로써 특허와 관련된 정보를 정확하게 분석할 수 있다.
또한 정보 분석 장치 및 방법을 제공함으로써 정확한 특허와 관련된 정보분석이 가능하여 특허출원여부를 신속하게 정확하게 결정하여 불필요한 비용의 낭비를 방지할 수 있다.
도 1은 본 발명의 일 실시예에 따른 정보분석을 위한 장치를 설명하기 위한 모듈 구성도이다.
도 2는 본 발명의 일 실시예에 따른 데이터클러스터링을 과정을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 입력된 데이터들 내의 필드정보들을 표준용어로 표준화하는 과정을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 복수의 키워드들로 새로운 키워드를 생성하는 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 특허데이터에 부여되는 복수의 번호 중 대표 번호를 생성하는 과정을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 특허데이터에 우선권번호, 출원인, 출원인 국적, 발명인 국적과 관련된 정보를 갱신하기 위한 과정을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 특허 데이터에 대한 교신저자정보갱신 과정을 나타낸 도면이다.
도 8는 정보분석 방법을 설명하기 위한 흐름도이다.
본 발명의 일 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 정보분석을 위한 장치를 설명하기 위한 모듈 구성도이다.
도 1을 참조하면, 본 발명에 따른 정보분석을 위한 장치는 입력모듈(100), 유사도정보추출모듈(110), 제1유사도모듈(120), 제2유사도모듈(130), 제3유사도모듈(140), 최대값추출모듈(150), 클러스터링모듈(160)을 포함한다. 입력모듈은(100)은 적어도 하나 이상의 데이터베이스로부터 데이터를 입력받는다. 유사도정보추출모듈(110)은 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출한다. 본 발명의 일 실시예에 따른 유사도정보의 구체적인 설명은 후술한다. 제1유사도모듈(120)은 제1의 유사도정보를 이용하여 유사도계수를 구한다. 제2유사도모듈(130)은 제2의 유사도정보를 이용하여 유사도계수를 구한다. 제3유사도모듈(140)은 전술한 제1의 유사도정보와 제2의 유사도정보를 이용하여 유사도계수를 구한다. 제1유사도모듈(120), 제2유사도모듈(130) 및 제3유사도모듈(140)은 하나의 모듈 또는 장치에 포함될 수도 있고, 독립적인 모듈로서 동작할 수도 있다. 이는 설계자의 의도에 따라 변경이 가능하다. 최대값추출모듈(150)은 전술한 유사도계수들 중 최대값을 갖는 유사도계수를 추출하는 것을 유사도계수를 추출한다. 클러스터링모듈(160)은 최대값을 갖는 유사도계수에 대응하는 유사도정보를 활용하여 입력된 데이터들을 클러스터링한다.
도 2는 본 발명의 일 실시예에 따른 데이터클러스터링을 과정을 나타낸 도면이다.
도 2를 참조하면, 본 발명에 따른 데이터클러스터링은 도 2에서 보는 바와 같이 클러스터링하고자 하는 데이터들 일정한 기준으로 묶어주는 작업이다. 일정한 기준을 활용되는 유사도정보는 키워드정보, 인용정보, 피인용정보, 분류표준정보(IPC, CPC, ASJC) 등이 있다. 전술한 유사도정보는 사용자의 설계에 의해 다른 정보도 활용이 가능하므로 전술한 것에 국한되지 않는다.
클러스터링하는 방법에 대해 종래의 기술에 대해서 우선 설명하면, 종래의 기술은 복수의 데이터(Gi, Gj)를 클러스터링하기 위해 전술한 유사도정보를 활용하고 유사도를 수치로 나타내기 위해 유사도계수(similarity coefficient)로 코사인계수를 사용한다. 또한 코사인계수의 값이 일정 값 이상이면 데이터들간에 유사성이 있다고 판단하여 데이터들을 클러스터링한다. 이에 대한 설명을 수식으로 표현하면 아래와 같다.
Figure 112015080665623-pat00001
전술한 수식을 설명하면 Gi, Gj는 개별데이터내에서 유사도정보가 각각 활용된 수를 의미하며 Gij는 개별데이터내에서 활용된 유사도정보가 공통된 것의 수를 의미한다. Sij는 유사도계수 값을 의미한다. 구체적으로, 유사도정보가 피인용정보 즉 피인용문헌의 수인 경우로서, 제 1의 개별데이터가 피인용된 문헌의 수(Gi)는 16개이고, 제 2의 개별데이터가 피인용된 문헌의 수(Gj)는 25개이고, 제 1의 개별데이터와 제 2의 개별데이터에서 공통적으로 피인용된 문헌의 수(Gij)는 9개라면, 상술한 수학식 1에 따라 유사도계수 값은 9/루트(16*25), 즉 9/20=0.45가 될 수 있다. 전술한 값이 사용자가 설계한 기준 이상의 값에 해당한다면, 본 발명의 일 실시예에 따른 정보분석을 위한 장치는 유사도정보, 즉, 피인용정보를 기준으로 제1의 개별데이터와 제2의 개별데이터를 클러스터링한다.
하지만 종래의 기술은 유사도 정보 중의 하나인 키워드정보를 활용하여 구한 유사도계수의 값이 높지만 유사도 정보 중의 하나인 피인용정보를 활용하여 구한 유사도계수의 값이 낮거나 또는 0일 경우 사용자가 선택에 의해서 유사도 계수 값이 달라져 정확한 클러스터링을 하는데 한계가 있다. 즉, 복수의 데이터가 실제로 유사성이 있음에도 불구하고 (키워드 중심의 클러스터링할 경우) 사용자가 피인용정보를 기준으로 유사도 계수 값을 구할 경우 유사성이 없다고 판단할 수 있기 때문이다.
이 한계를 극복하기 위해 본원발명은 유사도 정보를 혼합적으로 적용하여 유사도 계수 값들을 구하고 이 중 최대값을 추출하여 이에 대응하는 유사도 정보를 기준으로 클러스터링하는 방법을 제안한다. 이와 관련된 방법을 나타내는 수식은 다음과 같다.
Figure 112015080665623-pat00002
Figure 112015080665623-pat00003
수학식의 G(ic+ib), G(jc+jb)는 개별데이터내에서 복수의 유사도정보가 각각 활용된 수를 의미하며 G(icjc+ibjb)는 개별데이터내에서 활용된 복수의 유사도정보 중 공통된 것의 수를 의미한다. S'ij는 유사도계수의 값을 의미한다. 또한 KC'는 제1의 유사도정보를 활용하여 구한 유사도계수 값, 제2의 유사도정보를 활용하여 구한 유사도계수 값, 제 1 및 제 2 의 유사도정보 또는 복수의 유사도정보를 활용하여 구한 유사도계수 값 중 최대값을 의미한다.
구체적으로, 제 1의 유사도정보가 피인용정보(피인용문헌의 수)이고, 제 2의 유사도정보가 인용정보(인용문헌의 수)인 경우, 상술한 수학식에 따라 유사도 계수를 구하는 과정은 다음과 같다. 제 1의 개별데이터가 피인용된 피인용문헌의 수(Gi)는 16개, 제 2의 개별데이터가 피인용된 피인용문헌의 수(Gj)는 25개, 제 1의 개별데이터와 제 2의 개별데이터가 공통으로 피인용된 피인용문헌의 수(Gij)는 9개라고 한다면 피인용정보에 대응하는 유사도계수 값은 9/루트(16*25), 즉 9/20=0.45라고 할 수 있다. 또한, 제 1의 개별데이터가 인용한 인용문헌의 수(Gi)는 9개, 제 2의 개별데이터가 인용한 인용문헌의 수(Gj)는 11개, 제 1의 개별데이터와 제 2의 개별데이터가 공통적으로 인용한 인용문헌의 수(Gij)는 0개라고 한다면 인용정보에 대응하는 유사도계수 값은 0/루트(9*4), 즉 0/6=0라고 할 수 있다. 즉, 유사도정보가 피인용정보인 경우와 비교해볼 때, 유사도 정보가 인용정보인 경우 제 1의 개별데이터와 제 2 개별데이터가 유사성이 없다는 것을 의미한다.
본원발명의 제안한 방법과 같이 제 1의 유사도정보로 피인용정보(피인용문헌의 수), 제 2의 유사도정보로 인용정보(인용문헌의 수)를 동시적으로 활용하면 제 1의 개별데이터가 인용문헌 수 및 피인용문헌의 수 G(ic+ib)는 25개, 제 2의 개별데이터가 인용문헌 수 및 피인용문헌의 수 G(jc+jb)는 36개, 제 1의 개별데이터와 제 2의 개별데이터에서 공통적으로 인용문헌 수 및 피인용문헌의 수 G(icjc+ibjb)는 9개라고 한다면 인용정보 및 피인용정보에 대응하는 유사도계수 값은 9/루트(25*36), 즉 9/30=0.3이라고 할 수 있다.
다음으로 피인용정보에 대응하는 유사도계수 값은 0.45, 인용정보에 대응하는 유사도계수 값은 0, 피인용정보와 인용정보에 동시적으로 대응하는 유사도계수 값은 0.3이다. 이중 최대값은 유사도계수 값이 0.45인 피인용정보이며 이는 제 1의 개별데이터와 제2의 개별데이터 간의 유사성은 피인용정보를 기준으로 가장 높으므로 피인용정보를 기준으로 클러스터링을 한다. 이렇게 유사도계수들 중 최대값을 구하는 것은 복수의 유사도정보를 활용한 유사도계수 값이 전술한대로 반드시 제1개별데이터와 제2개별데이터의 유사성이 가장 높은 유사도정보를 보장하지 않기 때문에 클러스터링 효율이 저하되는 것을 방지하기 위함이다. 전술한 대로 클러스터링을 하면 종래의 기술에 비해 클러스터링 효율을 높일 수 있다.
도 3은 본 발명의 일 실시예에 따른 입력된 데이터들 내의 필드정보들을 표준용어로 표준화하는 과정을 나타내는 도면이다.
도 3을 참조하면, 도 3에 따른 표준화는 입력된 데이터들을 데이터베이스를 활용하여 사용자 요청에 대응하여 입력된 데이터들 내의 필드정보들을 표준용어로 표준화하는 것을 의미한다. 분석가능한 지식 데이터베이스, 예를 들어 Web of Science, SCOPUS, GPASS(Global Patent Analysis System, KISTI 특허정보DB) 등은 입력된 데이터들의 필드정보들이 통일되지 않아 유사도 판단시 많은 에러가 발생할 수 있다. 특히 데이터들을 계량적으로 분석하기 위한 인자들인 저자(발명인), 기관(출원인), 국가 등이 표기가 잘못되어 있거나 제대로 표기되어 있지 않은 경우 정확한 계량분석이 가능하지 않다. 아래는 막스플랑크연구소라는 명칭과 카이스트라는 명칭이 데이터베이스 상에서 여러 가지 형태로 쓰이고 있는 것을 보여주고 있다.
예1)
Max Planck Institute for Human
Max Planck Institute for Human Cognitive and Brain
Max Planck Institute for Human Cognitive/Brain Science
Max Planck Inst. for Human Cognitive and Brain Sciences
Max Planck Institute for Human Cognitive&Brain Sciences
MPI for Human Cognitive&Brain Sciences
예2)
Korea Advanced Institute of Science and Engineering (KAIST)
Korea Advanced Institute of Technology and Science
Korea Advanced Institute Science and Technology
Korea Advanced Institute of Technology (KAIST)
Korea Advanced Institute of Science of Technology
Korea Advanced Institute of Sciecne and Technology
Korea Advanced Institute of Science & Technology
위 예시에서 보여주듯이 데이터를 표준화 시키지 않고 계량분석을 수행하면 부정확한 결과값이 산출된다. 따라서 본 발명은 이러한 표기 불일치를 용이하게 수정이 가능하도록 설계되어 있다. 도 3은 주요 계량분석인자인 저자(혹은 발명인), 기관명(대학명, 회사명, 출원인명), 소속국가 등에 대해 표준화를 위해 설계된 알고리즘을 보여주고 있다. 이에 대해 구체적으로 설명하면, 본 발명의 일 실시예에 따른 정보분석을 위한 장치는 입력 받은 데이터를 표준화하기 위해서 해당 데이터들과 관련이 있는 연계정보DB로부터 추가적으로 정보를 수집한다(S300). 전술한 입력 받은 데이터는 도 3에 저자, 기관, 국가로 표시되어있지만 사용자의 요청에 따라 변경이 가능하므로 이에 한정되지 않는다. 또한 연계정보 DB는 기관 연계정보, 저자 연계정보, 교신저자연계정보로 표시되어 있지만 이 또한 사용자의 요청에 따라 변경이 가능하므로 이에 한정되지 않는다. 이후, 본 발명의 일 실시예에 따른 정보분석을 위한 장치는 사용자가 용이하기 입력 받은 데이터를 수정할 수 있도록 GRID TABLE형식의 편집기에 관련 정보를 출력한다(S310). 본 발명의 일 실시예에 따른 정보분석을 위한 장치는 기 구축된 사전(S340)을 통해 자동으로 입력 받은 특정 데이터에 대한 자동 클렌징, 즉 표준화를 적용한다(S320). 정보분석을 위한 장치는 입력 받은 데이터를 사용자가 원하는 대로 직접 수정하는 사용자 클렌징 기능을 포함한다(S330). 정보분석을 위한 장치는 기관이나 국가명에 대해 잘 알려진 명칭에 대해서 표준화를 위한 별도의 규칙을 적용한다(S350). 정보분석을 위한 장치는 수정된 입력데이터를 연계정보를 포함하여 관련된 정보를 반영한다(S360). 정보분석을 위한 장치는 분석을 위해 표준화가 완료된 데이터를 저장한다(S370).
도 4는 본 발명의 일 실시예에 따른 복수의 키워드들로 새로운 키워드를 생성하는 과정을 나타낸 도면이다.
도 4의 첫번째 도면을 참조하면, 기 구축된 데이터베이스 속성에 따라 계량분석을 위해 입력된 데이터 내에서 키워드는 저자 키워드 필드, 인덱스 키워드 필드 등 부분에 포함되어 있다. 통상적으로 기 구축된 데이터베이스에서 저자키워드 필드에 키워드를 포함하는 문서의 수는 전체 문서 중 약 50&~60% 정도이며 인덱스 키워드 필드에 키워드를 포함하는 경우도 거의 같은 수준이다. 도 4의 첫번째 도면에 따른 정보분석을 위한 장치는 정보분석의 효율을 높이기 위해 입력된 데이터들에서 적어도 하나 이상의 키워드들을 추출하고 추출된 키워드들의 빈도수를 계산하여 혼합키워드를 생성한다. 계산된 빈도수를 기준으로 추출된 적어도 하나 이상의 키워드들 중 복수의 키워드들로 새로운 키워드를 생성하는 것을 포함한다. 이에 대해 좀 더 구체적으로 설명하면, 정보분석을 위한 장치는 키워드가 있는 데이터의 경우 키워드 정제, 키워드가 없는 데이터의 경우 기 정의된 키워드를 추출하기 위해 문서의 저자키워드필드, 인덱스키워드필드 등에 포함되어 있는 키워드들을 형태소 분석을 통해 대소문자, 단복수, 특수기호 등이 처리하고 반복된 빈도수(frequency)로 구분되어 처리한다(S400).
도 4의 두번째 도면은 저자키워드 필드와 인덱스 키워드 필드의 키워드가 형태소 분석기를 거쳐 각 키워드들이 반복된 횟수와 혼합키워드 생성을 위해 입력되는 정보를 나타낸 도면이다. 검색하고자 하는 키워드를 입력하여 검색을 한 후 입력된 키워드의 빈도수에 따라 사용자가 원하는 키워드를 입력하여 키워드 갱신과정을 통해 혼합키워드를 생성한다.
정보분석을 위한 장치는 사용자가 저자 키워드 필드와 인덱스 키워드 필드 등 키워드가 있는 필드의 정보, 빈도수 정보 등을 활용하여 사용자의 요청에 따라 새롭게 키워드를 정의하는 것을 포함하며 새롭게 정의된 키워드는 Mixed Keyword 필드에 저장한다(S410). 또한 정보분석을 위한 장치는 전술한 Mixed Keyword 필드에 저장하기 이전에 사용자가 정의한 키워드를 사용하여 상위어/ 하위어 관계를 구축하고, 기 구축된 사전에 추가로 저장하는 대표어를 선정한다(S420,S430). 정보분석을 위한 장치는 데이터의 제목, 초록 등에 검색을 수행하여 추출된 정보를 활용할 수 있다(S440). 전술한 혼합키워드생성과정을 통하면 전체 데이터에서 50%~60%정도에 지나지 않았던 키워드 존재가 약 100%로 높아져 키워드를 이용한 정보분석의 정확도가 높아지는 효과가 있다.
도5는 본 발명의 일 실시예에 따른 특허데이터에 부여되는 복수의 번호 중 대표 번호를 생성하는 과정을 나타낸 도면이다.
도5를 참조하면, 특허데이터는 특성상 여러 가지 번호가 부여되게 되는데, 먼저 특허를 출원할 때 부여되는 특허출원번호(application number)가 있고, 이 특허가 일정 기간을 거친 후 공개공보에서 부여되는 특허공개번호(publication number), 그리고 특허가 등록될 때 부여되는 특허등록번호(grant number), 동일특허를 다른 국가에 출원할 때 생기는 최초출원번호, 즉 우선권번호(priority number) 등 한 특허데이터가 갖고 있는 번호의 수가 여러 개가 존재하게 된다. 따라서 데이터베이스 상에서도 동일특허데이터들이 그 상태에 따라 여러 개의 번호가 존재하게 된다.
따라서 사용자의 요구에 따라 여러 가지 번호가 부여된 동일 특허를 같은 특허로 인식하여 1개의 특허로 계량화하는 과정이 필요하다. 이에 대해 구체적으로 설명하면 정보분석을 위한 장치는 입력받은 특허데이터로부터 사용자 요청에 따라 출원번호, 우선권번호 등 특허데이터와 관련된 번호를 추출한다(S500). 정보분석을 위한 장치는 출원번호, 우선권번호 등 특허데이터와 관련된 번호가 다양한 형식으로 표현되는 번호유형들을 비교하기 위해 입력된 데이터를 유형별로 분류한다(S510). 정보분석을 위한 장치는 1 건 이상의 우선권 번호가 일치하거나 또는 우선권 번호 전체가 일치하는 특허의 그룹을 생성한다(S520). 정보분석을 위한 장치는 미국, 일본, 중국 등과 같이 특정 지역에서 출원된 특허를 사용자 요청에 따라 상위그룹으로 변경한다(S530). 정보분석을 위한 장치는 동일한 지역에서 동일한 특허가 존재한다면 가장 최근에 발행된 특허를 상위그룹으로 변경한다(S540). 정보분석을 위한 장치는 상위그룹의 특허데이터만 제외하고 나머지 특허는 제외한다(S550). 정보분석을 위한 장치는 1 건 이상의 특허데이터에 부여된 번호가 일치로 중복 제거된 경우에는 중복 제거를 반복하여 중복성이 높은 특허들을 제거할 수 있다(S560). 중복제거가 완료되면 대표 특허데이터를 생성한다. 전술한 것은 사용자의 의도에 따라 순서 등의 설계변경이 가능하므로 전술한 것에 한정되지 않는다.
도 6은 본 발명의 일 실시예에 따른 특허데이터에 우선권번호, 출원인, 출원인 국적, 발명인 국적과 관련된 정보를 갱신하기 위한 과정을 나타낸 도면이다.
도 6을 참조하면, 본 발명의 일 실시예에 따라 정보분석장치는 우선권번호유무를 확인 후 확인되지 않으면 출원번호를 확인하고 추출하여 우선권 관련 항목을 갱신하는 과정을 포함한다(S600). 정보분석을 위한 장치는 출원인 정보유무를 확인 후 존재하지 않으면 발명인 이름과 발명인 국적을 확인하여 출원인 정보를 갱신한다(S610). 정보분석을 위한 장치는 출원인 국적정보유무를 확인하여 없으며 출원인, 발명인을 매칭 비교하여 발명인의 국적을 추출하여 출원인 국적 항목을 갱신한다(S620). 정보분석을 위한 장치는 발명인의 국적정보유무를 확인 후 존재하지 않으면 출원인, 발명인을 매칭 비교하여 출원인 국적을 추출하여 발명인 국적항목을 갱신한다(S630).
도 7은 본 발명의 일 실시예에 따른 특허 데이터에 대한 교신저자정보갱신 과정을 나타낸 도면이다.
도 7을 참조하면, 본 발명의 일 실시예에 따라 정보분석을 위한 장치는 이름정보유무를 확인 후 이름정보가 존재하지 않으면 이메일정보 유무를 확인하고 이메일정보가 존재하지 않으면 n(차순위)저자의 정보를 확인하고 차순위저자의 이메일정보의 유무를 확인 후 존재하면 교신저자정보를 갱신하다(S700). 만약 n(차순위)저자의 이메일정보가 존재하지 않으면 전술한 과정을 반복하여 n+1(차차)순위의 이메일정보를 확인하여 교신저자정보를 갱신한다. 또한 교신저자정보갱신과정(S700)은 이름정보 유무를 확인 후 이름정보가 존재하지 않으면 이메일정보 유무를 확인하고 있으면 n(차순위)저자 이메일을 매칭 비교하여 교신저자이름을 갱신한다. 또한 교신저자정보갱신과정은(S700)은 이름정보 유무를 확인 후 이름정보가 존재하면 이메일정보 유무를 확인 후 존재하면 교신저자정보를 갱신하고 존재하지 않으면 n(차순위)저자 이메일을 매칭 비교 후 교신저자정보를 갱신한다.
도 8는 정보분석 방법을 설명하기 위한 흐름도이다.
도 8를 참조하면, 본 발명에 따라 정보분석방법은 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 단계(S800), 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출하는 단계(S810), 추출된 적어도 하나 이상의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계(S820), 제1의 유사도정보를 이용하여 유사도계수를 구하는 단계(S830), 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계(S840), 구한 유사도계수들 중 최대값을 추출하는 단계(S850), 추출된 최대값에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링 단계(S860)를 포함한다.
입력모듈(100)은 데이터베이스로부터 데이터들을 입력받는 단계(S800)를 수행할 수 있다. 이에 대한 구체적인 설명은 도 1에서 전술한 바 있다. 유사도정보추출모듈(110)은 입력된 데이터들로부터 유사도 판단의 기준이 되는 적어도 하나 이상의 유사도정보를 추출하는 단계(S810)를 수행할 수 있고 이에 대한 구체적인 설명은 도1, 2에서 전술한 바 있다. 제1유사도모듈(120)은 제1의 유사도정보를 이용하여 유사도계수를 구하는 단계(S830)를 수행할 수 있으며 이에 대한 구체적인 설명은 도1, 2에서 전술한 바 있다. 제2유사도모듈(130)은 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계(S840)를 수행할 수 있고 이에 대한 구체적인 설명은 도1, 2에서 전술한 바 있다. 제3유사도모듈(140)은 제1의 유사도정보 및 제2의 유사도정보를 이용하여 유사도계수를 구하는 단계(S820)를 수행할 수 있으며 이에 대한 구체적인 설명은 도1, 2에서 전술한 바 있다. 최대값추출모듈(150)은 구한 유사도계수들 중 최대값을 추출하는 단계(S850)를 수행할 수 있으며 이에 대한 구체적인 설명은 도1, 2에서 전술한 바 있다. 클러스터링모듈(160)은 추출된 최대값에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링 단계(S860)를 수행할 수 있으며 이에 대한 구체적인 설명은 도1, 2에서 전술한 바와 같다.
본 발명의 명세서에 개시된 실시예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
100 : 입력모듈
110 : 유사도정보추출모듈
120 : 제1유사도모듈
130 : 제2유사도모듈
140 : 제3유사도모듈
150 : 최대값추출모듈
160 : 클러스터링모듈

Claims (20)

  1. 입력모듈이 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 단계;
    유사도정보추출모듈이 상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 복수의 유사도정보들을 추출하는 단계;
    제3유사도모듈이 상기 추출된 복수의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 제3의 유사도계수를 계산하는 단계;
    제1유사도모듈이 상기 제1의 유사도정보를 이용하여 제1의 유사도계수를 계산하는 단계;
    제2유사도모듈이 상기 제2의 유사도정보를 이용하여 제2의 유사도계수를 계산하는 단계;
    최대값추출모듈이 상기 계산된 유사도계수들 중 최대값을 갖는 유사도 계수를 추출하는 단계; 및
    클러스터링모듈이 상기 추출된 최대값을 갖는 유사도 계수에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링하는 단계;를 포함하는 정보분석방법.
  2. 제 1항에 있어서, 분류모듈이 상기 입력된 데이터들을 정규화된 형식에 따라 분류하는 단계를 더 포함하는 정보분석방법.
  3. 제 1항에 있어서, 상기 유사도정보란 키워드, 인용정보, 피인용정보, 표준화된 분류정보 중 적어도 어느 하나인 것을 특징으로 하는 정보분석방법.
  4. 제 3항에 있어서, 상기 표준화된 분류정보란 IPC, CPC, ASJC 중 적어도 어느 하나인 것을 특징으로 하는 정보분석방법.
  5. 제 1항에 있어서, 상기 데이터 입력 단계 후, 표준화 모듈이 상기 입력된 데이터들에 포함된 필드정보들을 표준용어로 표준화하는 단계를 더 포함하는 정보분석방법.
  6. 제 1항에 있어서, 상기 유사도 계수는
    Figure 112016080752036-pat00004
    와 같이 표현되고 상기Gi 및 Gj는 개별데이터내에서 유사도정보가 각각 활용된 수를 의미하며 상기 Gij는 개별데이터내에서 활용된 유사도정보가 공통된 것의 수를 의미하며, 상기 Sij는 유사도계수 값을 의미하는 것을 특징으로 하는 정보분석방법.
  7. 제 1항에 있어서, 상기 데이터 입력단계 후, 빈도수모듈이 상기 입력된 데이터들로부터 적어도 하나 이상의 키워드들을 추출하고 상기 추출된 키워드들의 빈도수를 계산하는 단계를 더 포함하는 정보분석방법.
  8. 제 7항에 있어서, 상기 계산된 빈도수를 기준으로 새로운 키워드를 생성하는 단계를 더 포함하는 정보분석방법.
  9. 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받는 입력모듈;
    상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 복수의 유사도정보들을 추출하는 유사도정보추출모듈;
    상기 추출된 복수의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 제3의 유사도계수를 계산하는 제3유사도모듈;
    상기 제1의 유사도정보를 이용하여 제1의 유사도계수를 계산하는 제1유사도모듈;
    상기 제2의 유사도정보를 이용하여 제2의 유사도계수를 계산하는 제2유사도모듈;
    상기 계산된 유사도계수들 중 최대값을 갖는 유사도 계수를 추출하는 최대값추출모듈; 및
    상기 추출된 최대값을 갖는 유사도 계수에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링하는 클러스터링모듈;을 포함하는 정보분석장치.
  10. 제 9항에 있어서, 상기 입력된 데이터들을 정규화된 형식에 따라 분류하는 분류모듈을 더 포함하는 정보분석장치.
  11. 제 9항에 있어서, 상기 유사도정보란 키워드, 인용정보, 피인용정보, 표준화된 분류정보 중 적어도 어느 하나인 것을 특징으로 하는 정보분석장치.
  12. 제 11항에 있어서, 상기 표준화된 분류정보란 IPC, CPC, ASJC 중 적어도 어느 하나인 것을 특징으로 하는 정보분석장치.
  13. 제 9항에 있어서, 상기 입력모듈에 입력된 데이터들에 포함된 필드정보들을 표준용어로 표준화하는 표준화모듈을 더 포함하는 정보분석장치.
  14. 제 9항에 있어서, 상기 유사도 계수는
    Figure 112016080752036-pat00005
    와 같이 표현되고 상기Gi 및 Gj는 개별데이터내에서 유사도정보가 각각 활용된 수를 의미하며 상기 Gij는 개별데이터내에서 활용된 유사도정보가 공통된 것의 수를 의미하며, 상기 Sij는 유사도계수 값을 의미하는 것을 특징으로 하는 정보분석장치.
  15. 제 9항에 있어서, 상기 입력모듈에 입력된 데이터들로부터 적어도 하나 이상의 키워드들을 추출하고 상기 추출된 키워드들의 빈도수를 계산하는 빈도수모듈을 더 포함하는 정보분석장치.
  16. 제 15항에 있어서, 상기 계산된 빈도수를 활용하여 새로운 키워드를 생성하는 혼합키워드모듈을 더 포함하는 정보분석장치.
  17. 적어도 하나 이상의 데이터베이스로부터 데이터들을 입력받고, 상기 입력된 데이터들로부터 유사도 판단의 기준이 되는 복수의 유사도정보들을 추출하고, 상기 추출된 복수의 유사도정보들 중 제1의 유사도정보 및 제2의 유사도정보를 이용하여 제3의 유사도계수를 계산하고, 상기 제1의 유사도정보를 이용하여 제1의 유사도계수를 계산하고, 상기 제2의 유사도정보를 이용하여 제2의 유사도계수를 계산하고, 상기 계산된 유사도계수들 중 최대값 갖는 유사도 계수를 추출하고, 상기 추출된 최대값을 갖는 유사도 계수에 대응하는 유사도정보를 기준으로 상기 입력된 데이터들을 클러스터링하여 정보를 분석하기 위한 프로그램을 저장하는 저장매체.
  18. 제 17항에 있어서, 상기 변수란 키워드, 인용정보, 피인용정보, 표준화된 분류정보 중 적어도 어느 하나인 것을 특징으로 하는 정보를 분석하기 위한 프로그램을 저장하는 저장매체.
  19. 제 17항에 있어서, 상기 입력된 데이터들로부터 적어도 하나 이상의 키워드들을 추출하고 상기 추출된 키워드들의 빈도수를 계산하는 것을 특징으로 하는 정보를 분석하기 위한 프로그램을 저장하는 저장매체.
  20. 제 19항에 있어서, 상기 계산된 빈도수를 활용하여 새로운 키워드를 생성하는 것을 특징으로 하는 정보를 분석하기 위한 프로그램을 저장하는 저장매체.
KR1020150117161A 2015-08-20 2015-08-20 정보분석 장치 및 방법 KR101684442B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150117161A KR101684442B1 (ko) 2015-08-20 2015-08-20 정보분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150117161A KR101684442B1 (ko) 2015-08-20 2015-08-20 정보분석 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101684442B1 true KR101684442B1 (ko) 2016-12-08

Family

ID=57576963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150117161A KR101684442B1 (ko) 2015-08-20 2015-08-20 정보분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101684442B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326897A (ja) * 2003-10-21 2005-11-24 Ipb:Kk 技術・知財評価装置及び技術・知財評価方法
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
KR20110010664A (ko) * 2011-01-12 2011-02-01 엘지전자 주식회사 문서 분석 시스템
WO2011136413A1 (ko) * 2010-04-30 2011-11-03 한국과학기술정보연구원 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326897A (ja) * 2003-10-21 2005-11-24 Ipb:Kk 技術・知財評価装置及び技術・知財評価方法
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
WO2011136413A1 (ko) * 2010-04-30 2011-11-03 한국과학기술정보연구원 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법
KR20110010664A (ko) * 2011-01-12 2011-02-01 엘지전자 주식회사 문서 분석 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
KR102175950B1 (ko) * 2018-12-10 2020-11-09 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102075788B1 (ko) 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템
WO2018000269A1 (zh) 一种基于数据挖掘和众包的数据标注方法及系统
Cohen Optimizing feature representation for automated systematic review work prioritization
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
Prokić et al. Recognising groups among dialects
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
Vysotska et al. Intelligent analysis of Ukrainian-language tweets for public opinion research based on NLP methods and machine learning technology
Sabri et al. Web data extraction approach for deep web using WEIDJ
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
Jagadeesan et al. Twitter Sentiment Analysis with Machine Learning
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR101684442B1 (ko) 정보분석 장치 및 방법
Janani et al. Text mining research: A survey
Grissette et al. A conditional sentiment analysis model for the embedding patient self-report experiences on social media
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
Bayu et al. Classification of Indonesian Population’s Level Happiness on Twitter Data Using N-Gram, Naïve Bayes, and Big Data Technology
KR101428981B1 (ko) 아이템 풀 구축 시스템 및 방법
Medina Sada et al. A preliminary investigation with twitter to augment cvd exposome research
Aksu et al. Analysis of Turkish sentiment expressions about touristic sites using machine learning
Cherichi et al. Big data analysis for event detection in microblogs
Imran et al. Twitter Sentimental Analysis using Machine Learning Approaches for SemeVal Dataset
CN111507105A (zh) 一种基于语义相似性分析的技术文件相似性排查方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant