KR100952634B1 - 정보분석 시스템 및 그 정보분석 방법 - Google Patents

정보분석 시스템 및 그 정보분석 방법 Download PDF

Info

Publication number
KR100952634B1
KR100952634B1 KR1020070100222A KR20070100222A KR100952634B1 KR 100952634 B1 KR100952634 B1 KR 100952634B1 KR 1020070100222 A KR1020070100222 A KR 1020070100222A KR 20070100222 A KR20070100222 A KR 20070100222A KR 100952634 B1 KR100952634 B1 KR 100952634B1
Authority
KR
South Korea
Prior art keywords
variable
variables
data
unit
correlation
Prior art date
Application number
KR1020070100222A
Other languages
English (en)
Other versions
KR20090035128A (ko
Inventor
이우형
Original Assignee
한국산업기술진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국산업기술진흥원 filed Critical 한국산업기술진흥원
Priority to KR1020070100222A priority Critical patent/KR100952634B1/ko
Publication of KR20090035128A publication Critical patent/KR20090035128A/ko
Application granted granted Critical
Publication of KR100952634B1 publication Critical patent/KR100952634B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정보분석 시스템 및 그 정보분석 방법에 관한 것으로서, 외부로부터 분석할 복수의 데이터를 읽어들이는 데이터 로딩부와, 복수의 데이터로부터 추출된 복수의 변수들이 하나의 데이터에 동시에 출현하는 빈도인 동시출현빈도를 산출하는 상관분석 유닛과, 동시출현빈도와 각 변수들의 관련성을 이용하여 맵상에서 각 변수들간의 관계를 표시하는 맵핑 유닛을 포함한다. 이에 의해, 데이터에 포함되는 각 변수간의 동시출현빈도, 상관관계, 성장율을 분석함으로써, 기술트랜드, 유망기술, 전문적인 저자, 국가간 협력관계, 소속기관간 협력관계 등을 분석할 수 있다.
정보분석, 동시출현빈도, 상관지수, 맵, 클린징, 클러스터링

Description

정보분석 시스템 및 그 정보분석 방법{ANALYSIS SYSTEM FOR INFORMATION AND METHOD THEREOF}
본 발명은 정보분석 시스템 및 그 정보분석 방법에 관한 것으로서, 데이터를 계량분석하여 새로운 정보와 지식을 도출해 냄으로써, 기술개발 현황, 유망기술, 선두 연구자, 선두 연구기관, 국가간 협력 정도, 다른 분야와의 융합 정도 등을 분석할 수 있도록 하는 정보분석 시스템 및 그 정보분석 방법에 관한 것이다.
최근 승자독식(Winner Takes All)의 글로벌 경쟁원리로 인해 세계 주요 국가들 사이에서 유망기술을 선점하기 위한 경쟁이 갈수록 치열해지고 있다. 게다가 기술 수명의 주기 단축, 최고의 기술만이 생존, 선진국의 표준화 개입 확대, IPR에 대한 분쟁증가 등과 같이 기술환경이 변화하고, 디지털 컨버전스에 따른 산업간의 융합화 가속, 새로운 기술개발에 의한 신산업의 대두 등 산업환경이 변화하고 있다.
이러한 기술 및 산업환경의 변화, 고객 니즈의 다양화 및 세분화 등으로 인해 각 기업은 경쟁에서 살아남기 위해 혁신경영을 도입하고 있으며, 이때 혁신경영의 성공 포인트는 연구개발(R&D)이 차세대 성장의 원동력이 되는지에 있다. 즉, 사업 성공에 있어서 기술이 차지하는 비중이 지속적으로 높아지면서 R&D 기능이 매우 중요하다는 점은 이제 기업 경영에서 당연한 것으로 받아들여지는 시대가 되어 가고 있다.
R&D도 세대를 거듭하며 진화하고 있고, 1990년대부터 현재까지 사용되고 있는 제4세대 R&D에서는 다양한 기술들의 조합을 통한 융합형 혁신이 한가지 기술에 의한 혁신보다 바람직한 결과를 창출한다는 것을 강조하고 있다. 또한, 글로벌 경제의 등장에 의한 기존 시장지배구조의 붕괴로 단기적 연구개발보다 장기적 관점에서의 연구개발 필요성을 강조하고, 정보통신, 바이오, 첨단소재 등 복합적, 융합적 과학기반산업들의 등장으로 특정기업 단독으로는 연구개발 불가능하며, 제품의 수명주기 단축과 혁신 주체간 협력연구의 중요성 증대에 따라 경쟁과 협력을 바탕으로 한 새로운 경영기법이 요구된다는 것을 인지하게 되었다.
한편, 최근 유망기술을 발굴하는 새로운 기법으로, 연구개발사업의 효율적 기획을 위하여 R&D 관련정보를 기초자료로 활용하여 연구개발에 소요되는 시간과 노력을 단축시킬 수 있는 '정보분석 시스템'의 구축 및 활용 필요성이 제기되었다.
그러나 현재까지 개발된 정보분석 시스템은, 학술지나 논문, 학회자료들의 서지사항을 각 필드별로 누적하여 보여주는 등의 단순한 통계분석만을 수행할 수 있었다. 즉, 분석될 데이터베이스에 포함된 저자가 몇 명인지, 키워드 별로 몇번이나 출현되었는지 등만을 분석할 수 있을 뿐이다. 이러한 단순한 통계적 분석만으로는 현재 어떠한 기술들이 개발되고 있는지, 어떠한 기술이 유망기술이 될 것인지, 어떤 기술분야들이 협력하고 있는지, 어떤 저자들이 어떤 분야에서 활동하고 있는지 등을 전혀 알 수 없다.
이에 따라, 데이터베이스에 포함된 각 정보들의 연관관계를 분석하고, 현재 그리고 앞으로 개발에 초점이 될 기술들을 파악할 수 있도록 함으로써, 유망기술의 발굴을 보다 용이하고 효율적으로 수행할 수 있도록 하는 정보분석 시스템이 구축되어야 할 것이다. 이와 동시에, 실제적인 기술연구를 위해, 저자 간, 국가 간, 기관 간의 협력관계를 파악할 수 있도록 하여야 할 것이다.
본 발명의 목적은, 기술트랜드, 유망기술, 전문적인 저자, 국가간 협력관계, 소속기관간 협력관계 등을 분석할 수 있도록 하는 정보분석 시스템 및 정보분석 방법을 제공하는 것이다.
상기 목적은, 외부로부터 분석할 복수의 데이터를 읽어들이는 데이터 로딩부; 상기 복수의 데이터로부터 추출된 복수의 변수들이 하나의 데이터에 동시에 출현하는 빈도인 동시출현빈도를 산출하는 상관분석 유닛; 및, 상기 동시출현빈도와 상기 각 변수들의 관련성을 이용하여 맵상에서 상기 각 변수들간의 관계를 표시하는 맵핑 유닛;을 포함하는 것을 특징으로 하는 정보분석 시스템에 의해 달성될 수 있다.
상기 복수의 데이터는 각각 상이한 내용을 갖는 복수의 필드로 구성되며; 상기 데이터 로딩부는, 상기 데이터를 필드에 따라 분류할 수 있다.
상기 각 필드는 적어도 하나의 상기 변수를 포함하며; 상기 데이터 로딩부는, 상호 상이한 데이터에 포함된 필드의 변수가 동일한 경우, 동일한 변수의 개수를 카운트할 수 있다.
상기 상관분석 유닛은, 선택된 필드에 대한 각 변수들이 임의의 데이터내에 동시에 출현하는 동시출현빈도를 산출하는 출현빈도 산출부; 및, 상기 동시출현빈도를 비율화하여 0 내지 1의 상관지수로 변환하는 표준화부;를 포함할 수 있다.
상기 출현빈도 산출부는, 하나의 필드로부터의 각 변수들이 임의의 데이터내에 동시에 출현하는 동시출현빈도를 산출할 수 있다.
상기 맵핑 유닛은, 상기 맵 상에 상기 각 변수들의 위치를 배치하는 맵핑부; 및, 상기 상관분석 유닛에 의해 분석된 상관지수에 따라 각 변수들간의 상관관계를 나타내는 선을 표시하는 상관성 표시부를 포함할 수 있다.
상기 맵핑부는, 상기 맵 상에서 상기 각 변수들 간의 상대적인 위치를 배치하며, 관련성이 높은 변수들은 인접한 위치에 배치하고, 관련성이 낮은 변수들은 이격된 위치에 배치하는 것이 바람직하다.
상기 상관성 표시부는, 상기 상관지수가 큰 변수들간의 선은 굵게 표시하고, 상기 상관지수가 낮은 변수들간의 선은 얇게 표시할 수 있다.
상기 데이터 로딩부에 의해 로딩된 상기 복수의 데이터에 포함된 각 변수들에 대해, 동일한 의미를 갖는 복수의 변수들을 하나의 변수로 통일시키는 클린징부를 더 포함할 수 있다.
상기 변수들 중 유사하거나 가까운 관계의 용어나 단어들을 그룹화하는 클러스터링부를 더 포함할 수 있다.
상기 맵핑 유닛은, 상기 변수들의 위치를 점이나 원으로 표시하며, 상기 클러스터링부에서 클러스터링된 변수들의 경우, 그룹의 크기에 따라 상이한 크기의 원으로 표시할 수 있다.
일정 기간마다 상기 변수의 출현빈도의 변화를 성장율로 산출하고, 상기 성장율에 따라 상기 변수가 태동영역, 성숙영역, 최근급증 영역, 최초 영역 중 어느 곳에 속하는지를 파악하는 기술성장 분석부를 더 포함할 수 있다.
한편, 상기 목적은, 외부로부터 분석할 복수의 데이터를 읽어들이는 단계; 상기 복수의 데이터로부터 추출된 복수의 변수들이 하나의 데이터에 동시에 출현하는 빈도인 동시출현빈도를 산출하는 단계; 및, 상기 동시출현빈도와 상기 각 변수들의 관련성을 이용하여 맵상에서 상기 각 변수들간의 관계를 표시하는 단계;를 포함하는 것을 특징으로 하는 정보분석 방법에 의해서도 달성될 수 있다.
이와 같이, 본 정보분석 시스템 및 정보분석 프로그램에 따르면, 데이터로부터 서지정보를 추출하고, 서지정보의 각 필드에 포함되는 변수간의 동시출현빈도, 상관관계, 성장율을 분석함으로써, 기술트랜드, 유망기술, 전문적인 저자, 국가간 협력관계, 소속기관간 협력관계를 파악할 수 있다. 이를 통해, 중장기적인 R&D 계획을 수립할 수 있으며, 중점 연구분야를 추출해내고 연구과제를 선정할 수 있다.
본 정보분석 시스템은, 외부로부터 읽어들인 데이터를 분석하며, 사용자에 의해 쉽게 조작가능한 분석 프로그램을 제공한다.
이하에서는 본 정보분석 시스템의 각 구성요소들을 먼저 설명하고, 각 구성요소의 동작에 의해 분석 프로그램에 동작되는 과정을 추후에 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 정보분석 시스템의 구성도이다.
본 정보분석 시스템(1)은, 외부로부터 분석할 데이터를 읽어들이는 데이터 로딩부(15)와, 분석대상인 데이터의 변수간의 관계를 분석하는 상관분석 유닛(25) 과, 상관분석 유닛(25)에 의한 분석결과를 맵으로 작성하는 맵핑 유닛(35)과, 데이터 로딩부(15)에서 읽어들인 데이터와 각 부에서 분석한 결과가 저장되는 저장부(5)를 포함한다.
데이터 로딩부(15)는, 미리 작성된 DB 또는 네트워크를 통해 접속가능한 웹사이트 등으로부터 분석하고자 하는 데이터를 읽어들이며, 이때, 데이터는 서지정보와 요약서 등을 포함한다. 서지정보의 경우, 제목, 저자, 키워드, 논문일 경우 기재된 학술지, 저자의 소속기관, 발표일, 인용문헌, 국가, 기술분류, 고유번호 등의 다양한 필드를 포함하며, 데이터의 종류에 따라 더 다양한 필드가 포함될 수도 있음은 물론이다.
데이터 로딩부(15)는 각 필드에 따른 분석이 가능하도록 읽어들인 데이터를 각 필드별로 분할하여 저장부(5)에 저장한다. 이때, 각 필드의 경우에도 여러 정보가 포함되어 있을 수 있으며, 데이터 로딩부(15)는 각 필드도 필요에 따라 복수개로 분할하여 저장한다. 예를 들어, 저자 필드에서 저자가 여러 명인 경우, 데이터 로딩부(15)는 각 저자별로 분류하여 저장부(5)에 저장한다. 그리고 일반적으로 논문에서 5개의 키워드를 포함시키므로, 데이터 로딩부(15)는 키워드 필드도 복수의 키워드를 각각 분류하여 저장부(5)에 저장한다. 여기서, 저자의 경우 저자의 이름과 성을 포함한 풀네임이 저장되므로, 추후 각 저자에 따른 분석이 가능하다.
한편, 분석하고자 하는 데이터가 논문인 경우, 데이터 로딩부(15)는 SCI(Science Citation Index) DB 또는 학술지나 학회의 웹사이트 등으로부터 데이터를 읽어들일 수 있으며, 분석하고자 하는 데이터가 특허문서일 경우, 데이터 로 딩부(15)는 WIPS 나 KIPRIS 등으로부터 데이터를 읽어들일 수 있다. 이하에서는 논문이나 특허문서 등의 데이터 중 데이터 로딩부(15)에 의해 저장부(5)에 저장된 데이터를 분석용 DB로 통칭한다.
이렇게 데이터 로딩부(15)에 의해 데이터가 로딩될 때, DB나 웹사이트가 선택되면, 로딩된 데이터의 필드, 데이터의 주제 영역, 논문의 경우 임펙트 팩터(Impact factor)의 적용여부, 국가 등을 미리 선택할 수 있다. 데이터의 주제 영역은 데이터가 속하는 기술분야를 의미하며, 특정 기술분야를 분석하고자 하는 분석자에 의해 선택될 수 있다.
본 실시예에 따른 데이터 로딩부(15)는, 추가적으로, 선택된 DB나 웹사이트로부터 읽어들인 분석용 DB를 일차적으로 통계 처리할 수 있다(이하, "통계처리기능"이라고 함). 좀더 자세히 살펴보면, 데이터 로딩부(15)는, 분석용 DB의 서지정보에 포함된 각 필드에 포함되는 기술문서, 저자 등의 수를 누적하여 카운트한다. 예를 들어, 데이터 로딩부(15)는 제목의 수, 저자의 수, 키워드 수, 학술지의 수, 소속기관의 수, 발표일의 수, 인용문헌의 수, 국가의 수, 기술분류의 수, 고유번호의 수 등을 카운트한다. 이에 따라, 분석용 DB에 몇 개의 제목이 포함되는지, 몇 개의 키워드가 사용되었는지, 몇 명의 저자가 포함되는지, 몇 개의 소속기관에서 논문이나 특허문서를 작성하였는지 등을 알 수 있다. 그리고, 데이터 로딩부(15)는, 분석용 DB내의 각 필드에 포함된 각각의 변수를 동일한 변수끼리 모으고, 각 변수의 수를 연도에 따라 카운트한다. 즉, 데이터 로딩부(15)는, 분석용 DB에 포함된 각 변수들에 대해, 각 제목이 몇 번이나 출현되었는지, 각 저자가 작성한 논 문이나 특허문서가 몇 개인지, 각 키워드가 출현한 횟수가 몇 번인지, 각 학술지가 몇 번이나 출현되었는지, 각 소속기관이 몇 번이나 출현되었는지, 각 인용문헌이 몇 번이나 인용되었는지, 각 국가별로 몇 번이나 출현되었는지, 각 기술분류가 몇 번이나 출현되었는지, 각 고유번호가 몇 번이나 출현되었는지를 연도별로 카운트한다. 이렇게 데이터 로딩부(15)에서 카운트된 각 변수에 대한 출현 정보는 테이블을 통해 사용자에게 로데이터(raw data)로 제공될 수 있다. 한편, 본 실시예에서 데이터 로딩부(15)는 통계처리기능을 수행하도록 구성되어 있지만, 별도로 통계처리기능을 수행하는 구성요소를 마련하거나, 상관분석 유닛(25)이 통계처리기능을 수행하도록 구성하더라도, 본원 발명의 정신을 벗어나지 않는다.
상관분석 유닛(25)은, 분석대상이 되는 데이터의 변수간의 상관관계를 분석할 수 있다. 분석대상이 되는 데이터는 주로 저장부(5)에 저장된 데이터이다.
한편, 상관분석 유닛(25)은, 변수들의 상관관계를 도출할 수 있다. 상관분석 유닛(25)에 의해 도출되는 상관관계의 예로서, 분석하고자 하는 변수들의 동시출현빈도를 산출하며, 후술하는 도 4에 나타난 바와 같이, 매트릭스의 가로변과 세로변을 따라 배치하고, 동시출현빈도가 숫자로 표시될 수 있도록 데이터 처리를 수행한다.
상관분석 유닛(25)에 의해 생성된 매트릭스의 가로변에 배치된 변수들과 세로변에 배치된 변수들은 동일한 필드로부터 추출된 것일 수도 있고, 다른 필드로부터 추출된 것일 수도 있다.
가로변과 세로변에 배치된 변수들이 동일한 필드로부터 추출된 것일 경우, 예를 들어, 저자 필드로부터 추출된 변수들일 경우, 매트릭스에 표시된 동시출현빈도는 각 저자들이 얼마나 자주 협력 내지 공통저술하였는지를 보여준다. 마찬가지로, 가로변과 세로변에 배치된 모두 변수들이 키워드에 관한 것인 경우, 키워드 하나하나는 기술분야를 나타내고, 매트릭스에 표시된 동시출현빈도를 통해 어떠한 기술과 기술이 접목되어 공동개발되고 있는지 등을 알 수 있다.
가로변과 세로변에 배치된 변수들이 다른 필드들로부터 추출된 것일 경우, 예를 들어, 저자 필드와 키워드 필드로부터 추출된 경우, 저자와 키워드 간의 동시출현빈도를 통해 어떠한 저자가 어떠한 기술분야에 대해 연구하고 있는지를 파악할 수 있다. 또한, 국가 필드와 키워드 필드로부터 변수들이 추출된 경우, 어느 나라가 어느 기술에 대해 연구하고 있는지를 파악할 수 있다.
상관분석 유닛(25)은, 또한, 매트릭스에 표시된 동시출현빈도를 표준화하여 0 내지 1까지의 상관지수로 변환할 수 있다. 예를 들어, 동시출현빈도가 0에서 10,000까지 나타난 경우, 동시출현빈도 0의 상관지수는 0이 되고, 동시출현빈도 10,000의 상관지수는 1이 된다. 즉, 동시출현빈도가 최고일 때 상관지수는 1이 되고, 동시출현빈도가 0일 때 상관지수는 0이 되며, 동시출현빈도를 0과 1 사이에서 비율화하여 상관지수를 산출할 수 있다.
한편, 가로변과 세로변에 배치된 변수들이 동일한 필드에 속하는 경우, 동일한 변수가 만나는 위치에 항상 가장 높은 동시출현빈도가 표시된다. 예를 들어, 키워드들간의 동시출현빈도를 분석하는 경우, 세로변과 가로변에는 키워드들이 각각 나열되고, 대각선을 따라 동일한 키워드들이 만나는 위치에서 동시출현빈도가 가장 높으므로, 상관지수를 표시한 매트릭스에서는 대각선을 따라 1의 상관지수가 표시된다.
이렇게 표준화를 수행하는 것은, 매트릭스에 표시되는 동시출현빈도는 분석용 DB의 크기에 따라 0부터 수천, 수만이 될 수도 있으므로, 동시출현빈도의 편차가 너무 크기 때문이다. 편차가 너무 크면, 동시출현빈도만으로는 분석자가 상관관계가 높은지 낮은지 여부를 파악하기가 어렵다. 반면, 상관지수로 표시하면, 0 내지 1 사이의 숫자로 표시되므로, 분석자는 상관관계를 용이하게 파악할 수 있게 된다. 이러한 상관지수는 맵핑 유닛(35)에 의해 맵이 작성될 때 변수간의 상관관계를 표시하기 위한 기준이 된다.
맵핑 유닛(35)은, 상관분석 유닛(25)에 의해 매트릭스화되고 표준화된 각 변수들간의 상관관계를 사용자에게 맵으로 표시하기 위해서 필요한 동작을 수행한다.
맵핑 유닛(35)은, 맵 상에 각 변수들의 위치를 배치하며, 이때, 각 변수들 간의 위치는 상대적인 위치로서, 관련성이 높은 변수들일수록 인접한 위치에 배치되고, 관련성이 낮은 변수들일수록 이격된 위치에 배치된다. 여기서, 관련성은 하나의 조건이 아니라 다양한 조건이 포함될 수 있다. 예를 들어, 저자들의 경우, 연구분야가 동일하면 관련성이 높다고 판단하여 인접한 위치에 배치될 수도 있고, 동일한 소속기관에 소속된 경우에 관련성이 높다고 판단될 수도 있다.
이렇게 맵이 구성되는 동안, 각 변수들의 위치는 타 변수들에 의해 변경될 수 있으며, 마지막 변수의 위치가 정해지면 모든 변수들의 위치가 셋팅된다. 이 때, 각 변수들 간의 거리는 변경되지 아니하고, 절대적인 위치만 변경된다. 즉, 각 변수들은 상대적인 위치, 즉 거리에 따라서 그 관련성을 판단할 수 있으며, 절대적인 위치는 중요하지 아니하다.
한편, 변수들의 위치를 설정할 때, 각 변수들은 점이나 원으로 표시되는 되는 것이 바람직하다. 한편, 포함된 변수의 수가 큰 그룹의 경우에는 큰 원으로 표시되고, 변수의 수가 작은 그룹의 경우에는 작은 원으로 표시될 수 있다.
맵핑 유닛(35)은, 분석한 상관지수에 따라 각 변수들간의 상관관계를 나타내는 선을 표시할 수 있으며, 상관지수의 고저에 따라 선의 굵기가 변화시킨다. 즉, 상관지수가 0 내지 1에서 분포하고 있으므로, 상관지수가 0일 경우에는 선의 굵기가 가장 얇고 상관지수가 커질수록 선의 굵기가 굵어져 상관지수가 1일 경우 선의 굵기가 가장 굵어진다.
예를 들어, 키워드의 경우, 기술분야가 다르면 맵상에서 거리가 멀게 배치되고 유사기술 내지 유사 연구분야는 거리가 가깝게 배치되지만, 협력작업이나 협력관계에 있는 키워드 간에는 기술분야가 달라서 멀리 배치되었더라도 선의 굵기가 굵게 형성될 수 있다.
도 2는 본 발명의 다른 일 실시예에 따른 정보분석 시스템의 구성도이다.
본 정보분석 시스템(100)은, 외부로부터 분석할 데이터를 읽어들이는 데이터 로딩부(15)와, 데이터를 보정하기 위한 클린징부(20)와, 분석대상인 변수간의 관계를 분석하는 상관분석 유닛(25)과, 유사성을 갖는 변수들을 클러스터링하는 클러스터링부(30)와, 상관분석 유닛(25)에 의한 분석결과를 맵으로 작성하는 맵핑 유 닛(35)과, 데이터 로딩부(15)에서 읽어들인 데이터와 각 부에서 분석한 결과가 저장되는 저장부(5)를 포함한다.
데이터 로딩부(15), 저장부(5), 상관분석 유닛(25), 및 맵핑 유닛(35)은 도 1을 참조하여 이미 설명하였으므로, 중복되는 설명은 피하고 필요한 한도 내에서만 설명하기로 한다.
클린징부(20)는, 데이터 로딩부(15)에 의해 로딩된 분석용 DB에 포함된 각 필드의 각 변수들의 용어를 통일하는 보정과정을 수행한다. 클린징부(20)는 사용자에 의해 선택된 모든 필드에 대해 수행될 수 있으며, 특히 키워드, 소속기관명, 학술지명, 국가 등의 용어를 통일하기 위해 사용된다.
예를 들어, AN과 Access Network는 동일한 의미를 갖는 단어이지만, 데이터 로딩부(15)에서는 별도의 키워드로 분류되어 카운트된다. 이에 따라, 클린징부(20)에서는 AN과 Access Network를 동일한 단어로 인식하여 AN과 Access Network를 하나의 용어로 통일시킨 다음, 저장부(5)에 저장된 AN으로 카운트된 수와, Access Network로 카운트된 수를 하나로 합하여 재저장한다.
다른 예로서, 도 8에 도시된 오른쪽 창에는 Ultra-wideband[UWB], UWB, Ultra-wideband, ultrawideband[UWB], Ultra wideband가 각각 다른 순위에 표시되어 있으나, 이 다섯 가지 용어는 띄어쓰기나 약어, -(대쉬) 등에 의해 표기가 다소 상이할 뿐이며 동일한 용어임을 알 수 있다. 이에 따라, 클린징부(20)는 다섯 가지 용어를 하나의 용어로 통일시키고, 각 용어에 카운트된 수를 하나로 합하여 저장부(5)에 저장한다.
이러한 클린징부(20)는, 시소러스를 이용하여 용어를 통일할 수 있다. 시소러스란, 의미상 같거나 관련이 있는 용어들을 모아서 검색이 가능하도록 구축된 데이터베이스이며, 본 발명에서는 시소러스가 서지정보의 각 필드, 예를 들면, 국가, 기관, 키워드에 따라 별도로 작성된다. 클린징부(20)는 시소러스를 이용하여 분석용 DB내의 서지정보의 각 필드의 용어를 통일시킨다. 시소러스를 구축하기 위한 시소러스 알고리즘으로는 Simple matches, Escape sequences, Character classes, Metacharacters, Perl extensions 등의 방법이 사용될 수 있다.
이렇게 클린징부(20)에 의해 변수가 통일됨으로써, 추후 맵핑이나 통계처리시 보다 정확한 정보를 출력할 수 있다.
한편, 상관분석 유닛(25)은 클린징부(20)에 의해 클린징된 데이터에 대하여 그 동작을 수행한다.
클러스터링부(30)는, 분석용 DB와 클러스터의 자질들을 비교하고, 유사도를 산출한 다음, 클러스터를 배정한다. 이때, 다양한 유사성의 척도를 사용할 수 있으며, 벡터공간상에서의 차이를 통해 대상 간의 상이성을 측정하는 거리계수인 유클리드 거리계수와, 비교 대상물이 표현하고 있는 속성간의 일치정도를 나타내는 유사계수 등을 사용할 수 있다.
클러스터링부(30)에서 사용할 수 있는 클러스터링 방법으로는 예를 들면 계층적 방법과 비계층적 방법이 있다.
계층적 방법으로는, 통합대상인 클러스터 쌍의 가장 유사한 두 문서끼리 합치는 단일연결기법과, 클러스터의 유사도가 낮은 문서를 비교하여 클러스터를 구성하여 밀접하게 연관된 클러스터를 얻는 완전연결방법과, 단일연결과 완전연결의 중간쯤의 연결관계를 가지며 모든 구성원쌍의 유사도를 반영하는 집단 평균방법과, 클러스터 센트로이드의 유클리드 거리를 최소화하고 전체오류제곱이 합의 증가가 최소화되는 연결방법인 워드기법을 포함한다.
비계층적 방법에서는 임의로 몇 개 생성된 초기 센트로이드를 통해 유사도 측정을 하며, 초기 클러스터 선택에 따라 결과가 달라질 수 있다. 특히 싱글패스인 경우는 한번의 배치밖에 없음으로 클러스터의 입력 순서가 매우 중요하다.
본 클러스터링부(30)의 경우, 상관분석 유닛(25)에 의해 생성된 매트릭스를 이용하여 각 변수간의 유사도를 판단하고, 이 유사도를 이용하여 유사도가 높은 변수끼리 클러스터링하는 방법을 사용할 수 있다.
클러스터링부(30)에 의해 클러스터링이 완료되면, 다수의 변수들이 복수의 그룹으로 분류되고, 각 그룹에 속하는 변수 중의 하나가 대표 변수가 된다. 대표 변수는 맵핑 유닛(35)에 의해 맵이 구성되면 각 그룹을 대표하여 맵상에 표시된다.
도 3은 본 발명의 또 다른 일 실시예에 따른 정보분석 시스템의 구성도이다.
본 정보분석 시스템(1)은, 외부로부터 분석할 데이터를 읽어들이는 데이터 로딩부(15)와, 데이터를 보정하기 위한 클린징부(20)와, 분석대상인 변수간의 관계를 분석하는 상관분석 유닛(25)과, 유사성을 갖는 변수들을 클러스터링하는 클러스터링부(30)와, 상관분석 유닛(25)에 의한 분석결과를 맵으로 작성하는 맵핑 유닛(35)과, 기술통계 분석을 위한 통계분석부(40)와, 기술의 성장 및 전망을 분석하는 기술성장 분석부와, 데이터 로딩부(15)에서 읽어들인 데이터와 각 부에서 분석 한 결과가 저장되는 저장부(5)와, 프로그램의 동작 및 분석된 결과를 제공하기 위해 프로그램을 제어하는 프로그램 제어부(10), 및 사용자 입출력부(60)를 포함한다.
도 1과 도 2를 참조하여 이미 설명한 구성요소들은 필요한 한도에서만 설명하기로 한다.
본 실시예에서, 상관분석 유닛(25)은, 분석대상인 변수간의 상관관계를 분석하며, 출현빈도 산출부(26)와, 표준화부(27)를 포함한다.
출현빈도 산출부(26)는, 도 4에 도시된 바와 같이, 상관관계를 분석하고자 하는 변수들을 매트릭스의 가로변과 세로변을 따라 배치하고, 동시출현빈도를 숫자로 표시한다. 상술한 바와 같이, 출현빈도 산출부(26)에 의해 생성된 매트릭스의 가로변에 배치된 변수들과 세로변에 배치된 변수들은 동일한 필드로부터 추출된 것일 수도 있고, 다른 필드로부터 추출된 것일 수도 있다.
표준화부(27)는, 매트릭스에 표시된 동시출현빈도를 표준화하여 0 내지 1까지의 상관지수로 변환한다.
본 실시예에서 클러스터링부(30)는, 출현빈도 산출부(26)에 의해 생성된 매트릭스를 이용하여 각 변수간의 유사도를 판단하고, 이 유사도를 이용하여 유사도가 높은 변수끼리 클러스터링하는 방법을 사용할 수 있다.
맵핑 유닛(35)은, 상관분석 유닛(25)에 의해 매트릭스화되고 표준화된 각 변수들간의 상관관계를 맵으로 표시하며, 맵핑부(36)와, 상관성 표시부(37)를 포함한다.
맵핑부(36)는 맵 상에 각 변수들의 위치를 배치하며, 이때, 각 변수들 간의 위치는 상대적인 위치로서, 관련성이 높은 변수들일수록 인접한 위치에 배치되고, 관련성이 낮은 변수들일수록 이격된 위치에 배치된다. 여기서, 관련성은 하나의 조건이 아니라 다양한 조건이 포함될 수 있다. 맵핑부(36)는, 클러스터링부(30)에서 사용한 유사도를 사용하여 관련성 정도를 판단할 수도 있다.
상관성 표시부(37)는, 상관분석 유닛(25)에 의해 분석된 상관지수에 따라 각 변수들간의 상관관계를 나타내는 선을 표시하며, 상관지수의 고저에 따라 선의 굵기를 변화시킬 수 있다.
통계분석부(40)는, 도 5에 도시된 바와 같이, 분석자가 선택한 필드에 대해 이차원 내지 삼차원의 그래프를 생성하고 그래프에 대한 데이터를 테이블 형태로 표현할 수 있도록 통계를 수행한다. 여기서, 통계분석에 사용될 수 있는 필드로는 발행일, 국가, 저자, 소속기관, 키워드, 건수, 인용 등 분석용 DB에 포함된 거의 모든 필드를 사용할 수 있다. 이러한 통계분석 부는 일반적인 통계 프로그램에서와 동일한 방법을 사용할 수 있으며, 당업자 간에 널리 알려진 기술이므로, 상세한 설명은 생략하기로 한다.
기술성장 분석부(45)는, 저자, 연도, 국가, 기술분야, 소속기관에 따라 기술이 어떻게 변화하고 있는지 파악할 수 있도록 성장율을 산출하고, 성장율에 따라 분석하고자 하는 대상이 태동 영역, 성숙 영역, 최초 영역, 최근급증 영역 중 어디에 속하는지 판단할 수 있다.
기술성장 분석부(45)는, 성장율을 통해 저자의 전문기술분야, 연도별 기술트 랜드, 국가별 기술트랜드, 기술분야별 기술트랜드, 소속기관별 기술트랜드를 파악할 수 있다.
예를 들어, 국가별 기술트랜드의 경우, 국가 필드와 키워드 필드를 비교하면, 각 국가와 키워드의 동시출현빈도를 산출할 수 있으며, 각 국가에 대해 임의의 키워드의 동시출현빈도를 전체 국가의 임의의 키워드에 대한 동시출현빈도로 나누어 성장율을 구한다. 이러한 성장율을 연도마다 산출하면, 각 국가의 해당 기술에 대한 연구 추이를 파악할 수 있다.
태동영역, 성숙영역, 최근급증 영역은 성장율에 따라 분류되며, 성장율이 최초로 파악되고 일정 이상인 경우를 태동영역으로 보고, 성숙영역은 태동영역 이후 성장율이 일정 수준을 유지하는 경우, 최근급증 영역은 성장율이 이전 연도와 비교하여 일정 이상 급증한 경우로 분류할 수 있다. 그리고 최초 영역은 성장율이 최초로 파악된 시기로 본다. 여기서, 태동영역, 성숙영역, 최근급증 영역을 구분하는 성장율의 수치는, 사용자나 설계자에 의해 얼마든지 변경가능함은 물론이다.
이렇게 성장율에 따라 태동영역, 성숙영역, 최근급증 영역, 최초 영역을 파악할 수 있기 때문에, 저자, 연도, 국가, 기술분야, 소속기관에 따라 변하는 기술트랜드를 쉽게 파악할 수 있다. 이에 따라, 기술트랜드를 파악하면, 기술의 방향을 알 수 있으므로, 앞으로 발전가능성이 있는 유망기술을 용이하게 파악할 수 있다.
프로그램 제어부(10)는, 정보분석 프로그램을 사용자 화면에 제시하고, 사용자가 입출력부(60)를 통해서 입력하는 선택에 따라 정보분석 시스템(200)의 각 요 소를 구동시키고, 구동결과를 사용자 입출력부(60)를 통해서 화면에 표시할 수 있도록 정보분석 프로그램을 제어한다.
이러한 구성에 의한 정보분석 시스템(200)이 동작하는 과정을 정보분석 프로그램의 실행과정을 통해 살펴보면 다음과 같다.
본 정보분석 시스템(200)을 기반으로 실행되는 정보분석 프로그램을 실행시키면, 도 6에 도시된 바와 같은 초기화면이 표시된다. 이러한 초기화면에서 데이터를 로딩시키기 위해서, 'Import Data'버튼을 선택하면, 데이터를 읽어들일 DB나 웹사이트 등을 선택할 수 있는 화면이 제공된다. 데이터의 소스 선택이 완료되면, 도 7에 도시된 바와 같이, 해당 DB나 웹사이트로부터 읽어들일 서지정보의 필드를 선택할 수 있는 창이 표시된다. 해당 창을 통해, 사용자는 데이터가 논문일 경우, IF(Impact Factor)를 지수 또는 순위를 기준으로 선택할 수 있으며, 분석을 원하는 국가도 선택할 수 있다.
이렇게 사용자가 DB나 웹사이트를 선택하고, IF나 국가의 선택 여부를 결정하면, 데이터 로딩부(15)는 해당 DB나 웹사이트로부터 분석자가 선택한 조건에 부합되는 데이터를 읽어들여 분석용 DB를 생성한다.
데이터의 로딩이 완료되거나, 데이터의 로딩이 진행되는 중, 데이터 로딩부(15)는, 서지정보와 요약서에 포함된 각 필드를 분류하여 카운트하기 시작한다.
이렇게 카운트가 완료되면, 도 8에 도시된 바와 같이, 프로젝트 리스트가 표시된다. 프로젝트 리스트에는 분석용 DB에 포함되는 각 필드가 분류된 상태에서 각 필드의 갯수가 표시되어 있다. 그리고 각 필드 중 하나를 선택하면, 오른쪽 창 에는 선택된 필드에 포함되는 각 변수에 대한 각 연도별 갯수가 순위에 따라 표시되어 있다.
예를 들어, 프로젝트 리스트에서 키워드를 선택하면, Bluetooth, Ultra-wideband[UWB] 등의 키워드가 출현한 순위에 따라 표시되고, 229, 160 등 출현한 횟수가 표시되는 상세리스트가 표시된다.
상세리스트의 하부에는 선택된 필드의 변수들을 출현빈도를 연도별로 표시하는 그래프를 선택할 수 있도록 '그래프(Graph) 버튼'과, 성장율에 따른 태동영역, 성숙 영역, 최초 영역, 최근급증 영역을 선택적으로 표시할 수 있도록 하는 '성장(Growth) 버튼'이 형성되어 있다.
이렇게 데이터의 로딩이 완료되면, 의미가 동일한 변수들의 용어를 통일시키는 클린징 과정이 수행된다.
각 필드에 대한 클린징 여부는 사용자에 의해 선택될 수 있으며, 이를 위해, 사용자에게는, 도 9에 도시된 바와 같은 클린징 선택 화면이 제공된다. 사용자가 클린징할 필드를 선택하면, 해당 필드의 각 용어가 표시되고, 클린징부(20)는 해당 필드의 용어를 통일한다. 이때, 사용자는 일치시키고자 하는 용어를 마우스로 드래그하여 편집할 수도 있음은 물론이다.
또한, 도 10에 도시된 바와 같은 시소러스 편집기를 제공하여 사용자가 시소러스를 직접 편집할 수 있도록 할 수도 있다. 시소러스 편집기의 좌측에는 해당 필드에 대한 용어가 표시되어 있고, 우측에는 선택된 용어에 대한 시소러스가 표시된다. 사용자는 시소러스에 새로운 용어를 추가하거나 시소러스내에 포함된 용어 를 삭제하는 등의 편집을 수행할 수 있다. 사용자에 의해 편집된 용어에 대한 정보는 시소러스에 업데이트되며, 추후 클린징부(20)의 구동시 편집된 내용이 반영된다.
클린징 후에는 클러스터링이 수행된다. 클러스터링은 사용자의 선택에 따라 변수가 많지 않은 경우에는 수행하지 아니할 수도 있다. 임의의 필드에 대해 클러스터링 기능이 선택되면, 클러스터링부(30)는 미리 정해진 클러스터링 방법을 이용하여 해당 필드에 포함되는 변수들을 클러스터링한다.
사용자가 도 8의 프로젝트 리스트에서 맵으로 형성하기 원하는 필드를 선택하면, 맵핑 유닛(35)은 필드에 속하는 각 변수의 위치를 설정하고, 상관분석 유닛(25)에서 산출한 상관지수를 이용하여 각 변수간의 선을 긋고 선의 굵기를 설정한다. 이에 따라, 도 11에 도시된 바와 같은 맵이 형성된다.
한편, 도 8의 '성장 버튼'을 클릭하면, 태동영역, 성숙영역, 최근급증 영역, 최초 영역을 선택할 수 있는 화면이 표시된다. 이 중 하나의 영역을 선택하면, 기술성장 분석부(45)는 선택된 필드의 각 변수에 대해 성장율을 산출하고, 산출된 성장율을 근거로 선택된 영역에 속하는 국가, 기술, 기관, 저자 등 선택된 필드에 대한 정보를 제공한다.
도 1은 본 발명의 일 실시예에 따른 정보분석 시스템의 구성도,
도 2는 본 발명의 다른 실시예에 따른 정보분석 시스템의 구성도,
도 3은 본 발명의 또 다른 실시예에 따른 정보분석 시스템의 구성도,
도 4는 도 3 출현빈도 산출부에 의해 산출된 동시출현빈도가 표시된 매트릭스,
도 5는 도 3의 통계분석부에 의해 작성된 그래프를 포함하는 통계결과화면,
도 6는 도 3의 정보분석 시스템을 기반으로 실행되는 정보분석 프로그램의 초기화면,
도 7는 도 6의 정보분석 프로그램에서 데이터의 로딩시, 서지정보의 필드를 선택할 수 있도록 사용자에게 제공되는 창,
도 8은 도 6의 정보분석 프로그램에서 데이터의 로딩이 완료된 상태의 화면,
도 9는 도 1의 클린징부에 의해 용어의 클린징시 클린징될 용어를 선택할 수 있는 선택화면,
도 10은 시소러스 편집기의 화면도,
도 11는 도 1의 맵핑 유닛에 의해 작성된 맵의 일 실시예이다.

Claims (24)

  1. 외부로부터 복수 개의 데이터들을 읽어들이는 데이터 로딩부로서, 상기 복수 개의 데이터들 각각은 제1변수와 제2변수를 포함하며, 상기 복수 개의 데이터들에서 상기 변수들의 출현 횟수를 카운트하는 것인 상기 데이터 로딩부;
    상기 복수 개의 데이터들 중 하나의 데이터에 포함되는 상기 제1변수와 상기 제2변수의 동시출현빈도, 및 상기 복수 개의 데이터들 중 서로 다른 데이터에 포함되는 상기 제1변수와 상기 제2변수의 동시출현빈도를 산출하는 상관분석 유닛; 및,
    상기 동시출현빈도를 이용하여 맵상에서 상기 각 변수들간의 관련성을 표시하는 맵핑 유닛; 및
    일정 기간마다 상기 제1변수와 상기 제2변수의 동시출현빈도의 변화를 성장율로 산출하고, 상기 성장율에 따라 상기 제1변수가 태동영역, 성숙영역, 및 최근급증 영역 중 어느 영역에 속하는지를 판단함으로써 기술의 성장 및 전망을 분석하는 기술성장 분석부;를 포함하며,
    상기 제1변수는 키워드이고, 상기 제2변수는 저자, 연도, 국가, 및 소속기관 중 어느 하나이며,
    상기 제2변수가 저자인 경우 상기 기술성장 분석부는 저자의 기술분야의 기술트랜드를 판단할 수 있고,
    상기 제2변수가 연도이면 상기 기술성장 분석부는 연도별 기술트랜드를 판단할 수 있고,
    상기 제2변수가 국가이면 상기 기술성장 분석부는 국가별 기술트랜드를 판단할 수 있고,
    상기 제2변수가 소속기관이면 상기 기술성장 분석부는 소속기관별 기술트랜드를 판단할 수 있으며,
    상기 관련성은, 연구분야가 동일한지 여부, 저자들이 동일한 소속기관에 속하는지 여부, 및 저자들의 국가가 동일한지 여부 중 적어도 하나 이상을 고려하여 결정되는 것을 특징으로 하는 정보분석 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 상관분석 유닛은,
    상기 각 변수들이 임의의 데이터내에 동시에 출현하는 동시출현빈도를 산출하는 출현빈도 산출부; 및,
    상기 동시출현빈도를 비율화하여 0 내지 1의 상관지수로 변환하는 표준화부;를 포함하는 것을 특징으로 하는 정보분석 시스템.
  5. 삭제
  6. 제4항에 있어서,
    상기 맵핑 유닛은,
    상기 맵 상에 상기 각 변수들의 위치를 배치하는 맵핑부; 및,
    상기 변수들 사이의 관련성을 상기 각각의 변수들 사이를 연결하는 선으로 표시하되, 상기 상관분석 유닛에 의해 분석된 상관지수에 따라 상기 선의 두께를 달리하여 표시하는 상관성 표시부;를 포함하는 것을 특징으로 하는 정보분석 시스템.
  7. 제6항에 있어서,
    상기 맵핑부는,
    상기 맵 상에서 상기 각 변수들을 관련성에 따라서 그 위치를 배치하며, 관련성이 높은 변수들을 관련성이 낮은 변수들보다 상대적으로 가까이 배치시키는 것을 특징으로 하는 정보분석 시스템.
  8. 제6항에 있어서,
    상기 상관성 표시부는, 상기 상관지수가 큰 선의 두께를 상기 상관지수가 작은 선의 두께보다 더 굵게 표시하는 것을 특징으로 하는 정보분석 시스템.
  9. 삭제
  10. 제6항에 있어서,
    각 변수들간의 유사도를 판단하고, 이 유사도에 따라서 변수들을 그룹화하고, 각 그룹에 속하는 변수들 중의 어느 하나의 변수를 대표 변수로 선정하는 클러스터링부를 더 포함하며,
    상기 유사도는 벡터공간상에서의 차이를 통해 대상 간의 상이성을 측정하는 거리계수인 유클리드 거리계수인 것을 특징으로 하는 정보분석 시스템.
  11. 제10항에 있어서,
    상기 맵핑 유닛은, 상기 변수들의 위치를 점이나 원으로 표시하며, 상기 클 러스터링부에서 클러스터링된 변수들의 경우, 그룹의 크기에 따라 상이한 크기의 원으로 표시하는 것을 특징으로 하는 정보분석 시스템.
  12. 삭제
  13. 외부로부터 복수 개의 데이터들을 읽어들이는 단계로서, 상기 복수 개의 데이터들 각각은 제1변수와 제2변수를 포함하며, 상기 복수 개의 데이터들에서 상기 변수들의 출현 횟수를 카운트하는 것인 단계;
    상기 복수 개의 데이터들 중 하나의 데이터에 포함되는 상기 제1변수와 상기 제2변수의 동시출현빈도, 및 상기 복수 개의 데이터들 중 서로 다른 데이터에 포함되는 상기 제1변수와 상기 제2변수의 동시출현빈도를 산출하는 단계; 및,
    상기 동시출현빈도를 이용하여 맵상에서 상기 각 변수들간의 관련성을 표시하는 단계; 및
    일정 기간마다 상기 제1변수와 상기 제2변수의 동시출현빈도의 변화를 성장율로 산출하고, 상기 성장율에 따라 상기 제1변수가 태동영역, 성숙영역, 및 최근급증 영역 중 어느 영역에 속하는지를 판단하는 단계;를 포함하며,
    상기 제1변수는 키워드이고, 상기 제2변수는 저자, 연도, 국가, 및 소속기관 중 어느 하나이며,
    상기 제2변수가 저자인 경우 상기 판단하는 단계는 저자의 기술분야의 기술트랜드를 판단할 수 있고,
    상기 제2변수가 연도이면 상기 판단하는 단계는 연도별 기술트랜드를 판단할 수 있고,
    상기 제2변수가 국가이면 상기 판단하는 단계는 국가별 기술트랜드를 판단할 수 있고,
    상기 제2변수가 소속기관이면 상기 판단하는 단계는 소속기관별 기술트랜드를 판단할 수 있으며,
    상기 관련성은, 연구분야가 동일한지 여부, 저자들이 동일한 소속기관에 속하는지 여부, 및 저자들의 국가가 동일한지 여부 중 적어도 하나 이상을 고려하여 결정된 것을 특징으로 하는 정보분석 방법.
  14. 삭제
  15. 삭제
  16. 제13항에 있어서,
    상기 동시출현빈도를 비율화하여 0 내지 1의 상관지수로 변환하는 단계;를 더 포함하는 것을 특징으로 하는 정보분석 방법.
  17. 삭제
  18. 제16항에 있어서,
    상기 맵상에서 상기 각 변수들간의 관련성을 표시하는 단계는,
    상기 맵 상에 상기 각 변수들의 위치를 배치하는 단계와,
    상기 변수들 사이의 관련성을 상기 각각의 변수들 사이를 연결하는 선으로 표시하되, 상관분석 유닛에 의해 분석된 상관지수에 따라 상기 선의 두께를 달리하여 표시하는 단계를 포함하는 것을 특징으로 하는 정보분석 방법.
  19. 제18항에 있어서,
    상기 각 변수들의 위치를 배치하는 단계에서는,
    상기 맵 상에서 상기 각 변수들을 관련성에 따라서 그 위치를 배치하며, 관련성이 높은 변수들을 관련성이 낮은 변수들보다 상대적으로 가까이 배치시키는 것을 특징으로 하는 정보분석 방법.
  20. 제18항에 있어서,
    상기 선을 표시하는 단계에서는, 상기 상관지수가 큰 선의 두께를 상기 상관지수가 작은 선의 두께보다 더 굵게 표시하는 것을 특징으로 하는 정보분석 방법.
  21. 삭제
  22. 제13항에 있어서,
    각 변수들간의 유사도를 판단하고, 이 유사도에 따라서 변수들을 그룹화하고, 각 그룹에 속하는 변수들 중의 어느 하나의 변수를 대표 변수로 선정하는 클러스터링 단계;를 더 포함하며,
    상기 유사도는 벡터공간상에서의 차이를 통해 대상 간의 상이성을 측정하는 거리계수인 유클리드 거리계수인 것을 특징으로 하는 정보분석 방법.
  23. 제22항에 있어서,
    상기 변수들의 위치를 배치하는 단계에서는, 상기 변수들의 위치를 점이나 원으로 표시되며, 상기 클러스터링 단계에서 그룹화된 변수들의 경우, 그룹의 크기에 따라 상이한 크기의 원으로 표시되는 것을 특징으로 하는 정보분석 방법.
  24. 삭제
KR1020070100222A 2007-10-05 2007-10-05 정보분석 시스템 및 그 정보분석 방법 KR100952634B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070100222A KR100952634B1 (ko) 2007-10-05 2007-10-05 정보분석 시스템 및 그 정보분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070100222A KR100952634B1 (ko) 2007-10-05 2007-10-05 정보분석 시스템 및 그 정보분석 방법

Publications (2)

Publication Number Publication Date
KR20090035128A KR20090035128A (ko) 2009-04-09
KR100952634B1 true KR100952634B1 (ko) 2010-04-20

Family

ID=40760641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070100222A KR100952634B1 (ko) 2007-10-05 2007-10-05 정보분석 시스템 및 그 정보분석 방법

Country Status (1)

Country Link
KR (1) KR100952634B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064981B1 (ko) * 2010-10-07 2011-09-15 한국과학기술정보연구원 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101183933B1 (ko) * 2010-11-25 2012-09-21 한국과학기술정보연구원 연구개발 기술의 경제성 분석 지원 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000061776A (ko) * 1999-03-30 2000-10-25 김덕중 특허 맵 생성방법
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000061776A (ko) * 1999-03-30 2000-10-25 김덕중 특허 맵 생성방법
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064981B1 (ko) * 2010-10-07 2011-09-15 한국과학기술정보연구원 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법

Also Published As

Publication number Publication date
KR20090035128A (ko) 2009-04-09

Similar Documents

Publication Publication Date Title
Qin et al. Making data visualization more efficient and effective: a survey
Huang et al. Big-data-driven safety decision-making: a conceptual framework and its influencing factors
Silwattananusarn et al. Data mining and its applications for knowledge management: a literature review from 2007 to 2012
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
CN101408887B (zh) 推荐词条以指定本体空间
Zandkarimi et al. A generic framework for trace clustering in process mining
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Tsai Global data mining: An empirical study of current trends, future forecasts and technology diffusions
Côme et al. Hierarchical clustering with discrete latent variable models and the integrated classification likelihood
CN113987139A (zh) 一种基于知识图谱的航空发动机fadec系统软件缺陷案例可视化查询管理系统
Yao et al. A measurement-theoretic foundation of rule interestingness evaluation
Chang et al. Using data mining technology to solve classification problems: A case study of campus digital library
Zhang et al. Analysis and research on library user behavior based on apriori algorithm
KR20090069874A (ko) 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
Shahnawaz et al. Temporal data mining: an overview
KR100952634B1 (ko) 정보분석 시스템 및 그 정보분석 방법
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Li et al. Data mining in hospital information system
Gao et al. VizGRank: a context-aware visualization recommendation method based on inherent relations between visualizations
Yang et al. Developing Reliable Taxonomic Features for Data Warehouse Architectures
JP2021152751A (ja) 分析支援装置及び分析支援方法
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Alhammad et al. Towards Schema Inference for Data Lakes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140326

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160401

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170228

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180409

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190409

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20200224

Year of fee payment: 11