KR100964635B1

KR100964635B1 - 지식정보의 계량화를 통한 유망연구영역 선정방법

Info

Publication number: KR100964635B1
Application number: KR1020090036471A
Authority: KR
Inventors: 문영호; 이상필; 이창환; 손은수; 여운동
Original assignee: 한국과학기술정보연구원
Priority date: 2009-04-27
Filing date: 2009-04-27
Publication date: 2010-06-22
Also published as: KR20090049043A

Abstract

본 발명은 지식정보의 계량화를 통한 유망연구영역 선정방법을 제공하기 위한 것으로, 유망연구영역 선별에 필요한 데이터베이스를 선정하는 제 1 단계와; 상기 제 1 단계에서 선정된 유망연구자료에 대해 1차 클러스터링에 의한 리서치 프론트를 선정하는 제 2 단계와; 상기 제 2 단계 후 리서치 프론트에 대해 통계적 필터링을 수행하고 2차 클러스터링을 수행하여 유망연구영역 후보군을 선정하는 제 3 단계;를 포함하여 구성함으로서, 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역을 찾아낼 수 있게 되는 것이다.

지식정보, 계량화, 유망연구영역, 클러스터링, 과학기술

Description

지식정보의 계량화를 통한 유망연구영역 선정방법{Method for identification of emerging technologies by informetrics}

본 발명은 유망연구영역에 관한 것으로, 특히 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역(가까운 장래에 해당과학기술분야에서 중추적 역할을 수행할 잠재력을 지닌 핵심적인 연구영역)을 찾아내기에 적당하도록 한 지식정보의 계량화를 통한 유망연구영역 선정방법에 관한 것이다.

지식과 정보가 그 국가의 경쟁력을 좌우하는 지식기반 산업사회로 전환되고, 특히 국가과학기술경쟁력을 국가경쟁력의 원천으로 인식되고 있는 실정이다.

이에 세계 각국들은 미래의 경쟁에 살아남기 위한 핵심기술 및 연구과제를 미리 도출하고 선정하여 집중적인 연구개발을 추진해 나가고자 하고 있다.

그러나 현재까지는 미래 국가 과학기술을 주도할 유망한 연구영역을 찾아낼 수 있는 방법이 수동적인 방식에 머무르고 있다.

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역을 찾아낼 수 있는 지식정보의 계량화를 통한 유망연구영역 선정방법을 제공하는데 있다.

앞으로 발전가능성이 높은 연구 분야를 미래유망연구영역이라 하고, 연구개발 프로세스 중 기업의 지식창출에 연구개발 활동을 매우 중요한 수단으로 보고 있는데, 이러한 유망연구영역 탐색을 위해 본 발명에서는 지식의 구조화/계량화를 통하여 예측할 수 있도록 하는데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명의 일 실시예에 의한 지식정보의 계량화를 통한 유망연구영역 선정방법은,

유망연구영역 선별에 필요한 데이터베이스를 선정하는 제 1 단계와; 상기 제 1 단계에서 선정된 유망연구자료에 대해 1차 클러스터링에 의한 리서치 프론트를 선정하는 제 2 단계와; 상기 제 2 단계 후 리서치 프론트에 대해 통계적 필터링을 수행하고 2차 클러스터링을 수행하여 유망연구영역 후보군을 선정하는 제 3 단계;를 포함하여 수행함을 그 기술적 구성상의 특징으로 한다.

이상에서 살펴본 바와 같이, 본 발명에 의한 지식정보의 계량화를 통한 유망연구영역 선정방법은 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역(가까운 장래에 해당과학기술분야에서 중추적 역할을 수행할 잠재력을 지닌 핵심적인 연구영역)을 찾아낼 수 있는 효과가 있게 된다.

이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.

이하, 상기와 같은 본 발명, 지식정보의 계량화를 통한 유망연구영역 선정방법의 기술적 사상에 따른 일 실시예를 도면을 참조하여 설명하면 다음과 같다.

도 1은 본 발명의 일 실시예에 의한 지식정보의 계량화를 통한 유망연구영역 선정방법을 보인 흐름도이다.

이에 도시된 바와 같이, 유망연구영역 선별에 필요한 데이터베이스를 선정하는 제 1 단계(ST1 ~ ST3)와; 상기 제 1 단계에서 선정된 유망연구자료에 대해 1차 클러스터링에 의한 리서치 프론트(Research Front, RF)를 선정하는 제 2 단계(ST4)와; 상기 제 2 단계 후 리서치 프론트에 대해 통계적 필터링을 수행하고 2차 클러스터링을 수행하여 유망연구영역 후보군을 선정하는 제 3 단계(ST5, ST6);를 포함하여 수행하는 것을 특징으로 한다.

상기 제 1 단계는, 선정한 데이터베이스가 문헌 데이터베이스이면 고인용 선정에 의한 유망연구자료 선별을 수행하고, 선정한 데이터베이스가 특허 데이터베이스이면 특허활용통합지수에 의한 유망연구자료 선별을 수행하는 것을 특징으로 한다.

상기 제 1 단계에서, 특허활용통합지수(UPI)는 " 특허기술 타인용 빈도지수(CFI) + 피인용 지수(CCR) " 에 의해 산출하고, 상기 피인용지수(CCR)는 " '특정주체의 특정기술분야의 피인용수' / '해당연구주체의 특정기술분야의 특허건수' " 에 의해 산출하는 것을 특징으로 한다.

상기 제 2 단계는, 동시인용 분석 또는 서지결합법을 이용하여 클러스터링을 수행하는 것을 특징으로 한다.

상기 제 3 단계는, 동시단어 분석을 이용하여 클러스터링을 수행하는 것을 특징으로 한다.

상기 지식정보의 계량화를 통한 유망연구영역 선정방법은, 상기 제 3 단계 후 비교 분석에 의한 유망연구영역을 최종 선정하는 제 4 단계(ST7);를 더욱 포함하여 수행하는 것을 특징으로 한다.

상기 제 4 단계는, 기존 연구영역 인자 분석 또는 전문가 연구영역 인자 분석을 통해 비교 분석을 수행하는 것을 특징으로 한다.

상기 제 4 단계는, 논문 또는 특허의 평균이동선의 이격도를 사용하여 최종 선정된 유망연구영역 중에서 일정 개수의 핵심 과제를 선정하는 것을 특징으로 한다.

상기 제 4 단계는, 논문 또는 특허의 피인용 평균증가율을 사용하여 최종 선정된 유망연구영역 중에서 일정 개수의 핵심 과제를 선정하는 것을 특징으로 한다.

상기 제 4 단계는, 논문 또는 특허의 피인용 회기직선기울기를 사용하여 최종 선정된 유망연구영역 중에서 일정 개수의 핵심 과제를 선정하는 것을 특징으로 한다.

이와 같이 구성된 본 발명에 의한 지식정보의 계량화를 통한 유망연구영역 선정방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.

먼저 본 발명은 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역(가까운 장래에 해당과학기술분야에서 중추적 역할을 수행할 잠재력을 지닌 핵심적인 연구영역)을 찾아내고자 한 것이다.

이러한 본 발명은 미래 국가 과학기술을 주도할 유망한 연구영역, 즉 가까운 장래에 해당 과학기술분야에서 중추적 역할을 수행할 잠재력을 지닌 태동기/도약기의 핵심적인 연구영역을 찾아내고자 한다.

그동안 국가의 과학기술 미래를 위한 연구개발의 선택과 집중에 있어, 각 분야의 저명한 전문가들로 구성된 위원회의 수차례의 회의와 조사의 결과에만 의존하여 야기된 문제점들을 해결하여, 본 발명에서는 과학 계량학(Scientometrics)이라는 보다 객관적이고 투명한 지표들을 이용하여 국가 R&D에 주력해야 할 미래유망연구 분야를 선정할 수 있도록 한다.

학술적인 관점에서 프로젝트나 연구기관을 평가하는 경우에는 보통 동료평가(Peer review)가 가장 많이 사용되며, 이는 당해 분야의 전문지식을 갖춘 연구자만이 연구 활동 내용을 이해하여 가치를 적절히 판단할 수 있을 것이라고 보기 때문이다.

그러나 동료평가는 기본적으로는 동료(Peer)의 주관적 판단에 의하기 때문에 어느 정도 편향될 수 있는 것이 사실이며, 이러한 여러 가지 문제가 존재한다는 것이 지적되기도 한다. 예를 들면 기존분야를 유지하려고 하는 경향이나 개인적/조직적 편향, 유명한 연구자나 기관에 높은 평점을 주게 되는 후광효과, 평가자마다 다른 평가기준 등을 들 수 있고, 더욱이 동료평가는 특정분야의 전문가이기 때문에 학제연구의 질의판단이나 자신의 분야를 넘어서는 비교는 어려울 수 있다. 또한 한정된 수의 평가대상에 기초해 비교를 해야 하며, 그렇더라도 평가자에게 할당되는 작업량은 커지게 된다.

한편 본 발명에 의한 과학계량학적 분석방법은 과학기술적 측면의 생산성이나 파급효과 혹은 연구실시체제의 특징에 대한 정량적인 분석을 가능하게 하며, 당해 연구 분야의 전문가가 아니더라도 연구 활동이나 성과 분석이 가능토록 하여 그 결과를 정량적 지표로서 명확히 알기 쉽게 제시할 수 있는 장점을 지닌다.

과학계량학적 정보 분석을 통해서는 논문 수 또는 특허 수 등에 의한 연구 활동의 활성도를 평가하고, 피인용수에 의해 그 이후의 연구전개에 미친 영향력을 정량적으로 측정하게 되는데, 특히 피인용수는 인용이라는 형식으로 해당 연구의 유용성을 전 세계의 연구자들로부터 인정받은 수라고 생각할 수 있으므로 단지 수 명이 행하는 동료평가의 단점을 보완할 수 있게 된다.

또한 데이터베이스에 수록된 전 세계의 논문, 특허 등과 피인용수의 비교를 막대한 비용을 들이지 않고 할 수 있으므로 평가대상수가 적다는 문제점도 해결할 수 있다.

그러나 이 방법 또한 사회/경제적 효과 등의 다른 측면을 직접적으로 나타내는 것은 아니기 때문에 다른 방법과 조합하여 사용하여야 할 필요가 있다.

미래 유망연구영역을 선정하는데 있어 본 발명은 통계적/계량서지학적 방법 등의 정량적(quantitative) 방법과 전문가 검토(Peer review)를 통한 델파이법의 정성적(qualitative) 방법 등을 결합하는 혼성방식을 취함으로써 각 방법이 지니는 단점을 최소화하고 장점을 최대한 살릴 수 있게 한다.

본 발명은 연구의 성과물인 논문, 특허 등을 보다 과학적이고 체계화된 객관적인 방법으로 분석하여 동일 논문주제, 특허분야 등을 형성하는 일정 크기의 연구영역을 조망적으로 살펴 미래 국가의 과학 기술력을 집중시켜야 할 유망 연구 분야를 찾아내려는 궁극적인 목표를 갖고 있으며, 따라서 본 발명에 의한 결과는 국가 연구개발사업의 사전기획을 위한 객관적인 분석정보를 제공함으로써 R&D 지원의 효 율성을 제고하고, 과제선정의 객관성 및 투명성을 확보하는 데 기여할 수 있게 될 것이다.

여기서 계량정보분석(informetrics)이란 용어는 문헌(특허와 논문 등)계량분석과 과학계량분석의 영역을 포함하여 '정보'에 대한 정량적 접근을 통칭하는 것을 말한다.

또한 유망기술이란 최근 들어 급격한 성장을 보이는 영역으로서, 신·구 기술을 가늠하는 잣대로 사용될 수 있을 뿐만 아니라 최근 들어 부상하는 기술을 파악하는 데 유용한 개념이다. 이러한 유망기술은 기존과 비교하여 다른(또는 새로운) 분야로의 전이나 변화를 의미한다. 이러한 전이나 변화는 동태적(dynamic)인 것으로서 변화가 멈추었다면 더 이상 유망기술로 보기 어렵다. 따라서 특정 시점에서의 유망기술은 그 시점에서 전이 또는 변화하는 과정에 있어야 한다. 이러한 전이나 변화는 점진적(incremental)일수도 있으며 급진적(radical)일 수도 있을 것이다. 또한 유망기술은 현 시점에서는 파악하기 어려울 수도 있으나 시장 또는 경제적 잠재력을 지니고 있게 된다. 유망기술의 또 하나의 특징은 과학에 대한 의존도가 점차 높아진다는 점이다. 경제/사회적으로 큰 영향력을 발휘할 수 있는 기술개발 여부는 보유하고 있는 과학적 지식의 선도성에 영향을 받기 때문일 것이며 또한 나노 또는 바이오와 같은 영향력이 큰 분야에 있어 기초과학에 대한 의존도가 높다는 점은 익히 잘 알려진 사실이다.

이러한 본 발명에 대해 좀 더 상세히 설명하면 다음과 같다.

도 2는 도 1을 적용한 예를 보인 개념도이다.

그래서 본 발명을 적용하여 고인용(HCP) 선정에 의해 연도별 피인용 상위 1%의 19개 분야를 선정하였다. 이때 사용된 자료는 HCP 4만여편, 인용 논문(Citing Paper) 200만여편이다.

그리고 공인용(Co-Citation) 분석을 수행한다.

이를 통해 리서치 프론트(Research Front, RF)를 4,292개 선정하였다.

그런 다음 통계적 필터링(Statistical Filtering)을 수행하여 급격한 피인용수 증가를 보이는 RF를 3705개 선별하였다.

그리고 동시단어(Co-Word) 분석을 수행하였다.

이를 통해 유망연구영역 후보군을 391개 영역으로 추출하였다.

또한 원로과학기술인, 학회 등 전문가를 활용하거나 유망성 확인, 영역명 부여, 기술개요 작성 과정 등을 통한 전문가 검증과 비교분석에 의해 272개 영역의 최종 유망연구영역을 선정할 수 있었다.

이러한 본 발명의 동작을 좀 더 상세히 설명하면 다음과 같다.

본 발명의 방법의 연산, 통계적 처리, 결과 산출 과정은 수식 연산이 가능한 컴퓨터에 의해 수행될 수 있음은 당업자라면 쉽게 알 수 있으며, 본 발명의 사상도 이로 한정하기로 한다.

1) 데이터베이스 선정

그래서 제 1 단계(ST1 ~ ST3)에서는 문헌 데이터베이스와 특허 데이터베이스를 포함하여 유망연구자료 선별에 필요한 데이터베이스를 선정한다.

1-1) 고인용(high citation) 선정

일반적 관점으로 논문에 있어서 인용이라는 것은 그 논문의 권위를 나타낸다. 따라서 피인용 회수가 많은 논문은 그 분야에서 학문적 권위를 인정받은 것이며, 더불어 해당분야 연구자가 많은 것을 의미한다. 만일 연도별 분야별로 피인용수를 나누어 고려한다면 그 해, 혹은 최근에 연구가 활발한 분야를 찾을 수 있다. 인용수가 보통보다 아주 많은 경우를 고인용논문(HCP)이라고 하며, 미국 Thomson ISI사에서는 분야별 연도별로 상위 1%에 해당하는 고인용논문에 대해 정보분석을 수행하고 있다.

1-2) 특허활용통합지수(Unified Patent Index, UPI)

특허활용통합지수는 피인용지수에 의해 계산한다.

1-2-1) 피인용지수(Core Citation Report, CCR)의 산출

종래의 CII(Current Impact Index)는 특정 기관이나 국가가 다른 기관이나 국가에 비해 상대적으로 어느 정도 영향력을 갖는지를 평가하는 분석정보이다. 그러나 CII는 특정 국가나 기관의 기술력을 측정하는 주요 지수로써 활용될 수 있으나, 개별 출원인이나 개별 기관에서 등록한 단위특허에 대한 분석정보는 제공하지 않고 있다.

정보의 과잉제공이라는 측면에서 특정 기관이나 국가에서 발행하는 전체 특허 가운데 주제별 중심저자(core author)와 중심 특허(core patent)를 선정하는 것도 매우 중요하다. 왜냐하면, 특정 특허의 피인용지수(Core Citation Report, CCR)를 확인함으로써 전체 특허의 조사에 투입되는 시간과 경비를 절감할 수 있기 때문이다.

- 특정기간 혹은 특정 주제내에서 최대 피인용 회수를 갖는 단위특허

- 특정기간 혹은 특정 주제내에서 최대 피인용 회수를 갖는 저자(단체)

- 특정 기관이나 국가의 피인용 지수(Core Citation Report, CCR)

여기서 CCR은 다음과 같이 구할 수 있다.

CCR = '특정주체의 특정기술분야의 피인용수' / '해당연구주체의 특정기술분야의 특허건수'

예를 들면, 특정 특허가 다음과 같이 해당 주제별 인용횟수를 갖고 있다면, 이 특허의 피인용 지수는 0.1이다. 1에 가까울수록 해당 특허는 해당 주제영역내에 핵심 기술로 간주한다.

도 3은 도 1에서 특허활용통합지수에 의한 유망연구자료 선별시 피인용지수와 특허활용통합지수의 산정예를 보인 표이다.

도 3에서 피인용지수(CCR)의 예는 "A 41 G(생활용품으로써 의류 중 조화; 가발; 마스크; 우모)에서 2005년 현재 100건의 특허가 출원되었으며, 특정 특허 '갑'의 피인용횟수가 10회이다" 이다.

이러한 피인용지수(CCR) 지수의 산출은 특정 주제에 대한 IPC의 분류체계를 이용한다. 즉 지수 산출자의 편의에 따라 클래스나 서브클래스 혹은 그 하위 그룹 등과 같은 체계를 이용하여 분석대상(A 41 G)을 설정하고 , 특정 주제내에 해당 특허의 피인용지수를 산출할 수 있다.

1-2-2) 특허활용통합지수(UPI)의 산출

과학기술의 혁신을 위해서는 우수한 기술을 개발하여 특허를 창출하는 것과 개발된 기술들을 다른 사람들이 활용할 수 있도록 확산하는 것이 필요하다. 즉, 확산된 기술들을 많은 사람들이 활용하여 더 우수한 기술을 개발하는 방식의 순환적 고리구조를 갖는 것이 기술혁신 방법의 핵심이다.

한편 모든 특허 정보는 그 발명의 주제영역에 적합한 IPC 분류체계에 따라 분류기호가 부여된다. 따라서 하나의 특허가 특정 IPC 분류계층(예 : 서브 클래스)에서 몇 개의 타영역에서 인용되었는지를 나타내는 계층별 특허기술 타인용 빈도지수(Cited Frequency Index, CFI)와 개발된 기술들을 얼마나 확산되어 활용되는가(피인용지수, CCR)를 함께 고려한다. 즉 이 두 개의 지수를 합하여 고려함으로써, 해당 특허의 중요도를 측정하는 특허활용통합지수(Unified Patent Index, UPI)를 제안한다. 이 지수는 소수점을 기준으로 앞의 숫자는 특허기술 타인용 빈도를 나타내며, 뒤의 숫자는 피인용지수를 나타낸다. 특허활용통합지수(UPI)를 식으로 표현하면 다음과 같다.

UPI = 특허기술 타인용 빈도지수(CFI) + 피인용 지수(CCR)

도 3에서 특허활용통합지수(UPI)의 예는 "A 41 G(생활용품으로써 의류중 조화;가발;마스크;우모)에서 특허 '갑'의 피인용지수는 0.8이며, A 41(의류)에서 6개의 서브클래스에서 인용되었다" 이다.

예를 들면, 특정 특허가 도 3에서와 같은 인용 패턴을 갖고 있다면, 이 특허활용통합지수는 6.8이다. 이는 6개의 서브클래스 영역에서 이 특허가 활용되었으며, 해당 서브클래스에서 피인용지수는 0.8로써 활용성이 상대적으로 높은 것으로 추정된다.

이 지수는 네 개의 경우로 구분된다. 양쪽이 모두 높은 경우와 어느 한 쪽이 높은 경우, 모두 낮은 경우이다. 양쪽이 모두 높은 경우는 활용가치가 모든 면에서 높은 것을 의미하며, 모두 낮은 경우에는 활용가치가 낮은 것을 의미한다. 단, 특허기술 타인용 빈도지수만 높은 경우에는 그 특허는 분석주제영역에서 특별한 가치를 갖지 않기 때문에 다른 주제 영역에서 상대적으로 높은 가치를 갖는 특허로 추정할 수 있다. 또한 소수점 이하의 피인용지수만 높은 경우에는 해당 특허는 타 기술과 상대적으로 연관성이 없고 해당 주제 영역에서 매우 핵심적인 특허이다. 따라서 이 지수는 범용적인 기술과 핵심적인 기술을 구분하여 활용하는 중요한 기준이라 할 수 있다.

2) 1차 클러스터링

1차 클러스터링(ST4)에서는 유망연구자료 선정단계에서 선정된 유망연구자료에 대해 1차 클러스터링을 수행한다.

1차 클러스터링에서는 동시인용 분석 또는 서지결합법을 이용하여 클러스터링을 수행한다.

2-1) 동시인용(co-citation) 분석

동시인용(= 공인용) 분석은 역치 확인, 유사도 계산, 관계 분석으로 나누어 수행할 수 있다.

2-1-1) 역치 확인

분석대상이 되는 논문집합(

=[x1, x2, …, xi, …xn])이 확정되었으므로 거기에 포함되는 논문의 피인용수와 공인용수를 집계한다. 피인용수는

에 속하는 논문이 각각 인용된 회수이며 Ci로 표시한다. 한편 공인용수는

에 속하는 서로 다른 2편의 논문이 동일한 논문에 인용된 회수이고 Cij로 표시하기로 한다.

각 Ci가 역치(threshold)를 넘는가를 확인하고, 피인용수가 적은(Ci가 0에 가까운) 논문을 포함하여 공인용 분석을 하게 되면 그 논문 주위에서는 타당한 결과를 얻을 수 없는 가능성이 높다. 분석의 목적이나 분석대상이 되는 분야에 따라 다르지만 최소한 Ci에 5~10 정도의 역치를 설정할 필요가 있으며 그것을 넘지 못한 경우에는 당연히 분석대상에서 제외할 필요가 있다. 마찬가지로 Cij에 대해서도 역치의 확인이 필요하다.

만일

에 대해 Cij가 역치 미만인 경우에는 대응하는 xi를 분석대상에서 제외하여야 한다. 왜냐하면

내의 다른 모든 논문과 관계가 약한 논문을 분석에 더하게 되면 결과의 타당성을 훼손할 위험이 있기 때문이며, Cij의 역치를 얼마로 설정할 것인가는 Ci의 역치에도 의존하지만 최악의 경우라도 3전후는 확보하는 것이 바람직하다. 그리고 공인용수의 많고 적음에 따라 논문을 이어주는 선분의 수를 변화시켜 대상논문 간의 관계의 강약을 표현할 수 있다.

도 4는 도 1에서 동시인용(= 공인용) 분석 맵의 예를 보인 개념도이다.(도 4는 Small, H. (1973), co-citation in the Scientific Literature, JASIS, 24, p265-269. 참조)

2-1-2) 유사도 계산

Ci와 Cij를 사용하여 대상논문 간의 유사도(similarity)를 결정한다. 유사도 선택에서 중요한 것은 그것이 정규화 된 유사도인지 여부를 확인하는 것이다. 예를 들면, 인용 분석에서 사용되는 일은 많지 않지만, 포함지표와 같이 정규화 되어 있지 않은 지표를 사용하게 되면 피인용수가 많은 논문은 그 이외의 모든 논문과의 사이에서 유사도가 높아지는 경향이 있다. 따라서 그런 지표는 피인용수가 많은 논문과 그 밖의 논문의 관계를 분석하기에는 적절하지만 피인용수가 그 정도로 많지 않은 논문 간의 관계를 보고 싶은 경우에는 적당하지 않을 것이다. 또한 공인용 분석에서는 다음과 같은 유사도 계산식이 비교적 자주 사용되며, 양자 모두 정규화 된 유사도이다.

여기서 수학식 1에서 Jij 는 자카드 계수(Jaccard coefficient)이고, 수학식 2에서 Sij 는 코사인 계수(Salton's normalization of co-citation)이다.

2-1-3) 관계 분석

Jij나 Sij와 같은 유사도를 사용하여 논문 간의 관계를 도출할 수 있다. 구체적으로는 클러스터 분석(cluster analysis)이나 다차원 척도법(multi dimensional scaling, MDS) 등을 적용하여 논문을 그룹화 함과 동시에 그룹(또는 논문) 간의 관계를 가시화 할 수 있다. 이 작업에 의해 논문 그룹이나 논문 자신이 분야에서 차지하는 위치나 다른 클러스터와의 관계 등을 명확히 할 수 있다.

2-2) 서지결합법(bibliographic coupling analysis)

서지결합은 source document를 이어주는 것임에 비해 공인용은 피인용 문헌을 이어주는 개념이다. 또한 서지결합분석에서는 인용대상을 공유하는 논문이 유사하다고 하여 클러스터를 형성하는 것에 비해 공인용 분석에서는 제3의 논문에 동시에 인용된 논문 즉 인용주체를 공유하는 논문이 유사성에 기초해 클러스터를 형성한다.

또한 공인용분석에서는 출판 직후의 분석이 불가능한 것에 비해 서지결합분석에서는 이것이 가능하다. 따라서 서지결합분석에 의해 속보가능성이 향상된다.

이러한 속보가능성 이외에도 서지결합분석에 의해 명확해지는 논문간의 구조는 공인용 분석에 비해 안정적이다. 즉, 한번 이루어진 서지결합분석의 분석결과는 추가적으로 관련되는 논문이 출판되더라도 변경되지 않으나, 공인용 분석의 경우 극단적으로 말해서 새로운 논문이 출판될 때마다 도출되는 구조는 변화할 수 있게 된다.

2-2) 리서치 프론트(RF)의 형성

일정 연구영역에서 연구자간에는 논문 인용의 형식으로 빈번한 정보교환이 이루어지며, 연구영역에서 이러한 논문 인용 경향을 파악하게 되면 그 연구영역이 어떻게 구축되었고, 다른 영역과 어떠한 관계를 가지는가를 조감적으로 파악 할 수 있고, 또한 그 영역을 구성하는 중추적인 논문이 파악됨으로써 전체적인 연구영역의 동향을 알 수 있다.

리서치 프론트는 복수의 논문이 동시에 하나의 논문에서 인용되는, 앞서 설명한 공인용(Co-citation) 관계로 묶인 일정크기 이상의 연구영역을 나타내며, 이를 도식화하면 도 5와 같다.

도 5는 도 1에서 동시인용(= 공인용) 분석 개념도이다.

공인용 되는 논문은 내용에 있어 일정한 공통점이 있는 것으로 생각되고, 이들을 그룹화 함으로써 연구내용에 공통성이 있는 논문들의 집합이 얻어짐. 리서치 프론트는 공인용수가 어느 역치를 초과하는 단계에서부터 형성되기 시작하는데, 다음의 수학식 3 및 수학식 4와 같은 2개의 값을 사용한다.

여기서 NAB는 논문 A와 B를 공인용하는 논문수이고, NA 와 NB는 각각이 논문 A, B를 인용하는 논문 수이며, Nnorm은 규격화된 공인용 회수이다.

그리고 수학식 4는 논문A를 인용한 논문 NA 가운데, 논문 A와 B를 공인용하는 논문NAB가 차지하는 비율과 논문B를 인용하는 논문NB 가운데 논문 A와 B를 공인용하는 논문NAB가 차지하는 비율의 상승평균을 의미한다.

예를 들면 간단하게 NA=NB인 경우, 논문A를 인용하는 논문의 30%가 논문B를 공인용하고 있다면, 논문 A, B는 리서치 프론트를 형성하는 것이 된다. 여기서 리서치 프론트를 형성하는 논문 A, B를 핵심논문(CP)이라고 부르며, 해당하는 리서치 프론트의 진전에 따라 공인용으로 묶이는 논문 수는 증가하고, 핵심논문수도 증가하게 된다. ESI(Essential Science Indicators)의 리서치 프론트는 2개월마다 수시로 경신됨에 따라 핵심 논문 수는 증감을 하게 되며, 리서치 프론트가 소멸 또는 분할하는 경우도 있게 된다.

도 6은 도 1에서 리서치 프론트의 예를 보인 표이다.

그래서 리서치 프론트는 고유의 번호체계(ID)를 가지며, 리서치 프론트 키워드를 형성하고, 핵심 논문수(연도별 핵심 논문수 포함), 핵심논문 평균출판연도, 핵심논문 피인용수(연도별 핵심논문 피인용수 포함) 등의 정보를 보여준다.

3) 2차 클러스터링

2차 클러스터링(ST5, ST6)에서는 선정된 1차 유망연구영역 후보에 대해 통계적 필터링을 수행하여 2차 클러스터링을 수행한다.

이러한 2차 클러스터링은 통계적 필터링과 더불어 동시단어 분석을 이용하여 클러스터링을 수행한다.

3-1) 통계적 필터링

유망연구후보군을 포함하고 있는 리서치 프론트 4,292개(핵심논문 17,146편)를 대상으로 연도별 인용횟수(Times cited)를 이용한 통계적 알고리즘을 활용하여 3,515개의 리서치프론트를 추출하였다.

본 발명에 도입된 통계적 방법은 연구영역의 수명주기를 기술수명주기와 같이 태동기, 도약기, 성장기, 성숙기의 4단계를 거치며, 누적인용횟수가 성장곡선에 근사할 것이라는 가정을 전제로 한다. 여기에서 본 발명의 관심인 유망연구영역이란 가까운 장래에 연구개발이 활발히 진행되리라고 판단되는 영역으로서 연구영역의 수명주기로는 태동기와 도약기에 속하는 연구영역으로 판단한다. 그러나 전체의 수명주기를 알지 못하는 상태에서 현재까지의 상황만으로 수명주기를 판단하는 한계성을 지닌다. 여기에서는 일반적인 형태의 성장곡선을 이용하며, 이용된 로지스틱 함수는 다음의 수학식 5와 같다.

도 7은 도 1에서 2차 클러스터링 수행시 사용하는 기술 수명 주기에 대한 개념도이다.

연구(기술)의 수명주기에 있어서 태동기와 도약기는 누적인용수가 증가하고, 누적인용수의 기울기도 증가하며, 성장기와 성숙기는 누적인용수는 증가하지만 누적인용수의 기울기는 감소한다. 즉, 누적인용수의 기울기는 1차 차분(

)으로 측정되고, 기울기의 증가 혹은 감소 여부는 2차 차분(

)으로 측정된다. 2차 차분이 (+)이면 기울기가 증가하는 과정이므로 태동기와 도약기의 상태이며, 2차 차 분이 (-)이면 기울기가 감소하는 과정이므로 성장기와 성숙기에 해당되는 것으로 판단한다.

위와 같은 이론적인 결과를 현실 시계열 데이터에 적용하기 위하여 현실 시계열 데이터에 내포된 불규칙변동을 제거해야 하며 이를 위하여 3기 이동평균을 실시하였다.

상기와 같은 알고리즘에 의해 2차 차분값이 (+)인 2,929개의 리서치 프론트와 2004년 및 2005년에 논문 인용이 시작되어 리서치 프론트에 속한 핵심논문의 평균출판연도가 2004년에 해당함으로써 판단이 불가능한 585개의 최신 리서치프론트를 합쳐 이후 동시단어분석을 실시하였다.

3-2) 동시단어(co-word) 분석

단어의 유사성 분석은 단어를 사용하고는 있으나 어디까지나 분석의 단위는 논문이며 논문 간의 관계를 정량적으로 표시하는 것이다. 이에 대해 논문 내에 기재되어 있는 복수의 단어 그 자체 간의 관계를 분석함으로써 연구내용을 구조화 하 고자 하는 경우가 있는데 이를 동시단어분석(co-word analysis)이라 한다.

동시단어분석은 2개의 단어가 동일한 논문에 함께 출현하는 '단어의 동시출현 현상' 빈도에서 단어 간의 관계를 분석한다. 이는 분석 수순으로는 공인용 분석에서 2개의 문헌이 동일한 논문의 인용문헌 목록에 함께 출현한 빈도로부터 문헌(논문) 간의 관계를 분석한 수순과 다르지 않다.

동시단어분석은 인용 분석과는 다르게 분석대상이 논문에만 한정되지 않고 보고서, 특허, 연구자금 신청서, 신문, 정부의 답신, 인터넷상의 홈페이지 등 여러 가지 문서를 대상으로 삼을 수 있다는 것이다. 게다가 이러한 문서에 나타나는 단어는 물질이나 연구방법의 명칭 뿐 아니라 장치, 사람, 연구기관이나 자금배분기관의 명칭, 경제/정치/생활에 관한 단어일 경우도 포함될 수 있는 점이다. 이러한 동시단어분석에서는 과학기술을 넘어 여러 다양한 단어간의 동시출현을 분석할 수 있으며 사회/경제적인 과제와 연구개발과제 간의 등치관계를 나타내는 것도 가능하다.

논문에서 단어의 동시출현회수를 계측하기 위해서 본문을 분석대상으로 하는 경우도 있으나 요지나 제목만을 분석대상으로 삼는 경우가 많으며. 본문도 전자화 되어 있다면 기계적인 분석을 할 수 있지만 처리해야 할 데이터 량이 많아지기 때문에 요지 등에 한정하여 분석하게 된다.

더 간편한 분석으로 각 논문에 첨부되어 있는 키워드를 사용하는 방법도 있다. 키워드는 당해 분야의 연구내용을 대표하는 전문용어이므로 분석하기 쉽다는 장점이 있는 반면, 한 논문에 첨부되는 키워드의 수는 소수이기 때문에 동시출현을 분석하기에 충분치 않은 경우도 많다. 키워드에는 저자가 스스로 설정한 것과 데이터베이스 작성회사 등 제3자가 첨부한 것도 있다. 후자의 경우는 통제어(Controlled Vocabulary)일 경우가 많으며 저자에 따라 단어의 사용방법이 다른 문제를 해결할 수 있는 반면, 키워드를 부여하는 제3자의 의향이 반영되어 버린다거나 새로운 단어가 통제어로서 사용되기까지는 시간이 걸린다는 문제점도 지적된다. 이와 같이 각 방법에는 장점과 단점이 있으며 분석대상에 몇 가지 방법을 시행해 보고 그때마다 적절한 것을 판단할 필요가 있다.

요지나 본문을 대상으로 분석하는 경우 우선 몇 개의 기술적인 처리가 필요하다. 즉 당해 분야에 특징적이지 않은 일반 단어의 제거, 복수의 단어가 합쳐져서 의미를 갖게 되는 단어의 선별, 복수형이나 활용 등 단어의 변화형의 통합 등이다. 이러한 처리 후에 동시출현 빈도를 계측한다.

단어의 동시출현빈도 지표화 방법은 다음과 같다.

N편의 논문집합에서 단어 Mi가 포함되어 있는 전체 논문수를 Ci라 하고 단어 Mi와 Mj 모두를 포함하는 논문의 수를 Cij라 하면 각 지표는 다음과 같이 정의된다.

여기서 수학식 9는 포함지표(inclusion index)이고, 수학식 10은 근접지표(proximity index)이며, 수학식 11은 자카드지표(Jaccard index)이고, 수학식 12는 동등성지표(equivalence index)이다.

포함지표는 빈번하게 출현하는 단어와 그다지 출현하지 않는 단어의 링크를 보고자 할 경우에 적합하다. 근접지표는 포함지표 식을 보다 빈번하게 출현하는 단어의 출현비율로 나눈 지표로서 2개 단어의 출현빈도가 같이 낮은 경우에 그 값이 커지게 된다. 때문에 출현빈도가 낮은 단어간의 관계를 볼 수 있으며 이제 막 생긴 연구테마를 보여주기 쉽다. 자카드지표나 동등성지표는 공인용 분석에서도 사용되고 있으며 중간 정도로 출현하는 단어들 간의 관계를 보고자 할 경우에 적합하다.

이들 지표를 바탕으로 연구내용을 가시적으로 나타낸 '과학의 지도'를 그릴 수 있게 된다. 제안된 도시방법은 상기 지표에 따라 서로 다르다.

포괄지표에 의한 그림의 경우 어떤 단어가 출현할 경우에 다른 단어도 높은 확률로 동시출현하고 있는 관계가 가시화되어 있으며 과제의 연쇄적인 등치화를 용이하게 파악할 수 있다. 한편 이런 지도에서 나타나기 어려운 출현빈도가 낮은 단어들 간의 관계는 근접지표를 사용하여 다른 지도를 작성한다.

또한 자카드지표를 사용하는 경우에는 원형 지도(circular map)가 형성되는데, 수직수형도에서는 단어의 관계가 계층적으로 구성되어 있을 경우에 시각적으로 파악하기 쉬웠던 것에 비해 원형 지도에서는 공통으로 사용되는 분석방법이 있다는 등의 횡적인 링크를 볼 수 있을 경우에 파악하기 쉽다.

이러한 2개의 지도에서는 단어 배치가 세로축 이외에는 임의로 되어 있어 단어 간 동시단어관계의 강도를 공간적으로 파악하기는 힘들다(대신에 선의 차이에 의해 강도가 표시되어 있다). 이에 대해 correspondence 분석이나 다차원척도구성법(MDS)을 사용함으로써 동시단어관계가 강한 단어를 가까이에 배치시키는 2차원 지도를 도시할 수도 있다.

3-3) 동시단어분석을 이용한 연구영역의 구축

통계처리를 통해 얻은 3,515개의 리서치 프론트를 대상으로 동시단어분석(Co-occurrence analysis)을 행하여 391개의 연구영역을 도출하였다.

동시단어분석은 핵심논문의 두 가지 키워드(SCIE DB 필드 중 저자키워드와 키워드플러스)를 활용한 Co-word 분석을 실시하였으며, 유사계수는 자카드 인덱스(Jacchard index)를 사용하고, threshold=0.1, max. size=10을 적용하였다.

도 8은 도 1에서 2차 클러스터링 수행에 의한 유망연구영역 후보군에 의한 연구영역수 선정의 예를 보인 표이다.

4) 비교 분석 및 죄종 선정

4-1) 비교 분석

비교 분석(ST7)에서는 선정된 2차 유망연구영역 후보에 대해 인자 분석을 수행하여 비교 분석한다.

이러한 비교 분석은 기존 연구영역 인자 분석 또는 전문가 연구영역 인자 분석을 통해 비교 분석을 수행한다.

공인용 분석을 통한 리서치 프론트(Research Front, RF)의 생성, 통계처리를 통한 유망 연구영역 후보군의 추출, 동시단어분석을 통한 연구영역의 구축 등 일련의 과학계량학적인 분석에 의해 도출된 연구영역을 대상으로 해당 전문가들에 의한 델파이 분석을 행하여 유망성과 클러스터링의 적절성을 판단한다.

4-2) 유망연구영역 최종 선정

유망연구영역 최종 선정에서는 비교 분석된 결과를 이용하여 최종적으로 유망연구영역을 선정하게 된다.

그리고 최종 선정된 유망연구영역 중에서 분야별 안배를 고려하여 일정 개수의 핵심 과제를 선정할 수 있게 된다.

4-3) 테크 이슈(Tech Issue) 선정

도 9는 도 1에서 비교분석에 의한 유망연구영역 최종 선정의 예를 보인 개념도이다.

여기서 테크 이슈는 고경력 과학기술자(과기부 수탁사업 연계), 주요 국가연 구개발사업단 참여 연구자, 대학 및 출연(연), 민간기업 연구원 등을 활용하여 국내외에서 현재 핫이슈가 되고 있는 과학기술 분야의 동향을 분석하여 최신 정보를 제공하기 위한 것이다.

테크 이슈의 아이템 선정을 위하여 유망연구영역 선정 결과 도출된 272개 영역 중 3기 이동 인용평균선과 5기 이동 인용평균선의 이격도가 큰 순서로 분야별 안배를 고려하여 53개의 과제를 선정할 수 있다. 여기서 1기란 반년을 가리키는 것이며 논문이 발행된 연도를 전기 후기로 구분하여 계산한 것이다.

그리고 유망연구영역 중에서 우수한 몇 개의 영역을 선별하는 방법에는 CP의 피인용 평균증가율이나 회기직선기울기 등 여러 가지가 있다. 또한 평균이동선의 이격도를 사용하는 방법이 학문적으로 가장 체계화되어 그 타당성을 인정받고 있으며, 주가 예측 등에 실제적으로 사용되는 방법이다.

이처럼 본 발명은 지식정보의 계량방법을 활용하여 미래 국가 과학기술을 주도할 유망한 연구영역을 찾아내게 되는 것이다.

도 2는 도 1을 적용한 예를 보인 개념도이다.

도 4는 도 1에서 동시인용(= 공인용) 분석 맵의 예를 보인 개념도이다.

도 5는 도 1에서 동시인용(= 공인용) 분석 개념도이다.

도 6은 도 1에서 리서치 프론트의 예를 보인 표이다.

Claims

수식 연산 수단을 포함하는 컴퓨터를 이용한 지식정보의 계량화를 통한 유망연구영역 선정방법에 있어서,

논문집합에 포함된 논문의 피인용수(C_i) 및 공인용수(C_ij)를 컴퓨터가 집계하는 단계;

상기 논문의 피인용수 및 공인용수에 대한 역치를 각각 컴퓨터가 입력 받는 단계;

상기 논문의 피인용수 및 공인용수를 상기 입력받은 역치와 각각 비교하여 역치를 넘지 못한 논문은 분석 대상 논문집합에서 컴퓨터가 제외하는 단계;

상기 논문의 피인용수 및 공인용수를 사용하여 자카드 계수(Jaccard coefficient, J_ij) 또는 코사인 계수(Salton's normaliztion of co-citation, S_ij)를 산출하여 유사도를 컴퓨터가 계산하는 단계;

상기 자카드 계수 또는 코사인 계수를 사용하여 클러스터 분석 또는 다차원 척도법(multi dimensional scaling;MDS)에 의해 상기 논문 간의 관계를 컴퓨터가 도출하고 그룹화하는 단계;

상기 그룹화된 논문에 대하여 논문을 공인용 하는 논문수를 집계하고 각 논문을 인용하는 논문 수에 대한 상승 평균을 구하여 규격화된 공인용 회수를 컴퓨터가 산출하는 단계;

상기 공인용 하는 논문수 및 규격화된 공인용 회수에 대한 역치를 각각 컴퓨터가 입력받는 단계;

상기 공인용 하는 논문수 및 상기 규격화된 공인용 회수를 상기 입력된 역치와 각각 비교하여 핵심논문과 리서치 프론트를 컴퓨터가 형성하는 단계;

상기 리서치 프론트의 연구영역의 성장곡선식을 컴퓨터가 입력받는 단계;

상기 리서치 프론트의 시계열 데이터의 불규칙 변동을 제거하기 위한 이동평균을 컴퓨터가 구하는 단계;

상기 리서치 프론트의 시계열 데이터의 2차 차분값이 양수인 리서치 프론트를 추출하여 컴퓨터가 필터링하는 단계;

상기 필터링된 리서치 프론트에 포함된 논문집합에서 제1 단어(M_i)가 포함되어 있는 전체 논문수 및 제1 단어(M_i)와 제2 단어(M_j)를 모두 포함하는 논문의 수를 이용하여 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 컴퓨터가 구하는 단계;

상기 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 사용하여 동시단어 분석을 하되, 상기 동시 단어 분석은 핵심논문의 두 가지 키워드(SCIE DB 필드 중 저자키워드와 키워드플러스)를 활용한 Co-word 분석으로 하며, 유사계수는 자카드 인덱스(Jacchard index)를 사용하고, threshold=0.1, max. size=10을 적용하여 연구영역을 컴퓨터가 도출하는 단계;

상기 도출된 연구영역을 컴퓨터가 표시하는 단계;

상기 도출된 연구영역에 대한 비교분석 결과 및 최종유망연구영역 선정 결과를 컴퓨터가 입력받는 단계; 및

논문 또는 특허의 평균이동선의 이격도를 사용하여 상기 논문 또는 특허의 평균이동선의 이격도가 큰 순으로 상기 최종 선정된 유망연구영역 중에서 핵심 과제를 컴퓨터가 선정하는 단계를 포함하는 것을 특징으로 하는 지식정보의 계량화를 통한 유망연구영역 선정방법.
수식 연산 수단을 포함하는 컴퓨터를 이용한 지식정보의 계량화를 통한 유망연구영역 선정방법에 있어서,

논문집합에 포함된 논문의 피인용수(C_i) 및 공인용수(C_ij)를 컴퓨터가 집계하는 단계;

상기 논문의 피인용수 및 공인용수에 대한 역치를 각각 컴퓨터가 입력 받는 단계;

상기 논문의 피인용수 및 공인용수를 상기 입력받은 역치와 각각 비교하여 역치를 넘지 못한 논문은 분석 대상 논문집합에서 컴퓨터가 제외하는 단계;

상기 논문의 피인용수 및 공인용수를 사용하여 자카드 계수(Jaccard coefficient, J_ij) 또는 코사인 계수(Salton's normaliztion of co-citation, S_ij)를 산출하여 유사도를 컴퓨터가 계산하는 단계;

상기 자카드 계수 또는 코사인 계수를 사용하여 클러스터 분석 또는 다차원 척도법(multi dimensional scaling;MDS)에 의해 상기 논문 간의 관계를 컴퓨터가 도출하고 그룹화하는 단계;

상기 그룹화된 논문에 대하여 논문을 공인용 하는 논문수를 집계하고 각 논문을 인용하는 논문 수에 대한 상승 평균을 구하여 규격화된 공인용 회수를 컴퓨터가 산출하는 단계;

상기 공인용 하는 논문수 및 규격화된 공인용 회수에 대한 역치를 각각 컴퓨터가 입력받는 단계;

상기 공인용 하는 논문수 및 상기 규격화된 공인용 회수를 상기 입력된 역치와 각각 비교하여 핵심논문과 리서치 프론트를 컴퓨터가 형성하는 단계;

상기 리서치 프론트의 연구영역의 성장곡선식을 컴퓨터가 입력받는 단계;

상기 리서치 프론트의 시계열 데이터의 불규칙 변동을 제거하기 위한 이동평균을 컴퓨터가 구하는 단계;

상기 리서치 프론트의 시계열 데이터의 2차 차분값이 양수인 리서치 프론트를 추출하여 컴퓨터가 필터링하는 단계;

상기 필터링된 리서치 프론트에 포함된 논문집합에서 제1 단어(M_i)가 포함되어 있는 전체 논문수 및 제1 단어(M_i)와 제2 단어(M_j)를 모두 포함하는 논문의 수를 이용하여 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 컴퓨터가 구하는 단계;

상기 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 사용하여 동시단어 분석을 하되, 상기 동시 단어 분석은 핵심논문의 두 가지 키워드(SCIE DB 필드 중 저자키워드와 키워드플러스)를 활용한 Co-word 분석으로 하며, 유사계수는 자카드 인덱스(Jacchard index)를 사용하고, threshold=0.1, max. size=10을 적용하여 연구영역을 컴퓨터가 도출하는 단계;

상기 도출된 연구영역을 컴퓨터가 표시하는 단계;

상기 도출된 연구영역에 대한 비교분석 결과 및 최종유망연구영역 선정 결과를 컴퓨터가 입력받는 단계; 및

논문 또는 특허의 피인용 평균증가율을 사용하여 상기 논문 또는 특허의 피인용 평균증가율이 큰 순으로 최종 선정된 유망연구영역 중에서 핵심 과제를 컴퓨터가 선정하는 단계를 포함하는 것을 특징으로 하는 지식정보의 계량화를 통한 유망연구영역 선정방법.
수식 연산 수단을 포함하는 컴퓨터를 이용한 지식정보의 계량화를 통한 유망연구영역 선정방법에 있어서,

논문집합에 포함된 논문의 피인용수(C_i) 및 공인용수(C_ij)를 컴퓨터가 집계하는 단계;

상기 논문의 피인용수 및 공인용수에 대한 역치를 각각 컴퓨터가 입력 받는 단계;

상기 논문의 피인용수 및 공인용수를 상기 입력받은 역치와 각각 비교하여 역치를 넘지 못한 논문은 분석 대상 논문집합에서 컴퓨터가 제외하는 단계;

상기 논문의 피인용수 및 공인용수를 사용하여 자카드 계수(Jaccard coefficient, J_ij) 또는 코사인 계수(Salton's normaliztion of co-citation, S_ij)를 산출하여 유사도를 컴퓨터가 계산하는 단계;

상기 자카드 계수 또는 코사인 계수를 사용하여 클러스터 분석 또는 다차원 척도법(multi dimensional scaling;MDS)에 의해 상기 논문 간의 관계를 컴퓨터가 도출하고 그룹화하는 단계;

상기 그룹화된 논문에 대하여 논문을 공인용 하는 논문수를 집계하고 각 논문을 인용하는 논문 수에 대한 상승 평균을 구하여 규격화된 공인용 회수를 컴퓨터가 산출하는 단계;

상기 공인용 하는 논문수 및 규격화된 공인용 회수에 대한 역치를 각각 컴퓨터가 입력받는 단계;

상기 공인용 하는 논문수 및 상기 규격화된 공인용 회수를 상기 입력된 역치와 각각 비교하여 핵심논문과 리서치 프론트를 컴퓨터가 형성하는 단계;

상기 리서치 프론트의 연구영역의 성장곡선식을 컴퓨터가 입력받는 단계;

상기 리서치 프론트의 시계열 데이터의 불규칙 변동을 제거하기 위한 이동평균을 컴퓨터가 구하는 단계;

상기 리서치 프론트의 시계열 데이터의 2차 차분값이 양수인 리서치 프론트를 추출하여 컴퓨터가 필터링하는 단계;

상기 필터링된 리서치 프론트에 포함된 논문집합에서 제1 단어(M_i)가 포함되어 있는 전체 논문수 및 제1 단어(M_i)와 제2 단어(M_j)를 모두 포함하는 논문의 수를 이용하여 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 컴퓨터가 구하는 단계;

상기 포함지표, 근접 지표, 자카드 지표 또는 동등성 지표를 사용하여 동시단어 분석을 하되, 상기 동시 단어 분석은 핵심논문의 두 가지 키워드(SCIE DB 필드 중 저자키워드와 키워드플러스)를 활용한 Co-word 분석으로 하며, 유사계수는 자카드 인덱스(Jacchard index)를 사용하고, threshold=0.1, max. size=10을 적용하여 연구영역을 컴퓨터가 도출하는 단계;

상기 도출된 연구영역을 컴퓨터가 표시하는 단계;

상기 도출된 연구영역에 대한 비교분석 결과 및 최종유망연구영역 선정 결과를 컴퓨터가 입력받는 단계; 및

논문 또는 특허의 피인용 회기직선기울기를 사용하여 상기 논문 또는 특허의 피인용 회기직선기울기가 큰 순으로 최종 선정된 유망연구영역 중에서 핵심 과제를 컴퓨터가 선정하는 단계를 포함하는 것을 특징으로 하는 지식정보의 계량화를 통한 유망연구영역 선정방법.