KR101721529B1 - Discriminating apparatus for emerging researching topic, and control method thereof - Google Patents

Discriminating apparatus for emerging researching topic, and control method thereof Download PDF

Info

Publication number
KR101721529B1
KR101721529B1 KR1020160073219A KR20160073219A KR101721529B1 KR 101721529 B1 KR101721529 B1 KR 101721529B1 KR 1020160073219 A KR1020160073219 A KR 1020160073219A KR 20160073219 A KR20160073219 A KR 20160073219A KR 101721529 B1 KR101721529 B1 KR 101721529B1
Authority
KR
South Korea
Prior art keywords
technical
literatures
technology
series data
statistical information
Prior art date
Application number
KR1020160073219A
Other languages
Korean (ko)
Inventor
정영임
최선희
김병규
신진섭
권오진
김정환
윤정선
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020160073219A priority Critical patent/KR101721529B1/en
Application granted granted Critical
Publication of KR101721529B1 publication Critical patent/KR101721529B1/en

Links

Images

Classifications

    • G06F17/30536
    • G06F17/30312
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates a discriminating apparatus for emerging research topics and an operating method thereof, which detect changes in technology trends by technology fields through time series analysis of various statistical information collected in relation to a plurality of technical literatures, thereby effectively discriminating an emerging research topic from the detected technology trend changes.

Description

부상기술판별장치 및 그 동작 방법{DISCRIMINATING APPARATUS FOR EMERGING RESEARCHING TOPIC, AND CONTROL METHOD THEREOF}TECHNICAL FIELD [0001] The present invention relates to a flushing technology discriminating apparatus and a flushing technique discriminating apparatus,

본 발명은 다수의 기술문헌과 관련하여 수집되는 다양한 시계열 데이터를 활용한 시계열분석에 기반하여 급부상하는 기술을 판별하기 위한 방안에 관한 것이다.The present invention relates to a method for discriminating an emerging technology based on time series analysis using various time series data collected in relation to a plurality of technical literatures.

새롭게 부상하는 연구 주제 및 급부상 기술을 탐지하기 위한 기존 기술은 각 분야별 전문가의 지식에 의존하거나, 과학계량학적 분석을 위해 구축된 데이터 기반 접근 방법이 사용된다.Existing techniques for detecting emerging research topics and emerging technologies rely on expert knowledge in each discipline, or a data-driven approach built for scientific metrology analysis.

위 데이터 기반 접근 방법에서는 예컨대, 분야별 서지 색인데이터베이스에서 추출한 학술문헌의 출판 수, WoS, SCOPUS 혹은 Google Scholar와 같이 기구축된 인용색인데이터베이스에서 제공되는 피인용 수, 분야별 등록 특허 수 등을 포함하는 데이터가 기반 데이터로서 활용될 수 있다.In the above data-based approach, for example, data including the number of published academic papers extracted from the bibliographic index database, the number of citations provided in pre-built citation index databases such as WoS, SCOPUS or Google Scholar, Can be utilized as the base data.

다만, 학술문헌의 출판 수는 출판 당시의 기술개발 동향에 대한 정보를 제공하나 출판 이후 시간의 흐름에 따라 동적인 기술 수요에 대한 정보를 제공하지 못한다.However, the number of publications of academic literature provides information on technological development trends at the time of publication, but does not provide information on dynamic technology demand over time after publication.

또한, 인용색인데이터베이스의 데이터의 경우, 출판된 후 통계적으로 신뢰할만한 피인용 횟수가 쌓이는 데는 일반적으로 2~3년의 기간이 걸리게 되며, 특허의 경우에는 출원된 후 등록되기까지 출원-심사-명세서 보정-재심사-등록의 과정을 거치면서 최소 1~2년 이상의 기간이 소요된다.In addition, in the case of data in a citation index database, it takes generally two to three years for statistically reliable number of citations to be accumulated after publication. In the case of a patent, the application- It takes at least one to two years to complete the calibration-review-registration process.

결국, 급부상 기술을 탐지하기 위한 기존의 기구축 과학계량학적 데이터를 활용하기까지의 시간 소요는 새롭게 부상하는 연구 주제 및 급부상 기술을 탐지하는 데 걸림돌로 작용하게 됨을 예상할 수 있다.In conclusion, it can be expected that the time required to utilize existing pre-built scientific metrological data to detect emerging technologies will be a stumbling block in detecting emerging research topics and emerging technologies.

또한, 기존의 기술은 기술 분야별 전문가의 지식에 의해 지정된 기술 분야 관련 문헌의 출판 수, 피인용 수, 특허 등록 수가 시간의 흐름에 따라 증가하는지를 판별하는데 분야 전문가의 선행 지식이 없으면 해당 판별이 불가능하거나 판별의 정확도가 크게 떨어질 수 있다.In addition, the existing technology can not be discriminated if there is no prior knowledge of the field experts in order to determine whether the number of publications, the number of patents, and the number of patent registrations increases with the passage of time, The accuracy of the discrimination can be greatly reduced.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 다수의 기술문헌과 관련하여 수집되는 다양한 통계정보를 시계열데이터로 생성하고, 시계열분석을 통해서 모수시계열 대비 개별 시계열의 구조적 변곡점을 탐지하는 기법을 활용하여 다양한 기술 통계정보로부터 다양한 수준으로 급부상하는 기술을 판별하는 데 있다.It is an object of the present invention to provide various statistical information collected in relation to a plurality of technical literatures as time series data, And to identify the emerging technologies from various descriptive statistics to various levels.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 부상기술판별장치는, 통계정보가 수집된 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류하는 분류부; 상기 2 이상의 기술그룹 각각에 속한 기술문헌들의 통계정보를 기초로 상기 2 이상의 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성하는 생성부; 및 상기 2 이상의 기술그룹 각각의 시계열데이터와, 모수시계열데이터 간의 비교를 통해 상기 모수시계열데이터에 기초한 기술 추이로부터 기술 추이의 변동이 탐지되는 특정 기술그룹을 부상기술과 관련된 것으로 판별하는 판별부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an apparatus for identifying a flotation technique, the apparatus comprising: a classification section for classifying at least a part of technical literatures related to a technical field of interest into two or more technical groups, ; A generating unit for generating time series data related to a technology transition of each of the at least two technical groups based on statistical information of technical literatures belonging to each of the at least two technical groups; And a discrimination unit for discriminating a specific technology group in which the variation of the technology transition from the technology trend based on the parametric time series data is detected through comparison between the time series data of each of the two or more description groups and the parameter time series data, .

보다 구체적으로, 상기 적어도 일부의 기술문헌은, 상기 다수의 기술문헌에 대한 통계정보가 수집되는 기술문헌매체로부터, 상기 관심기술분야의 기술주제코드가 할당된 기술문헌을 포함하는 것을 특징으로 한다.More specifically, the at least some technical literatures include technical literatures to which technical subject codes of the technical field of interest are assigned, from technical literary media on which statistical information on the plurality of technical literatures is collected.

보다 구체적으로, 상기 2 이상의 기술그룹은, 상기 관심기술분야의 기술주제코드를 포함하도록 할당된 기술주제코드조합을 기초로 분류되며, 상기 2 이상의 기술그룹 각각에는, 서로 동일한 기술주제코드조합이 할당된 기술문헌들이 포함되는 것을 특징으로 한다.More specifically, the two or more technical groups are classified on the basis of a technical subject code combination allocated to include a technical subject code of the technical field of interest, and each of the two or more technical groups is assigned the same technical subject code combination Technical literatures are included.

보다 구체적으로, 상기 2 이상의 기술그룹은, 상기 적어도 일부의 기술문헌으로부터 도출되는 각각의 키워드 별로 분류되며, 상기 2 이상의 기술그룹 각각에는, 키워드 별 동시출현빈도를 기초로 판단되는 서로 간의 유사도가 임계치 이상인 기술문헌들이 포함되는 것을 특징으로 한다.More specifically, the two or more description groups are classified into respective keywords derived from the at least a part of the technical literatures, and each of the two or more description groups has a similarity degree determined based on the frequency of simultaneous appearance for each keyword, Or more are included.

보다 구체적으로, 상기 모수시계열데이터는, 상기 다수의 기술문헌의 전체 통계정보를 기초로 상기 다수의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터, 및 상기 적어도 하나의 기술문헌의 통계정보만을 기초로 상기 적어도 하나의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터 중 적어도 하나를 포함하는 것을 특징으로 한다.More specifically, the parametric time series data is based on only the statistical information of the at least one technical literatures, based on the time series data generated in relation to the technology transition of the plurality of technical literatures based on the total statistical information of the plurality of technical literatures, And time series data generated in association with a technology transition of the at least one technical document.

보다 구체적으로, 상기 부상기술과의 관련 여부의 판별은, 상기 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 상기 변곡점에서의 기술 추이의 증감 상태 중 적어도 하나를 기초로 처리되는 것을 특징으로 한다.More specifically, the determination as to whether or not it relates to the floating technique is based on at least one of a time point at which an inflection point, at which a variation is confirmed from a technology transition based on the parametric time series data, and an increase / decrease state of a technology transition at the inflection point, . ≪ / RTI >

보다 구체적으로, 상기 판별부는, 상기 변곡점의 발생 시점이 상기 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 상기 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 경우, 상기 특정 기술그룹에 속한 기술문헌들이 상기 부상기술과 관련된 것으로 판별하는 것을 특징으로 한다.More specifically, when the occurrence time of the inflection point is within a threshold value from the discrimination time point at which the occurrence of the inflection point is judged to be related to the floating technique, and the technology transition at the inflection point shows an increasing state exceeding a threshold value, And the technical literatures belonging to the technical group are related to the injury technology.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 부상기술판별장치의 동작 방법은, 통계정보가 수집된 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류하는 분류단계; 상기 2 이상의 기술그룹 각각에 속한 기술문헌들의 통계정보를 기초로 상기 2 이상의 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성하는 생성단계; 및 상기 2 이상의 기술그룹 각각의 시계열데이터와, 모수시계열데이터 간의 비교를 통해 상기 모수시계열데이터에 기초한 기술 추이로부터 기술 추이의 변동이 탐지되는 특정 기술그룹을 부상기술과 관련된 것으로 판별하는 판별단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of operating a floating technology identifying device, the method comprising: classifying at least a part of technical literatures related to a technical field of interest among two or more technical literatures collected statistical information into two or more technical groups A classification step; A generation step of generating time series data related to a technology transition of each of the at least two technology groups based on statistical information of technical literatures belonging to each of the at least two technology groups; And a discrimination step of discriminating a specific technology group in which the variation of the technology transition from the technology trend based on the parametric time series data is detected through comparison between the time series data of each of the two or more technology groups and the parametric time series data, .

보다 구체적으로, 상기 적어도 일부의 기술문헌은, 상기 다수의 기술문헌에 대한 통계정보가 수집되는 기술문헌매체로부터, 상기 관심기술분야의 기술주제코드가 할당된 기술문헌을 포함하는 것을 특징으로 한다.More specifically, the at least some technical literatures include technical literatures to which technical subject codes of the technical field of interest are assigned, from technical literary media on which statistical information on the plurality of technical literatures is collected.

보다 구체적으로, 상기 2 이상의 기술그룹은, 상기 관심기술분야의 기술주제코드를 포함하도록 할당된 기술주제코드조합을 기초로 분류되며, 상기 2 이상의 기술그룹 각각에는, 서로 동일한 기술주제코드조합이 할당된 기술문헌들이 포함되는 것을 특징으로 한다.More specifically, the two or more technical groups are classified on the basis of a technical subject code combination allocated to include a technical subject code of the technical field of interest, and each of the two or more technical groups is assigned the same technical subject code combination Technical literatures are included.

보다 구체적으로, 상기 2 이상의 기술그룹은, 상기 적어도 일부의 기술문헌으로부터 도출되는 각각의 키워드 별로 분류되며, 상기 2 이상의 기술그룹 각각에는, 키워드 별 동시출현빈도를 기초로 판단되는 서로 간의 유사도가 임계치 이상인 기술문헌들이 포함되는 것을 특징으로 한다.More specifically, the two or more description groups are classified into respective keywords derived from the at least a part of the technical literatures, and each of the two or more description groups has a similarity degree determined based on the frequency of simultaneous appearance for each keyword, Or more are included.

보다 구체적으로, 상기 모수시계열데이터는, 상기 다수의 기술문헌의 전체 통계정보를 기초로 상기 다수의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터, 및 상기 적어도 하나의 기술문헌의 통계정보만을 기초로 상기 적어도 하나의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터 중 적어도 하나를 포함하는 것을 특징으로 한다.More specifically, the parametric time series data is based on only the statistical information of the at least one technical literatures, based on the time series data generated in relation to the technology transition of the plurality of technical literatures based on the total statistical information of the plurality of technical literatures, And time series data generated in association with a technology transition of the at least one technical document.

보다 구체적으로, 상기 부상기술과의 관련 여부의 판별은, 상기 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 상기 변곡점에서의 기술 추이의 증감 상태 중 적어도 하나를 기초로 처리되는 것을 특징으로 한다.More specifically, the determination as to whether or not it relates to the floating technique is based on at least one of a time point at which an inflection point, at which a variation is confirmed from a technology transition based on the parametric time series data, and an increase / decrease state of a technology transition at the inflection point, . ≪ / RTI >

보다 구체적으로, 상기 판별단계는, 상기 변곡점의 발생 시점이 상기 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 상기 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 경우, 상기 특정 기술그룹에 속한 기술문헌들이 상기 부상기술과 관련된 것으로 판별하는 것을 특징으로 한다.More specifically, in the discrimination step, when the occurrence time of the inflection point is within a threshold value from the discrimination time point at which the discrimination is made with respect to the flotation technique, and when the technology transition at the inflection point shows an increasing state exceeding the threshold value, It is characterized in that technical literatures belonging to a specific technology group are related to the injury technology.

이에, 본 발명의 부상기술판별장치 및 그 동작 방법에서는, 다수의 기술문헌과 관련하여 수집되는 다양한 통계정보에 대한 시계열분석을 통해 기술분야 별 기술 추이의 변동을 탐지함으로써, 탐지된 기술 추이의 변동으로부터 급부상하는 기술을 효과적으로 판별할 수 있다.Thus, in the floating technology distinguishing apparatus and the operation method of the present invention, by detecting the variation of the technology trend by the technical field through the time series analysis of various statistical information collected in relation to a plurality of technical literatures, It is possible to effectively distinguish the technology that emerges from the network.

도 1은 본 발명의 일 실시예에 따른 부상기술 판별 시스템을 도시한 예시도.
도 2는 본 발명의 일 실시예에 따른 부상기술판별장치의 구성을 설명하기 위한 블록도.
도 3은 본 발명의 일 실시예에 따른 부상기술판별장치에서의 동작 흐름을 설명하기 위한 순서도.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is an exemplary diagram showing a system for identifying a floating technique according to an embodiment of the present invention; FIG.
BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]
FIG. 3 is a flow chart for explaining an operation flow in the floating technology identifying apparatus according to an embodiment of the present invention; FIG.

이하, 첨부된 도면을 참조하여 본 발명이 일 실시예에 대하여 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 부상기술 판별 시스템을 도시하고 있다.FIG. 1 shows a system for identifying a flotation technique according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 부상기술 판별 시스템은, 기술문헌매체(200)로부터 수집되는 기술문헌의 통계정보를 기초로 급부상하는 기술(이하, '부상기술'이라 칭함)을 판별하는 부상기술판별장치(100)를 포함하는 구성을 갖는다.As shown in FIG. 1, the floating technology identifying system according to an embodiment of the present invention includes a technology for rapidly emerging based on statistical information of technical literatures collected from the technical literary medium 200 (hereinafter, referred to as' (Hereinafter, referred to as " floating type ").

여기서, 기술문헌은, 예컨대, 학술논문, 발표 슬라이드, 연구데이터, 특허 등 일컫는 것으로서, 이에 제한되는 것이 아닌 다양한 기술분야와 관련된 문헌은 모두 포함될 수 있다.Here, the technical literatures refer to, for example, academic papers, presentation slides, research data, patents, and the like, and the documents related to various technical fields may be included.

이에, 통계정보의 경우 예컨대, 출판 수, 피인용 수, 분야별 출원 혹은 등록 특허 수, 알트메트릭(Altmetric), 및 기술문헌의 DOI(The Digital Object Identifier) 클릭 수, 해석(Resolution) 수 등 기술문헌의 출판, 공개, 이용 및 인용과 관련된 과학계량학적 정보로 이해될 수 있다.Thus, in the case of statistical information, the technical literatures such as the number of publications, the number of citations, the number of applications or registered patents by sector, Altmetric, and the number of DOI (The Digital Object Identifier) Can be understood as scientific metrological information related to the publication, disclosure, use and citation of

이외에도, 기술문헌의 이용, 인용, 알트메트릭을 제공하는 웹 사이트나 기술문헌의 등록된 DOI를 관리 및 이용통계를 제공하는 웹 사이트로도 이해될 수 있을 것이다.In addition, it can be understood as a website providing management and utilization statistics of registered DOIs of web sites or technical documents providing technical literatures, quotations, alt metrics, and the like.

또한, 기술문헌매체(200)는 기술문헌의 통계정보를 제공하는 매체를 일컫다.In addition, the technical literary medium 200 refers to a medium for providing statistical information on technical literatures.

예를 들어, 기술문헌이 학술논문인 경우 기술문헌매체(200)는 해당 학술논문이 기고된 저널의 웹 사이트로 이해될 수 있으며, 만약 기술문헌이 특허인 경우에는 기술문헌매체(200)는 특허 공보와 이와 관련된 서지사항 및 검색 등의 서비스를 제공하는 웹 사이트로 이해될 수 있을 것이다.For example, if the technical literature is an academic paper, the technical literary medium 200 may be understood as a web site of a journal to which the academic paper is submitted, and if the technical literature is a patent, And may be understood as a website providing services such as publications and related bibliographies and searches.

결국, 본 발명의 일 실시예에 따른 부상기술판별장치(100)에서는 이처럼 기술문헌매체(200)로부터 수집되는 기술문헌의 통계정보에 대한 분석을 통해 부상기술을 판별할 수 있게 된다.In other words, in the floating technology identifying apparatus 100 according to an embodiment of the present invention, the floating technology can be determined by analyzing the statistical information of the technical literatures collected from the technical literary medium 200.

관련하여, 기존 기술에 따르면 부상기술의 경우 과학계량학의 기법을 활용한 데이터 기반 접근 방법을 통해서 판별될 수 있는 데, 이때, 문헌의 출판 수나 인용색인데이터베이스는 부상기술의 판별을 위한 기반 데이터로서 활용된다.In the related art, according to the existing technology, the injury technology can be discriminated through the data-based approach using the technique of the scientific metrology. At this time, the publication number of the document or the citation index database is used as the base data for discrimination of the injury technology do.

헌데, 이러한 과학계량학의 기법에서 부상기술의 판별 결과에 대한 즉시성과 신뢰성을 보장하기 위해선, 기반 데이터로서 활용되는 출판 수나 인용색인데이터베이스에 대한 즉시성과 신뢰성 보장이 우선되어야만 하는데, 이처럼, 신뢰성 있는 기반 데이터가 확보되기까지에는 상당한 시간이 소요된다는 문제점이 있다.In order to ensure the immediacy and reliability of the result of discrimination of injury technology in this scientific metrology technique, priority must be given to the immediacy and reliability of the publication number or the citation index database used as the base data. In this way, There is a problem that a considerable amount of time is required until the time t is secured.

이에, 본 발명의 일 실시예에서는 기술문헌매체로부터 수집되는 기술문헌의 통계정보를 이용하여 부상기술을 판별할 수 있는 새로운 방안을 제안하고자 하며, 이하에서는 이를 구현하기 위한 부상기술판별장치(100)의 구성에 대해 구체적으로 설명하기로 한다.Accordingly, in an embodiment of the present invention, a new method for identifying a flotation technique using statistical information of technical literatures collected from a technical literary medium is proposed. Hereinafter, Will be described in detail.

한편, 설명의 편의를 위해 통계정보가 수집되는 기술문헌이 학술논문인 것을 전제로 설명을 이어 가기로 한다.On the other hand, for convenience of explanation, it is assumed that the technical literature in which statistical information is collected is an academic paper.

도 2에는 본 발명의 일 실시예에 따른 부상기술판별장치(100)의 구성을 나타내는 블록도가 도시되고 있다.FIG. 2 is a block diagram showing a configuration of a flotation technology identifying apparatus 100 according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 부상기술판별장치(100)는 통계정보를 수집하는 수집부(110), 기술그룹을 분류하는 분류부(120), 분류된 기술그룹 별 시계열데이터를 생성하는 생성부(130), 기술그룹 별 기술 추이의 변동을 탐지하는 탐지부(140), 및 부상기술과의 관련 여부를 판별하는 판별부(150)를 포함하는 구성을 가질 수 있다.2, the floating technology identifying apparatus 100 according to an embodiment of the present invention includes a collecting unit 110 for collecting statistical information, a classifying unit 120 for classifying a technical group, A generation unit 130 for generating time-series data, a detection unit 140 for detecting a variation in a technology transition of each technology group, and a determination unit 150 for determining whether or not the technology is related to a flotation technique have.

이상의 수집부(110), 분류부(120), 생성부(130), 탐지부(140), 및 판별부(140)를 포함하는 부상기술판별장치(100)의 전체 구성 내지는 적어도 일부의 구성은 소프트웨어 모듈 또는 하드웨어 모듈 형태로 구현되거나, 내지는 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태로도 구현될 수 있다.The entire configuration or at least a part of the configuration of the floating technology identifying apparatus 100 including the collecting unit 110, the classifying unit 120, the generating unit 130, the detecting unit 140, and the determining unit 140 A software module or a hardware module, or a combination of a software module and a hardware module.

여기서, 소프트웨어 모듈이란, 예컨대, 부상기술판별장치(100) 내에서 연산을 수행하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 부상기술판별장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.Here, the software module may be understood as, for example, a command executed by a processor that performs an operation in the floating technology identifying apparatus 100, and the command may be stored in a memory in the floating technology identifying apparatus 100 .

결국, 본 발명의 일 실시예에 따른 부상기술판별장치(100)는 위 구성을 통해 통계정보에 대한 시계열분석을 수행함으로써, 부상기술을 판별하게 되는 데, 이하에서는 이를 구현하기 위한 부상기술판별장치(100) 내 구성에 대해 구체적으로 설명하기로 한다.As a result, the flushing technology determining apparatus 100 according to an embodiment of the present invention performs the time series analysis on the statistical information through the above configuration to determine the flushing technology. Hereinafter, (100) will be described in detail.

수집부(110)는 기술문헌매체(200)로부터 통계정보를 수집하는 기능을 수행한다.The collecting unit 110 collects statistical information from the technical literary medium 200.

보다 구체적으로, 수집부(110)는 기술문헌매체(200)로부터 다수의 기술문헌에 대한 다양한 통계정보를 수집하여 관리하게 된다.More specifically, the collecting unit 110 collects and manages various statistical information on a plurality of technical literatures from the technical literary medium 200.

이때, 수집부(110)는 기술문헌매체(200)로부터 예컨대 월 단위의 통계정보를 수집하게 되며, 만약 기술문헌매체(200)로부터 수집되는 통계정보가 누적치인 경우에는, 현재 월 누적치에서 전 월 누적치를 차감해 월 단위로 통계정보를 관리하게 된다.At this time, the collecting unit 110 collects statistical information on the monthly basis, for example, from the technical literary medium 200. If the statistical information collected from the technical literary medium 200 is an accumulated value, And the statistical information is managed on a monthly basis by subtracting the cumulative value.

한편, 본 발명의 일 실시예에서는 기술문헌매체(200)가 제공하는 별도의 페이지 목록을 통해서 통계정보를 수집할 수 있는 데, 만약 이러한 별도의 페이지 목록이 존재하지 않는 경우에는 예컨대, 기술문헌매체(200)의 접속주소(URL)로부터 기술문헌의 패턴을 식별하는 방식을 통해서 수집할 수도 있다.Meanwhile, in one embodiment of the present invention, statistical information can be collected through a separate page list provided by the technical literary medium 200. If such a separate page list does not exist, for example, (URL) of the technical document 200 by identifying the pattern of the technical literatures.

이처럼, 기술문헌매체(200)의 접속주소(URL)로부터 기술문헌의 패턴을 식별하는 방식은 앞서 전제한 바와 같이, 기술문헌이 학술논문이며, 기술문헌매체(200)가 기술문헌이 기고된 저널을 발간하는 출판사의 웹 사이트인 경우에 가능할 것이다.As described above, the method of identifying the pattern of technical literatures from the connection address (URL) of the technical literary medium 200 is as follows. The technical literatures are academic articles, and the technical literary medium 200 is a journal In the case of a publishing company's website.

관련하여, 공통적으로 출판사의 접속주소(URL)에는 개별 논문을 식별할 수 있는 정보를 발견할 수 있는 데, 이처럼 개별 논문을 식별할 수 있는 개별 논문을 식별할 수 있는 정보는 (1) 논문 단위 글로벌 표준 식별자인 DOI suffix, (2) 논문의 논리적 위치인 저널 타이틀/권/호/시작페이지의 결합 정보 (3) 논문의 시간적 위치가 결합된 저널 타이틀/출판년도/권/호/시작페이지의 결합 정보 등이 있고, 이들을 (4) 복합적으로 활용하여 저널 타이틀/권/호/DOI suffix와 같은 패턴으로 논문의 월별 이용통계 페이지 URL을 구성하기도 한다.In general, information that can identify individual papers can be found in the publisher's access address (URL) in common. The information that can identify individual papers that can identify individual papers is (1) (2) the journal title / volume / issue / start page combination information which is the logical position of the paper (3) the journal title / publication year / volume / issue / start page And (4) a combination of them, which constitute the monthly usage statistics page URL of the paper in the same pattern as the journal title / volume / call / DOI suffix.

따라서, 각 논문의 리스트와 각 논문의 서지정보(식별자, 논리적 위치, 출판년월 등)를 확보하여, 확보된 서지정보를 기반으로 논문별 이용통계 제공 페이지 가상 URL을 생성한다면, 가상 URL로 HTTP request를 하는 방식을 통해서 논문의 통계정보를 크롤링할 수 있는 것이다.Therefore, if a list of each article and bibliographic information (identifier, logical location, publication date, etc.) of each article are acquired and a page-based virtual URL is generated based on the obtained bibliographic information, And the statistical information of the thesis can be crawled through the method of doing.

또한, API로 제공되는 알트메트릭 및 DOI 이용통계에 대해서는 논문의 DOI를 기반으로 통계정보를 수집할 수 있다.In addition, statistical information can be collected based on the DOI of the thesis on the alt metrics and DOI utilization statistics provided by the API.

분류부(120)는 통계정보가 수집된 기술문헌을 기술그룹으로 분류하는 기능을 수행한다.The classifying unit 120 functions to classify the technical documents in which the statistical information is collected into technical groups.

보다 구체적으로, 분류부(120)는 다수의 기술문헌에 대한 통계정보가 수집되는 경우, 통계정보가 수집된 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 선별하고, 선별된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류하게 된다.More specifically, when the statistical information about a plurality of technical literatures is collected, the classifying unit 120 selects at least some technical literatures related to the technical field of interest among the plurality of technical literatures where statistical information is collected, Some technical literatures are categorized into two or more technical groups.

여기서, 관심기술분야는 부상기술이 확인되어야 하는 기술분야의 대분류로 이해될 수 있는 데, 예컨대, 화학분야와 관련되는 경우, 'Organic Chemistry', 'Materials Chemistry', 'Drug Discovery' 등의 기술분야가 해당될 수 있다.Here, the technical field of interest can be understood as a major category of the technical field in which the injury technology is to be confirmed. For example, when it relates to the chemical field, the technical field of the art such as 'Organic Chemistry', 'Materials Chemistry', 'Drug Discovery' .

한편, 다수의 기술문헌에 대한 통계정보를 제공하는 기술문헌매체(100)에서는 각 기술문헌에서 다루고 있는 기술분야에 대한 기술주제코드(예: SCOUPE의 ASJC 코드, 특허의 IPC 코드)를 할당하게 되며, 통상적으로 하나의 기술문헌에는 여러 기술분야가 다루어지게 되므로 각 기술분야의 기술주제코드가 조합된 기술주제코드조합이 할당될 수 있다.On the other hand, in the technical literary medium 100 that provides statistical information on a plurality of technical literatures, technical subject codes (for example, ASJC codes of SCOUPEs, IPC codes of patents) for technical fields covered by technical literatures are allocated , Since a technical field usually covers a plurality of technical fields, a technical topic code combination in which technical topic codes in each technical field are combined can be assigned.

이에, 분류부(120)는 통계정보가 수집된 다수의 기술문헌 각각의 기술주제코드조합을 확인하고, 다수의 기술문헌 중 기술주제코드조합 내에 관심기술분야의 기술주제코드가 포함된 적어도 일부의 기술문헌을 관심기술분야와 관련된 기술문헌으로 선별할 수 있다.The classification unit 120 identifies a technical subject code combination of each of a plurality of technical documents in which statistical information is collected, and identifies at least a part of the technical subject code of the technical field of interest The technical literature can be selected by technical literature related to the technical field of interest.

또한, 분류부(120)는 관심기술분야와 관련된 적어도 일부의 기술문헌이 선별되면, 선별된 기술문헌을 서로 동일한 기술주제코드조합이 할당된 기술문헌으로 구분함으로써, 기술주제코드조합 별로 기술그룹을 분류하게 된다.If at least some technical literatures relating to the technical field of interest are selected, the classifying unit 120 divides the selected technical literatures into technical literatures assigned with the same technical subject code combination, .

다만, 이처럼, 많은 수의 기술문헌을 한정된 기술주제코드조합을 기초로 기술그룹을 분류하는 경우, 만약, 기술주제코드 간의 상관도가 높다면, 분류된 기술그룹 간 특성이 중복될 수 있다는 문제점을 예상할 수 있다.However, when a technology group is classified on the basis of a limited technical subject code combination in a large number of technical literatures, if the correlation between technology subject codes is high, there is a problem that the characteristics between the classified technology groups may be duplicated Can be expected.

이에, 분류부(120)에서는 이러한 문제점을 해결하기 위해 관심기술분야와 관련된 적어도 일부의 기술문헌이 선별되면, 기술주제코드조합을 기초로 기술그룹을 분류하는 대신, 관심기술분야와 관련된 적어도 일부의 기술문헌으로부터 도출되는 키워드 별로 기술그룹을 분류하는 방식을 채택할 수 있다.In order to solve such a problem, the classifier 120 classifies at least a part of the technical literature related to the technical field of interest, instead of classifying the technical group based on the technical subject code combination, It is possible to adopt a method of classifying technical groups by keyword derived from technical literatures.

여기서, 키워드의 경우 예컨대, 각 기술문헌의 제목, 초록, 그리고 키워드를 합친 코퍼스를 하나의 문서로 판단하고, 문서를 텍스트 마이닝함으로써, 도출될 수 있으며, 이 과정에서, 초록에 포함된 저작권 및 원문, 그림과 관련된 문구들을 제거될 수 있다.Here, in the case of a keyword, for example, a corpus combining the title, abstract, and keywords of each technical document may be determined as one document and text mining may be performed. In this process, the copyright and original text , Phrases related to pictures can be eliminated.

결국, 분류부(120)는 관심기술분야와 관련된 기술문헌으로부터 키워드가 도출되는 경우 키워드 별 동시출현빈도를 기초로 기술문헌 간의 유사도를 판단함으로써, 기술문헌 간의 유사도가 임계치 이상인 기술문헌들을 각 키워드 별 기술그룹으로 분류할 수 있다.In other words, when the keyword is derived from the technical literature related to the technical field of interest, the classification unit 120 determines the similarity degree between the technical literatures based on the frequency of simultaneous appearance for each keyword, Technology group.

이때, 분류부(120)는 예컨대, 문서 내 공기출현 정보를 기반으로 키워드와 k개 그룹 간의 유사도를 계산하여 해당 키워드의 그룹을 결정하는 k-means 알고리즘을 통해 기술그룹을 분류할 수 있다.At this time, the classifying unit 120 may classify the technology group by a k-means algorithm that calculates the similarity between the keyword and k groups based on the air appearance information in the document, and determines the group of the keyword.

한편, 이처럼 키워드를 기초로 기술그룹을 분류하는 경우, k 값 설정을 통해 기술주제코드조합을 기초로 기술그룹을 분류하는 경우보다 분류된 기술그룹의 개수가 많아지도록 함은 물론이다.In the case of classifying the technology group based on the keyword as described above, it is needless to say that the number of the classified technology groups is increased as compared with the case of classifying the technology group based on the technical subject code combination through the k value setting.

생성부(130)는 분류된 기술그룹 별 시계열데이터를 생성하는 기능을 수행한다.The generation unit 130 generates time series data for each classified technology group.

보다 구체적으로, 생성부(130)는 관심기술분야와 관련된 기술문헌이 선별된 이후 기술그룹이 분류되는 경우, 각 기술그룹에 속한 기술문헌들의 통계정보를 기초로 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성하게 된다.More specifically, when the technical group is classified after the technical literature related to the technical field of interest is selected, the generating unit 130 generates a time series related to the technology transition of each technical group based on the statistical information of the technical literatures belonging to each technical group Data is generated.

여기서, 통계정보는 각 기술그룹에 속한 기술문헌들의 월별 통계정보를 의미하게 되므로, 기술그룹 각각에 대해 생성되는 시계열데이터는 각 기술그룹에 속한 기술문헌들의 평균적인 월별 기술 추이를 나타냄을 알 수 있다.Here, since the statistical information means monthly statistical information of the technical literatures belonging to each technical group, it can be seen that the time series data generated for each technical group represents the average monthly technical trend of the technical literatures belonging to each technical group .

탐지부(140)는 기술그룹 별 기술 추이의 변동을 탐지하는 기능을 수행한다.The detection unit 140 performs a function of detecting a variation in technology transition for each technology group.

보다 구체적으로, 탐지부(140)는 기술그룹 각각에 대한 시계열데이터가 생성되는 경우, 각 시계열데이터를 기 생성된 모수시계열데이터를 비교하는 시계열분석을 통해서 각 기술그룹에 대해 모수시계열데이터로부터 확인되는 기술 추이로부터 변동을 탐지하게 된다.More specifically, when the time series data for each technology group is generated, the detection unit 140 determines the time series data for each technology group from the time series data by comparing the time series data with each other And detects variations from technology trends.

이때, 탐지부(140)는 시계열분석과 관련하여, 기술 추이가 특별한 주기를 가지지 않으며 불규칙하게 급증하나 구조적인 변화를 가지는 지점(이하, 변곡점)을 탐지하게 되는 데, 이러한 변곡점을 알아내기 위한 검정방법으로 예컨대, CUSUM(Cumulative sum) 검정을 적용할 수 있으며, 변곡점의 개수의 경우 예컨대, BIC(Bayesian Information Criterion)을 통해서 추정할 수 있다.At this time, the detection unit 140 detects a point (hereinafter referred to as an inflection point) having a structural change, which is irregularly rapidly but has no special period in relation to the time series analysis. For example, a CUSUM (Cumulative Sum) test may be applied, and in the case of the number of inflection points, for example, Bayesian Information Criterion (BIC) may be used.

한편, 기술그룹 각각의 시계열데이터와의 비교가 이루어지는 모수시계열데이터는, 통계정보가 수집되는 전체 기술문헌의 통계정보를 기초로 생성되는 시계열데이터, 및 관심기술분야와 관련하여 선별된 기술문헌의 통계정보만을 기초로 생성되는 시계열데이터 중 적어도 하나에 해당할 수 있다.On the other hand, the parameter time series data in which the comparison with the time series data of each technology group is made is based on the time series data generated based on the statistical information of the entire technical literatures in which the statistical information is collected and the statistical data of the selected technical literatures And may be at least one of time series data generated based only on information.

이처럼, 기술그룹 별 시계열데이터와 모수시계열데이터를 비교하는 시계열분석을 수행하는 것은, 전체기술분야 혹은 대분류로 분류되는 기술분야의 기술 추이와, 기술그룹으로 분류된 세부 기술분야의 기술 추이 간의 비교를 통해서 세부 기술분야 관련된 기술 추이 변동의 상대적 중요성을 파악하기 위함이다.As described above, the time series analysis comparing the time series data of the technology group and the parameter time series data is performed by comparing the technology trend of the technical field classified into the entire technical field or the major category and the technical trend of the detailed technical field classified into the technical group The purpose of this study is to identify the relative importance of technology trends related to the technology field.

참고로, 기술그룹 별 기술 추이의 변동을 탐지함에 있어서, 데이터에 계절성이 존재한다면 계절성에 의한 변동을 정규화하고, 인위적인 증감 요인이 있다면 이에 따른 조치를 취해야 함은 물론일 것이다.For reference, in detecting changes in technology trends by technology group, it is necessary to normalize the fluctuations due to seasonality if there is seasonality in the data, and to take measures in response to artificial fluctuation factors.

판별부(150)는 각 기술그룹에 대한 부상기술과의 관련 여부를 판별하는 기능을 수행한다.The determination unit 150 performs a function of determining whether or not the technology group is associated with the floating technique.

보다 구체적으로, 판별부(150)는 각 기술그룹에 대한 기술 추이의 변동이 탐지되는 경우, 탐지 결과를 기초로 부상기술판별기준에 부합하는 특정 기술그룹이 확인되는 경우, 해당 기술그룹을 부상기술과 관련된 기술인 것으로 판별할 수 있다.More specifically, when the variation of the technology transition for each technology group is detected, if the specific technology group conforming to the emergence technology discrimination criterion is identified based on the detection result, It can be determined that the technique is related to

여기서, 특정 기술그룹이 부상기술과 관련된 것으로 판별된다는 것으로, 해당 기술그룹에 속한 기술문헌이 부상기술과 관련된 기술분야를 다루고 있다는 것을 의미하는 것으로, 이는 곧 기술문헌에서 다루고 있는 기술분야를 부상기술인 것으로 판별할 있는 것이다.Here, it is determined that the specific technology group is related to the injury technology, which means that the technical literature belonging to the technology group deals with the technology field related to the injury technology. This means that the technology field covered by the technical literature is the injury technology It is something to be judged.

이때, 부상기술판별기준은, 예컨대, 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 변곡점에서의 기술 추이의 증감 상태 등을 이용하여 결정될 수 있으며, 이러한 부상기술판별기준과, 각 기술그룹에 대해 탐지된 기술 추이의 변동 상태가 부합되는 정도는 점수로서 환산될 수 있음은 물론이다.At this time, the floating technology discrimination criterion can be determined by using, for example, the time of occurrence of the inflection point at which the variation is confirmed from the technology trend based on the parameter time series data, and the increasing and decreasing state of the technology trend at the inflection point, It is needless to say that the criterion and the degree to which the fluctuation state of the detected technology transition for each technology group is matched can be converted into a score.

이와 관련하여, 판별부(150)는 예컨대, 변곡점의 발생 시점이 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 특정 기술그룹이 존재하는 경우, 해당 기술그룹에 속한 기술문헌들이 부상기술과 관련된 것으로 판별할 수 있다.In this regard, the determining unit 150 determines whether or not the occurrence time of the inflection point is within a threshold value from the discrimination time point at which the determination of whether the inflection point is related or not is related to the specific technology group , It can be determined that the technical literatures belonging to the technical group are related to the injury technique.

한편, 부상기술판별기준은, 운용자의 설정에 따라 다양한 기준으로 결정될 수 있는 데, 예컨대, 통계정보의 종류(예: 출판 수, 특허의 출원 수 및 등록 수, 피인용 수, 알트메트릭(Altmetric), 및 DOI(The Digital Object Identifie) 클릭 수 및 해석 수)가 구분되는 경우, 각 통계정보의 종류마다 서로 다른 기준으로 결정될 수 있을 것이다.Meanwhile, the criterion for determining the injury technology can be determined by various criteria according to the setting of the operator. For example, the type of statistical information (for example, the number of publications, the number of patent applications and the number of patents, the number of citations, , And DOI (The Digital Object Identifie) clicks and the number of interpretations), it can be determined on a different basis for each type of statistical information.

이상에서 설명한 바와 같이, 본 발명의 일 실시예에 따른 부상기술판별장치(100)의 구성에 따르면, 기술문헌매체(200)로부터 수집되는 기술문헌의 통계정보에 대한 시계열분석을 통해 기술분야 별 기술 추이의 변동을 탐지함으로써, 탐지된 기술 추이의 변동으로부터 급부상하는 기술을 효과적으로 판별할 수 있게 된다.As described above, according to the configuration of the floating technology identifying apparatus 100 according to an embodiment of the present invention, by the time series analysis of the statistical information of the technical literatures collected from the technical literary medium 200, By detecting the fluctuation of the trend, it is possible to effectively identify the technology that emerges from the fluctuation of the detected technology trend.

이상, 본 발명의 일 실시예에 따른 부상기술판별장치(100)의 구성에 대한 설명을 마치고, 이하에서는 부상기술판별장치(100)에서의 동작 흐름과 관련된 순서도를 도시하고 있는 도 3을 참조하여 부상기술판별장치(100)에서의 동작 흐름에 대한 설명을 이어 가기로 한다.3, which shows a flow chart related to the operation flow in the floating-type technology discrimination device 100, the description of the configuration of the floating-type technology discrimination device 100 according to the embodiment of the present invention is described below The description of the operation flow in the floating technology identifying device 100 will be continued.

먼저, 수집부(110)는 단계 'S110'에 따라 기술문헌매체(200)로부터 다수의 기술문헌에 대한 다양한 통계정보를 수집하여 관리한다.First, the collecting unit 110 collects and manages various statistical information on a plurality of technical literatures from the technical literary medium 200 according to step 'S110'.

이때, 수집부(110)는 기술문헌매체(200)로부터 예컨대 월 단위의 통계정보를 수집하게 되며, 만약 기술문헌매체(200)로부터 수집되는 통계정보가 누적치인 경우에는, 현재 월 누적치에서 전 월 누적치를 차감해 월 단위로 통계정보를 관리하게 된다.At this time, the collecting unit 110 collects statistical information on the monthly basis, for example, from the technical literary medium 200. If the statistical information collected from the technical literary medium 200 is an accumulated value, And the statistical information is managed on a monthly basis by subtracting the cumulative value.

한편, 본 발명의 일 실시예에서는 기술문헌매체(200)가 제공하는 별도의 페이지 목록을 통해서 통계정보를 수집할 수 있는 데, 만약 이러한 별도의 페이지 목록이 존재하지 않는 경우에는 예컨대, 기술문헌매체(200)의 접속주소(URL)로부터 기술문헌의 패턴을 식별하는 방식을 통해서 수집할 수도 있다.Meanwhile, in one embodiment of the present invention, statistical information can be collected through a separate page list provided by the technical literary medium 200. If such a separate page list does not exist, for example, (URL) of the technical document 200 by identifying the pattern of the technical literatures.

이처럼, 기술문헌매체(200)의 접속주소(URL)로부터 기술문헌의 패턴을 식별하는 방식은 앞서 전제한 바와 같이, 기술문헌이 학술논문이며, 기술문헌매체(200)가 기술문헌이 기고된 저널을 발간하는 출판사의 웹 사이트인 경우에 가능할 것이다.As described above, the method of identifying the pattern of technical literatures from the connection address (URL) of the technical literary medium 200 is as follows. The technical literatures are academic articles, and the technical literary medium 200 is a journal In the case of a publishing company's website.

관련하여, 공통적으로 출판사의 접속주소(URL)에는 개별 논문을 식별할 수 있는 정보를 발견할 수 있는 데, 이처럼 개별 논문을 식별할 수 있는 개별 논문을 식별할 수 있는 정보는 (1) 논문 단위 글로벌 표준 식별자인 DOI suffix, (2) 논문의 논리적 위치인 저널 타이틀/권/호/시작페이지의 결합 정보 (3) 논문의 시간적 위치가 결합된 저널 타이틀/출판년도/권/호/시작페이지의 결합 정보 등이 있고, 이들을 (4) 복합적으로 활용하여 저널 타이틀/권/호/DOI suffix와 같은 패턴으로 논문의 월별 이용통계 페이지 URL을 구성하기도 한다.In general, information that can identify individual papers can be found in the publisher's access address (URL) in common. The information that can identify individual papers that can identify individual papers is (1) (2) the journal title / volume / issue / start page combination information which is the logical position of the paper (3) the journal title / publication year / volume / issue / start page And (4) a combination of them, which constitute the monthly usage statistics page URL of the paper in the same pattern as the journal title / volume / call / DOI suffix.

따라서, 각 논문의 리스트와 각 논문의 서지정보(식별자, 논리적 위치, 출판년월 등)를 확보하여, 확보된 서지정보를 기반으로 논문별 이용통계 제공 페이지 가상 URL을 생성한다면, 가상 URL로 HTTP request를 하는 방식을 통해서 논문의 통계정보를 크롤링할 수 있는 것이다.Therefore, if a list of each article and bibliographic information (identifier, logical location, publication date, etc.) of each article are acquired and a page-based virtual URL is generated based on the obtained bibliographic information, And the statistical information of the thesis can be crawled through the method of doing.

또한 API로 제공되는 알트메트릭 및 DOI 이용통계에 대해서는 논문의 DOI를 기반으로 통계정보를 수집할 수 있다. In addition, statistical information can be collected based on the DOI of the thesis on the alt metrics and DOI utilization statistics provided by the API.

이어서, 분류부(120)는 다수의 기술문헌에 대한 통계정보가 수집되는 경우, 단계 'S120'에 따라 통계정보가 수집된 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 선별하고, 선별된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류한다.Then, when the statistical information on a plurality of technical literatures is collected, the classifying unit 120 selects at least some technical literatures related to the technical field of interest among the plurality of technical literatures collected statistical information according to step S120 , And classifies at least some selected technical literatures into two or more technical groups.

이때, 분류부(120)는 통계정보가 수집된 다수의 기술문헌 각각의 기술주제코드조합을 확인하고, 다수의 기술문헌 중 기술주제코드조합 내에 관심기술분야의 기술주제코드가 포함된 적어도 일부의 기술문헌을 관심기술분야와 관련된 기술문헌으로 선별할 수 있다.At this time, the classifying unit 120 identifies a technical subject code combination of each of a plurality of technical literatures in which statistical information is collected, and identifies at least a part of the technical subject code of the technical field of interest The technical literature can be selected by technical literature related to the technical field of interest.

또한, 분류부(120)는 관심기술분야와 관련된 적어도 일부의 기술문헌이 선별되면, 선별된 기술문헌을 서로 동일한 기술주제코드조합이 할당된 기술문헌으로 구분함으로써, 기술주제코드조합 별로 기술그룹을 분류하게 된다.If at least some technical literatures relating to the technical field of interest are selected, the classifying unit 120 divides the selected technical literatures into technical literatures assigned with the same technical subject code combination, .

다만, 이처럼, 많은 수의 기술문헌을 한정된 기술주제코드조합을 기초로 기술그룹을 분류하는 경우, 만약, 기술주제코드 간의 상관도가 높다면, 기술그룹 간 특성이 중복될 수 있다는 문제점을 예상할 수 있다.However, in the case of classifying a large number of technical literatures into technical groups based on a limited technical subject code combination, if there is a high degree of correlation between technical subject codes, it is expected that the characteristics between technical groups may overlap .

이에, 분류부(120)에서는 이러한 문제점을 해결하기 위해 관심기술분야와 관련된 적어도 일부의 기술문헌이 선별되면, 기술주제코드조합을 기초로 기술그룹을 분류하는 대신, 관심기술분야와 관련된 적어도 일부의 기술문헌으로부터 도출되는 키워드 별로 기술그룹을 분류하는 방식을 채택할 수 있다.In order to solve such a problem, the classifier 120 classifies at least a part of the technical literature related to the technical field of interest, instead of classifying the technical group based on the technical subject code combination, It is possible to adopt a method of classifying technical groups by keyword derived from technical literatures.

결국, 분류부(120)는 관심기술분야와 관련된 기술문헌으로부터 키워드가 도출되는 경우 키워드 별 동시출현빈도를 기초로 기술문헌 간의 유사도를 판단함으로써, 기술문헌 간의 유사도가 임계치 이상인 기술문헌들을 각 키워드 별 기술그룹으로 분류할 수 있다.In other words, when the keyword is derived from the technical literature related to the technical field of interest, the classification unit 120 determines the similarity degree between the technical literatures based on the frequency of simultaneous appearance for each keyword, Technology group.

이때, 분류부(120)는 예컨대, 문서 내 공기출현 정보를 기반으로 키워드와 k개 그룹 간의 유사도를 계산하여 해당 키워드의 그룹을 결정하는 k-means 알고리즘을 통해 기술그룹을 분류할 수 있다.At this time, the classifying unit 120 may classify the technology group by a k-means algorithm that calculates the similarity between the keyword and k groups based on the air appearance information in the document, and determines the group of the keyword.

그리고 나서, 생성부(130)는 관심기술분야와 관련된 기술문헌이 선별된 이후 기술그룹이 분류되는 경우, 단계 'S130'에 따라 각 기술그룹에 속한 기술문헌들의 통계정보를 기초로 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성한다.Then, when the technical group is classified after the technical literature related to the technical field of interest is classified, the generating unit 130 extracts the technical group of each technical group based on the statistical information of the technical literatures belonging to each technical group according to step 'S130' Generates time series data related to technology trends.

여기서, 통계정보는 각 기술그룹에 속한 기술문헌들의 월별 통계정보를 의미하게 되므로, 기술그룹 각각에 대해 생성되는 시계열데이터는 각 기술그룹에 속한 기술문헌들의 평균적인 월별 기술 추이를 나타냄을 알 수 있다.Here, since the statistical information means monthly statistical information of the technical literatures belonging to each technical group, it can be seen that the time series data generated for each technical group represents the average monthly technical trend of the technical literatures belonging to each technical group .

나아가, 탐지부(140)는 기술그룹 각각에 대한 시계열데이터가 생성되는 경우, 단계 'S140'에 따라 각 시계열데이터를 기 생성된 모수시계열데이터를 비교하는 시계열분석을 통해서 각 기술그룹에 대해 모수시계열데이터로부터 확인되는 기술 추이로부터 변동을 탐지한다.Further, when time series data for each of the technology groups is generated, the detection unit 140 performs a time series analysis for comparing the generated time series data with each time series data according to step 'S140' Detects variations from technology trends identified from the data.

이때, 탐지부(140)는 시계열분석과 관련하여, 기술 추이가 특별한 주기를 가지지 않으며 불규칙하게 급증하나 구조적인 변화를 가지는 지점(이하, 변곡점)을 탐지하게 되는 데, 이러한 변곡점을 알아내기 위한 검정방법으로 예컨대, CUSUM(Cumulative sum) 검정을 적용할 수 있으며, 변곡점의 개수의 경우 예컨대, BIC(Bayesian Information Criterion)을 통해서 추정할 수 있다.At this time, the detection unit 140 detects a point (hereinafter referred to as an inflection point) having a structural change, which is irregularly rapidly but has no special period in relation to the time series analysis. For example, a CUSUM (Cumulative Sum) test may be applied, and in the case of the number of inflection points, for example, Bayesian Information Criterion (BIC) may be used.

한편, 기술그룹 각각의 시계열데이터와의 비교가 이루어지는 모수시계열데이터는, 통계정보가 수집되는 전체 기술문헌의 통계정보를 기초로 생성되는 시계열데이터, 및 관심기술분야와 관련하여 선별된 기술문헌의 통계정보만을 기초로 생성되는 시계열데이터 중 적어도 하나에 해당할 수 있다.On the other hand, the parameter time series data in which the comparison with the time series data of each technology group is made is based on the time series data generated based on the statistical information of the entire technical literatures in which the statistical information is collected and the statistical data of the selected technical literatures And may be at least one of time series data generated based only on information.

참고로, 기술그룹 별 기술 추이의 변동을 탐지함에 있어서, 데이터에 계절성이 존재한다면 계절성에 의한 변동을 정규화하고, 인위적인 증감 요인이 있다면 이에 따른 조치를 취해야 함은 물론일 것이다.For reference, in detecting changes in technology trends by technology group, it is necessary to normalize the fluctuations due to seasonality if there is seasonality in the data, and to take measures in response to artificial fluctuation factors.

이후, 판별부(150)는 각 기술그룹에 대한 기술 추이의 변동이 탐지되는 경우, 단계 'S150'에 따라 탐지 결과를 기초로 부상기술판별기준에 부합하는 특정 기술그룹이 확인되는 경우, 해당 기술그룹을 부상기술과 관련된 기술인 것으로 판별할 수 있다.Thereafter, when the variation of the technology transition for each technology group is detected, if the specific technology group conforming to the emergence technology discrimination criterion is identified based on the detection result according to step 'S150' The group can be determined to be a technique related to the injury technique.

여기서, 특정 기술그룹이 부상기술과 관련된 것으로 판별된다는 것으로, 해당 기술그룹에 속한 기술문헌이 부상기술과 관련된 기술분야를 다루고 있다는 것을 의미하는 것으로, 이는 곧 기술문헌에서 다루고 있는 기술분야를 부상기술인 것으로 판별할 있는 것이다.Here, it is determined that the specific technology group is related to the injury technology, which means that the technical literature belonging to the technology group deals with the technology field related to the injury technology. This means that the technology field covered by the technical literature is the injury technology It is something to be judged.

이때, 부상기술판별기준은, 예컨대, 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 변곡점에서의 기술 추이의 증감 상태 등을 이용하여 결정될 수 있으며, 이러한 부상기술판별기준과, 각 기술그룹에 대해 탐지된 기술 추이의 변동 상태가 부합되는 정도는 점수로서 환산될 수 있음은 물론이다.At this time, the floating technology discrimination criterion can be determined by using, for example, the time of occurrence of the inflection point at which the variation is confirmed from the technology trend based on the parameter time series data, and the increasing and decreasing state of the technology trend at the inflection point, It is needless to say that the criterion and the degree to which the fluctuation state of the detected technology transition for each technology group is matched can be converted into a score.

이와 관련하여, 판별부(150)는 예컨대, 변곡점의 발생 시점이 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 특정 기술그룹이 존재하는 경우, 해당 기술그룹에 속한 기술문헌들이 부상기술과 관련된 것으로 판별할 수 있다.In this regard, the determining unit 150 determines whether or not the occurrence time of the inflection point is within a threshold value from the discrimination time point at which the determination of whether the inflection point is related or not is related to the specific technology group , It can be determined that the technical literatures belonging to the technical group are related to the injury technique.

이상에서 설명한 바와 같이, 본 발명의 일 실시예에 따른 부상기술판별장치(100)에서의 동작 흐름에 따르면, 기술문헌매체(200)로부터 수집되는 기술문헌의 통계정보에 대한 시계열분석을 통해 기술분야 별 기술 추이의 변동을 탐지함으로써, 탐지된 기술 추이의 변동으로부터 급부상하는 기술을 효과적으로 판별할 수 있게 된다.As described above, according to the operation flow of the floating technology identifying apparatus 100 according to an embodiment of the present invention, the time-series analysis of the statistical information of the technical literatures collected from the technical literary medium 200 can be performed, By detecting the fluctuation of the different technology trends, it is possible to effectively identify the emerging technology from the fluctuation of the detected technology trends.

한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Meanwhile, the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, or may be embodied in a computer readable medium, in the form of a program instruction, which may be carried out through various computer means. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and configured for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention.

본 발명에 따른 부상기술판별장치 및 그 동작 방법에 따르면, 다수의 기술문헌과 관련하여 수집되는 다양한 통계정보를 시계열데이터로 생성하고, 시계열분석을 통해서 모수시계열 대비 개별 시계열의 구조적 변곡점을 탐지하는 기법을 활용하여 다양한 기술 통계정보로부터 다양한 수준으로 급부상하는 기술을 판별할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to the floating technology identifying device and the operation method thereof according to the present invention, various statistical information collected in relation to a plurality of technical literatures is generated as time series data, and a technique of detecting a structural inflection point of individual time series relative to the parameter time series by time series analysis , It is possible to distinguish technologies emerging from various technical statistical information to various levels. As a result, it is possible to use a device that has a possibility of being sold or operated In addition, it is an invention that can be used industrially because it is practically possible to carry out clearly.

100: 부상기술판별장치
110: 수집부 120: 분류부
130: 생성부 140: 탐지부
150: 판별부
200: 기술문헌매체
100: Flotation technology discrimination device
110: collecting unit 120:
130: Generation unit 140:
150:
200: Technical Literature Medium

Claims (14)

기술문헌매체로부터 다수의 기술문헌에 대한 통계정보를 수집하는 수집부;
상기 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류하는 분류부;
상기 2 이상의 기술그룹 각각에 속한 기술문헌들의 통계정보를 기초로 상기 2 이상의 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성하는 생성부; 및
상기 2 이상의 기술그룹 각각의 시계열데이터와, 모수시계열데이터 간의 비교를 통해 상기 모수시계열데이터에 기초한 기술 추이로부터 기술 추이의 변동이 탐지되는 특정 기술그룹을 부상기술과 관련된 것으로 판별하는 판별부를 포함하며,
상기 수집부는,
상기 기술문헌매체가 상기 다수의 기술문헌이 기고된 저널의 웹 사이트이며, 상기 다수의 기술문헌 각각의 통계정보는, 상기 저널에서 부여되는 상기 다수의 기술문헌 각각의 식별정보를 포함한 기 정의된 패턴을 따르는 접속주소의 개별페이지를 통해 제공되는 경우, 상기 다수의 기술문헌 각각의 식별정보와 상기 기 정의된 패턴을 기초로 상기 개별페이지에 접속하기 위한 가상접속주소를 생성하여, 상기 가상의 접속주소로의 HTTP request를 통해 상기 다수의 기술문헌 각각에 대한 통계정보를 수집하는 것을 특징으로 하는 부상기술판별장치.
A collecting unit for collecting statistical information on a plurality of technical literatures from a technical literary medium;
A classifying unit for classifying at least a part of the technical literatures related to the technical field of interest among the plurality of technical literatures into two or more technical groups;
A generating unit for generating time series data related to a technology transition of each of the at least two technical groups based on statistical information of technical literatures belonging to each of the at least two technical groups; And
And a determination unit that determines that a specific technology group in which a variation of a technology transition is detected from a technology transition based on the parametric time series data through comparison between the time series data of each of the at least two technology groups and the parameter time series data,
Wherein,
Wherein the technical literary medium is a web site of a journal in which a plurality of technical literatures are written and statistical information of each of the technical literatures is a predefined pattern including identification information of each of the plurality of technical literatures given in the journal Generates a virtual access address for accessing the individual pages based on the identification information of each of the plurality of technical literatures and the predefined pattern, And collects statistical information on each of the plurality of technical literatures through an HTTP request to the plurality of technical literatures.
제 1 항에 있어서,
상기 적어도 일부의 기술문헌은,
상기 다수의 기술문헌에 대한 통계정보가 수집되는 상기 기술문헌매체로부터, 상기 관심기술분야의 기술주제코드가 할당된 기술문헌을 포함하는 것을 특징으로 하는 부상기술판별장치.
The method according to claim 1,
At least some of the technical literatures,
And a technical document to which the technical subject code of the technical field of interest is assigned, from the technical literary medium on which statistical information on the plurality of technical literatures is collected.
제 2 항에 있어서,
상기 2 이상의 기술그룹은,
상기 관심기술분야의 기술주제코드를 포함하도록 할당된 기술주제코드조합을 기초로 분류되며,
상기 2 이상의 기술그룹 각각에는,
서로 동일한 기술주제코드조합이 할당된 기술문헌들이 포함되는 것을 특징으로 하는 부상기술판별장치.
3. The method of claim 2,
The two or more technical groups may include:
A technical subject code combination assigned to include a technical subject code of the technical field of interest,
In each of the two or more description groups,
And technical literatures to which the same technical subject code combination is assigned are included.
제 2 항에 있어서,
상기 2 이상의 기술그룹은,
상기 적어도 일부의 기술문헌으로부터 도출되는 각각의 키워드 별로 분류되며,
상기 2 이상의 기술그룹 각각에는,
키워드 별 동시출현빈도를 기초로 판단되는 서로 간의 유사도가 임계치 이상인 기술문헌들이 포함되는 것을 특징으로 하는 부상기술판별장치.
3. The method of claim 2,
The two or more technical groups may include:
Are classified into respective keywords derived from at least a part of the technical literatures,
In each of the two or more description groups,
Wherein the similarity determination unit includes technical literatures whose similarities are greater than or equal to a threshold value based on the frequency of simultaneous occurrence for each keyword.
제 1 항에 있어서,
상기 모수시계열데이터는,
상기 다수의 기술문헌의 전체 통계정보를 기초로 상기 다수의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터, 및 상기 적어도 하나의 기술문헌의 통계정보만을 기초로 상기 적어도 하나의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 부상기술판별장치.
The method according to claim 1,
The parametric time series data includes:
Based on the total statistical information of the plurality of technical literatures, the time series data generated in relation to the technical trends of the technical literatures, and the technical trend of the at least one technical literatures based on the statistical information of the at least one technical literatures And time-series data generated in association with the time-series data.
제 1 항에 있어서,
상기 부상기술과의 관련 여부의 판별은,
상기 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 상기 변곡점에서의 기술 추이의 증감 상태 중 적어도 하나를 기초로 처리되는 것을 특징으로 하는 부상기술판별장치.
The method according to claim 1,
The determination as to whether or not the above-
Wherein the processing is performed based on at least one of an occurrence time point of an inflection point at which a variation is confirmed from a technology transition based on the parameter time series data and an increase / decrease state of the technology transition at the inflection point.
제 6 항에 있어서,
상기 판별부는,
상기 변곡점의 발생 시점이 상기 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 상기 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 경우, 상기 특정 기술그룹에 속한 기술문헌들이 상기 부상기술과 관련된 것으로 판별하는 것을 특징으로 하는 부상기술판별장치.
The method according to claim 6,
Wherein,
When the occurrence time of the inflection point is within a threshold value from a discrimination time point at which it is judged whether or not the inflection point is related to the floating technique and the technology transition at the inflection point shows an increasing state exceeding a threshold value, And determining that the injured technology is related to the injured technique.
기술문헌매체로부터 다수의 기술문헌에 대한 통계정보를 수집하는 수집단계;
통계정보가 수집된 다수의 기술문헌 중 관심기술분야와 관련된 적어도 일부의 기술문헌을 2 이상의 기술그룹으로 분류하는 분류단계;
상기 2 이상의 기술그룹 각각에 속한 기술문헌들의 통계정보를 기초로 상기 2 이상의 기술그룹 각각의 기술 추이와 관련된 시계열데이터를 생성하는 생성단계; 및
상기 2 이상의 기술그룹 각각의 시계열데이터와, 모수시계열데이터 간의 비교를 통해 상기 모수시계열데이터에 기초한 기술 추이로부터 기술 추이의 변동이 탐지되는 특정 기술그룹을 부상기술과 관련된 것으로 판별하는 판별단계를 포함하며,
상기 수집단계는,
상기 기술문헌매체가 상기 다수의 기술문헌이 기고된 저널의 웹 사이트이며, 상기 다수의 기술문헌 각각의 통계정보는, 상기 저널에서 부여되는 상기 다수의 기술문헌 각각의 식별정보를 포함한 기 정의된 패턴을 따르는 접속주소의 개별페이지를 통해 제공되는 경우, 상기 다수의 기술문헌 각각의 식별정보와 상기 기 정의된 패턴을 기초로 상기 개별페이지에 접속하기 위한 가상접속주소를 생성하여, 상기 가상의 접속주소로의 HTTP request를 통해 상기 다수의 기술문헌 각각에 대한 통계정보를 수집하는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
A collecting step of collecting statistical information on a plurality of technical literatures from a technical literary medium;
A classification step of classifying at least a part of the technical literatures related to the technical field of interest into two or more technical groups among a plurality of technical literatures in which statistical information is collected;
A generation step of generating time series data related to a technology transition of each of the at least two technology groups based on statistical information of technical literatures belonging to each of the at least two technology groups; And
And a discrimination step of discriminating a specific technology group in which a variation of a technology transition is detected from a technology transition based on the parametric time series data through comparison between the time series data of each of the two or more technology groups and the parametric time series data, ,
Wherein the collecting step comprises:
Wherein the technical literary medium is a web site of a journal in which a plurality of technical literatures are written, and statistical information of each of the technical literatures is a predefined pattern including identification information of each of the plurality of technical literatures given in the journal Generates a virtual access address for accessing the individual pages based on the identification information of each of the plurality of technical literatures and the predefined pattern, Wherein the statistical information for each of the plurality of technical literatures is collected through an HTTP request to the plurality of technical literatures.
제 8 항에 있어서,
상기 적어도 일부의 기술문헌은,
상기 다수의 기술문헌에 대한 통계정보가 수집되는 상기 기술문헌매체로부터, 상기 관심기술분야의 기술주제코드가 할당된 기술문헌을 포함하는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
9. The method of claim 8,
At least some of the technical literatures,
A technical document to which the technical subject code of the technical field of interest is assigned, from the technical literary medium on which statistical information on the plurality of technical literatures is collected.
제 9 항에 있어서,
상기 2 이상의 기술그룹은,
상기 관심기술분야의 기술주제코드를 포함하도록 할당된 기술주제코드조합을 기초로 분류되며,
상기 2 이상의 기술그룹 각각에는,
서로 동일한 기술주제코드조합이 할당된 기술문헌들이 포함되는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
10. The method of claim 9,
The two or more technical groups may include:
A technical subject code combination assigned to include a technical subject code of the technical field of interest,
In each of the two or more description groups,
And the technical literatures assigned with the same technical subject code combination are included.
제 9 항에 있어서,
상기 2 이상의 기술그룹은,
상기 적어도 일부의 기술문헌으로부터 도출되는 각각의 키워드 별로 분류되며,
상기 2 이상의 기술그룹 각각에는,
키워드 별 동시출현빈도를 기초로 판단되는 서로 간의 유사도가 임계치 이상인 기술문헌들이 포함되는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
10. The method of claim 9,
The two or more technical groups may include:
Are classified into respective keywords derived from at least a part of the technical literatures,
In each of the two or more description groups,
Wherein the similarity degree of each of the technical literatures is greater than or equal to a threshold value based on the frequency of simultaneous occurrence of each keyword.
제 8 항에 있어서,
상기 모수시계열데이터는,
상기 다수의 기술문헌의 전체 통계정보를 기초로 상기 다수의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터, 및 상기 적어도 하나의 기술문헌의 통계정보만을 기초로 상기 적어도 하나의 기술문헌의 기술 추이와 관련하여 생성되는 시계열데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
9. The method of claim 8,
The parametric time series data includes:
Based on the total statistical information of the plurality of technical literatures, the time series data generated in relation to the technical trends of the technical literatures, and the technical trend of the at least one technical literatures based on the statistical information of the at least one technical literatures And time-series data generated in association with the time-series data.
제 8 항에 있어서,
상기 부상기술과의 관련 여부의 판별은,
상기 모수시계열데이터에 기초한 기술 추이로부터 변동이 확인되는 지점인 변곡점의 발생 시점, 및 상기 변곡점에서의 기술 추이의 증감 상태 중 적어도 하나를 기초로 처리되는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
9. The method of claim 8,
The determination as to whether or not the above-
Wherein the processing is performed based on at least one of an occurrence time point of an inflection point at which a variation is confirmed from a technology transition based on the parameter time series data and an increase / decrease state of the technology transition at the inflection point.
제 13 항에 있어서,
상기 판별단계는,
상기 변곡점의 발생 시점이 상기 부상기술과의 관련 여부의 판별이 이루어지는 판별 시점과 임계치 이내로 근접하며, 상기 변곡점에서의 기술 추이가 임계치 이상의 증가 상태를 보이는 경우, 상기 특정 기술그룹에 속한 기술문헌들이 상기 부상기술과 관련된 것으로 판별하는 것을 특징으로 하는 부상기술판별장치의 동작 방법.
14. The method of claim 13,
Wherein,
When the occurrence time of the inflection point is within a threshold value from a discrimination time point at which it is judged whether or not the inflection point is related to the floating technique and the technology transition at the inflection point shows an increasing state exceeding a threshold value, And determining that the injured technology is related to the injured skill.
KR1020160073219A 2016-06-13 2016-06-13 Discriminating apparatus for emerging researching topic, and control method thereof KR101721529B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160073219A KR101721529B1 (en) 2016-06-13 2016-06-13 Discriminating apparatus for emerging researching topic, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160073219A KR101721529B1 (en) 2016-06-13 2016-06-13 Discriminating apparatus for emerging researching topic, and control method thereof

Publications (1)

Publication Number Publication Date
KR101721529B1 true KR101721529B1 (en) 2017-03-30

Family

ID=58503333

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160073219A KR101721529B1 (en) 2016-06-13 2016-06-13 Discriminating apparatus for emerging researching topic, and control method thereof

Country Status (1)

Country Link
KR (1) KR101721529B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073619A (en) * 2011-09-26 2013-04-22 Korea Institute Of Science & Technology Infomation Method, device and system for providing technology transition using technology life cycle graph and technology transition information database construction device
KR101273369B1 (en) * 2011-12-19 2013-06-20 한국과학기술정보연구원 Method and system for decision of boosting technology using of literature analysis
KR20130082781A (en) * 2011-12-19 2013-07-22 한국과학기술정보연구원 Method and system for decision of boosting technology
WO2016040304A1 (en) * 2014-09-10 2016-03-17 Bae Systems Information And Electronic Systems Integration Inc. A method for detection and characterization of technical emergence and associated methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073619A (en) * 2011-09-26 2013-04-22 Korea Institute Of Science & Technology Infomation Method, device and system for providing technology transition using technology life cycle graph and technology transition information database construction device
KR101273369B1 (en) * 2011-12-19 2013-06-20 한국과학기술정보연구원 Method and system for decision of boosting technology using of literature analysis
KR20130082781A (en) * 2011-12-19 2013-07-22 한국과학기술정보연구원 Method and system for decision of boosting technology
WO2016040304A1 (en) * 2014-09-10 2016-03-17 Bae Systems Information And Electronic Systems Integration Inc. A method for detection and characterization of technical emergence and associated methods

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
KR102092691B1 (en) Web page training methods and devices, and search intention identification methods and devices
CN109145215B (en) Network public opinion analysis method, device and storage medium
Stein et al. Intrinsic plagiarism analysis
US8180773B2 (en) Detecting duplicate documents using classification
US7809670B2 (en) Classification of malware using clustering that orders events in accordance with the time of occurance
CN107291723B (en) Method and device for classifying webpage texts and method and device for identifying webpage texts
KR101387147B1 (en) Identifying images using face recognition
US8503769B2 (en) Matching text to images
Rad et al. Identifying controversial articles in Wikipedia: A comparative study
JP5012078B2 (en) Category creation method, category creation device, and program
Wang et al. A Neural Model for Joint Event Detection and Summarization.
CN105808722B (en) Information discrimination method and system
KR101638535B1 (en) Method of detecting issue patten associated with user search word, server performing the same and storage medium storing the same
JP2008210024A (en) Apparatus for analyzing set of documents, method for analyzing set of documents, program implementing this method, and recording medium storing this program
Conrad et al. Semi-supervised events clustering in news retrieval.
Ruocco et al. A scalable algorithm for extraction and clustering of event-related pictures
Hernández et al. Video analysis system using deep learning algorithms
CN114117038A (en) Document classification method, device and system and electronic equipment
KR101908665B1 (en) Artificial intelligence system for detecting life cycle of osp site using machine learning
JP4703487B2 (en) Image classification method, apparatus and program
KR101721529B1 (en) Discriminating apparatus for emerging researching topic, and control method thereof
Velloso et al. Web page structured content detection using supervised machine learning
Subhashini et al. Confidential data identification using data mining techniques in data leakage prevention system
US11270000B1 (en) Generation of file digests for detecting malicious executable files

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant