KR101985961B1 - Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same - Google Patents

Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same Download PDF

Info

Publication number
KR101985961B1
KR101985961B1 KR1020180033761A KR20180033761A KR101985961B1 KR 101985961 B1 KR101985961 B1 KR 101985961B1 KR 1020180033761 A KR1020180033761 A KR 1020180033761A KR 20180033761 A KR20180033761 A KR 20180033761A KR 101985961 B1 KR101985961 B1 KR 101985961B1
Authority
KR
South Korea
Prior art keywords
national
similarity
development
task
national research
Prior art date
Application number
KR1020180033761A
Other languages
Korean (ko)
Inventor
이보람
정재학
윤상원
김경준
심재현
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020180033761A priority Critical patent/KR101985961B1/en
Application granted granted Critical
Publication of KR101985961B1 publication Critical patent/KR101985961B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The present invention relates to a similarity quantification system for national research/development programs and a national research/development program cooperation suggestion method using the same. More specifically, according to the present invention, the similarity quantification system for national research/development programs comprises: a data construction module collecting a plurality of pieces of national research/development program information including a string about attribute information; a similarity calculation module calculating similarity between the collected national research/development programs; and a clustering module clustering the national research/development programs in accordance with their similarity. Accordingly, the similarity is calculated and quantized based on the string including the attribute information of numerous progressed or progressing national research/development programs, thereby providing an advantage of promoting cooperation between the national research/development programs.

Description

국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법{Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same}[0001] The present invention relates to a similarity quantification system and a national research & development collaborative proposal method using the same,

본 발명은 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법에 관한 것으로 보다 상세하게는 국가연구개발과제 간, 특히 재난안전 국가연구개발과제 간 연구내용, 키워드, 요약 등과 같은 속성정보에 포함된 문자열을 비교하여 유사도를 정량화하고 군집 분석을 통해 향후 협업이 가능할 것이라고 예상되어지는 과제군으로 시각화하는 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법에 관한 것이다.The present invention relates to a national research and development task similarity quantification system and a national research and development task collaboration method using the system. More particularly, the present invention relates to a national research and development task, The present invention relates to a system for quantifying a similarity of a national R & D task and a method for collaborating with a national R & D task using the same, which quantifies the similarity by comparing the strings included in the information, visualizes the similarity as a task group expected to be possible for future collaborations through cluster analysis.

다양한 분야에서 복수의 국가연구개발 사업 및 과제가 활발히 수행되고 있으며, 이에 대한 정보를 하나의 데이터 베이스에 구축하여 해당 정보를 공유하고 공동 활용하여 국가연구개발 투자 효율성을 높이고 연구 생산성 향상을 위한 노력이 꾸준히 이루어지고 있다.A number of national R & D projects and tasks are being actively carried out in various fields. The information on these is being constructed in a single database, sharing and sharing the relevant information to enhance the efficiency of R & D investment and improve research productivity. It is being done steadily.

특히, 근래에 들어 재난안전 국가연구개발 과제의 투자 규모 확대로 인하여 효율적인 연구개발 수행이 국내외 전반적으로 요구되어지고 있다. 미국과 일본 등에서는 일찍부터 재난안전 관리의 복잡성을 인지하고 부처 간 협업을 강조한 계획들을 수립, 추진 중에 있으며 우리나라 또한 과학기술 정보통신부에서 재난안전 연구개발 추진과 관련된 3가지 협럽모델의 정책시조를 형성하였다. 이로 인하여 재난안전 분야가 갖는 특징으로 인하여 부처 간 연구개발 협업의 가능성을 탐지할 수 있는 평가 도구가 마련해야 하는 필요성이 대두되고 있다.Especially, in recent years, due to the expansion of investment in disaster safety national R & D tasks, efficient R & D performance has been demanded both at home and abroad. In the United States and Japan, early on, they are aware of the complexity of disaster safety management and are establishing and promoting plans that emphasize collaboration among ministries. Respectively. Therefore, there is a need to provide an evaluation tool that can detect the possibility of collaboration between departments due to the characteristics of the disaster safety field.

그러나, 현재까지 진행된 대부분의 기술들은 과제 간 유사, 중복성 탐지 및 정확도 향상에 주안점을 두고 있어 협업 과제 발굴에 근본적이 답을 제시하기에는 한계가 따른다.However, most of the technologies that have been carried out so far focus on improving similarity, redundancy detection, and accuracy between tasks, and it is difficult to provide a fundamental answer to finding collaborative tasks.

이를 해결하기 위하여 한국 등록특허공보 제1,426,765호에는 NTIS에서 제공하는 양질의 국가R&D정보에 대한 분석 대상 데이터의 테이블값으로부터 키워드를 추출하고 추출된 키워드에 대해 설정된 관계식을 토대로 인물이 갖는 전문성 정보 도출하며 도출된 인물이 가지는 전문성 정보에 대해 속성정보 및 링크 정보를 토대로 인물과 인물 간의 협업 관계를 지식맵으로 도출함에 따라, 키워드로 입력된 특정 주제에 대한 인물의 전문성 정보를 판단하고 네트워크 관계를 분석하여 지식맵 형태로 제공하는 협업 파트너 검색 서비스를 제공하는 시스템 및 방법이 공지되어 있으나 이 역시 키워드를 추출하여 분석하는 데 그쳐 다양한 분야에 연계되어 있어 복잡성이 비교적 큰 재난안전 국가연구개발과제에 적용하는 데에는 상기한 바와 같은 한계가 따르므로 비교적 복잡성을 갖는 재난안전 분야와 같은 국가연구개발과제의 협업 과제 발굴에 활용하기 어려운 문제점이 있다.To solve this problem, in Korean Patent Registration No. 1,426,765, a keyword is extracted from a table value of data to be analyzed for high-quality national R & D information provided by NTIS, and the expertise information of the person is derived based on the relational expression set for the extracted keyword Based on the attribute information and the link information for the expertise information of the derived person, the collaboration relation between the person and the person is derived as the knowledge map, and the expertise information of the person on the specific topic inputted by the keyword is determined, A system and method for providing a collaborative partner search service provided in the form of a knowledge map are known. However, this method is also applied to a disaster safety national research and development task having a relatively large complexity, Because of the limitations described above There is a problem that it is difficult to utilize it for finding collaborative tasks of national research and development tasks such as disaster safety field having relatively complexity.

한국 등록특허공보 제1,426,765호Korean Patent Registration No. 1,426,765

본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로 키워드에 그치지 않고 국가연구개발과제의 속성정보를 담는 문자열을 통하여 과제의 유사도를 정량화하며, 정량화된 유사도에 따라 복수의 과제들을 군집화하고 이를 분석하여 효율적인 협업을 제안하는 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법을 제공하는 것을 목적으로 한다.In order to solve the above-mentioned problems, the present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to quantify the similarity of a task through not only a keyword but also a character string including attribute information of a national research and development project, cluster a plurality of tasks according to the quantified degree of similarity, The present invention aims to provide a system for quantifying similarity of national R & D tasks proposing efficient collaboration and a method of proposing collaboration between national R & D tasks using the same.

특히, 우리나라 재난안전 연구개발의 정책기조에 부응하기 위한 것으로, 연구개발 과제 간 유사도를 정량화하여 향후 협업과제군의 검토를 지원할 수 있는 방법을 제공하기 위한 것이다. In particular, it is intended to meet the policy trend of disaster safety research and development in Korea and to provide a method to quantify the degree of similarity between R & D tasks and to support collaboration and review of future generations.

본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예들을 통하여 보다 명확해 질 것이다.Other objects of the present invention will become more apparent through the preferred embodiments described below.

본 발명의 일측면에 따르면, 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하는 데이터 구축 모듈과 상기 취합된 국가연구개발과제 간의 유사도를 계산하는 유사도 계산 모듈 및 상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈;을 포함하는 국가연구개발과제 유사도 정량화 시스템이다. 이때, 상기 국가연구개발과제는 재난안전 연구개발 과제인 것을 특징으로 하며, 상기 데이터 구축 모듈은 국가연구개발과제의 속성정보를 카테고리 별로 분류하여 해당 국가연구개발과제의 정보 테이블을 구성하고, 상기 군집화 수행 모듈에 의하여 군집화된 국가연구개발과제 군집을 각 군집별로 분석하는 군집 속성 분석 모듈을 더 포함할 수 있다.According to an aspect of the present invention, there is provided an information processing system including a data building module for collecting a plurality of national research and development task information including a string of attribute information, a similarity calculating module for calculating a degree of similarity between the collected national research and development tasks, It is a national research and development task similarity quantification system which includes a clustering performance module that clusters national R & D tasks. In this case, the national research and development task is a disaster safety research and development task, and the data building module classifies the attribute information of the national research and development task according to the category to constitute an information table of the corresponding national research and development task, And a cluster attribute analysis module for analyzing the national research and development task cluster clustered by the execution module by each cluster.

본 발명의 다른 측면에 따르면, 상기 유사도는 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교 대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 산출되며, 보다 상세하게는 상기 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p` 사이에 존재하는 단어의 개수는 각각 m,n이며, δ는 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED 가 유사도일 때, 상기 p와 p` 의 유사도는 DED(p,p`)=1-δ/(m+n)의 식을 이용하여 산출된다.According to another aspect of the present invention, the degree of similarity is determined by inserting, deleting, or deleting a character string of a national R & D project information to be a reference and a string of a national R & And substitution. More specifically, the strings of the national research and development task information are p and p ', respectively, and are present between the p and p' The number of words is m and n, respectively, and δ is the number of times the editing operation was performed. That is, the edit-distance between p and p` strings, and when ED is similarity, the similarity of p and p` is D ED (p, p`) = 1 -δ / (m + n ). ≪ / RTI >

그리고, 상기 유사도 계산 모듈은 유사도 산출이 완료된 국가연구개발과제 수(n)에 따라 n×n의 대칭 행렬을 구성하는 것을 특징으로 하며, 상기 군집 속성 분석 모듈은 군집별 국가연구개발과제의 키워드 일치 여부를 확인하고 분류하는 것을 특징으로 한다.In addition, the similarity calculation module is configured to construct an n × n symmetric matrix according to the number (n) of national research and development tasks for which the degree of similarity calculation has been completed. And the like.

본 발명의 또 다른 측면에 따르면, 국가연구개발과제 협업 제안 방법에 있어서, 상기 국가연구개발과제 협업 제안 방법은 국가연구개발과제 유사도 정량화 시스템에 의하여 수행되며, 상기 국가연구개발과제 유사도 정량화 시스템은 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하는 데이터 구축 모듈, 상기 취합된 국가연구개발과제 간의 유사도를 계산하는 유사도 계산 모듈 및 상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈을 포함하고, 상기 국가연구개발과제 협업 제안 방법은 상기 데이터 구축 모듈에 의하여 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하여 국가연구개발과제 데이터를 구축하는 데이터 구축 단계;와 상기 유사도 계산 모듈에 의하여 각 국가연구개발과제 데이터의 문자열을 대비하여 국가연구개발과제 간의 유사도를 산출하는 유사도 계산 단계; 및 상기 군집화 수행 모듈에 의하여 유사도에 따라 국가연구개발과제를 군집화하고 이를 시각화하는 군집화 단계;를 포함하는 국가연구개발과제 협업 제안 방법이다.According to another aspect of the present invention, in the proposed method of collaborating with national R & D tasks, the proposed method of national R & D task collaboration is performed by a national R & D task similarity quantification system, A data building module for collecting a plurality of national research and development task information including a string of information, a similarity calculation module for calculating the similarity between the collected national research and development tasks, and a clustering for grouping national research and development tasks according to the similarity The method comprising the steps of: collecting a plurality of national research and development project information including a string of attribute information by the data building module to construct national research and development project data; And the similarity calculation module Against a string of nine development project data similarity calculation step of calculating a similarity between the National Research Development Project; And a clustering step of clustering and visualizing national R & D tasks according to the degree of similarity by the clustering performance module.

이때, 상기 국가연구개발과제는 재난안전 연구개발 과제로 한정될 수 있으며, 상기 국가연구개발과제 유사도 정량화 시스템은 군집 속성 분석 모듈을 더 포함하고, 상기 국가연구개발과제 협업 제안 방법은 군집 속성 분석 모듈에 의하여 국가연구개발과제 군집 내에 국가연구개발과제 간 키워드 일치 여부에 따라 분류하는 군집 속성 분석 단계;를 더 포함할 수 있다.In this case, the national research and development project may be limited to the disaster safety research and development project. The national research and development project similarity quantification system further includes a cluster attribute analysis module. The national research and development project collaboration method includes a cluster attribute analysis module And analyzing the cluster attributes according to whether or not the national research and development tasks are coincident with each other in the national research and development task cluster.

본 발명의 또 다른 측면에 따르면, 유사도 계산 모듈은 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교 대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 국가연구개발과제 간 유사도를 산출하는 것을 특징으로 하며 보다 상세하게는 상기 유사도 계산 모듈은 상기 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p` 사이에 존재하는 단어의 개수는 각각 m,n이며, δ는 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED 가 유사도일 때, 상기 p와 p` 의 유사도는 DED(p,p`)=1-δ/(m+n)의 식을 이용하여 산출된다.According to another aspect of the present invention, the similarity calculation module may include an insertion and deletion process to construct a string of a national R & D task information to be a reference and a string of a national R & deletion, and substitution, the degree of similarity between the national R & D tasks is calculated based on the minimum number of times the editing operation is performed. In more detail, Are p and p`, the number of words existing between the p and p` is m and n, respectively, and δ is the number of times the editing operation is performed. That is, the edit-distance between p and p` strings, and when ED is similarity, the similarity of p and p` is D ED (p, p`) = 1 -δ / (m + n ). ≪ / RTI >

본 발명에 따른 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법은 진행 또는 진행 중인 수 많은 국가연구개발과제의 속성정보를 포함하는 문자열을 통하여 유사도를 산출하고 이를 정량화하여 국가연구개발과제 간 협업을 도모할 수 있는 장점이 있다.The similarity degree quantification system according to the present invention and the proposed method for collaborating with the national research and development project using the present invention can calculate the degree of similarity through a character string including attribute information of many national R & There is an advantage that collaboration between development tasks can be planned.

특히, 국가연구개발과제 중 여러 부처가 관여되는 재난안전 국가연구개발과제의 경우, 정확성에 관한 이슈가 발생되는 단순 키워드 검색 등을 통한 유사도 산출의 문제점을 극복하고 보다 정확한 유사도 산출로 인하여 협업 도모 시 상세 분석해야할 과제의 수를 현저히 줄일 수 있으며, 군집 분석을 통하여 보다 원활한 협업 제안을 수행할 수 있는 효과가 있어 우리나라 재난안전 연구개발의 정책기조에 부응할 수 있는 장점이 있다.In particular, in the case of disaster safety national R & D tasks involving various ministries in the national R & D task, overcoming the problems of calculating similarity through simple keyword search, which generates issues on accuracy, It is possible to reduce the number of tasks to be analyzed in detail, and it is possible to carry out the suggestion of cooperation more smoothly through cluster analysis, and it is advantageous to meet the policy trend of the disaster safety research and development in Korea.

또한, 유사도에 따라 과제를 군집화하고 이를 시각화하여 협업 제안 용도외에도 연구개발 현황, 성과 등 다양한 분야에 활용할 수 있는 장점이 있다.In addition, there is an advantage that the task can be grouped according to the degree of similarity and visualized so that it can be utilized in various fields such as research and development status and performance, in addition to the use of collaboration proposal.

도 1은 본 발명의 일 실시예에 따른 국가연구개발과제 유사도 정량화 시스템의 구성도.
도 2는 본 발명의 일 실시예에 따른 국가연구개발과제 유사도 산출을 위한 편집 연산 매트릭스 예시도.
도 3은 본 발명의 일 실시예에 따른 국가연구개발과제 협업 제안 방법의 흐름도.
도 4는 본 발명의 일 실시예에 따른 국가연구개발과제 협업 제안 방법에서 시각화된 군집도.
1 is a block diagram of a system for quantifying the similarity of a national R & D task according to an embodiment of the present invention.
FIG. 2 is an example of an edit operation matrix for calculating the degree of similarity of a national research and development task according to an embodiment of the present invention; FIG.
FIG. 3 is a flow chart of a method for suggesting a national R & D task collaboration according to an embodiment of the present invention.
FIG. 4 is a visualized cluster diagram in a national R & D project collaboration proposal method according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is capable of various modifications and various embodiments, and specific embodiments are illustrated in the drawings and described in detail in the description. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 국가연구개발과제 유사도 정량화 시스템의 구성도로서 이를 참고하여 본 발명에 따른 국가연구개발과제 유사도 정량화 시스템의 상세 구성을 설명하면 하기와 같다.FIG. 1 is a block diagram of a national research and development task similarity quantification system according to an embodiment of the present invention. Referring to FIG. 1, the detailed structure of a national research and development task similarity quantification system according to the present invention will be described below.

본 발명에 따른 국가연구개발과제 유사도 정량화 시스템은 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하는 데이터 구축 모듈(10);과 상기 취합된 국가연구개발과제 간의 유사도를 계산하는 유사도 계산 모듈(20); 및 상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈(30);로 구성되는 국가연구개발과제 유사도 정량화 시스템이다.The national research and development task similarity quantification system according to the present invention includes a data building module (10) for collecting a plurality of national research and development task information including a string of attribute information and a national research development task A similarity calculation module 20; And a clustering module 30 for clustering national R & D tasks according to the degree of similarity.

그리고, 상기 군집화 수행 모듈(30)에서 수행된 국가연구개발과제 군집을 각 군집별로 분석하는 군집 속성 분석 모듈(40);을 더 포함할 수 있다.And a cluster attribute analysis module 40 for analyzing the national research and development task cluster performed by the clusterization execution module 30 for each cluster.

또한, 본 발명에서 지칭하는 국가연구개발과제는 국가연구개발사업에도 적용될 수 있으며 특히, 재난안전 국가연구개발과제 등과 같이 연계된 분야가 많아 복잡성이 현저히 높은 과제 또는 사업에 적용하는 것이 바람직하다.In addition, the national research and development project referred to in the present invention can be applied to national research and development projects. In particular, it is desirable to apply the present invention to a task or a business having a high level of complexity because there are many related fields such as a disaster safety national research and development project.

그리고, 상기 데이터 구축 모듈(10)은 2017년 10월 기준으로 628,350건의 국가연구개발과제 정보 데이터가 구축되어 있는 국가과학기술지식정보서비스(NTIS)와 연계되어 해당 국가연구개발과제 정보를 활용할 수 있도록 구성된다. The data building module 10 is connected to the National Science and Technology Information Information Service (NTIS), which has 628,350 national R & D project information data as of October 2017, so that it can utilize the national R & D project information .

이때, 상기 데이터 구축 모듈(10)에서 구축되는 국가연구개발과제의 속성정보는 국가과학기술지식정보서비스(NTIS)에서 제공되는 과제명, 수행기관, 기대효과, 과제내용, 연구내용요약, 키워드 등 60여개의 해당 속성정보를 모두 포함하거나 적어도 1개 이상을 포함하는 문자열로 구성된다.At this time, the attribute information of the national R & D task constructed in the data building module 10 may be provided by the National Science and Technology Knowledge Information Service (NTIS), such as task name, performing agency, expected effect, task content, It consists of a string containing at least 60 pieces of attribute information or at least one of them.

또한, 상기 데이터 구축 모듈(10)은 국가연구개발과제의 속성정보를 과제명, 수행기관, 기대효과, 과제 내용, 연구내용요약, 키워드 등의 카테고리로 분류하여 해당 국가연구개발과제의 정보 테이블을 구성하도록 할 수 있다.Also, the data building module 10 classifies the attribute information of the national R & D task into categories such as task name, performing agency, expected effect, task content, summary of research content, keyword, .

도 2는 본 발명의 일 실시예에 따른 국가연구개발과제 유사도 산출을 위한 편집 연산 매트릭스 예시도로서 이를 참고하면 상기 유사도 계산 모듈(20)에서 계산되는 국가연구개발사업 간 유사도는 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교 대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 산출되는 것을 특징으로 한다.FIG. 2 is an example of an edit operation matrix for calculating the degree of similarity of a national R & D task according to an embodiment of the present invention. Referring to FIG. 2, the degree of similarity between national R & The minimum number of times that the editing operation consisting of insertion, deletion, and substitution is performed in order to construct the string of the national R & D task information and the string of the national R & Is calculated on the basis of the reference value.

즉, 기준이 되는 하나의 국가연구개발과제 정보를 포함하는 문자열이 'ABCDEF'이고, 비교 대상이 되는 국가연구개발과제 정보를 포함하는 문자열이 'HBCEFG'인 경우 각각의 문자열을 동일하게 구성하기 위하여 하기와 같은 편집 연산이 수행된다.In other words, if the character string including 'ABCDEF' is included in the standard R & D task information and 'HBCEFG' is included in the national R & D task information to be compared, The following editing operation is performed.

'H'를 'A'로 교체(substitution)하는 편집연산이 1회 수행되고, 'C'와 'E' 사이에 'D'를 삽입(insertion)하는 편집연산이 1회 수행되며, 'G'를 삭제(deletion)하는 편집연산이 1회 수행되어 총 3회의 편집연산 완료되면 비교 대상이 되는 국가연구개발과제 정보를 포함하는 문자열과 기준이 되는 하나의 국가연구개발과제 정보를 포함하는 문자열이 동일하게 된다. 즉, 상기한 바와 같은 편집거리 알고리즘을 통하여 편집 연산 수행 최소 횟수를 산출하고 이는 각 국가연구개발과제 간 유사도에 해당한다.An editing operation for substituting 'H' for 'A' is performed once, an editing operation for 'D' is inserted between 'C' and 'E' Deletion is performed once and a total of three editing operations are completed, a string including the national R & D task information to be compared and a string including one national R & D task information as the reference are the same . That is, the minimum number of editing operations is calculated through the editing distance algorithm as described above, and this corresponds to the degree of similarity between the national R & D tasks.

이때, 유사도를 산출하기 위한 각 국가연구개발과제의 문자열은 상기 데이터 구축 모듈(10)에서 분류된 과제 속성정보 중 동일한 분류 카테고리에 포함된 문자열끼리 대비하는 것이 바람직하다.At this time, it is preferable that the string of each national R & D task for calculating the similarity is compared with the strings included in the same classification category among the task attribute information classified by the data building module 10.

그리고, 상기한 바와 같이 유사도가 산출된 국가연구개발과제는 상기 유사도 계산 모듈(20)에 의하여 하기의 표 1과 같이 국가연구개발과제 수(n)에 따라 n×n의 대칭 행렬을 구성한다. 이를 통하여 국가연구개발과제 간 유사도 정량화 비교는 물론 군집화 수행 모듈(30)에서 보다 용이하게 국가연구개발과제를 군집화할 수 있다.The national R & D task in which the degree of similarity is calculated as described above constitutes an n × n symmetric matrix by the similarity calculation module 20 according to the number of national R & D tasks (n) as shown in Table 1 below. Through this, it is possible to cluster the national R & D tasks more easily in the clustering performance module 30 as well as to compare the similarity quantification between the national R & D tasks.

이때, 하기 표 1에서 'P'는 국가연구개발과제의 명칭이나 식별번호 등과 같이 과제 간 구별을 위한 숫자나 문자이며, 'N/A'는 유사도 산출 생략을 의미하며 '-'는 상기 유사도 계산 모듈(20)에서 산출된 유사도 값이다.In the following Table 1, 'P' is a numeral or a letter for distinguishing tasks from each other such as the name or identification number of a national R & D project, 'N / A' means omission of calculation of similarity, '- Is the similarity value calculated by the module (20).

P(1)P (1) P(2)P (2) P(3)P (3) P(4)P (4) ㆍㆍㆍㆍ ㆍ ㆍ ㆍ P(n)P (n) P(1)P (1) N/AN / A
N/A

N / A


N/A


N / A



N/A



N / A




N/A




N / A





N/A





N / A
P(2)P (2) -- P(3)P (3) -- P(4)P (4) --



















P(n)P (n) -- ㆍㆍㆍㆍ ㆍ ㆍ ㆍ

또한, 상기 유사도 계산 모듈(20)에 의한 유사도 산출을 위한 일 실시 예로 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p`사이에 존재하는 단어의 개수는 각각 m,n이며, δ는 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED 가 유사도일 때, 상기 p와 p`의 유사도는 DED(p,p`)=1-δ/(m+n)의 식을 이용하여 산출되는 것을 특징으로 한다.As an example of the calculation of the degree of similarity by the similarity calculation module 20, the strings of the national R & D task information are p and p ', respectively, and the numbers of words existing between the p and p' are m and n And δ is the number of times the editing operation has been performed. That is, the edit-distance between p and p` strings, and when ED is similarity, the similarity of p and p` is D ED (p, p`) = 1 -δ / (m + n ) ≪ / RTI >

예를 들어, 기준이 되는 하나의 국가연구개발과제 정보를 포함하는 문자열이 p이고 비교 대상이 되는 국가연구개발과제 정보를 포함하는 문자열이 기준이 되는 하나의 국가연구개발과제 정보를 포함하는 문자열과 동일하게 p인 경우 상기 식에 대입하면 δ가 0이므로 각 국가연구개발과제 간의 유사도 DED(p,p)는 1이 된다.For example, a string containing a standard national R & D project information and a string containing information on a national R & D project that is based on a string including the national R & In the case of p, if δ is 0, the similarity D ED (p, p) between the national R & D tasks becomes 1.

반면, 기준이 되는 하나의 국가연구개발과제 정보를 포함하는 문자열 p와 비교 대상이 되는 국가연구개발과제 정보를 포함하는 문자열 p` 각각의 단어 수 m, n이 일정하고 편집거리 δ가 커질수록 각 국가연구개발과제 간의 유사도 DED(p,p)는 0에 가까워 진다.On the other hand, the string p including the national R & D task information and the string p including the national R & D task information to be compared are compared with each other. As the number of words m and n of each word is constant and the editing distance δ becomes larger, The similarity D ED (p, p) between national R & D tasks is close to zero.

즉, 유사도 DED(p,p)가 1에 가까울 수록 유사성이 높아지며, 0에 가까울 수록 유사성이 낮아진다.That is, the similarity increases as the similarity degree D ED (p, p) approaches 1, and the similarity decreases as the degree of similarity D ED (p, p) approaches 0.

그리고, 상기 군집화 수행 모듈(30)은 유사도에 따라 각 국가연구개발과제를 군집화하고 이를 노드와 링크로 시각화하는 것을 특징으로 한다. The clustering performing module 30 groups clusters of national R & D tasks according to the degree of similarity, and visualizes them by nodes and links.

이때, 상기의 군집화 수행 모듈(30)은 데이터 탐색 및 처리를 가능하게 하는 오픈소스 프로그램으로 복잡한 네트워크를 효율적으로 시각화하여 데이터의 의미를 분석하는데 사용하는 지파이 등과 같은 공지되어 있는 다양한 군집화 또는 연결망 분석도구를 활용할 수 있다.In this case, the clustering performing module 30 is an open source program that enables data searching and processing. It can efficiently visualize a complex network and analyze various clustering or network analysis tools Can be utilized.

또한, 상기 군집 속성 분석 모듈(40)은 군집별 국가연구개발과제의 주요 키워드 일치 여부를 확인하고 군집내에 주요 키워드가 일치하는 국가연구개발과제 그룹을 추가로 구성할 수도 있다. In addition, the cluster attribute analysis module 40 may confirm the correspondence of the main keywords of the national research and development tasks according to the clusters, and may further constitute a national research and development task group having key keywords in the clusters.

도 3은 본 발명의 일 실시예에 따른 국가연구개발과제 협업 제안 방법의 흐름도로서 이를 참고하여 국가연구개발과제 협업 제안 방법의 상세 구성을 설명하면 하기와 같다.FIG. 3 is a flowchart of a method of suggesting a national R & D task collaboration according to an embodiment of the present invention. Referring to FIG. 3, the detailed structure of a national R & D task collaboration method will be described below.

국가연구개발과제 협업 제안 방법에 있어서, 상기 국가연구개발과제 협업 제안 방법은 국가연구개발과제 유사도 정량화 시스템에 의하여 수행되며, 상기 국가연구개발과제 유사도 정량화 시스템은 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하는 데이터 구축 모듈(10), 상기 취합된 국가연구개발과제 간의 유사도를 계산하는 유사도 계산 모듈(20) 및 상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈(30)을 포함하고, 상기 국가연구개발과제 협업 제안 방법은 상기 데이터 구축 모듈(10)에 의하여 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하여 국가연구개발과제 데이터를 구축하는 데이터 구축 단계(S10); 상기 유사도 계산 모듈(20)에 의하여 각 국가연구개발과제 데이터의 문자열을 대비하여 국가연구개발과제 간의 유사도를 산출하는 유사도 계산 단계(S20); 및 상기 군집화 수행 모듈(30)에 의하여 유사도에 따라 국가연구개발과제를 군집화하고 이를 시각화하는 군집화 단계(S30);를 포함하는 국가연구개발과제 협업 제안 방법이다.In the national R & D task collaboration proposal method, the national R & D task collaboration suggestion method is performed by a national research and development task similarity quantification system, and the national research and development task similarity quantification system includes a plurality of A similarity calculation module 20 for calculating the similarity between the collected national research and development tasks, and a clustering execution module 30 for clustering national research and development tasks according to the similarity The national research and development project collaborative proposal method includes collecting a plurality of national research and development project information including a character string of attribution information by the data building module 10 to construct national research and development project data Building step S10; A similarity calculation step (S20) of calculating the similarity between the national R & D tasks by comparing the string of the national R & D task data by the similarity degree calculation module (20); And a clustering step (S30) of clustering and visualizing national R & D tasks according to the degree of similarity by the clustering performing module 30 (S30).

특히, 상기 국가연구개발과제는 하나의 부처와 관계되어 발생하지 않고 여러 부처에 관계되어 발생하여 비교적 복잡성이 높은 문제를 구조화하고 국민 안전과 직결되는 재난안전 연구개발 과제인 것을 특징으로 한다.In particular, the national research and development project is characterized by disaster safety research and development that is directly related to national security, structuring relatively complex problems that arise in relation to various departments, not related to one department.

그리고 상기 국가연구개발과제 유사도 정량화 시스템은 군집 속성 분석 모듈(40)을 더 포함하고, 상기 국가연구개발과제 협업 제안 방법은 군집 속성 분석 모듈(40)에 의하여 국가연구개발과제 군집 내에 국가연구개발과제 간 키워드 일치 여부에 따라 분류하는 군집 속성 분석 단계(S40);를 더 포함할 수 있다.The national research and development task similarity quantification system further includes a cluster attribute analysis module 40. The national research and development task collaboration method is implemented by a cluster attribute analysis module 40 in a national R & And a cluster attribute analysis step S40 for classifying the keyword according to the keyword matching.

또한, 상기 유사도 계산 모듈(20)은 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교 대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 한다.In addition, the similarity calculation module 20 inserts, deletes, and deletes character strings of a national R & D project information and a string of national R & Based on the minimum number of times the editing operation, which consists of substitution, has been performed.

보다 구체적으로는 상기 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p` 사이에 존재하는 단어의 개수는 각각 m,n이며, δ는 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED 가 유사도일 때, 상기 p와 p` 의 유사도는 DED(p,p`)=1-δ/(m+n)의 식을 이용하여 산출되며, 상기한 국가연구개발과제 유사도 정량화 시스템과 동일하게 수행되므로 구체적인 설명은 생략하기로 한다.More specifically, the strings of the national research and development task information are respectively p and p`, the number of words existing between the p and p` is m and n, respectively, and δ is the number of times the editing operation is performed. That is, the edit-distance between p and p` strings, and when ED is similarity, the similarity of p and p` is D ED (p, p`) = 1 -δ / (m + n ), And it is performed in the same manner as the above-described similarity degree quantification system of national research and development task, and thus a detailed description thereof will be omitted.

그리고, 상기 군집 속성 분석 단계(S40);는 모든 군집에 대하여 수행되는 것보다는 상기 산출된 유사도 평균값이 0.2 ~ 0.6인 국가연구개발과제 군집에 한하여 수행되는 것이 바람직하다.The cluster attribute analysis step (S40) is preferably performed only on national R & D project communities having the calculated average similarity value of 0.2 to 0.6, rather than being performed on all the clusters.

또한, 유사도 추출의 대상이 되는 문자열과 과제의 특성에 따라 상기 산출된 전체 국가연구개발과제 간 유사도 평균값 보다 높은 유사도 평균값을 갖는 군집에 한하여 군집 속성 분석 단계(S40)가 수행되도록 구성할 수도 있다.In addition, the cluster attribute analysis step S40 may be performed only for a cluster having a similarity average value that is higher than the average similarity value between the calculated national R & D tasks according to the character string to be subjected to the similarity extraction and the characteristics of the task.

상기한 바와 같이 구성되는 국가연구개발과제 협업 제안 방법의 실제 적용 사례를 설명하면 하기와 같다.The practical application example of the national research and development project collaboration method constituted as described above will be described as follows.

국가과학기술지식정보서비스(NTIS)의 과제 검색 시스템과 연계되는 데이터 구축 모듈(10)에 의하여 2013년부터 2017년까지 수행된 재난안전분야의 국가연구개발과제 91를 추출하는 데이터 구축 단계(S10)를 수행하였다.(S10) for extracting National R & D tasks 91 in the disaster safety field conducted from 2013 to 2017 by a data building module 10 connected with the task search system of National Science and Technology Knowledge Information Service (NTIS) Respectively.

이후, 상기에서 추출된 각 재난안전분야의 국가연구개발과제의 속성정보를 포함한 문자열 중 연구내용요약에 해당하는 문자열을 상기 유사도 계산 모듈(20)에 적용하여 국가연구개발과제 간의 유사도를 산출하는 유사도 계산 단계(S20)를 수행하였다. 이때, 국가연구개발과제 간의 유사도는 상기 표 1과 같이 추출된 재난안전분야의 국가연구개발과제의 개수에 따라 91×91 대칭행렬로 정리되는 것이 바람직하다.Thereafter, the similarity calculation module 20 applies the character string corresponding to the summary of the research content among the strings including the attribute information of the national research and development project of each disaster safety field extracted in the above, A calculation step S20 was performed. At this time, it is desirable that the similarity of the national R & D tasks is arranged in a 91 × 91 symmetric matrix according to the number of national R & D tasks in the disaster safety field extracted as shown in Table 1 above.

상기에서 추출된 국가연구개발과제 간의 유사도 검토 결과 동일과제인 경우 유사도가 1이 산출되었으며, 1에 근사하게 도출된 7개의 과제들을 분석한 결과 이들은 연차과제 비교에 따른 연구내용의 유사성으로 인하여 해당 결과가 도출되었음을 확인할 수 있었다.As a result of examining the similarity between the national R & D tasks extracted from the above, the similarity was calculated to be 1 for the same task, and the 7 tasks approximated to 1 were analyzed. As a result, Was derived.

이후, 군집화 수행 모듈(30)에 의하여 수행되는 군집화 단계(S30)를 통하여 유사도 값에 따라 군집화를 수행하고 이를 히스토그램, 매트릭스, 그래프 등등 다양한 도구를 이용하여 시각화하여 활용할 수 있도록 한다.Then, the clustering is performed according to the similarity value through the clustering step S30 performed by the clustering performing module 30, and the clustering is performed using various tools such as a histogram, a matrix, and a graph.

도 4는 본 발명의 일 실시예에 따른 국가연구개발과제 협업 제안 방법에서 시각화된 군집도로서 이를 참고하면 본 사례에서 91개의 국가연구개발과제는 총 21개의 군집으로 분류되었다. 보다 상세하게는 도 4에 도시되어 있는 P01 내지 P91은 각 과제를 구분하기 위하여 부여된 일련번호이며, 타원 형상의 군집(Cluster)에 과제가 속해있음을 의미한다. 이를 통하여 해당 군집에 어떠한 국가연구개발과제가 포함되었는지 알 수 있다. FIG. 4 is a visualized cluster chart in the proposed method of collaborative research project according to an embodiment of the present invention. In this example, 91 national R & D tasks were classified into a total of 21 clusters. More specifically, P01 to P91 shown in FIG. 4 are serial numbers assigned to distinguish each task, which means that the task belongs to an elliptic cluster. Through this, it is possible to know which national R & D project is included in the community.

그리고, 유사도 값이 1, 0.98인 연차과제, 동일과제를 제외한 결과 최종 4088개의 표본이 확보되었으며, 대상 표본의 평균값은 0.18이고, 중앙값과 최빈값을 나타내는 구산은 0.19로 확인되었으며, 하기 표 2와 같이 분류되어 시각화될 수 있다.The average value of the sample was 0.18, the median value and the mode value were 0.19, and the median value and the mode value were 0.19. As shown in Table 2, Can be classified and visualized.

Cluster No.Cluster No. AveAve Cluster No.Cluster No. AveAve Cluster No.Cluster No. AveAve 1111 1.001.00 1919 0.290.29 1212 0.240.24 44 0.990.99 1515 0.280.28 99 0.230.23 66 0.980.98 33 0.270.27 1818 0.230.23 1717 0.530.53 22 0.270.27 1010 0.230.23 88 0.530.53 1616 0.270.27 1313 0.220.22 77 0.300.30 1414 0.260.26 55 0.190.19 2020 0.300.30 1One 0.250.25 00 0.180.18

상기 표 2에서 'Cluster No.'는 군집을 구별하기 위한 일련번호이며, 'Ave'는 해당 군집의 유사도 평균값이다. 해당 결과로부터 본 유사도 정량화에 따른 임계값이 약 0.2이상일 때, 과제 간 유사성에 대한 설명력을 확보할 수 있는 것으로 분석되었으며, 평균보다 높은 유사도를 가진 과제를 대상으로 협업 가능 과제들을 도출할 수 있었다.In Table 2, 'Cluster No.' is a serial number for distinguishing clusters, and 'Ave' is an average value of similarities of the clusters. When the threshold value according to the similarity quantification from the result is about 0.2 or more, it is analyzed that it is possible to obtain explanatory power about the similarity between the tasks, and it is possible to derive the tasks that can be collaborated with the tasks having the similarity degree higher than the average.

이후, 군집 속성 분석 모듈(40)에 의하여 군집 속성 분석 단계(S40);를 수행하여1번 군집에 포함되어 있는 과제들의 키워드를 분석한 결과 '예경보', '재난상황관리', '인공위성', '지능형 CCTV' 등의 특성을 확인할 수 있었으며, 이에 따라 '자료 구축을 통한 모니터링 시스템 개발'로의 협업을 모색할 수 있었다. 이와 유사한 협업의 가능성은 7번 군집에서도 확인되었다. 해당 군집의 경우 '인공위성', '가뭄', '원격탐사', '재난정보', '공간정보' 등으로 확인되었으며, 이로부터 '위성자료 분석을 통한 피해영향 예측;으로의 협업 가능성을 전망할 수 있었다. 또한, 1번 군집과 7번 군집 간의 협업 가능성 또한 포함하고 있는 것으로 분석되었다.Then, the cluster attribute analysis module 40 analyzes the keywords of the tasks included in the first cluster by performing the cluster attribute analysis step (S40). As a result of analyzing the keywords of the tasks included in the first cluster, 'Yes alarm', 'Disaster situation management' , 'Intelligent CCTV', and so on, and it was possible to seek collaboration with 'development of monitoring system through building data'. The possibility of similar collaboration was confirmed in the 7th cluster. The cluster was identified as 'satellite', 'drought', 'remote exploration', 'disaster information', and 'spatial information'. I could. Also, it is analyzed that it includes the possibility of cooperation between 1 cluster and 7 cluster.

상기한 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.It will be apparent to those skilled in the relevant art that various modifications, additions and substitutions are possible, without departing from the spirit and scope of the invention as defined by the appended claims. The appended claims are to be considered as falling within the scope of the following claims.

10. 데이터 구축 모듈
20. 유사도 계산 모듈
30. 군집화 수행 모듈
40. 군집 속성 분석 모듈
S10. 데이터 구축 단계
S20. 유사도 계산 단계
S30. 군집화 단계
S40. 군집 속성 분석 단계
10. Data building module
20. Similarity calculation module
30. Clustering performance module
40. Cluster Property Analysis Module
S10. Steps to build data
S20. The similarity calculation step
S30. Clustering step
S40. Cluster attribute analysis step

Claims (14)

속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하여, 국가연구개발과제의 속성정보를 카테고리 별로 분류하여 해당 국가연구개발과제의 정보 테이블을 구성하는 데이터 구축 모듈;
상기 취합된 국가연구개발과제 간의 유사도를 계산하고, 유사도 산출이 완료된 국가연구개발과제 수(n)에 따라 n×n의 대칭 행렬을 구성하여 제공하는 유사도 계산 모듈;
상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈; 및
상기 군집화 수행 모듈에 의하여 군집화된 국가연구개발과제의 군집별로 국가연구개발과제의 키워드 일치 여부를 확인하고 분류하는 군집 속성 분석 모듈;을 포함하며,
상기 국가연구개발과제는 재난안전 연구개발 과제이며,
상기 유사도는 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 산출되되,
상기 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p` 사이에 존재하는 단어의 개수는 각각 m, n이며, δ는 상기 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED가 유사도일 때,
상기 p와 p`의 유사도는 DED(p,p`)=1-δ의 식을 이용하여 산출되는 것을 특징으로 하는 국가연구개발과제 유사도 정량화 시스템.
A data building module for collecting a plurality of national research and development project information including a character string for attribute information and classifying the attribute information of the national research and development project by category and constructing an information table of the corresponding national research and development project;
A similarity calculation module for calculating a similarity between the collected national R & D tasks and constructing a symmetric matrix of n × n according to the number (n) of national research and development tasks for which similarity calculation is completed;
A clustering module for clustering national R & D tasks according to the similarity; And
And a cluster attribute analysis module for checking and classifying the keyword matching of the national research and development task by the cluster of the national research and development task grouped by the clustering performance module,
The national research and development task is disaster safety research and development task ,
The degree of similarity consists of insertion, deletion, and substitution in order to construct a string of one National R & D task information and a string of national R & D task information to be compared. Wherein the calculation is performed based on the minimum number of times the editing operation has been performed,
The string of the national research and development task information is p and p`, the number of words existing between the p and p` is m and n, respectively, and δ is the number of times the editing operation is performed. That is, the edit-distance between the p and p` strings, and when the DED is similarity,
The similarity degree between p and p 'is calculated using the equation of DED (p, p`) = 1-δ.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 국가연구개발과제 협업 제안 방법에 있어서,
상기 국가연구개발과제 협업 제안 방법은 국가연구개발과제 유사도 정량화 시스템에 의하여 수행되며,
상기 국가연구개발과제는 재난안전 연구개발 과제이며,
상기 국가연구개발과제 유사도 정량화 시스템은 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하는 데이터 구축 모듈, 상기 취합된 국가연구개발과제 간의 유사도를 계산하는 유사도 계산 모듈, 상기 유사도에 따라 국가연구개발과제를 군집화하는 군집화 수행 모듈 및 상기 군집화 수행 모듈에 의해 군집된 국가연구개발과제의 각 군집별로 국가연구개발과제 간 키워드 일치 여부에 따라 분류하는 군집 속성 분석 모듈을 포함하고,
상기 국가연구개발과제 협업 제안 방법은
상기 데이터 구축 모듈에 의하여 속성정보에 대한 문자열이 포함된 복수 개의 국가연구개발과제 정보를 취합하여 국가연구개발과제 데이터를 구축하는 데이터 구축 단계;
상기 유사도 계산 모듈에 의하여 각 국가연구개발과제 데이터의 문자열을 대비하여 국가연구개발과제 간의 유사도를 산출함에 있어서, 기준이 되는 하나의 국가연구개발과제 정보의 문자열과 비교 대상이 되는 국가연구개발과제 정보의 문자열을 동일하게 구성하기 위하여 삽입(insertion), 삭제(deletion), 교체(substitution)로 구성되는 편집 연산이 수행된 최소 횟수를 기준으로 국가연구개발과제 간 유사도를 산출하되,
상기 국가연구개발과제 정보의 문자열이 각각 p, p`이고, 상기 p, p` 사이에 존재하는 단어의 개수는 각각 m, n이며, δ는 편집 연산이 수행된 횟수. 즉, p와 p`문자열 사이의 편집거리(edit-distance)이고, DED 가 유사도일 때,
상기 p와 p` 의 유사도는 DED(p,p`)=1-δ의 식을 이용하여 산출되는 단계;
상기 군집화 수행 모듈에 의하여 유사도에 따라 국가연구개발과제를 군집화하고 이를 시각화하는 군집화하는 단계; 및
상기 군집 속성 분석 모듈에 의하여 상기 군집화된 국가연구개발과제의 각 군집별 속성을 분석하되, 상기 산출된 전체 국가연구개발과제 간 유사도의 평균값 보다 높은 유사도 평균값을 갖는 군집에 한하여 군집 속성을 분석하는 단계;를 포함하는 국가연구개발과제 협업 제안 방법.
In the National R & D Task Collaboration Proposal Method,
The national research and development task collaboration method is performed by the national research and development task similarity quantification system,
The national research and development task is disaster safety research and development task,
The national research and development task similarity quantification system includes a data building module for collecting a plurality of national research and development task information including a string of attribute information, a similarity calculation module for calculating the similarity between the collected national research and development tasks, And a cluster attribute analysis module for classifying national research and development tasks according to whether or not the national research and development tasks are coincident with each other by each cluster of national research and development tasks clustered by the clusterization execution module,
The National Research & Development Project Collaboration Proposal Method
A data constructing step of constructing national R & D task data by collecting a plurality of national R & D task information including a character string of attribute information by the data building module;
In order to calculate the similarity between national R & D tasks by comparing the string of national R & D task data by the similarity calculation module, the string of the national R & D task information to be a reference and the national R & The similarity between the national R & D tasks is calculated based on the minimum number of times the editing operation, which includes insertion, deletion, and substitution,
The strings of the national research and development task information are respectively p and p`, the number of words existing between the p and p` is m and n, respectively, and δ is the number of times the editing operation is performed. That is, the edit-distance between the p and p` strings, and when the DED is similarity,
The degree of similarity between p and p 'is calculated using the equation of DED (p, p`) = 1-delta;
Clustering the national R & D tasks according to the degree of similarity by the clustering module and visualizing them; And
Analyzing attributes of each cluster of the clustered national R & D tasks by the cluster attribute analysis module, analyzing cluster attributes only for the cluster having a similarity average value that is higher than the average value of the calculated similarities among all the national R & The National R & D Project Collaboration Proposal Method.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020180033761A 2018-03-23 2018-03-23 Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same KR101985961B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180033761A KR101985961B1 (en) 2018-03-23 2018-03-23 Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180033761A KR101985961B1 (en) 2018-03-23 2018-03-23 Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same

Publications (1)

Publication Number Publication Date
KR101985961B1 true KR101985961B1 (en) 2019-06-05

Family

ID=66844739

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180033761A KR101985961B1 (en) 2018-03-23 2018-03-23 Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same

Country Status (1)

Country Link
KR (1) KR101985961B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210150103A (en) * 2020-06-03 2021-12-10 위인터랙트(주) Collaborative partner recommendation system and method based on user information
CN116485164A (en) * 2023-06-25 2023-07-25 深圳市睿拓新科技有限公司 BIM-based electrical construction task distribution management system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070102036A (en) * 2006-04-13 2007-10-18 엘지전자 주식회사 System and method for making analysis of document
KR101359764B1 (en) * 2013-06-21 2014-02-07 인하대학교 산학협력단 Algorithm for finding approximate period of string based on distance sum
KR20140067697A (en) * 2012-11-27 2014-06-05 한국과학기술정보연구원 System and method for supplying collaboration partner search service

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070102036A (en) * 2006-04-13 2007-10-18 엘지전자 주식회사 System and method for making analysis of document
KR20140067697A (en) * 2012-11-27 2014-06-05 한국과학기술정보연구원 System and method for supplying collaboration partner search service
KR101426765B1 (en) 2012-11-27 2014-08-06 한국과학기술정보연구원 System and method for supplying collaboration partner search service
KR101359764B1 (en) * 2013-06-21 2014-02-07 인하대학교 산학협력단 Algorithm for finding approximate period of string based on distance sum

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210150103A (en) * 2020-06-03 2021-12-10 위인터랙트(주) Collaborative partner recommendation system and method based on user information
KR102454261B1 (en) * 2020-06-03 2022-10-14 위인터랙트(주) Collaborative partner recommendation system and method based on user information
CN116485164A (en) * 2023-06-25 2023-07-25 深圳市睿拓新科技有限公司 BIM-based electrical construction task distribution management system and method
CN116485164B (en) * 2023-06-25 2023-12-15 深圳市睿拓新科技有限公司 BIM-based electrical construction task distribution management system and method

Similar Documents

Publication Publication Date Title
CN111428054B (en) Construction and storage method of knowledge graph in network space security field
Lin et al. Evaluation of CART, CHAID, and QUEST algorithms: a case study of construction defects in Taiwan
CN109657947B (en) Enterprise industry classification-oriented anomaly detection method
CN110020433B (en) Industrial and commercial high-management name disambiguation method based on enterprise incidence relation
CN111639237A (en) Electric power communication network risk assessment system based on clustering and association rule mining
Mazaheri et al. Research directions in information systems field, current status and future trends: A literature analysis of AIS basket of top journals
US20160170993A1 (en) System and method for ranking news feeds
CN102402615A (en) Method for tracking source information based on structured query language (SQL) sentences
KR101985961B1 (en) Similarity Quantification System of National Research and Development Program and Searching Cooperative Program using same
CN111382181A (en) Designated enterprise family affiliation analysis method and system based on stock right penetration
CN115794803B (en) Engineering audit problem monitoring method and system based on big data AI technology
CN116881430B (en) Industrial chain identification method and device, electronic equipment and readable storage medium
Gliwa et al. Models of social groups in blogosphere based on information about comment addressees and sentiments
KR101625124B1 (en) The Technology Valuation Model Using Quantitative Patent Analysis
CN103942739A (en) Method for construction of construction project risk knowledge base
CN116226103A (en) Method for detecting government data quality based on FPGrow algorithm
CN115794798A (en) Market supervision informationized standard management and dynamic maintenance system and method
CN116186759A (en) Sensitive data identification and desensitization method for privacy calculation
Azzalini et al. FAIR-DB: Function Al dependencies to discover data bias
CN109947817B (en) Six-dimensional spatial relationship analysis method and system based on associated graph
CN114448657A (en) Power distribution communication network security situation perception and abnormal intrusion detection method
CN111177311B (en) Data analysis model and analysis method of event processing result
CN116260866A (en) Government information pushing method and device based on machine learning and computer equipment
Edris Abadi et al. A clustering approach for data quality results of research information systems
CN115934969A (en) Construction method of immovable cultural relic risk assessment knowledge graph

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant