KR20230122739A - 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법 - Google Patents

지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법 Download PDF

Info

Publication number
KR20230122739A
KR20230122739A KR1020220019312A KR20220019312A KR20230122739A KR 20230122739 A KR20230122739 A KR 20230122739A KR 1020220019312 A KR1020220019312 A KR 1020220019312A KR 20220019312 A KR20220019312 A KR 20220019312A KR 20230122739 A KR20230122739 A KR 20230122739A
Authority
KR
South Korea
Prior art keywords
technology
node
ntbf
information
nodes
Prior art date
Application number
KR1020220019312A
Other languages
English (en)
Inventor
이정혜
김수현
이명훈
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020220019312A priority Critical patent/KR20230122739A/ko
Publication of KR20230122739A publication Critical patent/KR20230122739A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)

Abstract

본 발명은, 기술, NTBF(New Technology Based Firm) 정보, 투자 회사 정보를 연결하는 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가할 수 있다.
본 발명에 따르면, 기술, NTBF(New Technology Based Firm) 정보, 투자 회사 정보를 연계하여 미래의 유망 기술을 보유한 기업을 빠르게 발굴하고, 해당 유망 기술과 기업에 집중 투자하여 기업, 국가 발전에 도움이 될 수 있는 효과가 있다.

Description

지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법{System and Method for Discovering Emerging Technology Using Knowledge Graph and Deep Learning-based Text Mining}
본 발명은 유망 기술 발굴 시스템에 관한 것으로서, 더욱 상세하게는 기술, NTBF(New Technology Based Firm) 정보, 투자 회사 정보를 연결하는 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법에 관한 것이다.
현대 사회는 4차 산업의 패러다임 변화 속에서 새로운 기술들이 개발되고 있다. 기술 혁신은 새로운 기술들을 빠르게 포착하고, 발전할 수 있는 국가만이 미래 사회에서 도태되지 않고 살아 남을 수 있다. 위험도가 있는 새로운 기술(New Technology)를 기반으로 창업을 진행하여 성공한 기업들이 곳곳에서 생겨나고 있다.
4차 산업 혁명은 수많은 기술이 빠르게 떠오르는 반면, 급속하게 사라지는 기술도 그만큼 많아진다. 따라서, 각 나라에서는 미래의 유망 기술을 빠르게 파악하고, 해당 유망 기술에 집중 투자하여 다른 나라보다 우위에 서는 것이 과학 기술의 패권 국가로 앞서가는 길이다.
이러한 과학 기술 흐름을 따라 가지 못하는 나라의 경우, 해당 국가는 다른 나라에 뒤쳐져서 급속하게 도태될 수 밖에 없으며, 경제적, 정치적으로 다른 나라에 종속될 수 밖에 없다.
현재 우리나라는 국가적 측면에서 백신, 2차 전지, 반도체, 디스플레이 등 새롭게 떠오르는 기술이나 기업들을 빠르게 발굴하지 못하고, 새로운 유망 기술에 대하여 맞춤형 연구나 집중 투자로 이어지지 못하고 있으며, 다가오는 미래에 커다란 문제점으로 대두될 가능성이 있다.
본 발명의 배경이 되는 기술은 한국 등록특허번호 제10-2085599호에 개시되어 있다.
이와 같은 문제점을 해결하기 위하여, 본 발명은 기술, NTBF(New Technology Based Firm) 정보, 투자 회사 정보를 연결하는 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명에 따른 유망 기술 발굴 시스템은, 기술 문서 데이터의 각 문서를 벡터화하고 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성하고, 상기 문서별 임베딩을 대상으로 기술에 대한 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성하는 학습 모델부로 이루어진 기술 정보 분류부; 외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, 상기 Doc2vec 모델과 로지스틱 회귀 모델을 통해 상기 NTBF 정보에 대한 카테고리와 서브 카테고리를 할당하는 NTBF(New Technology Based Firm) 정보 분류부; 상기 카테고리인 기술과, 상기 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, 상기 NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 상기 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프를 생성하는 지식 그래프 생성부; 및 상기 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 기술 발굴 판단부를 포함한다.
또한, 상기 NTBF 정보 분류부는, 상기 학습 모델부로부터 Doc2vec 모델과 로지스틱 회귀 모델을 수신하고, 상기 NTBF 정보를 기구성된 상기 Doc2vec 모델과 로지스틱 회귀 모델에 입력하고, 상기 로지스틱 회귀 모델에서 수행하는 카테고리 분류와 서브 카테고리 분류를 통해 상기 NTBF 정보를 상기 카테고리와 상기 서브 카테고리로 할당하여 상기 NTBF 정보의 스타트업 기업이 어떤 기술의 카테고리와 서브 카테고리에 매칭되는지 파악할 수 있다.
또한, 상기 NTBF 정보 분류부는, 상기 카테고리 분류 모델을 이용하여 각 NTBF 정보가 카테고리에 해당할 확률을 카테고리별로 생성하고, 상기 서브 카테고리 분류 모델을 이용하여 각 NTBF 정보가 서브 카테고리에 해당할 확률을 서브 카테고리별로 생성하고, 상기 생성한 카테고리에 해당할 확률 중에서 가장 높은 확률의 제1 카테고리와 2번째 높은 확률의 제2 카테고리를 할당하고, 상기 할당된 제1 카테고리에 매칭되는 제1 서브 카테고리와, 상기 할당된 제2 카테고리와 매칭되는 제2 서브 카테고리를 각각 선택할 수 있다.
또한, 상기 지식 그래프 생성부는, 문서 임베딩 기법(Doc2vec 임베딩)에서 다음의 수학식에 의해 코사인 유사도(Cosine Similarity)를 계산하고, 상기 계산한 코사인 유사도가 기설정된 임계값 이상인 경우, 문서 벡터들이 유사하다고 판단하여 노드 간의 연결을 수행할 수 있다.
여기서, a와 b는 문서 벡터값을 나타냄.
또한, 지식 그래프 생성부는 상기 지식 그래프에서 상기 기술을 나타내는 기술 노드, 상기 NTBF 정보를 나타내는 NTBF 노드, 상기 투자 회사 정보를 나타내는 투자 회사 노드를 복수개로 구성하고, 상기 기술 발굴 판단부는 상기 각 기술 노드에서 다음의 수학식을 이용하여 상기 기술 노드의 중심성인 TI(Technology-based Index)를 계산할 수 있다.
여기서, TI(t)는 t번째 기술 노드의 기술 기반의 인덱스, CC(t)는 기술 노드와 다른 노드 즉, NTBF 노드 및 투자 회사 노드와 얼마나 가까운지를 나타내는 지표이고, BC(t)는 더 중요한 기술 t, 더 자주 나타나는 기술 t가 모든 최단 경로상에 보여지는 지표이고, PR(t)는 각 노드 t가 영향력 있는 다른 노드와 밀접하게 연결되어 있음을 나타내는 지표이고, N은 상기 지식 그래프에서 노드들의 세트, d(t,u)는 t부터 u까지의 최단 경로의 길이, 는 노드 v와 노드 u 사이의 최단 경로의 개수, 는 노드 를 통해 노드 v와 노드 u 사이의 최단 경로의 개수, L(t, u)는 노드 t에서 노드 u까지의 연결 링크의 개수, PR(u)는 에 포함된 각 노드 u에 대한 페이지 랭크값, t는 기술 노드, T는 기술 노드의 세트임(즉, 노드 t에 연결되는 모든 노드를 포함하는 세트).
또한, 기술 발굴 판단부는 상기 각 NTBF 노드에서 다음의 수학식을 이용하여 상기 NTBF 노드의 중심성인 NI(NTBF-based Index)를 계산할 수 있다.
여기서, NI(t)는 t번째 기술 노드의 NTBF 기반의 인덱스, c는 NTBF 노드, C는 NTBF 노드의 세트, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
또한, 기술 발굴 판단부는 상기 각 투자 회사 노드에서 다음의 수학식을 이용하여 투자 회사 노드의 중심성인 II(Investor-based Index)를 계산할 수 있다.
여기서, II(t)는 t번째 기술 노드의 투자 회사 기반의 인덱스, i는 투자 회사 노드, I는 투자 회사 노드의 세트, Eci = 1은 NTBF 노드와 투자 회사 노드가 연결됨을 나타내고, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
또한, 기술 발굴 판단부는 상기 TOI를 상기 TI, 상기 NI, 상기 II를 더한 하기의 수학식을 이용하여 계산할 수 있다.
여기서, TOI(t)는 t번째 기술 노드의 TOD(Technology Opportunity Discovery) 인덱스임.
또한, 상기 기술 발굴 판단부는 상기 각 기술 노드에서 계산된 TOI 중에서 기설정된 상위 순위까지 유망 기술로 선정할 수 있다.
그리고, 본 발명에 따른 유망 기술 발굴 방법은, 기술 정보 분류부는 기술 문서 데이터의 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성하는 단계; 상기 기술 정보 분류부는 상기 문서별 임베딩을 대상으로 기술에 대한 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성하는 단계; NTBF(New Technology Based Firm) 정보 분류부는 외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, 상기 Doc2vec 모델과 상기 로지스틱 회귀 모델을 통해 상기 NTBF 정보에 대한 카테고리와 서브 카테고리를 할당하는 단계; 지식 그래프 생성부는 상기 카테고리인 기술과, 상기 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, 상기 NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 상기 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프를 생성하는 단계; 및 기술 발굴 판단부는 상기 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 단계를 포함한다.
본 발명에 따르면, 기술, NTBF(New Technology Based Firm) 정보, 투자 회사 정보를 연계하여 미래의 유망 기술을 보유한 기업을 빠르게 발굴하고, 해당 유망 기술과 기업에 집중 투자하여 기업, 국가 발전에 도움이 될 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템의 구성을 나타낸 도면이다.
도 2 및 도 3은 본 발명의 실시예에 따른 기술 정보 분류부의 구성을 나타낸 도면이다.
도 4 및 도 5는 본 발명의 실시예에 따른 NTBF 정보 분류부의 구성을 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 카테고리와 서브 카테고리의 할당 과정을 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 지식 그래프 생성부에서 생성된 TOD 지식 그래프의 구성을 나타낸 도면이다.
도 8은 본 발명의 실시예에 따른 TOD 지식 그래프의 일례를 나타낸 도면이다.
도 9는 본 발명의 실시예에 따른 기술 노드와 NTBF 노드의 연결 모습을 나타낸 도면이다.
도 10은 본 발명의 실시예에 따른 NTBF 노드와 투자 회사 노드의 연결 모습을 나타낸 도면이다.
도 11은 본 발명의 실시예에 따른 TOI 계산 과정을 나타낸 도면이다.
도 12는 본 발명의 실시예에 따른 NTBF 정보 분류부에서 카테고리와 서브 카테고리를 할당된 일례를 나타낸 도면이다.
도 13은 본 발명의 실시예에 따른 TOI가 분류한 상위 10위 안에 드는 유망 기술의 일례를 나타낸 도면이다.
도 14는 본 발명의 실시예에 따른 TOI, NI 및 II를 참조하여 유망 기술을 선정하는 일례를 나타낸 도면이다.
도 15는 본 발명의 실시예에 따른 지식 그래프와 딥러닝 기반 텍스트 마이닝 을 이용한 유망 기술 발굴 방법을 나타낸 도면이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 지식 그래프와 딥러닝 기반 텍스트 마이닝 을 이용한 유망 기술 발굴 시스템의 구성을 나타낸 도면이고, 도 2 및 도 3은 본 발명의 실시예에 따른 기술 정보 분류부의 구성을 나타낸 도면이다.
본 발명의 실시예에 따른 지식 그래프와 딥러닝 기반 텍스트 마이닝 을 이용한 유망 기술 발굴 시스템(100)은 기술 정보 분류부(110), NTBF(New Technology Based Firm) 정보 분류부(120), 지식 그래프 생성부(130) 및 기술 발굴 판단부(140)를 포함한다.
기술 정보 분류부(110)는 기술 문서 데이터의 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성하고, 문서별 임베딩을 대상으로 기술에 대한 카테고리와 서브 카테고리로 기술을 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성한다.
NTBF 정보 분류부(120)는 외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, Doc2vec 모델과 로지스틱 회귀 모델을 통해 NTBF 정보에 대한 카테고리와 서브 카테고리를 할당한다.
지식 그래프 생성부(130)는 카테고리인 기술과, 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프(40)를 생성한다. 투자 회사 정보는 수집한 NTBF 정보에 포함되어 있다. NTBF 정보는 스타트업 회사에 어떤 투자 회사가 투자했는지 안했는지 알 수 있다.
기술 발굴 판단부(140)는 지식 그래프(40)를 기반으로 기술 기회(Technology Opportunity)을 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 통해 기술 유망성을 평가할 수 있다.
기술 정보 수집부(111)는 외부 데이터베이스로부터 각 기술의 유망성 평가 보고서를 수신하고, 수신한 각 기술의 유망성 평가 보고서를 토대로 기술 정보를 수집한다.
기술 정보 가공부(112)는 유망성 평가 보고서에 포함된 기술 정보를 카테고리(메인 카테고리)와 서브 카테고리로 할당하여 레이블링한 기술 문서 데이터를 생성한다.
기술 문서 데이터의 예시는 다음의 표 1과 같다.
이러한 기술 문서 데이터는 새로운 기업이 소유한 기술이 어떠한 기술 문서 데이터와 매핑되는지 사용될 수 있다.
예를 들어, 기술 정보 가공부(112)는 24개의 카테고리와 269개의 서브 카테고리를 가진 8,772개의 기술 문서 데이터를 생성하여 저장한다.
텍스트 전처리부(113)는 기술 문서나 NTBF 정보의 텍스트를 수신하여 특수 문자, 여백, 불필요한 단어 등을 제거하는 전처리 기능을 수행한다
기술 정보 가공부(112)에 저장된 기술 문서 데이터는 훈련 데이터(Training data)와 테스트 데이터(Test data)로 나눈다. 훈련 데이터는 머신 러닝 또는 딥 러닝 모델에 제공된다.
데이터 처리부(114)는 기술 정보 가공부(112)로부터 기술 문서 데이터인 훈련 데이터를 수신하여 문서 파싱 처리부(115)로 전송한다. 훈련 데이터는 학습 데이터를 나타낸다.
문서 파싱 처리부(115)는 기술 정보 가공부(112)로부터 수신한 기술 문서 데이터를 파싱하여 텍스트로 추출하고, 문서 단위로 구분 및 리스트화하여 데이터베이스부(미도시)에 저장한다.
학습 모델부(116)는 미리 지정된 기계 학습 기법을 이용하여 문서 파싱 처리부(115)에 의해 파싱된 기술 문서 데이터의 각 문서를 순서 및 의미를 내포하는 벡터 형태로 표현되도록 벡터화하여 데이터베이스부에 저장한다.
학습 모델부(116)는 데이터베이스부에 저장된 기술 문서 데이터의 각 문서를 기계 학습을 통해 미리 지정된 차원(예를 들어 500차원)의 벡터 공간에 표현되도록 한다.
학습 모델부(116)는 각 문서를 벡터화하기 위해 문서에 대한 문서 임베딩을 수행하고, 문서 임베딩을 통해 문서 임베딩(Doc2vec 임베딩) 기법을 적용할 수 있다.
학습 모델부(116)는 기술 문서 데이터의 문서들을 학습하여 유사한 문서들의 가까운 거리를 가지도록 하는 벡터화 모델을 학습하도록 하기 위해서 다수의 문서들 간의 유사 여부에 대한 사용자의 판정 정보가 포함된 학습용 데이터가 미리 저장될 수 있다. 이와 같은 학습용 데이터가 미리 저장되면, 학습 모델부(116)는 복수의 문서 각각에 대한 문서 벡터를 생성하고, 사용자의 판정 정보에 기초하여 복수의 문서에 대한 벡터화 모델을 학습할 수 있다.
또한, 학습 모델부(116)는 문서 파싱 처리부(115)에 의해 파싱된 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성한다.
학습 모델부(116)는 각 문서를 벡터 공간 상의 점으로 옮겼을 때 의미적으로 유사한 문서들이 유사한 지점에 모이게 되는 특징을 이용하여 복수의 그룹들로 그룹핑할 수 있으며, 그룹핑된 문서들에 대해 미리 지정된 기준에 따라 분류 코드를 부여할 수 있다. 여기서, 그룹핑된 각 문서는 문서 파싱 처리부(115)에 의해 파싱된 각 문서에 대응되도록 관리될 수 있다.
학습 모델부(116)는 데이터베이스부에 저장된 기술 문서 데이터의 카테고리와 서브 카테고리를 문서의 문서 벡터를 이용하여 데이터들이 고차원 벡터로 표현되고, 새로 입력된 벡터(즉, 현재 입찰 자료의 특정 문서의 문서 벡터)와 가장 유사한 벡터를 고속으로 찾을 수 있도록 그룹핑하여 저장한다. 이를 위해 예를 들어 ANN(Approximate Nearest Neighbors) 기법을 적용할 수 있다.
이와 같이 카테고리, 서브 카테고리는 문서 벡터의 유사성을 참조하여 그룹핑됨으로써, 후술되는 분류부(117)에서 테스트 데이터가 어떠한 카테고리, 서브 카테고리에 해당하는지 신속하게 기술 정보를 검출할 수 있는 장점이 있다.
학습 모델부(116)는 문서 임베딩 기법을 이용한 기계 학습을 통해 벡터 공간을 설정하고, 문서를 벡터화하며, 그룹화하는 구체적인 방법은 당업자에게 자명한 사항이므로 구체적인 설명을 생략한다.
학습 모델부(116)는 생성된 복수의 문서별 벡터를 이용하여 분류기 모델을 학습할 수 있다. 분류기 모델의 학습에는 기계 학습 알고리즘, 예컨대 로지스틱 회귀(logistic regression) 등의 통계적 기계 학습 알고리즘과 딥러닝 학습 모델 계열에 속하는 심층 신경망(deep neural network), 컨볼루션 신경망(convolutional neural network), 순환형 신경망(recurrent neural network) 중 적어도 하나 이상의 알고리즘이 이용될 수 있다.
학습 모델부(116)는 로지스틱 회귀(logistic regression) 알고리즘을 이용하여 문서 임베딩을 적용한 문서별 벡터에 대한 기계 학습을 수행하고, 학습에 따른 로지스틱 회귀 모델을 구성한다.
다시 말해, 학습 모델부(116)는 문서 임베딩을 적용한 문서별 벡터들을 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성한다. 학습 모델부(116)는 새로운 기술 문서가 입력되면, 로지스틱 회귀 모델을 이용하여 해당 기술 문서에 포함된 기술 정보를 카테고리에 할당하는 모델과, 서브 카테고리에 할당되는 모델을 만든다.
로지스틱 회귀 모델은 기술 분류 모델로 카테고리를 분류하는 모델, 서브 카테고리를 분류하는 모델을 포함할 수 있다.
데이터 처리부(114)는 기술 정보 가공부(112)로부터 테스트 데이터인 기술 문서 데이터를 수신하면, 수신한 기술 문서 데이터를 분류부(117)로 전송한다.
분류부(117)는 학습 모델부(116)로부터 Doc2vec 모델과 로지스틱 회귀 모델을 수신하고, 문서 파싱 처리부(115)에 의해 파싱된 기술 문서 데이터를 수신하면, 기술 문서 데이터를 기 구성된 Doc2vec 모델과 로지스틱 회귀 모델에 입력하여 최종 예측 결과(기술 문서 분류 결과)를 출력한다. 기술 문서 분류 결과는 해당 기술 문서에 포함된 기술 정보가 어떠한 카테고리, 서브 카테고리에 해당하는지 할당할 수 있다.
본 발명의 학습 모델부(116)는 기술 분류 모델로 문서별 임베딩(Doc2vec Embedding) 기법과 LR Classifier 기법을 적용한다(Doc2vec-LR Classifier).
도 2에 도시된 바와 같이, 학습 모델부(116)는 로지스틱 회귀 모델에 의해 카테고리 분류 모델과 서브 카테고리 분류 모델을 만들어 놓고, 새로운 기술 문서가 들어오면, 문서 단락별로 카테고리와 서브 카테고리의 기술 라벨을 생성한다.
도 4 및 도 5는 본 발명의 실시예에 따른 NTBF 정보 분류부의 구성을 나타낸 도면이고, 도 6은 본 발명의 실시예에 따른 카테고리와 서브 카테고리의 할당 과정을 나타낸 도면이다.
본 발명의 실시예에 따른 NTBF(New Technology Based Firm) 정보 분류부(120)는 NTBF 정보 수집부(121), 데이터 처리부(114), 학습 모델부(116) 및 분류부(117)를 포함한다.
NTBF 정보 수집부(121)는 외부 기관(예를 들어, 로켓 펀치 웹사이트 등)으로부터 446개의 NTBF 정보를 수집한다. 여기서, NTBF는 기술 기반의 스타트업 회사 정보를 나타내고, 기존의 사업보다 기술적 위험도가 높은 혁신 기술을 기반으로 하여 설립된 회사 정보를 나타낸다.
NTBF 정보는 회사 기본 정보(회사 이름, 창업년도, 어떤 기술을 보유하고 있는지 IR 텍스트), 투자 정보(창업년차, 어떤 기업으로부터 투자를 받았는지 투자 횟수, 투자 금액, 투자 회사)를 포함한다.
데이터 처리부(114)는 NTBF 정보 수집부(121)로부터 NTBF 문서 데이터를 테스트 데이터(Test Data)로 수신하여 분류부(117)로 전송한다.
분류부(117)는 학습 모델부(116)로부터 Doc2vec 모델과 로지스틱 회귀 모델을 수신하고, NTBF 정보를 기구성된 Doc2vec 모델과 로지스틱 회귀 모델에 입력하고, 로지스틱 회귀 모델에서 수행하는 카테고리 분류와 서브 카테고리 분류를 통해 NTBF 정보를 카테고리와 서브 카테고리로 할당하여, NTBF 정보의 스타트업 기업이 어떤 기술의 카테고리와 서브 카테고리에 매칭되는지 파악할 수 있다.
도 5에 도시된 바와 같이, 예를 들어, 첫 번째 스타트업 회사가 보유한 기술은 AI/Big Data(카테고리)와 Image Data Processing(서브 카테고리)에 할당되고, 두 번째 스타트업 회사가 보유한 기술은 Healthcare/Bio(카테고리)와 Genetic analysis(서브 카테고리)에 할당되고, 세 번째 스타트업 회사가 보유한 기술은 Fintech(카테고리)와 Easy Remittance System(서브 카테고리)에 할당된다.
분류부(117)는 로지스틱 회귀 모델의 카테고리 분류 모델을 이용하여 각 NTBF 정보가 카테고리에 해당할 확률을 카테고리별로 생성하고, 로지스틱 회귀 모델의 서브 카테고리 분류 모델을 이용하여 각 NTBF 정보가 서브 카테고리에 해당할 확률을 서브 카테고리별로 생성한다.
도 6에 도시된 바와 같이, 분류부(117)는 생성한 카테고리에 해당할 확률 중에서 가장 높은 확률의 제1 카테고리와 2번째 높은 확률의 제2 카테고리를 할당하고, 할당된 제1 카테고리에 매칭되는 제1 서브 카테고리와, 할당된 제2 카테고리와 매칭되는 제2 서브 카테고리를 각각 선택한다. 여기서, 제1 서브 카테고리와 제2 서브 카테고리는 가장 높은 확률의 서브 카테고리가 아니라 제1, 2 카테고리에 매칭되는 서브 카테고리일 수 있다.
도 7은 본 발명의 실시예에 따른 지식 그래프 생성부에서 생성된 TOD 지식 그래프의 구성을 나타낸 도면이고, 도 8은 본 발명의 실시예에 따른 TOD 지식 그래프의 일례를 나타낸 도면이고, 도 9는 본 발명의 실시예에 따른 기술 노드와 NTBF 노드의 연결 모습을 나타낸 도면이고, 도 10은 본 발명의 실시예에 따른 NTBF 노드와 투자 회사 노드의 연결 모습을 나타낸 도면이고, 도 11은 본 발명의 실시예에 따른 TOI 계산 과정을 나타낸 도면이다.
지식 그래프 생성부(130)는 기술 정보 가공부(112)에서 생성된 기술(카테고리)과, 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, NTBF 정보와 관련된 투자 회사 정보를 기술 네트워크의 노드로 구성한다. 다시 말해, 노드는 기술(Technology, 카테고리), NTBF 정보(스타트업 회사 정보), 투자 회사 정보(Investors)를 포함한다.
지식 그래프 생성부(130)는 열 방향으로 형성된 복수의 기술, 복수의 NTBF, 복수의 투자 회사 정보를 각각의 노드로 구성하고, 노드 간의 링크를 형성하여 관계성을 나타내는 기술 기회 발굴(Technology Opportunity Discovery, 이하 'TOD'라 칭함) 지식 그래프(Knowledge Graph)(40)를 생성한다. 즉, TOD 지식 그래프(40)는 기술, NTBF, 투자 회사의 연관 분석을 통해 다른 특성들을 연결하여 관계성을 나타낼 수 있다.
도 7에 도시된 바와 같이, TOD 지식 그래프(40)의 구성요소는 기술 노드(10)의 세트를 T로 하고, NTBF 노드(20)의 세트를 C로 하고, 투자 회사 노드(30)의 세트를 I로 한다.
지식 그래프 생성부(130)는 NTBF에 할당된 기술(카테고리)과 일치하는 기술 노드(10)의 기술이 있는지 판단하고, 일치하는 경우, 해당 NTBF 노드(20)와 기술 노드(10)를 TOD 지식 그래프(40)에서 연결한다(도 8).
예를 들어, 기술 노드(10)의 Fintech와 NTBF 노드(20)의 (주) 콴x가 동일한 기술 라벨을 갖고 있다.
지식 그래프 생성부(130)는 수집된 NTBF 정보를 기초로 해당 NTBF 스타트업 회사 정보에 투자한 투자 회사가 투자 회사 노드(30)에 존재하는 경우, 해당 투자 회사의 노드와 스타트업 회사의 노드를 TOD 지식 그래프(40)에서 연결한다(도 9).
예를 들어, 스타트업 회사의 (주) 콴x와 투자 회사 신x금융이 (주) 콴x에 투자하여 노드를 연결한다.
지식 그래프 생성부(130)는 기술 노드(10) 간의 연결과 NTBF 노드(20) 간의 연결을 문서별 임베딩 기법(Doc2vec 임베딩)에서 다음의 수학식 1에 의해 코사인 유사도(Cosine Similarity)를 계산하여 결정한다. 코사인 유사도는 각 문서에 대해 생성된 문서 벡터들 간의 코사인 각도를 이용하여 문서 벡터들의 유사도를 산출하는 것으로, 예를 들어 0부터 1 사이의 값으로 산출되도록 미리 설정될 수 있다.
다시 말해, 지식 그래프 생성부(130)는 코사인 유사도 > 0.9보다 큰 경우, 문서 벡터들이 유사하다고 판단하여 기술 노드(10) 간의 연결과 NTBF 노드(20) 간의 연결을 수행한다.
여기서, a와 b는 문서 벡터값을 의미한다.
기술 발굴 판단부(140)는 TOD 지식 그래프(40)를 기반으로 기술 기회를 정량적으로 평가하기 위해서 TOD 인덱스를 나타내는 TOI(Technology Opportunity Index)를 계산한다. TOI는 어떤 기술이 유망한지 평가할 수 있는 지표이다.
TOD 지식 그래프(40)는 상기 기술을 나타내는 기술 노드(10), 상기 NTBF 정보를 나타내는 NTBF 노드(20), 상기 투자 회사 정보를 나타내는 투자 회사 노드(30)를 복수개로 구성한다.
기술 발굴 판단부(140)는 TOI를 계산하기 위해서 각 노드에서 3가지 TOD 지시자를 생성한다. 여기서, TOD 지시자는 기술 노드(10), NTBF 노드(20), 투자 회사 노드(30)의 관점에서 TI(Technology-based Index), NI(NTBF-based Index), II(Investor-based Index)를 포함한다. TI는 기술 기반의 인덱스이고, 기술 노드(10)에서 계산된다. NI는 NTBF 기반의 인덱스이고, NTBF 노드(20)에서 계산된다. II는 투자 회사 기반의 인덱스이고, 투자 회사 노드(30)에서 계산된다.
기술 발굴 판단부(140)는 기술 노드(10), NTBF 노드(20), 투자 회사 노드(30)에서 노드 중심성(TI, NI, II)을 각각 다른 방식으로 계산한다.
기술 발굴 판단부(140)는 각 기술 노드(10)에서 다음의 수학식 2를 이용하여 TI를 계산한다.
여기서, TI(t)는 t번째 기술 노드(10)의 기술 기반의 인덱스, N은 TOD 지식 그래프에서 노드들의 세트, d(t,u)는 t부터 u까지의 최단 경로의 길이, 는 노드 v와 노드 u 사이의 최단 경로의 개수, 는 노드 를 통해 노드 v와 노드 u 사이의 최단 경로의 개수, L(t, u)는 노드 t에서 노드 u까지의 연결 링크의 개수, PR(u)는 에 포함된 각 노드 u에 대한 페이지 랭크값이다(즉, 노드 t에 연결되는 모든 노드를 포함하는 세트).
CC(t)는 근접 중심성으로 기술 노드(10)와 다른 노드 즉, NTBF 노드(20) 및 투자 회사 노드(30)와 얼마나 가까운지를 나타내는 지표이다.
BC(t)는 매개 중심성으로 더 중요한 기술 t, 더 자주 나타나는 기술 t가 모든 최단 경로상에 보여지는 지표이다.
PR(t)는 페이지 랭크로 각 노드 t가 영향력 있는 다른 노드와 밀접하게 연결되어 있음을 나타내는 지표이다.
TI(t)는 이러한 3가지 중심성 측정의 특성을 종합적으로 반영한다.
기술 발굴 판단부(140)는 TI 값을 통해 각 기술 노드(t)를 점수화하여 어떤 기술 노드(t)의 연결 중심성이 가장 높은지 판단할 수 있다.
기술 발굴 판단부(140)는 각 NTBF 노드(20)에서 다음의 수학식 3을 이용하여 NTBF 노드(20)의 중심성인 NI(NTBF-based Index)를 계산한다.
여기서, NI(t)는 t번째 기술 노드(10)의 NTBF 기반의 인덱스, c는 NTBF 노드(20), C는 NTBF 노드(20)의 세트, Ect = 1은 기술 노드(10)와 NTBF 노드(20)가 연결됨을 나타낸다.
CC(c), BC(c), TI(c)는 각 NTBF 노드(20)에서 전술한 수학식 2를 이용하여 계산된다.
NI(t)는 기술 t에 할당된 NTBF를 중심으로 중심성 측정값을 집계하고, TOD 지식 그래프에서 기술 t와 관련된 NTBF의 본질적인 영향을 나타낸다.
기술 발굴 판단부(140)는 각 투자 회사 노드(30)에서 다음의 수학식 4를 이용하여 투자 회사 노드(30)의 중심성인 II(Investor-based Index)를 계산한다.
여기서, II(t)는 t번째 기술 노드(10)의 투자 회사 기반의 인덱스이고, NTBF를 통해 연결된 기술을 중심으로 투자 회사의 중심성 측정 값을 집계한다.
II(t)는 TOD 지식 그래프(40)에서 기술 t와 관련된 투자 회사 노드(30)의 본질적인 영향을 나타낸다.
i는 투자 회사 노드(30)이고, I는 투자 회사 노드(30)의 세트이다. Eci = 1은 NTBF 노드(20)와 투자 회사 노드(30)가 연결됨을 나타낸다. Ect = 1은 기술 노드(10)와 NTBF 노드(20)가 연결됨을 나타낸다.
도 11에 도시된 바와 같이, 기술 발굴 판단부(140)는 TOI를 TI, NI, II를 더한 수학식 5를 이용하여 계산한다.
여기서, TOI(t)는 t번째 기술 노드(10)의 TOD 인덱스를 나타낸다. TOI(t)는 다양한 중심성 측정에서 TOD 지식 그래프(40)의 각 노드의 통합된 영향을 반영하는 TOD 인덱스이다.
기술 발굴 판단부(140)는 기술 노드(10)가 2개 이상의 NTBF 노드(20)와 연결되어 있는 경우, 제1 NTBF 노드의 NI(t)와 제2 NTBF 노드의 NI(t)를 더한 평균값을 최종 NI(t)로 설정한다.
도 12는 본 발명의 실시예에 따른 NTBF 정보 분류부에서 카테고리와 서브 카테고리를 할당된 일례를 나타낸 도면이고, 도 13은 본 발명의 실시예에 따른 TOI가 분류한 상위 10위 안에 드는 유망 기술의 일례를 나타낸 도면이고, 도 14는 본 발명의 실시예에 따른 TOI, NI 및 II를 참조하여 유망 기술을 선정하는 일례를 나타낸 도면이다.
도 12에 도시된 바와 같이, NTBF 정보 분류부(120)는 기술 문서 데이터의 문서별 임베딩과 로지스틱 회귀 모델을 통해 문서 단락별로 카테고리와 서브 카테고리의 기술 라벨을 생성할 수 있다.
도 13에 도시된 바와 같이, 기술 발굴 판단부(140)는 TOI가 분류한 상위 10위 안에 드는 유망 기술이 대부분 AI와 빅데이터 관련 기술, 금용 분야 기술이다.
기술 발굴 판단부(140)는 각 기술 노드(10)에서 계산된 TOI 중에서 기설정된 상위 순위까지 유망 기술로 선정할 수 있다.
도 14에 도시된 바와 같이, 기술 발굴 판단부(140)는 다양한 관점(기술, NTBF, 투자 회사)에서 비교하여 변화하는 상위 10위의 유망 기술을 식별할 수 있다. TI의 경우 TOI가 있는 유사한 유망 기술이 최상위 등급 점수를 얻지만 NI 및 II 기반의 최상위 기술은 TI 기반 기술과 다르다는 것을 알 수 있다.
도 15는 본 발명의 실시예에 따른 지식 그래프와 딥러닝 기반 텍스트 마이닝 을 이용한 유망 기술 발굴 방법을 나타낸 도면이다.
기술 정보 분류부(110)는 기술 문서 데이터를 입력받고(S100), 기술 문서 데이터의 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성한다.
기술 정보 분류부(110)는 문서별 임베딩을 대상으로기술에 대한 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성한다(S110).
NTBF 정보 분류부(120)는 외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, 수집한 NTBF 정보를 기구성된 Doc2vec 모델과 로지스틱 회귀 모델에 입력하고, 로지스틱 회귀 모델에서 수행하는 카테고리 분류와 서브 카테고리 분류를 통해 NTBF 정보를 카테고리와 서브 카테고리로 할당한다(S120).
S100 내지 S120 단계를 다시 정리하면 다음과 같다.
(1) 기술 문서 집합이 존재하고, (2) 이를 문서 벡터로 표현할 수 있는 Doc2vec 모델을 적용하여 각 문서를 수치적인 형태인 문서 임베딩으로 표현하고, (3) 생성된 문서 임베딩 데이터를 바탕으로 로지스틱 회귀 모델을 통해 기술 카테고리를 분류할 수 있는 분류 모델을 생성하고(Doc2vec-LR 모델), (4) 향후 NTBF 데이터에 포함된 NTBF 문서 데이터에 Doc2vec-LR 모델을 적용하면, 자동적으로 NTBF 문서 데이터를 문서 임베딩으로 변환한 후, 로지스틱 회귀 모델을 통해 카테고리와 서브 카테고리로 기술을 분류할 수 있다.지식 그래프 생성부(130)는 카테고리인 기술과, 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 상기 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프(40)를 생성한다(S130).
기술 발굴 판단부(140)는 지식 그래프(40)를 기반으로 기술 기회(Technology Opportunity)을 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 계산하고, 계산된 TOI를 통해 기술 유망성을 평가한다(S140, S150).
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
10: 기술 노드 20: NTBF 노드
30: 투자 회사 노드 40: TOD 지식 그래프
100: 유망 기술을 발굴하는 시스템 110: 기술 정보 분류부
111: 기술 정보 수집부 112: 기술 정보 가공부
113: 텍스트 전처리부 114: 데이터 처리부
115: 문서 파싱 처리부 116: 학습 모델부
117: 분류부 120: NTBF 정보 분류부
121: NTBF 정보 수집부 130: 지식 그래프 생성부
140: 기술 발굴 판단부

Claims (14)

  1. 기술 문서 데이터의 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성하고, 상기 문서별 임베딩을 대상으로 기술에 대한 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성하는 학습 모델부로 이루어진 기술 정보 분류부;
    외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, 상기 Doc2vec 모델과 로지스틱 회귀 모델을 통해 상기 NTBF 정보에 대한 카테고리와 서브 카테고리를 할당하는 NTBF(New Technology Based Firm) 정보 분류부;
    상기 카테고리인 기술과, 상기 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, 상기 NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 상기 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프를 생성하는 지식 그래프 생성부; 및
    상기 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 기술 발굴 판단부를 포함하는 유망 기술 발굴 시스템.
  2. 청구항 1에 있어서,
    상기 NTBF 정보 분류부는 상기 학습 모델부로부터 상기 Doc2vec 모델과 로지스틱 회귀 모델을 수신하고, 상기 NTBF 정보를 기구성된 상기 Doc2vec 모델과 로지스틱 회귀 모델에 입력하고, 상기 로지스틱 회귀 모델에서 수행하는 카테고리 분류와 서브 카테고리 분류를 통해 상기 NTBF 정보를 상기 카테고리와 상기 서브 카테고리로 할당하여 상기 NTBF 정보의 스타트업 기업이 어떤 기술의 카테고리와 서브 카테고리에 매칭되는지 파악하는 유망 기술 발굴 시스템.
  3. 청구항 2에 있어서,
    상기 NTBF 정보 분류부는 상기 카테고리 분류 모델을 이용하여 각 NTBF 정보가 카테고리에 해당할 확률을 카테고리별로 생성하고, 상기 서브 카테고리 분류 모델을 이용하여 각 NTBF 정보가 서브 카테고리에 해당할 확률을 서브 카테고리별로 생성하고, 상기 생성한 카테고리에 해당할 확률 중에서 가장 높은 확률의 제1 카테고리와 2번째 높은 확률의 제2 카테고리를 할당하고, 상기 할당된 제1 카테고리에 매칭되는 제1 서브 카테고리와, 상기 할당된 제2 카테고리와 매칭되는 제2 서브 카테고리를 각각 선택하는 유망 기술 발굴 시스템.
  4. 청구항 1에 있어서,
    상기 지식 그래프 생성부는 문서 임베딩 기법(Doc2vec 임베딩)에서 다음의 수학식에 의해 코사인 유사도(Cosine Similarity)를 계산하고, 상기 계산한 코사인 유사도가 기설정된 임계값 이상인 경우, 문서 벡터들이 유사하다고 판단하여 노드 간의 연결을 수행하는 유망 기술 발굴 시스템:

    여기서, a와 b는 문서 벡터값을 나타냄.
  5. 청구항 1에 있어서,
    상기 지식 그래프 생성부는 상기 지식 그래프에서 상기 기술을 나타내는 기술 노드, 상기 NTBF 정보를 나타내는 NTBF 노드, 상기 투자 회사 정보를 나타내는 투자 회사 노드를 복수개로 구성하고, 상기 기술 발굴 판단부는 각 기술 노드에서 다음의 수학식을 이용하여 상기 기술 노드의 중심성인 TI(Technology-based Index)를 계산하는 유망 기술 발굴 시스템:

    여기서, TI(t)는 t번째 기술 노드의 기술 기반의 인덱스, CC(t)는 기술 노드와 다른 노드 즉, NTBF 노드 및 투자 회사 노드와 얼마나 가까운지를 나타내는 지표이고, BC(t)는 더 중요한 기술 t, 더 자주 나타나는 기술 t가 모든 최단 경로상에 보여지는 지표이고, PR(t)는 각 노드 t가 영향력 있는 다른 노드와 밀접하게 연결되어 있음을 나타내는 지표이고, N은 상기 지식 그래프에서 노드들의 세트, d(t,u)는 t부터 u까지의 최단 경로의 길이, 는 노드 v와 노드 u 사이의 최단 경로의 개수, 는 노드 를 통해 노드 v와 노드 u 사이의 최단 경로의 개수, L(t, u)는 노드 t에서 노드 u까지의 연결 링크의 개수, PR(u)는 에 포함된 각 노드 u에 대한 페이지 랭크값, t는 기술 노드, T는 기술 노드의 세트임(즉, 노드 t에 연결되는 모든 노드를 포함하는 세트).
  6. 청구항 5에 있어서,
    상기 기술 발굴 판단부는 각 NTBF 노드에서 다음의 수학식을 이용하여 상기 NTBF 노드의 중심성인 NI(NTBF-based Index)를 계산하는 지식 그래프와 텍스트 마이닝 딥러닝을 기반으로 유망 기술 발굴 시스템:

    여기서, NI(t)는 t번째 기술 노드의 NTBF 기반의 인덱스, c는 NTBF 노드, C는 NTBF 노드의 세트, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
  7. 청구항 6에 있어서,
    상기 기술 발굴 판단부는 각 투자 회사 노드에서 다음의 수학식을 이용하여 투자 회사 노드의 중심성인 II(Investor-based Index)를 계산하는 유망 기술 발굴 시스템:

    여기서, II(t)는 t번째 기술 노드의 투자 회사 기반의 인덱스, i는 투자 회사 노드, I는 투자 회사 노드의 세트, Eci = 1은 NTBF 노드와 투자 회사 노드가 연결됨을 나타내고, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
  8. 청구항 7에 있어서,
    상기 기술 발굴 판단부는 상기 TOI를 상기 TI, 상기 NI, 상기 II를 더한 하기의 수학식을 이용하여 계산하는 지 유망 기술 발굴 시스템:

    여기서, TOI(t)는 t번째 기술 노드의 TOD(Technology Opportunity Discovery) 인덱스임.
  9. 청구항 8에 있어서,
    상기 기술 발굴 판단부는 상기 각 기술 노드에서 계산된 TOI 중에서 기설정된 상위 순위까지 유망 기술로 선정하는 유망 기술 발굴 시스템.
  10. 기술 정보 분류부는 기술 문서 데이터의 각 문서를 문서 벡터화하고, 문서 전체를 벡터 공간 상의 점으로 표현하는 문서 임베딩 알고리즘인 Doc2vec 모델을 적용하여 문서별 임베딩(Doc2vec Embedding)을 생성하는 단계;
    상기 기술 정보 분류부는 상기 문서별 임베딩을 대상으로 기술에 대한 카테고리와 서브 카테고리로 그룹핑하는 학습을 수행하는 로지스틱 회귀 모델을 구성하는 단계;
    NTBF(New Technology Based Firm) 정보 분류부는 외부 기관으로부터 기술 기반의 스타트업 회사 정보와 투자 정보로 이루어진 NTBF 정보를 수집하고, 상기 Doc2vec 모델과 상기 로지스틱 회귀 모델을 통해 상기 NTBF 정보에 대한 카테고리와 서브 카테고리를 할당하는 단계;
    지식 그래프 생성부는 상기 카테고리인 기술과, 상기 기술과 관련된 NTBF 정보(스타트업 회사 정보)와, 상기 NTBF 정보와 관련된 투자 회사 정보를 각각의 노드로 구성하고, 상기 노드 간의 링크를 형성하여 관계성을 나타내는 지식 그래프를 생성하는 단계; 및
    기술 발굴 판단부는 상기 지식 그래프를 기반으로 기술 기회(Technology Opportunity)를 정량적으로 평가하기 위한 지표인 TOI(Technology Opportunity Index)를 계산하여 기술 유망성을 평가하는 단계를 포함하는 유망 기술 발굴 방법.
  11. 청구항 10에 있어서,
    상기 지식 그래프를 생성하는 단계는,
    상기 지식 그래프 생성부는 상기 지식 그래프에서 상기 기술을 나타내는 기술 노드, 상기 NTBF 정보를 나타내는 NTBF 노드, 상기 투자 회사 정보를 나타내는 투자 회사 노드를 복수개로 구성하고, 상기 기술 발굴 판단부는 각 기술 노드에서 다음의 수학식을 이용하여 상기 기술 노드의 중심성인 TI(Technology-based Index)를 계산하는 단계를 더 포함하는 유망 기술 발굴 방법:

    여기서, TI(t)는 t번째 기술 노드의 기술 기반의 인덱스, CC(t)는 기술 노드와 다른 노드 즉, NTBF 노드 및 투자 회사 노드와 얼마나 가까운지를 나타내는 지표이고, BC(t)는 더 중요한 기술 t, 더 자주 나타나는 기술 t가 모든 최단 경로상에 보여지는 지표이고, PR(t)는 각 노드 t가 영향력 있는 다른 노드와 밀접하게 연결되어 있음을 나타내는 지표이고, N은 상기 지식 그래프에서 노드들의 세트, d(t,u)는 t부터 u까지의 최단 경로의 길이, 는 노드 v와 노드 u 사이의 최단 경로의 개수, 는 노드 를 통해 노드 v와 노드 u 사이의 최단 경로의 개수, L(t, u)는 노드 t에서 노드 u까지의 연결 링크의 개수, PR(u)는 에 포함된 각 노드 u에 대한 페이지 랭크값, t는 기술 노드, T는 기술 노드의 세트임(즉, 노드 t에 연결되는 모든 노드를 포함하는 세트).
  12. 청구항 11에 있어서,
    상기 기술 유망성을 평가하는 단계는,
    상기 기술 발굴 판단부는 각 NTBF 노드에서 다음의 수학식을 이용하여 상기 NTBF 노드의 중심성인 NI(NTBF-based Index)를 계산하는 단계를 더 포함하는 유망 기술 발굴 방법:

    여기서, NI(t)는 t번째 기술 노드의 NTBF 기반의 인덱스, c는 NTBF 노드, C는 NTBF 노드의 세트, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
  13. 청구항 12에 있어서,
    상기 기술 유망성을 평가하는 단계는,
    상기 기술 발굴 판단부는 각 투자 회사 노드에서 다음의 수학식을 이용하여 투자 회사 노드의 중심성인 II(Investor-based Index)를 계산하는 단계를 더 포함하는 유망 기술 발굴 방법:

    여기서, II(t)는 t번째 기술 노드의 투자 회사 기반의 인덱스, i는 투자 회사 노드, I는 투자 회사 노드의 세트, Eci = 1은 NTBF 노드와 투자 회사 노드가 연결됨을 나타내고, Ect = 1은 기술 노드와 NTBF 노드가 연결됨을 나타냄.
  14. 청구항 13에 있어서,
    상기 기술 유망성을 평가하는 단계는,
    상기 기술 발굴 판단부는 상기 TOI를 상기 TI, 상기 NI, 상기 II를 더한 하기의 수학식을 이용하여 계산하는 단계를 더 포함하는 유망 기술 발굴 방법:

    여기서, TOI(t)는 t번째 기술 노드의 TOD(Technology Opportunity Discovery) 인덱스임.
KR1020220019312A 2022-02-15 2022-02-15 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법 KR20230122739A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220019312A KR20230122739A (ko) 2022-02-15 2022-02-15 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220019312A KR20230122739A (ko) 2022-02-15 2022-02-15 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230122739A true KR20230122739A (ko) 2023-08-22

Family

ID=87799784

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019312A KR20230122739A (ko) 2022-02-15 2022-02-15 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230122739A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统
CN117094688B (zh) * 2023-10-20 2023-12-19 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统

Similar Documents

Publication Publication Date Title
Abdelhamid et al. Associative classification approaches: review and comparison
CN110956224B (zh) 评估模型生成、评估数据处理方法、装置、设备及介质
JP4429236B2 (ja) 分類ルール作成支援方法
Pratt et al. Employee attrition estimation using random forest algorithm
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
JPH0877010A (ja) データ分析方法および装置
EP1681644B1 (en) Method and system to identify records that relate to a predefined context in a data set
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
US11481734B2 (en) Machine learning model for predicting litigation risk on construction and engineering projects
CN104834651A (zh) 一种提供高频问题回答的方法和装置
Milea et al. Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements
US20230409645A1 (en) Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method
KR20230122739A (ko) 지식 그래프와 딥러닝 기반 텍스트 마이닝을 이용한 유망 기술 발굴 시스템 및 방법
Coban IRText: An item response theory-based approach for text categorization
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
Bahrami et al. Automatic image annotation using an evolutionary algorithm (IAGA)
Pan et al. An ensemble learning based hierarchical multi-label classification approach to identify impacts of engineering changes
Sood et al. Bi-level associative classifier using automatic learning on rules
CN115033699A (zh) 基金用户分类方法及装置
JP6924450B2 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN114861655A (zh) 数据挖掘处理方法、系统及存储介质
Niveditha et al. Develop CSR themes using text-mining and topic modelling techniques
Shanto et al. Binary vs. Multiclass Sentiment Classification for Bangla E-commerce Product Reviews: A Comparative Analysis of Machine Learning Models
Alloghani et al. Sentiment analysis for decision-making using machine learning algorithms
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal