KR102438516B1 - 기계학습 기반 미래 혁신 예측 방법 및 그 시스템 - Google Patents

기계학습 기반 미래 혁신 예측 방법 및 그 시스템 Download PDF

Info

Publication number
KR102438516B1
KR102438516B1 KR1020200105512A KR20200105512A KR102438516B1 KR 102438516 B1 KR102438516 B1 KR 102438516B1 KR 1020200105512 A KR1020200105512 A KR 1020200105512A KR 20200105512 A KR20200105512 A KR 20200105512A KR 102438516 B1 KR102438516 B1 KR 102438516B1
Authority
KR
South Korea
Prior art keywords
data
machine learning
companies
innovation
future innovation
Prior art date
Application number
KR1020200105512A
Other languages
English (en)
Other versions
KR20210111666A (ko
Inventor
김원준
서종환
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to PCT/KR2021/000664 priority Critical patent/WO2021177593A1/ko
Priority to US17/905,316 priority patent/US20230186113A1/en
Publication of KR20210111666A publication Critical patent/KR20210111666A/ko
Application granted granted Critical
Publication of KR102438516B1 publication Critical patent/KR102438516B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Sorting Of Articles (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기계학습 기반 미래 혁신 예측 방법 및 그 시스템이 개시된다. 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법은 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 단계; 상기 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 단계; 및 상기 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 미래 혁신을 예측하는 단계를 포함하고, 상기 수집하는 단계는 상기 기업들 각각에 대하여 미리 설정된 기간의 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수를 포함하는 특허 데이터를 수집할 수 있다.

Description

기계학습 기반 미래 혁신 예측 방법 및 그 시스템 {MACHINE LEARNING-BASED PREDICTION METHOD OF FUTURE INNOVATION AND SYSTEM THEREFORE}
본 발명은 기계학습 기반 미래 혁신 예측 기술에 관한 것으로, 보다 구체적으로는 특허지표의 유용성을 탐구하는 기계학습 기법을 이용한 예측 분석과 빅데이터에 근거하여 기업 차원에서 미래 혁신을 예측할 수 있는 방법 및 그 시스템에 관한 것이다.
성공과 생존을 달성하기 위해 기업들은 위험 감수, 검색, 실험, 발견 및 혁신에 초점을 맞추면서 경쟁 우위의 새로운 원천을 탐구해야 한다. 이러한 혁신은 제품, 프로세스 또는 서비스에 전례 없이 중요한 개선을 제공하기 때문에 이러한 노력에 기여할 수 있다. 그러므로 그것은 종종 현재의 기업의 붕괴와 새로운 시장과 기업의 출현을 초래한다.
혁신적 개발은 예측불가능하고 산발적이다. 이는 혁신이 기술과 시장의 관점에서 높은 수준의 불확실성 및 위험과 연관되어 있기 때문이다. 개발 단계에서 기업들은 연구자들이 언제 혁신을 창출할 것인지 또는 혁신이 실제 시장 출시 가능한 혁신으로 실현될 것인지를 예측할 수 없으며, 도입 단계에서는 제품의 성공 확률과 정도도 알 수 없다. 이러한 혁신의 예측불가능성은 기업이 R&D를 관리하는 것뿐만 아니라 투자자들이 투자 포트폴리오를 관리하는 것을 어렵게 한다.
따라서, 기업의 미리 혁신을 예측하는 능력은 R&D를 관리하는 기업과 투자 포트폴리오를 보다 효과적으로 관리하는 투자자들에게 중요하고 가치가 있다. 즉, 미래 혁신을 예측함으로써 기업은 급진적인 혁신에 자원을 효과적으로 배분하고 경쟁적 우위를 강화할 수 있다. 예를 들어, 제약회사들은 보다 혁신적인 신약의 임상시험에 자원을 배분함으로써 경쟁력을 높일 수 있다. 지분투자의 관점에서, 미래 혁신을 예측하는 것은 개인투자자들이 보다 높은 혁신을 도입할 가능성이 높은 기업에 집중함으로써 투자수익률을 극대화할 수 있게 해주며, 이는 결과적으로 시장에서 자원을 보다 효율적으로 배분하게 된다. 즉, 기술과 시장 관점 모두에서, 미래 혁신을 예측하는 것은 기업과 투자자들에게 상당한 영향을 미친다.
그럼에도 불구하고 혁신을 예측하기 위한 접근법이 많이 제시되지 않았다. 대부분의 이전 연구들은 혁신의 특징과 역학 관계뿐만 아니라 수십 년 동안 개인, 기업 및 산업 수준과 같은 다양한 수준에서 혁신에 영향을 미치는 요인을 파악하는 데 초점을 맞추고 있다. 크고, 노이즈가 있고, 복잡한 데이터를 다루기 어려운 이전의 통계적 방법의 한계 때문에, 특히 기업 수준에서 미래 혁신을 예측하려고 시도한 사전 작업은 없었다.
동시에, 사업 정보와 분석을 지원하는 정보 시스템은 기업이 다양한 소스의 빅데이터에 접근하고 분석할 수 있도록 도와주고, 그에 따라 잠재적인 기회, 경쟁 우위 및 더 나은 의사결정을 위한 예측에 대한 통찰력을 제공할 수 있다. 특히, 컴퓨터 파워의 향상과 인공지능의 발전으로 기계학습 기법은 예측을 위한 통계적 방법에 대하여 강력한 대안으로 떠오를 수 있게 되었다. 기계학습 기법은 기존 데이터로부터 모델을 학습하고 모델을 사용하여 새로운 데이터에 대한 예측을 한다. 크고, 노이즈가 있고, 복잡한 데이터를 사용하여 생체의학 정보학, 컴퓨터 비전, 토목 공학 등 다양한 분야의 예측을 한다. 그러나 기업의 미래 혁신을 예측하는 데 빅데이터와 기계학습을 모두 적용한 이전의 연구는 없었다.
본 발명의 실시예들은, 기업 재무 데이터, 신문기사, 소셜미디어 데이터와 특허지표의 유용성을 탐구하는 기계학습 기법을 이용한 예측 분석과 빅데이터에 근거하여 기업 차원에서 미래 혁신을 예측할 수 있는 방법 및 그 시스템을 제공한다.
본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법은 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 단계; 상기 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 단계; 및 상기 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 미래 혁신를 예측하는 단계를 포함한다.
상기 수집하는 단계는 상기 기업들 각각에 대하여 미리 설정된 기간의 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수, 특허 내용분석에 의한 특허 간 구조적 관계를 포함하는 특허 데이터를 수집할 수 있다.
상기 수집하는 단계는 상기 기업들 각각에 대하여 일정 기간 동안 기업 재무, 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터를 포함하는 데이터를 성과 데이터로 수집할 수 있다.
상기 예측하는 단계는 로지스틱 회귀(Logit), na
Figure 112020088193511-pat00001
ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)를 사용하는 기계학습 기반으로 상기 해당 기업의 성과를 예측할 수 있다.
상기 분류하는 단계는 상기 특허 데이터를 이용한 특허 지표들과 상기 연구개발과 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조를 포함하는 특징 집합들로 분류할 수 있다.
본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 시스템은 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 수집부; 상기 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 분류부; 및 상기 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 미래 혁신을 예측하는 예측부를 포함한다.
상기 수집부는 상기 기업들 각각에 대하여 미리 설정된 기간의 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수, 특허 내용분석에 의한 특허 간 구조적 관계를 포함하는 특허 데이터를 수집할 수 있다.
상기 수집부는 상기 기업들 각각에 대하여 일정 기간 동안 기업 재무, 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터를 포함하는 데이터를 성과 데이터로 수집할 수 있다.
상기 예측부는 로지스틱 회귀(Logit), na
Figure 112020088193511-pat00002
ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)를 사용하는 기계학습 기반으로 상기 해당 기업의 성과를 예측할 수 있다.
상기 분류부는 상기 특허 데이터를 이용한 특허 지표들과 상기 연구개발과 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조를 포함하는 특징 집합들로 분류할 수 있다.
본 발명의 실시예들에 따르면, 특허지표의 유용성을 탐구하는 기계학습 기법을 이용한 예측 분석과 빅데이터에 근거하여 기업 차원에서 미래 혁신을 예측할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법에 대한 프레임워크를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 시스템에 대한 구성을 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 실시예들은, 기계학습 기법을 적용함으로써, 일정 기간 예를 들어, 1991년부터 2010년까지 회사의 재무, 연구개발, 신문기사, 특허에 관한 대규모 데이터 세트를 기반으로 기업 차원의 미래 혁신 예측변수를 조사한다. 구체적으로, 본 발명은 회사의 재무, 신문기사, 특허에 관한 정보를 이용하여 혁신적인 기술/제품/서비스를 성공적으로 제시/출시할지 여부를 예측한다. 본 발명은 5가지 기계학습 기법 예를 들어, 로지스틱 회귀(Logit)를 기본 모델로 사용하며, na
Figure 112020088193511-pat00003
ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine), 딥 빌리프 네트워크(DBN; deep belief network)를 사용하여 기업에 의한 미래 혁신을 예측할 수 있다.
정보시스템 연구의 확고한 사용에 관한 선행연구는 다양한 주제를 다루지만, 주로 기업에 의해 정보기술을 채택하는 방법과 기업의 실적에 미치는 영향의 두 가지 단계로 분류된다. 첫 번째 연구 흐름은 기업이 정보 기술을 채택하는 과정과 기본적인 메커니즘을 조사한다. 예를 들어, 미국의 병원에 의한 건강 정보 기술 시스템의 채택이 그것이다. 두 번째 스트림의 이전 연구는 수익성, 조직 민첩성 및 혁신의 세 가지 측면에 초점을 맞추고 있다.
특히, 정보 시스템 연구에 관한 이전의 연구에서는, 기업의 흡수능력의 개발 및 유지와 같이, 기업의 사업 성공을 위해 귀중한 외부 지식을 식별, 동화, 변형, 응용할 수 있는 기업의 능력인 기업 혁신을 위한 정보 기술의 중요한 역할을 강조한다. 또한 고객 민첩성을 향상시켜 고객 기반 혁신 및 경쟁적 조치 기회를 포착한다. 특히 빅데이터 분석과 같은 정보 처리 능력은 조직에 경쟁 우위를 가져오고, 예측 데이터 분석의 힘은 의사결정을 돕는다. 동시에, 고객, 경쟁자, 대학, 컨설턴트 등 기업 외부에 상주하는 출처의 지식에 접근하고 통합하는 것이 기업의 혁신적 성공에 매우 중요하다는 것도 혁신적 문헌에 나타났다. 그러나 정보 시스템 연구에 관한 선행연구에서는 특허정보 등 다양한 출처의 지식을 활용하여 기업의 혁신에 대한 예측 분석을 적용하는 방식을 아직은 고려하지 않고 있다.
분석적 접근법 유형의 관점에서, 이전의 연구는 서술적, 예측적 또는 규범적으로 분류할 수 있다. 특히 예측 접근법은 데이터와 수학 기법을 사용하여 혁신의 원인과 효과 사이의 내재적 관계를 나타내는 설명적 및 예측적 패턴을 발견한다. 예측 접근방식은 두 가지 다른 질문을 제기한다. "왜 그런 일이 일어날까?" 그리고 "무슨 일이 일어날까?", 전자는 재정 투입과 혁신 등 다양한 분석 수준에서 급진적 혁신의 인과관계를 밝혀내려고 하고, 후자는 미래의 사건을 정확하게 예측하려고 한다.
혁신에 관한 대부분의 이전 연구는 경험적으로 급진적 신의 추진요인을 발견하기 위한 통계적 방법을 채택함으로써, 혁신의 인과관계에 초점을 맞추고 있다. 그러나 향후, 특히 기업 차원에서 혁신의 정확한 예측에 초점을 맞춘 연구는 찾아보기 어렵다. 이는 혁신을 평가하는 것이 어렵고, 혁신의 개발은 예측불가능하고 산발적이기 때문이다. 타이밍이 고르지 않은 과학적 돌파구의 지그재그로 인하여 발생하는 기술적 불확실성 때문에, 혁신성 여부를 깨닫는 데는 일반적으로 5년에서 6년이 걸린다. 더욱이 수십 년간의 엄격한 연구와 충족되지 않은 고객 니즈에 대한 심오한 이해 후에 나타나지만, 시장이나 사업에서 성공으로 이어지지 않을 수도 있다.
그럼에도 불구하고, 기업들은 더 높은 혁신에 초점을 맞추고 경쟁적 우위를 강화하면서 자원을 더 효과적으로 배분할 수 있기 때문에 미래의 급진적 혁신을 예측하는 것의 중요성이 강조되어야 한다. 또한 투자자들은 탐색적 투자의 불확실성을 극복하면서 투자 포트폴리오를 보다 효과적으로 관리할 수 있다. 일반적으로, 혁신의 예측 불가능성에 더 잘 대처할 수 있는 기업들은 능력이 덜한 기업들보다 더 잘 대처하는 경향이 있다.
이를 해결하기 위해, 본 발명은 기업 수준에서 미래 혁신의 예측 변수를 발견하기 위한 연구 프레임워크를 제안한다. 본 발명의 프레임워크에서는 특허 기반 지표가 경영자나 CEO의 지식과 경험에 의존하는 조사와 달리, 이전 연구의 다른 조치와 대조적으로 미래 혁신을 예측할 수 있는 잠재력을 가진 특징으로 사용된다. 또한, 기계학습에 기초한 기법은 혁신에 대한 대부분의 이전 연구에서 일반적으로 사용된 통계적 방법의 대안으로 채택될 수 있다.
이러한 맥락에서 본 발명은 회사의 재무, 신문기사, 특허에 관한 정보의 특징 중 잠재적 예측 변수를 조사하고 미래 혁신을 예측하는 유용성을 탐구할 수 있다. 잠재적 재무정보는 기업의 연구개발투자액, 기업의 자산액, 기업의 부채액, 기업의 손익액 등을 포함할 수 있으며, 기업에 대한 잠재적 신문기사 및 소셜미디어 정보는 기업을 언급한 신문기사와 소셜 미디어 내용 수, 신문기사 및 소셜 미디어 내용, 신문기사 및 소셜 미디어 간의 구조적 연관성 등을 포함할 수 있으며, 잠재적 특허 지표는 (1) 기본, (2) 협업 관련, (3) 인용, (4) 특허 내용과 관련된 세 가지 특징으로 분류할 수 있다. 기본적인 특징으로는 특허의 수와 청구항 수, 특허의 기술분야 및 적용제품, 각 특허의 거절이유, 특허의 내용 등이 있고, 협업 관련 특징으로는 양수인(assignee)의 수와 발명자의 수가 있다. 또한, 양수인과 발명자의 협업 구조적 속성을 고려한다. 인용과 관련된 특징으로는 선행 및 후행 인용의 수와 선행 인용의 구조적 속성이 있다. 특허 내용과 관련된 특징으로는 특허 간 특허 내용의 유사성, 관계성, 기술분류 등과 관련된 속성이 있다.
협업 관련 특성에 대해 설명하면, 한 명만으로는 과학 및 기술 진보에 보조를 맞추는 능력이 거의 없거나 전혀 없기 때문에, 과학에서 지식 생성은 물론 R&D와 제품 또는 기술 혁신에서도 서로 다른 행위자 간의 협업이 점점 더 중요해지고 있다. 혁신에 대한 협업의 영향은 내부 협업과 외부 협업이라는 두 가지 관점에서 연구되어 왔다. 따라서, 본 발명은 혁신을 예측하는 데 있어 그 유용성을 조사하기 위해 내부와 외부 협업을 모두 포함시킬 수 있다.
협업의 네트워크 구조가 혁신적 성과의 중요한 추진요인이라는 공감대가 커지고 있음에도 불구하고, 기업 미래의 혁신을 예측하는 유용성은 여전히 밝혀지지 않고 있다. 그것을 명확히 하기 위해, 내부 및 외부 협업 구조의 속성은 본 발명에서 잠재적인 예측 변수로 고려될 수 있다.
더욱이 특허 인용은 복잡하고, 확대되고, 분산된 지식기반으로 특징지어지기 때문에, 혁신을 위한 적절한 수준의 특허 인용 분석은 전체 특허 인용 구조 분석이다. 인용 구조 분석에서의 구조와 특허의 위치(예를 들어, 중심성 지수 등), 는 관련 지식 출처에 대한 접근성을 결정하며, 그들은 기업 수준에서 혁신 활동과 성능에 대한 결과를 갖는다. 특히, 선행 특허 인용 구조를 통해 입체적인 관점에서 특허 관계를 들여다볼 수 있는 기회를 제공하고 구조적인 특허 지표도 추출할 수 있다.
기계학습 기법은 기존 데이터로부터 모델을 학습하고 모델을 사용하여 새로운 데이터에 대한 예측을 한다. 기계학습 기법은 크고, 노이즈가 있고, 복잡한 데이터를 다루면서, 패턴을 분류하고 예측하는 통계적 방법에 대한 강력한 대안으로 이용되었다. 최근 예측에 대한 기계학습의 구현은 생체의학 정보학, 텍스트/웹 마이닝, 컴퓨터 비전, 사업, 토목 공학, 게임 등 다양한 분야에서 나타난다.
일 실시예의 기존 연구들은 예측목적으로 특허자료에 기계학습 기법을 적용하였으며, 본 발명은 미래 혁신을 예측하기 위해 기계학습 기법을 사용할 수 있다. 본 발명에서는 흔히 사용되는 기계학습 기법 즉, NB, NN 및 SVM을 선택할 수 있다.
NB는 상당히 단순한 확률론적 분류 알고리즘으로, 다양한 특징에 관한 강력한 독립성 가정을 사용한다. NB는 데이터의 진정한 분포는 데이터의 특징이 조건적으로 독립된 개별 분포의 볼록한 조합이라고 가정한다. 훈련 데이터를 사용하여, 각 분포 내에서 한계인 조합과 특징의 가중치를 학습하는 것을 목표로 하며, 많은 NB 모델들 예를 들어, 다항식 na
Figure 112020088193511-pat00004
ve Bayes 모델, Poisson na
Figure 112020088193511-pat00005
ve Bayes 모델, 그리고 이진 독립성 모델 등이 제안된 바 있다. 분류의 경우, NB는 특정 클래스에 속하는 특정 인스턴스의 확률을 예측한다. 그것은 우선 각 클래스에 속하는 분류되지 않은 데이터의 확률을 각각 계산한 후 높은 확률로 분류한다. NB는 분류 모델을 효율적으로 구축할 수 있도록 하기 때문에 많은 데이터 세트에서 NB가 보다 정교한 분류기를 능가하는 성과를 내는 경우가 많다.
NN은 생물학적 중추신경계에서 지식의 축적을 모방하기 위한 뉴런과 같은 유기체의 신경계에 기초한다. 기존의 컴퓨터를 사용한 기법과 달리, NN은 병렬 구성에 근거하여 비선형적이고 잘못 정의된 문제를 해결할 수 있다. 이러한 독특한 학습 능력 때문에, NN은 인기 있고 다양한 애플리케이션에서 좋은 성과를 달성하였다. 뉴럴 네트워크는 단층 NN과 다층 NN의 두 가지 유형으로 이루어진다. 단층 NN은 입력 계층과 출력 계층으로 구성되는 반면, 다층 NN은 입력 계층, 은닉 계층 및 출력 계층의 세 가지 계층으로 구성된다. 다층 NN의 경우, 입력 계층은 은닉 계층에 입력 값을 전달하고, 이후 은닉 계층은 최적의 출력 값의 공제를 위한 적절한 가중치를 결정한 다음, 확인하여 최종 출력 값을 부여한다. NN의 가중치 값은 지속적인 학습 절차를 통해 결정되며, 역전파는 가중치 값을 결정할 때 일반적으로 사용된다.
SVM은 컴퓨터 학습 이론의 구조적 위험 최소화 원칙에 기초한다. 분류를 위해 SVM은 훈련용 샘플과 보이지 않는 테스트 샘플의 오분류 위험을 최소화함으로써 가능한 한 데이터 포인트를 정확하게 분류하고 두 클래스의 포인트를 가능한 분리하는 최적의 분리 초평면을 찾는다. 최적의 분리 초평면에 가장 근접한 훈련 포인트를 서포트 벡터라고 하며, 다른 훈련 사례는 이진 클래스 경계를 결정하는 것과 무관하다. SVM의 경우, 커널은 입력 공간 X를 고차원 특징 공간 F에 암시적으로 매핑하는 데 사용된다. 비선형 의사결정 표면을 만들어 학습 기계의 연산력을 향상시킨다. 게다가, 그것은 선형적으로 분리할 수 없는 공간을 잠재적으로 선형적으로 분리할 수 있는 공간으로 분해하는 데 도움이 된다.
마지막으로 딥러닝(Deep Learning)은 여러 층의 정보처리 단위를 계층적으로 포함하는 인공뉴럴 네트워크를 말한다. 예를 들어, 현대의 기계학습 알고리즘은 연산 단위의 수 측면에서 비효율적이라는 점에서 심각한 문제를 가지고 있지만, 그러한 문제는 많은 비선형성, 즉 심층 아키텍처를 통해 매우 다양한 기능을 압축적으로 표현함으로써 해결할 수 있다. 다양한 딥러닝 종류의 아키텍처 중에서 DBN은 입력 데이터를 이미지 처리 및 음성 인식과 같은 고정 특징 세트로 나타낼 수 있는 애플리케이션에서 광범위하게 사용된다. DBN에는 가시적 계층과 하나 이상의 은닉 계층으로 구성된 다중 계층이 있다. DBN의 가시적 계층은 특징을 입력 데이터로 삼고, 하나 이상의 제한된 Boltzmann 기계(RBM)의 스택으로 구축된 은닉 계층에 입력 데이터를 전달한다.
도 1은 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법에 대한 동작 흐름도를 나타낸 것이다.
도 1을 참조하면, 본 발명의 실시예에 따른 방법은 미리 설정된 기업들 각각에 대한 특허 데이터, 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 과정(S110), 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 과정(S120)과 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 혁신을 예측하는 과정(S130)을 포함한다.
여기서, 단계 S110은 기업들 각각에 대하여 미리 설정된 기간의 기업의 연구개발투자액, 기업의 자산액, 기업의 부채액, 기업의 손익액 등을 기업 재무 관련 정보를 수집할 수 있으며, 기업에 대한 신문기사 및 소셜미디어 정보는 기업을 언급한 신문기사와 소셜 미디어 내용 수, 신문기사 및 소셜 미디어 내용, 신문기사 및 소셜 미디어 간의 구조적 연관성 뿐만 아니라 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수, 특허 내용분석에 의한 특허 간 구조적 관계를 포함하는 특허 데이터를 수집할 수 있으며, 기업들 각각에 대하여 일정 기간 동안 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터 등 기업의 미래 혁신을 성과 데이터로 수집할 수 있다.
여기서, 단계 S120은 기업의 재무 관련 지표 및 이들의 구조변수, 기업에 대한 기사 및 소셜미디어 내용 및 이들의 구조 변수, 특허 데이터를 이용한 특허 지표들과 연구개발과 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조 및 특허 내용분석에 기반한 특허 간 관계를 포함하는 특징 집합들로 분류할 수 있다.
여기서, 단계 S130은 로지스틱 회귀(Logit), na
Figure 112020088193511-pat00006
ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)를 사용하는 기계학습 기반으로 해당 기업의 성과를 예측할 수 있다.
이러한 본 발명의 방법에 대해 도 2를 참조하여 상세히 설명하면 다음과 같다.
도 2는 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 방법에 대한 프레임워크를 나타낸 것이다.
도 2를 참조하면, 본 발명의 실시예에 따른 방법은 이전의 혁신 연구로부터 조사된 특허 지표를 특징 집합으로 분류한다. 예측 기법에 대해서는 Logit, NB, NN, SVM, DBN의 5가지 기계학습 분류 기법을 채택할 수 있다. 각 분류 기법에 대해 각 특징 세트를 점진적으로 추가하는 효과는 정확도, F-측정, 곡선 아래 영역(AUC)의 세 가지 성능 측정 측면에서 텐폴드(tenfold) 검증을 통해 평가된다. 또한, 본 발명은 텐폴드 검증의 통계적 유의성을 확인하기 위해 반복된 실험을 바탕으로 수행척도에 대해 쌍방향 t 시험을 수행한다. 예측에 유용한 것으로 판명된 특징 집합의 경우, 그 특징 집합 중 어떤 것이 예측 성능을 향상시키는지를 파악하기 위해 심층적인 비교를 한다.각각의 구성에 대하여 설명하면 다음과 같다.
데이터 수집(data acquisition)
본 발명은 기업의 재무 데이터, 신문기사 데이터, 소셜 미디어 데이터, 특허 데이터 등을 수집하고, 이의 통합적 데이터 세트를 구성할 수 있다.
예를 들어, 본 발명은 미리 설정된 기업들에 대하여, 미국 특허(USPTO) 데이터베이스를 이용하여 특허 관련 독립 변수를 수집하고, 재무 관련 데이터베이스를 이용하여 재무 데이터를 수집하며, 기업 혁신 데이터 소스들을 이용하여 기업 혁신 데이터 소스를 수집할 수 있다.
데이터 표현(data representation)
(1) 대상 변수 정의
기업의 혁신은 기업이 가진 기술의 기술적 및 상업적 성공, 신제품/신규 서비스의 출시/인증/허가, 제약기업의 경우, 임상시험 통과, 미국식품의약국(FDA)에 승인으로 정의할 수 있다.
(2) 특징 집합 생성
수집한 기업의 재무 데이터, 신문기사 데이터, 소셜 미디어 데이터, 특허 데이터를 사용하여, 관련 지표에 대한 기술 통계를 제공하는 특징 집합을 구성하는 데 사용될 수 있다.
성과 측정의 개선을 위한 각 특징 집합의 유용성을 탐색하기 위해, 연도 t의 다른 특징 집합을 (t + 1)년에 혁신을 예측하는 입력 변수로 사용할 수 있다.
여기서, 특징 집합은 도 2에 도시된 바와 같이, F0부터 F10까지 일 수 있다.
기계 학습 기반의 미래 혁신 예측(Machine learning-based prediction)
변수 xi는 실험 데이터에서 i번째 인스턴스를 의미하고, xi,j는 i번째 인스턴스의 j번째 특징의 값을 의미할 수 있다.
naive Bayes 를 weak 분류기로 사용
NB 분류 과정은 훈련과 테스트의 두 단계로 구성된다. 훈련 단계에서 특징의 사전 분포를 은연중에 또는 명시적으로 Dirichlet 분포로 가정한다. 다음으로, 테스트 단계에서, 분류기는 하나의 테스트 데이터가 속하는 각 클래스의 모든 가능성을 파악한 다음, 테스트 데이터에 대한 최대 확률의 등급이 설정한다. NB를 사용하는 본 발명의 문제는 아래 <수학식 1>과 같이 나타낼 수 있다.
[수학식 1]
Figure 112020088193511-pat00007
확률적 관점에서, Bayes 규칙에 따르면, xi가 주어질 때 클래스 yi ∈ {+1,-1}이 될 확률은 아래 <수학식 2>와 같이 나타낼 수 있다.
[수학식 2]
Figure 112020088193511-pat00008
여기서, 클래스 yi가 주어진 연속값의 확률분포 xi,j는 아래 <수학식 35>와 같이 정의될 수 있다.
[수학식 3]
Figure 112020088193511-pat00009
여기서,
Figure 112020088193511-pat00010
Figure 112020088193511-pat00011
는 클래스 yi와 연관된 xi,j의 평균과 분산을 의미할 수 있다.
NB는 모든 특징이 클래스 변수의 값에 따라 독립적인 것으로 가정하고 단순화된 확률 계산을 아래 <수학식 4>, <수학식 4>과 같이 사용할 수 있다.
[수학식 4]
Figure 112020088193511-pat00012
[수학식 5]
Figure 112020088193511-pat00013
여기서, n'은 Bm에서 인스턴스 수를 의미할 수 있다. 따라서, 상기 수학식 1은 아래 <수학식 6>과 같이 나타낼 수 있다.
[수학식 6]
Figure 112020088193511-pat00014
여기서, 공통분모는 분류 결과에 영향을 주지 않고 생략할 수 있으므로 아래 <수학식 7>와 같이 나타낼 수 있다.
[수학식 7]
Figure 112020088193511-pat00015
따라서,
Figure 112020088193511-pat00016
인 경우
Figure 112020088193511-pat00017
이다. 그렇지 않으면 NB 분류기는 아래 <수학식 8>과 같이 정의될 수 있다.
[수학식 8]
Figure 112020088193511-pat00018
TRAINING에서 인스턴스 xi ∈ TEST는 q(xi)>1인 경우 NB에 의해 클래스 +1로 분류된다.
뉴럴 네트워크를 weak 분류기로 활용
NN 모델을 사용한 이전의 연구에 근거하여, 본 발명에서는 3층 퍼셉트론을 NN 모델로 사용할 수 있다. 이 때, 3층 퍼셉트론의 출력 값이 아래 <수학식 9>과 같이 공식화될 수 있다.
[수학식 9]
Figure 112020088193511-pat00019
여기서,
Figure 112020088193511-pat00020
은 은닉층에 있는 뉴런의 수를 의미하고, wk, 3는 은닉층에 있는 뉴런 k에서 출력 뉴런에 이르는 시냅스의 가중치를 의미하며고, hk는 뉴런 k의 출력을 의미하고, θ는 출력 뉴런의 임계값을 의미하며, f3는 출력 뉴런의 sigmoid(S자형) 활성화 함수를 의미할 수 있다.
은닉층에 있는 뉴런 k의 출력 값은 아래 <수학식 10>과 같이 나타낼 수 있다.
[수학식 10]
Figure 112020088193511-pat00021
여기서, wj ,k는 입력 뉴런(j = 1, ..., d)에서 은닉층 내 k번째 뉴런까지의 가중치로서 θk는 k번째 뉴런의 임계값을 의미하며, f2는 은닉 뉴런의 sigmoid 활성화 함수를 의미할 수 있다.
훈련 단계에서, 역전파 알고리즘은 아래 <수학식 11>, <수학식 12>와 같은 경사 하강에 기초하여 각 훈련 벡터 xi ∈ TRAINING의 가중치와 임계값을 반복적으로 업데이트할 수 있다.
[수학식 11]
Figure 112020088193511-pat00022
[수학식 12]
Figure 112020088193511-pat00023
여기서, a는 학습 속도를 의미하고, Ei(r)는 xi의 반복 r에 대한 제곱 오차(SSE)의 합을 의미하는 것으로, Ei(r)는 아래 <수학식 13>와 같이 나타낼 수 있다.
[수학식 13]
Figure 112020088193511-pat00024
여기서, oi(r)은 실제 출력값을 의미할 수 있다. 경사 하강 접근 0에 도달할 때까지 최소 SSE를 찾기 위한 반복이 계속된다. 그런 다음 인스턴스 xi ∈ TEST를 학습된 NN에 의해 두 클래스, +1과 -1 중 하나로 분류한다.
서포트 벡터 머신을 weak 분류기로 사용
SVM은 커널을 사용하여 데이터를 더 높은 차원의 특징 공간인
Figure 112020088193511-pat00025
로 투영하고 새로운 특징 공간인 최대 한계 초평면(MMH)에서 선형 마진를 찾으려고 한다. 기존 연구에 기초하여 가중치 벡터
Figure 112020088193511-pat00026
및 새로운 특징 공간의 스칼라 b를 해결할 최적화 공식을 아래 <수학식 14>과 같이 나타낼 수 있다.
[수학식 14]
Figure 112020088193511-pat00027
여기서, 다음과 같은 표기법이 사용될 수 있다.
파라미터 c+1과 c-1은 경험적 오류 ξi와 일반화 <w,w> 사이 트레이드 오프이며 n'은 Bm의 인스턴스 수이다.
상기 수학식 14의 첫 번째 항은 분류 함수의 복잡성을 나타내는 반면, 두 번째 항은 Bm에 대한 경험적 오류를 측정한다.
+1 클래스와 -1 클래스를 구분하는 최적의 초평면은 아래 <수학식 15>과 같이 나타낼 수 있다.
[수학식 15]
Figure 112020088193511-pat00028
여기서,
Figure 112020088193511-pat00029
을 의미하는 것으로, 본 발명에서는 K(xi,x)를 등급 = 5의 다항식 커널로 취급할 수 있으며, 아래 <수학식 16>과 같이 나타낼 수 있다.
[수학식 16]
Figure 112020088193511-pat00030
따라서, 학습된 SVM 분류기는 g(xi) > 1일 경우 +1 클래스 그룹에 인스턴스 ix ∈ TEST를 추가하고, 그렇지 않으면 -1 클래스 그룹에 인스턴스를 추가한다.
심층신뢰망을 weak 분류기로 활용
DBN은 하나의 가시적 계층과 하나 이상의 은닉 계층으로 구성되며, 각 계층은 RBM으로 초기화할 수 있다. RBM은 가시적 입력층과 은닉층이 있는 비방향의 생성 에너지 기반 모델이며, 계층 사이에 연결이 있지만 계층 내에는 링크가 없다. 기존 연구에 따르면 l 계층이 있는 DBN은 xi와 l 은닉 계층 hk의 공동 분포를 아래 <수학식 17>와 같이 모델링할 수 있다.
[수학식 17]
Figure 112020088193511-pat00031
여기서,
Figure 112020088193511-pat00032
는 레벨 k에서 RBM의 은닉 단위에 조건화된 가시적 단위에 대한 조건부 분포이고,
Figure 112020088193511-pat00033
는 최상위 RBM의 가시적-은닉 공동 분포이다. DBN의 훈련은 두 단계 즉, 계층별 사전훈련 단계와 미세 조정 단계를 포함한다.
첫째, 계층별 사전훈련 단계는 contrastive divergence(CD) 절차의 두 단계를 통해 RBN 파라미터를 훈련시킨다. 첫 번째 단계에서는 첫 번째 계층을 RBM으로, 원시 입력인 xi=h0을 그것의 가시적 계층으로 모델링하는 훈련을 한다. 그런 다음, 두 번째 계층의 데이터로 사용될 입력의 표현을 얻기 위해 첫 번째 계층을 사용한다. 표현을 위해 sigmoid 활성화 함수를 사용할 수 있다. 그 다음, 2단계에서는 변환된 데이터를 해당 RBM의 가시적 계층에 대한 훈련 사례로 삼아 두 번째 계층을 RBN으로 교육한다. 그 결과, 계층과 RBM의 노드 편차 사이의 링크 가중치가 훈련된다. 이 두 페이즈는 계층에 대해 최대 반복 횟수에 도달할 때까지 반복된다.
다음으로, 미세 조정 단계에서 DBN의 심층 아키텍처의 모든 파라미터는 지도된 경사 하강을 사용하여 미세 조정된다. 로지스틱 회귀 분류기는 DBN의 마지막 은닉 계층 hl의 출력에 기초하여 입력 xi를 분류하는 데 사용된다.
결국, 훈련 과정 후, TRAINING으로부터 Bm과 함께 DBN을 훈련하는 과정에서 얻은 모든 파라미터를 사용하여
Figure 112020088193511-pat00034
를 DBN의 출력으로 하여 인스턴스 ix ∈ TEST를 +1 또는 -1로 분류하며, DBN의 마지막 로지스틱 회귀 출력 계층에서 얻는다.
예측 변수를 찾기 위해 비교 및 투표를 통한 평가
이 단계에서는 텐폴드 검증 후 세 가지 성능 측정을 통해 서로 다른 기능 세트를 추가하는 것의 유용성을 측정할 수 있다. 5 가지 분류 기술 각각에 대해 통계적으로 유의미한 방식으로 예측 성능을 개선한 특징 집합이 생성될 수 있다. 이러한 결과를 기반으로 5 가지 분류 기술 모두가 특징 집합을 추가하는 것이 예측 성능을 향상시키는 데 기여한다는 데 동의하는 경우 특징 집합이 예측자 집합으로 유용한 것으로 간주될 수 있다. 다음으로, 둘 이상의 특징이 있는 각 예측 변수 집합에 대해 쌍별 t 테스트를 통해 심층 비교를 수행하여 예측 변수 집합의 어떤 특징이 더 나은 예측 성능을 유발하는지 확인할 수 있다. 따라서, 5 가지 분류 기법 중 절반 이상이 3 가지 성능 척도를 통해 특징이 예측 성능을 향상 시켰다고 판단한 경우, 해당 특징은 미래의 혁신을 위한 신뢰할 수있는 예측력을 가진 특허 지표, 즉 예측 인자로 선정될 수 있다.
이와 같이, 본 발명의 실시예에 따른 방법은 해당 기업과 다른 기업사이의 관계 및 해당 기업과 다른 기업의 뉴스/보도 자료, 소셜 미디어에 관한 구조 변수, 발명자들 관련 구조 변수, 출원인들 관련 구조 변수 및 등록 특허들 사이의 관련성에 대한 구조 변수 중 적어도 하나 이상을 특징 집합으로 추가할 수 있으며, 이렇게 추가된 특징 집합을 이용하여 해당 기업의 미래 혁신을 예측할 수도 있다.
도 3은 본 발명의 일 실시예에 따른 기계학습 기반 미래 혁신 예측 시스템에 대한 구성을 나타낸 것으로, 도 1 내지 도 2의 방법을 수행하는 시스템에 대한 개념적인 구성을 나타낸 것이다.
도 3을 참조하면, 본 발명의 실시예에 따른 시스템(300)은 수집부(310), 분류부(320) 및 예측부(330)를 포함한다.
수집부(310)는 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집한다.
이 때, 수집부(310)는 상기 기업들 각각에 대하여 미리 설정된 기간의 기업의 연구개발투자액, 기업의 자산액, 기업의 부채액, 기업의 손익액 등을 기업 재무 관련 정보를 수집할 수 있으며, 기업에 대한 신문기사 및 소셜미디어 정보는 기업을 언급한 신문기사와 소셜 미디어 내용 수, 신문기사 및 소셜 미디어 내용, 신문기사 및 소셜 미디어 간의 구조적 연관성 뿐만 아니라 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수, 특허 내용을 포함하는 특허 데이터를 수집할 수 있으며, 상기 기업들 각각에 대하여 일정 기간 동안 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터 등 기업의 미래 혁신을 성과 데이터로 수집할 수 있다.
분류부(320)는 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류한다.
이 때, 분류부(320)는 기업의 재무 관련 지표 및 이들의 구조변수, 기업에 대한 기사 및 소셜미디어 내용 및 이들의 구조 변수, 상기 특허 데이터를 이용한 지표들과 이와 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조, 특허 내용의 관계를 포함하는 특징 집합들로 분류할 수 있다.
예측부(330)는 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 혁신을 예측한다.
이 때, 예측부(330)는 로지스틱 회귀(Logit), na
Figure 112020088193511-pat00035
ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)를 사용하는 기계학습 기반으로 상기 해당 기업의 성과를 예측할 수 있다.
비록, 도 3의 장치에서 그 설명이 생략되었더라도, 도 3을 구성하는 각 구성 수단은 도 1 내지 도 2에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 기계학습 기반 미래 혁신 예측 시스템에 의해 각 단계가 수행되는 기계학습 기반 미래 혁신 예측 방법에 있어서,
    상기 기계학습 기반 미래 혁신 예측 시스템의 수집부에 의해, 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 단계;
    상기 기계학습 기반 미래 혁신 예측 시스템의 분류부에 의해, 상기 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 단계; 및
    상기 기계학습 기반 미래 혁신 예측 시스템의 예측부에 의해, 상기 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 미래 혁신을 예측하는 단계를 포함하되,
    상기 분류하는 단계는
    상기 특허 데이터를 이용한 특허 지표들과 상기 연구개발과 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조, 및 특허 내용분석에 의한 특허 간 구조적 관계를 포함하는 특징 집합들로 분류하며,
    상기 예측하는 단계는
    로지스틱 회귀(Logit), na
    Figure 112022041215135-pat00044
    ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)의 5가지 기계학습을 이용하여 상기 해당 기업의 성과를 예측하는 것을 특징으로 하는, 기계학습 기반 미래 혁신 예측 방법.
  2. 제1항에 있어서,
    상기 수집하는 단계는
    상기 기업들 각각에 대하여 미리 설정된 기간의 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수를 포함하는 특허 데이터를 수집하는 것을 특징으로 하는 기계학습 기반 미래 혁신 예측 방법.
  3. 제2항에 있어서,
    상기 수집하는 단계는
    상기 기업들 각각에 대하여 일정 기간 동안 기업 재무, 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터를 포함하는 데이터를 성과 데이터로 수집하는 것을 특징으로 하는 기계학습 기반 미래 혁신 예측 방법.
  4. 삭제
  5. 삭제
  6. 미리 설정된 기업들 각각에 대한 특허 데이터, 상기 기업들 각각의 연구개발과 관련된 데이터와 미리 설정된 기간의 성과 데이터를 수집하는 수집부;
    상기 수집된 각각의 데이터를 이용하여 각각의 특징에 대한 특징 집합들로 분류하는 분류부; 및
    상기 분류된 특징 집합들을 입력으로 하는 기계학습 기반으로 해당 기업의 미래 혁신을 예측하는 예측부를 포함하되,
    상기 분류부는
    상기 특허 데이터를 이용한 특허 지표들과 상기 연구개발과 관련된 데이터를 이용한 내부 협업 구조와 외부 협업 구조, 및 특허 내용분석에 의한 특허 간 구조적 관계를 포함하는 특징 집합들로 분류하며,
    상기 예측부는
    로지스틱 회귀(Logit), na
    Figure 112022041215135-pat00045
    ve Bayes(NB), 뉴럴 네트워크(NN), 서포트 벡터 머신(SVM; support vector machine)와 딥 빌리프 네트워크(DBN; deep belief network)의 5가지 기계학습을 이용하여 상기 해당 기업의 성과를 예측하는 것을 특징으로 하는, 기계학습 기반 미래 혁신 예측 시스템.
  7. 제6항에 있어서,
    상기 수집부는
    상기 기업들 각각에 대하여 미리 설정된 기간의 등록 특허들 각각에 대한 청구항 수, 양수인, 양수인 수, 발명자, 발명자 수, 선행인용 수와 후행인용 수를 포함하는 특허 데이터를 수집하는 것을 특징으로 하는 기계학습 기반 미래 혁신 예측 시스템.
  8. 제7항에 있어서,
    상기 수집부는
    상기 기업들 각각에 대하여 일정 기간 동안 기업 재무, 임상시험 통과, 미국식품의약국(FDA)에 승인된 데이터, 기술의 기술적 및 상업적 성공 데이터, 신제품/신규 서비스의 출시/인증/허가 데이터를 포함하는 데이터를 성과 데이터로 수집하는 것을 특징으로 하는 기계학습 기반 미래 혁신 예측 시스템.
  9. 삭제
  10. 삭제
KR1020200105512A 2020-03-03 2020-08-21 기계학습 기반 미래 혁신 예측 방법 및 그 시스템 KR102438516B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2021/000664 WO2021177593A1 (ko) 2020-03-03 2021-01-18 기계학습 기반 미래 혁신 예측 방법 및 그 시스템
US17/905,316 US20230186113A1 (en) 2020-03-03 2021-01-18 Machine learning-based future innovation prediction method and system therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200026368 2020-03-03
KR20200026368 2020-03-03

Publications (2)

Publication Number Publication Date
KR20210111666A KR20210111666A (ko) 2021-09-13
KR102438516B1 true KR102438516B1 (ko) 2022-09-01

Family

ID=77796853

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200105512A KR102438516B1 (ko) 2020-03-03 2020-08-21 기계학습 기반 미래 혁신 예측 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR102438516B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102476425B1 (ko) * 2021-12-14 2022-12-13 주식회사 디지이노 생산성 및 수익성 제고를 위한 효율화 서비스 제공 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054592A (ja) * 2002-07-19 2004-02-19 Japan Industrial Technology Association 研究開発投資証券販売方法、研究開発投資証券販売システム、研究開発投資証券販売プログラム及びそのプログラムを記憶した記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150114028A (ko) * 2014-03-31 2015-10-12 한국산업기술대학교산학협력단 단위 산업별 기술 가치 예측 시스템 및 그 시스템의 정보 처리 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054592A (ja) * 2002-07-19 2004-02-19 Japan Industrial Technology Association 研究開発投資証券販売方法、研究開発投資証券販売システム、研究開発投資証券販売プログラム及びそのプログラムを記憶した記録媒体

Also Published As

Publication number Publication date
KR20210111666A (ko) 2021-09-13

Similar Documents

Publication Publication Date Title
Gandhmal et al. Systematic analysis and review of stock market prediction techniques
Maji et al. Decision tree algorithms for prediction of heart disease
Uthayakumar et al. Swarm intelligence based classification rule induction (CRI) framework for qualitative and quantitative approach: An application of bankruptcy prediction and credit risk analysis
Wang et al. Local distribution-based adaptive minority oversampling for imbalanced data classification
Ping et al. Neighborhood rough set and SVM based hybrid credit scoring classifier
Bikku Multi-layered deep learning perceptron approach for health risk prediction
US20230186113A1 (en) Machine learning-based future innovation prediction method and system therefor
Hu et al. The MBPEP: a deep ensemble pruning algorithm providing high quality uncertainty prediction
Kamila et al. Pareto-based multi-objective optimization for classification in data mining
Fombellida et al. Tackling business intelligence with bioinspired deep learning
Jin et al. Introduction to machine learning
Papakyriakou et al. Data mining methods: A review
Shobha et al. Clustering based imputation algorithm using unsupervised neural network for enhancing the quality of healthcare data
KR102438516B1 (ko) 기계학습 기반 미래 혁신 예측 방법 및 그 시스템
Panimalar et al. Customer churn prediction model in cloud environment using DFE-WUNB: ANN deep feature extraction with weight updated tuned Naïve bayes classification with block-jacobi SVD dimensionality reduction
Labiad et al. Short term prediction framework for moroccan stock market using artificial neural networks
Khan et al. Machine assistance for credit approval? Random wheel can recommend and explain
Deng Using case-based reasoning for decision support
Huapaya et al. Comparative analysis of supervised machine learning algorithms for heart disease detection
Jagadeesan et al. An optimized ensemble support vector machine-based extreme learning model for real-time big data analytics and disaster prediction
Sathasivam Application of neural networks in predictive data mining
Munsarif et al. Peer to peer lending risk analysis based on embedded technique and stacking ensemble learning
Pradhan et al. Performance Evaluation of Traditional Classifiers on Prediction of Credit Recovery
Malakouti et al. Hierarchical deep multi-task learning for classification of patient diagnoses
Riston et al. Oversampling Methods for Handling Imbalance Data in Binary Classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right