KR20210148763A - 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템 - Google Patents

머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템 Download PDF

Info

Publication number
KR20210148763A
KR20210148763A KR1020200066080A KR20200066080A KR20210148763A KR 20210148763 A KR20210148763 A KR 20210148763A KR 1020200066080 A KR1020200066080 A KR 1020200066080A KR 20200066080 A KR20200066080 A KR 20200066080A KR 20210148763 A KR20210148763 A KR 20210148763A
Authority
KR
South Korea
Prior art keywords
data
learning model
learning
module
training data
Prior art date
Application number
KR1020200066080A
Other languages
English (en)
Inventor
정태윤
박판종
박용순
김동길
Original Assignee
강릉원주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강릉원주대학교산학협력단 filed Critical 강릉원주대학교산학협력단
Priority to KR1020200066080A priority Critical patent/KR20210148763A/ko
Publication of KR20210148763A publication Critical patent/KR20210148763A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

본 발명은 기계 학습 모델 자동화 구축 시스템 및 방법에 관한 것이다. 상기 기계 학습 모델 자동화 구축 시스템은, 사전 준비된 훈련 데이터 및 테스트 데이터를 저장한 데이터 저장부; 상기 훈련 데이터 및 테스트 데이터에 대하여 전처리하는 데이터 전처리부; 데이터 전처리된 훈련 데이터들 및 테스트 데이터들의 왜도 및 첨도를 조정하여 정규화시키는 정규화 모듈; 상기 정규화된 훈련 데이터들을 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 상기 복수 개의 학습 모델들 중 가장 높은 정확도(Accuracy)를 갖는 학습 모델을 자동으로 검출하는 학습 알고리즘 모델링 모듈; 상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행하는 학습 모델 예측 모듈;을 구비하여, 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된다.

Description

머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템{System for modeling automatically of machine learning and method thereof}
본 발명은 머신 러닝 모델링 자동화 방법 및 시스템에 관한 것으로서, 더욱 구체적으로는, 훈련 데이터와 테스트 데이터를 자동으로 전처리하고, 전처리된 데이터들을 이용하여 사전 설정된 복수 개의 머신 러닝 모델들을 학습하고, 학습된 결과들로부터 가장 우수한 정확도를 갖는 머신 러닝 모델을 자동으로 선택하여 제공하도록 구성된 머신 러닝 모델링 자동화 방법 및 이를 이용한 시스템에 관한 것이다.
기계 학습은 1950년대 이후부터 시작되어 오래되었지만, 80~90 년대까지 발전후 답보 상태를 이루다가 2000년대 중반에 들어와서 현저한 발전을 이루게 되었다. 최근, 사물 인터넷이 활성화됨에 따라 엄청난 양의 데이터가 발생하게 되고, 이러한 빅데이터를 이용하여 학습할 데이터들을 사전 처리하여 최적화시킴으로써 학습 효과를 극대화함에 따라 실용화가 가능한 기계 학습 결과가 나오고 있다.
지도 학습을 위한 대표적인 기계 학습 모델로는 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 결정 트리(Decision Tree), 서포트 벡터 머신(Support Vector Machine), 인공 신경망 등이 있다. 지도 학습에서 입력을 예측 변수(predictor variable) 또는 특징(Feature)라고 하며, 출력을 반응 변수(response variable) 또는 목표 변수(Target variable)라고도 한다. 지도 학습 중 목표 변수가 수치형인 경우에는 '회귀'라고 하며, 범주형인 경우는 '분류'라고 한다.
이러한 기계 학습에 있어서, 가장 중요한 영역 중 하나는 정확한 예측(Prediction)을 위하여 훈련 데이터를 이용하여 정확도가 우수한 모델을 생성하는 과정이다. 기계 학습 모델을 생성하기 위하여는 선형 대수학, 수열 등의 고도의 수학적인 지식이 요구된다. 따라서, 개인이 이러한 이론들을 배우는 데는 많은 시간과 비용이 요구되므로, 많은 한계가 따르게 된다. 또한, 기계 학습 모델에 사용되는 알고리즘을 선택하고 이를 구현하기 위하여는 프로그래밍 언어에 대한 연구 및 공부가 필요하기 때문에 이들을 습득하는데도 더욱 많은 시간이 소요된다. 따라서, 수학 및 통계 분석 등에 대한 전문 지식이 없는 일반인은 기계 학습 모델을 학습시켜 모델링시키는 것이 쉽지 않은 분야이다.
이에 본 발명은 기계 학습에 대한 전문 지식이 부족한 일반인들이라 하더라도, 훈련 데이터들과 테스트 데이터들을 이용하여 정확도가 우수한 기계 학습 모델을 학습시킬 수 있도록 하는 방안을 제안하고자 한다.
한국공개특허공보 제 10-2019-0134983호 한국등록특허공보 제 10-2096301호
전술한 문제점을 해결하기 위하여 본 발명은 머신 러닝에 관한 전문 지식이 부족하더라도, 정답이 존재하는 데이터를 이용하여 복수 개의 학습 모델들을 학습하고 정답이 존재하지 않는 데이터를 이용해서 학습된 학습 모델들의 정확도를 측정함으로써, 성능이 가장 우수한 학습 모델을 자동으로 선택할 수 있도록 하는 기계 학습 모델 자동화 구축 시스템 및 방법을 제공하는 것을 목적으로 한다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 기계 학습 모델 자동화 구축 시스템은, 사전 준비된 훈련 데이터 및 테스트 데이터를 저장한 데이터 저장부; 상기 훈련 데이터 및 테스트 데이터에 대하여 전처리하는 데이터 전처리부; 데이터 전처리된 훈련 데이터들 및 테스트 데이터들의 왜도 및 첨도를 조정하여 정규화시키는 정규화 모듈; 상기 정규화된 훈련 데이터들을 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 상기 복수 개의 학습 모델들 중 가장 높은 정확도(Accuracy)를 갖는 학습 모델을 자동으로 검출하는 학습 알고리즘 모델링 모듈; 상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행하는 학습 모델 예측 모듈;을 구비하여, 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된다.
전술한 제1 특징에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 상기 데이터 전처리부는, 상기 훈련 데이터 및 테스트 데이터들에 있어서 수치형 데이터로 변환이 불가능한 데이터들을 삭제하는 데이터 삭제 모듈; 훈련 데이터 및 테스트 데이터에 대하여, 데이터의 유형에 따라 수치형 데이터 및 범주형 데이터로 분리하는 데이터 분리 모듈; 훈련 데이터 및 테스트 데이터들 중 범주형 데이터를 검출하고, 상기 범주형 데이터를 수치형 데이터로 변환시키는 데이터 변환 모듈; 훈련 데이터 및 테스트 데이터들 중 결측값이 있는 데이터를 검출하고, 결측값을 대체하는 결측값 대체 모듈; 훈련 데이터 및 테스트 데이터들 중 특정 데이터들에 대하여 가변수(Dummy variable)를 생성하는 가변수 생성 모듈;을 구비하는 것이 바람직하다.
전술한 제1 특징에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 상기 학습 알고리즘 모델링 모듈은, 복수 개의 학습 모델들을 사전 설정하고, 데이터 전처리 및 정규화된 훈련 데이터를 이용하여 상기 복수 개의 학습 모델들을 순차적으로 학습하고, 각 학습 모델에 의한 학습 결과를 나타내고, 각 학습 모델에 대한 학습 결과를 수치화하여 정확도로서 저장하고, 상기 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 선택하여 출력하는 것이 바람직하다.
전술한 제1 특징에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 상기 정규화 모듈은, 데이터 전처리된 훈련 데이터 및 테스트 데이터의 왜도 및 첨도를 조정하여 1차 정규화시키는 1차 정규화 모듈; 및 상기 1차 정규화된 훈련 데이터 및 테스트 데이터에 대한 이상치를 제거하여 2차 정규화시키는 2차 정규화 모듈;을 구비하는 것이 바람직하다.
본 발명의 제2 특징에 따른 기계 학습 모델 자동화 구축 방법은, 사전 준비된 훈련 데이터 및 테스트 데이터를 전처리하는 단계; 상기 전처리된 훈련 데이터 및 테스트 데이터들의 왜도 및 첨도를 조정하고, 이상치를 제거하여 정규화시키는 단계; 상기 정규화된 훈련 데이터를 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 검출하는 단계; 상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행하는 단계;를 구비하여, 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된다.
전술한 제2 특징에 따른 기계 학습 모델 자동화 구축 방법에 있어서, 상기 (b) 단계는, 상기 훈련 데이터 및 테스트 데이터들에 있어서 수치형 데이터로 변환이 불가능한 데이터들을 삭제하는 단계; 훈련 데이터 및 테스트 데이터에 대하여, 데이터의 유형에 따라 수치형 데이터 및 범주형 데이터로 분리하는 단계; 훈련 데이터 및 테스트 데이터들 중 범주형 데이터를 검출하고, 상기 범주형 데이터를 수치형 데이터로 변환시키는 단계; 데이터 변환후, 훈련 데이터 및 테스트 데이터들 중 결측값이 있는 데이터를 검출하고, 결측값을 대체하는 단계; 및 훈련 데이터 및 테스트 데이터들 중 특정 데이터들에 대하여 가변수(Dummy variable)를 생성하는 단계;를 구비하는 것이 바람직하다.
전술한 제2 특징에 따른 기계 학습 모델 자동화 구축 방법에 있어서, 상기 (c) 단계는, 복수 개의 학습 모델들을 사전 설정하고, 데이터 전처리 및 정규화된 훈련 데이터를 이용하여 상기 복수 개의 학습 모델들을 순차적으로 학습하고, 각 학습 모델에 의한 학습 결과를 나타내고, 각 학습 모델에 대한 학습 결과를 수치화하여 정확도로서 저장하고, 상기 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 선택하여 출력하는 것이 바람직하다.
본 발명에 따른 기계 학습 모델링 자동화 시스템 및 방법은, 훈련 데이터 및 테스트 데이터에 대한 전처리를 프로그램적으로 수행하고 이를 이용하여 성능이 가장 우수한 학습 모델을 자동으로 선택하도록 구성함으로써, 기계 학습에 대한 전문적인 지식이 부족하더라도 쉽게 기계 학습 모델링을 할 수 있게 된다.
도 1은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템을 도시한 블록도이며, 도 2는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 가장 성능이 우수한 기계 학습 모델을 선택하고 검증 및 예측하는 과정을 순차적으로 설명하는 흐름도이다.
도 3은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 데이터 저장부를 구현하기 위한 파이썬의 코드 및 관련 함수들을 예시적으로 도시한 것이다.
도 4는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 데이터 삭제 모듈을 구현하기 위한 파이썬의 코드 및 삭제 결과를 예시적으로 도시한 것이다.
도 5는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Cabin Column 및 Name Column에 대한 데이터 변환 모듈을 구현하기 위한 파이썬의 코드 및 변환 결과를 예시적으로 도시한 것이다.
도 6은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Embarked Column에 대한 데이터 변환 모듈을 구현하기 위한 파이썬의 코드 및 변환 결과를 예시적으로 도시한 것이다.
도 7은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 결측값이 있는 변수 확인을 위해 사용되는 코드 및 결측값 대체 코드들을 예시적으로 도시한 것이다.
도 8은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 가변수(One-Hot Encoding)에 사용되는 코드를 예시적으로 도시한 것이며, (b)는 가변수 처리에 따른 결과를 예시적으로 도시한 것이다.
도 9는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 1차 정규화 과정에 사용되는 코드를 예시적으로 도시한 것이며, (b)는 1차 정규화 진행 결과를 시각화하는 코드를 예시적으로 도시한 것이며, (c)는 정규화 모듈에 사용되는 코드 및 정규화 모듈에 의해 1차 정규화 전과 정규화 후의 데이터 분포 변화를 예시적으로 도시한 그래프들이다.
도 10은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 정규화 모듈에 의한 2차 정규화 코드를 예시적으로 도시한 것이며, (b)는 정규화 모듈에 의해 2차 정규화하기 위한 아웃라이어들을 예시적으로 도시한 그래프이다.
도 11은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 정규화 모듈에 의해 정규화된 훈련 데이터를 도시한 것이다.
도 12는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 학습 알고리즘 모델링 모듈(40)을 구현하기 위한 코드를 예시적으로 도시한 것이다.
도 13은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 학습 모델 성능 평가 모듈(50)이 학습 모델의 성능 파악을 위하여, 결측값을 대체한 학습 모델과 결측값을 삭제한 학습 모델의 정확도를 비교하여 도시한 그래프이다.
도 14는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 상기 학습 모델 예측 모듈(60)을 구현하기 위한 코드 및 예측 결과를 예시적으로 도시한 것이다.
도 15는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Submission에 따른 예측 결과를 도시한 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템 및 방법에 대하여 구체적으로 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템을 도시한 블록도이며, 도 2는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 가장 성능이 우수한 기계 학습 모델을 선택하고 검증 및 예측하는 과정을 순차적으로 설명하는 흐름도이다.
도 1 및 도 2를 참조하면, 본 발명에 따른 기계 학습 모델 자동화 구축 시스템(1)는, 데이터 저장부(10), 데이터 전처리부(20), 정규화 모듈(30), 학습 알고리즘 모델링 모듈(40), 학습 모델 성능 평가 모듈(50) 및 학습 모델 예측 모듈(60)을 구비하여, 학습 과정을 통해 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된 것을 특징으로 한다. 상기 데이터 저장부(10)는 사전 준비된 훈련 데이터 및 테스트 데이터를 저장 및 관리한다. 상기 데이터 전처리부(20)는 학습을 위하여 상기 훈련 데이터 및 테스트 데이터를 전처리한다. 상기 정규화 모듈(30)은 데이터 전처리된 훈련 데이터들 및 테스트 데이터들의 왜도 및 첨도를 조정하고 이상치를 제거하여 정규화시킨다. 상기 학습 알고리즘 모델링 모듈(40)은 상기 정규화된 훈련 데이터들을 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 상기 복수 개의 학습 모델들 중 가장 높은 정확도(Accuracy)를 갖는 학습 모델을 자동으로 검출한다. 상기 학습 모델 성능 평가 모듈(50)은 상기 선택된 학습 모델의 성능을 평가한다. 상기 학습 모델 예측 모듈(60)은 상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행한다. 이하, 전술한 각 구성요소들에 대하여 보다 구체적으로 설명한다. 본 발명에 따른 시스템은 파이썬(Python) 등과 같은 프로그래밍 언어를 사용하여 구현될 수 있으며, 본 명세서에서는 예시적으로 파이썬 라이브러리를 이용하여 구현되는 과정을 설명하도록 한다. 또한, 본 명세서에서는 캐글(www.kaggle.com)에서 공개적으로 제공하는 타이타닉 훈련 데이터와 테스트 데이터를 사용하여 모델링 과정을 예시적으로 설명하도록 한다.
상기 데이터 저장부(10)는 학습에 사용되는 훈련 데이터와 예측에 사용되는 테스트 데이터를 저장 및 관리하는 데이터베이스로서, 훈련 데이터 및 테스트 데이터는 머신 러닝 모델의 학습을 위하여 온라인 등을 통해 공개적으로 제공되는 데이터를 읽어와서 사용할 수 있다. 상기 데이터 저장부는, 머신 러닝 모델에 사용되는 데이터를 입력하기 위하여, 학습 모델에 사용될 훈련 데이터와 예측에 사용될 테스트 데이터를 준비하고, 상기 준비된 데이터들의 종속 변수(Label)와 독립 변수(Feature)를 확인한다.
도 3은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 데이터 저장부를 구현하기 위한 파이썬의 코드 및 관련 함수들을 예시적으로 도시한 것이다. 도 3의 (a)는 데이터 읽어오기 및 데이터 정보를 확인하는 코드들로서, Pandas 라이브러리를 이용하여 train.csv, test.csv 파일을 불러와서 train 및 test 변수에 이를 저장하고, head() 명령어를 이용하여 앞에서 5열까지의 정보 확인이 가능하다. 도 3의 (b)는 train.head() 명령어에 따른 결과를 예시적으로 도시한 것이며, 도 3의 (c)는 test.head() 명령어에 따른 결과를 예시적으로 도시한 것이다. 타이타닉 훈련 데이터의 종속 변수는 '생존(Survived)' 항목이므로, 테스트 데이터는 '생존(Survived)' 항목이 없다.
데이터 저장부에 의해 준비된 훈련 데이터 및 테스트 데이터는 정확한 학습을 위하여 전처리되어야 하며, 상기 데이터 전처리부는 훈련 데이터 및 테스트 데이터들을 전처리하게 된다. 상기 데이터 전처리부(20)는 데이터 삭제 모듈(22), 데이터 분리 모듈(24), 데이터 변환 모듈(26), 결측값 대체 모듈(28) 및 가변수 생성 모듈(29)을 구비한다.
일반적으로 훈련 데이터 및 테스트 데이터의 유형은 수치형 데이터(Numerical data)와 범주형 데이터(Categorical data)로 나뉠 수 있다. 상기 수치형 데이터는 숫자로 표현되는 데이터로서, 숫자만으로 표현될 수 있는 변수인 age(예: '28', '35', '41'), score(예: '95.2', '88.7', '93.6') 등이 포함된다. 한편, 범주형 데이터는 문자로 표현되거나 문자와 숫자의 병합으로 표현될 수 있는 변수들로서, 문자만으로 이루어진 예로는 sex(예; 'male', 'female'), season(예: 'spring', 'summer', 'fall', 'winter')등이 포함되며, 문자+숫자로 이루어진 예로는 date(예; '2020-04-22'), time('pm 13:15:21') 등이 포함될 수 있다. 훈련 데이터 중 범주형 데이터는 학습이 불가능하므로, 범주형 데이터는 학습이 가능한 수치형 데이터로 변환시키고, 변환이 어려운 데이터는 보다 정확한 학습을 위하여 삭제시키는 것이 바람직하다.
상기 데이터 삭제 모듈(22)은, 상기 훈련 데이터 및 테스트 데이터를 구성하는 범주형 데이터들 중 수치형 데이터로 변환이 불가능한 데이터들을 삭제한다. 도 4는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 데이터 삭제 모듈을 구현하기 위한 파이썬의 코드 및 삭제 결과를 예시적으로 도시한 것이다. 도 4의 (a)는 범주형 자료 확인에 사용되는 코드를 예시적으로 도시한 것으로서, train dataset에서 data type이 'object'에 해당하는 column을 선택함으로써, 관련 정보를 확인할 수 있게 된다. 도 4의 (b)는 변환이 불가능한 변수 column의 삭제에 사용되는 코드를 예시적으로 도시한 것으로서, 변환이 불가능한 변수는 delete에 그 값을 저장하고, drop 명령어를 사용하여 열을 기준(axis = 1)으로 삭제를 진행하게 된다. 이에 따라, 그 결과를 바로 적용하면(inplace = True), head() 명령어를 이용하여 결과를 확인할 수 있게 된다. 도 4의 (c)는 train dataset에서 ticket column을 삭제한 결과를 도시한 것이다.
상기 데이터 분리 모듈(24)은, 훈련 데이터 및 테스트 데이터에 대하여, 데이터의 유형에 따라 수치형 데이터 및 범주형 데이터로 분리한다.
상기 데이터 변환 모듈(26)은 상기 데이터 분리 모듈에 의해 분리된 데이터들 중 범주형 데이터를 검출하고, 상기 범주형 데이터를 수치형 데이터로 변환시킨다. 도 5는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Cabin Column 및 Name Column에 대한 데이터 변환 모듈을 구현하기 위한 파이썬의 코드 및 변환 결과를 예시적으로 도시한 것이다. 도 5의 (a)는 Cabin Column을 변환할 때 사용되는 코드를 예시적으로 도시한 것으로서, 변환이 필요한 변수를 preprocessing에 저장하고, 정규표현식([A-z]+)을 이용해서 Cabin을 C, D로 분류한다. 결측값이 있는 연속형 변수의 경우에는 결측값이 있는 범주형 변수에서 변환할 때 사용되는 코드를 제외하고 결측값 대체에 사용한 코드를 동일하게 사용한다. 도 5의 (b)는 Name Column을 변환할 때 사용되는 코드를 예시적으로 도시한 것으로서, Name Column은 결측값이 없는 범주형 변수로서, 결측값 대체에 사용되는 코드를 제외하고 결측값이 있는 범주형 변수의 변환 코드와 동일하게 사용할 수 있다. 이때, 범주형 변수가 문자와 숫자 등의 혼합이 아닌 경우에는 정규표형식을 다르게 표현해서 Name을 Mr, Miss 등으로 분류하고, LabelEncoder().fir_transform() 명령어로 수치화한다. 도 5의 (c)는 Name Column에 대하여 변환한 이후의 결과를 도시한 것이다.
한편, 도 6은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Embarked Column에 대한 데이터 변환 모듈을 구현하기 위한 파이썬의 코드 및 변환 결과를 예시적으로 도시한 것이다. 도 6의 (a)는 결측값은 없지만 수치형 변환이 필요한 Embarked Column을 변환할 때 사용되는 코드를 예시적으로 도시한 것이며, Embarked 열의 수만큼(len(train['Embarked'])) replace() 명령어를 이용하여 문자를 숫자로 변환하게 된다. 도 6의 (b)는 Embarked Column에 대한 변환 결과를 도시한 것이다.
상기 결측값 대체 모듈(28)은 범주형 데이터들에 대한 수치형 데이터로의 변환이 완료된 상기 훈련 데이터 및 테스트 데이터들로부터 결측값이 있는 데이터를 검출하고, 결측값을 대체한다.
본 발명에 따른 결측값 대체 모듈은, 수치 데이터로 변환된 데이터 셋에서 결측값을 검출되면, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하고, 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하고, 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하고, 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 것이 바람직하다. 여기서, 상기 통계값은, 해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것이 바람직하다.
도 7은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 결측값이 있는 변수 확인을 위해 사용되는 코드 및 결측값 대체 코드들을 예시적으로 도시한 것이다. 도 7의 (a)는 결측값이 있는 변수 확인을 위해 사용되는 코드를 예시적으로 도시한 것이며, 도 7의 (b)는 훈련 dataset에서 결측값 유무를 확인하는 그래프이다. 도 7의 (a) 및 (b)에 있어서, 결측값이 있는 변수는 Age 및 Cabin임을 알 수 있다. 도 7의 (c)는 개선된 결측값 대체 코드를 예시적으로 도시한 것이며, 도 7의 (d)는 Age 및 Cabin 결측값 대체에 사용되는 코드를 예시적으로 도시한 것이다. 도 7의 (c) 및 (d)를 참조하면, Age와 Cabin의 결측값을 대체하기 위하여, 먼저 corrwith() 명령어를 통해 Age와 Cabin에 영향이 가장 높은 변수를 찾아 정렬(sort_value)하고, 이를 데이터 프레임에 저장한다. 이때, 상관계수(correlation) 값이 1에 해당하는 변수는 제외하고 top_에 저장하고 fillna() 명령어를 이용하여 Age와 Cabin 결측값을 train[top_].median()으로 대체한다.
상기 가변수 생성 모듈(29)은 훈련 데이터 및 테스트 데이터들 중 특정 데이터들에 대하여 가변수(Dummy variable)를 생성한다. Sex는 male과 female과 같이 사실 여부에 대하여 '예' 또는 '아니오'로 확인이 가능한 경우, 가변수(One-Hot Encoding)를 활용하여 male을 '0'으로 변환하고 female을 '1'의 숫자 형태로 변환할 수 있다. 도 8은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 가변수(One-Hot Encoding)에 사용되는 코드를 예시적으로 도시한 것이며, (b)는 가변수 처리에 따른 결과를 예시적으로 도시한 것이다. 도 8의 (b)를 참조하면, 가변수 생성 모듈에 의해 Sex_male 및 Sex_female 변수가 생성되어 추가되었음을 확인할 수 있다.
상기 정규화 모듈(30)은 상기 데이터 전처리부에 의해 전처리된 훈련 데이터들 및 테스트 데이터들의 왜도(Skewness) 및 첨도(Kurtosis)를 조정하여 1차 정규화시킴으로써, 데이터 쏠림을 방지한다. 파이썬의 경우, skew() 함수를 사용하여 데이터의 왜도를 조정하고 kurt() 함수를 사용하여 첨도를 조정하게 된다. 도 9는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 1차 정규화 과정에 사용되는 코드를 예시적으로 도시한 것이며, (b)는 1차 정규화 진행 결과를 시각화하는 코드를 예시적으로 도시한 것이며, (c)는 정규화 모듈에 사용되는 코드 및 정규화 모듈에 의해 1차 정규화 전과 정규화 후의 데이터 분포 변화를 예시적으로 도시한 그래프들이다. 도 9의 (a) 및 (b)를 통해, 'Fare' 변수를 예로 들면, 0보다 큰 값에 log를 취하여 왜도와 첨도값을 조정할 수 있으며, 시각화 명령어를 통해 정규화 전후 데이터 분포의 시각화 및 왜도값과 첨도값을 확인할 수 있게 된다.
도 9의 (c)는 1차 정규화 전(파란색)과 후(붉은색) 데이터 분포 변화를 예시적으로 도시한 그래프이다. 도 9의 (c)를 참조하면, 왜도는 0에 가까울수록, 첨도는 3에 가까울수록 데이터 정규화가 잘 된 것으로 판단할 수 있으며, 이로부터 1차 정규화가 잘 된 것을 확인할 수 있다.
한편, 상기 정규화 모듈은 중앙값(Median)과 IQR(Interquartile Range)를 사용한 preprocessing의 RobustScaler() 함수를 이용하여 이상치를 제거하여 2차 정규화시킴으로써, 아웃라이어를 최소화시키는 것이 바람직하다. 여기서, 아웃라이어는 데이터 상의 다른 값들의 분포와 비교하였을 때 비정상적으로 떨어져 있는 관측치를 의미한다.
도 10은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, (a)는 정규화 모듈에 의한 2차 정규화 코드를 예시적으로 도시한 것이며, (b)는 정규화 모듈에 의해 2차 정규화하기 위한 아웃라이어들을 예시적으로 도시한 그래프이다. 도 10을 참조하면, 파란 점들이 아웃라이어로서, RobustScaler() 함수를 통해 중앙값(Median)과 IQR(Interquartile Range)를 사용해서 아웃라이어의 영향을 최소화시킬 수 있게 된다.
도 11은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 정규화 모듈에 의해 정규화된 훈련 데이터를 도시한 것이다. 도 11에 도시된 훈련 데이터는, 전술한 데이터 전처리부에 의해 전처리되고, 전처리된 데이터들이 정규화 모듈에 의해 정규화되어 머신러닝 모델의 학습에 사용될 최종 데이터이다. 도 11을 통해, 정규화 모듈에 의한 왜도 및 첨도 값 조정으로 각 변수의 데이터가 정규 분포에 가깝게 변경되고 이상치가 제거된 것을 확인할 수 있다.
상기 학습 알고리즘 모델링 모듈(40)은 여러 개의 학습 모델들 중 정확도가 가장 우수한 알고리즘을 자동으로 선택하도록 설계된 것이다. 따라서, 상기 학습 알고리즘 모델링 모듈(40)은, 모델링할 복수 개의 학습 모델들을 사전 설정하고, for 구문을 이용하여 상기 복수 개의 학습 모델들을 순차적으로 학습하고, 각 학습 모델에 대한 학습 결과를 나타내고, 각 학습 모델에 대한 학습 결과를 수치화하여 정확도(Accuracy)에 저장하고, 상기 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 선택하여 출력하도록 구성된 것을 특징으로 한다. 여기서, 정확도(Accuracy)는 가장 직관적인 학습 모델의 성능을 나타낼 수 있는 평가 지표로서, 예시적으로 설명하고 있는 훈련 데이터에서 종속 변수인 생존을 생존으로, 죽음을 죽음으로 정확하게 모두 예측한 확률을 의미한다.
도 12는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 학습 알고리즘 모델링 모듈(40)을 구현하기 위한 코드를 예시적으로 도시한 것이다. 도 12를 참조하면, 학습 알고리즘 모델링 모듈은 먼저 model 변수에 학습에 사용되는 알고리즘 중 하나를 임의로 저장하는데, 본 예시에서는 DecisionTreeClassifier()를 저장한다. 다음, 모델 성능을 확인하기 위하여 빈 리스트를 갖는 best 변수를 생성한다. 다음, for 구문을 통해, 학습하고자 하는 복수 개의 알고리즘들을 순차적으로 나열하고, model 변수에 상기 복수 개의 학습 알고리즘들을 순차적으로 대입함으로써, 상기 복수 개의 학습 알고리즘들을 순차적으로 학습하게 된다. 여기서, model은 훈련 데이터에서 Label이 없는 X_train과 Label이 있는 y-train으로 학습을 진행하게 된다.
Model 성능은 데이터 검증을 위하여 훈련 데이터에서 30%를 Label이 없는 X_val과 Label이 있는 y-val을 사용하였으며, 학습 결과를 score 함수를 통해 나타내고, round 함수에서 반올림할 소수점을 2로 지정하여 accuracy에 저장한다. 이렇게 저장된 accuracy값은 score만 확인 가능하므로, 사전에 생성한 best 변수에 append 함수를 사용하여 accuracy에 필요한 요소를 새롭게 추가하는 것이 바람직하다.
다음, Pandas의 DataFrame 모듈을 사용하여 best에 저장된 모든 리스트를 데이터화하고 accuracy를 지정해서 best_에 저장하고 데이터를 정렬함으로써, 알고리즘 이름과 accuracy값이 순차적으로 정렬된 best_ 변수를 얻게 된다. 일반적으로 model을 학습하기 위하여 알고리즘 명칭 뒤에 ()를 사용하여야 한다. 이를 프로그램적으로 해결하기 위하여, exec 함수를 이용하여 best_1 함수를 자동 객체로 전환하게 된다. 이로써, model_1 변수의 best_1에 저장된 알고리즘 명칭(예; 'KNeighborsClassifier')은 KNeighborsClassifier()의 함수의 형태로 변환되어 저장되고, 가장 성능이 우수한 알고리즘으로 모델을 학습하게 된다.
Score는 파이썬의 sklearn 패키지에서 cross_val_score 모듈을 통해 점수를 표현하는데, 사용되는 데이터는 Label이 없는 feature 데이터와 Label이 있는 target 데이터이며 kfold 교차 검증을 사용한다. 교차 검증 결과 나타난 score 점수를 mean 함수로 평균하여 표현하게 된다.
도 13은 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 학습 모델 성능 평가 모듈(50)이 학습 모델의 성능 파악을 위하여, 결측값을 대체한 학습 모델과 결측값을 삭제한 학습 모델의 정확도를 비교하여 도시한 그래프이다. 도 13을 참조하면, 100회 학습량을 기준으로 결측값을 삭제한 경우 정확도가 74.55%로써 모델의 성능이 균일하게 나타났지만, 결측값을 대체한 경우에는 정확도가 81.72 % ~ 85.07 %의 범위에서 평균 83.14%를 나타냄으로써, 결측값을 삭제한 모델보다 결측값을 대체한 모델의 성능이 ±7.17 ~ 10.52% 정도 더 높아진 것을 확인할 수 있다.
상기 학습 모델 예측 모듈(60)은 상기 학습 알고리즘 모델링 모듈(40)에 의해 선택된 가장 우수한 학습 모델을 이용하여, 테스트 데이터의 Label을 예측한다.
도 14는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, 상기 학습 모델 예측 모듈(60)을 구현하기 위한 코드 및 예측 결과를 예시적으로 도시한 것이다. 도 14의 (a)를 참조하면, 상기 학습 모델 예측 모듈(60)은 학습 모델을 바탕으로 테스트 데이터 셋을 예측하기 위하여, 테스트 데이터에 대하여 데이터 전처리 과정 및 정규화 과정을 동일하게 적용하고 학습하여 예측 결과의 정답을 확인하게 된다. 테스트 데이터의 경우, Label이 존재하지 않으며, 변수(Feature)는 훈련 데이터와 동일하게 사용된다.
도 14의 (b)를 참조하면, 상기 학습 모델 예측 모듈(60)에 의하여 테스트 데이터를 예측한 결과를 확인함으로써, 최종적으로 학습 모델의 정확도를 확인할 수 있게 된다. 예측 결과를 확인하기 위하여, 캐글(http://www.kaggle.com/c/titanic/submit)을 이용할 수 있다. 캐글 Submit Prediction 메뉴에 제출하기 위하여 예측 결과를 to_csv 함수를 사용해서 로컬에 저장하고 결과를 확인하게 된다. 도 15는 본 발명의 바람직한 실시예에 따른 기계 학습 모델 자동화 구축 시스템에 있어서, Submission 에 따른 예측 결과를 도시한 것이다. 도 15를 참조하면, 예측 결과는 약 78.95%로 나타난 것을 확인할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
1 : 학습 모델 자동화 구축 시스템
10 : 데이터 저장부
20 : 데이터 전처리부
30 : 정규화 모듈
40 : 학습 알고리즘 모델링 모듈
50 : 학습 모델 성능 평가 모듈
60 : 학습 모델 예측 모듈
22 : 데이터 삭제 모듈
24 : 데이터 분리 모듈
26 : 데이터 변환 모듈
28 : 결측값 대체 모듈
29 : 가변수 생성 모듈

Claims (12)

  1. 사전 준비된 훈련 데이터 및 테스트 데이터를 저장한 데이터 저장부;
    상기 훈련 데이터 및 테스트 데이터에 대하여 전처리하는 데이터 전처리부;
    데이터 전처리된 훈련 데이터들 및 테스트 데이터들의 왜도 및 첨도를 조정하여 정규화시키는 정규화 모듈;
    상기 정규화된 훈련 데이터들을 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 상기 복수 개의 학습 모델들 중 가장 높은 정확도(Accuracy)를 갖는 학습 모델을 자동으로 검출하는 학습 알고리즘 모델링 모듈;
    상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행하는 학습 모델 예측 모듈;
    을 구비하여, 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  2. 제1항에 있어서, 상기 데이터 전처리부는,
    훈련 데이터 및 테스트 데이터에 대하여, 데이터의 유형에 따라 수치형 데이터 및 범주형 데이터로 분리하는 데이터 분리 모듈;
    훈련 데이터 및 테스트 데이터들 중 범주형 데이터를 검출하고, 상기 범주형 데이터를 수치형 데이터로 변환시키는 데이터 변환 모듈;
    훈련 데이터 및 테스트 데이터들 중 결측값이 있는 데이터를 검출하고, 결측값을 대체하는 결측값 대체 모듈;
    을 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  3. 제2항에 있어서, 상기 결측값 대체 모듈은,
    수치 데이터로 변환된 데이터 셋에서 결측값을 검출되면, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하고, 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하고, 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하고, 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 것을 특징으로 하는 기계 학습 모델 자동화 방법.
  4. 제3항에 있어서, 통계값은,
    해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것을 특징으로 하는 기계 학습 모델 자동화 방법.
  5. 제2항에 있어서, 상기 데이터 전처리부는,
    훈련 데이터 및 테스트 데이터들 중 특정 데이터들에 대하여 가변수(Dummy variable)를 생성하는 가변수 생성 모듈;을 더 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  6. 제2항에 있어서, 상기 데이터 전처리부는,
    상기 훈련 데이터 및 테스트 데이터들에 있어서 수치형 데이터로 변환이 불가능한 데이터들을 삭제하는 데이터 삭제 모듈;을 더 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  7. 제1항에 있어서, 상기 학습 알고리즘 모델링 모듈은,
    복수 개의 학습 모델들을 사전 설정하고,
    데이터 전처리 및 정규화된 훈련 데이터를 이용하여 상기 복수 개의 학습 모델들을 순차적으로 학습하고, 각 학습 모델에 의한 학습 결과를 나타내고,
    각 학습 모델에 대한 학습 결과를 수치화하여 정확도로서 저장하고,
    상기 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 선택하여 출력하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  8. 제1항에 있어서, 상기 정규화 모듈은,
    데이터 전처리된 훈련 데이터 및 테스트 데이터의 왜도 및 첨도를 조정하여 1차 정규화시키는 1차 정규화 모듈; 및
    상기 1차 정규화된 훈련 데이터 및 테스트 데이터에 대한 이상치를 제거하여 2차 정규화시키는 2차 정규화 모듈;
    을 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 시스템.
  9. (a) 사전 준비된 훈련 데이터 및 테스트 데이터를 전처리하는 단계;
    (b) 상기 전처리된 훈련 데이터 및 테스트 데이터들의 왜도 및 첨도를 조정하고, 이상치를 제거하여 정규화시키는 단계;
    (c) 상기 정규화된 훈련 데이터를 이용하여 사전 설정된 복수 개의 학습 모델들을 순차적으로 학습하고, 학습 결과를 기반으로 하여 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 검출하는 단계;
    (d) 상기 정규화된 테스트 데이터를 이용하여 상기 검출된 학습 모델에 따른 예측을 수행하는 단계;
    를 구비하여, 정확도가 가장 우수한 학습 모델을 자동으로 구축할 수 있도록 구성된 것을 특징으로 하는 기계 학습 모델 자동화 구축 방법.
  10. 제9항에 있어서, 상기 (b) 단계는,
    상기 훈련 데이터 및 테스트 데이터들에 있어서 수치형 데이터로 변환이 불가능한 데이터들을 삭제하는 단계;
    훈련 데이터 및 테스트 데이터에 대하여, 데이터의 유형에 따라 수치형 데이터 및 범주형 데이터로 분리하는 단계;
    훈련 데이터 및 테스트 데이터들 중 범주형 데이터를 검출하고, 상기 범주형 데이터를 수치형 데이터로 변환시키는 단계;
    데이터 변환후, 훈련 데이터 및 테스트 데이터들 중 결측값이 있는 데이터를 검출하고, 결측값을 대체하는 단계;
    을 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 방법.
  11. 제10항에 있어서, 상기 (b) 단계는,
    훈련 데이터 및 테스트 데이터들 중 특정 데이터들에 대하여 가변수(Dummy variable)를 생성하는 단계;를 더 구비하는 것을 특징으로 하는 기계 학습 모델 자동화 구축 방법.
  12. 제9항에 있어서, 상기 (c) 단계는,
    복수 개의 학습 모델들을 사전 설정하고,
    데이터 전처리 및 정규화된 훈련 데이터를 이용하여 상기 복수 개의 학습 모델들을 순차적으로 학습하고, 각 학습 모델에 의한 학습 결과를 나타내고,
    각 학습 모델에 대한 학습 결과를 수치화하여 정확도로서 저장하고,
    상기 복수 개의 학습 모델들 중 가장 높은 정확도를 갖는 학습 모델을 자동으로 선택하여 출력하는 것을 특징으로 하는 기계 학습 모델 자동화 방법.

KR1020200066080A 2020-06-01 2020-06-01 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템 KR20210148763A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200066080A KR20210148763A (ko) 2020-06-01 2020-06-01 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200066080A KR20210148763A (ko) 2020-06-01 2020-06-01 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템

Publications (1)

Publication Number Publication Date
KR20210148763A true KR20210148763A (ko) 2021-12-08

Family

ID=78867715

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200066080A KR20210148763A (ko) 2020-06-01 2020-06-01 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템

Country Status (1)

Country Link
KR (1) KR20210148763A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190134983A (ko) 2018-05-18 2019-12-05 박병훈 빅데이터 기반의 인공지능 통합 플랫폼 서비스 방법
KR102096301B1 (ko) 2019-04-03 2020-04-02 (주)뤼이드 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190134983A (ko) 2018-05-18 2019-12-05 박병훈 빅데이터 기반의 인공지능 통합 플랫폼 서비스 방법
KR102096301B1 (ko) 2019-04-03 2020-04-02 (주)뤼이드 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
US10909188B2 (en) Machine learning techniques for detecting docketing data anomalies
KR102475108B1 (ko) 최적화된 하이퍼파라미터를 갖는 기계 학습 모델링 자동화 방법 및 이를 이용한 기계 학습 모델링 자동화 시스템
CN112116184A (zh) 使用历史检验数据的工厂风险估计
CN117787569B (zh) 一种智能辅助评标方法及系统
CN116595328B (zh) 一种基于知识图谱的数据评分卡模型智能构建装置及方法
CN117763455A (zh) 一种基于理赔知识辅助质检审核方法、装置及系统
Bhardwaj et al. Health insurance amount prediction
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
CN117609731A (zh) 一种基于因果推断的本科生毕业去向预测方法与可视分析系统
KR102406375B1 (ko) 원천 기술의 평가 방법을 포함하는 전자 장치
CN116701873A (zh) 基于主客观信息融合表示的行为危险倾向预测方法及系统
KR20210148763A (ko) 머신 러닝 모델링 자동화 방법 및 이를 이용한 머신 러닝 모델링 자동화 시스템
Mueller et al. Feature selection for measurement models
Kashyap Machine Learning in Google Cloud Big Query using SQL
CN113537731A (zh) 基于强化学习的设计资源能力评估方法
JP2021170244A (ja) 学習モデル構築システムおよびその方法
CN110717628A (zh) 一种货源优配模型构建方法、优配模型以及优配方法
CN118521324B (zh) 一种多卷烟样品混搭的真伪测试方法
CN118537144B (zh) 一种农业保险核保风险预测方法及系统
CN117808065A (zh) 一种基于数据大脑的智能决策方法
CN118747904A (zh) 基于大规模语言模型的商务合同风险智能审查方法及系统
Marsman Analysing machine learning algorithms to automate a decision making process
Muselli et al. Rulex Platform: leveraging domain knowledge and data-driven rules to support decisions in the fintech sector through eXplainable AI models
Swale EasyMl: An AutoMl System Using Meta Learning and Particle Swarm Optimization
CN117764704A (zh) 基于大数据的风险管理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
E601 Decision to refuse application