KR102652425B1

KR102652425B1 - 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법 및 분석 시스템

Info

Publication number: KR102652425B1
Application number: KR1020220074583A
Authority: KR
Inventors: 강정석
Original assignee: 주식회사 에이젠글로벌
Priority date: 2020-05-11
Filing date: 2022-06-20
Publication date: 2024-03-29
Also published as: KR20210137604A; KR102412433B1; KR20220088670A

Abstract

인공지능 데이터 자동 분석 방법 및 분석 시스템이 개시된다. 본 발명의 일 실시예에 따른 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 방법은 사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신 단계, 상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정 단계, 상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리 단계, 상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정 단계, 상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성 단계 및 생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석 단계를 포함한다.

Description

분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법 및 분석 시스템{ARTIFICIAL INTELLIGENCE DATA AUTOMATIC ANALYSIS METHOD AND SYSTEM CAPABLE OF ANALYZING VARIABLE INFLUENCE BY QUANTILE}

본 발명은 인공지능 데이터 자동 분석 방법 및 분석 시스템에 관한 것이다. 더 구체적으로는, 금융 또는 비금융 데이터 분석을 위한 기계 학습 기반의 인공지능 데이터 자동 분석 방법 및 분석 시스템에 관한 것이다.

최근 EU, 일본 등 주요국은 금융산업의 결제망과 데이터를 핀테크 기업 등에 개방하는 API(Application Programming Interface) 개방 정책을 적극적으로 추진하고 있다. 국내에서도 핀테크 인프라 구축을 위해 금융권의 API 개방 정책을 지속해서 추진하고 있다. 또한, 기업 차원에서도 금융권 기업들이 타사 대비 경쟁력 확보를 위해 API 운영 사례가 증가하고 있다.

금융권 및 핀테크 기업의 API 활용 분야는 다양한 분야의 데이터 통합을 처리하는 수준으로써 통합된 데이터에서 새로운 가치를 창출할 수 있는 기술이 필요하며, 데이터를 단순 처리하는 것이 아닌 혁신적이고 창의적인 서비스 제공에 활용될 수 있는 기술이 개발될 필요가 있다.

그러나 현재 금융권의 API 운영은 정보 조회, 지급·결제 분야에 한정된 실정이며, 이 같은 상황으로 금융권이 소유하고 있는 데이터를 이용한 핀테크 기술의 잠재적 활용성을 발휘하지 못하고 있는 문제가 있다.

KR 10-2019-0114694 A (2019. 10. 10.)

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 핀테크를 포함한 기업 또는 개인이 금융기관의 API 개방으로 풍부해진 금융·비금융 데이터를 적용하여 기계학습을 이용한 인공지능 예측 모델을 용이하게 생성하고 활용할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 은행, 카드, 보험사에 특화된 학습 알고리즘을 기반으로 시간흐름에 따른 예측 모델의 성능을 평가하여 항상 성능이 높은 예측 모델을 제공할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 금융 ·비금융과 다양한 소스의 이종 데이터를 동시에 결합하고, 테스트 및 검증을 통해 통계적으로 이상치 및 에러값에 영향을 적게 받는 예측 모델을 생성할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 데이터 수집, 전처리, 예측 모형 구성 및 비교 검증의 모든 기계학습 과정을 자동으로 수행하는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 다수의 예측 모형을 병렬처리를 통해 동시다발적으로 예측 모델 생성, 관리 및 업데이트를 수행할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 인공지능 관련 경험이 없는 사용자도 용이하게 예측 모델을 생성할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 데이터 종류, 속성, 타입 등 데이터의 정보를 제공하고, 분류 및 필터링 범위에서 데이터의 전처리가 가능한 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 연체 예측, 부도 예측, 이상거래 예측 등을 수행하는 이진 분류 모델 및 판매량 예측, 가격 예측 등을 수행하는 회귀 모델에 대한 모델링을 수행할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 로우 데이터에 대한 학습 데이터 및 테스트 데이터를 분리하는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 사용자가 예측 모델 결과에 대한 이해를 통해 예측 모델을 비즈니스 인사이트에 이용할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 예측값, 예측확률, 예측값 분포와 예측 정보를 실시간으로 확인할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

또한, 사용자의 쉬운 이해를 위해 분석 알고리즘 기반 시각화 화면을 확인할 수 있는 인공지능 데이터 자동 분석 방법 및 분석 시스템을 제공하고자 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용으로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 방법은 사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신 단계; 상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정 단계; 상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리 단계; 상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정 단계; 상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성 단계; 및 생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석 단계;를 포함할 수 있다.

또한, 상기 성능 분석 단계는, 상기 예측 모델에 대한 성능 지표를 산출하고, 상기 사용자 인터페이스를 통하여 출력할 수 있다.

또한, 상기 학습 방법 설정 단계는, 상기 기계학습을 수행할 변수를 설정하는 단계; 및 복수의 학습 알고리즘을 선택하는 단계;를 포함하고, 상기 성능 분석 단계는, 상기 복수의 학습 알고리즘의 각각의 상기 성능 지표를 비교하여 상기 사용자 인터페이스를 통하여 출력할 수 있다.

또한, 상기 학습 알고리즘은 분류 모델링, 회귀 모델링, 군집화 모델링 및 추천 모델링 중 하나로 상기 예측 모델을 생성할 수 있다.

또한, 상기 전처리 설정 단계는, 상기 사용자 인터페이스를 통하여 상기 로우 데이터의 변수에 대한 통계치, 상기 변수의 특이값(Outlier) 수, 상기 변수의 결측치(Missing value) 수 및 상기 변수 사이의 연관도 중 하나 이상을 출력할 수 있다.

또한, 상기 사용자 인터페이스는, 상기 로우 데이터의 변수의 데이터값 분포도 및 상기 예측 모델의 결과값의 분포도 중 하나 이상을 출력할 수 있다.

또한, 상기 성능 지표는, 상기 예측 모델이 이진 분류 모델링으로 훈련된 경우, 수신자 조작 특성 곡선의 아랫 면적(ROC_AUC; Receiver Operating Characteristic Curve _ Area Under the Curve), 정밀도-재현율 곡선의 아랫 면적(PRC_AUC; Precision-Recall Curve _ Area Under the Curve), 로그 손실(Log Loss), KS 통계량 중 하나 이상을 이용하여 산출되고, 상기 예측 모델이 회귀 모델링으로 훈련된 경우, 평균 제곱근 오차(RMSE; Root Mean Square Error), 평균 절대 오차(MAE; Mean Absolute Error), EXP-VAR, 결정계수(R-Square) 중 하나 이상을 이용하여 산출될 수 있다.

또한, 상기 성능 분석 단계는, 상기 로우 데이터의 각각의 변수가 상기 예측 모델의 예측 결과값 산출에 작용하는 영향도를 산출하여 상기 사용자 인터페이스에 출력할 수 있다.

또한, 상기 성능 분석 단계는, 상기 예측 결과값을 10분위, 20분위, 30분위 및 60분위 중 하나로 분류하고, 분위별로 상기 영향도를 산출할 수 있다.

또한, 상기 학습 방법 설정 단계는, 상기 모델링 데이터를 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트으로 분할하고, 상기 훈련 데이터 세트를 이용하여 상기 예측 모델을 생성하되, 상기 모델링 데이터 분할은 상기 모델링 데이터의 원소를 랜덤으로 샘플링하는 랜덤 방법, 상기 원소를 순차적으로 샘플링 하는 순차 방법 및 상기 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 중 하나를 이용하여 분할할 수 있다.

또한, 상기 모델 생성 단계는, 상기 훈련 데이터 세트를 미리 정해진 수로 등분하고, 순차적으로 등분된 훈련 데이터 세트 중 하나를 상기 검증 데이터 세트로 지정 후, 지정한 검증 데이터 세트를 이용해 파라미터(Parameter)를 튜닝하는 검증을 상기 미리 정해진 수만큼 반복하는 케이-폴드(K-Fold; K-times folds) 방법 또는 상기 훈련 데이터 세트에서 중복을 허용한 샘플링을 통해 상기 검증 데이터 세트를 생성하고 반복적으로 검증을 시행하는 부트스트랩(Bootstrap) 방법으로 교차 검증을 수행할 수 있다.

한편, 본 발명의 일 실시예에 따른 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 시스템은, 사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신부; 상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정부; 상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리부; 상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정부; 상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성부; 및 생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석부;를 포함할 수 있다.

또한, 상기 성능 분석부는, 상기 예측 모델에 대한 성능 지표를 산출하고, 상기 사용자 인터페이스를 통하여 출력할 수 있다.

또한, 상기 학습 방법 설정부는, 상기 기계학습을 수행할 변수를 설정하고, 복수의 학습 알고리즘을 선택하며, 상기 성능 분석부는, 상기 복수의 학습 알고리즘의 각각의 상기 성능 지표를 비교하여 상기 사용자 인터페이스를 통하여 출력할 수 있다.

또한, 상기 전처리 설정부는, 상기 사용자 인터페이스를 통하여 상기 로우 데이터의 변수에 대한 통계치, 상기 변수의 특이값(Outlier) 수, 상기 변수의 결측치(Missing value) 수 및 상기 변수 사이의 연관도 중 하나 이상을 출력할 수 있다.

또한, 상기 성능 분석부는, 상기 로우 데이터의 각각의 변수가 상기 예측 모델의 예측 결과값 산출에 작용하는 영향도를 산출하여 상기 사용자 인터페이스에 출력할 수 있다.

또한, 상기 학습 방법 설정부는, 상기 모델링 데이터를 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트으로 분할하고, 상기 훈련 데이터 세트를 이용하여 상기 예측 모델을 생성하되, 상기 모델링 데이터 분할은 상기 모델링 데이터의 원소를 랜덤으로 샘플링하는 랜덤 방법, 상기 원소를 순차적으로 샘플링 하는 순차 방법 및 상기 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 중 하나를 이용하여 분할할 수 있다.

또한, 상기 모델 생성부는, 상기 훈련 데이터 세트를 미리 정해진 수로 등분하고, 순차적으로 등분된 훈련 데이터 세트 중 하나를 상기 검증 데이터 세트로 지정 후, 지정한 검증 데이터 세트를 이용해 파라미터(Parameter)를 튜닝하는 검증을 상기 미리 정해진 수만큼 반복하는 케이-폴드(K-Fold; K-times folds) 방법 또는 상기 훈련 데이터 세트에서 중복을 허용한 샘플링을 통해 상기 검증 데이터 세트를 생성하고 반복적으로 검증을 시행하는 부트스트랩(Bootstrap) 방법으로 교차 검증을 수행할 수 있다.

본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법 및 분석 시스템은, 핀테크를 포함한 기업 또는 개인이 금융기관의 API 개방으로 풍부해진 금융·비금융 데이터를 적용하여 기계학습을 이용한 인공지능 예측 모델을 용이하게 생성하고 활용할 수 있다.

또한, 은행, 카드, 보험사에 특화된 학습 알고리즘을 기반으로 시간흐름에 따른 예측 모델의 성능을 평가하여 항상 성능이 높은 예측 모델을 제공할 수 있다.

또한, 금융 ·비금융과 다양한 소스의 이종 데이터를 동시에 결합하고, 테스트 및 검증을 통해 통계적으로 이상치 및 에러값에 영향을 적게 받는 예측 모델을 생성할 수 있다.

또한, 데이터 수집, 전처리, 예측 모형 구성 및 비교 검증의 모든 기계학습 과정을 자동으로 수행할 수 있다.

또한, 다수의 예측 모형을 병렬처리를 통해 동시다발적으로 예측 모델 생성, 관리 및 업데이트를 수행할 수 있다.

*또한, 인공지능 관련 경험이 없는 사용자도 용이하게 예측 모델을 생성할 수 있다.

또한, 데이터 종류, 속성, 타입 등 데이터의 정보를 제공하고, 분류 및 필터링 범위에서 데이터를 기계학습 전 전처리할 수 있다.

또한, 연체 예측, 부도 예측, 이상거래 예측 등을 수행하는 이진 분류 모델 및 판매량 예측, 가격 예측 등을 수행하는 회귀 모델에 대한 모델링을 수행할 수 있다.

또한, 로우 데이터에 대한 학습 데이터 및 테스트 데이터를 자동으로 분리할 수 있다.

또한, 사용자가 예측 모델 결과에 대한 이해를 통해 예측 모델을 비즈니스 인사이트에 이용할 수 있다.

또한, 예측값, 예측확률, 예측값 분포와 예측 정보를 실시간으로 확인할 수 있다.

또한, 사용자의 쉬운 이해를 위해 분석 알고리즘 기반 시각화 화면을 확인할 수 있다.

본 발명의 효과들은 이상에서 언급한 내용으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 인공지능 분석 시스템의 블록도를 나타낸 도면이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 로우 데이터 수신부의 사용자 인터페이스를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 전처리 설정부의 스튜디오 뷰 사용자 인터페이스를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 전처리 설정부의 전처리 옵션의 일괄 변환 사용자 인터페이스를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 전처리 설정부의 각 변수의 전처리 옵션을 설정하는 사용자 인터페이스를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 전처리 설정부의 하나의 변수의 관측치에 대한 분포도를 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 그리드 뷰 사용자 인터페이스를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 학습 방법 설정부의 변수 선택 및 변서 추출의 사용자 인터페이스를 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 학습 방법 설정부의 데이터 분할 방법 및 교차 검증 방법의 사용자 인터페이스를 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따른 학습 방법 설정부의 학습 알고리즘 선택의 사용자 인터페이스를 나타낸 도면이다.
도 12는 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델별 성능 지표를 그래프 형식으로 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 13은 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델별 성능 지표를 테이블 형식으로 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 14는 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델 스레스홀드 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 15는 본 발명의 일 실시예에 따른 성능 분석부의 10분위수 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 16은 본 발명의 일 실시예에 따른 성능 분석부의 변수 영향도 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 17은 본 발명의 일 실시예에 따른 모델 인사이트부의 등급 성능 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 18은 본 발명의 일 실시예에 따른 모델 인사이트부의 변수 해석력 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 19는 본 발명의 일 실시예에 따른 모델 인사이트부의 변수의 개수 및 분포 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 20은 본 발명의 일 실시예에 따른 모델 인사이트부의 변수의 평균 및 합계 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 21은 본 발명의 일 실시예에 따른 성능 분석부의 복수의 예측 모델 비교 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 22는 본 발명의 일 실시예에 따른 성능 분석부의 복수의 예측 모델 비교 분석시 성능 지표를 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 23은 본 발명의 일 실시예에 따른 예측부의 예측 결과를 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.
도 24는 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법의 흐름도이다.
도 25는 본 발명의 일 실시예에 따른 학습 방법 설정 단계의 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예가 상세하게 설명된다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 본 발명의 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략되었다.

본 명세서에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도로 사용된 것이 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 명세서에서, "포함하다", "가지다" 또는 "구비하다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

또한, 이하의 실시예들은 당 업계에서 평균적인 지식을 가진 자에게 보다 명확하게 설명하기 위해서 제공되는 것으로서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에서 모델링은 기계학습을 통해 예측 모델을 생성하는 것 또는 학습 데이터 세트를 이용해 훈련하는 단계를 의미할 수 있다.

이하, 본 발명에서 로우 데이터는 가공하지 않은 원데이터를 의미할 수 있다.

표 1은 본 발명에서 등장하는 용어를 설명하기 위한 것으로, 상기 로우 데이터의 예시를 나타낸 것이며, 지역, 평수 및 층수에 따른 아파트 가격을 예측하는 예측 모델을 생성하는 것에 표 1의 데이터를 이용한다고 가정한다.

시리얼	지역	평수	층수	가격
AASD0001	서울	20평	2층	4억
AASD0002	서울	30평	8층	7억
AASD0003	경기	40평	6층	7억

표 1을 참조하여, 본 발명에서 사용되는 용어를 설명한다.이하, 본 발명에서 변수는 데이터에서 피처(Feature) 또는 조건을 의미할 수 있다. 예컨대, 표 1에서 열의 제목인 ‘시리얼’, ‘지역’, ‘평수’, ‘층수’를 의미하는 것일 수 있다.

이하, 본 발명에서 식별자는 각각의 데이터값을 식별할 수 있도록 지정되는 고유의 값을 의미할 수 있다. 예컨대, 표 1에서 ‘시리얼’일 수 있다.

이하, 본 발명에서 관측치는 데이터의 값일 수 있다. 예컨대, 표 1에서 ‘지역’의 각 행 값(서울, 서울, 경기), ‘평수’의 각 행 값(20평, 30평, 40평), ‘층수’의 각 행 값(2층, 8층, 6층)을 의미하는 것일 수 있다.

이하, 본 발명에서 타겟은 예측 모델을 통해 예측하려는 변수를 의미할 수 있다. 예컨대, 표 1에서 ‘가격’을 의미할 수 있다.

이하, 본 발명에서 타겟값은 예측 모델을 통해 예측하는 타겟의 데이터 값으로, 예컨대, 표 1에서 ‘가격’의 각 행 값(4억, 7억, 7억)을 의미할 수 있다.

이하, 전처리는 상기 로우 데이터를 기계학습에 적합하도록 상기 관측치를 가공하는 것을 의미할 수 있다. 예컨대, 각 변수 중에 관측치가 공백인 결측치를 새로운 데이터를 삽입하거나, 통계의 신뢰 구간을 벗어난 특이값을 삭제 또는 제거하는 처리를 의미할 수 있다.

이하, 본 발명에서 모델링 데이터는 상기 로우 데이터를 전처리한 후의 데이터를 의미할 수 있다.

이하, 첨부된 도면을 참조하여, 본 발명에 따른 바람직한 실시예에 대하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 분석 시스템의 블록도를 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 시스템(10)은 로우 데이터 수신부(100), 전처리 설정부(200), 전처리부(300), 학습 방법 설정부(400), 모델 생성부(500) 및 성능 분석부(600)를 포함할 수 있다. 일 실시예에 있어서, 인공지능 데이터 자동 분석 시스템(10)은 예측부(700)를 더 포함할 수 있다.

또한, 일 실시예에 있어서, 본 발명의 성능 분석부(600)는 모델 인사이트부(610)를 더 포함할 수 있다.

본 발명의 인공지능 데이터 자동 분석 시스템(10) 각 구성요소에 대한 자세한 설명은 각 도면에 따라 후술한다.

인공지능 데이터 자동 분석 시스템(10)은 API를 이용해 외부 클라이언트(20)로 금융 또는 비금융 데이터에 대한 기계학습 기반 데이터 자동 분석을 제공하는 시스템이다. 인공지능 데이터 자동 분석 시스템(10)은 기계학습 기반 분석 솔루션을 이용해 Open API를 제공할 수 있으며, 외부 클라이언트(20)로부터 입력받은 데이터를 기반으로 전처리 진행 후 외부 클라이언트(20)로 통계치를 제공하며, 기계학습 모형 및 예측 결과 또한 외부 클라이언트(20)로 제공할 수 있다.

상기 금융 데이터는 금융 기관이 내부에서 보유하거나 생성한 데이터일 수 있다. 예컨대, 금융 기관을 이용하는 고객의 개인 정보, 신용 정보, 연체 정보, 상환 정보, 상품 정보 및 특정 상황에 따른 행동 기록 중 적어도 하나일 수 있다. 개인 정보는 이름, 나이, 연령, 거주지, 성별, 소득, 직장, 직장근무기간, 자산현황 정보 등을 포함할 수 있다. 신용 정보는 신용 평가사 등급, 내부 신용 등급, 상환 의지에 대한 능력을 산출한 수치 등을 포함할 수 있다. 또한, 연체 정보는 과거 금융 기관에 대한 연체 정보, 부도 정보, 부채 정보 등을 포함할 수 있으며, 상품 정보는 대출 상품, 대출 실행 금액, 가산 금리, 이자 납부 금액, 잔액 등을 포함할 수 있다.

상기 비금융 데이터는 통신, 쇼핑, 공유경제 플랫폼, 전자 지갑(E-wallet) 등의 새로운 핀테크 플랫폼 서비스 등에서 발생하는 데이터일 수 있다. 예컨대, 전자 지갑에서 발생하는 소비물품, 가맹점명, 소비주기, 결제금액패턴 또는 통신사에서 보유하는 통신 패킷 사용량, 전화 통화 사용량, 시간대별 통신 사용 패턴, 통신비 납부 이력 등일 수 있다.

인공지능 데이터 자동 분석 시스템(10)은 상기 금융 데이터 및 비금융 데이터를 결합한 데이터를 로우 데이터로 이용해, 예측 모델을 복수 생성하여, 생성한 복수의 예측 모델의 예측 결과값의 조합으로 대출 서비스 기준을 생성한 새로운 여신 서비스 뱅킹 모델을 창출하여 기존의 금융 기관의 대출 승인 서비스를 대체하도록 할 수 있다.

또한, 인공지능 데이터 자동 분석 시스템(10)은 사용자 인터페이스를 통해 학습 알고리즘에 기반한 시각화 모형을 제공할 수 있다. 상기 사용자 인터페이스는 분석 모델 개발을 효과적으로 할 수 있도록 GUI 기반일 수 있다.

또한, 인공지능 데이터 자동 분석 시스템(10)은 메시지큐(Message Queue) 및 워커풀(Worker pool)이 결합된 효율적인 병렬처리 아키텍처를 복수의 모델에 대해 병렬적으로 모델링을 수행하여, 수천개와 같은 복수의 모델에 식별코드를 부여하여 상기 식별코드에 따른 서로 다른 모델 연산을 수행할 수 있다.

인공지능 데이터 자동 분석 시스템(10)과 외부 클라이언트(20)는 네트워크를 통해 관련 데이터를 송수신할 수 있다.

도 2 및 도 3은 본 발명의 일 실시예에 따른 로우 데이터 수신부의 사용자 인터페이스를 나타낸 도면이다.

도 1, 도 2 및 도 3을 함께 참조하면, 본 발명의 일 실시예에 따른 로우 데이터 수신부(100)는 사용자 인터페이스를 이용하여 외부 클라이언트로부터 기계학습을 위한 로우 데이터를 수신할 수 있다. 사용자는 외부 클라이언트(20)를 이용하여 분석할 로우 데이터를 업로드 할 수 있으며, 로우 데이터는 고유한 값을 가지는 식별자, 관측치를 가지는 변수 데이터를 포함할 수 있다.

또한, 로우 데이터 수신부(100)는 기존에 수신하여 저장되어 있는 이전 로우 데이터를 메모리에서 불러내, 또 다른 예측 모델 생성의 로우 데이터로 사용되도록 할 수 있다.

도 4는 본 발명의 일 실시예에 따른 전처리 설정부의 스튜디오 뷰 사용자 인터페이스를 나타낸 도면이다.

도 1 및 도4를 참조하면, 본 발명의 일 실시예에 따른 전처리 설정부(200)는 로우 데이터 수신부(100)가 수신한 상기 로우 데이터를 외부 클라이언트(20)로부터 모델링에 적합하도록 변환하기 위한 전처리 옵션을 선택받을 수 있다. 여기서, 전처리 옵션은 후술하는 것과 같이 전처리 설정부(200)가 외부 클라이언트(20)로부터 선택받는 항목을 의미할 수 있다.

전처리 설정부(200)는 상기 사용자 인터페이스의 선택박스(I401)를 통해, 상기 로우 데이터에서 식별자로 사용할 변수와 타겟으로 사용할 변수를 외부 클라이언트(20)로부터 선택받을 수 있다.

전처리 설정부(200)는 상기 로우 데이터를 분석하여 상기 로우 데이터에 포함된 변수와 변수의 관측치의 통계치를 상기 사용자 인터페이스를 통해 제공할 수 있다. 예컨대, 전처리 설정부(200)는 상기 로우 데이터에 포함된 변수 각각의 타입, 유일값, 특이값(Outlier), 결측치(Missing value), 평균, 표준편차, 최소값, 중앙값 및 최대값 중 적어도 하나를 제공할 수 있다. 또한, 전처리 설정부(200)는 변수 사이의 연관도도 제공할 수 있다.

도 5는 본 발명의 일 실시예에 따른 전처리 설정부의 전처리 옵션의 일괄 변환 사용자 인터페이스를 나타낸 도면이다.

도 1 및 도 5를 참조하면, 본 발명의 일 실시예에 따른 전처리 설정부(200)는 외부 클라이언트(20)로부터 복수의 변수 타입을 일괄적으로 변환하는 전처리 옵션을 선택받을 수 있다. 예컨대, 전처리 설정부(200)는 상기 사용자 인터페이스의 모든 전처리 옵션 변경창(I500)을 통해 외부 클라이언트(20)로부터 상기 전처리 옵션을 선택받을 수 있다. 더 구체적으로는, 외부 클라이언트(20)가 변수 타입 선택박스(I501)를 통해 ‘Number’ 변수 타입을 가지는 변수를 선택하면, 변수 리스트 박스(I502)에서 'Number' 타입을 가지는 모든 변수가 자동으로 선택될 수 있다. 이때, 외부 클라이언트(20)가 옵션 변경 박스(I503)를 통해 'Number'의 변수 타입을 ‘Binary’, ‘Category’ 및 ‘Datetime’ 중 하나의 변수 타입으로 변환하도록 선택할 수 있다.

또한, 전처리 설정부(200)는 외부 클라이언트(20)로부터 상기 변수의 관측치의 스케일 변환(Transformation) 방법, 결측치 처리 방법 및 특이값 처리 방법 중 하나 이상에 대해 일괄적으로 처리하는 전처리 옵션을 모든 전처리 옵션 변경창(I500)을 통해 선택받을 수 있다.

여기서, 상기 스케일 변환 방법은 표준 스케일(Standard scale), 로버스트 스케일(Robust scale) 및 분위수 변환(Quantile transform) 중 하나일 수 있다.

여기서, 상기 결측치 처리 방법은 제로 보정(Imputation), 평균값 보정, 중간값 보정 및 제거 처리(Drop) 중 하나일 수 있다.

여기서, 상기 특이값 처리 방법은 데이터값 유지(False), 신뢰구간 외의 우측 값 제거(Right side), 신뢰구간 외의 좌측 값 제거(Left side) 및 신뢰구간 외의 좌·우측 값 제거(both) 중 하나일 수 있다.

도 6은 본 발명의 일 실시예에 따른 전처리 설정부의 각 변수의 전처리 옵션을 설정하는 사용자 인터페이스를 나타낸 도면이다.

도 1 및 도 6을 참조하면, 본 발명의 일 실시예에 따른 전처리 설정부(200)는 변수별 전처리 옵션 창(I600)을 통해 외부 클라이언트(20)로부터 상기 변수 각각에 대해서 상기 변수의 관측치에 대해 스케일 변환(Transformation) 방법, 결측치 처리 방법 및 특이값 처리 방법 중 하나 이상에 대한 전처리 옵션을 선택받을 수 있다. 상기 스케일 변환 방법은 변환 선택 박스(I601)를 통해, 상기 결측치 처리 방법은 결측치 선택 박스(I602)를 통해, 상기 특이값 처리 방법은 특이값 선택 박스(I603)를 통해 선택할 수 있다.

도 7은 본 발명의 일 실시예에 따른 전처리 설정부의 하나의 변수의 관측치에 대한 분포도를 나타낸 도면이다.

도 1 및 도 7을 참조하면, 본 발명의 일 실시예에 따른 전처리 설정부(200)는 상기 사용자 인터페이스를 통해 특정 변수에 대한 상기 특정 변수의 관측치 분포도(I701)를 제공할 수 있다.

또한, 전처리 설정부(200)는 상기 특정 변수의 관측치 분포도(I701)를 이용하여 상기 특정 변수의 분포에 따른 타겟값의 비율 또는 특이값의 비율(I702)을 제공할 수 있다.

도 8은 본 발명의 일 실시예에 따른 그리드 뷰 사용자 인터페이스를 나타낸 도면이다.

도1, 도 4 및 도 8을 참조하면, 본 발명의 일 실시예에 따른 전처리 설정부(200)는 도 4와 같이, 스튜디오 뷰 형식(I400)의 상기 사용자 인터페이스를 외부 클라이언트(20)에 제공하거나, 도 8과 같이 그리드 뷰 형식(I800)의 상기 사용자 인터페이스를 외부 클라이언트(20)에 제공할 수 있다. 스튜디오 뷰 형식(I400)은 변수의 통계치를 테이블 형식으로 나타내고, 특정 변수를 선택하면 도 7처럼 선택한 특정 변수값의 분포도(I701)를 추가로 나타내는 사용자 인터페이스 형식이다. 그리드 뷰 형식(I800)은 변수의 분포도(I801)를 상단에 나타내고 변수의 통계치를 하단에 제공하는 사용자 인터페이스 방식이다.

전처리 설정부(200)는 언급한 것과 같이, 상기 로우 데이터에 대한 필터 및 정렬 등 다양한 데이터 세그멘테이션이 가능하며, 데이터 정제 및 변환이 가능하다. 또한, 전처리 설정부(200)는 상기 로우 데이터의 숫자, 시간, 날짜, 텍스트 데이터로부터 생성하려는 예측 모델의 성능 향상을 위한 다양한 파생변수를 생성할 수 있고, 바이너리 변환 및 그룹화를 수행하도록 할 수 있다.

전처리 설정부(200)는 싱글값 여부, 결측값 비율, 관측치별 분포도, 변수 상관 그래프과 같은 전처리전 상기 로우 데이터의 간편한 분석을 제공할 수 있다.

전처리부(300)는 전처리 설정부(200)가 외부 클라이언트(20)로부터 선택받은 상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환할 수 있다.

도 9는 본 발명의 일 실시예에 따른 학습 방법 설정부의 사용자 인터페이스를 나타낸 도면이다.

본 발명의 일 실시예에 따른 학습 방법 설정부(400)는 외부 클라이언트(20)로부터 상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받을 수 있다.

여기서, 학습 방법은 변수 선택, 변수 추출, 데이터 분할 방법, 교차 검증 방법 및 학습 알고리즘을 포함할 수 있다.

도 1 및 도 9를 참조하면, 상기 학습 방법의 변수 선택은 학습 변수 선택 창(I910)을 통해 모델링 데이터에서 모델링에서 이용할 변수를 하나 이상 선택하는 것일 수 있다. 상기 변수 추출은 차원 축소 창(I920)을 통해 선택된 복수의 변수에 대해 차원 축소를 수행하는 것일 수 있다. 더 자세하게는, 외부 클라이언트(20)가 차원 축소 알고리즘 선택 박스(I921)를 통해 차원 축소 알고리즘으로 주성분분석(PCA; Principal Component Analysis) 또는 오토인코더(Autoencoder) 중 하나를 선택하고, 축소할 변수를 차원 축소 변수 선택 박스(I922)를 통해 선택 후, 축소할 차원을 차원 선택 박스(I923)를 통해 선택하는 것일 수 있다. 변수 추출로 차원 축소되어 생성된 변수는 학습 변수 선택 창(I910)을 통해 외부 클라이언트(20)가 학습 변수로 선택할 수 있다.

도 10은 본 발명의 일 실시예에 따른 학습 방법 설정부의 데이터 분할 방법 및 교차 검증 방법의 사용자 인터페이스를 나타낸 도면이다.

도 1 및 도 10을 참조하면, 상기 데이터 분할 방법은 상기 모델링 데이터를 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트로 분할할 방법을 선택하는 것일 수 있다. 외부 클라이언트(20)는 데이터 분할 방법 창(I1010)에서 각각의 방법 선택 박스(I1011) 중 하나를 선택하여 상기 데이터 분할 방법을 선택할 수 있다. 상기 모델링 데이터 분할 방법은 상기 모델링 데이터의 원소를 랜덤으로 하는 랜덤 방법, 상기 원소를 순차적으로 샘플링하는 순차 방법 및 상기 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 중 하나일 수 있다. 또한, 학습 방법 설정부(400)는 외부 클라이언트(20)로부터 분할 비율 선택 유닛(I1012)을 통해 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트의 분할 비율을 선택받아 지정할 수 있다.

학습 방법 설정부(400)는 외부 클라이언트(20)로부터 교차 검증 방법을 선택받을 수 있다. 외부 클라이언트(20)는 교차 검증 방법 창(I1020)에서 각각의 방법 선택 박스(I1021) 중 하나를 선택하여 상기 교차 검증 방법을 선택할 수 있다. 상기 교차 검증 방법은 상기 훈련 데이터 세트를 미리 정해진 수로 등분하고, 순차적으로 등분된 훈련 데이터 세트 중 하나를 상기 검증 데이터 세트로 지정 후, 지정한 검증 데이터 세트를 이용해 파라미터(Parameter)를 튜닝하는 검증을 상기 미리 정해진 수만큼 반복하는 케이-폴드(K-Fold; K-times folds) 방법 또는 상기 훈련 데이터 세트에서 중복을 허용한 샘플링을 통해 상기 검증 데이터 세트를 생성하고 반복적으로 검증을 시행하는 부트스트랩(Bootstrap) 방법일 수 있다. 또한, 학습 방법 설정부(400)는 외부 클라이언트(20)로부터 교차 검증 횟수 선택 유닛(I1022)을 통해 교차 검증의 횟수를 선택받아 지정할 수 있다.

도 11은 본 발명의 일 실시예에 따른 학습 방법 설정부의 학습 알고리즘 선택의 사용자 인터페이스를 나타낸 도면이다.

도 1 및 도 11을 참조하면, 학습 방법 설정부(400)는 외부 클라이언트(20)로부터 알고리즘 선택 창(I1100)의 알고리즘 선택 박스(I1110)를 통해 예측 모델을 생성하는 학습 알고리즘을 하나 이상 선택받아 지정할 수 있다. 상기 학습 알고리즘은 이진 분류 모델링, 회귀 모델링, 군집화 모델링 및 추천 모델링 중 하나일 수 있다.

상기 이진 분류 모델링 학습 알고리즘을 이용해 생성한 예측 모델은 인공지능 데이터 자동 분석 시스템(10)과 연계하여 연체 예측, 부도 예측, 이상 거래 예측 등을 수행할 수 있다.

상기 회귀 모델링 학습 알고리즘을 이용해 생성한 예측 모델은 인공지능 데이터 자동 분석 시스템(10)과 연계하여 판매량 예측, 가격 예측, 사고발생 건수 예측 등을 수행할 수 있다.

상기 군집화 모델링 학습 알고리즘을 이용해 생성한 예측 모델은 인공지능 데이터 자동 분석 시스템(10)과 연계하여 여러 특성 기초로 고객이나 상품 등의 집단을 세부 집단으로 분류할 수 있다.

상기 추천 모델링 학습 알고리즘을 이용해 생성한 예측 모델은 인공지능 데이터 자동 분석 시스템(10)과 연계하여 고객이 구매한 상품 정보를 기반으로 상기 고객이 구매할 가능성이 높은 다른 상품의 추천을 수행할 수 있다.

여기서, 학습 알고리즘은 로지스틱 회귀(Logistic Regression Support), 서포트 벡터 머신(Support Vector Machine), 심층 신경망(Deep Neural Network), 합성곱 신경망(Convolutional Neural Network), 케이-최근접 이웃(Kth-Nearest Neighbor), 결정 트리(Decision Tree), 랜덤 포레스트(Random Forest), 엑스지부스트(XGBoost; eXtreme Gradient Boosting), 캣부스트(CatBoost; Categorical Gradient Boosting), 에이다부스트(AdaBoost; AdaBoosting), 그레디언트 부스트(Gradient Boosting), 라이트 그레디언트 부스트(Light Gradient Boosting), 익스트라 트리 부스팅(Extra Trees Boosting) 중 하나 이거나 이들 중 하나 이상을 앙상블일 수 있다.

또한, 학습 방법 설정부(400)는 외부 클라이언트(20)로부터 알고리즘 선택 창(I1100)의 파라미터 옵션 박스(I1120)을 통해 각각의 학습 알고리즘의 모델 파라미터를 입력받거나 파라미터 평가 기준을 선택받아 지정할 수 있다.

도 1의 모델 생성부(500)는 학습 방법 설정부(400)에서 설정된 상기 학습 방법에 따라 예측 모델을 생성할 수 있으며, 상기 학습 방법에서 복수의 학습 알고리즘이 선택되면, 선택된 각각의 학습 알고리즘에 대응하여 복수의 예측 모델을 생성할 수 있다.

도 12는 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델별 성능 지표를 그래프 형식으로 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이며, 도 13은 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델별 성능 지표를 테이블 형식으로 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1, 도 12 및 도 13을 참조하면, 본 발명의 일 실시예에 따른 성능 분석부(600)는 모델 생성부(500)가 생성한 하나 이상의 예측 모델에 대해 성능 분석을 할 수 있다. 성능 분석부(600)는 상기 성능 분석은 상기 하나 이상의 예측 모델에 대한 성능 지표를 산출하고, 상기 사용자 인터페이스를 그래프(I1200) 또는 테이블(I1300) 형식을 통해 제공할 수 있다.

상기 성능 지표는 상기 예측 모델이 이진 분류 모델링으로 훈련된 경우, 수신자 조작 특성 곡선의 아랫 면적(ROC_AUC; Receiver Operating Characteristic Curve _ Area Under the Curve), 정밀도-재현율 곡선의 아랫 면적(PRC_AUC; Precision-Recall Curve _ Area Under the Curve), 로그 손실(Log Loss), KS 통계량 중 하나 이상을 이용하여 산출될 수 있다.

여기서, 수신자 조작 특성 곡선의 아랫 면적과 정밀도-재현율 곡선의 아랫 면적은 수치가 1에 가까울수록 성능이 좋은 것으로 판단할 수 있다. 정밀도-재현율 곡선의 아랫 면적은 타겟의 수가 적은 비대칭 예측 상황에 주로 사용될 수 있다. KS 통계량은 타겟 집단과 타겟이 아닌 집단의 누적분포 차이를 나타내는 성능 지표로 KS 통계량 역시 1에 가까울수록 성능이 좋은 것으로 판단할 수 있다. 로그 손실은 예측의 불확실성을 알 수 있는 성능 지표로, 수치가 0에 가까울수록 성능이 좋은 것으로 판단할 수 있다.

또한, 상기 성능 지표는 상기 예측 모델이 회귀 모델링으로 훈련된 경우, 평균 제곱근 오차(RMSE; Root Mean Square Error), 평균 절대 오차(MAE; Mean Absolute Error), EXP-VAR, 결정계수(R-Square) 중 하나 이상을 이용하여 산출될 수 있다.

여기서, 평균 제곱근 오차 및 평균 절대 오차는 0에 가까울수록 성능이 좋은 것으로 판단할 수 있는 성능 지표이며, EXP-VAR 및 결정계수는 모형 적합도를 나타내며 1에 가까울수록 성능이 좋은 것으로 판단할 수 있는 성능지표일 수 있다.

성능 분석부(600)는 상기 성능 지표를 이용하여, 상기 훈련 데이터 세트, 상기 검증 데이터 세트 및 상기 테스트 데이터 세트에 따른 상기 성능 지표 수치를 그래프(I1200)를 상기 사용자 인터페이스를 통해 제공할 수 있다. 그래프(I1200)에는 상기 하나 이상의 예측 모델이 각각 다른 범주로 표현될 수 있다.

또한, 성능 분석부(600)는 상기 하나 이상의 예측 모델별 성능 지표를 테이블(I1300) 형식으로 상기 사용자 인터페이스를 통해 제공할 수 있으며, 상기 테이블 형식으로 제공되는 상기 예측 모델별 성능 지표는 상기 훈련 데이터 세트에 따른 성능 지표(I1310)과 상기 검증 데이터 세트에 따른 성능 지표(I1320) 및 상기 테스트 데이터 세트에 따른 성능 지표(I1330)로 구분하여 제공할 수 있다.

도 14는 본 발명의 일 실시예에 따른 성능 분석부의 예측 모델 스레스홀드 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1 및 도 14를 참조하면, 성능 분석부(600)는 상기 사용자 인터페이스의 스레스홀드(Threshold) 분석 창(I1400)을 통해, 상기 하나 이상의 예측 모델 중 선택된 하나의 예측 모델에 대해서 스레스홀드(Threshold) 분석을 수행하고, 스레스홀드 기반 트레이드 오프 그래프(I1420), 수신자 조작 특성 곡선 그래프(I1430), 정밀도-재현율 곡선 그래프(I1440) 및 혼동 행렬(I1450)을 상기 사용자 인터페이스로 제공할 수 있다. 성능 분석부(600)는 상기 혼동 행렬에 따른 정확도(I1451), 재현율(TPR; True Positive Rate)(I1452), F1 Score(I1453), FPR(False Positive Rate)(I1454) 및 정밀도 수치(I1455)를 제공할 수 있다. 여기서, F1 Score(I1453)는 재현율(I1452)과 정밀도(I1455)의 조화 평균일 수 있다.

도 15는 본 발명의 일 실시예에 따른 성능 분석부의 10분위수 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1 및 도 15를 참조하면, 성능 분석부(600)는 상기 하나 이상의 예측 모델 중 선택된 하나의 예측 모델에 대해서 10분위수 분석을 수행하고, 각 분위에 따른 등급, 관측수, 파지티브 수(Positive Count), 네거티브 수(Negative Count), 예측한 파지티브 비율, 실제 파지티브 비율, 리프트 및 KS%를 산출하고, 테이블(I1510) 형식 및 그래프(I1520) 형식으로 제공할 수 있다.

여기서, 파지티브 수는 등급 내 타겟인 관측수, 네거티브 수는 등급 내 타겟이 아닌 관측수, 예측한 파지티브 비율은 등급 내 예측 확율의 평균, 실제 파지티브 비율은 등급 내 실제 타겟인 관측치의 비율, 리프트는 전체 타겟의 비율 대비 등급 내 타겟의 비율의 백분위, KS%는 타겟과 타겟이 아닌 관측치의 비율 차이를 의미할 수 있다.

도 16은 본 발명의 일 실시예에 따른 성능 분석부의 변수 영향도 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1 및 도 16을 참조하면, 성능 분석부(600)는 상기 10분위수 분석을 상기 사용자 인터페이스를 이용하여 그래프로 제공할 수 있다.

성능 분석부(600)는 변수별로 상기 하나 이상의 예측 모델 중 선택된 하나의 예측 모델에 미친 영향도를 총합이 100이 되도록 계산된 변수 중요성(I1610)을 산출하여 그래프(I1600)으로 제공할 수 있다. 변수 중요성(I1610)은 해당 변수가 평균적으로 상기 예측 모델의 예측에 높은 관여를 한다는 것을 의미할 수 있다.

성능 분석부(600)의 각 예측 모델별 성능을 비교하여, 사용자는 가장 적합하고 성능이 높은 예측 모델을 선택하여 예측에 이용할 수 있다.

도 17은 본 발명의 일 실시예에 따른 모델 인사이트부의 등급 성능 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

본 발명의 일 실시예에 따른 모델 인사이트부(610)는 상기 예측 모델의 예측 결과값을 지정된 분위에 따른 등급으로 분류하고, 분류한 등급별로 등급 성능 분석을 수행할 수 있다. 예컨대, 지정된 분위는 10분위, 20분위, 30분위 및 60분위일 수 있으며, 지정된 분위에 따라 상기 예측 결과값을 10등급, 20등급, 30등급 및 60등급으로 분류하여 분석을 수행할 수 있다.

상기 등급 성능 분석은 각 등급에 해당하는 데이터 분포와 각 등급에 해당하는 타겟의 분포를 산출하여 등급 성능 분석 창(I1700)을 통해 제공하는 것일 수 있다.

도 18은 본 발명의 일 실시예에 따른 모델 인사이트부의 변수 해석력 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1 및 도 18을 참조하면, 본 발명의 일 실시예 따른 모델 인사이트부(610)는 분류한 등급별로 변수 해석력 분석을 수행하고, 상기 사용자 인터페이스의 변수 해석력 분석 창(I1800)를 통해 분석 결과를 제공할 수 있다. 외부 클라이언트(20)는 변수 해석력 분석 창(I1800)의 등급 선택 박스(I1810) 및 변수 선택 박스(I1820)을 통해 분석할 등급 및 변수를 선택할 수 있다.

상기 변수 해석력 분석은 등급별로 변수들이 예측 확률에 어떤 방향으로 영향을 미쳤는지를 분석하는 것일 수 있다. 예컨대, 특정 변수의 수치가 0 이상일 경우, 해당 변수는 타겟의 확률을 증가시키는 방향으로 영향을 미친것으로 해석할 수 있으며, 0 이하인 경우, 해당 변수는 타겟의 확률을 감소시키는 방향으로 영향을 미친 것으로 해석할 수 있다. 또한, 변수 해석력 분석 그래프(I1830)에서 상위 등급과 하위 등급의 변수 해석력의 간격이 크게 나타난 경우, 해당 변수가 상하위 등급 산정에 영향을 미친 것으로 해석할 수 있다.

도 19는 본 발명의 일 실시예에 따른 모델 인사이트부의 변수의 개수 및 분포 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이며, 도 20은 본 발명의 일 실시예에 따른 모델 인사이트부의 변수의 평균 및 합계 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1, 도 19 및 도 20을 참조하면, 본 발명의 일 실시예에 따른 모델 인사이트부(610)는 분류한 등급별로 통계치 분석을 수행하여 상기 사용자 인터페이스로 제공할 수 있다. 여기서, 상기 통계치는 등급별 변수의 개수, 분포, 평균 및 합계 등일 수 있다. 모델 인사이트부(610)는 상기 등급별 변수의 개수 및 분포는 상기 사용자 인터페이스의 변수 분포/개수 창(I1900)을 통해, 상기 등급별 변수의 평균 및 합계는 상기 사용자 인터페이스의 변수 평균/합계 창(I2000)을 통해 제공할 수 있다.

외부 클라이언트(20)는 변수 분포/개수 창(I1900)의 등급 선택 박스(I1910) 및 변수 선택 박스(I1920)를 통해 분포 및 개수를 분석할 등급 및 변수를 선택할 수 있다. 변수 분포/개수 창(I1900)의 등급 선택 박스(I1910) 및 변수 선택 박스(I1920)에서 등급 및 변수가 선택되면, 모델 인사이트부(610)는 변수 분포/개수 창(I1900)에서 분포/개수 그래프(I1930)를 나타낼 수 있다,

또한, 외부 클라이언트(20)는 변수 평균/합계 창(I2000)의 등급 선택 박스(I2010) 및 변수 선택 박스(I2020)를 통해, 상기 등급별 변수의 평균 및 합계를 분석할 등급 및 변수를 선택할 수 있다. 변수 평균/합계 창(I2000)의 등급 선택 박스(I2010) 및 변수 선택 박스(I2020)에서 등급 및 변수가 선택되면, 모델 인사이트부(610)는 변수 평균/합계 창(I2000)에서 평균 그래프(I2030) 및 합계 그래프(I2040)를 나타낼 수 있다.

본 발명의 모델 인사이트부(610)는 예측 모델의 에측 결과를 등급별로 분류하여 세부적인 수치 및 영향력이 큰 변수를 판별하여, 사용자가 예측 모델을 이용한 예측 결과를 용이하게 이해하고, 상기 예측 결과를 사업 전략에 용이하게 적용할 수 있도록 할 수 있다.

도 21은 본 발명의 일 실시예에 따른 성능 분석부의 복수의 예측 모델 비교 분석을 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이며, 도 22는 본 발명의 일 실시예에 따른 성능 분석부의 복수의 예측 모델 비교 분석시 성능 지표를 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1, 도 21 및 도 22를 참조하면, 본 발명의 일 실시예에 따른 성능 분석부(600)는 사용자가 복수의 예측 모델을 동시에 비교할 수 있도록 상기 복수의 예측 모델의 학습 방법 및 성능 지표를 동시에 상기 사용자 인터페이스의 모델 비교 창(I2100)을 통해 제공할 수 있다. 모델 비교 창(I2100)은 선택된 예측 모델에 따라 영역(I2110, I2120, I2130, I2140)이 분할되어 각각의 영역에서 예측 모델에 대한 성능을 나타낼 수 있다.

또한, 성능 분석부(600)는 각각의 예측 모델에서 사용된 학습 알고리즘별 및 성능 검증에 사용된 각 데이터 세트별에 따른 성능 지표(I2120)를 수치로 산출하여 모델 비교 창(I2100)의 분할 영역(I2110)통해 제공할 수 있다.

사용자는 상기 사용자 인터페이스를 통해 제공되는 상기 복수의 예측 모델의 현황을 확인하고 비교하여, 실제 예측에 사용할 예측 모델을 선택할 수 있다.

성능 분석부(600)는 복수의 예측 모델을 동시에 비교하여, 상기 복수의 예측 모델 중 성능이 가장 좋은 하나의 예측 모델을 판단할 수 있다. 여기서, 성능이 가장 좋은 것은 상기 성능 지표의 수치에 따라 결정될 수 있고, 각각의 종류에 따른 성능 지표의 기준에 따라 정해질 수 있다.

또한, 성능 분석부(600)는 주기 별로 복수의 예측 모델의 성능을 분석하여, 특정 주기에서 가장 성능이 좋은 하나의 예측 모델을 결정하여, 사용자에게 제공할 수 있다. 사용자는 특정 주기에는 상기 결정된 예측 모델을 이용해 예측을 수행하도록 할 수 있다. 예컨대, 성능 분석부(600)는 각 분기별로 1 사분기는 제1 예측 모델, 2 사분기는 제2 예측 모델, 3 사분기는 제3 예측 모델, 4 사분기는 제2 예측 모델이 성능이 가장 좋은 것으로 판단하면, 사용자는 차기 분기에는 각 분기에 결정된 예측 모델을 이용하여 예측하도록 할 수 있다.

도 23은 본 발명의 일 실시예에 따른 예측부의 예측 결과를 사용자 인터페이스를 통해 제공하는 것을 나타낸 도면이다.

도 1 및 도 23을 참조하면, 본 발명의 일 실시예에 따른 예측부(700)는 외부 클라이언트(20)로부터 선택된 예측 모델을 이용하여 새로운 관측치가 포함된 새로운 데이터에 대한 예측 결과를 도출하여, 예측 성능 창(I2300)을 통해 제공할 수 있다.

예측부(700)의 예측은 실시간 예측과 배치(Batch) 예측을 수행할 수 있다. 상기 실시간 예측은 실시간으로 새로운 관측치를 예측 성능 창(I2300)의 입력 박스(I2310)를 통해 입력하면, 실시간으로 해당 새로운 관측치에 대한 예측 결과를 도출하여 예측 스레스홀드 박스(I2320)를 통해 제공하는 것일 수 있다. 상기 배치 예측은 일정 시간동안 관측하여 기록한 복수의 새로운 관측치가 축적된 데이터를 외부 클라이언트(20)로부터 입력받아 해당 데이터에 대해 예측 결과를 도출하는 것일 수 있다.

예측부(700)는 상기 예측 모델이 예측한 예측 결과에 대해 10분위로 분류한 등급을 부여하고, 예측 스레스홀드 박스(I2320)를 통해 제공하여, 사용자의 사용에 따라 다양한 분야에 적용할 수 있도록 할 수 있다. 예컨대, 은행의 신용 대출 승인 판단에 이용하기 위해, 은행측에서 신청자의 금융 정보를 이용하여, 신청자의 대출 부도 위험성을 예측 모델로 예측할 수 있다. 이때, 예측된 대출 부도 위헝성을 단순한 수치가 아닌 등급으로 제공되면, 은행측에서는 신용 대출 판단을 더 용이하게 할 수 있으며, 산출되는 등급을 이용하여 또 다른 판단 모델을 생성할 수도 있다.

도 24는 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법의 흐름도이며, 도 25는 본 발명의 일 실시예에 따른 학습 방법 설정 단계의 흐름도이다.

도 24 및 도 25에 도시된 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 상술한 인공지능 자동 분석 시스템(10)에 의해 수행될 수 있다.

도 1, 도 24 및 도 25를 참조하면, 본 발명의 일 실시예에 따른 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 방법은, 사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신 단계(S100)을 포함할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정 단계(S200)를 포함할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리 단계(S300)를 포함할 수 있다.

전처리 설정 단계(S300)는 상기 사용자 인터페이스를 통하여 상기 로우 데이터의 변수에 대한 통계치, 상기 변수의 특이값(Outlier) 수, 상기 변수의 결측치(Missing value) 수 및 상기 변수 사이의 연관도 중 하나 이상을 출력하여 사용자에게 상기 로우 데이터 대한 현황을 제공할 수 있다.

또한, 전처리 설정 단계(S300)에서, 상기 사용자 인터페이스는 상기 로우 데이터의 변수의 데이터값 분포도 및 상기 예측 모델의 결과값의 분포도 중 하나 이상을 출력하여 사용자에게 제공할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정 단계(S400)를 포함할 수 있다.

여기서, 학습 알고리즘은 분류 모델링, 회귀 모델링, 군집화 모델링 및 추천 모델링 중 하나로 상기 예측 모델을 생성하는 것일 수 있다.

일 실시예에 있어서, 학습 방법 설정 단계(S400)는 상기 모델링 데이터를 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트으로 분할하고, 상기 훈련 데이터 세트를 이용하여 상기 예측 모델을 생성할 수 있다. 이때, 상기 모델링 데이터 분할은 상기 모델링 데이터의 원소를 랜덤으로 샘플링하는 랜덤 방법, 상기 원소를 순차적으로 샘플링하는 순차 방법 및 상기 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 중 하나를 이용하여 분할할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성 단계(S500)를 포함할 수 있다. 이때, 모델 생성 단계(S500)에서는 상기 훈련 데이터 세트를 미리 정해진 수로 등분하고, 순차적으로 등분된 훈련 데이터 세트 중 하나를 상기 검증 데이터 세트로 지정 후, 지정한 검증 데이터 세트를 이용해 파라미터(Parameter)를 튜닝하는 검증을 상기 미리 정해진 수만큼 반복하는 케이-폴드(K-Fold; K-times folds) 방법 또는 상기 훈련 데이터 세트에서 중복을 허용한 샘플링을 통해 상기 검증 데이터 세트를 생성하고 반복적으로 검증을 시행하는 부트스트랩(Bootstrap) 방법으로 교차 검증을 수행할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 인공지능 데이터 자동 분석 방법은 생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석 단계(S600)를 포함할 수 있다.

일 실시예에서, 학습 방법 설정 단계(S400)는 상기 기계학습을 수행할 변수를 설정하는 단계(S410) 및 복수의 학습 알고리즘을 선택하는 단계(S420)를 더 포함할 수 있다. 학습 알고리즘이 복수개 선택되면, 모델 생성 단계(S500)에서 상기 예측 모델은 복수개 생성될 수 있다. 이, 성능 분석 단계(S600)는 상기 복수의 학습 알고리즘의 각각의 상기 성능 지표를 비교하여 상기 사용자 인터페이스를 통하여 제공할 수 있다.

일 실시예에서, 성능 분석 단계(S600)는 상기 예측 모델에 대한 성능 지표를 산출하고, 상기 사용자 인터페이스를 통하여 출력할 수 있다. 여기서, 상기 성능 지표는 상기 예측 모델이 이진 분류 모델링으로 훈련된 경우, 수신자 조작 특성 곡선의 아랫 면적(ROC_AUC; Receiver Operating Characteristic Curve _ Area Under the Curve), 정밀도-재현율 곡선의 아랫 면적(PRC_AUC; Precision-Recall Curve _ Area Under the Curve), 로그 손실(Log Loss), KS 통계량 중 하나 이상을 이용하여 산출되고, 상기 예측 모델이 회귀 모델링으로 훈련된 경우, 평균 제곱근 오차(RMSE; Root Mean Square Error), 평균 절대 오차(MAE; Mean Absolute Error), EXP-VAR, 결정계수(R-Square) 중 하나 이상을 이용하여 산출될 수 있다.

또한, 성능 분석 단계(S600)는 상기 로우 데이터의 각각의 변수가 상기 예측 모델의 예측 결과값 산출에 작용하는 영향도를 산출하여 상기 사용자 인터페이스에 출력하여 제공할 수 있다. 더 구체적으로는, 성능 분석 단계(S600)는 상기 예측 결과값을 10분위, 20분위, 30분위 및 60분위 중 하나로 분류하고, 분위별로 상기 영향도를 산출할 수 있다.

본 발명의 인공지능 데이터 자동 분석 방법 및 분석 시스템은 API를 통해 손쉽게 모델링 제공 및 데이터 부가가치를 창출할 수 있다. 예컨대, 본 발명의 인공지능 데이터 자동 분석 방법 및 분석 시스템은 핀테크 기업들이 금융·비금융 데이터를 활용한 복수의 예측 모델을 이용하여 혁신적이고 창의적인 서비스를 제공할 수 있다.

예컨대, 인공지능 데이터 자동 분석 방법 및 분석 시스템은 일 실시예에 있어서, 복수의 예측 모델을 병렬적으로 생성하는 특징을 이용하여, 기존의 금융 기관 또는 핀테크 기업이 상기 금융 데이터를 이용해 고객별 대출 부도 확률, 대출 연체 확률 등을 타겟으로 하는 복수의 예측 모델을 생성하고, 통신, 소매, 항공사 데이터 같은 상기 비금융 데이터를 이용해 고객별 구매수준 증대 확률, 교차 서비스 이용 확률 등을 타겟으로 하는 복수의 예측 모델을 생성하도록 하여, 금융 ·비금융 데이터로 생성한 다양한 예측 모델의 타겟을 조합한 모듈을 생성해 금융 기관의 대출 승인 모듈로 사용함으로 기존 대출 승인 인력 시스템을 대체하도록 할 수 있다.

또한, 금융정보 외 통신정보, 소비활동정보 등의 대안정보를 기계학습으로 분석하여 ‘금융이력부족자(Thin Filer)’의 신용 평가 같은 서비스를 제공할 수 있다.

또한, 본 발명의 인공지능 데이터 자동 분석 방법 및 분석 시스템은 환자 분석, 의료 물자 실 사용량 분석, 의료 물자 청구량 데이터 분석을 통한 의료물자 수요 예측 모델을 구축할 수 있다.

또한, 비즈니스 어플리케이션 기반 금융서비를 고객에 제공 시, 본 발명의 인공지능 데이터 자동 분석 방법 및 분석 시스템의 API를 이용한 인터페이스로 데이터를 재학습하고 모델을 생성 및 관리하여 비즈니스 어플리케이션(AI 심사, FDS 등)을 실시간 업데이트 및 성능을 유지하도록 할 수 있다.

인공지능 데이터 자동 분석 방법 및 분석 시스템은 Memory-centric & column-oriented OLAP DB 기반의 실시간 프로파일링, 인메모리 버퍼 테이블(In-memory Buffer Table) 의 튜닝을 통해 삽입(insert) 성능은 유지하고, 시스템을 이용하는 금융기관에서 요구되는 정합성이 확보되는 복제(Replication)를 제공할 수 있다.

또한, 인공지능 데이터 자동 분석 방법 및 분석 시스템은 입수된 데이터로 예측 연산 수행 후, 입수된 데이터와 연산 결과 등을 메모리에 데이터베이스로 체계적으로 저장하여 추후 재학습에 사용할 수 있다. 재학습에 사용할 경우, 개인정보 유출을 막기 위해 암호화를 수행할 수 있다.

본 명세서에 기재된 다양한 실시예들은 하드웨어, 미들웨어, 마이크로코드, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 예를 들어, 다양한 실시예들은 하나 이상의 주문형 반도체(ASIC)들, 디지털 신호 프로세서(DSP)들, 디지털 신호 프로세싱 디바이스(DSPD)들, 프로그램어블 논리 디바이스(PLD)들, 필드 프로그램어블 게이트 어레이(FPGA)들, 프로세서들, 컨트롤러들, 마이크로컨트롤러들, 마이크로프로세서들, 여기서 제시되는 기능들을 수행하도록 설계되는 다른 전자 유닛들 또는 이들의 조합 내에서 구현될 수 있다.

또한, 예를 들어, 다양한 실시예들은 명령들을 포함하는 컴퓨터-판독가능한 매체에 수록되거나 인코딩될 수 있다. 컴퓨터-판독가능한 매체에 수록 또는 인코딩된 명령들은 프로그램 가능한 프로세서 또는 다른 프로세서로 하여금 예컨대, 명령들이 실행될 때 방법을 수행하게끔 할 수 있다. 컴퓨터-판독가능한 매체는 컴퓨터 저장 매체 및 하나의 장소로부터 다른 장소로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 통신 매체 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 예를 들어, 이러한 컴퓨터-판독가능한 매체는 RAM, ROM, EEPROM, CD-ROM 또는 기타 광학디스크 저장 매체, 자기 디스크 저장 매체 또는 기타 자기 저장 디바이스 또는 원하는 프로그램 코드를 컴퓨터에 의해 액세스가능한 명령들 또는 데이터 구조들의 형태로 반송하거나 저장하는데 이용될 수 있는 임의의 다른 매체를 포함할 수 있다.

이러한 하드웨어, 소프트웨어, 펌웨어 등은 본 명세서에 기술된 다양한 동작들 및 기능들을 지원하도록 동일한 디바이스 내에서 또는 개별 디바이스들 내에서 구현될 수 있다. 추가적으로, 본 발명에서 "~부"로 기재된 구성요소들, 유닛들, 모듈들, 컴포넌트들 등은 함께 또는 개별적이지만 상호 운용가능한 로직 디바이스들로서 개별적으로 구현될 수 있다. 모듈들, 유닛들 등에 대한 서로 다른 특징들의 묘사는 서로 다른 기능적 실시예들을 강조하기 위해 의도된 것이며, 이들이 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야만 함을 필수적으로 의미하지 않는다. 오히려, 하나 이상의 모듈들 또는 유닛들과 관련된 기능은 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 수행되거나 또는 공통의 또는 개별의 하드웨어 또는 소프트웨어 컴포넌트들 내에 통합될 수 있다.

특정한 순서로 동작들이 도면에 도시되어 있지만, 이러한 동작들이 원하는 결과를 달성하기 위해 도시된 특정한 순서, 또는 순차적인 순서로 수행되거나, 또는 모든 도시된 동작이 수행되어야 할 필요가 있는 것으로 이해되지 말아야 한다. 임의의 환경에서는, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 더욱이, 상술한 실시예에서 다양한 구성요소들의 구분은 모든 실시예에서 이러한 구분을 필요로 하는 것으로 이해되어서는 안되며, 기술된 구성요소들이 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있다는 것이 이해되어야 한다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

10: 인공지능 데이터 자동 분석 시스템 20: 외부 클라이언트
100: 로우 데이터 수신부 200: 전처리 설정부
300: 전처리부 400: 학습 방법 설정부
500: 모델 생성부 600: 성능 분석부
610: 모델 인사이트부 700: 예측부

Claims

인공지능 데이터 자동 분석 시스템에 의해 각 단계가 수행되는 API(Application Programming Interface)를 이용하는 인공지능 데이터 자동 분석 방법으로서,
사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신 단계;
상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정 단계;
상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리 단계;
상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정 단계;
상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성 단계; 및
생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석 단계;를 포함하고,
상기 성능 분석 단계는, 상기 예측 모델의 예측 결과값을 사용자의 선택에 따른 분위별로 분류하고, 상기 분위별에 따라 나위어진 각각의 등급별로 상기 로우 데이터의 각각의 변수가 상기 예측 모델의 예측 결과값 산출에 작용하는 영향도를 산출하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 성능 분석 단계는,
상기 예측 모델에 대한 성능 지표를 산출하고, 상기 사용자 인터페이스를 통하여 출력하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 학습 방법 설정 단계는,
상기 기계학습을 수행할 변수를 설정하는 단계; 및
복수의 학습 알고리즘을 선택하는 단계;를 포함하고,
상기 성능 분석 단계는,
상기 복수의 학습 알고리즘의 각각의 성능 지표를 비교하여 상기 사용자 인터페이스를 통하여 출력하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 학습 알고리즘은 분류 모델링, 회귀 모델링, 군집화 모델링 및 추천 모델링 중 하나로 상기 예측 모델을 생성하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 전처리 설정 단계는, 상기 사용자 인터페이스를 통하여 상기 로우 데이터의 변수에 대한 통계치, 상기 변수의 특이값(Outlier) 수, 상기 변수의 결측치(Missing value) 수 및 상기 변수 사이의 연관도 중 하나 이상을 출력하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 사용자 인터페이스는, 상기 로우 데이터의 변수의 데이터값 분포도 및 상기 예측 모델의 결과값의 분포도 중 하나 이상을 출력하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 성능 분석 단계는 상기 학습 알고리즘의 성능 지표를 산출하고,
상기 예측 모델이 이진 분류 모델링으로 훈련된 경우, 수신자 조작 특성 곡선의 아랫 면적(ROC_AUC; Receiver Operating Characteristic Curve _ Area Under the Curve), 정밀도-재현율 곡선의 아랫 면적(PRC_AUC; Precision-Recall Curve _ Area Under the Curve), 로그 손실(Log Loss), KS 통계량 중 하나 이상을 이용하여 산출되고,
상기 예측 모델이 회귀 모델링으로 훈련된 경우, 평균 제곱근 오차(RMSE; Root Mean Square Error), 평균 절대 오차(MAE; Mean Absolute Error), EXP-VAR, 결정계수(R-Square) 중 하나 이상을 이용하여 산출되는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 성능 분석 단계는,
상기 예측 결과값을 10분위, 20분위, 30분위 및 60분위 중 하나로 분류하고, 분위별로 상기 영향도를 산출하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제1항에 있어서,
상기 학습 방법 설정 단계는,
상기 모델링 데이터를 훈련 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트으로 분할하고, 상기 훈련 데이터 세트를 이용하여 상기 예측 모델을 생성하되,
상기 모델링 데이터의 분할은 상기 모델링 데이터의 원소를 랜덤으로 샘플링하는 랜덤 방법, 상기 원소를 순차적으로 샘플링 하는 순차 방법 및 상기 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 중 하나를 이용하여 분할하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
제9항에 있어서,
상기 모델 생성 단계는,
상기 훈련 데이터 세트를 미리 정해진 수로 등분하고, 순차적으로 등분된 훈련 데이터 세트 중 하나를 상기 검증 데이터 세트로 지정 후, 지정한 검증 데이터 세트를 이용해 파라미터(Parameter)를 튜닝하는 검증을 상기 미리 정해진 수만큼 반복하는 케이-폴드(K-Fold; K-times folds) 방법 또는 상기 훈련 데이터 세트에서 중복을 허용한 샘플링을 통해 상기 검증 데이터 세트를 생성하고 반복적으로 검증을 시행하는 부트스트랩(Bootstrap) 방법으로 교차 검증을 수행하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법.
API(Application Programming Interface)를 이용하는 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 시스템으로서,
사용자 인터페이스를 통하여 기계학습을 위한 로우 데이터를 수신하는 로우 데이터 수신부;
상기 사용자 인터페이스를 통하여 상기 로우 데이터에 대하여 전처리 옵션을 선택받는 전처리 설정부;
상기 전처리 옵션을 기초로 상기 로우 데이터를 모델링 데이터로 변환하는 전처리부;
상기 사용자 인터페이스를 통하여 예측 모델을 생성하기 위한 학습 알고리즘을 포함하는 학습 방법을 선택받는 학습 방법 설정부;
상기 학습 방법에 따라 상기 예측 모델을 생성하는 모델 생성부; 및
생성된 상기 예측 모델에 대한 성능을 분석하는 성능 분석부;를 포함하고,
상기 성능 분석부는, 상기 예측 모델의 예측 결과값을 사용자의 선택에 따른 분위별로 분류하고, 상기 분위별에 따라 나위어진 각각의 등급별로 상기 로우 데이터의 각각의 변수가 상기 예측 모델의 예측 결과값 산출에 작용하는 영향도를 산출하는 것인 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제