KR20220102961A - 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치 - Google Patents

신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치 Download PDF

Info

Publication number
KR20220102961A
KR20220102961A KR1020210005536A KR20210005536A KR20220102961A KR 20220102961 A KR20220102961 A KR 20220102961A KR 1020210005536 A KR1020210005536 A KR 1020210005536A KR 20210005536 A KR20210005536 A KR 20210005536A KR 20220102961 A KR20220102961 A KR 20220102961A
Authority
KR
South Korea
Prior art keywords
variables
candidate
microeconomic
rate
important
Prior art date
Application number
KR1020210005536A
Other languages
English (en)
Other versions
KR102505632B1 (ko
Inventor
홍동숙
Original Assignee
사단법인 한국신용정보원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사단법인 한국신용정보원 filed Critical 사단법인 한국신용정보원
Priority to KR1020210005536A priority Critical patent/KR102505632B1/ko
Publication of KR20220102961A publication Critical patent/KR20220102961A/ko
Application granted granted Critical
Publication of KR102505632B1 publication Critical patent/KR102505632B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q40/025
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

개인사업자의 부도율을 예측하는 방법 및 장치는 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신하고, 시차 상관성에 기반한 통계적 검증을 수행함으로써 거시 경제 변수들 중 후보 거시 경제 변수들을 선택하고, 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 미시 경제 변수들 중 후보 미시 경제 변수들을 선택하고, 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택하고, 후보 거시 경제 변수들의 유형 및 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성하고, 모형들에 기반한 성능 평가 결과를 기초로 서브셋들 중 적어도 하나의 서브셋을 선택하며, 선택된 서브셋에 포함된 최종 중요 변수들을 리지 모형, 랜덤 포레스트 모형, SVR 모형, 심층 신경망 모형, 라쏘 모형, 및 드랍아웃 모형 중 적어도 하나에 입력함으로써 개인사업자의 부도율을 예측한다.

Description

신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치{METHOD AND APPARATUS OF PREDICTING DEFAULT RATE OF INDIVIDUAL BUSINESS BASED ON ARTIFICIAL INTELLIGENCE MODEL USING CREDIT INFORMATION}
실시예들은 신용정보를 활용한 인공 지능(AI) 모형 기반 개인사업자 부도율 예측 방법 및 장치에 관한 것이다.
개인사업자는 전체 사업자 중 약 84.6% (차주수 기준)로 대부분을 차지하고 있고 고용 측면에서도 전체 근로자의 48.8%로 절반에 육박하는 등 한국 경제에서 중요한 역할을 한다. 개인사업자는 이와 같이 국가 경제에서 큰 비중을 차지하고 있지만 신용 리스크 측면에서 취약 차주로서 경기 변동에 민감한 특징을 가지고 있다.
이러한 개인사업자는 근로자를 고용하지 않거나(1인 기업) 또는 50인 미만의 근로자를 고용하고 있는 자영업자, 매출액과 종사자수 기준에 의한 소상공인으로도 불리고 있으며, 법인 사업자 또는 상장 기업과는 큰 차이를 가지고 있다. 개인사업자는 기업이면서 동시에 개인이므로 대표자 개인의 속성을 기업의 속성과 종합적으로 고려해야 한다는 점, 및 개인사업자의 경우, 재무 정보 등과 같은 기업 관련 정보의 확보가 어렵다는 점 등으로 인해 일반 기업 또는 개인과는 또다른 특징을 가지게 되므로 법인 또는 상장 기업의 부도율 예측과 달리 개인사업자의 부도율을 예측하는 독자적인 방법이 요구된다.
위에서 설명한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.
일 실시예에 따르면, 재무제표 등과 같은 재무 정보가 제공되지 않는 경우에도 신용 정보를 활용함으로써 개인사업자의 부도율을 예측할 수 있다.
일 실시예에 따르면, 거시 경제 변수들과 신용 정보를 포함하는 미시 경제 변수들에 대한 통계적 검증 이후 다양한 모형들에 의해 추가적으로 예측 성능을 개선하는 서브셋들에 의해 중요 변수를 선택함으로써 개인사업자의 부도율에 대한 예측 성능을 향상시킬 수 있다.
일 실시예에 따르면, 서브 모형들을 구축하고, 최대 성능 모형의 중요 변수를 추출함으로써 최대 일반화 성능을 내면서 학습 시간과 예측 시간은 절감할 수 있는 개인사업자의 부도율 예측 방법을 제공할 수 있다.
일 실시예에 따르면, 거시 경제 변수 뿐만 아니라, 업종별 신용 정보를 월 단위로 가공한 미시 경제 변수를 함께 고려한 모형들에 의해 개인사업자의 업종별 부도율을 월 단위로 예측함으로써 취약 업종의 리스크를 관리할 수 있다.
다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.
일 실시예에 따르면, 개인사업자의 부도율을 예측하는 방법은 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신하는 단계; 시차 상관성에 기반한 통계적 검증을 수행함으로써 상기 거시 경제 변수들 중 후보 거시 경제 변수들을 선택하는 단계; 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 상기 미시 경제 변수들 중 후보 미시 경제 변수들을 선택하는 단계; 상기 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택하는 단계; 상기 후보 거시 경제 변수들의 유형 및 상기 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성하는 단계; 상기 모형들에 기반한 성능 평가 결과를 기초로, 상기 서브셋들 중 적어도 하나의 서브셋을 선택하는 단계; 및 상기 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측하는 단계를 포함한다.
상기 제1 중요 변수들을 선택하는 단계는 상기 제1 중요 변수들 각각을 월별 집계값으로 가공하는 단계; 상기 후보 미시 경제 변수들의 월별 집계값을 기초로, 상기 신용 정보 유형 별로 분류한 서브셋들을 생성하는 단계; 및 상기 생성된 서브셋들에 대한 모형 성능 평가에 따라 상기 제1 중요 변수들을 선택하는 단계를 포함할 수 있다.
상기 신용 정보 유형들은 개인 변수, 기업 변수, 및 상기 개인 변수와 상기 기업
변수를 함께 이용하여 가공한 복합 변수를 조합한 형태를 포함하고, 상기 신용 정보 유형들 별로 분류한 서브셋들을 생성하는 단계는 상기 후보 미시 경제 변수들을 상기 개인 변수에 대응하는 제1 유형, 상기 기업 변수에 대응하는 제2 유형, 상기 복합 변수에 대응하는 제3 유형, 상기 개인 변수 및 상기 기업 변수의 조합에 대응하는 제4 유형, 상기 복합 변수 및 상기 개인 변수의 조합에 대응하는 제5 유형, 및 상기 복합 변수 및 상기 기업 변수의 조합에 대응하는 제6 유형 별로 분류한 서브셋들을 생성하는 단계를 포함할 수 있다.
상기 제1 중요 변수들을 선택하는 단계는 상기 생성된 서브셋들에 대한 순열 피처 중요도(permutation feature importance)에 기반한 모형 성능 평가를 통해 상기 제1 중요 변수들을 선택하는 단계를 포함할 수 있다.
상기 개인사업자의 부도율을 예측하는 방법은 상기 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들(binary models)의 예측 성능에 기초하여 제2 중요 변수들을 선택하는 단계를 더 포함할 수 있다.
상기 서브셋들을 생성하는 단계는 상기 제2 중요 변수들 각각을 월별 집계값으로 가공하는 단계; 및 상기 가공된 제2 중요 변수들 중 다중 공선성(variance influence factor; VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 상기 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성하는 단계를 포함할 수 있다.
상기 서브셋들을 생성하는 단계는 상기 제1 서브셋들에, 상기 제2 서브셋들의 중요 변수들을 하나씩 추가하여 제3 서브셋들을 생성하는 단계를 더 포함할 수 있다.
상기 서브셋들 중 적어도 하나의 서브셋을 선택하는 단계는 상기 제1 서브셋들, 상기 제2 서브셋들 및 상기 제3 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택하는 단계를 포함할 수 있다.
상기 바이너리 모형들은 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, 및 심층 신경망(deep neural network; DNN) 모형 중 적어도 하나를 포함할 수 있다.
상기 개인사업자의 부도율을 예측하는 방법은 상기 후보 거시 경제 변수들 및 상기 후보 미시 경제 변수들을 기초로 거시-미시 통합 모형을 생성하는 단계를 더 포함할 수 있다.
상기 후보 거시 경제 변수들을 선택하는 단계는 상기 개인사업자의 부도율에 대한 상기 거시 경제 변수들의 시차 상관 계수를 기초로, 상기 후보 거시 경제 변수들을 선택하는 단계를 포함할 수 있다.
상기 후보 미시 경제 변수들을 선택하는 단계는 상기 미시 경제 변수들이, 상기 개인사업자의 부도 여부에 대한 독립 표본 T-테스트에 의해 통계적으로 유의한 변수 중 단계적 회귀 분석(stepwise logistic regression)에서 결정 계수 기준 이상에 해당하는지 여부를 기초로, 상기 미시 경제 변수들 중 상기 후보 미시 경제 변수들을 선택하는 단계를 포함할 수 있다.
상기 개인사업자의 부도율을 예측하는 단계는 상기 후보 거시 경제 변수들 및 상기 선택된 서브셋에 포함된 상기 최종 중요 변수들을 인공 지능 모형들에 입력함으로써 상기 개인사업자의 업종별 부도율을 예측하는 단계를 포함하고, 상기 인공 지능 모형들은 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, SVR(Support Vector Regression) 모형, 심층 신경망(deep neural network; DNN) 모형, 라쏘(Lasso) 모형, 및 드랍아웃(Dropout) 모형 중 적어도 하나를 포함할 수 있다.
상기 거시 경제 변수들은 주택 가격 상승률, 전국 주택 시장 소비자 심리 지수, 설비투자 총지수, 평균 콜금리, 예금은행대출금리, 기준 금리, 회사채 수익률, 품목별 수입액 총액 및 수출액 총액을 포함하는 최종 수요 변수; 전국 비경제활동 인구수, 전국 고용률, 전산업의 고용자수, 전국 실업자수, 전국 실업률, 청년 실업자수, 청년 실업률, 제조업 설비 투자 실적, 제조업 업황 전망, 제조업 생산 전망, 300인 미만 제조업 채용 인원을 포함하는 노동 및 공급 변수; 전국 소비자 물가지수, 유가, 및 생산자 물가지수를 포함하는 물가 및 임금 변수; 1년 평균 국고채 금리, 3년 평균 국고채 금리, 원-달러 환율, 환율 절상률, KOSPI 지수, KOSPI 200 지수, 제조업종의 가계 신용, 및 제조업종의 기업 부채를 포함하는 통화 및 금융 변수; 및 미국 수출액 및 중국 수출액을 포함하는 국제 수지 변수 중 적어도 하나를 포함할 수 있다.
상기 미시 경제 변수들은 개인 대출 잔액, 카드 대출 잔액, 비은행권 대출 총 기관 수, 카드 대출 총 기관 수, 다중 채무 건수, 소액 채무 건수, 전년 동기 대비 개인 대출 잔액 증가율, 전년 동기 대비 비은행권 대출 잔액, 전년 동기 대비 카드 대출 잔액 증가율, 연체 잔액, 연체율, 평균 연체 기간, 최장 연체 기간, 연체 건수, 최장 연체 기간, 사업자 번호 보유 개수, 사업체 업종 등록 횟수, 사업체 주소 등록 횟수, 전년 동기 대비 사업자 번호 보유 개수 증가율, 전년 동기 대비 업종 등록 횟수 증가율, 및 전년 동기 대비 주소 등록 횟수 증가율 중 적어도 하나를 포함하는 개인 신용 변수들; 원화 대출 잔액, 신용공여 총잔액, 운전자금 대출 잔액, 시설 자금 대출 잔액, 비은행권 대출 잔액, 카드 대출 잔액, 원화 대출 총 기관수, 신용 공여 총 기관수, 운전 자금 대출 총 기관수, 카드 대출 총 기관수, 다중 채무 건수, 소액 채무 건수, 금융리스, 운용 리스, 자금 대여, 사모 사채 잔액 중 적어도 하나를 포함하는 기업 신용 변수들; 및 개인사업자 원화 대출 총액, 개인사업자 비은행권 총 기관수, 개인사업자 다중 채무 건수, 개인사업자 소액 채무 건수, 대부업권 이용 여부, 선(先) 개인대출 후(後)사업자 대출 실행 여부, 부도유형 종류 건수, 업종 평균대비 개인 대출 증가율, 업종 평균 대비 대출 증가율, 대출 비중, 및 잔액 구간 중 적어도 하나를 포함하는 복합 신용 변수들을 포함할 수 있다.
일 실시예에 따르면, 개인사업자의 부도율을 예측하는 장치는 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신하는 통신 인터페이스; 및 시차 상관성에 기반한 통계적 검증을 수행함으로써 상기 거시 경제 변수들 중 후보 거시 경제 변수들을 선택하고, 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 상기 미시 경제 변수들 중 후보 미시 경제 변수들을 선택하고, 상기 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택하고, 상기 후보 거시 경제 변수들의 유형 및 상기 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성하고, 상기 모형들에 기반한 성능 평가 결과를 기초로, 상기 서브셋들 중 적어도 하나의 서브셋을 선택하며, 상기 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측하는 프로세서를 포함한다.
상기 프로세서는 상기 후보 미시 경제 변수들을 상기 신용 정보 유형들 별로 분류한 서브셋들을 생성하고, 상기 생성된 서브셋들에 대한 모형 성능 평가에 따라 상기 제1 중요 변수들을 선택할 수 있다.
상기 프로세서는 상기 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들(binary models)의 예측 성능에 기초하여 제2 중요 변수들을 더 선택할 수 있다.
상기 프로세서는 상기 제2 중요 변수들 각각을 월별 집계값으로 가공하고, 상기 가공된 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 상기 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성할 수 있다.
일 측면에 따르면, 재무제표 등과 같은 재무 정보가 제공되지 않는 경우에도 신용 정보를 활용함으로써 개인사업자의 부도율을 예측할 수 있다.
일 측에 따르면, 거시 경제 변수들과 신용 정보를 포함하는 미시 경제 변수들에 대한 통계적 검증 이후 다양한 모형들에 의해 추가적으로 예측 성능을 개선하는 서브셋들에 의해 중요 변수를 선택함으로써 개인사업자의 부도율에 대한 예측 성능을 향상시킬 수 있다.
일 측에 따르면, 서브 모형들을 구축하고, 최대 성능 모형의 중요 변수를 추출함으로써 최대 일반화 성능을 내면서 학습 시간과 예측 시간은 절감할 수 있는 개인사업자의 부도율 예측 방법을 제공할 수 있다.
일 측에 따르면, 거시 경제 변수 뿐만 아니라, 업종별 신용 정보를 월 단위로 가공한 미시 경제 변수를 함께 고려한 모형들에 의해 개인사업자의 업종별 부도율을 월 단위로 예측함으로써 취약 업종의 리스크를 관리할 수 있다.
도 1은 일 실시예에 따른 개인사업자의 부도율을 예측하는 방법을 나타낸 흐름도.
도 2는 일 실시예에 따른 거시 경제 변수와 신용 정보 변수를 활용하여 개인사업자의 부도율을 예측하는 방법을 설명하기 위한 도면.
도 3은 일 실시예에 따라 개인사업자의 부도율 예측에 유용한 중요 변수들을 선택하는 방법을 설명하기 위한 도면.
도 4 내지 도 5는 실시예들에 따라 개인사업자의 부도율을 예측하는 과정을 간략화하여 나타낸 도면들.
도 6 내지 도 9는 실시예들에 따라 개인사업자의 부도율을 예측하는 과정을 구체적으로 나타낸 도면들.
도 10은 일 실시예에 따른 개인사업자의 부도율을 예측하는 장치의 블록도.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다. 예를 들어, '개인사업자'는 '자영업자'를 포함하는 개념으로 해석될 수 있고, '개인사업'은 '자영업'을 포함하는 개념으로 해석될 수 있다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 개인사업자의 부도율을 예측하는 방법을 나타낸 흐름도이다. 도 1을 참조하면, 일 실시예에 따른 개인사업자의 부도율을 예측하는 장치(이하, '예측 장치')가 단계(110) 내지 단계(170)을 통해 개인사업자의 부도율을 예측하는 과정이 도시된다.
단계(110)에서, 예측 장치는 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신한다. 거시 경제 변수들은 일반 상장기업, 소상공인, 창업기업 등의 기업 부도 예측에서 이용된 거시 경제 변수들과 산업 부도율 예측에서 이용된 거시 경제 변수들을 모두 포함할 수 있다. 거시 경제 변수들은 주택시장 소비자 심리 지수, 설비 투자 지수, 콜 금리, 기준 금리 등과 같은 최종 수요와 관련된 변수, 고용률, 고용자수, 설비 투자 실적 등과 같은 노동 공급 관련 변수, 유가, 생산자 물가 지수 등과 같은 물가 및 임금 관련 변수, 국고채 금리, KOSPI, 원달러 환율 등과 같은 통화 금융 관련 변수, 수출액 등과 같은 국제 수지 관련 변수를 포함할 수 있다. 거시 경제 변수들은 예를 들어, 주택 가격 상승률, 전국 주택 시장 소비자 심리 지수, 설비 투자 총지수, 평균 콜금리, 예금은행 대출 금리, 기준 금리, 회사채 수익률, 품목별 수입액 총액 및 수출액 총액을 포함하는 최종 수요 변수, 전국 비경제활동 인구수, 전국 고용률, 전산업의 고용자수, 전국 실업자수, 전국 실업률, 청년 실업자수, 청년 실업률, 제조업 설비 투자 실적, 제조업 업황 전망, 제조업 생산 전망, 300인 미만 제조업 채용 인원을 포함하는 노동 및 공급 변수, 전국 소비자 물가지수, 유가, 및 생산자 물가지수를 포함하는 물가 및 임금 변수, 1년 평균 국고채 금리, 3년 평균 국고채 금리, 원-달러 환율, 환율 절상률, KOSPI 지수, KOSPI 200 지수, 제조업종의 가계 신용, 및 제조업종의 기업 부채를 포함하는 통화 및 금융 변수, 및 미국 수출액 및 중국 수출액을 포함하는 국제 수지 변수 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다.
미시 경제 변수들은 개인 사업자의 기업 신용 변수, 대표자 개인 신용 변수 및 이들을 분석 및/또는 가공한 변수들을 포함할 수 있다. 미시 경제 변수들은 개인의 대출 잔액, 비은행권 대출잔액, 카드대출잔액, 연체잔액 등과 같은 개인 신용 정보로부터 정의한 개인 변수, 사업체의 원화 대출 잔액, 운전 자금 대출 잔액, 비은행권 대출 잔액, 카드 대출 잔액, 연체 잔액 등과 같은 기업 신용 정보로부터 정의한 기업 변수, 및 개인 신용 정보 및 기업 신용 정보를 가공하여 정의한 복합 변수를 포함할 수 있다. 복합 변수에는 예를 들어, 개인사업자 대출 총액 중 개인 대출 비중과 같이 비중 혹은 총계 등을 표현한 값이 해당할 수 있다. 미시 경제 변수들은 예를 들어, 개인 대출 잔액, 카드 대출 잔액, 비은행권 대출 총 기관 수, 카드 대출 총 기관 수, 다중 채무 건수, 소액 채무 건수, 전년 동기 대비 개인 대출 잔액 증가율, 전년 동기 대비 비은행권 대출 잔액, 전년 동기 대비 카드 대출 잔액 증가율, 연체 잔액, 연체율, 평균 연체 기간, 최장 연체 기간, 연체 건수, 최장 연체 기간, 사업자 번호 보유 개수, 사업체 업종 등록 횟수, 사업체 주소 등록 횟수, 전년 동기 대비 사업자 번호 보유 개수 증가율, 전년 동기 대비 업종 등록 횟수 증가율, 및 전년 동기 대비 주소 등록 횟수 증가율 중 적어도 하나를 포함하는 개인 신용 변수들, 원화 대출 잔액, 신용공여 총잔액, 운전자금 대출 잔액, 시설 자금 대출 잔액, 비은행권 대출 잔액, 카드 대출 잔액, 원화 대출 총 기관수, 신용 공여 총 기관수, 운전 자금 대출 총 기관수, 카드 대출 총 기관수, 다중 채무 건수, 소액 채무 건수, 금융리스, 운용 리스, 자금 대여, 사모 사채 잔액 중 적어도 하나를 포함하는 기업 신용 변수들, 및 개인사업자 원화 대출 총액, 개인사업자 비은행권 총 기관수, 개인사업자 다중 채무 건수, 개인사업자 소액 채무 건수, 대부업권 이용 여부, 선(先) 개인 대출 후(後) 사업자 대출 실행 여부, 부도유형 종류 건수(부도 사유 건수), 업종 평균대비 개인 대출 증가율, 업종 평균 대비 대출 증가율, 대출 비중, 및 잔액 구간 중 적어도 하나를 포함하는 복합 신용 변수들 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다.
신용 정보는 예를 들어, 개인 신용 정보, 기업 신용 정보 및 복합 신용 정보 등을 포함할 수 있다. '개인 신용 정보'는 개인 사업자 본인에 관한 신용 정보로 이해될 수 있다. '기업 신용 정보'는 사업자 대출, 사업체 연체 등과 같은 사업체에 관한 신용 정보로 이해될 수 있다. '복합 신용 정보'는 개인 신용 정보와 기업 신용 정보를 함께 이용하여 가공한 정보로서 개인 신용 정보와 기업 신용 정보에 대한 총계, 비중 등으로 이해될 수 있다.
단계(110)에서 수신한 거시 경제 변수들 및/또는 미시 경제 변수들은 예를 들어, 전문가 토의 및 문헌 조사를 통해 도출된 변수들에 해당할 수 있다. 거시 경제 변수(들)은 '거시 변수(들)'로 간략화하여 표현할 수 있고, 미시 경제 변수(들)은 '미시 변수(들)'로 간략화하여 표현할 수 있다.
단계(120)에서, 예측 장치는 시차 상관성에 기반한 통계적 검증을 수행함으로써 단계(110)에서 수신한 거시 경제 변수들 중 후보 거시 경제 변수들을 선택한다. 예측 장치는 거시 경제 변수들을 기초로, 개인사업자의 부도율 예측을 위한 기초 모형을 모델링할 수 있다. 여기서, '거시 경제 변수들에 대한 통계적 검증'은 예측 장치가 부도율에 대한 교차 상관성 뿐만 아니라 시차 상관성의 유의한 통계적 관계가 있는 거시 경제 변수들을 선별하는 과정에 해당할 수 있다. 예측 장치는 예를 들어, 시차 상관 계수가 ±0.3 이상이면서 교차 상관 계수의 상관 방향성이 일치하는 거시 경제 변수(들)를 후보 거시 경제 변수(들)로 선택할 수 있다.
예측 장치는 예를 들어, 시차 상관성에 기반한 통계적 검증을 수행함으로써 거시 경제 변수들 중 후보 거시 경제 변수들을 선택할 수 있다. 예측 장치는 개인사업자의 부도율에 대한 거시 경제 변수들의 시차 상관 계수를 기초로, 후보 거시 경제 변수들을 선택할 수 있다. 단계(120)에는 예를 들어, 콜금리, 기준 금리, 고용 지수, 국고채 금리, 및 KOSPI 지수의 총 5개의 후보 거시 경제 변수들이 선택될 수 있다.
단계(130)에서, 예측 장치는 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 단계(110)에서 수신한 미시 경제 변수들 중 후보 미시 경제 변수들을 선택한다. 예측 장치는 예를 들어, 미시 경제 변수들이, 개인사업자의 부도 여부에 대한 독립 표본 T-테스트에 의해 통계적으로 유의한 변수 중 단계적 회귀 분석(stepwise logistic regression)에서 결정 계수의 기준값 이상에 해당하는지 여부(예를 들어, p < 0.05, R2 > 0.65인지 여부)를 기초로, 미시 경제 변수들 중 후보 미시 경제 변수들을 선택할 수 있다. 여기서, p는 독립 표본 T-테스트에 의해 통계적으로 유의한 변수를 구분하는 기준 값에 해당할 수 있다. 또한, R2는 회귀 모형(Regression Model)의 성능을 측정하기 위한 성능 지표로서, 평균값(mean value)으로 예측하는 단순 모형과 비교하여 상대적으로 얼마나 성능이 나오는지를 측정한 결정 계수에 해당할 수 있다. R2는 1에 가까울수록 성능이 우수함을 나타낼 수 있다.
후보 미시 경제 변수들은 예를 들어, 개인 신용카드 발급 사실, 개인 평균 연체 기간, 개인 비은행권 대출 총 기관 수, 개인 신용 카드 발급 총 건수, 개인 카드 연체 총건수, 개인 평균 연체 기간, 개인 연체 경험 총건수, 개인사업자 부도 사유 건수, 사업자 대출 잔액 구간 등을 포함하는 총 56개의 후보 미시 경제 변수들을 포함할 수 있다.
본 명세서에서 '후보 거시 경제 변수(들)' 및 '후보 미시 경제 변수(들)'은 단계(120) 및/또는 단계(130)과 같은 통계적 검증(또는 1차적 분석 검증)을 통해 선택된 후보 변수(들)로 이해될 수 있다.
아래에서 보다 구체적으로 설명하겠지만, 단계(130)에서, 예측 장치는 후보 미시 경제 변수들 각각을 월별 집계값으로 가공할 수 있다.
단계(140)에서, 예측 장치는 단계(130)에서 선택된 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택한다. 단계(140)에서 예측 장치는 개인 변수, 기업 변수, 및 개인 변수와 기업 변수를 함께 이용하여 가공한 복합 변수와 같은 신용 정보 변수들을 조합한 결과를 기초로, 후보 미시 경제 변수들의 신용 정보 유형들을 분류할 수 있다.
신용 정보 변수는 정보 주체에 따라 개인 변수, 기업 변수, 개인 변수와 기업 변수를 함께 이용하여 가공한 복합 변수로 분류될 수 있다. 개인 변수는 개인의 대출, 및/또는 연체와 관련된 변수로서, 예를 들어, 개인 대출 잔액, 비은행권 개인 대출 잔액, 카드 대출 잔액, 대출 기관 수, 다중 채무 건수, 소액 채무 건수, 연체 잔액, 연체 총 건수 등을 포함할 수 있다. 기업 변수는 사업체의 대출, 및/또는 연체와 관련된 변수로서, 예를 들어, 원화 대출금 잔액, 신용 공여 총 잔액, 운전 자금 대출 잔액, 시설 자금 대출 잔액, 비은행권 사업자 대출 잔액, 사업자 카드 대출 잔액, 사업체 연체 잔액, 사업체 연체 총 건수 등을 포함할 수 있다. 복합 변수는 개별 개인 변수 값과 기업 변수 값에 대한 총계, 비율, 및 선후 관계 등을 산출한 변수로서, 예를 들어, 개인사업자 원화 대출 총액, 개인사업자 비은행권 총 기관 수, 개인사업자 다중 채무 건수, 개인 대출 실행 여부, 개인사업자 대출 중 개인 대출 잔액 비중, 개인사업자 대출 중 사업자 대출 잔액 비중 등을 포함할 수 있다.
예측 장치는 후보 미시 경제 변수들의 신용 정보 유형들을, 예를 들어, 개인 변수에 대응하는 제1 유형, 기업 변수에 대응하는 제2 유형, 복합 변수에 대응하는 제3 유형, 개인 변수 및 기업 변수의 조합에 대응하는 제4 유형, 복합 변수 및 개인 변수의 조합에 대응하는 제5 유형, 및 복합 변수 및 기업 변수의 조합에 대응하는 제6 유형 중 어느 한 유형으로 분류할 수 있다.
예측 장치는 후보 미시 경제 변수들의 신용 정보 유형들 별 성능을 기초로, 제1 중요 변수들을 선택할 수 있다. 예측 장치는 예를 들어, 후보 미시 경제 변수들의 신용 정보 유형들에 대한 순열 피처 중요도(permutation feature importance)에 기반한 성능 평가를 통해 리지(ridge) 모형에 대한 제1 중요 변수들을 선택할 수 있으며 반드시 이에 한정되지는 않는다. 예측 장치는 순열 피처 중요도 이외의 중요 변수(중요 피처)를 선택하는 다양한 방법들에 의해 제1 중요 변수들을 선택할 수 있다. 단계(150)에서, 예측 장치는 후보 거시 경제 변수들의 유형 및 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성한다.
단계(160)에서, 예측 장치는 모형들에 기반한 성능 평가 결과를 기초로, 단계(150)에서 생성한 서브셋들 중 적어도 하나의 서브셋을 선택한다.
단계(170)에서, 예측 장치는 단계(160)에서 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측한다. 예측 장치는 후보 거시 경제 변수들 및 단계(160)에서 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측할 수 있다. 이때, 최종 중요 변수들의 개수는 예를 들어, 20개일 수 있다. 단계(170)에서, 예측 장치는 후보 거시 경제 변수들 및 단계(160)에서 선택된 서브셋에 포함된 최종 중요 변수들을 예를 들어, 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, SVR(Support Vector Regression) 모형, 심층 신경망(deep neural network; DNN) 모형, 라쏘(Lasso) 모형, 및 드랍아웃(Dropout) 모형 등과 같은 인공 지능 모형들에 입력함으로써 개인사업자의 업종별 부도율을 예측할 수 있다. 일 실시예에서 '부도'는 예를 들어, 대출금 연체, 지급보증 대지급, 어음 수표 부도, 가계수표/당좌수표/약속어음의 최종 부도, 채무 불이행, 파산 면책, 및 신용 회복 지원 등을 모두 포괄하는 의미로 이해될 수 있다. 또한, '부도율'은 월별 신용 보유 전체 차주수에 대한 부도 차주수의 비율에 해당할 수 있다.
실시예에 따라서, 단계(140)에서 예측 장치는 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들(binary models)의 예측 성능에 기초하여 제2 중요 변수들을 더 선택할 수도 있다. 바이너리 모형들은 예를 들어, 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, 및 심층 신경망(deep neural network; DNN) 모형 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 리지 모형은 회귀를 위한 선형 모형으로서, 해당 모델이 학습 데이터에 과적합(overfitting)되지 않도록 규제(L2)를 적용한 회귀 모형에 해당할 수 있다. 예측 장치는 리지 모형의 알파(alpha) 값을 조절하여 가중치를 작아지게 혹은 커지게 규제할 수 있다. 랜덤 포레스트(RF) 모형은 결정 트리(decision tree)라는 결정에 도달하기 위해 예 또는 아니오의 질문을 이어 나가면서 학습하는 모형에 해당할 수 있다. 랜덤 포레스트 모형은 조금씩 상이한 여러 개의 결정 트리들을 만들고, 이들의 평균 등을 이용하여 결과를 예측하는 앙상블 모형에 해당할 수 있다. 심층 신경망(Deep Neural Network; DNN) 모형은 하나의 딥러닝 모형으로서 입력 레이어(input layer)와 출력 레이어(output layer) 사이에 여러 개의 은닉 레이어들(hidden layers)을 갖는 인공 신경망에 해당할 수 있다.
이 경우, 단계(150)에서, 예측 장치는 제2 중요 변수들 각각을 월별 집계값으로 가공하고, 가공된 제2 중요 변수들 중 다중 공선성(variance influence factor; VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성할 수 있다. 또한, 단계(150)에서, 예측 장치는 제1 서브셋들에, 제2 서브셋들의 중요 변수들을 하나씩 추가하여 제3 서브셋들을 생성할 수도 있다.
도 2는 일 실시예에 따른 거시 경제 변수와 신용 정보 변수를 활용하여 개인사업자의 부도율을 예측하는 방법을 설명하기 위한 도면이다. 도 2를 참조하면, 일 실시예에 따른 예측 장치가 단계(201) 내지 단계(270)의 과정을 통해 최대 성능 모형으로부터 추출된 중요 변수들에 의해 개인사업자의 부도율을 예측하는 과정이 도시된다.
단계(201)에서, 예측 장치는 거시 경제 변수(들)를 입력받을 수 있다. 단계(201)에서 입력받는 거시 경제 변수(들)을 '초기 거시 경제 변수(들)'라고 부를 수 있다.
단계(203)에서, 예측 장치는 신용 정보를 포함하는 미시 경제 변수(들)를 입력받을 수 있다. 단계(203)에서 입력받는 미시 경제 변수(들)을 '초기 미시 경제 변수(들)'라고 부를 수 있다.
단계(205)에서, 예측 장치는 대상 차주 분류, 부도 정보를 입력받을 수 있다.
단계(210)에서, 예측 장치는 단계(201)에서 입력받은 거시 경제 변수들을 분석하여 후보 거시 경제 변수들을 선택할 수 있다.
단계(220)에서, 예측 장치는 단계(205)에서 입력받은 대상 차주 분류, 부도 정보 및 단계(210)에서 선택된 후보 거시 경제 변수들을 기초로, 단계(203)에서 입력받은 미시 경제 변수들을 분석하여 후보 미시 경제 변수들을 선택할 수 있다.
예측 장치가 단계(220)에서 후보 미시 경제 변수들을 선택하는 방법은 아래의 도 3을 참조하여 보다 구체적으로 설명한다.
단계(230)에서, 예측 장치는 단계(210)에서 선택된 후보 거시 경제 변수들을 기초로 (거시) 기초 모형을 생성할 수 있다.
단계(240)에서, 예측 장치는 단계(210)에서 선택된 후보 거시 경제 변수들 및 단계(220)에서 선택된 후보 미시 경제 변수들을 기초로 거시-미시 통합 모형을 생성할 수 있다.
단계(250)에서, 예측 장치는 단계(230) 및 단계(240)에서 생성된 모형들 각각에 입력되는 최종 중요 변수들에 따른 예측 성능을 비교할 수 있다.
단계(260)에서, 예측 장치는 단계(230) 및 단계(240)에서 생성된 모형들 각각에 대해 다양한 AI 기법에 따른 모형을 생성하고, 예측 성능을 비교할 수 있다.
단계(270)에서, 예측 장치는 단계(250) 및 단계(260)의 예측 성능 비교 결과에 따라 생성된 모형들 중 최대 성능을 나타내는 모형을 선택할 수 있다.
예측 장치는 단계(270)에서 선택된 모형으로부터 추출된 중요 변수들에 의해 개인사업자의 부도율을 예측할 수 있다.
도 3은 일 실시예에 따라 개인사업자의 부도율 예측에 유용한 중요 변수들을 선택하는 방법을 설명하기 위한 도면이다. 도 3을 참조하면, 일 실시예에 따른 예측 장치가 단계(301) 내지 단계(325)를 통해 후보 거시 경제 변수들 및 후보 미시 경제 변수들 로부터 중요 변수들을 선택하는 과정이 도시된다.
단계(301)에서, 예측 장치는 단계(201)에서 수신된 거시 경제 변수들에 대한 통계적 검증에 의해 거시 경제 후보 변수(들)을 선택할 수 있다.
단계(303)에서, 예측 장치는 단계(203)에서 수신된 미시 경제 변수들에 대한 통계적 검증에 의해 미시 경제 후보 변수(들)을 1차 선택할 수 있다.
단계(305)에서, 예측 장치는 단계(303)에서 선택된 미시 경제 후보 변수(들)의 월별 집계값을 산출할 수 있다.
단계(307)에서, 예측 장치는 단계(301)에서 선택된 거시 경제 후보 변수(들) 및 단계(305)에서 산출된 미시 경제 후보 변수(들)의 월별 집계값을 기초로, 개인 변수-기업 변수-복합 변수가 조합된 서브셋들을 생성할 수 있다. 이때, 예측 장치는 예를 들어, 개인 변수, 기업 변수, 복합 변수, 개인 변수 및 기업 변수의 조합, 복합 변수 및 개인 변수의 조합, 복합 변수 및 기업 변수의 조합의 총 6가지 신용 정보 유형에 따른 서브셋들 및 각 서브셋들에 포함된 중요 변수들(예를 들어, 제1 중요 변수들)을 선택할 수 있다. 이때, 예측 장치는 예를 들어, 리지 기반의 순열 피처 중요도에 의해 각 서브셋들의 상위 10개의 중요 변수들을 선택할 수 있다.
단계(309)에서, 예측 장치는 단계(307)에서 선택된 서브셋들 중 최대 성능을 나타내는 어느 한 유형의 서브셋을 선택할 수 있다. 예측 장치는 예를 들어, 리지(Ridge) 모형을 기반으로, 단계(307)에서 선택된 서브셋들 중 최대 성능을 나타내는 어느 한 유형의 서브셋을 선택할 수 있다. 단계(309)에서 선택된 서브셋을 'ⓛ 피처셋'이라 부를 수 있다. 본 명세서에서 서브셋과 '피처셋(feature set)'은 동일한 의미로서 서로 혼용될 수 있다.
단계(311)에서, 예측 장치는 단계(303)에서 1차 선택된 미시 경제 후보 변수(들)을 기초로, 미시 레벨의 서브 모델들(또는 모형들)을 생성할 수 있다. 여기서, 서브 모델들(모형들)은 예를 들어, 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, 및 심층 신경망(deep neural network; DNN) 모형과 같은 3 가지 바이너리 모형들에 해당할 수 있다.
단계(313)에서, 예측 장치는 단계(311)에서 생성된 3가지 서브 모형들 각각의 서브셋 및 각 서브셋에 포함된 중요 변수들('제2 중요 변수들')을 선택할 수 있다. 단계(313)에서, 예측 장치는 예를 들어, 단계(309)에서 선택된 ⓛ 피처셋의 미시 경제 변수의 개수를 기준으로 3가지 서브 모형들 각각의 서브셋에 포함된 중요 변수들(제2 중요 변수들)을 선택할 수 있다.
단계(315)에서, 예측 장치는 단계(313)에서 선택된 중요 변수들(제2 중요 변수들)의 월별 집계값을 산출할 수 있다.
단계(317)에서, 예측 장치는 단계(315)에서 산출된 중요 변수들(제2 중요 변수들)의 월별 집계값과 단계(301)에서 선택된 거시 경제 후보 변수를 기초로, 3가지 서브 모형들 각각의 서브셋에서 다중 공선성이 높은 변수를 삭제한 서브셋과 거시 경제 후보 변수를 조합(union)하여 3개의 서브셋들을 생성할 수 있다. 단계(317)에서 생성된 3개의 서브셋들을 '②-1피쳐셋'이라 부를 수 있다.
단계(319)에서, 예측 장치는 단계(317)에서 생성된 3개의 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택할 수 있다. 예측 장치는 예를 들어, 리지(Ridge) 모형을 기반으로, 단계(317)에서 생성된 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택할 수 있다. 단계(319)에서 선택된 서브셋을 '② 피처셋'이라 부를 수 있다.
단계(321)에서, 예측 장치는 단계(309)에서 선택된 서브셋('ⓛ 피처셋')에, 단계(317)에서 생성된 3개의 서브셋들('②-1피쳐셋')의 중요 변수들을 하나씩 추가하면서 성능 개선에 기여하는 중요 변수를 추가한 서브셋을 선택할 수 있다. 단계(321)에서 서브셋('ⓛ 피처셋')에 성능 개선에 기여하는 중요 변수를 추가한 서브셋을 '③-1피처셋'이라 부를 수 있다.
단계(323)에서, 예측 장치는 단계(321)에서 생성된 서브셋들('③-1피처셋') 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택할 수 있다. 예측 장치는 예를 들어, 리지 모형을 기반으로, 단계(321)에서 생성된 서브셋들('③-1피처셋') 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택할 수 있다. 단계(323)에서 선택된 서브셋을 '③피처셋'이라 부를 수 있다.
이때, ⓛ 피처셋 및 ③피처셋에 포함되는 중요 변수들의 일 예는 아래의 표 1을 참조할 수 있다.
아래 표 1에 기재된 거시 경제 변수는 부도율의 기준월 t에 대해 선행성을 가지며, 예를 들어 2개월 전부터 6개월 전(t-2~t-6)에 해당할 수 있다. 거시 경제 변수와 달리 방대한 양의 신용 정보 변수, 다시 말해 미시 경제 변수는 개별 변수에 대해 개별 시차를 반영하지 않고 3개월전 시차(t-3)를 반영한 것일 수 있다.
Figure pat00001
단계(325)에서, 예측 장치는 단계(309)에서 선택된 서브셋('ⓛ피처셋'), 단계(319)에서 선택된 서브셋('② 피처셋') 및 단계(323)에서 선택된 서브셋('③피처셋') 중 최대 성능을 나타내는 어느 하나의 서브셋을 최종적으로 선택할 수 있다.
예측 장치는 단계(325)에서 최종적으로 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측할 수 있다. 예측 장치는 최종 중요 변수들에 의해 개인사업자들의 업종별 부도율을 예측할 수 있다.
도 4는 일 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 간략화하여 나타낸 도면들이다. 도 4를 참조하면, 일 실시예에 따른 예측 장치가 단계(401) 내지 단계(470)의 과정을 통해 중요 변수를 선정하여 개인사업자의 부도율을 예측하는 과정이 도시된다.
단계(401)에서, 예측 장치는 거시 경제 변수들을 수신할 수 있다.
단계(403)에서, 예측 장치는 미시 경제 변수들을 수신할 수 있다.
단계(410)에서, 예측 장치는 시차 선행성 및 교차 상관성의 유의 수준에 따라 단계(401)에서 수신한 거시 경제 변수들 중 후보 거시 경제 변수들(415)을 선택할 수 있다.
단계(420)에서, 예측 장치는 통계적 유의성 및 다중 회귀의 단계적 선택을 통해 단계(403)에서 수신한 미시 경제 변수들 중 후보 미시 경제 변수들(425)을 선택할 수 있다.
단계(430)에서, 예측 장치는 후보 미시 경제 변수들(425) 중 성능 평가를 위한 복수의 모형들에 따른 중요 변수를 선택할 수 있다. 이때, 복수의 모형들은 신용 정보 유형들의 분류 별 모형에 해당할 수 있다.
단계(440)에서, 예측 장치는 후보 미시 경제 변수들(425)을 기초로 신용 정보 유형 별로 분류한 서브셋들을 생성하고, 생성된 서브셋들에 대한 모형 성능 평가에 따라 중요 변수(예를 들어, 제1 중요 변수)(450)를 선택할 수 있다. 이때, 서브셋들의 신용 정보 유형들은 개인 변수-기업 변수-복합 변수의 조합일 수 있다.
단계(460)에서, 예측 장치는 단계(410)에서 선택된 후보 거시 경제 변수들(415) 및 단계(440)에서 선택된 유형 별 서브셋의 중요 변수들(450) 중 예측 성능이 높은 미시 경제 변수를 채택할 수 있다. 예측 장치는 예를 들어, 리지(Ridge) 모형을 기반으로, 후보 거시 경제 변수들(415) 및 단계(440)에서 추출된 중요 변수들(450) 중 예측 성능이 높은 미시 경제 변수를 선택할 수 있다.
단계(470)에서, 예측 장치는 단계(460)에서 선택된 예측 성능이 높은 거시 경제 변수(들) 및 미시 경제 변수(들)을 최종 중요 변수로 선정하여 다양한 인공 지능(AI) 모형들에 입력함으로써 개인사업자의 부도율을 예측할 수 있다. 이때, 다양한 인공 지능(AI) 모형들은 예를 들어, 리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, SVR(Support Vector Regression) 모형, 심층 신경망(deep neural network; DNN) 모형, 라쏘(Lasso) 모형, 드랍아웃(Dropout) 모형 등을 포함할 수 있다.
여기서, SVR 모형은 데이터 사이의 거리를 계산하여 초평면을 생성하는 SVM(Support Vector Machines) 모형으로서, 회귀 모형은 SVR(Support Vector Regression)을 사용하고 분류 모형은 SVC(Support Vector Classification)를 사용할 수 있다. 라쏘 모형은 회귀를 위한 또 다른 선형 모형으로서, 과적합(overfitting)이 되지 않도록 규제(L1)를 적용한 회귀 모형에 해당할 수 있다. 예측 장치는 라쏘 모형의 alpha 값을 조절하여 가중치를 작아지게 혹은 커지게 규제하며, 특정 계수를 0으로 설정할 수 있다. 드랍아웃 모형은 앙상블 모형의 일종으로서, 훈련 과정에서 무작위로 특정 노드를 끊어버리는 가지치기(pruning)를 통해 과적합을 방지할 수 있다.
도 5는 다른 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 간략화하여 나타낸 도면이다. 도 5를 참조하면, 일 실시예에 따른 예측 장치가 단계(501) 내지 단계(570)의 과정을 통해 중요 변수를 선정하여 개인사업자의 부도율을 예측하는 과정이 도시된다.
도 5의 단계(501) 내지 단계(525)의 과정은 도 4의 단계(401) 내지 단계(425)의 과정과 동일하고, 단계(560) 내지 단계(570)의 과정은 도 4의 단계(460) 내지 단계(470)의 과정과 동일하므로 해당 부분을 참조하기로 한다. 이하에서는 도 4와 상이한 동작에 대하여 설명하기로 한다.
단계(530)에서, 예측 장치는 후보 미시 경제 변수들(525)을 적용한 다양한 모형들을 평가한 후 예측 성능이 높은 모형의 중요 변수를 선택할 수 있다.
보다 구체적으로, 단계(540)에서는 도 4의 단계(440)의 과정과 동일하게 제1 중요 변수(545)를 선택할 수 있다.
또한, 단계(550)에서, 예측 장치는 차주 단위의 데이터 셋(후보 미시 경제 변수들(525))으로부터 바이너리 모형들을 생성하고, 바이너리 모형들 중 기업의 부도를 예측하는 성능이 높은 모형을 선택할 수 있다. 예측 장치는 예를 들어, 리지(ridge) 모형, 랜덤 포레스트(RF) 모형, 및 심층 신경망(DNN) 모형 등과 같은 바이너리 모형들 각각의 개별 성능을 측정한후, 높은 성능을 나타내는 모형에서의 특징(피처) 중요도를 산출하여 미시 레벨의 제2 중요 변수(555)를 선택할 수 있다.
단계(560)에서, 예측 장치는 후보 거시 경제 변수(515), 및 신용 정보에 기초한 제1 중요 변수(545) 및 제2 중요 변수(555) 중 예측 성능이 높은 중요 변수를 채택할 수 있다.
단계(570)에서, 예측 장치는 단계(560)에서 선택된 중요 변수를 최종 중요 변수로 선정하여 다양한 인공 지능(AI) 모형들에 입력함으로써 개인사업자의 부도율을 예측할 수 있다.
도 6은 일 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 구체적으로 나타낸 도면이다. 도 6을 참조하면, 일 실시예에 따른 예측 장치가 단계(601) 내지 단계(690)를 통해 개인사업자의 부도율을 예측하는 과정이 도시된다. 도 6은 도 5를 통해 설명한 실시예에 데이터 전처리(data preprocessing)를 추가적으로 수행하는 실시예에 해당할 수 있다.
단계(601)에서, 예측 장치는 로우 데이터 셋(raw data set)을 수신할 수 있다. 로우 데이터 셋은 예를 들어, 33개의 거시 경제 변수들 및 170 개의 미시 경제 변수들을 포함할 수 있다.
단계(605)에서, 예측 장치는 단계(601)에서 수신한 로우 데이터 셋에 대한 데이터 스케일링(Data Scaling)을 수행할 수 있다. 특정 알고리즘은 데이터 스케일에 상당히 민감하여 데이터 값이 너무 크거나 작을 때 학습 과정에서 0으로 수렴하거나 무한대로 발산할 수 있으므로 예측 장치는 전처리로서 데이터의 스케일을 조정할 수 있다. 예측 장치는 예를 들어, 각 피처(feature)의 평균을 0, 분산을 1로 변경하여 모든 피처가 같은 크기를 가지게 하는 기본 스케일러(Standard Scaler) 기법, 모든 피처들이 같은 크기를 갖는다는 점에서 기본 스케일러 기법과 유사하나 평균과 분산 대신 중앙값(median)과 사분위수(quartile)를 사용하는 로버스트 스케일러(Robust Scaler) 기법, 모든 피처들이 0과 1사이에 위치하게 만드는 최소최대 스케일러(MinMaxScaler) 기법, 유클리드 거리가 1이 되도록 데이터를 조정하는 노멀라이저(Normalizer) 기법 등에 의해 데이터 스케일링(Data Scaling)을 수행할 수 있다.
이하, 단계(610)내지 단계(675)는 피처 선택(feature selection)을 통해 데이터의 차원을 축소하는 과정에 해당할 수 있다.
단계(610)에서, 예측 장치는 시차 상관성에 기반한 통계적 검증을 수행함으로써 단계(605)에서 스케일링된 거시 경제 변수들 중 5개의 후보 거시 경제 변수들(615)을 선택할 수 있다.
단계(620)에서, 예측 장치는 독립 표본 T-테스트에 의해 통계적으로 유의한 변수 중 단계적 회귀 분석에서 결정 계수 기준 이상에 해당하는지 여부를 기초로, 단계(605)에서 스케일링된 미시 경제 변수들 중 56개의 후보 미시 경제 변수들(625)을 선택할 수 있다.
단계(630)에서, 예측 장치는 차주 별 데이터에 해당하는 56개의 후보 미시 경제 변수들(625)을 월별로 집계(aggregation)할 수 있다.
단계(635)에서, 예측 장치는 월별로 집계된 후보 미시 경제 변수들(625)과 5개의 후보 거시 경제 변수들(615)에 대해 PCA(Principal Component Analysis)를 수행할 수 있다. 여기서, PCA는 차원 축소(dimension reduction)를 위해 피처를 추출하는 기법에 해당할 수 있다. 여기서, 차원은 피처, 다시 말해, 입력 변수의 개수를 의미할 수 있다. 예를 들어, 데이터 차원이 증가하면 증가된 차원을 표현하기 위한 데이터 양이 기하급수적으로 증가하므로 오히려 모형의 설명력과 일반화 성능을 저하시킬 수 있다.
단계(635)에서, 예측 장치는 PCA를 통해, 다양한 예측 지표들 간의 상관성 및 교호 작용 등을 해결하기 위해 여러 변수들(예를 들어, 월별로 집계된 후보 미시 경제 변수들(625)과 5개의 후보 거시 경제 변수들(615)) 중 상관성이 높은 변수들을 공동 요인으로 묶어 기존 변수들이 가지고 있는 정보들을 최대한 확보함으로써 적은 수의 새로운 변수들을 생성할 수 있다. 예측 장치는 최적의 하이퍼 파라미터(hyper parameter)를 찾기 위한 교차 검증을 실시하여 최대 성능이 나오는 차원 수를 결정할 수 있다. 도 6에서 점선으로 표시된 단계(635) 및 단계(655)의 PCA 과정은 반드시 실시되어야 하는 것은 아니며, 실시예에 따라 선택적으로 수행될 수 있다.
단계(640)에서, 예측 장치는 단계(635)의 PCA과정을 통해 차원이 축소된 월별로 집계된 후보 미시 경제 변수들(625)과 5개의 후보 거시 경제 변수들(615)을 기초로, 개인 변수-기업 변수-복합 변수가 조합된 서브셋들을 생성할 수 있다. 이때 예측 장치는 리지(ridge) 모형에 적용하여 각 서브셋에 포함된 제1 중요 변수들을 선택할 수 있다.
단계(650)에서, 예측 장치는 단계(620)을 통해 선택된 56개의 후보 미시 경제 변수들(625)에 대한 언더-샘플링 및 오버 샘플링( Under-sampling & over-sampling)을 수행할 수 있다. 예를 들어, 기업 정보는 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 데이터 불균형 문제를 가질 수 있으므로 이분류 모형에서는 이를 해결하기 위한 표본 재추출 기법이 요구될 수 있다. 일 실시예에서는 이분류형의 서브 모형 학습에서 데이터 불균형으로 인한 왜곡과 과적합을 피하기 위해 부도와 정상 기업 데이터 비율이 1:1 조건이 되도록 56개의 후보 미시 경제 변수들(625)에 대해 언더 샘플링과 오버 샘플링을 수행할 수 있다.
단계(655)에서, 예측 장치는 언더-샘플링 및 오버 샘플링된 후보 미시 경제 변수들에 대해 PCA를 수행하여 정보의 차원을 축소할 수 있다.
단계(660)에서, 예측 장치는 단계(655)에서 PCA 과정을 통해 차원이 축소된 후보 미시 경제 변수들을, 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들 각각에 적용함에 따라 획득된 모형들 별 예측 성능에 기초하여 제2 중요 변수들을 선택할 수 있다.
단계(665)에서, 예측 장치는 제2 중요 변수들을 집계할 수 있다. 이는 제2 중요 변수들이 차주 단위의 데이터이므로 이를 월 별로 집계하기 위한 과정에 해당할 수 있다.
단계(670)에서, 예측 장치는 단계(640)에서 선택된 제1 중요 변수와 단계(665)에서 집계된 제2 중요 변수들에 대해 예를 들어, 피처 중요도(Feature importance)라는 점수를 산출하여 우선 순위를 결정할 수 있다. 예측 장치는 예를 들어, 파이썬 scikit-learn 패키지를 이용하여 단계(640)에서 선택된 제1 중요 변수와 단계(665)에서 집계된 제2 중요 변수들에 대한 순열 피처 중요도(permutation feature importance)를 산출할 수 있다. 순열 피처 중요도는 학습된 모형에서 데이터 셋의 특정 변수의 값을 임의로 셔플(shuffle)할 때 모형의 예측 결과에 얼마나 영향을 미치는가를 비교하여 각 변수의 영향력이 큰 변수의 중요도를 수치로 표현한 것일 수 있다. 단계(670)에서 예측 장치는 중요 변수들의 중요도에 기반한 우선 순위를 기초로 변수들 중 12 개의 중요 변수들(675)을 선택할 수 있다.
단계(680)에서, 예측 장치는 단계(610)에서 선택된 5개의 후보 거시 경제 변수들(615)과 단계(670)에서 선택된 12개의 중요 변수들(675)의 총 17개의 변수들에 대한 PCA 주성분들(principle components)을 산출할 수 있다.
단계(690)에서, 예측 장치는 단계(680)에서 산출한 PCA 주성분을, 예를 들어, 리지 모형, 랜덤 포레스트 모형, 및 심층 신경망 모형과 같은 최종 모형에 입력하여 개인사업자의 부도율을 예측할 수 있다.
도 7은 다른 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 구체적으로 나타낸 도면이다. 도 7을 참조하면, 일 실시예에 따른 예측 장치가 단계(701) 내지 단계(750)를 통해 개인사업자의 부도율을 예측하는 과정이 도시된다.
도 7의 단계(701) 내지 단계(725)의 과정은 도 4의 단계(401) 내지 단계(470)의 과정을 보다 상세히 설명한 것이다.
단계(701)에서, 예측 장치는 로우 데이터 셋(raw data set)을 수신할 수 있다. 로우 데이터 셋은 예를 들어, 33개의 거시 경제 변수들 및 170 개의 미시 경제 변수들을 포함할 수 있다.
단계(703)에서, 예측 장치는 단계(701)에서 수신한 로우 데이터 셋에 대한 데이터 스케일링(Data Scaling)을 수행할 수 있다.
단계(710)에서, 예측 장치는 단계(703)에서 데이터 스케일링을 통해 전처리된 거시 경제 변수들에 대해 시차 상관성에 기반한 통계적 검증을 수행함으로써 후보 거시 경제 변수들을 선택할 수 있다. 이때, 예측 장치는 거시 경제 변수들을 기초로, 개인사업자의 부도율 예측을 위한 기초 모형을 모델링할 수 있다. 예측 장치는 예를 들어, 시차 상관 계수(parallax correlation coefficient)가 ±0.3 이상이면서 교차 상관 계수의 상관 방향성이 일치하는 거시 경제 변수(들)를 후보 거시 경제 변수(들)(715)로 선택할 수 있다.
단계(720)에서, 예측 장치는 단계(703)에서 데이터 스케일링을 통해 전처리된 미시 경제 변수들에 대해 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 후보 미시 경제 변수들을 선택할 수 있다. 예측 장치는 예를 들어, 미시 경제 변수들이, 개인사업자의 부도 여부에 대한 독립 표본 T-테스트에 의해 통계적으로 유의한 변수 중 단계적 회귀 분석(stepwise logistic regression)에서 결정 계수의 기준값 이상에 해당하는지 여부(예를 들어, p < 0.05, R2 > 0.65인지 여부)를 기초로, 미시 경제 변수들 중 후보 미시 경제 변수들(725)을 선택할 수 있다. 여기서, p는 독립 표본 T-테스트에 의해 통계적으로 유의한 변수를 구분하는 기준 값에 해당할 수 있다. 또한, R2는 회귀 모형(Regression Model)의 성능을 측정하기 위한 성능 지표로서, 평균값(mean value)으로 예측하는 단순 모형과 비교하여 상대적으로 얼마나 성능이 나오는지를 측정한 결정 계수에 해당할 수 있다. R2는 1에 가까울수록 성능이 우수함을 나타낼 수 있다.
단계(730)에서, 예측 장치는 피처 선택(feature selection)을 위한 임의의 모형(또는 서브 모형)을 생성하고, 단계(720)에서 선택된 56개의 후보 미시 경제 변수들(725)을 복수의 모형들에 적용한 결과에 따라 최대 성능을 나타낼 수 있는 중요 변수들을 선택할 수 있다. 또한, 단계(730)에서, 예측 장치는 최적의 검색(Best Fit Search; 이하, BFS) 방식에 의해 56개의 후보 미시 경제 변수들(725)을 복수의 모형들에 적용한 결과로부터 최대 성능을 나타낼 수 있는 중요 변수들을 선택할 수 있다.
보다 구체적으로, 단계(731)에서 예측 장치는 차주 별 데이터에 해당하는 56개의 후보 미시 경제 변수들(725)을 월별로 집계할 수 있다.
단계(733)에서, 예측 장치는 5개의 후보 거시 경제 변수들(715)의 유형과 단계(731)에서 월별로 집계된 56개의 후보 미시 경제 변수들(725)을 분류하는 신용 정보 유형들을 조합하는 서브셋들을 생성할 수 있다.
단계(735)에서, 예측 장치는 예를 들어, 최적의 검색 방식에 의해 임의의 모형(예를 들어, 리지(ridge) 모형)에 기반하여 단계(733)에서 생성된 서브셋들의 성능을 평가하여 적어도 하나의 서브셋을 선택할 수 있다.
단계(737)에서, 예측 장치는 단계(735)에서 선택된 서브셋에서 17개의 최종 중요 변수들을 추출할 수 있다.
단계(740)에서, 예측 장치는 단계(737)에서 선택된 17개의 최종 중요 변수들에 대한 PCA 주성분들을 산출할 수 있다.
단계(750)에서, 예측 장치는 단계(740)에서 산출한 PCA 주성분을 예를 들어, 리지 모형, 랜덤 포레스트 모형, SVR 모형, 심층 신경망 모형, 라쏘(LASSO) 모형, 및 드랍 아웃(Dropout) 모형 등과 같은 최종 모형에 입력하여 개인사업자의 부도율을 예측할 수 있다.
도 8은 다른 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 구체적으로 나타낸 도면이다. 도 8은 도 5의 단계(501) 내지 단계(570)의 과정을 보다 상세히 서술한 것이다.
단계(810)에서, 예측 장치는 단계(720)에서 선택된 56개의 후보 미시 경제 변수들(725)을 복수의 모형들(또는 서브 모형들)에 적용한 예측 성능에 기초하여 제2 중요 변수들을 선택할 수 있다. 이때, 복수의 모형들은 예를 들어, 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들에 해당할 수 있다.
단계(820)에서, 예측 장치는 차주 별 데이터에 해당하는 제2 중요 변수들을 월별 집계값으로 가공(집계)할 수 있다. 단계(820)에서, 예측 장치는 가공된 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수들(예를 들어, 18개의 제2 중요 변수들)을 선택할 수 있다.
단계(830)에서, 예측 장치는 예를 들어, 단계(733)에서 생성된 서브셋과 단계(820)에서 가공된 제2 중요 변수들을 조합한 제2 서브셋들의 성능을 평가하여 적어도 하나의 서브셋을 선택할 수 있다. 이때, 예측 장치는 최적의 검색 방식에 의해 임의의 모형(예를 들어, 리지(ridge) 모형)에 기반하여 단계(830)에서 생성된 서브셋들의 성능을 평가하여 적어도 하나의 서브셋을 선택할 수 있다.
도 9는 일 실시예에 따라 개인사업자의 부도율을 예측하는 과정을 구체적으로 나타낸 도면이다. 도 9를 참조하면, 도 8에 도시된 과정들 중 단계(830)을 대신하여 단계(910) 내지 단계(960)이 수행되는 형태의 실시예가 도시된다.
단계(910)에서, 예측 장치는 최적의 검색(BFS) 방식에 의해, 단계(733)에서 생성된 개인 변수-기업 변수-복합 변수가 조합된 서브셋들의 성능을 평가하여 어느 하나의 서브셋('ⓛ 피처셋')을 선택할 수 있다.
단계(920)에서, 예측 장치는 단계(820)에서 가공된 3가지 서브 모형들 각각에 대응하는 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제할 수 있다.
단계(930)에서, 예측 장치는 단계(710)에서 선택된 5개의 후보 거시 경제 변수들(715)과 단계(920)에서 다중 공선성이 높은 변수를 삭제한 서브셋을 조합하여 3개의 세브셋('②-1피쳐셋')을 생성하고, 생성한 3개의 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋('② 피처셋')을 선택할 수 있다.
단계(940)에서, 예측 장치는 단계(920)과 마찬가지로 단계(820)에서 가공된 3가지 서브 모형들 각각에 대응하는 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제할 수 있다.
단계(950)에서, 예측 장치는 단계(733)에서 생성된 개인 변수-기업 변수-복합 변수가 조합된 서브셋들 및 단계(940)에서 다중 공선성이 높은 변수를 삭제한 서브셋을 조합하여 3개의 서브셋을 생성하고, 생성한 3개의 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택할 수 있다. 단계(950)에서, 예측 장치는 ⓛ 피처셋에 ②-1피쳐셋의 중요 변수들을 하나씩 추가하면서 성능 개선에 기여하는 중요 변수를 추가한 서브 셋을 생성하고, 이들 중 최대 성능을 나타내는 하나의 서브셋('③ 피처셋')을 선택할 수 있다.
단계(960)에서, 예측 장치는 단계(910), 단계(930), 및 단계(950)을 통해 선택된 서브셋들으로부터, 이들 중 최대 성능을 나타내는 최종 중요 변수를 선택할 수 있다.
도 10은 일 실시예에 따른 개인사업자의 부도율을 예측하는 장치의 블록도이다. 도 10을 참조하면, 일 실시예에 따른 예측 장치(1000)는 통신 인터페이스(1010), 프로세서(1030), 메모리(1050), 및 출력 장치(1070)를 포함할 수 있다. 통신 인터페이스(1010), 프로세서(1030), 메모리(1050), 및 출력 장치(1070)는 통신 버스(1005)를 통해 서로 연결될 수 있다.
통신 인터페이스(1010)는 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신한다.
프로세서(1030)는 시차 상관성에 기반한 통계적 검증을 수행함으로써 거시 경제 변수들 중 후보 거시 경제 변수들을 선택한다. 프로세서(1030)는 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 미시 경제 변수들 중 후보 미시 경제 변수들을 선택한다. 프로세서(1030)는 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택한다. 프로세서(1030)는 예를 들어, 개인 변수, 기업 변수, 및 개인 변수와 기업 변수를 함께 이용하여 가공한 복합 변수를 조합한 결과를 기초로, 후보 미시 경제 변수들의 신용 정보 유형들을 분류할 수 있다. 프로세서(1030)는 후보 미시 경제 변수들의 신용 정보 유형들 별 성능을 기초로, 제1 중요 변수들을 선택할 수 있다.
프로세서(1030)는 후보 거시 경제 변수들의 유형 및 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성한다. 프로세서(1030)는 모형들에 기반한 성능 평가 결과를 기초로, 서브셋들 중 적어도 하나의 서브셋을 선택한다. 프로세서(1030)는 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측한다.
실시예에 따라서, 프로세서(1030)는 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들의 예측 성능에 기초하여 제2 중요 변수들을 더 선택할 수 있다. 이 경우, 프로세서(1030)는 제2 중요 변수들 각각을 월별 집계값으로 가공하고, 가공된 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성할 수 있다. 또한, 프로세서(1030)는 제1 서브셋들에, 제2 서브셋들의 중요 변수들을 하나씩 추가하여 제3 서브셋들을 생성할 수 있다.
다만, 프로세서(1030)의 동작을 상술한 바로 한정하는 것은 아니고, 프로세서(1030)는 도 1 내지 도 9를 통해 전술한 동작들 중 적어도 하나와 함께 상술한 동작을 수행할 수도 있다.
프로세서(1030)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 예측 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 예측 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(Central Processing Unit; CPU), 그래픽 처리 장치(Graphic Processing Unit; GPU), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array), NPU(Neural Processing Unit) 등을 포함할 수 있다.
프로세서(1030)는 프로그램을 실행하고, 예측 장치(1000)를 제어할 수 있다. 프로세서(1030)에 의하여 실행되는 프로그램 코드는 메모리(1050)에 저장될 수 있다.
메모리(1050)는 통신 인터페이스(1010)를 통해 수신한 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 저장할 수 있다. 또한, 메모리(1050)는 프로세서(1030)에 의해 선택된 후보 거시 경제 변수들 및/또는 후보 미시 경제 변수들을 저장할 수 있다. 메모리(1050)는 프로세서(1030)에 의해 선택된 제1 중요 변수들 및/또는 프로세서(1030)에 의해 생성된 서브셋들을 저장할 수 있다. 메모리(1050)는 프로세서(1030)에 의해 선택된 서브셋 및/또는 선택된 서브셋에 포함된 최종 중요 변수를 저장할 수 있다. 이 밖에도, 메모리(1050)는 프로세서(1030)가 예측한 개인사업자의 부도율을 저장할 수 있다.
출력 장치(1070)는 프로세서(1030)가 예측한 개인사업자의 부도율을 출력할 수 있다. 출력 장치(1070)는 예를 들어, 디스플레이 장치를 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 출력 장치(1070)는 출력 인터페이스를 포함하고, 출력 인터페이스를 통해 프로세서(1030)가 예측한 개인사업자의 부도율을 예측 장치(1000)의 외부로 출력할 수도 있다. 예측 장치(1000)는 출력 장치(1070)를 선택적으로 포함하거나, 또는 포함하지 않을 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
1000: 예측 장치
1005: 통신 버스
1010: 통신 인터페이스
1030: 프로세서
1050: 메모리
1070: 출력 장치

Claims (20)

  1. 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신하는 단계;
    시차 상관성에 기반한 통계적 검증을 수행함으로써 상기 거시 경제 변수들 중 후보 거시 경제 변수들을 선택하는 단계;
    통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 상기 미시 경제 변수들 중 후보 미시 경제 변수들을 선택하는 단계;
    상기 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택하는 단계;
    상기 후보 거시 경제 변수들의 유형 및 상기 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성하는 단계;
    상기 모형들에 기반한 성능 평가 결과를 기초로, 상기 서브셋들 중 적어도 하나의 서브셋을 선택하는 단계; 및
    상기 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  2. 제1항에 있어서,
    상기 제1 중요 변수들을 선택하는 단계는
    상기 제1 중요 변수들 각각을 월별 집계값으로 가공하는 단계;
    상기 후보 미시 경제 변수들의 월별 집계값을 기초로, 상기 신용 정보 유형 별로 분류한 서브셋들을 생성하는 단계; 및
    상기 생성된 서브셋들에 대한 모형 성능 평가에 따라 상기 제1 중요 변수들을 선택하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  3. 제2항에 있어서,
    상기 신용 정보 유형들은
    개인 변수, 기업 변수, 및 상기 개인 변수와 상기 기업 변수를 함께 이용하여 가공한 복합 변수를 조합한 형태를 포함하고,
    상기 신용 정보 유형들 별로 분류한 서브셋들을 생성하는 단계는
    상기 후보 미시 경제 변수들을 상기 개인 변수에 대응하는 제1 유형, 상기 기업 변수에 대응하는 제2 유형, 상기 복합 변수에 대응하는 제3 유형, 상기 개인 변수 및 상기 기업 변수의 조합에 대응하는 제4 유형, 상기 복합 변수 및 상기 개인 변수의 조합에 대응하는 제5 유형, 및 상기 복합 변수 및 상기 기업 변수의 조합에 대응하는 제6 유형 별로 분류한 서브셋들을 생성하는 단계를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  4. 제2항에 있어서,
    상기 제1 중요 변수들을 선택하는 단계는
    상기 생성된 서브셋들에 대한 순열 피처 중요도(permutation feature importance)에 기반한 모형 성능 평가를 통해 상기 제1 중요 변수들을 선택하는 단계
    를 포함하는,
    개인사업자의 부도율을 예측하는 방법.
  5. 제1항에 있어서,
    상기 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들(binary models)의 예측 성능에 기초하여 제2 중요 변수들을 선택하는 단계
    를 더 포함하는,
    개인사업자의 부도율을 예측하는 방법.
  6. 제5항에 있어서,
    상기 서브셋들을 생성하는 단계는
    상기 제2 중요 변수들 각각을 월별 집계값으로 가공하는 단계; 및
    상기 가공된 제2 중요 변수들 중 다중 공선성(variance influence factor; VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 상기 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  7. 제6항에 있어서,
    상기 서브셋들을 생성하는 단계는
    상기 제1 서브셋들에, 상기 제2 서브셋들의 중요 변수들을 하나씩 추가하여 제3 서브셋들을 생성하는 단계
    를 더 포함하는, 개인사업자의 부도율을 예측하는 방법.
  8. 제7항에 있어서,
    상기 서브셋들 중 적어도 하나의 서브셋을 선택하는 단계는
    상기 제1 서브셋들, 상기 제2 서브셋들 및 상기 제3 서브셋들 중 최대 성능을 나타내는 어느 하나의 서브셋을 선택하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  9. 제5항에 있어서,
    상기 바이너리 모형들은
    리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, 및 심층 신경망(deep neural network; DNN) 모형 중 적어도 하나를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  10. 제1항에 있어서,
    상기 후보 거시 경제 변수들 및 상기 후보 미시 경제 변수들을 기초로 거시-미시 통합 모형을 생성하는 단계
    를 더 포함하는,
    개인사업자의 부도율을 예측하는 방법.
  11. 제1항에 있어서,
    상기 후보 거시 경제 변수들을 선택하는 단계는
    상기 개인사업자의 부도율에 대한 상기 거시 경제 변수들의 시차 상관 계수를 기초로, 상기 후보 거시 경제 변수들을 선택하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  12. 제1항에 있어서,
    상기 후보 미시 경제 변수들을 선택하는 단계는
    상기 미시 경제 변수들이, 상기 개인사업자의 부도 여부에 대한 독립 표본 T-테스트에 의해 통계적으로 유의한 변수 중 단계적 회귀 분석(stepwise logistic regression)에서 결정 계수 기준 이상에 해당하는지 여부를 기초로, 상기 미시 경제 변수들 중 상기 후보 미시 경제 변수들을 선택하는 단계
    를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  13. 제1항에 있어서,
    상기 개인사업자의 부도율을 예측하는 단계는
    상기 후보 거시 경제 변수들 및 상기 선택된 서브셋에 포함된 상기 최종 중요 변수들을 인공 지능 모형들에 입력함으로써 상기 개인사업자의 업종 별 부도율을 예측하는 단계
    를 포함하고,
    상기 인공 지능 모형들은
    리지(ridge) 모형, 랜덤 포레스트(random forest; RF) 모형, SVR(Support Vector Regression) 모형, 심층 신경망(deep neural network; DNN) 모형, 라쏘(Lasso) 모형, 및 드랍아웃(Dropout) 모형 중 적어도 하나를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  14. 제1항에 있어서,
    상기 거시 경제 변수들은
    주택 가격 상승률, 전국 주택 시장 소비자 심리 지수, 설비투자 총지수, 평균 콜금리, 예금은행대출금리, 기준 금리, 회사채 수익률, 품목별 수입액 총액 및 수출액 총액을 포함하는 최종 수요 변수;
    전국 비경제활동 인구수, 전국 고용률, 전산업의 고용자수, 전국 실업자수, 전국 실업률, 청년 실업자수, 청년 실업률, 제조업 설비 투자 실적, 제조업 업황 전망, 제조업 생산 전망, 300인 미만 제조업 채용 인원을 포함하는 노동 및 공급 변수;
    전국 소비자 물가지수, 유가, 및 생산자 물가지수를 포함하는 물가 및 임금 변수;
    1년 평균 국고채 금리, 3년 평균 국고채 금리, 원-달러 환율, 환율 절상률, KOSPI 지수, KOSPI 200 지수, 제조업종의 가계 신용, 및 제조업종의 기업 부채를 포함하는 통화 및 금융 변수; 및
    미국 수출액 및 중국 수출액을 포함하는 국제 수지 변수
    중 적어도 하나를 포함하는, 개인사업자의 부도율을 예측하는 방법.
  15. 제1항에 있어서,
    상기 미시 경제 변수들은
    개인 대출 잔액, 카드 대출 잔액, 비은행권 대출 총 기관 수, 카드 대출 총 기관 수, 다중 채무 건수, 소액 채무 건수, 전년 동기 대비 개인 대출 잔액 증가율, 전년 동기 대비 비은행권 대출 잔액, 전년 동기 대비 카드 대출 잔액 증가율, 연체 잔액, 연체율, 평균 연체 기간, 최장 연체 기간, 연체 건수, 최장 연체 기간, 사업자 번호 보유 개수, 사업체 업종 등록 횟수, 사업체 주소 등록 횟수, 전년 동기 대비 사업자 번호 보유 개수 증가율, 전년 동기 대비 업종 등록 횟수 증가율, 및 전년 동기 대비 주소 등록 횟수 증가율 중 적어도 하나를 포함하는 개인 신용 변수들;
    원화 대출 잔액, 신용공여 총잔액, 운전자금 대출 잔액, 시설 자금 대출 잔액, 비은행권 대출 잔액, 카드 대출 잔액, 원화 대출 총 기관수, 신용 공여 총 기관수, 운전 자금 대출 총 기관수, 카드 대출 총 기관수, 다중 채무 건수, 소액 채무 건수, 금융리스, 운용 리스, 자금 대여, 사모 사채 잔액 중 적어도 하나를 포함하는 기업 신용 변수들; 및
    개인사업자 원화 대출 총액, 개인사업자 비은행권 총 기관수, 개인사업자 다중 채무 건수, 개인사업자 소액 채무 건수, 대부업권 이용 여부, 선(先) 개인 대출 후(後) 사업자 대출 실행 여부, 부도 사유 건수, 업종 평균대비 개인 대출 증가율, 업종 평균 대비 대출 증가율, 대출 비중, 및 잔액 구간 중 적어도 하나를 포함하는 복합 신용 변수들
    을 포함하는, 개인사업자의 부도율을 예측하는 방법.
  16. 하드웨어와 결합되어 제1항 내지 제15항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  17. 거시 경제 변수들 및 신용 정보를 포함하는 미시 경제 변수들을 수신하는 통신 인터페이스; 및
    시차 상관성에 기반한 통계적 검증을 수행함으로써 상기 거시 경제 변수들 중 후보 거시 경제 변수들을 선택하고, 통계적 유의성 및 회귀 분석에 기반한 통계적 검증을 수행함으로써 상기 미시 경제 변수들 중 후보 미시 경제 변수들을 선택하고, 상기 후보 미시 경제 변수들 중 성능 평가를 위한 복수의 모형들에 따른 제1 중요 변수들을 선택하고, 상기 후보 거시 경제 변수들의 유형 및 상기 제1 중요 변수들을 분류하는 복수의 신용 정보 유형들 중 적어도 일부를 조합하는 서브셋들을 생성하고, 상기 모형들에 기반한 성능 평가 결과를 기초로, 상기 서브셋들 중 적어도 하나의 서브셋을 선택하며, 상기 선택된 서브셋에 포함된 최종 중요 변수들에 의해 개인사업자의 부도율을 예측하는 프로세서
    를 포함하는, 개인사업자의 부도율을 예측하는 장치.
  18. 제17항에 있어서,
    상기 프로세서는 상기 후보 미시 경제 변수들을 상기 신용 정보 유형들 별로 분류한 서브셋들을 생성하고, 상기 생성된 서브셋들에 대한 모형 성능 평가에 따라 상기 제1 중요 변수들을 선택하는,
    개인사업자의 부도율을 예측하는 장치.
  19. 제17항에 있어서,
    상기 프로세서는
    상기 미시 경제 변수들 중 개별 차주 단위의 데이터 셋으로부터 생성한 개별 차주 부도 예측을 위한 미시 레벨의 바이너리 모형들(binary models)의 예측 성능에 기초하여 제2 중요 변수들을 더 선택하는,
    개인사업자의 부도율을 예측하는 장치.
  20. 제19항에 있어서,
    상기 프로세서는
    상기 제2 중요 변수들 각각을 월별 집계값으로 가공하고, 상기 가공된 제2 중요 변수들 중 다중 공선성(VIF)이 일정 기준보다 높은 제2 중요 변수를 삭제하고 남은 제2 중요 변수를 상기 후보 거시 경제 변수들과 조합하여 제2 서브셋들을 생성하는,
    개인사업자의 부도율을 예측하는 장치.
KR1020210005536A 2021-01-14 2021-01-14 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치 KR102505632B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210005536A KR102505632B1 (ko) 2021-01-14 2021-01-14 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210005536A KR102505632B1 (ko) 2021-01-14 2021-01-14 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220102961A true KR20220102961A (ko) 2022-07-21
KR102505632B1 KR102505632B1 (ko) 2023-03-03

Family

ID=82610099

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210005536A KR102505632B1 (ko) 2021-01-14 2021-01-14 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102505632B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907972A (zh) * 2023-01-16 2023-04-04 齐鲁工业大学(山东省科学院) 基于双重自步学习的不平衡征信数据风险评估方法及系统
KR102574123B1 (ko) * 2022-10-06 2023-09-04 주식회사 하이퍼리서치 소상공인 지원 플랫폼 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075120A (ko) * 2018-12-12 2020-06-26 지속가능발전소 주식회사 기업 부도 예측 시스템 및 이의 동작 방법
KR20200115369A (ko) * 2019-03-29 2020-10-07 조진삼 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075120A (ko) * 2018-12-12 2020-06-26 지속가능발전소 주식회사 기업 부도 예측 시스템 및 이의 동작 방법
KR20200115369A (ko) * 2019-03-29 2020-10-07 조진삼 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
조선대학교 지식경영연구원, 기계학습 기법을 이용한 소상공인 신용평가모형 구축에 관한 연구, 박주완 외(2017.12.31.)* *
한국데이터정보과학회지, 거시경제 변수를 고려한 한국기업부도 모형 구축 방법 연구, 권누리 외(2019.09.30.)* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102574123B1 (ko) * 2022-10-06 2023-09-04 주식회사 하이퍼리서치 소상공인 지원 플랫폼 시스템
CN115907972A (zh) * 2023-01-16 2023-04-04 齐鲁工业大学(山东省科学院) 基于双重自步学习的不平衡征信数据风险评估方法及系统
CN115907972B (zh) * 2023-01-16 2023-09-12 齐鲁工业大学(山东省科学院) 基于双重自步学习的不平衡征信数据风险评估方法及系统

Also Published As

Publication number Publication date
KR102505632B1 (ko) 2023-03-03

Similar Documents

Publication Publication Date Title
Tobback et al. Bankruptcy prediction for SMEs using relational data
Ye et al. Loan evaluation in P2P lending based on random forest optimized by genetic algorithm with profit score
Fitzpatrick et al. An empirical comparison of classification algorithms for mortgage default prediction: evidence from a distressed mortgage market
Paleologo et al. Subagging for credit scoring models
Sun et al. Predicting financial distress and corporate failure: A review from the state-of-the-art definitions, modeling, sampling, and featuring approaches
Ghodselahi et al. Application of artificial intelligence techniques for credit risk evaluation
Wang et al. Study of corporate credit risk prediction based on integrating boosting and random subspace
US20200151825A1 (en) Predicting entity outcomes using taxonomy classifications of transactions
Emir et al. A stock selection model based on fundamental and technical analysis variables by using artificial neural networks and support vector machines
Zeng et al. A financial distress prediction model based on sparse algorithm and support vector machine
Abdou et al. Prediction of financial strength ratings using machine learning and conventional techniques
Odegua Predicting bank loan default with extreme gradient boosting
Chen et al. Research on credit card default prediction based on k-means SMOTE and BP neural network
KR20220102961A (ko) 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치
Sun et al. AdaBoost and bagging ensemble approaches with neural network as base learner for financial distress prediction of Chinese construction and real estate companies
Cheng et al. A seasonal time-series model based on gene expression programming for predicting financial distress
Liu et al. Machine-Learning-enhanced systemic risk measure: A Two-Step supervised learning approach
Ramachandra et al. Design and simulation of loan approval prediction model using AWS platform
Radovanovic et al. The evaluation of bankruptcy prediction models based on socio-economic costs
Khademolqorani et al. A hybrid analysis approach to improve financial distress forecasting: Empirical evidence from Iran
Alam et al. Loan default risk prediction using knowledge graph
Zhilina et al. A comparative analysis of the methods used to assess borrower creditworthiness
Zulkifley et al. A Survey on Stock Market Manipulation Detectors Using Artificial Intelligence.
Breskuvienė et al. Imbalanced Data Classification Approach Based on Clustered Training Set
Egan Improving Credit Default Prediction Using Explainable AI

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right