KR20110114181A

KR20110114181A - 예측 정확성이 향상된 대출 심사 방법

Info

Publication number: KR20110114181A
Application number: KR1020100033676A
Authority: KR
Inventors: 장동식; 박상성; 신영근; 양유영
Original assignee: 고려대학교 산학협력단
Priority date: 2010-04-13
Filing date: 2010-04-13
Publication date: 2011-10-19

Abstract

본 발명은 예측 정확성이 향상된 대출 심사 방법에 관한 것으로, (a) 복수의 대출 심사 항목과, 상기 각 대출 심사 항목에 대한 복수의 고객 데이터를 수집하는 단계와; (b) 상기 복수의 대출 심사 항목을 예비 예측 변수로 설정하고, 기 설정된 항목 선정 방법에 따라 복수의 선정 예측 변수를 추출하는 단계와; (c) 상기 복수의 선정 예측 변수에 대한 상기 고객 데이터에 2-Step 군집화 기법을 적용하여 복수의 군집을 생성하는 단계와; (d) 상기 각 군집에 대해 복수의 예측 기법을 각각 적용하여, 상기 각 군집에 대해 가장 높은 예측 정확도를 갖는 예측 기법을 해당 군집의 대출 심사 예측 기법으로 설정하는 단계와; (e) 입력되는 대출 신청 데이터를 상기 복수의 군집 중 상기 대출 신청 데이터에 가장 근접한 하나에 해당하는 대출 심사 예측 기법에 적용하여 대출 가능 여부를 판단하는 단계를 포함하는 것을 특징으로 한다. 이에 따라, 누적된 고객 데이터를 기반으로 군집화를 수행하고, 생성된 군집들의 특성을 기준으로 해당 고객을 가장 유사한 군집으로 분류한 뒤, 각 군집에 대해 가장 높은 정확도를 갖는 예측 기법을 적용하여 심사함으로써, 대출 심사 결과의 정확성을 높일 수 있게 된다.

Description

예측 정확성이 향상된 대출 심사 방법{LOAN UNDERWRITING METHOD FOR IMPROVING FORECASTING ACCURACY}

본 발명은 예측 정확성이 향상된 대출 심사 방법에 관한 것으로서, 보다 상세하게는 고객의 특성에 따라 유사한 고객들을 각각의 군집으로 분류하고, 각 군집에 다양한 예측 기법을 적용하여 예측 정확도가 가장 높은 예측 기법에 따라 대출 가능성을 판단하여 예측 정확성을 향상시킨 대출 심사 방법에 관한 것이다.

외환위기 이후 본격적으로 시작된 외국계 대형 은행들의 국내 진출 및 선진 금융상품의 수입으로 인해 경쟁이 치열한 환경으로 변화되고 있다. 이러한 변화된 금융 환경 하에서 국내 은행들의 생존과 발전을 위해 다른 경쟁자들보다 먼저 변화를 감지하고 정확한 상황 분석을 통한 효과적인 대응이 요구되고 있다. 이러한 요구는 앞으로 일어날 변화 추세에 대한 정확한 예측을 바탕으로 실현 가능하게 된다.

금융 업무와 관련하여, 신청한 고객에 대한 대출 승인 여부를 예측하는 것은 은행의 수익 창출에 있어 다른 분야에 비해 매우 큰 중요성을 가진다고 할 수 있다. 이는 대출은 은행 수익의 상당 부분을 차지하는 이자 수입의 원천인 동시에 만약 대출자가 채무를 이행하지 않을 경우 은행에 막대한 손실을 줄 수도 있는 잠재된 위험 요소이기 때문이다. 따라서 대출 신청 고객의 신용 위험을 측정하여 그 고객의 채무 이행 여부를 정확하게 판단하는 것은 은행 경영에 있어 매우 중요한 부분을 차지한다.

일반적으로 고객이 대출 신청 등록을 하게 되면, 은행은 CB(Credit Bureau)에서 제공받은 신용 정보 및 고객 개인의 은행 거래 내역 등 심사에 필요한 정보를 수집하고, 자체평가시스템인 CSS(Credit Scoring System) 모형을 통해 신용 평점을 계산, 대출 가능 여부 및 적용 금리를 결정하여 그 결과를 통보한다.

이 때 사용되는 CSS 모형에는 은행의 대출 전략, 운용 자산의 정도와 고객의 신용 평가를 위한 요소들이 반영되어 있으나 모든 대상에 대해 일괄적인 기준과 단일한 예측모형이 적용되고 있는 현실이다. 그러나, 하나의 예측 모형에, 다양한 고객과 해당 고객이 갖는 다양한 정보를 적용하는 것은 정보의 다양성을 반영하지 못한 획일적인 대출 심사로 이어져 자칫 대출 심사의 오류를 야기할 우려가 있다.

이에 본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 누적된 고객 정보를 기반으로 군집화를 수행하고, 각 군집의 특성에 적합한 예측 기법을 결정하여, 신규 대출 신청 고객에 적합한 예측 기법을 적용함으로써 대출 심사 결과의 정확성을 높일 수 있는 대출 심사 방법을 제공하는데 그 목적이 있다.

상기 목적은 본 발명에 따라, (a) 복수의 대출 심사 항목과, 상기 각 대출 심사 항목에 대한 복수의 고객 데이터를 수집하는 단계와; (b) 상기 복수의 대출 심사 항목을 예비 예측 변수로 설정하고, 기 설정된 항목 선정 방법에 따라 복수의 선정 예측 변수를 추출하는 단계와; (c) 상기 복수의 선정 예측 변수에 대한 상기 고객 데이터에 2-Step 군집화 기법을 적용하여 복수의 군집을 생성하는 단계와; (d) 상기 각 군집에 대해 복수의 예측 기법을 각각 적용하여, 상기 각 군집에 대해 가장 높은 예측 정확도를 갖는 예측 기법을 해당 군집의 대출 심사 예측 기법으로 설정하는 단계와; (e) 입력되는 대출 신청 데이터를 상기 복수의 군집 중 상기 대출 신청 데이터에 가장 근접한 하나에 해당하는 대출 심사 예측 기법에 적용하여 대출 가능 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 예측 정확성이 향상된 대출 심사 방법에 의해서 달성된다.

여기서, 상기 (b) 단계는 (b1) 상기 복수의 예비 예측 변수들 간의 피어슨 상관 계수를 산출하여 기 설정된 기준 상관 계수 이상을 갖는 예비 예측 변수를 제거하는 단계와; (b2) 상기 복수의 예비 예측 변수들 간의 분산 팽창 계수를 산출하여 기 설정된 기준값 이상을 갖는 예비 예측 변수를 제거하는 단계와; (b3) 상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들의 중요도를 산출하고, 상기 산출된 중요도에 기초하여 상기 복수의 선정 예측 변수를 추출하는 단계를 포함할 수 있다.

그리고, 상기 (b3) 단계에서 상기 중요도는 상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들 중 연속형 변수는 피어슨 카이 스퀘어 값으로 산출되고; 상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들 중 명목 변수는 F 통계량 값으로 산출될 수 있다.

그리고, 상기 복수의 예측 기법은 로지스틱 회귀분석(Logistic Regression) 기법, 데이터 마이닝(Data mining) 기법의 신경망(Neural Networks) 기법 및 SVM(Support Vector Machine) 기법 중 적어도 2 이상을 포함할 수 있다.

상기 구성에 따라 본 발명에 따르면, 누적된 고객 데이터를 기반으로 군집화를 수행하고, 생성된 군집들의 특성을 기준으로 해당 고객을 가장 유사한 군집으로 분류한 뒤, 각 군집에 대해 가장 높은 정확도를 갖는 예측 기법을 적용하여 심사함으로써, 대출 심사 결과의 정확성을 높일 수 있게 된다.

또한, 대출 심사 결과의 정확성이 향상됨에 따라 금융 기관은 고객들의 채무 불이행으로 발생하는 손실 위험을 줄이는 동시에 금융 기관의 주된 수익 원천이라 할 수 있는 대출을 통해 이자 수익을 높여 자체 경쟁력을 키울 수 있게 된다.

그리고, 기존에 설계, 제작된 대출 모형이 주로 과거의 우량한 고객의 데이터를 기반으로 구축되어 있다는 점에서 차후 상환 능력이나 의지가 있음에도 불구하고 기존의 대출 모형에 의해 대출이 거절되는 상황을 줄일 수 있게 된다. 이는 금융 기관의 입장에서 향후 수익을 창출할 수 있는 고객을 확보하는 효과를 제공하게 된다.

도 1은 본 발명에 따른 예측 정확성이 향상된 대출 심사 방법을 설명하기 위한 도면이고,
도 2는 본 발명에 따른 대출 심사 방법에 따라 선정 예측 변수들이 군집화된 예를 도시한 도면이고,
도 3은 도 2에 도시된 군집에 대해 실행한 각 예측 기법의 예측 정확도를 산출한 예를 도시한 도면이다.

이하에서는 첨부된 도면들을 참조하여 본 발명에 따른 실시예에 대해 상세히 설명한다.

도 1은 본 발명에 따른 예측 정확성이 향상된 대출 심사 방법을 설명하기 위한 도면이다.

먼저, 고객 데이터가 수집된다(S10). 여기서, 고객 데이터는 대출 여부를 심사하기 위한 복수의 대출 심사 항목에 대한 각 고객들의 데이터로, 금융 기관이 기존의 대출 실적을 통해 축적해두었던 고객 데이터를 활용하게 된다. 여기서, 대출 심사 항목의 예로는 성별, 결혼여부, 재직구분, 직업분류, 직무구분, 근무기간(/개월), 연소득(/백만원), 주택소유구분, 주거상황, 신용등급(/등급), 대출신청횟수, 취급구분, 자금용도, 신청금액, 대출상품종류 등이 있다.

그런 다음, 복수의 대출 심사 항목을 예비 예측 변수로 설정하고, 기 설정된 항목 선정 방법에 따라 복수의 선정 예측 변수를 추출한다(S20). 여기서, 예비 예측 변수들은 금융 기관이 대출 여부를 심사할 때 적용하였던 상술한 모든 대출 심사 항목이 될 수 있고, S20 단계에서는 대출 심사 항목들 중에서 종속 변수, 즉 본 발명에서는 대출 가능 여부에 유의한 영향을 미치는 변수, 즉 대출 심사 항목을 선정 예측 변수로 추출하게 된다.

도 1을 참조하여 보다 구체적으로 설명하면, 복수의 예비 예측 변수들 간의 피어슨 상관 계수(Pearson Correlation Coefficient)를 산출하여 기 설정된 기준 상관 계수 이상을 갖는 예비 예측 변수를 제거하는 1차 제거 과정이 진행된다(S21).

예비 예측 변수 간의 상관관계가 높을 경우에는 추정량의 분산이 확대되어 결과값인 대출 가능 여부에 악영향을 미칠 수 있으므로, 상관관계의 분석을 통해 높은 상관 계수를 갖는 예비 예측 변수를 제거하게 된다.

여기서, 피어슨 상관 계수(Pearson Correlation Coefficient)를 이용한 상관관계의 분석의 경우, 예비 예측 변수와 종속 변수의 구분없이 두 변수 간의 상관정도를 측정하게 된다. 즉, 피어슨 상관 계수(Pearson Correlation Coefficient)는 예비 예측 변수와 종속 변수에 대한 구분없이 단순히 두 개의 변수 사이의 선형관계가 존재하는지 여부를 판단하게 된다.

이에, 본 발명에서는 모형 내에 예비 예측 변수와 종속 변수가 함께 존재하는 경우 예비 예측 변수와 종속 변수 간의 관계를 모델링할 때 발생할 수 있는 예비 예측 변수 간의 상관관계인 다중공선성(Multicollinearity) 문제의 해결을 위해 2차 제거 과정(S22)을 진행한다.

본 발명에서는 2차 제거 과정으로 분산 팽창 계수(VIF : Variance Inflation Factor)를 산출하여 기 설정된 기준값, 예를 들어 10 이상이 나오는 예비 예측 변수를 제거한다.

상기와 같은 과정을 통해 전체 예비 예측 변수 중 일부가 제거된 후, 나머지 예비 예측 변수들의 중요도를 산출한다(S23). 그리고, 산출된 중요도에 기초하여 최종적인 선정 예측 변수들을 추출한다(S24).

여기서, 중요도의 산출에는 특징 선택 기법이 적용되어, 예비 예측 변수와 종속 변수가 1 대 1로 각각 유의한 영향을 미치는지 여부가 측정 가능하게 된다. 본 발명에서는 예비 예측 변수 중 연속형 변수는 피어슨 카이 스퀘어 값이 중요도로 산출되고, 명목 변수는 F 통계량 값이 중요도로 산출되는 것을 예로 한다. 예컨대, 예비 예측 변수 중 연소득, 근무기간 등과 같은 연속형 변수는 피어슨 카이 스퀘어 값을 토대로 중요도를 산출하게 되고, 예비 예측 변수 중 소득 방식, 재직 구분, 직업분류 등과 같은 명목형 변수는 F 통계량 값을 토대로 중요도를 산출하게 된다.

이를 통해, 예비 예측 변수들이 종속 변수에 각각 독립적으로 미치는 영향이 수치화됨으로써, 최종적으로 유의한 영향을 미치는 변수가 선택되고, 중요도가 떨어지거나 결측값(Missing value)을 많이 포함하는 변수, 변동범위가 너무 작거나 큰 변수 등이 제거된다.

상기와 같은 과정을 통해 예비 예측 변수들 중 신용등급, 대출신청금액, 직무구분, 대출신청횟수, 직업분류, 주택소유구분, 대출상품, 연소득, 근무기간 등의 예비 예측 변수가 중요도가 0.9이상으로 나왔으며, 이들 예비 예측 변수가 후술할 군집화를 수행할 선정 예측 변수로 추출되었다.

한편, 선정 예측 변수들의 추출이 완료되면, 선정 예측 변수에 해당하는 고객 데이터에 2-Step 군집화 기법을 적용하여 선정 예측 변수를 분류하여 복수의 군집을 생성한다(S30).

2-Step 군집화 기법은 모형 기반 거리 척도를 사용하기 때문에 범주형 변수와 연속형 변수를 모두 사용할 수 있어 범주형 변수를 더미화하는 가공 과정이 불필요하다. 또한, 군집 개수의 범위를 설정할 수 있어 최적의 군집수를 빠르고 효과적으로 찾을 수 있다.

여기서, 2-Step 군집화의 1단계는 예비 군집화 단계로 거리를 기준으로 기존의 군집에 병합시킬 것인지 새 군집을 생성할지 판단하여 순차적으로 개체들을 묶는데 이 때 군집수가 사용자가 지정한 수 보다 커질 경우, 거리 기준을 상향조정하여 군집간 거리가 새 기준에 미달하는 군집들을 병합시켜 총 군집 수를 줄인다.

그리고, 2-Step 군집화의 2단계는 계층적 군집화를 수행하는 과정으로 유사한 예비 군집들을 병합시켜 몇 개의 군집해를 만든 후 통계적 기준을 적용하여 가장 좋은 군집해를 찾아 출력하게 된다.

도 2는 본 발명에 따른 대출 심사 방법에 따라 선정 예측 변수들이 군집화된 예를 도시하고 있다.

상기와 같은 과정을 통해 복수의 군집이 생성되면, 각 군집에 대해 복수의 예측 기법을 적용하여, 각 군집에 대해 가장 높은 예측 정확도를 갖는 예측 기법을 해당 군집의 대출 심사 예측 기법을 설정한다(S40). 즉, 각각의 군집이 가지는 고객 데이터의 특성에 따라 예측 정확도가 가장 높은 기법을 해당 군집에 대한 대출 심사 예측 기법으로 설정하게 된다.

로지스틱 회귀분석(Logistic Regression : LR) 기법은 비선형의 로지스틱 형태를 취하며 단지 2개의 값을 가지는 종속 변수와 예측 변수 사이의 인과관계를 밝히는 대표적인 통계기법에 해당한다. 로지스틱 회귀분석(Logistic Regression : LR) 기법은 분산과 공분산의 행렬이 동일해야 한다는 가정에서 자유롭고, 계수의 유의성 검증이 가능하며, 결과값이 0과 1사이의 확률값을 가지므로 수치적 해석이 가능한 장점이 있다.

데이터 마이닝(Data mining) 기법의 신경망(Neural Networks) 기법은 인간의 신경세포인 뉴런의 시스템을 컴퓨터를 이용해 구현한 인공지능 분야의 이론 중 하나로, 패턴인식, 식별 및 분류, 의사결정 등에 널리 응용되고 있는 기법이다. 기존의 계산 기법과는 달리 학습을 통해 추가되거나 변경된 데이터로부터 스스로 규칙을 생성하고, 그 결과에 따라 가중치를 갱신하여 모델을 새롭게 구축하고 적용시킬 수 있다. 그리고, 병렬 연산 방식으로 인해 처리 시간이 빠르고 관련된 데이터들을 연관해서 기억할 수 있어 여러 가지 처리를 한꺼번에 할 수 있는 특징을 가진다.

그리고, SVM(Support Vector Machine) 기법은 이분 분류를 위해 고안된 기법으로 신경망(Neural Networks)을 포함한 기존의 분류기법들이 오류율을 최소화하는 것을 목적으로 했던 것과 달리 여백(Margin)을 최대화함으로써 구조적 위험을 최소화하는 것을 목적으로 하며 새로운 데이터에 대한 일반화능력이 우수하다.

상기와 같은 특징을 갖는 3가지의 예측 기법을 각 군집에 대해 적용하여, 각 군집에 대해 3가지의 예측 기법의 예측 정확도를 산출한다. 도 3은 도 2에 도시된 군집에 대해 실행한 각 예측 기법의 예측 정확도를 산출한 예를 도시한 도면이다.

그리고, 각 군집에 대해 산출된 예측 정확도 중 가장 높은 예측 정확도를 갖는 예측 기법을 해당 군집의 대출 심사 예측 기법을 결정하게 된다. 이에 따라, 군집에 속한 데이터들의 속성에 적합한 예측 모델이 생성 가능하게 되어, 보다 정확한 대출 가능 여부의 예측이 가능하게 된다.

상기와 같이, 각 군집에 대해 대출 심사 예측 기법이 결정된 상태에서, 새로운 대출 신청 데이터가 입력되면(S50), 해당 대출 신청 데이터가 갖는 속성과 가장 비슷한 군집이 결정되고, 해당 군집에 대해 설정된 대출 심사 예측 기법, 즉 해당 군집에서 가장 정확한 예측 능력을 보여준 예측 기법이 적용되어, 대출 가능 여부가 판단된다(S60).

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

(a) 복수의 대출 심사 항목과, 상기 각 대출 심사 항목에 대한 복수의 고객 데이터를 수집하는 단계와;
(b) 상기 복수의 대출 심사 항목을 예비 예측 변수로 설정하고, 기 설정된 항목 선정 방법에 따라 복수의 선정 예측 변수를 추출하는 단계와;
(c) 상기 복수의 선정 예측 변수에 대한 상기 고객 데이터에 2-Step 군집화 기법을 적용하여 복수의 군집을 생성하는 단계와;
(d) 상기 각 군집에 대해 복수의 예측 기법을 각각 적용하여, 상기 각 군집에 대해 가장 높은 예측 정확도를 갖는 예측 기법을 해당 군집의 대출 심사 예측 기법으로 설정하는 단계와;
(e) 입력되는 대출 신청 데이터를 상기 복수의 군집 중 상기 대출 신청 데이터에 가장 근접한 하나에 해당하는 대출 심사 예측 기법에 적용하여 대출 가능 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 예측 정확성이 향상된 대출 심사 방법.
제1항에 있어서,
상기 (b) 단계는,
(b1) 상기 복수의 예비 예측 변수들 간의 피어슨 상관 계수를 산출하여 기 설정된 기준 상관 계수 이상을 갖는 예비 예측 변수를 제거하는 단계와;
(b2) 상기 복수의 예비 예측 변수들 간의 분산 팽창 계수를 산출하여 기 설정된 기준값 이상을 갖는 예비 예측 변수를 제거하는 단계와;
(b3) 상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들의 중요도를 산출하고, 상기 산출된 중요도에 기초하여 상기 복수의 선정 예측 변수를 추출하는 단계를 포함하는 것을 특징으로 하는 예측 정확성이 향상된 대출 심사 방법.
제2항에 있어서,
상기 (b3) 단계에서 상기 중요도는,
상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들 중 연속형 변수는 피어슨 카이 스퀘어 값으로 산출되고;
상기 (b1) 단계 및 상기 (b2) 단계를 거쳐 제거된 상태의 예비 예측 변수들 중 명목 변수는 F 통계량 값으로 산출되는 것을 특징으로 하는 예측 정확성이 향상된 대출 심사 방법.
제1항에 있어서,
상기 복수의 예측 기법은 로지스틱 회귀분석(Logistic Regression) 기법, 데이터 마이닝(Data mining) 기법의 신경망(Neural Networks) 기법 및 SVM(Support Vector Machine) 기법 중 적어도 2 이상을 포함하는 것을 특징으로 하는 예측 정확성이 향상된 대출 심사 방법.