KR101851367B1

KR101851367B1 - 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR101851367B1
Application number: KR1020160096273A
Authority: KR
Inventors: 강신형; 김용대
Original assignee: 코리아크레딧뷰로 (주); 서울대학교산학협력단
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2018-04-23
Also published as: KR20180013102A

Abstract

본 발명은 신용도를 평가하기 위한 방법에 있어서, (a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측값이 높은 순서대로 t 개의 의사결정나무를 생성하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여 상기 우불량 예측값을 예측하고 상기 예측된 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써 1차 모형을 모델링하는 단계; 및 (b) 상기 t 개의 의사결정나무를 상기 우불량 예측값이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계를 포함하는 것을 특징으로 하는 방법에 관한 것이다.

Description

신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체{METHOD FOR EVALUATING CREDIT RATING, AND APPARATUS AND COMPUTER-READABLE RECORDING MEDIA USING THE SAME}

본 발명은 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 보다 상세하게는, 트레이닝 데이터를 이용한 학습을 통해 t 개의 의사결정나무로 이루어지는 1차 모형을 모델링하며, 테스트 데이터에 의한 변별력 지표가 가장 높은 k 개의 의사결정나무로 이루어지는 최적모형을 모델링하여 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

신용사회의 정착에 따라 거래의 개설이나 유지의 판단을 위한 신용심사의 과정에서 신용도에 대한 중요성이 더욱 강조되고 있다. 특히, 개인 또는 기업을 대상으로 금융상품을 취급하는 금융 기관에서는, 신용상태가 불량한 임의의 개인 또는 기업에 대출을 집행한 경우, 해당 금융기관측은 막대한 피해를 입을 가능성이 높으므로, 금융기관들은 금융상품을 취급하기 전 개인 또는 기업에 대한 신용도를 평가하여 신용 불량인 개인 또는 기업에 대한 금융상품 취급을 차단할 수 있도록 하여 예측하지 못한 리스크(risk)를 최소화하고 있다.

그리고, 신용도를 평가하기 위하여 종래에는 FICO(Fair Isaac & Company) 방법이 주로 이용되고 있으며, FICO 방법은 전문가(모델 개발자)가 개인 또는 기업의 신용 정보를 기초로 하여 신용도 평가를 위한 개별 변수를 독립적으로 구간화하며, 로지스틱 리그레션(logistic regression) 모델을 이용하여 신용평가모형을 적합(fitting)한다.

이러한 종래의 방법에서는, 전문가가 신용도 평가를 위한 후보 변수(약 300~1,000개)를 건건이 분석하여야 하므로 구간화에 많은 시간이 소요되며, 그에 따라 신용평가모형의 개발에 많은 시간과 리소스가 소요되는 단점이 있다.

또한, 종래의 방법은, 신용도 평가를 위한 개별 변수를 독립적으로 구간화하므로 단일 변수의 변별력은 높지만, 다변량 모형을 통해 활용될 경우 개별 변수에 따른 구간이 신용도 평가를 위한 최적 구간이 아닐 수도 있으므로 대상자에 따라 신용도 평가의 신뢰성이 저하되는 문제점이 있다.

또한, 종래의 방법은, 로지스틱 리그레션 모델에 의한 신용평가모델 적합시 서로 상관성이 높은 개별 변수들로 인해 신용평가 결과에 대한 변동성이 커지는 문제점이 있으며, 이를 보완하기 위하여 신용평가모형의 최종 변수(항목)는 10개 내지 15개 내외로 선택할 수 밖에 없다. 따라서, 개인 또는 기업의 신용도 평가시 최종 선택된 변수의 정보만으로 평가를 진행하므로 대상자의 정확한 신용도 평가가 이루어지지 않는 문제점이 있다.

또한, 종래의 방법은, 신용평가모델 개발 과정에서, 통계적 분석 결과에 대한 전문가의 작위적인 해석과 개입이 이루어지므로, 개발된 신용평가모델에 따라 평가 대상자의 신용도가 서로 다르게 평가될 수 있어 객관성이 떨어지는 문제점이 있다.

JP

4358498

B2

US

2014-0012734

A1

KR

10-0452971

B1

본 발명은 상술한 문제점을 모두 해결하는 것을 목적으로 한다.

본 발명은 합리적인 신용도 평가가 가능하도록 하는 신용평가모형을 제공하는 것을 다른 목적으로 한다.

또한, 본 발명은 신용도 평가를 위한 복수의 변수를 고려하여 변수를 구간화함으로써 다변량 모형에 대응하는 최적 구간을 가지는 신용평가모형을 제공하는 것을 또 다른 목적으로 한다.

그리고, 본 발명은 신용도 평가를 위한 신용평가모형의 개발에 소요되는 시간과 리소스를 최소화할 수 있도록 하는 것을 또 다른 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 실시예에 따르면, 신용도를 평가하기 위한 방법에 있어서, (a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하는 단계; 및 (b) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계; 를 포함하는 것을 특징으로 하는 방법이 제공된다.

본 발명의 일 실시예에 따르면, 신용도를 평가하기 위한 장치에 있어서, 메모리; 및 (1) 신용도를 평가하기 위하여 상기 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하며, (2) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 메모리에 저장된 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 프로세서; 를 포함하는 것을 특징으로 하는 장치가 제공된다.

이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명은 트레이닝 데이터를 사용한 학습 및 테스트 데이터를 이용하여 신용도 평가를 위한 최적 모형을 모델링하므로, 객관성을 증대시킬 수 있으며, 모형 개발에 따른 시간과 리소스를 최소화하여 비용을 절감할 수 있다.

또한, 본 발명은 신용도 평가를 위한 복수의 변수를 고려하여 변수를 구간화함으로써 다변량 모형에 대응하는 최적 구간을 가지는 신용평가모형을 제공하므로, 대상자에 관계없이 신뢰성을 가지는 신용도 평가가 가능하게 된다.

도 1은 본 발명의 일 실시예에 따라 신용도를 평가하는 방법을 개략적으로 도시한 것이고,
도 2는 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 트레이닝 데이터와 테스트 데이터를 예시적으로 도시한 것이고,
도 3은 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 신용도 평가를 위한 변수를 예시적으로 도시한 것이고,
도 4는 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 생성된 의사결정나무를 개략적으로 도시한 것이고,
도 5는 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 최적 모형을 모델링하기 위한 변별력 지표를 예시적으로 도시한 것이고,
도 6은 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 모델링된 최적 모형을 신용평가모형으로 변환하는 동작을 예시적으로 도시한 것이고,
도 7은 본 발명의 일 실시예에 따른 신용도를 평가하는 방법에서 스코어카드를 생성하는 동작을 예시적으로 도시한 것이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 발명의 일 실시예에 따른 신용도를 평가하는 장치는, 메모리와 프로세서를 포함할 수 있다.

메모리는 신용도 평가를 위한 다양한 정보를 저장하는 것으로, 신용도 평가를 위한 개별 변수에 대한 정보 또는 신용평가 대상에 대한 복수 변수에 대한 정보를 포함하여 학습하기 위한 샘플 데이터를 저장할 수 있다. 또한, 샘플 데이터는 신용도 평가 학습을 위한 트레이닝 데이터와 테스트 데이터를 포함할 수 있다. 그리고, 메모리는 장치 내부에 설치되거나, 장치 외부에서 통신 라인을 이용하여 장치에 결합될 수도 있다. 또한, 메모리는 램, 롬, 플래시 메모리, 내/외장 하드디스크 및 데이터베이스 중 적어도 하나 이상을 포함하는 개념일 수 있다.

그리고, 프로세스는, 신용도를 평가하기 위하여 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 신용도를 평가하기 위한 복수의 변수를 고려하여, 우불량 예측값을 구하고, 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 의사결정나무를 생성함으로써 1차 모형을 모델링할 수 있다. 이때, 우불량 예측에 대한 예측력이 높은 순서는 트레이닝 데이터를 이용한 학습 동작에서 손실함수를 최소화하는 순서일 수 있다. 또한, t 개의 의사결정나무를 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 하며, 각각의 의사결정나무에 매칭된 변수를 "제1 대응 변수", "제2 대응 변수", …, "제t 대응 변수"라고 칭하는 것으로 가정할 수 있다. 여기서, "제1 대응 변수" 내지 "제t 대응 변수"는 t 개의 서로 다른 변수를 의미할 수도 있지만, 일반적으로는 "제1 대응 변수" 내지 "제t 대응 변수" 중 적어도 일부는 중복되는 동일한 변수일 수 있다.

한편, 테스트 데이터를 입력으로 할 때 오버피팅되므로, 테스트 데이터를 입력으로 할 때 누적된 변별력 지표가 가장 큰 상태는, "제1 대응 변수", "제2 대응 변수", …, "제t 대응 변수"에 매칭되는 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"까지를 전부 누적할 때가 아니라 "제1 대응 변수"부터 "제k 대응 변수"(k는 1 이상 k 이하의 정수)에 매칭되는 "제1 의사결정나무"부터 "제k 의사결정나무"까지만 누적할 때일 것이다. 즉, "제1 대응 변수"부터 "제k 대응 변수"에 매칭되는 "제1 의사결정나무"부터 "제k 의사결정나무"의 누적된 변별력 지표가 가장 큰 상태이므로, 1차 모형에 포함된 t 개의 의사결정나무 중 "제1 의사결정나무"부터 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링할 수 있다.

그리고, 프로세서는, 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환할 수 있다. 이에 대해서는 뒤에서 보다 자세히 설명한다.

또한, 프로세서는, 신용평가모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 자동으로 생성할 수 있다.

그리고, 프로세서는, 생성된 스코어카드를 이용하여 신용도 평가를 수행할 수 있다.

이와 같이 구성된 본 발명의 일 실시예에 따른 신용도 평가 장치에서 신용도를 평가하는 방법을 도 1 내지 도 7을 참조하여 상세히 설명하면 다음과 같다.

먼저, 도 1에서 알 수 있는 바와 같이, 신용도 평가 장치로서 신용평가모형 생성장치에서의 프로세서는, 신용도를 평가하기 위하여 메모리에 저장된 트레이닝 데이터를 이용하여 신용도 평가를 위한 1차 모형을 모델링한다(S10).

이때, 트레이닝 데이터는 도 2에서와 같이, 평가 대상인 개인 또는 기업에 대응하는 신용 정보를 변수로 정리한 샘플 데이터일 수 있다.

그리고, 도 2의 트레이닝 데이터에서 "Y"는 모형으로 예측하고자 하는 목표에 관한 것으로, 일 예로, "향후 12개월 내 90일 이상 연체 또는 채무불이행", "향후 12개월 내 사기거래 확정", 향후 18개월 내 개인회생 확정/신청", "향후 6개월 내 10일 이상 연체" 등을 예측하고자 하는 목표로 설정할 수 있다. 또한, h1, h2, …, hx는 모형에 적용하고자 하는 변수에 관한 것으로, 일 예로, "체크카드총이용금액", "연체건수", "대출금액", "자택주소 이력건수", "직장명 이력건수", "연체 해제일자로부터 경과일수", "현 거주지 실거래가" 등을 변수로 설정할 수 있다.

또한, 트레이닝 데이터는 도 3에서와 같이, 개별 변수에 대한 속성값을 설정하기 위한 모노톤(monotone) 제어값이 포함될 수 있다. 일 예로, 모노톤 제어값 "-1"은 변수와 우불량 예측값의 방향이 반대인 것으로 고려하며, 모노톤 제어값 "0"은 변수와 우불량 예측값의 방향을 고려하지 않으며, 모노톤 제어값 "1"은 변수와 우불량 예측값의 방향이 같은 것으로 고려하는 것이다. 즉, "연체건수"의 증가 방향과 우불량 예측값의 증가 방향이 같은 것으로 고려할 수 있으므로 모노톤 제어값을 "1"로 설정할 수 있으며, "연체 해제일자로부터 경과일수"의 증가 방향과 우불량 예측값의 증가 방향은 서로 다른 것, 예시적으로 연체가 해제된 이후 계속 동일 상태가 유지되는 것은 추가적인 연체 발생없이 안정적인 경제활동을 하는 것으로 신용불량이 될 위험성이 감소하는 것으로 고려할 수 있으므로 모노톤 제어값을 "-1"로 설정할 수 있으며, "현 거주지 실거래가"의 증가 방향과 우불량 예측값의 증가 방향은 사전에 고려하기 어려우므로 트레이닝 데이터 및 프로세스의 판단에 맡겨야 하므로 모노톤 제어값을 "0"으로 설정할 수 있다.

또한, 트레이닝 데이터가 메모리에 저장된 것과는 달리, 프로세서가, 메모리에 저장된 고객에 대응하는 개별 변수를 수집 및 분석하여 고객에 대응하는 복수의 변수를 가지는 트레이닝 데이터를 생성할 수도 있다.

그리고, 도 4에서와 같이, 신용도 평가 장치로서 신용평가모형 생성장치의 프로세서는, 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서, 즉, 손실함수를 최소화하는 순서대로 t 개의 의사결정나무를 생성하고, t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하여 신용도를 평가하기 위한 1차 모형을 모델링한다.

이때, 프로세서는 트레이닝 데이터를 이용한 학습에 있어서, 복수의 변수를 고려한 우불량 예측값의 방향의 상관성에 따라 도 3에서와 같이 복수의 변수 각각에 대한 속성으로서 설정된 모노톤 제어 데이터를 관리함으로써 t 개의 의사결정나무의 선형결합으로 1차 모형이 생성되도록 할 수 있다.

또한, 프로세서는 의사결정나무의 생성에 있어서, 신용도를 평가하기 위한 복수의 변수를 고려하여, 우불량 예측값을 구하고, 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 의사결정나무를 생성할 수 있다. 이에 더하여, 프로세서는 의사결정나무의 생성에 있어서, 생성되는 의사결정나무의 depth를 1로 제어할 수 있다.

따라서, 도 4에서 알 수 있는 바와 같이, 모델링된 1차 모형은 t 개의 의사결정나무를 가지며, t 개의 의사결정나무는 우불량 예측에 대한 예측력이 높은 순서대로 "T1", "T2", "T3", …, "Tt"으로 나타내어질 수 있다. 그리고, "T1", "T2", "T3", …, "Tt"에 각각 매칭되는 대응 변수는 "h11", "h12", "h21", …, "hx1x2"로 나타내어질 수 있다. 즉, "T1" 내지 "Tt"까지의 각각의 의사결정나무는 각각의 대응 변수에 매칭되며, 변수에 대한 노드값(cut point)에 의해 동일 변수에 대응하는 복수 개의 의사결정나무가 생성될 수 있다. 여기서, x1은 변수의 종류를 나타내기 위한 자연수이며, x2는 노드값의 종류를 나타내기 위한 자연수이다. 그리고, 각각의 의사결정나무는 모형의 목표값인 우불량 예측값을 각각 가지는 좌측가지와 우측가지를 가지게 된다.

그리고, 트레이닝 데이터를 이용한 학습에서 신용위험(불량가능성)을 예측하는 목표값인 목표 함수는 수학식 1과 같이 나타내어지며, 목표 함수의 값인 우불량 예측값은 로그 오즈(ln(odds))의 1/2을 추정하게 된다.

수학식 1에서 x는 개별 변수의 값이다.

다음으로, 도 1에서 알 수 있는 바와 같이, 신용도 평가 장치로서 신용평가모형 생성장치에서의 프로세서는, 테스트 데이터를 이용하여 1차 모형에서 가장 높은 변별력을 나타내는 최적 모형을 모델링한다(S20).

이때, 프로세서는, 도 5에서와 같이, 1차 모형의 t 개의 의사결정나무에서, 의사결정나무의 개수에 따라 테스트 데이터에 대한 누적된 변별력 지표를 계산하며, 가장 높은 변별력을 보이는 k 개수의 의사결정나무를 최적 모형으로 모델링한다.

일 예로, 1차 모형의 t 개의 의사결정나무를 상기 우불량 예측값이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 하며, 각각의 의사결정나무에 매칭된 변수를 "제1 대응 변수", "제2 대응 변수", …, "제t 대응 변수"라고 칭할 경우, 테스트 데이터를 입력으로 할 때 "제1 대응 변수"부터 "제k 대응 변수"(k는 1 이상 t 이하의 정수)에 매칭되는 "제1 의사결정나무"부터 "제k 의사결정나무"까지의 누적된 변별력 지표가 가장 큰 상태라면, 1차 모형에 포함된 t 개의 의사결정나무 중 "제1 의사결정나무"부터 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링한다.

이때, 최적 모형에 포함된 k 개의 의사결정나무는 depth가 1 일 수 있으며, 최적 모형은 k 개의 의사결정나무의 선형결합으로 이루어질 수 있다.

또한, 변별력 지표의 계산은, AUROC(area under receiver operator characteristic), K-S(kolmogorov-simirnov statistics), AR(accuracy ratio), 및 IV(information value) 방법 중 어느 하나의 방법에 의해 수행될 수 있다.

도 5는 변별력 지표를 AUROC에 의해 수행한 것을 예시적으로 도시한 것으로, 트레이닝 데이터를 이용한 변별력 지표는 의사결정나무의 개수가 증가할수록 증가하는 것으로 나타나지만, 테스트 데이터를 이용한 변별력 지표는 의사결정나무의 개수가 특정값 이상일 경우에는 변별력 지표가 떨어지는 오버피팅(overfitting)이 발생하게 된다. 이는 학습을 통해 만들어진 모델이 트레이닝 데이터 내에서는 예측력이 우수하지만 새로운 데이터에 대해서는 예측력이 떨어지므로 발생하게 되는 것이다. 따라서, 오버피팅이 발생하지 않은 영역의 의사결정나무만을 이용, 일 예로 도 5에서의 7,000 개의 의사결정나무만을 이용하여 최적 모형을 모델링함으로써 성능이 우수한 신용평가모델을 모델링할 수 있게 된다.

다음으로, 도 1에서 알 수 있는 바와 같이, 신용도 평가 장치로서 신용평가모형 생성장치에서의 프로세서는, k 개의 의사결정나무로 모델링된 최적 모형을 이용하여 신용도 평가를 위한 신용평가모형을 생성한다(S30).

즉, 프로세서는, 도 6에서와 같이, 최적 모형의 k 개의 의사결정나무 중, 동일한 변수(h1)에 대응하는 의사결정나무(T1, T2, T4)를 그룹핑한다. 이때, 모델링된 최적 모형은 k 개의 의사결정나무를 가지며, k 개의 의사결정나무를 우불량 예측에 대한 예측력이 높은 순서대로 "T1", "T2", "T3", "T4", …, "Tk"으로 나타낼 수 있고, 각각의 의사결정나무 "T1", "T2", "T3", "T4", …, "Tk"에 매칭되는 대응 변수는 "h11", "h12", "h21", "h13", …, "hmn"(m, n 은 1 이상 k 미만의 정수)로 표시될 수 있다.

그리고, 프로세서는, 그룹핑된 동일 변수(h1)에서의 각각의 노드값(cut point)(R: 1.5, 3.5, 4.5)을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 최적 모형을 신용평가모형으로 변환할 수 있다.

즉, 동일한 변수(hm)에 대응하는 의사결정나무(hm1, hm2, ?, hmn)를 그룹핑하며, 그룹핑된 변수들 중 어느 하나의 변수(hm)에 대한 노드값이 n 개 이며, 각각의 노드값을 R(hm1), R(hm2), …, R(hmn)이라 하며, 변수(hm)에 대응하는 각각의 의사결정나무의 좌측가지의 우불량 예측값을 y_L(hm1), y_L(hm2), …, y_L(hmn), 우측가지의 우불량 예측값을 y_R(hm1), y_R(hm2), …, y_R(hmn) 이라 할 경우, 상기 변수에 대한 범주화는 다음의 표 1과 같이 이루어질 수 있다. 여기서, R(hm1) ≤ R(hm2) ≤ … ≤ R(hmn) 의 관계를 가질 수 있다.

구간	우불량 예측값의 합
hm ≤ R(hm1)	y_L(hm1) + y_L(hm2) + … + y_L(hmn)
R(hm1) < hm ≤ R(hm2)	y_R(hm1) + y_L(hm2) + … + y_L(hmn)
…	…
R(hm(n-1) < hm ≤ R(hmn)	y_R(hm1) + y_R(hm2) + … + y_R(hm(n-1)) + y_L(hmn)
R(hmn) < hm	y_R(hm1) + y_R(hm2) + … + y_R(hmn)

다음으로, 도 1에서 알 수 있는 바와 같이, 신용도 평가 장치로서 신용평가모형 생성장치에서의 프로세서는, 신용평가모형을 참조하여 신용도 평가를 위한 스코어카드를 생성한다(S40).

이때, 프로세서는, 신용평가 모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 생성할 수 있다.

일 예로, 도 7을 참조하면, 변수(h2)에 대한 스코어카드(Score)는 PDO와 BASE를 반영하여 다음의 수학식 2에 의해 수행될 수 있다.

[수학식 2]

수학식 2에서 pred.odds는 우불량 예측값의 합이며, min(s)는 최소 스코어값이며, PDO(points to double odds)는 오즈비가 두배가 되도록 하는 스코어이다.

그리고, BASE는 기준이 되는 스코어이며, 일 예로, BASE 500점 1:1은 500점에서 오즈비가 1:1이 될 수 있다.

다음으로, 프로세서는, 생성된 스코어카드를 이용하여 입력된 대상의 신용 정보에 대한 신용도 평가를 수행할 수 있게 된다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

신용도를 평가하기 위한 방법에 있어서,
(a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하는 단계; 및
(b) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계;
를 포함하되,
상기 신용평가 모형 생성장치는, 상기 복수의 변수를 고려한 상기 우불량 예측값의 방향의 상관성에 따라 상기 복수의 변수 각각에 대한 속성으로서 모노톤 제어 데이터를 더 관리하는 것을 특징으로 하는 방법.
제1항에 있어서,
(c) 상기 신용평가모형 생성장치는, 상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하는 단계;
를 더 포함하는 것을 특징으로 하는 방법.
신용도를 평가하기 위한 방법에 있어서,
(a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하는 단계;
(b) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계; 및
(c) 상기 신용평가모형 생성장치는, 상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하는 단계;
를 포함하되,
상기 그룹핑된 변수들 중 어느 하나의 변수(hm)에 대한 노드값이 n 개 이며, 각각의 노드값을 R(hm1), R(hm2), …, R(hmn) - R(hm1) ≤ R(hm2) ≤ … ≤ R(hmn) - 이라 하며, 상기 변수(hm)에 대응하는 각각의 의사결정나무의 좌측가지의 우불량 예측값을 y_L(hm1), y_L(hm2), …, y_L(hmn), 우측가지의 우불량 예측값을 y_R(hm1), y_R(hm2), …, y_R(hmn) 이라 할 경우, 상기 변수에 대한 범주화는 다음의 표와 같이 이루어지는 것을 특징으로 하되, 상기 m, n 은 1이상 k 미만의 정수인 것을 특징으로 하는 방법.
제2항에 있어서,
(d) 상기 신용평가모형 생성장치는, 상기 신용평가모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 방법.
신용도를 평가하기 위한 방법에 있어서,
(a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하는 단계;
(b) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계;
(c) 상기 신용평가모형 생성장치는, 상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하는 단계; 및
(d) 상기 신용평가모형 생성장치는, 상기 신용평가모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 생성하는 단계;
를 포함하되,
상기 스코어카드는 PDO와 BASE를 반영하여 생성하는 것을 특징으로 하는 방법.
제4항에 있어서,
(e) 상기 생성된 스코어카드를 참조로 하여, 신용도를 평가하는 단계;
를 더 포함하는 것을 특징으로 하는 방법.
삭제
신용도를 평가하기 위한 방법에 있어서,
(a) 신용평가모형 생성장치는, 신용도를 평가하기 위하여 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써, 1차 모형을 모델링하는 단계; 및
(b) 상기 t 개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 신용평가모형 생성장치는, 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 단계;
를 포함하되,
상기 1차 모형에 포함된 의사결정나무 및 상기 최적 모형에 포함된 의사결정나무는 depth 가 1 인 것을 특징으로 하는 방법.
제8항에 있어서,
상기 1차 모형은 상기 t 개의 의사결정나무의 선형결합으로 이루어지고, 상기 최적 모형은 상기 k 개의 의사결정나무의 선형결합으로 이루어지는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 변별력 지표는, AUROC, K-S, AR 및 IV 방법 중 어느 하나의 방법에 의해 확인하는 것을 특징으로 하는 방법.
신용도를 평가하기 위한 장치에 있어서,
메모리; 및
(1) 신용도를 평가하기 위하여 상기 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써 1차 모형을 모델링하며, (2) 상기 t개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 메모리에 저장된 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 프로세서;
를 포함하되,
상기 프로세서는,
상기 복수의 변수를 고려한 상기 우불량 예측값의 방향의 상관성에 따라 상기 복수의 변수 각각에 대한 속성으로서 모노톤 제어 데이터를 더 관리하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 프로세서는,
상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하는 것을 특징으로 하는 장치.
신용도를 평가하기 위한 장치에 있어서,
메모리; 및
(1) 신용도를 평가하기 위하여 상기 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써 1차 모형을 모델링하며, (2) 상기 t개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 메모리에 저장된 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 프로세서;
를 포함하되,
상기 프로세서는,
상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하며,
상기 그룹핑된 변수들 중 어느 하나의 변수(hm)에 대한 노드값이 n 개 이며, 각각의 노드값을 R(hm1), R(hm2), …, R(hmn)이라 하며, 상기 변수(hm)에 대응하는 각각의 의사결정나무의 좌측가지의 우불량 예측값을 y_L(hm1), y_L(hm2), …, y_L(hmn), 우측가지의 우불량 예측값을 y_R(hm1), y_R(hm2), …, y_R(hmn) 이라 할 경우, 상기 변수에 대한 범주화는 다음의 표와 같이 이루어지되, 상기 m, n 은 1 이상 k 미만의 정수인 것을 특징으로 하는 장치.
제12항에 있어서,
상기 프로세서는,
상기 신용평가모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 생성하는 것을 특징으로 하는 장치.
신용도를 평가하기 위한 장치에 있어서,
메모리; 및
(1) 신용도를 평가하기 위하여 상기 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써 1차 모형을 모델링하며, (2) 상기 t개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 메모리에 저장된 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 프로세서;
를 포함하며,
상기 프로세서는,
상기 최적 모형의 k 개의 의사결정나무 중, 동일한 변수에 대응하는 의사결정나무를 그룹핑하며, 상기 그룹핑된 동일 변수에서의 각각의 의사결정나무의 노드값을 구간의 경계값으로 하며 각각의 구간에 대한 우불량 예측값의 합으로 범주화를 함으로써 상기 최적 모형을 신용평가모형으로 변환하며,
상기 신용평가모형에서의 우불량 예측값의 합을 신용평가를 위한 점수에 대응하는 스케일로 변환하여 스코어카드를 생성하되,
상기 스코어카드는 PDO와 BASE를 반영하여 생성하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 프로세서는,
상기 생성된 스코어카드를 참조로 하여, 신용도를 평가하는 것을 특징으로 하는 장치.
삭제
신용도를 평가하기 위한 장치에 있어서,
메모리; 및
(1) 신용도를 평가하기 위하여 상기 메모리에 저장된 트레이닝 데이터를 사용하여 t 번 학습하여 우불량 예측에 대한 예측력이 높은 순서대로 t 개의 의사결정나무를 생성하고, 상기 t 개의 의사결정나무 각각에 대한 우불량 예측값을 구하되, 상기 신용도를 평가하기 위한 복수의 변수를 고려하여, (i) 상기 우불량 예측값을 구하고, (ii) 상기 구해진 우불량 예측값별로 해당 우불량 예측값의 도출에 가장 큰 영향을 미친 변수를 매칭하여 상기 의사결정나무를 생성함으로써 1차 모형을 모델링하며, (2) 상기 t개의 의사결정나무를 상기 우불량 예측에 대한 예측력이 높은 순서대로 "제1 의사결정나무", "제2 의사결정나무", …, "제t 의사결정나무"라고 할 경우, 상기 메모리에 저장된 테스트 데이터를 이용한 "제1 의사결정나무"부터 "제k 의사결정나무"(k는 1 이상 t 이하의 정수)까지의 누적된 변별력 지표가 가장 큰 상태일 때, 상기 1차 모형에 포함된 상기 t 개의 의사결정나무 중 상기 "제1 의사결정나무"부터 상기 "제k 의사결정나무"까지의 k 개의 의사결정나무를 포함하는 최적 모형을 모델링하는 프로세서;
를 포함하되,
상기 1차 모형에 포함된 의사결정나무 및 상기 최적 모형에 포함된 의사결정나무는 depth 가 1 인 것을 특징으로 하는 장치.
제18항에 있어서,
상기 1차 모형은 상기 t 개의 의사결정나무의 선형결합으로 이루어지고, 상기 최적 모형은 상기 k 개의 의사결정나무의 선형결합으로 이루어지는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 변별력 지표는, AUROC, K-S, AR 및 IV 방법 중 어느 하나의 방법에 의해 확인하는 것을 특징으로 하는 장치.
제1항 내지 제6항 및 제8항 내지 제10항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.