KR102610187B1 - 신용평가 모델 생성 시스템 및 방법 - Google Patents

신용평가 모델 생성 시스템 및 방법 Download PDF

Info

Publication number
KR102610187B1
KR102610187B1 KR1020200158136A KR20200158136A KR102610187B1 KR 102610187 B1 KR102610187 B1 KR 102610187B1 KR 1020200158136 A KR1020200158136 A KR 1020200158136A KR 20200158136 A KR20200158136 A KR 20200158136A KR 102610187 B1 KR102610187 B1 KR 102610187B1
Authority
KR
South Korea
Prior art keywords
item
categorization
credit
credit information
primary
Prior art date
Application number
KR1020200158136A
Other languages
English (en)
Other versions
KR20220070993A (ko
Inventor
최요셉
한민규
황화목
Original Assignee
주식회사 하나금융티아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하나금융티아이 filed Critical 주식회사 하나금융티아이
Priority to KR1020200158136A priority Critical patent/KR102610187B1/ko
Publication of KR20220070993A publication Critical patent/KR20220070993A/ko
Application granted granted Critical
Publication of KR102610187B1 publication Critical patent/KR102610187B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

본 발명은 신용평가 모델 생성 시스템 및 방법에 관한 것으로, 본 발명에 따른 방법은 범주화 기준 사전에서 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾는 단계, 신용정보 데이터셋의 각 항목별로 찾아진 범주화 기준을 적용하여 1차 범주화를 수행하는 단계, 1차 범주화 수행 결과에 기초하여 신용정보 데이터셋에서 1차 특성항목을 선택하는 단계, 선택된 1차 특성항목에 대해서 항목별 재범주화를 수행하는 단계, 재범주화 수행 결과에 기초하여 1차 특성항목 중에서 2차 특성항목을 선택하는 단계, 그리고 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용정보 데이터를 이용하여 신용평가 모델을 생성하는 단계를 포함한다.

Description

신용평가 모델 생성 시스템 및 방법{Credit scoring model generation system and method}
본 발명은 신용평가 모델 생성 시스템 및 방법에 관한 것이다.
현재 금융업계는 여신 분야 확장을 통해 사업의 기반을 다지고 있다. 이 때 금융기관들은 여신 건전성을 위해 신용평가시스템을 활용하고 있는데, 통상적으로 이 시스템의 핵심엔진인 신용평가 모델은 개발 이후 2 ~ 5년간 동일한 모델을 사용한다. 따라서, 쏟아지는 데이터와 급변하는 사회 현상을 반영하기 어렵다.
또한, 신용평가 모델을 도출하는데 있어 분석가의 역량과 주관이 모델에 큰 영향을 미치고 있으며, 이 모든 작업은 대부분 수동으로 이루어 지고 있다.
본 발명이 이루고자 하는 기술적 과제는 자동화된 신용평가 모델 생성 시스템 및 방법을 제공하는 것이다.
상기한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 신용평가 모델 생성 방법은 범주화 기준 사전에서 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾는 단계, 상기 신용정보 데이터셋의 각 항목별로 찾아진 범주화 기준을 적용하여 1차 범주화를 수행하는 단계, 상기 1차 범주화 수행 결과에 기초하여 상기 신용정보 데이터셋에서 1차 특성항목을 선택하는 단계, 상기 선택된 1차 특성항목에 대해서 항목별 재범주화를 수행하는 단계, 상기 재범주화 수행 결과에 기초하여 상기 1차 특성항목 중에서 2차 특성항목을 선택하는 단계, 그리고 상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용정보 데이터를 이용하여 신용평가 모델을 생성하는 단계를 포함한다.
상기 범주화 기준 사전은 범주화 기준별 범주 경계값 리스트를 포함할 수 있다.
상기 신용정보 데이터셋에 포함된 항목식별정보에 기초하여 상기 범주화 기준 사전에서 상기 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾을 수 있다.
상기 항목식별정보는 항목코드 및 항목명 중 적어도 하나를 포함할 수 있다.
상기 범주화 기준 사전에서 상기 신용정보 데이터셋에 포함된 항목식별정보에 대응하는 범주화 기준을 찾을 수 있다.
상기 신용정보 데이터셋에 대해 항목별로 찾아진 범주화 기준의 범주 경계값 리스트를 적용하여 상기 1차 범주화를 수행할 수 있다.
상기 재범주화는, 상기 선택된 1차 특성항목에 대해서 동질적 불량률을 보이는 범주를 하나의 범주로 단일화하는 코어스 범주화(Coarse Classing)를 통해 수행될 수 있다.
상기 1차 범주화에서, 상기 신용정보 데이터셋에 포함된 데이터 중에서 특이 값 리스트에 포함된 데이터는 특이 값 범주로 범주화할 수 있다.
상기 재범주화에서, 범주 순서에 따른 불량률이 단조 증가 또는 단조 감소하도록 상기 특이 값 범주도 포함하여 재범주화를 수행할 수 있다.
상기 1차 범주화가 수행된 상기 신용정보 데이터셋의 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 1차 특성항목으로 선택할 수 있다.
상기 재범주화가 수행된 상기 신용정보 데이터셋의 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 2차 특성항목으로 선택할 수 있다.
상기 변별도는 해당 항목의 범주별 불량률을 비교하여 계산할 수 있다.
상기 안정도는 상기 신용정보 데이터셋에서 해당 항목의 범주별 구성 비율을 검증용 신용정보 데이터셋에서 대응하는 항목의 범주별 구성 비율과 비교하여 계산할 수 있다.
상기 신용정보 데이터셋에 포함된 항목식별정보에 대해 자연어 처리를 하여 상기 범주화 기준 사전에서 대응하는 범주화 기준을 찾을 수 있다.
상기 범주화 기준 사전은, 항목식별정보, 정보영역 및 범주화 기준이 대응되어 있는 제1 사전, 그리고 범주화 기준과 범주 경계값 리스트가 대응되어 있는 제2 사전을 포함할 수 있다.
상기 정보영역은 상기 복수의 항목을 미리 정해진 그룹으로 분류해놓은 정보일 수 있다.
상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 데이터에 의사결정나무모형(Decision tree model), 로지스틱회귀모형(Logistic regression model), 신경망모형(Neural network model), 그래디언트 부스팅 모형(Gradient Boosting model), 랜덤포레스트모형(Random forests model) 또는 서포트벡터머신(Support vector machine)을 적용하여 신용평가 모델을 생성할 수 있다.
본 발명의 다른 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.
상기한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 신용평가 모델 생성 시스템은, 범주화 기준 사전에서 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾고, 상기 신용정보 데이터셋의 각 항목별로 찾아진 범주화 기준을 적용하여 1차 범주화를 수행하는 1차 범주화 수행부, 상기 1차 범주화 수행 결과에 기초하여 상기 신용정보 데이터셋에서 1차 특성항목을 선택하는 1차 특성항목 선택부, 상기 선택된 1차 특성항목에 대해서 항목별 재범주화를 수행하는 재범주화 수행부, 상기 재범주화 수행 결과에 기초하여 상기 1차 특성항목 중에서 2차 특성항목을 선택하는 2차 특성항목 선택부, 그리고 상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용정보 데이터를 이용하여 신용평가 모델을 생성하는 모델 생성부를 포함한다.
본 발명에 의하면 신용평가 모델 생성에 개별 전문가의 역량과 주관에 의한 영향을 최소화할 수 있다. 또한 본 발명에 의해 신규 신용평가 모델 개발과 개발된 신용평가 모델의 재모델링에 소요되는 시간과 비용을 절감할 수 있다. 따라서 새로운 신용평가 정보 데이터의 추가가 언제든지 가능하므로 커다란 노력없이 최신성과 안정성을 유지하는 신용평가 모델을 사용하는 것이 가능하다.
도 1은 본 발명에 따른 신용평가 모델 생성 시스템의 구성도이다.
도 2는 본 발명에 따른 범주화 기준 사전을 설명하기 위한 도면이다.
도 3은 본 발명에 따른 재범주화를 설명하기 위한 도면이다.
도 4는 본 발명에 따른 신용평가 모델 생성 방법을 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명에 따른 신용평가 모델 생성 시스템의 구성도이다.
도 1을 참고하면, 본 발명에 따른 신용평가 모델 생성 시스템(100)은 데이터 저장부(110), 1차 범주화 수행부(120), 1차 특성항목 선택부(130), 재범주화 수행부(140), 2차 특성항목 선택부(150) 및 신용평가 모델 생성부(160)를 포함할 수 있다.
데이터 저장부(110)는 본 발명에 따른 신용평가 모델 생성 시스템(100)의 동작과 관련된 각종 정보 및 데이터를 저장할 수 있다. 특히 데이터 저장부(110)는 범주화 기준 사전, 신용정보 데이터셋, 검증용 신용정보 데이터셋 등을 저장할 수 있다.
신용정보 데이터셋이나 검증용 신용정보 데이터셋은 신용평가사(Credit Bureau)(CB)와 같이 신용정보를 등록 받아 관리하는 기관으로부터 제공받을 수 있다. 여기서 신용정보는 금융거래 등 상거래에 있어서 거래상대방에 대한 식별, 신용도, 신용 거래능력 등의 판단을 위하여 필요로 하는 각종 정보일 수 있다. 예컨대 신용정보는 신용거래 실적 정보, 신용개설 정보, 대출거래 정보, 채무 불이행 정보, 연체 정보 등을 포함할 수 있다.
훈련용 신용정보 데이터셋이나 검증용 신용정보 데이터셋은 미리 정의된 분석 요건에 따라 준비될 수 있다. 신용평가 모델 개발자 등의 전문가에 의해 수동으로 아래와 같은 분석 요건이 정의될 수 있다.
1) 분석 대상 및 기간 : 은행업권 여신 고객, 캐피탈업권 여신 고객, 개인사업자, 급여소득자, 비급여소득자 등과 같이 신용평가 모델이 적용될 분석대상과, 해당 신용평가 모델 개발에 사용될 데이터 기간 등을 정의할 수 있다.
2) 타겟(Target) 정의 : 불량 고객과 우량 고객의 조건을 정의할 수 있다. 예컨대 연체일수 60일 이상은 불량, 연체일수 10일 미만은 우량 등으로 정의할 수 있다. 불량과 우량으로 판단된 데이터만 훈련 데이터(training data)로 사용하여 신용평가 모델을 개발할 수 있다. 한편 불량과 우량으로 정의되지 않은 판단 미정 데이터는 개발된 신용평가 모델의 검증 데이터(test data)로 사용될 수 있다.
3) 검증 기간 정의: 신용평가사(CB)로부터 받은 신용정보 데이터 중에서 신용평가 모델의 검증에 사용될 데이터 기간을 정의할 수 있다. 가령 최근 6개월이나 1년 등으로 검증 기간을 정의하고, 해당 기간에 해당하는 데이터로 이루어진 검증용 데이터 셋을 신용평가 모델의 검증 데이터(test data)로 사용될 수 있다.
4) 세분화(Segmentation): 분석 대상에 대해서 세분화된 단위로 신용평가 모델을 따로 개발할 필요가 있는 경우 분석 대상을 세분화할 수 있다. 예컨대 분석 대상으로 개인사업자를 정의하고, 개인사업자에 대해서 신용대출자, 부동산담보대출자 별로 신용평가 모델을 세분화하여 개발할 필요가 있는 경우에 이루어질 수 있다. 물론 그 외에도 다양한 필요나 조건에 따라 분석 대상을 세분화할 수 있다.
1차 범주화 수행부(120)는 범주화 기준 사전에서 찾아진 범주화 기준을 적용하여 신용정보 데이터셋의 각 항목에 대해서 1차 범주화를 수행할 수 있다.
도 2는 본 발명에 따른 범주화 기준 사전을 설명하기 위한 도면이다.
도 2를 참고하면, 신용평가사(CB)로부터 전달되는 데이터 명세서(10)에 포함된 항목식별정보(항목코드, 항목명), 정보 영역을 활용하여 범주화 기준 사전을 만들 수 있다. 예컨대 항목식별정보와 정보 영역에 범주화 기준을 대응시켜 놓은 사전(20)을 미리 준비해놓을 수 있다. 여기서 항목식별정보는 항목코드나 항목명 등일 수 있다. 정보 영역은 복수의 항목을 미리 정해진 그룹으로 분류해놓은 정보, 예컨대 카드 정보, 대출 정보, 연체 정보 등의 정보일 수 있다.
데이터 명세서(10)에 포함된 항목식별정보(항목코드, 항목명), 정보 영역에 대해서 자연어 처리(Natural Language Process)(NLP)를 통해 범주화 기준을 도출하여 사전(20)을 생성할 수 있다. 예컨대 항목명 '카드한도소진율'에 대해서 자연어 처리 알고리즘을 통해 범주화 기준을 '비율'로 도출하여 대응시키는 과정을 통해 사전(20)에 정의할 수 있다.
한편 범주화 기준별로 범주 경계값 리스트가 대응되어 있는 사전(30)을 미리 준비해놓을 수 있다. 예컨대 범주화 기준이 '금액'인 경우, 범주 경계값들(0, 100, 200, …, 1000, …, 10000, 15000, …)로 이루어진 범주 경계값 리스트가 대응되어 있을 수 있다. 여기서 범주 경계값은 각 범주의 상한값과 하한값일 수 있다.
그리고 사전(30)에는 특이 값(예컨대 정보 없음을 표시하기 위해 지정된 값 등)을 별도로 구분하기 위한 특이 값 리스트가 포함될 수 있다. 그리고 특이 값들을 따로 범주화하는 특이 값 범주도 미리 정의될 수도 있다.
한편 신용평가 모델 개발자 등의 전문가에 의해 도 2에 예시한 것과 같은 범주화 기준 사전이 만들어지는 것도 가능하다. 또한 실시예에 따라서 범주화 기준 사전은 신용정보 빅데이터를 이용하여 인공지능을 통해 자동으로 만들어질 수도 있다.
다시 도 1을 참고하면, 1차 범주화 수행부(120)는 신용 정보 데이터셋에 포함된 항목식별정보에 기초하여 범주화 기준 사전에서 신용 정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾을 수 있다. 구체적으로 1차 범주화 수행부(120)는 신용 정보 데이터셋에 포함된 항목식별정보에 대해 자연어 처리를 하여 범주화 기준 사전에서 항목식별정보에 대응하는 범주화 기준을 찾을 수 있다. 예컨대 "카드 한도 소진율이 80% 이상 개월 수"라는 항목명에 대한 범주화 기준이 사전(20)에 미리 정해져 있지 않은 경우에도, 해당 항목명에 대해서 자연어 처리를 통해, 정보 영역을 '카드', 범주화 기준을 '기간(월)'로 찾을 수 있다.
1차 범주화 수행부(120)는 신용 정보 데이터셋에 대해 항목별로 찾아진 범주화 기준의 범주 경계값 리스트를 적용하여 1차 범주화를 수행할 수 있다. 1차 범주화 수행부(120)는 신용 정보 데이터셋에 포함된 데이터 중에서 특이 값 리스트에 포함된 데이터는 특이 값 범주로 범주화할 수 있다.
1차 특성항목 선택부(130)는 1차 범주화 수행 결과에 기초하여 신용정보 데이터셋에서 1차 특성항목을 선택할 수 있다. 보다 자세하게는 1차 특성항목 선택부(130)는 신용정보 데이터셋의 복수의 항목에 대해서 각각 변별도와 안정도를 평가하고, 변별도와 안정도가 미리 정해진 기준에 부합하는 항목, 예컨대 변별도와 안정도가 미리 정해진 기준 이상 또는 기준 이하를 만족하는 항목을 1차 특성항목으로 선택할 수 있다.
가령 항목별 변별도는 범주별 불량률(해당 범주의 전체 고객 수에 대한 불량 고객 수의 비율)을 비교하여 계산할 수 있다. 예컨대 A 항목에 대해서 5개의 범주으로 나누는 1차 범주화를 수행한 경우, 5개 범주의 불량률을 구하고 이를 기초로 A 항목이 우량 고객과 불량 고객을 변별할 수 있는 정도를 미리 정해진 수식에 의해 계산할 수 있다.
[수학식 1]
여기서 IV는 변별도이고, i는 범주에 대한 인덱스이고, %Badi 는 i번째 범주의 불량 고객 비율, %Goodi 는 i번째 범주의 우량 고객 비율, n은 범주의 총 개수이다.
수학식 1에 의해 해당 항목의 변별도를 구할 수 있다. 물론 실시예에 따라서 변별도를 계산하는 수식은 달라질 수도 있다.
한편 항목별 안정도는 신용정보 데이터셋의 각 항목의 범주별 구성 비율을 검증용 신용정보 데이터셋의 대응하는 항목의 범주별 구성 비율과 비교하여 계산할 수 있다. 예컨대 신용정보 데이터셋의 A 항목에 대해서 5개의 범주으로 나누는 1차 범주화를 수행한 경우 5개 범주의 구성 비율을 구하고, 이를 검증용 신용정보 데이터셋의 A 항목에서 5개 범주의 구성 비율과 비교하여 안정도를 계산할 수 있다.
신용정보 데이터셋과 검증용 신용정보 데이터셋의 범주별 구성 비율의 차이가 적을 수록 해당 항목의 안정도가 높은 것으로 평가될 수 있으며, 미리 정해진 수식에 의해 항목별 안정도를 계산할 수 있다.
[수학식 2]
여기서 SI는 안정도이고, i는 범주에 대한 인덱스이고, %Oi는 신용정보 데이터셋의 i번째 범주의 구성 비율, %Ei 는 검증용 신용정보 데이터셋의 i번째 범주의 구성 비율, n은 범주의 총 개수이다.
수학식 2에 의해 해당 항목의 안정도를 구할 수 있다. 물론 실시예에 따라서 안정도를 계산하는 수식은 달라질 수도 있다.
재범주화 수행부(140)는 1차 특성항목에 대응하는 신용정보 데이터에 대해서 항목별 재범주화를 수행할 수 있다. 여기서 재범주화는 1차 특성항목에 대응하는 데이터에 대해서 동질적 불량률을 보이는 범주를 하나의 범주으로 묶는 코어스 범주화(Coarse Classing)를 통해 수행할 수 있다. 재범주화 수행부(140)는 범주별 불량률이 단조 증가 또는 단조 감소하도록 특이 값 범주도 포함하여 재범주화를 수행할 수 있다.
도 3은 본 발명에 따른 재범주화를 설명하기 위한 도면이다.
도 3을 참고하면, (a) 부분은 신용정보 데이터 셋의 임의의 항목에 대한 1차 범주화 결과를 나타낸 그래프이다. 가로축은 범주를 나타내고, 세로축은 불량률을 나타낸다. 특이 값 범주(9)까지 포함하여 총 9개의 범주가 그래프에 표시된 예를 나타낸 것이다.
재범주화는 동질적 불량률을 보이는 범주 그룹(2, 3)과 범주 그룹(5, 6)을 각각 하나의 범주(A, B)로 단일화할 수 있다. 아울러 범주 범주 순서에 따라 불량률이 단조 증가 또는 단조 감소하도록 특이 값 범주(9)도 범주(B)와 단일화할 수 있다.
(b) 부분은 위에서 설명한 방법에 의해 9개의 범주가 6개의 범주로 재범주화된 예를 나타낸 것이다.
다시 도 1을 참고하면, 2차 특성항목 선택부(150)는 재범주화 수행 결과에 기초하여 1차 특성항목 중에서 2차 특성항목을 선택할 수 있다. 앞에서 1차 특성항목 선택과 마찬가지로 2차 특성항목 선택도 항목별 변별도와 안정도를 평가하여 미리 정해진 기준 이상인 항목을 선택하도록 할 수 있다.
신용평가 모델 생성부(160)는 신용 정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용 정보 데이터를 이용하여 신용평가 모델을 생성할 수 있다. 구체적으로 신용평가 모델 생성부(160)는 신용 정보 데이터셋에서 선택된 2차 특성항목에 해당하는 데이터에 결정나무모형(Decision tree model), 로지스틱회귀모형(Logistic regression model), 신경망모형(Neural network model), 그래디언트 부스팅 모형(Gradient Boosting model), 랜덤포레스트모형(Random forests model) 또는 서포트벡터머신(Support vector machine)을 적용하여 신용평가 모델을 생성할 수 있다.
도 4는 본 발명에 따른 신용평가 모델 생성 방법을 설명하기 위한 흐름도이다.
도 4를 참고하면, 먼저 1) 분석 대상 및 기간, 2) 타겟 정의, 3) 검증 기간 정의, 4) 세분화 등의 분석 요건 정의가 수행될 수 있다(S410).
다음으로 단계(S410)에서 수행된 분석 요건 정의에 따른 신용정보 데이터셋이나 검증용 신용정보 데이터셋을 신용평가사(CB)로부터 확보할 수 있다(S420).
이후 1차 범주화 수행부(120)는 범주화 기준 사전에서 찾아진 범주화 기준을 적용하여 신용정보 데이터셋의 각 항목에 대해서 1차 범주화를 수행할 수 있다(S430).
단계(S430)에서 1차 범주화 수행부(120)는 신용 정보 데이터셋에 포함된 항목식별정보에 기초하여 범주화 기준 사전에서 신용 정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾을 수 있다. 그리고 그리고 1차 범주화 수행부(120)는 신용 정보 데이터셋에 대해 항목별로 찾아진 범주화 기준의 범주 경계값 리스트를 적용하여 1차 범주화를 수행할 수 있으며, 신용 정보 데이터셋에 포함된 데이터 중에서 특이 값 리스트에 포함된 데이터는 특이 값 범주로 범주화할 수 있다.
이후 1차 특성항목 선택부(130)는 1차 범주화 수행 결과에 기초하여 신용정보 데이터셋에서 1차 특성항목을 선택할 수 있다(S440).
다음으로 재범주화 수행부(140)는 1차 특성항목에 대응하는 신용정보 데이터에 대해서 항목별 재범주화를 수행할 수 있다(S450).
이후 2차 특성항목 선택부(150)는 재범주화 수행 결과에 기초하여 1차 특성항목 중에서 2차 특성항목을 선택할 수 있다(S460).
마지막으로 신용평가 모델 생성부(160)는 신용 정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용 정보 데이터를 이용하여 신용평가 모델을 생성할 수 있다(S470).
이후 신용평가 모델의 재모델링이 필요할 때마다 단계(S410)에서 정의된 분석 요건에 따른 새로운 신용평가 정보 데이터를 시스템(100)에 입력하면, 자동으로 단계(S420) 내지 단계(S470)를 거쳐 새로운 신용평가 모델의 생성이 가능하다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (19)

  1. 컴퓨터에서 실행되는 신용평가 모델 생성 방법에서,
    1차 범주화 수행부가 범주화 기준 사전에서 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾는 단계,
    상기 1차 범주화 수행부가 상기 신용정보 데이터셋의 각 항목별로 찾아진 범주화 기준을 적용하여 1차 범주화를 수행하는 단계,
    1차 특성항목 선택부가 상기 1차 범주화 수행 결과에 기초하여 상기 신용정보 데이터셋에서 1차 특성항목을 선택하는 단계,
    재범주화 수행부가 상기 선택된 1차 특성항목에 대해서 항목별 재범주화를 수행하는 단계,
    2차 특성항목 선택부가 상기 재범주화 수행 결과에 기초하여 상기 1차 특성항목 중에서 2차 특성항목을 선택하는 단계, 그리고
    모델 생성부가 상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용정보 데이터를 이용하여 신용평가 모델을 생성하는 단계를 포함하고,
    상기 범주화 기준 사전은 범주화 기준별 범주 경계값 리스트를 포함하며,
    상기 1차 범주화 수행부는 상기 신용정보 데이터셋에 포함된 항목식별정보에 기초하여 상기 범주화 기준 사전에서 상기 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾고,
    상기 항목식별정보는 항목코드 및 항목명 중 적어도 하나를 포함하며,
    상기 1차 특성항목 선택부는 상기 1차 범주화가 수행된 상기 신용정보 데이터셋의 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 1차 특성항목으로 선택하고,
    상기 2차 특성항목 선택부는 상기 재범주화가 수행된 상기 1차 특성항목에 대해서 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 2차 특성항목으로 선택하는 신용평가 모델 생성 방법.
  2. 제 1 항에서,
    상기 범주화 기준 사전에서 상기 신용정보 데이터셋에 포함된 항목식별정보에 대응하는 범주화 기준을 찾고,
    상기 신용정보 데이터셋에 대해 항목별로 찾아진 범주화 기준의 범주 경계값 리스트를 적용하여 상기 1차 범주화를 수행하는 신용평가 모델 생성 방법.
  3. 제 2 항에서,
    상기 재범주화는,
    상기 선택된 1차 특성항목에 대해서 동질적 불량률을 보이는 범주를 하나의 범주로 단일화하는 코어스 범주화(Coarse Classing)를 통해 수행되는 신용평가 모델 생성 방법.
  4. 제 3 항에서,
    상기 1차 범주화에서, 상기 신용정보 데이터셋에 포함된 데이터 중에서 특이 값 리스트에 포함된 데이터는 특이 값 범주로 범주화하고,
    상기 재범주화에서, 범주 순서에 따른 불량률이 단조 증가 또는 단조 감소하도록 상기 특이 값 범주도 포함하여 재범주화를 수행하는 신용평가 모델 생성 방법.
  5. 삭제
  6. 제 1 항에서,
    상기 변별도는 해당 항목의 범주별 불량률을 비교하여 계산하며,
    상기 안정도는 상기 신용정보 데이터셋에서 해당 항목의 범주별 구성 비율을 검증용 신용정보 데이터셋에서 대응하는 항목의 범주별 구성 비율과 비교하여 계산하는 신용평가 모델 생성 방법.
  7. 제 6 항에서,
    상기 신용정보 데이터셋에 포함된 항목식별정보에 대해 자연어 처리를 하여 상기 범주화 기준 사전에서 대응하는 범주화 기준을 찾는 신용평가 모델 생성 방법.
  8. 제 7 항에서,
    상기 범주화 기준 사전은,
    항목식별정보, 정보영역 및 범주화 기준이 대응되어 있는 제1 사전, 그리고
    범주화 기준과 범주 경계값 리스트가 대응되어 있는 제2 사전을 포함하고,
    상기 정보영역은 상기 복수의 항목을 미리 정해진 그룹으로 분류해놓은 정보인 신용평가 모델 생성 방법.
  9. 제 8 항에서,
    상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 데이터에 의사결정나무모형, 로지스틱회귀모형, 신경망모형, 그래디언트 부스팅 모형, 랜덤포레스트모형 또는 서포트벡터머신을 적용하여 신용평가 모델을 생성하는 신용평가 모델 생성 방법.
  10. 컴퓨터에 제1항 내지 제4항 및 제6항 내지 제9항 중 어느 한 항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  11. 범주화 기준 사전에서 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾고, 상기 신용정보 데이터셋의 각 항목별로 찾아진 범주화 기준을 적용하여 1차 범주화를 수행하는 1차 범주화 수행부,
    상기 1차 범주화 수행 결과에 기초하여 상기 신용정보 데이터셋에서 1차 특성항목을 선택하는 1차 특성항목 선택부,
    상기 선택된 1차 특성항목에 대해서 항목별 재범주화를 수행하는 재범주화 수행부,
    상기 재범주화 수행 결과에 기초하여 상기 1차 특성항목 중에서 2차 특성항목을 선택하는 2차 특성항목 선택부, 그리고
    상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 신용정보 데이터를 이용하여 신용평가 모델을 생성하는 모델 생성부를 포함하고,
    상기 범주화 기준 사전은 범주화 기준별 범주 경계값 리스트를 포함하며,
    상기 신용정보 데이터셋에 포함된 항목식별정보에 기초하여 상기 범주화 기준 사전에서 상기 신용정보 데이터셋의 각 항목별로 대응하는 범주화 기준을 찾고,
    상기 항목식별정보는 항목코드 및 항목명 중 적어도 하나를 포함하며,
    상기 1차 특성항목 선택부는 상기 1차 범주화가 수행된 상기 신용정보 데이터셋의 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 1차 특성항목으로 선택하고,
    상기 2차 특성항목 선택부는 상기 재범주화가 수행된 상기 신용정보 데이터셋의 각 항목별로 변별도와 안정도를 평가하여 미리 정해진 기준에 부합하는 항목을 상기 2차 특성항목으로 선택하는 신용평가 모델 생성 시스템.
  12. 제 11 항에서,
    상기 범주화 기준 사전에서 상기 신용정보 데이터셋에 포함된 항목식별정보에 대응하는 범주화 기준을 찾고,
    상기 신용정보 데이터셋에 대해 항목별로 찾아진 범주화 기준의 범주 경계값 리스트를 적용하여 상기 1차 범주화를 수행하는 신용평가 모델 생성 시스템.
  13. 제 12 항에서,
    상기 재범주화는,
    상기 선택된 1차 특성항목에 대해서 동질적 불량률을 보이는 범주를 하나의 범주로 단일화하는 코어스 범주화(Coarse Classing)를 통해 수행되는 신용평가 모델 생성 시스템.
  14. 제 13 항에서,
    상기 1차 범주화에서, 상기 신용정보 데이터셋에 포함된 데이터 중에서 특이 값 리스트에 포함된 데이터는 특이 값 범주로 범주화하고,
    상기 재범주화에서, 범주 순서에 따른 불량률이 단조 증가 또는 단조 감소하도록 상기 특이 값 범주도 포함하여 재범주화를 수행하는 신용평가 모델 생성 시스템.
  15. 삭제
  16. 제 11 항에서,
    상기 변별도는 해당 항목의 범주별 불량률을 비교하여 계산하며,
    상기 안정도는 상기 신용정보 데이터셋에서 해당 항목의 범주별 구성 비율을 검증용 신용정보 데이터셋에서 대응하는 항목의 범주별 구성 비율과 비교하여 계산하는 신용평가 모델 생성 시스템.
  17. 제 16 항에서,
    상기 신용정보 데이터셋에 포함된 항목식별정보에 대해 자연어 처리를 하여 상기 범주화 기준 사전에서 대응하는 범주화 기준을 찾는 신용평가 모델 생성 시스템.
  18. 제 17 항에서,
    상기 범주화 기준 사전은,
    항목식별정보, 정보영역 및 범주화 기준이 대응되어 있는 제1 사전, 그리고
    범주화 기준과 범주 경계값 리스트가 대응되어 있는 제2 사전을 포함하고,
    상기 정보영역은 상기 복수의 항목을 미리 정해진 그룹으로 분류해놓은 정보인 신용평가 모델 생성 시스템.
  19. 제 18 항에서,
    상기 신용정보 데이터셋에서 선택된 2차 특성항목에 해당하는 데이터에 의사결정나무모형, 로지스틱회귀모형, 신경망모형, 그래디언트 부스팅 모형, 랜덤포레스트모형 또는 서포트벡터머신을 적용하여 신용평가 모델을 생성하는 신용평가 모델 생성 시스템.
KR1020200158136A 2020-11-23 2020-11-23 신용평가 모델 생성 시스템 및 방법 KR102610187B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200158136A KR102610187B1 (ko) 2020-11-23 2020-11-23 신용평가 모델 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200158136A KR102610187B1 (ko) 2020-11-23 2020-11-23 신용평가 모델 생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220070993A KR20220070993A (ko) 2022-05-31
KR102610187B1 true KR102610187B1 (ko) 2023-12-04

Family

ID=81785825

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200158136A KR102610187B1 (ko) 2020-11-23 2020-11-23 신용평가 모델 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102610187B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060527A (ja) 2016-09-29 2018-04-12 株式会社金融エンジニアリング・グループ 情報処理装置、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101712361B1 (ko) * 2015-01-23 2017-03-13 성신여자대학교 산학협력단 빅데이터 분석을 이용한 p2p 뱅킹 신용도 평가 방법 및 시스템
KR20160149990A (ko) * 2016-02-18 2016-12-28 김주수 신용등급 및 심리측정 데이터를 결합한 개인 신용평가 방법 및 컴퓨터 프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060527A (ja) 2016-09-29 2018-04-12 株式会社金融エンジニアリング・グループ 情報処理装置、情報処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Asad Mumtaz, "How to Develop a Credit Risk Model and Scorecard"(2020.08.)*

Also Published As

Publication number Publication date
KR20220070993A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
Cheriyan et al. Intelligent sales prediction using machine learning techniques
Fahrenkrog-Petersen et al. Fire now, fire later: alarm-based systems for prescriptive process monitoring
CN109389143A (zh) 一种数据分析处理系统及自动建模方法
US7627511B2 (en) Method and apparatus for calculating credit risk of portfolio
CA3060678A1 (en) Systems and methods for determining credit worthiness of a borrower
US8984022B1 (en) Automating growth and evaluation of segmentation trees
US20210374582A1 (en) Enhanced Techniques For Bias Analysis
US20210012211A1 (en) Techniques for visualizing the operation of neural networks
CN111260368A (zh) 一种账户交易风险判断方法、装置及电子设备
US11205233B1 (en) Computer system and method for detecting, extracting, weighing, benchmarking, scoring, reporting and capitalizing on complex risks found in buy/sell transactional agreements, financing agreements and research documents
JP6251383B2 (ja) 債務不履行となる企業の蓋然性の計算
Verenich et al. Minimizing overprocessing waste in business processes via predictive activity ordering
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
JP4443619B2 (ja) ポートフォリオの信用リスクの計算方法および装置
Jacob Non-performing Asset Analysis Using Machine Learning
Lopes et al. Predicting recovery of credit operations on a brazilian bank
KR20220102961A (ko) 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치
KR102610187B1 (ko) 신용평가 모델 생성 시스템 및 방법
CN114117052A (zh) 一种业务数据报表的分类方法及装置
El-Qadi et al. Sectorial analysis impact on the development of credit scoring machine learning models
Łuczak et al. Probability of Loan Default—Applying Data Analytics to Financial Credit Risk Prediction
Hayek Data science and external audit
Lakhani et al. Prediction of credit risks in lending bank Loans
KR20200090557A (ko) 신용 평가 장치 및 방법
Kaisar et al. Explainable Machine Learning Models for Credit Risk Analysis: A Survey

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant