KR20190114524A

KR20190114524A - 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치

Info

Publication number: KR20190114524A
Application number: KR1020180037358A
Authority: KR
Inventors: 백성욱; 이미영; 박준렬; 레컹퉁; 이승주; 김태진
Original assignee: 세종대학교산학협력단; 주식회사 비즈데이터
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-10-10
Also published as: KR102091791B1

Abstract

합성 특징 생성을 이용한 기업 부도 예측 장치 및 그 방법을 제공하되, 기업 부도 예측 장치는 기업 부도 예측 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며, 프로세서는 기업 부도 예측 프로그램의 실행에 따라, 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출하고, 추출된 복수의 기본 특징으로부터 무작위로 2개의 기본 특징을 선택하여 선택된 기본 특징을 무작위로 선택된 산술 연산에 따라 연산하여 합성 특징을 산출하고, 기본 특징 및 합성 특징과 부도 기업들의 재무 상태를 나타내는 재무 정보에 기초하여 각 특징들이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출하며, 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수만큼 선정하여 선정된 기본 특징 또는 합성 특징을 기초로 기업의 부도 예측을 수행한다.

Description

합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치{METHOD AND APPARATUS FOR BANKRUPTCY PREDICTION USING SYNTHETIC FEATURE GENERATION}

본 발명은 기업의 부도를 예측하는 방법 및 그 장치에 관한 것이다.

일반적으로 기업의 재무제표 상의 재무 정보를 활용하여 부도를 예측할 수 있다. 한국 기업 데이터(korea enterprise data, KED)의 기업신용등급 산정 기준에 따르면, 다양한 재무 데이터를 활용해 기업신용등급을 측정하여 간접적으로 부도 예측을 할 수 있다. KED의 기업신용등급 산정기준을 보면 몇몇 데이터들은 데이터 정보를 그대로 특징으로서 사용하기도 하지만, 수식을 통해 다른 의미를 갖는 특징을 별도로 생성하여 사용하기도 한다. 예를 들어, KED에서는 기업의 안정성을 평가하기 위한 하나의 지표로서, 재무제표에 기초하여 “(부채-이익잉여금)/유형자산”과 같은 특징 값을 사용한다. 이처럼, 재무제표 상의 재무 정보를 곧바로 사용하기보다는 추가적인 수식을 사용할 수 있다. 하지만 이러한 수식은 일반적으로 전문가에 의해 정해진 것으로서, 해당 수식을 통해 생성된 값을 특징으로 사용할 경우 그 유효성 정도는 판단하기 어렵다는 문제가 있다. 또한, 기존의 부도 예측 시스템에서는 부도 예측을 원하는 기업의 내부정보(즉, 해당 기업의 재무 정보)만을 특징으로 사용하나, 현실적으로 예측의 정확성을 높이기 위해서는 기업의 내부정보뿐만 아니라 외부 요인에 의한 영향도 고려되어야 한다. 특히, 주거래처(기업 등)의 부실로 인한 외부 요인은 해당 기업 부도에 큰 영향을 주며, 이 영향은 단계적으로 전파될 수 있다.

이와 관련하여, 종래에는 거래처의 거래현황에 기초하여 매출량 변동과 거래 주기 변화를 파악하여 해당 거래처의 현황을 확인할 수 있는 거래처 모니터링 기술이 개발되었다. 그러나 이러한 거래처 모니터링 방식은 거래처가 어떤 기업과 거래하고 있는지, 또는 추가적인 변동 사항이 있는지 등의 요건은 고려하지 못하는 한계가 있다.

또한, 종래에는 거래기업의 어음정보와 신용정보점수를 통하여 해당 기업에 대한 연쇄부도의 영향력의 정도를 계산하는 기업 연쇄부도위험 관리 기술이 개발되었다. 이러한 연쇄부도 위험 관리 방식으 기업 간 어음정보를 사전에 획득하여야하며, 2차적으로 발생될 연쇄부도의 위험은 확인할 수 없다는 한계가 있다.

또한, 종래에는 거래기업의 부도확률이나 신용등급을 거래비중에 따라 연산하여 연쇄 부도 위험을 측정하는 연쇄 부도 위험 측정 기술이 개발되었다. 이러한 연쇄 부도 위험 측정 방식을 사용할 경우, 거래 비중에 따른 계산을 통해 연쇄 부도 위험 측정의 조건이 비율 별로 모든 측면에서 고려된다는 장점이 있지만, 불필요한 정보까지 전부 계산되어 노이즈와 같은 부정적 영향을 준다는 단점이 있다. 또한, 2차 또는 3차 연쇄 부도 영향을 측정하고자 할 경우 기하급수적인 연산이 필요하다는 한계가 있다.

대한민국 공개특허 제10-2017-0128023호(발명의 명칭: 데이터 뎁스를 활용한 기업 부도 예측 방법)

본 발명의 일 실시예는 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 기업의 재무 데이터를 활용하여 통계적으로 우수한 특징을 선별하고 거래 데이터를 사용하여 내부 요인뿐만 아니라 외부 요인까지 모두 고려하여 기업의 부도 예측을 처리할 수 있는 기업 부도 예측 방법 및 그 장치를 제공하고자 한다.

또한, 본 발명의 일 실시예는 기업의 재무 데이터를 활용하여 연쇄 부도를 고려한 합성 특징을 생성하여 기업의 부도 예측 처리에 사용할 수 있는 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 그 장치를 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 기업 부도 예측 장치를 통한 기업의 부도 예측 방법은, (a) 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출하는 단계; (b) 추출된 복수의 기본 특징으로부터 무작위로 2개의 기본 특징을 선택하고, 선택된 기본 특징을 무작위로 선택된 산술 연산에 따라 연산하여 합성 특징을 산출하는 단계; (c) 상기 기본 특징 및 합성 특징과 부도 기업들의 재무 상태를 나타내는 재무 정보에 기초하여, 각 특징들이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출하는 단계; 및 (d) 상기 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수만큼 선정하고, 선정된 기본 특징 또는 합성 특징을 기초로 기업의 부도 예측을 수행하는 단계를 포함한다.

본 발명의 다른 측면에 따른 기업 부도 예측 장치는, 기업 부도 예측 프로그램이 저장된 메모리; 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며, 상기 프로세서는 상기 기업 부도 예측 프로그램의 실행에 따라, 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출하고, 추출된 복수의 기본 특징으로부터 무작위로 2개의 기본 특징을 선택하여 선택된 기본 특징을 무작위로 선택된 산술 연산에 따라 연산하여 합성 특징을 산출하고, 상기 기본 특징 및 합성 특징과 부도 기업들의 재무 상태를 나타내는 재무 정보에 기초하여 각 특징들이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출하며, 상기 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수만큼 선정하여 선정된 기본 특징 또는 합성 특징을 기초로 기업의 부도 예측을 수행한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 기업의 내부 요인 뿐만 아니라 외부 요인까지 모두 고려해 부도 예측을 위한 특징 벡터를 구성함으로써 높은 성능의 기업 부도 예측이 가능하다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 단순화 시킨 공급망 네트워크를 이용하여 연쇄 부도 주거래기업을 선별함으로써, 연쇄 부도 예측 시 많은 양의 연산 처리를 방지할 수 있다.

도 1은 본 발명의 일 실시예에 따른 기업 부도 예측 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 재무 특징의 특징 합성 처리 과정을 설명하기 위한 도면이다.
도 3 및 도 4는 각각 본 발명의 일 실시예에 따른 특징 중요도를 계산하는 과정을 설명하기 위한 의사 결정 트리의 예시이다.
도 5는 본 발명의 일 실시예에 따른 진화 알고리즘을 통한 주요 특징 선별 과정을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 공급망 네트워크의 일부를 나타낸 예시도이다.
도 7은 본 발명의 일 실시예에 따른 특징 벡터를 구성할 기업을 선별하는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 순환 방지를 통해 기업을 선별하는 과정을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 부도 예측 시 적용되는 특징 벡터 구성 과정을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 기업 부도 예측 방법을 설명하기 위한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해 도면에서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면을 참고하여 설명하면서, 같은 명칭으로 나타낸 구성일지라도 도면에 따라 도면 번호가 달라질 수 있고, 도면 번호는 설명의 편의를 위해 기재된 것에 불과하고 해당 도면 번호에 의해 각 구성의 개념, 특징, 기능 또는 효과가 제한 해석되는 것은 아니다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)' 또는 '모듈'이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.

도 1은 본 발명의 일 실시예에 따른 기업 부도 예측 장치의 구성도이다.

도 1에 도시한 바와 같이, 기업 부도 예측 장치(100)는 데이터 수집기(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함한다.

이하에서 설명할 "재무 정보"는 각 기업의 재무 상태를 나타내는 복수의 재무 지표에 따른 각각의 정보를 의미하며, 재무제표에 포함된 재무 데이터일 수 있다. 참고로, 재무제표는 자산, 자본, 부채, 영업이익, 당기순이익 등 기업의 재무 상태를 확인할 수 있는 복수의 종류의 재무 데이터들을 포함한다.

데이터 수집기(110)는 프로세서(130)의 제어에 따라 기설정된 네트워크 장치와 통신하여 데이터를 수신 또는 송신한다.

이때, 기설정된 네트워크 장치는 복수의 기업에 대한 재무 정보를 통합 관리하는 장치이거나 또는 각 기업 별 재무 정보 관리 장치일 수 있다. 더불어, 기설정된 네트워크 장치는 기업 간의 거래 데이터를 관리하는 장치(예: 금융 기관 서버 장치 등)일 수 있다.

데이터 수집기(110)는 통신모듈을 통해 다른 네트워크 장치와 유무선 연결되어 신호(제어 신호 또는 데이터 신호 등)를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

메모리(120)에는 기업 부도 예측 프로그램이 저장되어 있다.

또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 이때, 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 메모리(120)에 저장된 기업 부도 예측 프로그램을 실행한다. 프로세서(130)는 일종의 중앙처리장치일 수 있으며, 기업 부도 예측을 위한 각종 처리를 수행하는 전체 과정을 제어한다.

참고로, 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있으며, 예를 들어 하드웨어에 내장된 데이터 처리 장치로서 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 가질 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array), GPU(graphics processing unit) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 기업 부도 예측 프로그램의 실행에 따라 다음의 처리들을 수행한다.

프로세서(130)는 데이터 수집기(110)를 통해 기업 별로 재무 상태를 나타내는 재무 데이터를 수집하여 각각의 재무 정보를 데이터베이스(140)에 저장한다.

이때, 재무 정보가 저장된 기업은 부도가 발생되지 않은 "정상 기업"과, 부도 또는 폐휴업된 "부도 기업"이며, 데이터베이스(140)에는 복수의 재무 정보들 각각에 대해 대응하는 정상 기업 또는 부도 기업 정보가 매칭 저장된다. 이들 정보들은 이하에서 설명할 정상 기업 또는 부도 기업 분류 처리 및 특징 중요도 산출 시 라벨링된 데이터 세트로서 사용된다.

또한, 프로세서(140)는 데이터 수집기(110)를 통해 복수의 기업 간 거래 데이터를 수집하여 데이터베이스(140)에 저장한다.

예를 들어, 거래 데이터는 기업 간 카드결제, 계좌이체, 전자세금계산서 등의 금융 데이터를 포함할 수 있다. 또한, 거래 데이터를 수집하는 대상 기업들은 데이터베이스(140)에 재무 정보가 저장된 정상 기업 및 부도 기업을 포함할 수 있다.

참고로, 기업 간 거래 데이터에 대한 데이터베이스는 기업 별 재무 정보가 저장된 데이터베이스와는 별개의 데이터베이스로 구축되거나, 데이터베이스(140) 상에 별도의 저장 영역에 분리되어 구축될 수 있다.

프로세서(130)는 기업의 내부 요인 및 외부 요인을 모두 고려하여 기업의 부도 예측을 수행한다.

먼저, 도 2 내지 도 5를 참조하여 프로세서(130)가 부도 예측을 위한 기업 내부적 재무 특징을 찾는 과정에 대해서 설명한다.

도 2는 본 발명의 일 실시예에 따른 재무 특징의 특징 합성 처리 과정을 설명하기 위한 도면이고, 도 3 및 도 4는 각각 본 발명의 일 실시예에 따른 특징 중요도를 계산하는 과정을 설명하기 위한 의사 결정 트리의 예시이다.

또한, 도 5는 본 발명의 일 실시예에 따른 진화 알고리즘을 통한 주요 특징 선별 과정을 나타낸 도면이다.

프로세서(130)는 데이터베이스(140)에 저장된 재무 정보를 기반으로 추출된 재무적인 특징(feature)들에 대해 중요도를 산출하고, 중요도가 높은 특징(이하, "주요 특징"이라고 지칭함)을 선별한다.

프로세서(130)는 기업 별 재무 정보 중 기본 특징을 추출하여 데이터베이스(140)에 저장한다. 기본 특징이란, 기업 별 재무 데이터 중 서로 다른 두 재무 정보를 산술 연산(예: "합" 또는 "차" 등)할 경우 생기는 파생적인 재무 정보를 제외한 것일 수 있다. 예를 들어, 기업의 재무제표 데이터 중 "부채총계"는 "유동부채"와 "비유동부채"의 합으로 구성된 재무 정보로서 파생적인 특징을 가지므로 기본 특징에서 제외시킬 수 있다.

그리고 프로세서(130)는 기업들의 재무적 특징 및 부도 기업의 재무 정보에 기초하여, 부도 예측에 큰 영향을 미치는 중요도가 높은 특징을 선별하여 주요 특징으로서 결정한다.

이때, 프로세서(130)는 진화 알고리즘을 통해 특징 중요도가 높은 특징을 선별하여 주요 특징 결정을 처리할 수 있다.

구체적으로, 프로세서(130)는 복수의 기본 특징들 중 2가지의 기본 특징을 무작위로 선택하고 산술 연산자 또한 무작위로 선택하여, 선택된 기본 특징들에 대해 선택된 산술 연산자를 적용하여 새로운 합성 특징을 산출한다. 산술 연산자는, 도 2에 도시된 바와 같은 +, -, *, / 등의 일반적인 산술 연산자 뿐만 아니라 기설정된 공식이 적용될 수도 있다. 참고로, 합성 특징은 기수집된 재무 데이터 상에 이미 존재하는 파생 특징일 수도 있지만, 기존에 인지하지 못했던 새로운 재무적 의미를 가진 특징일 수 있다.

도 2에서는 특징 합성 처리 이전의 8가지 특징들(F1~F8)에 대한 각각의 중요도, 특징 합성 처리 과정, 특징 합성 처리 후의 각 특징 별 중요도를 나타냈다.

이때, 제 1 특징(F1)은 "이익잉여금"이고, 제 2 특징(F2)는 "매출액"이고, 제 3 특징(F3)은 "유동자산"이고, 제 4 특징(F4)는 "유동부채"이고, 제5 특징(F5)는 "자본금"이고, 제 6 특징(F6)은 "매출원가"이고, 제 7 특징(F7)은 "비유동자산"이며, 제 8 특징(F8)은 "비유동부채"인 것을 예로서 설명하도록 한다.

예를 들어, 도 2에서의 8가지 특징들(F1~F8)에 대한 특징 합성 처리 시, 8개 특징 중 제 2 특징인 "매출액" 및 제 6 특징인 "매출원가"의 차를 구해 새로운 합성 특징인 "매출총이익"(도 2에서는, 제9 특징(F9)로 나타냄)을 산출할 수 있다.

합성 특징은 합성되기 전(즉, 각각의 기본 특징)이 합성된 이후보다 중요도가 더 높을 수 있으므로, 기존의 기본 특징과 새로 생성된 합성 특징들 중 특징 중요도가 높은 주요 특징을 선별한다.

즉, 프로세서(130)는 기본 특징과, 기본 특징들을 이용하여 새롭게 생성한 합성 특징에 대해 특징 중요도를 산출한다.

특징 중요도는 아래와 같은 방식으로 산출할 수 있다.

도 3을 참조하면, 특징 중요도 산출 시 트리 기반 분류 알고리즘을 사용할 수 있으며, 이때 1개의 부모 노드는 최대 2개의 자식 노드를 갖는 것을 나타냈다.

도 3에 도시된 바와 같이, 각 노드는 4가지 정보를 가지며, 첫 번째 정보는 참(true) 또는 거짓(false)을 분류하기 위한 조건으로서 "X[]"는 해당하는 특징을 의미하고, 두 번째 정보(gini)는 불순도(impurity)를 나타내는 gini 계수를 의미하고, 세 번째 정보(samples)는 분류의 대상이 된 정상 기업 및 부도 기업의 총 개수(즉, 총 샘플 개수)를 의미하며, 네 번째 정보(value)는 샘플에 포함된 정상 기업 및 부도 기업 각각의 개수를 의미한다.

이때, 아래의 수학식 1을 통해 gini 계수를 산출할 수 있다.

<수학식 1>

예를 들어, 도 3의 트리에서 3번째 줄의 우측 마지막 노드(P13)의 경우 value 가 3개의 정상 기업과 1개의 부도 기업을 포함한다. 즉, class_i는 샘플에 포함된 정상 기업 및 부도 기업을 의미한다.

이때 위의 수학식 1을 적용하면 gini 계수는 아래 수학식 2와 같이 계산된다.

<수학식 2>

gini 계수는 불순도를 나타내는 척도로서, gini 계수를 통해 현재 노드의 분류 조건에서 정상 기업과 부도 기업이 섞인 정도를 알 수 있다. 만약 해당 노드에 정상 기업과 부도 기업이 섞이지 않은 경우, 도 3의 트리에서 4번째 줄의 우측 마지막 노드들(P14-1, P14-2)과 같이 gini 계수 값은 0으로 산출된다.

이러한 gini 계수를 이용하여 특징 중요도를 산출할 수 있다.

프로세서(130)는 특징 중요도를 산출하기 위한 트리 기반 분류 알고리즘으로서 MDI(Mean Decrease Impurity) 기법을 사용할 수 있다. 참고로, MDI는 특징 중요도를 계산하는 다양한 방법중 하나이며, 특징 중요도 산출 방식은 이에 한정되지 않는다. 또한, MDI를 사용하는 경우에 평가 계수로서 gini 계수 대신에 엔트로피 또는 분산과 같은 다른 평가 계수를 사용하는 것도 가능하다.

특징 중요도를 산출하기 위한 MDI 공식은 아래의 수학식 3과 같다.

<수학식 3>

Imp(feature_j)는 특징 j에 대한 특징 중요도이며, 특징 j를 분류 조건으로 하는 노드 별 P(t)·Δi(t)를 산출한 후 이들의 합을 계산하여 구할 수 있다. P(t)는 N_t/N이며, 이때 N은 전체의 데이터수로서 트리에서 가장 상단의 부모 노드(즉, 루트 노드)의 총 샘플 개수를 의미하고, N_t는 각 노드 별 총 샘플 개수를 의미한다. 그리고 i(t)는 특정 특징을 사용하였을 때 노드의 평가 계수들의 변화량을 측정한 값이다. 이러한 i(t)를 산출하는 공식은 아래의 수학식 4와 같다.

<수학식 4>

이때, t_L은 노드 t의 좌측 노드를 의미하고, t_R은 노드 t의 우측 노드를 의미한다. 그리고

은 노드의 좌측 노드의 총 샘플 개수를 의미하고,

은 노드의 우측 노드의 총 샘플 개수를 의미한다.

트리 기반 분류 알고리즘에서는 여러 특징 중 한 특징을 골라 그 특징을 기준으로 정상 기업과 부도 기업을 분류하되, 각 특징 별 특징 중요도를 산출하여 비교한다.

예를 들어, 도 4에 도시된 트리를 참조하면, 첫 번째와 두 번째 분기에서 서로 다른 특징들을 사용해 정상 기업과 부도 기업을 분류한 것을 확인할 수 있다.

이때, 도 4의 트리에 대해서 MDI 기법을 사용한 경우, 아래 수학식 5 및 6에서와 같이 제 1 특징(X[1])과 제 2 특징(X[2]) 각각의 특징 중요도를 산출할 수 있다.

<수학식 5>

<수학식 6>

수학식 5 및 6의 결과는, 10000개의 기업 중 80%의 정상 기업을 분류해낸 제 1 특징(X[1])의 특징 중요도가, 2000개의 기업 중에서 정상 기업 및 부도 기업을 일정 정도 분류해낸 제 2 특징(X[2])의 특징 중요도 보다 높은 것을 의미한다.

이러한 특징 중요도는, 사용한 트리 기반 분류 알고리즘(예: 의사 결정 트리, 랜덤 포레스트(Random Forest), 부스팅(Boosting) 등)을 통해 산출된 결과 및 불순도로서 사용한 평가 계수의 종류에 따라 달라질 수 있다.

프로세서(130)는 기본 특징들과 합성 특징들 모두에 대해, 특징 중요도가 가장 높은 특징부터 순차적으로 기설정된 개수의 특징을 주요 특징으로서 선택할 수 있다. 도 2에 도시된 바와 같이, 각 특징(F) 별로 중요도를 계산한 결과를 막대그래프를 통해 나타낼 수 있으며 이에 따라 특징 별 중요도 계산 결과를 비교할 수 있다.

이때, 프로세서(130)는 진화 알고리즘을 통해 특징 중요도가 유의미한(즉, 특징 중요도가 높은) 특징들을 선별할 수 있다. 즉, 진화 알고리즘을 적용하여 특징 간의 중요도를 비교하여 중요도가 낮은 특징은 도태시키고 그 외 다른 특징들을 합성 처리함으로써 새로운 우수한 특징을 찾는다.

도 5를 참조하면, 프로세서(130)는 진화 알고리즘 처리 시 병렬적인 특징 합성 시뮬레이션을 수행한다. 도 3에서는 8개의 특징에 대해 각각 서로 다른 특징을 선택하여 특징 합성을 처리하는 3개의 특징 합성 시뮬레이션을 예로서 나타냈다.

즉, 트리 기반 분류 알고리즘에서는 하나의 특징 합성 시뮬레이션을 하나의 자손으로 보되, 각 자손들은 서로 다른 합성 특징을 생성한다. 이를 통해, 여러 합성 특징들을 생성한 후 합성 특징에 대해 특징 중요도를 다시 비교하고 그 결과에 따라 일부는 탈락시키고 일부는 다시 병렬적인 특징 합성 시뮬레이션을 수행하는 과정을 반복한다.

이러한 과정을 통해 부도를 예측할 수 있는 내부적 요인으로서의 주요 특징을 결정하여 부도 예측에 적용한다.

즉, 프로세서(130)는 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수 만큼 선정하고, 선정된 기본 특징 또는 합성 특징을 기초로 부도 예측을 원하는 기업의 부도 예측을 수행한다.

한편, 프로세서(130)는 기업의 부도 예측을 수행함에 있어서, 기업 외부적인 재무 특징을 적용할 수 있다.

도 6 내지 도 9를 참조하여 프로세서(130)가 부도 예측을 위한 기업의 외부적인 재무 특징을 찾는 과정에 대해서 설명한다.

부도 예측 시 외부 요인은 주거래기업의 부도로 인해 해당 기업에 미칠 수 있는 악영향을 의미한다. 이러한 외부 요인을 고려하기 위하여, 프로세서(130)는 데이터베이스(140)에 저장된 기업 간 거래 데이터 중 기업 별로 주거래기업의 정보를 재무적 특징으로 설정한다.

이때, 거래 데이터(카드결제내역, 계좌이체내역, 전자세금계산서내역 등)는 기본적으로 날짜, 거래금액, 공급업체 및 구매업체 정보를 포함한다. 또한, 일반적으로 거래 데이터는 ATM, 데이터베이스 등의 시스템에서 사용되는 쪼갤 수 없는 업무처리의 단위(즉, 트랜젝션 형태)로 구성되어 있다. 이러한 거래 데이터를 부도 예측을 위한 재무적 특징으로 활용하기 위해서, 프로세서(130)는 거래 데이터에 대해 기설정된 가공 처리를 한다.

프로세서(130)는 기업 간의 거래 데이터를 기반으로 기업 간의 재화 공급 관계 및 재화 구매 관계를 나타내는 공급망 네트워크를 생성한다. 그리고, 프로세서(130)는 공급망 네트워크에 포함된 기업들의 계층 순위에 따라 기본 특징 또는 합성 특징을 선택하는 미리 설정된 개수를 상이하게 적용하되, 상위 계층에 해당하는 기업에 대해서 더 많은 개수의 기본 특징 또는 합성 특징이 선정되도록 할 수 있다.

구체적으로, 프로세서(130)는 데이터베이스(140)에 저장된 거래 데이터 중 일정 기간 내(예: 최근 1년 사이)에 발생된 거래 데이터를 선별하여 공급망(supply chain) 네트워크를 구성할 수 있다. 공급망 네트워크는 거래 데이터를 기반으로 기업 간의 재화 공급 관계 및 재화 구매 관계를 나타낸다.

도 6은 본 발명의 일 실시예에 따른 공급망 네트워크의 일부를 나타낸 예시도이다.

도 6에 도시된 공급망 네트워크에서 각 노드는 기업을 의미하고 간선의 방향은 재화 공급 방향을 나타내며 간선의 가중치는 각 공급업체가 구매업체들로부터 받은 금액(즉, 거래 금액)의 비율을 의미한다.

공급망은 매우 복잡한 형태를 취하고 있어, 인력으로 많은 관계 데이터를 직접 분석하는 것은 과도한 시간 투자가 필요하며 오류가 발생할 우려가 있다. 또한, 공급망 분석에 컴퓨터와 같은 고성능 연산장치를 활용하더라도 시간과 비용에 대한 문제들은 쉽게 해결하기 힘들다.

이러한 공급망 분석의 문제를 효율적으로 해결하기 위해서, 프로세서(130)는 공급망을 단순화하고 정량적인 벡터를 구성할 기업들을 선별하는 처리를 수행한다.

도 7은 본 발명의 일 실시예에 따른 특징 벡터를 구성할 기업을 선별하는 과정을 설명하기 위한 도면이며, 도 8은 본 발명의 일 실시예에 따른 순환 방지를 통해 기업을 선별하는 과정을 설명하기 위한 도면이다.

도 7 및 도 8을 참조하면, 공급망 네트워크 내에서 거래(즉, 재화 공급 및 구매) 관계에 따라 기업 간에 계층 구조가 형성된다.

프로세서(130)는 공급망 네트워크 상에서 각 공급 기업에 대해 거래 비중이 가장 큰 기업을 주거래기업으로 선정한다.

또한, 프로세서(130)는 몇차 부도까지를 예측할지 설정하고, 부도 예측 대상 기업을 기준으로 1차 주거래기업 및 2차 주거래기업 정보 등을 사용하여 특징 벡터를 구성한다. 이때, 몇차 부도까지를 예측할지는 사용자에 의해 사전에 설정되거나 자동으로 설정될 수 있다.

이때, 도 7을 참조하면, 프로세서(130)는 1차 주거래기업 및 2차 주거래기업 등을 선별할 때 거래 비중이 각 레벨 별로 지정된 임계값 이상인 기업을 선택할 수 있다.

한편, 도 8을 참조하면, 주거래기업 선별 시 거래 비중이 기설정된 레벨의 임계값 미만이거나 또는 공급 방향이 공급 기업으로 순환하는 구간이 발생된 경우, 특징 벡터의 나머지 부분에는 기설정된 기본값(default)를 채운다. 이와 같은 방식으로 선별된 주거래기업들의 정보는 앞서 설정된 주요 특징과 함께 특징 벡터를 이룬다.

도 9는 본 발명의 일 실시예에 따른 부도 예측 시 적용되는 특징 벡터 구성 과정을 설명하기 위한 도면이다.

앞서, 도 7 및 도 8에서 설명한 특징 벡터는 크게 2부분으로 나누어 진다. 첫 번째 부분은 부도 예측을 원하는 기업의 정보를 다루는 내부 요인 부분이고, 두 번째 부분은 해당 기업과 선택된 주거래기업들의 정보들을 다루는 외부 요인 부분이다. 즉, 특징 벡터 상에는 부도 예측의 대상이 되는 원래 기업과 선별된 n차 주거래기업의 정보가 각각 포함되되, 각 기업의 정보로서 앞서 선별된 주요 특징이 포함될 수 있다.

이때, 특징 벡터는, 도 9의 좌측에 도시된 바와 같이, 선별된 기업들의 주요 특징(즉, 특징 중요도가 높은 기본 특징 또는 합성특징)들을 나열하는 것일 수 있다.

다만, 많은 양의 특징을 가지고 있는 특징 벡터의 경우 차원의 저주(curse of dimensionality)에 빠질 수 있을 뿐만 아니라 많은 연산량을 요구할 수 있으므로, 효율적인 연산을 위해서는 특징의 수를 줄이는 것도 가능하다.

이처럼, 특징 벡터에서 사용할 주요 특징의 수를 줄일 경우, 프로세서(130)는 주거래 기업들 간의 거래 관계가 단계적으로 작아짐을 고려하여 특징의 개수를 단계적으로 줄일 수 있다.

예를 들어, 프로세서(130)는 공급망 네트워크 상의 제 1 기업 및 제 1기업과 바로 연결된 차상위 계층에 해당하는 제 2 기업에 있어서, 제 2 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수를 제 1 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수의 1/2로 줄일 수 있다.

이때, 도 9에 도시한 바와 같이, 주요 특징들을 중요도 순으로 정렬하여 정해진 개수만큼의 특징을 선택해 특징 벡터를 구성할 수 있다. 이는, 여러 종류의 재무 데이터를 종합적으로 고려하여 선별된 주요 특징들을 줄여나갈 경우 제거되는 중요 재무 데이터 정보를 최소화하기 위한 것이다.

이렇게 만들어진 특징 벡터는 수입 부진과 같은 내부적 요인과 거래처 부도와 같은 외부적 요인을 함께 내포하고 있어, 부도 예측 시 더 높은 예측 성능을 가져올 수 있다.

이하, 도 10을 참고하여 본 발명의 일 실시예에 따른 기업 부도 예측 방법에 대해서 설명하도록 한다.

도 10은 본 발명의 일 실시예에 따른 기업 부도 예측 방법을 설명하기 위한 순서도이다.

먼저, 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출한다(S910).

이때, 기본 특징은 재무 데이터 중 상이한 종류의 재무 정보를 산술 연산하여 파생된 정보가 아닌 기본 재무 정보를 의미한다.

다음으로, 추출된 복수의 기본 특징 중 두 개의 기본 특징을 무작위로 선택하여 무작위로 선택된 산술 연산으로 연산하여 합성 특징을 생성한다(S920).

이때, 합성 특징을 생성하는 과정은 앞서 도 2를 통해 설명한 과정과 동일 또는 유사하다.

그리고 기본 특징 및 합성 특징들과 부도 기업의 재무 상태를 나타내는 재무 정보에 기초하여, 각 특징이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출한다(S930).

이때, 특징 중요도를 산출하는 과정은 앞서 도 3 내지 도 5를 통해 설명한 과정과 동일 또는 유사하다.

그런 다음, 산출된 특징 중요도에 기초하여 특징 중요도가 높은 기본 특징 또는 합성 특징을 기설정된 개수만큼 선정하고(S940), 선정된 기본 특징 또는 합성 특징(즉, 주요 특징)을 기초로 기업의 부도 예측을 수행한다(S950).

한편, 본 발명의 일 실시예에 따르면, 이상의 단계 (S910 내지 S950)과는 별개로 기업 간의 거래 데이터에 기반한 공급망 네트워크를 생성하는 단계를 더 수행할 수 있다. 이러한 공급망 네트워크를 통해 부도 예측의 대상인 기업의 n차 주거래기업을 선별하고, 해당 기업과 상기 선별된 주거래기업들의 상기 선정된 주요 특징들을 이용하여 부도 예측을 수행할 수 있다.

이러한 공급망 네트워크 생성 과정 및 주거래기업 선별 과정은 앞서 도 6 내지 도 9를 통해 설명한 과정들과 동일 또는 유사하다.

이때, 상기 기업의 부도 예측을 수행하는 단계(S940)에서, 공급망 네트워크에 포함된 기업들의 계층 순위에 따라 주요 특징의 개수를 상이하게 적용하되, 상위 계층에 해당하는 기업에 대해서 더 많은 개수의 기본 특징 또는 합성 특징을 선정할 수 있다.

예를 들어, 공급망 네트워크 상의 제 1 기업과 상기 제 1기업과 바로 연결된 차상위 계층에 해당하는 제 2 기업에 있어서, 제 2 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수는 제 1 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수의 1/2로 설정될 수 있다.

또한, 공급망 네트워크 상에서 계층 구조를 구성하는 각 기업간의 거래 데이터의 수치가 임계값 이상인 기업들 간의 관계만을 유지하여, 공급망을 단순화시킬 수 있다.

또한, 공급망 네트워크 상에서 계층 구조를 구성하는 각 기업 사이에 순환 거래 관계가 발생하는 경우, 순환 거래에 해당하는 기업들 간의 관계만을 유지하여, 공급망을 단순화시킬 수 있다.

이상에서 설명한 본 발명의 실시예에 따른 기업 부도 예측 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 조사 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

또한, 본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수도 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 기업 부도 예측 장치 110: 데이터 수집기
120: 메모리 130: 프로세서
140: 데이터 베이스

Claims

기업 부도 예측 장치를 통한 기업의 부도 예측 방법에 있어서,
(a) 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출하는 단계;
(b) 추출된 복수의 기본 특징으로부터 무작위로 2개의 기본 특징을 선택하고, 선택된 기본 특징을 무작위로 선택된 산술 연산에 따라 연산하여 합성 특징을 산출하는 단계;
(c) 상기 기본 특징 및 합성 특징과 부도 기업들의 재무 상태를 나타내는 재무 정보에 기초하여, 각 특징들이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출하는 단계; 및
(d) 상기 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수만큼 선정하고, 선정된 기본 특징 또는 합성 특징을 기초로 기업의 부도 예측을 수행하는 단계를 포함하는 기업의 부도 예측 방법.
제 1 항에 있어서,
기업 간의 거래 데이터를 기반으로 기업 간의 재화 공급 관계 및 재화 구매 관계를 나타내는 공급망(supply chain) 네트워크를 생성하는 단계를 더 포함하고,
상기 기업의 부도 예측을 수행하는 (d) 단계는
상기 공급망 네트워크에 포함된 기업들의 계층 순위에 따라 상기 미리 설정된 개수를 상이하게 적용하되, 상위 계층에 해당하는 기업에 대해서 하위 계층보다 더 많은 개수의 기본 특징 또는 합성 특징을 선정하는 것인 기업의 부도 예측 방법.
제 2 항에 있어서,
제 1 기업과 상기 제 1기업과 바로 연결된 차상위 계층에 해당하는 제 2 기업에 있어서, 제 2 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수는 제 1 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수의 1/2에 해당하는 것인 기업의 부도 예측 방법.
제 2 항에 있어서,
상기 공급망 네트워크를 생성하는 단계는
계층 구조를 구성하는 각 기업 간의 거래 데이터의 수치가 임계값 이상인 기업들 간의 관계만을 유지하는 것인 기업의 부도 예측 방법.
제 2 항에 있어서,
상기 공급망 네트워크를 생성하는 단계는
계층 구조를 구성하는 각 기업 사이에 순환 거래 관계가 발생하는 경우, 상기 순환 거래에 해당하는 기업들 간의 관계만을 유지하는 것인 기업의 부도 예측 방법.
제 1 항에 있어서,
상기 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수 만큼 선정하는 (d) 단계는,
진화 알고리즘에 기초하여 기본 특징 및 합성 특징들 중 특징 중요도가 높은 임의의 개수의 주요 특징을 선별하는 것인 기업의 부도 예측 방법.
제 1 항에 있어서,
상기 특징 중요도를 산출하는 (c) 단계는,
기설정된 트리 기반 분류 알고리즘을 사용하되,
트리 상의 노드 별로, 분류 조건으로서의 특징 정보, 해당 특징에서의 정상 및 부도 기업에 대한 불순도를 의미하는 평가 계수, 해당 특징에서의 분류의 대상이 된 정상 및 부도 기업의 총 개수, 및 해당 특징에서의 분류된 정상 및 부도 기업 각각의 개수 정보를 포함하며,
아래의 수학식 1에 기초하여 특징 중요도를 산출하는 것인 기업의 부도 예측 방법.
<수학식 1>

(이때, 상기 Imp(feature_j)는 특징 j에 대한 특징 중요도이고,
P(t)는 N_t/N이되, N은 트리에서 가장 상단의 부모 노드(즉, 루트 노드)의 상기 총 개수를 의미하고, N_t는 각 노드 별 상기 총 개수를 의미하고,
i(t)는 임의의 특징을 사용하였을 때 노드의 평가 계수들의 변화량을 측정한 값이되, t_L은 노드 t의 좌측 노드를 의미하고, t_R은 노드 t의 우측 노드를 의미하고,
은 노드의 좌측 노드의 상기 총 개수를 의미하고,
은 노드의 우측 노드의 상기 총 개수를 의미하며,
gini는 상기 평가 계수를 의미하되, class_i는 노드에서 분류된 정상 기업 및 부도 기업 각각의 개수를 의미하고, samples는 노드의 상기 총 개수를 의미함)
기업 부도 예측 장치에 있어서,
기업 부도 예측 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 프로세서는 상기 기업 부도 예측 프로그램의 실행에 따라, 기업들의 재무 상태를 나타내는 복수의 재무 지표를 기초로 복수의 기본 특징을 추출하고, 추출된 복수의 기본 특징으로부터 무작위로 2개의 기본 특징을 선택하여 선택된 기본 특징을 무작위로 선택된 산술 연산에 따라 연산하여 합성 특징을 산출하고, 상기 기본 특징 및 합성 특징과 부도 기업들의 재무 상태를 나타내는 재무 정보에 기초하여 각 특징들이 기업의 부도에 미치는 영향의 정도를 나타내는 특징 중요도를 산출하며, 상기 산출된 특징 중요도에 따라 특징 중요도가 높은 기본 특징 또는 합성 특징을 미리 설정된 개수만큼 선정하여 선정된 기본 특징 또는 합성 특징을 기초로 기업의 부도 예측을 수행하는 기업 부도 예측 장치.
제 8 항에 있어서,
상기 프로세서는,
기업 간의 거래 데이터를 기반으로 기업 간의 재화 공급 관계 및 재화 구매 관계를 나타내는 공급망(supply chain) 네트워크를 생성하되,
상기 기업의 부도 예측 시, 상기 공급망 네트워크에 포함된 기업들의 계층 순위에 따라 상기 미리 설정된 개수를 상이하게 적용하되, 상위 계층에 해당하는 기업에 대해서 하위 계층보다 더 많은 개수의 기본 특징 또는 합성 특징을 선정하는 것인 기업 부도 예측 장치.
제 9 항에 있어서,
상기 프로세서는,
상기 공급망 네트워크 상에서 제 1 기업과 상기 제 1기업과 바로 연결된 차상위 계층에 해당하는 제 2 기업에 있어서, 제 2 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수는 제 1 기업에 대한 부도 예측시 사용하는 기본 특징 또는 합성 특징의 개수의 1/2로 설정하는 것인 기업 부도 예측 장치.
제 8 항에 있어서,
상기 프로세서는,
진화 알고리즘에 기초하여 기본 특징 및 합성 특징들 중 특징 중요도가 높은 임의의 개수의 주요 특징을 선별하는 것인 기업 부도 예측 장치.
제 8 항에 있어서,
상기 프로세서는 기설정된 트리 기반 분류 알고리즘을 사용하여 상기 특징 중요도를 산출하되,
트리 상의 노드 별로, 분류 조건으로서의 특징 정보, 해당 특징에서의 정상 및 부도 기업에 대한 불순도를 의미하는 평가 계수, 해당 특징에서의 분류의 대상이 된 정상 및 부도 기업의 총 개수, 및 해당 특징에서의 분류된 정상 및 부도 기업 각각의 개수 정보를 포함하며,
아래의 수학식 2에 기초하여 특징 중요도를 산출하는 것인 기업 부도 예측 장치.
<수학식 2>

(이때, 상기 Imp(feature_j)는 특징 j에 대한 특징 중요도이고,
P(t)는 N_t/N이되, N은 트리에서 가장 상단의 부모 노드(즉, 루트 노드)의 상기 총 개수를 의미하고, N_t는 각 노드 별 상기 총 개수를 의미하고,
i(t)는 임의의 특징을 사용하였을 때 노드의 평가 계수들의 변화량을 측정한 값이되, t_L은 노드 t의 좌측 노드를 의미하고, t_R은 노드 t의 우측 노드를 의미하고,
은 노드의 좌측 노드의 상기 총 개수를 의미하고,
은 노드의 우측 노드의 상기 총 개수를 의미하며,
gini는 상기 평가 계수를 의미하되, class_i는 노드에서 분류된 정상 기업 및 부도 기업 각각의 개수를 의미하고, samples는 노드의 상기 총 개수를 의미함)