KR100497211B1

KR100497211B1 - 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법

Info

Publication number: KR100497211B1
Application number: KR10-2002-0011207A
Authority: KR
Inventors: 김용대
Original assignee: (주)비엘시스템스; 김용대; 전종우
Priority date: 2002-03-02
Filing date: 2002-03-02
Publication date: 2005-06-23
Also published as: AU2003208644A1; WO2003075182A1; KR20030071938A

Abstract

본 발명은 최적의 의사 결정 나무 구축에 있어서, 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법에 관한 것이다.

본 발명에 따르면, 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률을 계산하는 확률 계산 수단; 주어진 나무에 대한 사전 확률을 계산하는 사전 확률 계산 수단; 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률을 계산하는 사후 확률 계산 수단; 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 앙상블 기법에 적용되는 최적 의사 결정 나무 선택 장치가 제공된다.

Description

데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치 및 그 방법 {Apparatus and method for optimal decision tree selection}

본 발명은 데이터 마이닝(Data Mining)을 위한 최적의 의사 결정 나무(Decision Tree)를 선택하는 장치 및 방법에 관한 것으로서, 보다 상세하게는, 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법에 관한 것이다.

1. 서설

데이터 마이닝 기술 분야에서 앙상블 알고리즘은 'Breiman'의 배깅(Bagging) 기법을 효시로 하여 최근까지 많은 연구가 진행되고 있다. 특히, 배깅 기법을 근간으로 'Freund and Schapire'의 '부스팅(Boosting) 알고리즘', 'Breiman'의 아킹(Arcing) 알고리즘', 'Breiman'의 '랜덤 포레스트(Random Forest) 알고리즘' 및 'Friedman'의 '그래디언트 부스팅(Gradient Boosting) 알고리즘' 등의 앙상블 알고리즘이 제안되었다.

이러한 앙상블 알고리즘은 기본 학습기 여러 개를 융합하여 새로운 학습기를 생성하는 것이다. 또한, 해석력이 가장 뛰어나다고 알려져 있는 기본 학습기로는 의사 결정 나무가 있다.

데이터 마이닝 기술 분야의 앙상블 알고리즘에 의사 결정 나무를 기본 학습기로 사용하기 위해서는 빠른 계산이 필수적이다.

일반적으로 현재 널리 알려진 의사 결정 나무 구축 알고리즘은 'Breiman'이 제시한 카트 알고리즘(CART Algorithm, Breiman et al., 1986)이다. 카트 알고리즘의 경우에는, 나무의 성장, 가지 치기 및 최적 의사 결정 나무 선택의 3 단계로 이루어진다.

이때, 세 번째 단계인 최적 나무 모형을 선택하는 알고리즘은 교차 확인(Cross Validation) 기법을 사용하는데, 이 기법은 많은 계산량을 요구한다. 하나의 의사 결정 나무를 생성하기 위하여 교차 확인에 필요한 계산량은 그리 부담이 되지 않지만, 앙상블 기법에서는 여러 개의 의사 결정 나무를 생성하기 때문에, 모든 의사 결정 나무에 교차 확인 기법을 적용하는 것은 계산량의 폭증을 필연적으로 수반하게 된다.

이러한 종래의 의사 결정 나무 구축 알고리즘을 개략적으로 살펴 보고, 최적의 의사 결정 나무를 선택하기 위하여 종래에 가장 널리 알려진 교차 확인 방법을 살펴 보자.

2. 의사 결정 나무 구축 알고리즘(Breiman et al., 1984)

'Breiman'이 제시한 의사 결정 나무 구축 알고리즘은 크게는 삼단계로 나눌 수 있다.

첫째는 성장 알고리즘으로서, 주어진 자료에 대하여 가장 큰 크기의 의사 결정 나무를 생성하는 단계이다.

둘째는 가지 치기 알고리즘으로서, 상기 성장 알고리즘을 통하여 구축한 거대한 의사 결정 나무에서 불필요한 가지를 순서대로 삭제함으로써, 내포되는 여러개의 의사 결정 나무들을 생성하는 단계이다. 이때, 구축된 의사 결정 나무들은 점점 그 크기가 작아진다.

셋째는 최적 나무 선택 알고리즘으로서, 상기 가지 치기 알고리즘으로 구한 의사 결정 나무 중 최적의 의사 결정 나무를 선택하는 단계이다.

본 발명은 상기 최적 나무 선택 알고리즘, 즉, 세 번째 단계에 적용되는 알고리즘이다.

3. 최적 의사 결정 나무 선택을 위한 교차 확인 알고리즘(k 폴드 교차 확인)

도 1은 종래의 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

입력되는 다차원 데이터에서 성장 알고리즘과 가지 치기 알고리즘을 이용하여 생성된 의사 결정 나무를 T₁, ..., T_m이라 하고, e_i는 T_i의 교차 확인 에러라고 하자.

(1) 스텝 S101 : 각종 변수들을 초기화한다. 즉, e_i = 0, i = 1, 2, ..., m 으로 놓는다.

(2) 스텝 S102 : 주어진 n 개의 학습 자료를 k 등분하여 k 개의 상호 배반인 자료 D₁, D₂, ..., D_k를 생성한다.

(3) 스텝 S103 : D_i를 테스트 자료로 하고, 나머지 자료를 학습 자료로 한다.

(4) 스텝 S104 : 상기 학습 자료들을 이용하여 내포되는 의사 결정 나무들(성장과 가지 치기 알고리즘을 이용하여)을 구축한다.

(5) 스텝 S105 : 상기 구축된 의사 결정 나무들 각각에 대하여 테스트 자료(D_i)를 이용하여 예측 에러를 구한다.

(6) 스텝 S106 : 상기 구축된 의사 결정 나무 중 의사 결정 나무 T_j에 가장 근접한 의사 결정 나무를 선택한다. 이때, 선택하는 알고리즘은 'Breiman et al.(1984)'에 상세히 기재되어 있는 바, 여기서는 생략한다.

(7) 스텝 S107 : e_j에 상기 스텝 S106에서 구한 의사 결정 나무의 예측 에러를 더한다.

(8) 스텝 S108 : j = 1, ..., m번 반복한다.

(9) 스텝 S109 : i = 1, ..., k번 반복한다.

(10) 스텝 S110 : e₁, ..., e_m을 의사 결정 나무 T₁, ..., T_m 각각의 교차 확인 에러라 부르며, 이 교차 확인 에러가 가장 작은 의사 결정 나무를 최적의 의사 결정 나무로 선택한다.

한편, 이러한 교차 확인 알고리즘은 k 폴드 교차 확인 알고리즘이라고도 부르는데, 일반적으로 5 폴드 또는 10 폴드 교차 확인 방법이 주로 사용된다.

상술한 바와 같은 최적의 의사 결정 나무 구축을 위한 교차 확인 알고리즘은 의사 결정 나무를 여러 번 구축해야 한다. 따라서, 자료가 거대한 경우에는 계산 시간이 매우 길어지고, 그 결과가 자료를 어떻게 나누느냐에 따라 임의적으로 변동하는 문제점이 있다.

상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법을 제공하기 위한 것이다.

상기한 목적을 달성하기 위하여 본 발명에 따르면, 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치에 있어서, 다차원 자료(D_n) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, T_i)을 입력받는 입력 수단; 상기 입력 수단에 의하여 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 확률 계산 수단; 주어진 나무에 대한 사전 확률(Prior Probability), Pr(T_i)를 계산하는 사전 확률 계산 수단; 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 계산하는 사후 확률 계산 수단; 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 결정하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치를 제공한다.

또한, 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치의 최적 의사 결정 나무 선택 방법에 있어서, 상기 의사 결정 나무 선택 장치가 다차원 자료(D_n) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, T_i)을 입력받는 제 1 단계; 상기 의사 결정 나무 선택 장치가 상기 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 제 2 단계; 상기 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(T_i)를 계산하는 제 3 단계; 상기 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayes Theorem)에 따라 사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 계산하는 제 4 단계; 상기 의사 결정 나무 선택 장치가 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 제 5 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법을 제공한다.

보다 더 양호하게는, 각각의 최종 노드의 확률을 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산한다.

또한, 보다 더 양호하게는, 상기 기댓값은 일반 분포 또는 일양 분포(Uniform Distribution)를 이용하여 구한다.

또한, 보다 더 양호하게는, 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산한다.

또한, 보다 더 양호하게는 상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구한다.

이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치 및 그 방법을 보다 상세하게 설명하기로 한다.

본 발명에서는 상술한 교차 확인 방법의 문제점을 극복하기 위하여 새로운 알고리즘을 제안한다. 즉, 본 발명에서 제안하는 새로운 알고리즘은 교차 확인 방법을 사용하지 아니하고, TIC(Tree Information Criteria)라는 양을 새로 정의하고, 이를 이용함으로써, 보다 빠른 시간에 최적의 의사 결정 나무를 구축하게 된다.

TIC 알고리즘의 목적은 여러 개의 나무 순열, 즉, T₁, ..., T_m 중 최적의 나무를 결정하는 것이다. 이때, 각각의 나무의 사후 확률(Posterior Probability)을 계산하고, 이 사후 확률이 가장 큰 나무를 최적의 나무로 선택하게 된다.

사후 확률이란 주어진 자료에 대하여 각각의 나무의 확률을 의미한다. 즉, 나무 T_i의 사후 확률은 주어진 자료 D_n = {(y₁, x₁), ..., (y _n, x_n)}에 대하여 Pr(T_i｜D_n)이 된다.

도 2는 본 발명의 일 실시예에 따른 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

먼저, 스텝 S201에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S202에서, 상기 자료를 이용하여 최대 크기의 의사 결정 나무를 구축한다. 이어서, 스텝 S203에서, 상기 구축된 최대 크기 의사 결정 나무들을 가지 치기 이론을 이용하여 내포 의사 결정 나무(Nested Trees)들로 새롭게 생성한다.

그리고, 스텝 S204에서, 각각의 의사 결정 나무들의 사후 확률을 계산한 후, 스텝 S205에서, 최대 사후 확률을 가지는 의사 결정 나무를 선택하여, 스텝 S206에서, 단일화된 최적 의사 결정 나무를 최종적으로 구한다.

이하에서는 이러한 최적 의사 결정 나무를 선택하는 방법을 보다 상세하게 설명한다.

먼저, 사후 확률을 계산하는 일반적인 방법에 대하여 살펴 본다.

사후 확률은 베이지안 정리(Bayes Theorem)에 의하여 Pr(T_i｜D_n) = cPr(D_n｜T_i)Pr(T_i)가 되며, 이때 상기 Pr(D_n｜T_i)는 모형이 T_i일 때의 자료의 확률, Pr(T_i)는 자료를 보기 전에 사용자가 임의로 정한 확률, 그리고, c는 로 만드는 상수이다.

한편, 사후 확률을 구하는 목적은 사후 확률이 가장 큰 나무를 결정하기 위한 것으로서, 상기 상수 c는 구할 필요가 없으며, 아래의 [수학식 1]을 사용하기 로 한다.

Pr(D_n｜T_i)를 구하여 보자.

먼저, 자료가 독립이므로, 아래의 [수학식 2]가 성립한다.

또한, 상기 [수학식 2]는 아래의 [수학식 3]으로도 쓸 수 있다.

여기서, 나무 모형 T_i는 주어진 입력 x_k에 대하여 y_k의 확률 구조를 나타내는 모형이므로, Pr(x_k｜T_i)는 T_i에 의존하지 아니한다. 즉, Pr(x_k｜T _i) = Pr(x_k)이다. 따라서, Pr(D_n｜T_i)를 구하기 위하여는 Pr(y_k｜T_i, x_k)를 구하면 된다.

한편, 상수 c와 마찬가지로 Pr(x_k)는 모든 나무에 공통으로 적용되는 값으로서, 최대의 사후 확률을 가지는 나무를 찾는데는 필요하지 않다. 따라서, 이를 반영하여 수식으로 표현하면, 아래의 [수학식 4]가 된다.

상기 를 구하는 방법은 다음과 같다.

의 최종 노드들의 집합을 라 하자. 그리고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률을 라 하자. 그러면, 주어진 입력 변수 가 나무 의 h 번째 최종 노드에 속하는 경우, 아래의 [수학식 5]이 성립한다.

이때, 는 자료가 속하는 그룹을 나타낸다.

상술한 내용들을 이용하면, 아래의 [수학식 6]이 성립한다.

이때, 는 h 번째 최종 노드에 포함되는 자료 중, 그룹 j에 속하는 자료의 수이다.

각 최종 노드의 확률 가 모르는 변수이므로, 이를 기대값을 이용하여 제거한다. 기대값을 구하기 위하여는 의 분포가 필요한데, 이를 라 하자. 그러면, 아래의 [수학식 7]이 성립한다.

여기서, 로 여러 가지 분포를 사용할 수 있으며, 일반적인 분포를 사용하면, 아래의 [수학식 8]이 성립한다.

또한, 일양 분포를 사용하면, 아래의 [수학식 9]가 성립한다.

이때, 이다.

한편, 상기 일양 분포는 아래의 [수학식 10]과 같이 정의된다.

이하에서는 나무의 사전 확률(Prior Probability) 를 정하는 방법을 살펴 보자.

는 자료로부터 구하는 것이 아니라, 사용자가 입력하는 것이다.

TIC를 위한 는 다음과 같이 구축한다.

먼저, 각각의 주어진 h 번째 노드에서 그 노드가 중간 노드(즉, 계속해서 분기가 진행됨.)가 될 확률을 아래의 [수학식 11]과 같이 정의하자.

여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 와 는 사용자에 의하여 정하여 진다.

그러면, 주어진 노드가 최종 노드가 될 확률은 자연스럽게 아래의 [수학식 12]와 같이 결정된다.

상기 [수학식 12]와 같은 조건하에서 주어진 나무 의 사전 확률은 아래의 [수학식 13]과 같이 표현된다.

이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.

이제, 상술한 내용들을 이용하여 TIC를 계산해 보도록 하자.

상술한 수식을 모두 정리하면, 아래의 [수학식 14]로 최종 정리된다. 이때, 아래의 [수학식 14]는 일양 분포를 이용한 것이다.

그리고, 위의 마지막 식에 Log를 취한 값을 TIC로 정의한다. 즉, 나무 의 TIC는 아래의 [수학식 15]와 같이 표현된다.

그룹이 두 개인 경우, 즉, J = 2 인 경우의 TIC는 아래의 [수학식 16]과 같이 표현된다.

이때, 는 h 번째 최종 노드에 있는 자료 중, 두 번째 그룹에 속하는 자료의 수가 된다.

상술한 바와 같이 정의한 TIC를 각각의 의사 결정 나무 T₁, ..., T_m에 적용하여 TIC가 최대가 되는 의사 결정 나무를 최적의 의사 결정 나무로 선택함으로서, 본 알고리즘은 종료된다.

한편, 종래의 베이지안 정리를 이용하는 방법과 본 발명에서 제시하는 TIC 방법은 사후 확률을 이용한다는 측면에서는 같은 발명이나, 사후 확률을 구할 때 사용되는 사전 확률의 구축에 있어서 차이가 있다. 그리고, 이러한 차이는 사후 확률의 계산에 많은 영향을 미친다. 즉, 종래의 베이지안 정리를 이용하는 방법에서는 사후 확률이 수식으로 계산되지 아니하며, 이를 컴퓨터를 사용하여 계산하는데, 그 계산 시간이 교차 확인을 사용하는 방법보다 훨씬 오래 걸린다.

종래의 베이지안 정리를 이용하는 방법에서 사전 확률을 구축하는 방법은 가능한 모든 나무에 확률을 할당한다. 그런데, 가능한 모든 의사 결정 나무의 수는 엄청나게 많으므로, 사전 확률을 구축하는 방법 또한 매우 복잡하다. 그리고, 필연적으로, 사후 확률을 구하여야 하는 의사 결정 나무의 수도 크게 증가하게 되고, 이는 곧 계산량의 폭증으로 이어진다.

그러나, TIC 방법은 종래의 베이지안 정리를 이용하는 방법의 문제점을 해결한 것으로서, 사전 확률을 가능한 모든 의사 결정 나무에 할당하는 것이 아니라, 가지 치기 알고리즘으로부터 도출된 내포되는 의사 결정 나무에만 할당한다. 따라서, 사전 확률을 구축하는 방법이 매우 쉽고, 사후 확률의 계산 또한 간단해 진다는 효과가 있다.

즉, TIC 방법에서 사용하는 사전 확률 구축 방법은 자료를 이용하여 의사 결정 나무들의 집합을 줄이는 방법으로서, 이 부분이 종래의 베이지안 정리를 이용한 방법과 결정적으로 다른 부분이다.

정리하면, TIC를 이용하는 방법은 의사 결정 나무를 한번만 구축하면 되므로, 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상된다. 또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다.

아래의 [표 1]은 종래의 5 폴드 교차 확인 방법과 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무의 선택 방법의 시뮬레이션 결과를 보여준다.

즉, 본 실험 데이터는 5 폴드 교차 확인을 통한 단일 나무(Single Tree)의 생성과 본 발명에서 제안하는 TIC를 이용한 싱글 트리의 생성 속도를 비교하기 위한 데이터이다.

각각의 실험 데이터는 평균 동일한 데이터를 반복 횟수 500 번씩 생성할 때의 평균 시간을 나타내며, 컴퓨터의 사양은 펜티엄 3 900 MHz, 메인 메모리 256 메가 바이트, 운영 체제는 윈도우 2000 이다.

아래의 [표 1]에 의하면, 본 발명에서 제안하는 TIC 방법은 종래의 5 폴드 교차 확인 방법에 비하여 대략 1/5의 계산 시간만이 소요됨을 알 수 있다.

한편, 시뮬레이션 자료는 데이터마이닝에서 널리 알려져 있는 표준 자료에 해당하는 바, 각각 'Radius2', 'Interaction', 'Breast Cancer', 'Ionosphere' 및 'Sonar' 자료로서, 본 기술 분야에서는 데이터마이닝의 효율을 가늠하는 가장 유력한 시뮬레이션 자료이다. 본 시뮬레이션 자료는 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에 상세하게 나와 있다.

[표 1]

데이터	5폴드 교차확인	TIC
데이터	평균 소요 시간	평균 소요 시간
radius2	235.4 msec	43.2 msec
interaction	228.6 msec	43.3 msec
breast cancer	128.3 msec	25.6 msec
ionosphere	182.9 msec	34.4 msec
sonar	259.3 msec	46.6 msec

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상과 같이 본 발명에 의하면, TIC라는 새로운 양을 정의하고, 이를 이용하여 최적의 의사 결정 나무를 선택하는 방법을 제공함으로써, 의사 결정 나무를 한번만 구축하게끔 하여 종래의 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상되는 효과가 있다.

또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다는 효과가 있다.

도 1은 종래의 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도이고,

도 2는 본 발명의 일 실시예에 따른 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도이다.

Claims

데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치에 있어서,

다차원 자료(D_n) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, T_i)을 입력받는 입력 수단;

상기 입력 수단에 의하여 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 확률 계산 수단;

상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(T_i)를 계산하는 사전 확률 계산 수단;

상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 계산하는 사후 확률 계산 수단;

상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 결정하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 1 항에 있어서,

상기 입력 수단은,

학습 데이터를 입력받는 학습 데이터 입력 수단;

상기 입력된 학습 데이터로부터 최대 크기를 가지는 의사 결정 나무를 구축하는 의사 결정 나무 구축 수단; 및

상기 구축된 의사 결정 나무를 가지 치기 이론을 이용하여 내포 의사 결정 나무들로 구축하는 내포 의사 결정 나무 구축 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 1 항에 있어서,

상기 확률 계산 수단은,

상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)를 아래의 [식 1]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 1]

여기서, x_k 및 y_k는 상기 입력되는 다차원 자료 D_n = {(y₁, x₁), ..., (y_n, x_n)}의 구성 요소이고, 나무 모형 T_i는 주어진 입력 x_k에 대하여 y_k의 확률 구조를 나타내는 모형이다.
제 3 항에 있어서,

상기 확률 계산 수단은,

주어진 입력 변수 x_k가 나무 T_i의 h 번째 최종 노드에 속하는 경우에 아래의 [식 2]가 성립하는 것을 이용하여 Pr(y_k｜T_i, x_k)를 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 2]

여기서, y_k는 자료가 속하는 그룹이고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률은 (p_1h, ..., p_Jh)이다.
제 4 항에 있어서,

각각의 최종 노드의 확률, (p_1h, ..., p_Jh)를 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 5 항에 있어서,

분포(Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 5 항에 있어서,

일양 분포(Uniform Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 7 항에 있어서,

상기 확률 계산 수단은,

상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)를 아래의 [식 3]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 3]

이때, 이다.
제 1 항에 있어서,

상기 사전 확률 계산 수단은,

각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 9 항에 있어서,

각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률은 아래의 [식 4]에 의하여 결정되는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 4]

여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 와 는 기설정된 상수이다.
제 10 항에 있어서,

상기 사전 확률은 아래의 [식 5]에 의하여 결정되는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 5]

이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
제 1 항에 있어서,

상기 사후 확률 계산 수단은,

사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 아래의 [식 6]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 6]
제 1 항에 있어서,

상기 의사 결정 나무 선택 수단은,

상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
제 13 항에 있어서,

상기 TIC는 아래의 [식 7]인 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.

[식 7]
데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치의 최적 의사 결정 나무 선택 방법에 있어서,

상기 최적 의사 결정 나무 선택 장치가 다차원 자료(D_n) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, T_i)을 입력받는 제 1 단계;

상기 최적 의사 결정 나무 선택 장치가 상기 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 제 2 단계;

상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(T_i)를 계산하는 제 3 단계;

상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayes Theorem)에 따라 사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 계산하는 제 4 단계;

상기 최적 의사 결정 나무 선택 장치가 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 제 5 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 15 항에 있어서,

상기 제 1 단계는,

상기 최적 의사 결정 나무 선택 장치가 학습 데이터를 입력받는 서브 단계;

상기 최적 의사 결정 나무 선택 장치가 상기 입력된 학습 데이터로부터 최대 크기를 가지는 의사 결정 나무를 구축하는 서브 단계; 및

상기 최적 의사 결정 나무 선택 장치가 상기 구축된 의사 결정 나무를 가지 치기 이론을 이용하여 내포 의사 결정 나무들로 구축하는 서브 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 15 항에 있어서,

상기 제 2 단계는,

상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)를 아래의 [식 8]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 8]

여기서, x_k 및 y_k는 상기 입력되는 다차원 자료 D_n = {(y₁, x₁), ..., (y_n, x_n)}의 구성 요소이고, 나무 모형 T_i는 주어진 입력 x_k에 대하여 y_k의 확률 구조를 나타내는 모형이다.
제 17 항에 있어서,

상기 제 2 단계는,

상기 최적 의사 결정 나무 선택 장치가 상기 주어진 입력 변수 x_k가 나무 T_i의 h 번째 최종 노드에 속하는 경우에 아래의 [식 9]가 성립하는 것을 이용하여 Pr(y_k｜T_i, x_k)를 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 9]

여기서, y_k는 자료가 속하는 그룹이고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률은 (p_1h, ..., p_Jh)이다.
제 18 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 각각의 최종 노드의 확률, (p_1h, ..., p_Jh)를 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 19 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 분포(Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 19 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 일양 분포(Uniform Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 21 항에 있어서,

상기 제 2 단계는,

상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(D_n｜T_i)를 아래의 [식 10]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 10]

이때, 이다.
제 15 항에 있어서,

상기 제 3 단계는,

상기 최적 의사 결정 나무 선택 장치가 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 23 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 아래의 [식 11]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 11]

여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 와 는 기설정된 상수이다.
제 24 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 상기 사전 확률을 아래의 [식 12]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 12]

이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
제 15 항에 있어서,

상기 제 4 단계는,

상기 최적 의사 결정 나무 선택 장치가 상기 사후 확률(Posterior Prabability), Pr(T_i｜D_n)을 아래의 [식 13]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 13]
제 15 항에 있어서,

상기 제 5 단계는,

상기 최적 의사 결정 나무 선택 장치가 상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
제 27 항에 있어서,

상기 최적 의사 결정 나무 선택 장치가 상기 TIC를 아래의 [식 14]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.

[식 14]