KR100497211B1 - 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법 - Google Patents

데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법 Download PDF

Info

Publication number
KR100497211B1
KR100497211B1 KR10-2002-0011207A KR20020011207A KR100497211B1 KR 100497211 B1 KR100497211 B1 KR 100497211B1 KR 20020011207 A KR20020011207 A KR 20020011207A KR 100497211 B1 KR100497211 B1 KR 100497211B1
Authority
KR
South Korea
Prior art keywords
decision tree
tree
probability
given
equation
Prior art date
Application number
KR10-2002-0011207A
Other languages
English (en)
Other versions
KR20030071938A (ko
Inventor
김용대
Original Assignee
(주)비엘시스템스
김용대
전종우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)비엘시스템스, 김용대, 전종우 filed Critical (주)비엘시스템스
Priority to KR10-2002-0011207A priority Critical patent/KR100497211B1/ko
Priority to PCT/KR2003/000407 priority patent/WO2003075182A1/en
Priority to AU2003208644A priority patent/AU2003208644A1/en
Publication of KR20030071938A publication Critical patent/KR20030071938A/ko
Application granted granted Critical
Publication of KR100497211B1 publication Critical patent/KR100497211B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 최적의 의사 결정 나무 구축에 있어서, 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법에 관한 것이다.
본 발명에 따르면, 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률을 계산하는 확률 계산 수단; 주어진 나무에 대한 사전 확률을 계산하는 사전 확률 계산 수단; 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률을 계산하는 사후 확률 계산 수단; 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 앙상블 기법에 적용되는 최적 의사 결정 나무 선택 장치가 제공된다.

Description

데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치 및 그 방법 {Apparatus and method for optimal decision tree selection}
본 발명은 데이터 마이닝(Data Mining)을 위한 최적의 의사 결정 나무(Decision Tree)를 선택하는 장치 및 방법에 관한 것으로서, 보다 상세하게는, 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법에 관한 것이다.
1. 서설
데이터 마이닝 기술 분야에서 앙상블 알고리즘은 'Breiman'의 배깅(Bagging) 기법을 효시로 하여 최근까지 많은 연구가 진행되고 있다. 특히, 배깅 기법을 근간으로 'Freund and Schapire'의 '부스팅(Boosting) 알고리즘', 'Breiman'의 아킹(Arcing) 알고리즘', 'Breiman'의 '랜덤 포레스트(Random Forest) 알고리즘' 및 'Friedman'의 '그래디언트 부스팅(Gradient Boosting) 알고리즘' 등의 앙상블 알고리즘이 제안되었다.
이러한 앙상블 알고리즘은 기본 학습기 여러 개를 융합하여 새로운 학습기를 생성하는 것이다. 또한, 해석력이 가장 뛰어나다고 알려져 있는 기본 학습기로는 의사 결정 나무가 있다.
데이터 마이닝 기술 분야의 앙상블 알고리즘에 의사 결정 나무를 기본 학습기로 사용하기 위해서는 빠른 계산이 필수적이다.
일반적으로 현재 널리 알려진 의사 결정 나무 구축 알고리즘은 'Breiman'이 제시한 카트 알고리즘(CART Algorithm, Breiman et al., 1986)이다. 카트 알고리즘의 경우에는, 나무의 성장, 가지 치기 및 최적 의사 결정 나무 선택의 3 단계로 이루어진다.
이때, 세 번째 단계인 최적 나무 모형을 선택하는 알고리즘은 교차 확인(Cross Validation) 기법을 사용하는데, 이 기법은 많은 계산량을 요구한다. 하나의 의사 결정 나무를 생성하기 위하여 교차 확인에 필요한 계산량은 그리 부담이 되지 않지만, 앙상블 기법에서는 여러 개의 의사 결정 나무를 생성하기 때문에, 모든 의사 결정 나무에 교차 확인 기법을 적용하는 것은 계산량의 폭증을 필연적으로 수반하게 된다.
이러한 종래의 의사 결정 나무 구축 알고리즘을 개략적으로 살펴 보고, 최적의 의사 결정 나무를 선택하기 위하여 종래에 가장 널리 알려진 교차 확인 방법을 살펴 보자.
2. 의사 결정 나무 구축 알고리즘(Breiman et al., 1984)
'Breiman'이 제시한 의사 결정 나무 구축 알고리즘은 크게는 삼단계로 나눌 수 있다.
첫째는 성장 알고리즘으로서, 주어진 자료에 대하여 가장 큰 크기의 의사 결정 나무를 생성하는 단계이다.
둘째는 가지 치기 알고리즘으로서, 상기 성장 알고리즘을 통하여 구축한 거대한 의사 결정 나무에서 불필요한 가지를 순서대로 삭제함으로써, 내포되는 여러개의 의사 결정 나무들을 생성하는 단계이다. 이때, 구축된 의사 결정 나무들은 점점 그 크기가 작아진다.
셋째는 최적 나무 선택 알고리즘으로서, 상기 가지 치기 알고리즘으로 구한 의사 결정 나무 중 최적의 의사 결정 나무를 선택하는 단계이다.
본 발명은 상기 최적 나무 선택 알고리즘, 즉, 세 번째 단계에 적용되는 알고리즘이다.
3. 최적 의사 결정 나무 선택을 위한 교차 확인 알고리즘(k 폴드 교차 확인)
도 1은 종래의 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
입력되는 다차원 데이터에서 성장 알고리즘과 가지 치기 알고리즘을 이용하여 생성된 의사 결정 나무를 T1, ..., Tm이라 하고, ei는 Ti의 교차 확인 에러라고 하자.
(1) 스텝 S101 : 각종 변수들을 초기화한다. 즉, ei = 0, i = 1, 2, ..., m 으로 놓는다.
(2) 스텝 S102 : 주어진 n 개의 학습 자료를 k 등분하여 k 개의 상호 배반인 자료 D1, D2, ..., Dk를 생성한다.
(3) 스텝 S103 : Di를 테스트 자료로 하고, 나머지 자료를 학습 자료로 한다.
(4) 스텝 S104 : 상기 학습 자료들을 이용하여 내포되는 의사 결정 나무들(성장과 가지 치기 알고리즘을 이용하여)을 구축한다.
(5) 스텝 S105 : 상기 구축된 의사 결정 나무들 각각에 대하여 테스트 자료(Di)를 이용하여 예측 에러를 구한다.
(6) 스텝 S106 : 상기 구축된 의사 결정 나무 중 의사 결정 나무 Tj에 가장 근접한 의사 결정 나무를 선택한다. 이때, 선택하는 알고리즘은 'Breiman et al.(1984)'에 상세히 기재되어 있는 바, 여기서는 생략한다.
(7) 스텝 S107 : ej에 상기 스텝 S106에서 구한 의사 결정 나무의 예측 에러를 더한다.
(8) 스텝 S108 : j = 1, ..., m번 반복한다.
(9) 스텝 S109 : i = 1, ..., k번 반복한다.
(10) 스텝 S110 : e1, ..., em을 의사 결정 나무 T1, ..., Tm 각각의 교차 확인 에러라 부르며, 이 교차 확인 에러가 가장 작은 의사 결정 나무를 최적의 의사 결정 나무로 선택한다.
한편, 이러한 교차 확인 알고리즘은 k 폴드 교차 확인 알고리즘이라고도 부르는데, 일반적으로 5 폴드 또는 10 폴드 교차 확인 방법이 주로 사용된다.
상술한 바와 같은 최적의 의사 결정 나무 구축을 위한 교차 확인 알고리즘은 의사 결정 나무를 여러 번 구축해야 한다. 따라서, 자료가 거대한 경우에는 계산 시간이 매우 길어지고, 그 결과가 자료를 어떻게 나누느냐에 따라 임의적으로 변동하는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 종래의 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 사후 확률(Posterior Probability)을 이용하여 TIC(Tree Information Criteria)라는 새로운 양을 정의한 후, TIC 값에 근간을 둔 최적의 의사 결정 나무를 선택하는 장치 및 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위하여 본 발명에 따르면, 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치에 있어서, 다차원 자료(Dn) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, Ti)을 입력받는 입력 수단; 상기 입력 수단에 의하여 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 확률 계산 수단; 주어진 나무에 대한 사전 확률(Prior Probability), Pr(Ti)를 계산하는 사전 확률 계산 수단; 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률(Posterior Prabability), Pr(Ti|Dn)을 계산하는 사후 확률 계산 수단; 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 결정하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치를 제공한다.
또한, 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치의 최적 의사 결정 나무 선택 방법에 있어서, 상기 의사 결정 나무 선택 장치가 다차원 자료(Dn) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, Ti)을 입력받는 제 1 단계; 상기 의사 결정 나무 선택 장치가 상기 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 제 2 단계; 상기 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(Ti)를 계산하는 제 3 단계; 상기 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayes Theorem)에 따라 사후 확률(Posterior Prabability), Pr(Ti|Dn)을 계산하는 제 4 단계; 상기 의사 결정 나무 선택 장치가 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 제 5 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법을 제공한다.
보다 더 양호하게는, 각각의 최종 노드의 확률을 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산한다.
또한, 보다 더 양호하게는, 상기 기댓값은 일반 분포 또는 일양 분포(Uniform Distribution)를 이용하여 구한다.
또한, 보다 더 양호하게는, 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산한다.
또한, 보다 더 양호하게는 상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구한다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치 및 그 방법을 보다 상세하게 설명하기로 한다.
본 발명에서는 상술한 교차 확인 방법의 문제점을 극복하기 위하여 새로운 알고리즘을 제안한다. 즉, 본 발명에서 제안하는 새로운 알고리즘은 교차 확인 방법을 사용하지 아니하고, TIC(Tree Information Criteria)라는 양을 새로 정의하고, 이를 이용함으로써, 보다 빠른 시간에 최적의 의사 결정 나무를 구축하게 된다.
TIC 알고리즘의 목적은 여러 개의 나무 순열, 즉, T1, ..., Tm 중 최적의 나무를 결정하는 것이다. 이때, 각각의 나무의 사후 확률(Posterior Probability)을 계산하고, 이 사후 확률이 가장 큰 나무를 최적의 나무로 선택하게 된다.
사후 확률이란 주어진 자료에 대하여 각각의 나무의 확률을 의미한다. 즉, 나무 Ti의 사후 확률은 주어진 자료 Dn = {(y1, x1), ..., (y n, xn)}에 대하여 Pr(Ti|Dn)이 된다.
도 2는 본 발명의 일 실시예에 따른 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
먼저, 스텝 S201에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S202에서, 상기 자료를 이용하여 최대 크기의 의사 결정 나무를 구축한다. 이어서, 스텝 S203에서, 상기 구축된 최대 크기 의사 결정 나무들을 가지 치기 이론을 이용하여 내포 의사 결정 나무(Nested Trees)들로 새롭게 생성한다.
그리고, 스텝 S204에서, 각각의 의사 결정 나무들의 사후 확률을 계산한 후, 스텝 S205에서, 최대 사후 확률을 가지는 의사 결정 나무를 선택하여, 스텝 S206에서, 단일화된 최적 의사 결정 나무를 최종적으로 구한다.
이하에서는 이러한 최적 의사 결정 나무를 선택하는 방법을 보다 상세하게 설명한다.
먼저, 사후 확률을 계산하는 일반적인 방법에 대하여 살펴 본다.
사후 확률은 베이지안 정리(Bayes Theorem)에 의하여 Pr(Ti|Dn) = cPr(Dn|Ti)Pr(Ti)가 되며, 이때 상기 Pr(Dn|Ti)는 모형이 Ti일 때의 자료의 확률, Pr(Ti)는 자료를 보기 전에 사용자가 임의로 정한 확률, 그리고, c는 로 만드는 상수이다.
한편, 사후 확률을 구하는 목적은 사후 확률이 가장 큰 나무를 결정하기 위한 것으로서, 상기 상수 c는 구할 필요가 없으며, 아래의 [수학식 1]을 사용하기 로 한다.
Pr(Dn|Ti)를 구하여 보자.
먼저, 자료가 독립이므로, 아래의 [수학식 2]가 성립한다.
또한, 상기 [수학식 2]는 아래의 [수학식 3]으로도 쓸 수 있다.
여기서, 나무 모형 Ti는 주어진 입력 xk에 대하여 yk의 확률 구조를 나타내는 모형이므로, Pr(xk|Ti)는 Ti에 의존하지 아니한다. 즉, Pr(xk|T i) = Pr(xk)이다. 따라서, Pr(Dn|Ti)를 구하기 위하여는 Pr(yk|Ti, xk )를 구하면 된다.
한편, 상수 c와 마찬가지로 Pr(xk)는 모든 나무에 공통으로 적용되는 값으로서, 최대의 사후 확률을 가지는 나무를 찾는데는 필요하지 않다. 따라서, 이를 반영하여 수식으로 표현하면, 아래의 [수학식 4]가 된다.
상기 를 구하는 방법은 다음과 같다.
의 최종 노드들의 집합을 라 하자. 그리고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률을 라 하자. 그러면, 주어진 입력 변수 가 나무 의 h 번째 최종 노드에 속하는 경우, 아래의 [수학식 5]이 성립한다.
이때, 는 자료가 속하는 그룹을 나타낸다.
상술한 내용들을 이용하면, 아래의 [수학식 6]이 성립한다.
이때, 는 h 번째 최종 노드에 포함되는 자료 중, 그룹 j에 속하는 자료의 수이다.
각 최종 노드의 확률 가 모르는 변수이므로, 이를 기대값을 이용하여 제거한다. 기대값을 구하기 위하여는 의 분포가 필요한데, 이를 라 하자. 그러면, 아래의 [수학식 7]이 성립한다.
여기서, 로 여러 가지 분포를 사용할 수 있으며, 일반적인 분포를 사용하면, 아래의 [수학식 8]이 성립한다.
또한, 일양 분포를 사용하면, 아래의 [수학식 9]가 성립한다.
이때, 이다.
한편, 상기 일양 분포는 아래의 [수학식 10]과 같이 정의된다.
이하에서는 나무의 사전 확률(Prior Probability) 를 정하는 방법을 살펴 보자.
는 자료로부터 구하는 것이 아니라, 사용자가 입력하는 것이다.
TIC를 위한 는 다음과 같이 구축한다.
먼저, 각각의 주어진 h 번째 노드에서 그 노드가 중간 노드(즉, 계속해서 분기가 진행됨.)가 될 확률을 아래의 [수학식 11]과 같이 정의하자.
여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 는 사용자에 의하여 정하여 진다.
그러면, 주어진 노드가 최종 노드가 될 확률은 자연스럽게 아래의 [수학식 12]와 같이 결정된다.
상기 [수학식 12]와 같은 조건하에서 주어진 나무 의 사전 확률은 아래의 [수학식 13]과 같이 표현된다.
이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
이제, 상술한 내용들을 이용하여 TIC를 계산해 보도록 하자.
상술한 수식을 모두 정리하면, 아래의 [수학식 14]로 최종 정리된다. 이때, 아래의 [수학식 14]는 일양 분포를 이용한 것이다.
그리고, 위의 마지막 식에 Log를 취한 값을 TIC로 정의한다. 즉, 나무 의 TIC는 아래의 [수학식 15]와 같이 표현된다.
그룹이 두 개인 경우, 즉, J = 2 인 경우의 TIC는 아래의 [수학식 16]과 같이 표현된다.
이때, 는 h 번째 최종 노드에 있는 자료 중, 두 번째 그룹에 속하는 자료의 수가 된다.
상술한 바와 같이 정의한 TIC를 각각의 의사 결정 나무 T1, ..., Tm에 적용하여 TIC가 최대가 되는 의사 결정 나무를 최적의 의사 결정 나무로 선택함으로서, 본 알고리즘은 종료된다.
한편, 종래의 베이지안 정리를 이용하는 방법과 본 발명에서 제시하는 TIC 방법은 사후 확률을 이용한다는 측면에서는 같은 발명이나, 사후 확률을 구할 때 사용되는 사전 확률의 구축에 있어서 차이가 있다. 그리고, 이러한 차이는 사후 확률의 계산에 많은 영향을 미친다. 즉, 종래의 베이지안 정리를 이용하는 방법에서는 사후 확률이 수식으로 계산되지 아니하며, 이를 컴퓨터를 사용하여 계산하는데, 그 계산 시간이 교차 확인을 사용하는 방법보다 훨씬 오래 걸린다.
종래의 베이지안 정리를 이용하는 방법에서 사전 확률을 구축하는 방법은 가능한 모든 나무에 확률을 할당한다. 그런데, 가능한 모든 의사 결정 나무의 수는 엄청나게 많으므로, 사전 확률을 구축하는 방법 또한 매우 복잡하다. 그리고, 필연적으로, 사후 확률을 구하여야 하는 의사 결정 나무의 수도 크게 증가하게 되고, 이는 곧 계산량의 폭증으로 이어진다.
그러나, TIC 방법은 종래의 베이지안 정리를 이용하는 방법의 문제점을 해결한 것으로서, 사전 확률을 가능한 모든 의사 결정 나무에 할당하는 것이 아니라, 가지 치기 알고리즘으로부터 도출된 내포되는 의사 결정 나무에만 할당한다. 따라서, 사전 확률을 구축하는 방법이 매우 쉽고, 사후 확률의 계산 또한 간단해 진다는 효과가 있다.
즉, TIC 방법에서 사용하는 사전 확률 구축 방법은 자료를 이용하여 의사 결정 나무들의 집합을 줄이는 방법으로서, 이 부분이 종래의 베이지안 정리를 이용한 방법과 결정적으로 다른 부분이다.
정리하면, TIC를 이용하는 방법은 의사 결정 나무를 한번만 구축하면 되므로, 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상된다. 또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다.
아래의 [표 1]은 종래의 5 폴드 교차 확인 방법과 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무의 선택 방법의 시뮬레이션 결과를 보여준다.
즉, 본 실험 데이터는 5 폴드 교차 확인을 통한 단일 나무(Single Tree)의 생성과 본 발명에서 제안하는 TIC를 이용한 싱글 트리의 생성 속도를 비교하기 위한 데이터이다.
각각의 실험 데이터는 평균 동일한 데이터를 반복 횟수 500 번씩 생성할 때의 평균 시간을 나타내며, 컴퓨터의 사양은 펜티엄 3 900 MHz, 메인 메모리 256 메가 바이트, 운영 체제는 윈도우 2000 이다.
아래의 [표 1]에 의하면, 본 발명에서 제안하는 TIC 방법은 종래의 5 폴드 교차 확인 방법에 비하여 대략 1/5의 계산 시간만이 소요됨을 알 수 있다.
한편, 시뮬레이션 자료는 데이터마이닝에서 널리 알려져 있는 표준 자료에 해당하는 바, 각각 'Radius2', 'Interaction', 'Breast Cancer', 'Ionosphere' 및 'Sonar' 자료로서, 본 기술 분야에서는 데이터마이닝의 효율을 가늠하는 가장 유력한 시뮬레이션 자료이다. 본 시뮬레이션 자료는 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에 상세하게 나와 있다.
[표 1]
데이터 5폴드 교차확인 TIC
평균 소요 시간 평균 소요 시간
radius2 235.4 msec 43.2 msec
interaction 228.6 msec 43.3 msec
breast cancer 128.3 msec 25.6 msec
ionosphere 182.9 msec 34.4 msec
sonar 259.3 msec 46.6 msec
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, TIC라는 새로운 양을 정의하고, 이를 이용하여 최적의 의사 결정 나무를 선택하는 방법을 제공함으로써, 의사 결정 나무를 한번만 구축하게끔 하여 종래의 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상되는 효과가 있다.
또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다는 효과가 있다.
도 1은 종래의 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도이고,
도 2는 본 발명의 일 실시예에 따른 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도이다.

Claims (28)

  1. 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치에 있어서,
    다차원 자료(Dn) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, Ti)을 입력받는 입력 수단;
    상기 입력 수단에 의하여 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 확률 계산 수단;
    상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(Ti)를 계산하는 사전 확률 계산 수단;
    상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayesian Theorem)에 따라 사후 확률(Posterior Prabability), Pr(Ti|Dn)을 계산하는 사후 확률 계산 수단;
    상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 결정하는 의사 결정 나무 선택 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  2. 제 1 항에 있어서,
    상기 입력 수단은,
    학습 데이터를 입력받는 학습 데이터 입력 수단;
    상기 입력된 학습 데이터로부터 최대 크기를 가지는 의사 결정 나무를 구축하는 의사 결정 나무 구축 수단; 및
    상기 구축된 의사 결정 나무를 가지 치기 이론을 이용하여 내포 의사 결정 나무들로 구축하는 내포 의사 결정 나무 구축 수단을 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  3. 제 1 항에 있어서,
    상기 확률 계산 수단은,
    상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)를 아래의 [식 1]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 1]
    여기서, xk 및 yk는 상기 입력되는 다차원 자료 Dn = {(y1, x1), ..., (yn, xn)}의 구성 요소이고, 나무 모형 Ti는 주어진 입력 xk에 대하여 yk 의 확률 구조를 나타내는 모형이다.
  4. 제 3 항에 있어서,
    상기 확률 계산 수단은,
    주어진 입력 변수 xk가 나무 Ti의 h 번째 최종 노드에 속하는 경우에 아래의 [식 2]가 성립하는 것을 이용하여 Pr(yk|Ti, xk)를 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 2]
    여기서, yk는 자료가 속하는 그룹이고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률은 (p1h, ..., pJh)이다.
  5. 제 4 항에 있어서,
    각각의 최종 노드의 확률, (p1h, ..., pJh)를 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  6. 제 5 항에 있어서,
    분포(Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  7. 제 5 항에 있어서,
    일양 분포(Uniform Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  8. 제 7 항에 있어서,
    상기 확률 계산 수단은,
    상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)를 아래의 [식 3]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 3]
    이때, 이다.
  9. 제 1 항에 있어서,
    상기 사전 확률 계산 수단은,
    각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  10. 제 9 항에 있어서,
    각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률은 아래의 [식 4]에 의하여 결정되는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 4]
    여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 는 기설정된 상수이다.
  11. 제 10 항에 있어서,
    상기 사전 확률은 아래의 [식 5]에 의하여 결정되는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 5]
    이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
  12. 제 1 항에 있어서,
    상기 사후 확률 계산 수단은,
    사후 확률(Posterior Prabability), Pr(Ti|Dn)을 아래의 [식 6]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 6]
  13. 제 1 항에 있어서,
    상기 의사 결정 나무 선택 수단은,
    상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
  14. 제 13 항에 있어서,
    상기 TIC는 아래의 [식 7]인 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 장치.
    [식 7]
  15. 데이터 마이닝(Data Mining)을 위한 최적 의사 결정 나무(Decision Tree) 선택 장치의 최적 의사 결정 나무 선택 방법에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 다차원 자료(Dn) 및 이를 이용하여 구축된 다수의 내포 의사 결정 나무들(Nested Decision Trees, Ti)을 입력받는 제 1 단계;
    상기 최적 의사 결정 나무 선택 장치가 상기 입력된 다차원 자료 및 내포 의사 결정 나무들을 이용하여 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 제 2 단계;
    상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 사전 확률(Prior Probability), Pr(Ti)를 계산하는 제 3 단계;
    상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률 및 주어진 나무에 대한 사전 확률을 이용하여 베이지안 정리(Bayes Theorem)에 따라 사후 확률(Posterior Prabability), Pr(Ti|Dn)을 계산하는 제 4 단계;
    상기 최적 의사 결정 나무 선택 장치가 상기 각각의 나무에 대한 사후 확률이 가장 큰 의사 결정 나무를 선택하여, 단일화된 최적 의사 결정 나무를 구하는 제 5 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  16. 제 15 항에 있어서,
    상기 제 1 단계는,
    상기 최적 의사 결정 나무 선택 장치가 학습 데이터를 입력받는 서브 단계;
    상기 최적 의사 결정 나무 선택 장치가 상기 입력된 학습 데이터로부터 최대 크기를 가지는 의사 결정 나무를 구축하는 서브 단계; 및
    상기 최적 의사 결정 나무 선택 장치가 상기 구축된 의사 결정 나무를 가지 치기 이론을 이용하여 내포 의사 결정 나무들로 구축하는 서브 단계를 포함하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  17. 제 15 항에 있어서,
    상기 제 2 단계는,
    상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)를 아래의 [식 8]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 8]
    여기서, xk 및 yk는 상기 입력되는 다차원 자료 Dn = {(y1, x1), ..., (yn, xn)}의 구성 요소이고, 나무 모형 Ti는 주어진 입력 xk에 대하여 yk의 확률 구조를 나타내는 모형이다.
  18. 제 17 항에 있어서,
    상기 제 2 단계는,
    상기 최적 의사 결정 나무 선택 장치가 상기 주어진 입력 변수 xk가 나무 Ti의 h 번째 최종 노드에 속하는 경우에 아래의 [식 9]가 성립하는 것을 이용하여 Pr(yk|Ti, xk)를 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 9]
    여기서, yk는 자료가 속하는 그룹이고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률은 (p1h, ..., pJh)이다.
  19. 제 18 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 각각의 최종 노드의 확률, (p1h, ..., pJh)를 기대값을 이용하여 제거함으로써, 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  20. 제 19 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 분포(Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  21. 제 19 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 일양 분포(Uniform Distribution)를 이용하여 상기 기대값을 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  22. 제 21 항에 있어서,
    상기 제 2 단계는,
    상기 최적 의사 결정 나무 선택 장치가 상기 주어진 나무에 대한 다차원 자료 각각의 확률, Pr(Dn|Ti)를 아래의 [식 10]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 10]
    이때, 이다.
  23. 제 15 항에 있어서,
    상기 제 3 단계는,
    상기 최적 의사 결정 나무 선택 장치가 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 계산하고, 이를 이용하여 사전 확률을 계산하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  24. 제 23 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 각각의 주어진 h 번째 노드에서 상기 노드가, 계속해서 분기해 나감으로써 생성되는 중간 노드가 될 확률을 아래의 [식 11]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 11]
    여기서, 는 주어진 노드의 조상 노드들의 수이고, 상수 는 기설정된 상수이다.
  25. 제 24 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 상기 사전 확률을 아래의 [식 12]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 12]
    이 때, 는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
  26. 제 15 항에 있어서,
    상기 제 4 단계는,
    상기 최적 의사 결정 나무 선택 장치가 상기 사후 확률(Posterior Prabability), Pr(Ti|Dn)을 아래의 [식 13]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 13]
  27. 제 15 항에 있어서,
    상기 제 5 단계는,
    상기 최적 의사 결정 나무 선택 장치가 상기 사후 확률에 로그(Log)를 취한 값, TIC(Tree Information Criteria)가 최대가 되는 의사 결정 나무를 선택하여 단일화된 최적 의사 결정 나무를 구하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
  28. 제 27 항에 있어서,
    상기 최적 의사 결정 나무 선택 장치가 상기 TIC를 아래의 [식 14]에 의하여 결정하는 것을 특징으로 하는 데이터 마이닝을 위한 최적 의사 결정 나무 선택 방법.
    [식 14]
KR10-2002-0011207A 2002-03-02 2002-03-02 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법 KR100497211B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR10-2002-0011207A KR100497211B1 (ko) 2002-03-02 2002-03-02 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법
PCT/KR2003/000407 WO2003075182A1 (en) 2002-03-02 2003-03-03 Apparatus and method for selecting an optimal decision tree for data mining
AU2003208644A AU2003208644A1 (en) 2002-03-02 2003-03-03 Apparatus and method for selecting an optimal decision tree for data mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0011207A KR100497211B1 (ko) 2002-03-02 2002-03-02 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법

Publications (2)

Publication Number Publication Date
KR20030071938A KR20030071938A (ko) 2003-09-13
KR100497211B1 true KR100497211B1 (ko) 2005-06-23

Family

ID=27785963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0011207A KR100497211B1 (ko) 2002-03-02 2002-03-02 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법

Country Status (3)

Country Link
KR (1) KR100497211B1 (ko)
AU (1) AU2003208644A1 (ko)
WO (1) WO2003075182A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199484A1 (en) * 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
CN100362755C (zh) * 2004-06-28 2008-01-16 华为技术有限公司 一种符号的估计方法
KR100860410B1 (ko) * 2006-11-09 2008-09-26 한국전자통신연구원 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법
CN104142982A (zh) * 2014-07-16 2014-11-12 中国矿业大学 基于巷道选择的安全规则集约简方法
US10356117B2 (en) 2017-07-13 2019-07-16 Cisco Technology, Inc. Bayesian tree aggregation in decision forests to increase detection of rare malware

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置
KR20010076623A (ko) * 2000-01-27 2001-08-16 오길록 최대 사후 확률 방식을 이용한 터보 복호기의 정규화 방법
JP2001282817A (ja) * 2000-03-31 2001-10-12 Toshiba Corp 決定木のデータマイニング方法および装置
KR20030066862A (ko) * 2002-02-05 2003-08-14 이영섭 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는관심 노드 분류 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置
KR20010076623A (ko) * 2000-01-27 2001-08-16 오길록 최대 사후 확률 방식을 이용한 터보 복호기의 정규화 방법
JP2001282817A (ja) * 2000-03-31 2001-10-12 Toshiba Corp 決定木のデータマイニング方法および装置
KR20030066862A (ko) * 2002-02-05 2003-08-14 이영섭 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는관심 노드 분류 방법

Also Published As

Publication number Publication date
AU2003208644A1 (en) 2003-09-16
WO2003075182A1 (en) 2003-09-12
KR20030071938A (ko) 2003-09-13

Similar Documents

Publication Publication Date Title
Baker et al. Continuous θ-methods for the stochastic pantograph equation
Levin et al. Dynamic finite element model updating using neural networks
Hanke On Lanczos based methods for the regularization of discrete ill-posed problems
Esmin et al. Hybrid evolutionary algorithm based on PSO and GA mutation
CN104598972A (zh) 一种大规模数据回归神经网络快速训练方法
Rattray The dynamics of a genetic algorithm under stabilizing selection
KR100497211B1 (ko) 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법
Chen et al. An efficient proximal-gradient method for single and multi-task regression with structured sparsity
Chou et al. Wire length and delay minimization in general clock net routing
Kaveh et al. Wavefront reduction using graphs, neural networks and genetic algorithm
KR100640264B1 (ko) 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법
CN117035106A (zh) 量子潮流计算修正方程的分阶计算方法、系统和存储介质
Al_Duais et al. A review on enhancements to speed up training of the batch back propagation algorithm
CN117117842A (zh) 抗噪声的量子快速解耦潮流计算方法、系统和存储介质
Durand Asymptotic analysis of an optimized quicksort algorithm
Mańdziuk Solving the travelling salesman problem with a Hopfield-type neural network
CN109711543A (zh) 一种可重构的深度置信网络实现系统
CN114818548A (zh) 一种基于卷积生成对抗网络的含水层参数场反演方法
McKay An investigation of fitness sharing in genetic programming
Kang et al. A stochastic language for plant topology
CN106595661A (zh) 惯性传感器信号重构方法
Boulas et al. Acquisition of accurate or approximate throughput formulas for serial production lines through genetic programming
Watanabe Mining fuzzy association rules of specified output field
CN112165085B (zh) 基于psod的时滞电力系统高效特征值分析方法及系统
Xu et al. Delayed random walk on deterministic weighted scale-free small-world network with a deep trap

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee