KR100640264B1

KR100640264B1 - 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법

Info

Publication number: KR100640264B1
Application number: KR1020020011208A
Authority: KR
Inventors: 김용대
Original assignee: 김용대; (주)비엘시스템스; 전종우
Priority date: 2002-03-02
Filing date: 2002-03-02
Publication date: 2007-02-28
Also published as: AU2003212671A1; WO2003075187A1; KR20030071939A

Abstract

본 발명은 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 앙상블 구축 장치 및 그 방법에 관한 것이다.

본 발명에 따르면, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, M 개의 앙상블 모형 구축 수단을 포함하고, 첫 번째 앙상블 모형 구축 수단은 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여, 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; k 번째 앙상블 모형 구축 수단은 k-1 번째 앙상블 모형 구축 수단의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치를 제공한다.

데이터 마이닝, 앙상블, 부스팅, 의사 결정 나무

Description

앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및 그 방법 {Apparatus and method for construction model of data mining using ensemble machines}

도 1은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이고,

도 2는 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이고,

도 3은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이고,

도 4는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이고,

도 5는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이고,

도 6은 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이고,

도 7은 본 발명의 일 실시예에 따른 앙상블 모형 구축 방법을 개략적으로 도시한 흐름도이고,

도 8은 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도이고,

도 9는 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도이고,

도 10은 본 발명의 일 실시예에 따른 부스트랩 자료의 생성 과정을 나타낸 흐름도이고,

도 11은 종래의 기본 학습기들의 집합에 포함되는 학습기 중 참 학습기와 거리가 작은 학습기들이 다수개 존재함을 보여 주는 기본 개념도이고,

도 12a는 본 발명에서 제안하는 캠 알고리즘에 따라 첫 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,

도 12b는 본 발명에서 제안하는 캠 알고리즘에 따라 두 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,

도 12c는 본 발명에서 제안하는 캠 알고리즘에 따라 세 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,

도 12d는 본 발명에서 제안하는 캠 알고리즘에 따라 m 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,

도 13은 본 발명의 일 실시예에 따른 캠 알고리즘의 개요를 보여주는 흐름도이고,

도 14는 본 발명의 일 실시예에 따른 연속형 변수를 위한 앙상블 알고리즘을 개략적으로 도시한 흐름도이고,

도 15는 연관성 규칙 생성 알고리즘의 개요를 나타내는 흐름도이고,

도 16a 내지 도 16d는 종래의 앙상블 기법과 본 발명에서 제안하는 앙상블 기법의 성능을 알아 보기 위한 가상 실험 결과를 보여 주는 그래프이고,

도 17a 내지 도 17i는 종래의 앙상블 기법과 본 발명에서 제안하는 앙상블 기법의 성능을 알아 보기 위한 실제 자료 분석의 결과를 보여주는 그래프이다.

본 발명은 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 데이터 마이닝 모형 구축 장치 및 그 방법에 관한 것이다.

1. 서설

데이터 마이닝(DataMining)에서 앙상블 알고리즘(Ensemble Algorithm)은 'Breiman'의 배깅(Bagging) 기법을 효시로 하여 최근까지 많은 연구가 진행되고 있다.

즉, 상술한 'Breiman'의 배깅 기법을 보다 개량하는 수많은 연구가 진행되고 있는 바, 이러한 종래의 연구 성과로는, 'Freund and Schapire'가 제안하고 있는 부스팅(Boosting) 알고리즘, 'Breiman'이 제안하고 있는 아킹(Arcing) 알고리즘 및 'Breiman'이 제안하고 있는 랜덤 포레스트(Random Forest) 알고리즘 등이 있다.

이러한 앙상블 기법 중 'Freund and Schapire'가 제안한 부스팅 알고리즘은 그 예측력의 뛰어남으로 인하여 최근에 이를 기반으로 한 다양한 개선된 알고리즘이 등장하고 있다. 이러한 개선된 알고리즘으로는 'Schapire and Singer'가 제안한 리얼 부스팅(Real Boosting) 알고리즘 및 'Friedman'이 제안한 그레디언트 부스팅(Gradient Boosting) 알고리즘이 있다.

즉, 종래의 데이터 마이닝에 사용하는 앙상블 알고리즘은 주로 부스팅 알고리즘에 기반을 두고 있다.

이하에서는 분류(Classification) 문제에 적용되는 종래의 여러 가지 부스팅 알고리즘에 대하여 간략히 소개한다. 특히, 현재 가장 널리 사용되고 있는 리얼 부스팅 알고리즘, 로지트(Logit) 부스팅 알고리즘 및 그레디언트 부스팅 알고리즘에 대하여 설명하도록 하겠다.

2. 2-클래스에 관한 종래의 부스팅 알고리즘

부스팅 알고리즘은 분류(Classfication) 문제에 주로 사용되는 방법이다. 분류 문제의 기본 모형은 다음과 같다.

n 개의 학습 자료 (x₁, y₁), ..., (x_n, y_n)이 주어졌다고 가정하자. 여기서, x_i는 p 차원의 설명 변수, 즉, x_i = (x_1i, ..., x_pi)이고, 반응 변수 y_i는 자료가 속하는 그룹을 나타낸다. 즉, J 개의 그룹이 있을 때, y_i는 1부터 J 중의 하나의 정수값을 가진다.

분류 문제의 목적은 n 개의 학습 자료를 이용하여 설명 변수로 반응 변수를 가장 잘 설명하는 관계를 찾는 것이다. 다시 말하면, 학습 자료를 이용하여 최적의 함수 H : R^p --> {1, 2, ..., J}를 만드는 것이다. 그리고, 새로운 설명 변수 x가 주어지면, 이 자료를 그룹 H(x)로 할당한다.

먼저, 그룹이 두 개인 경우, 즉, J = 2 인 경우를 고려한다. 그룹이 여러 개인 경우는 후술하도록 한다. 다음은 여러 가지 부스팅 알고리즘에 관한 것이다.

2-1. 리얼 부스팅 알고리즘(Schapire and Singer, 1999)

리얼 부스팅 알고리즘은 데이터 마이닝을 위한 앙상블 구축 알고리즘에 있어서 가장 대표적인 알고리즘이다.

본 알고리즘은 미국 특허(US 5,819,247) 'Apparatus and methods for machine learning hypotheses'에 상세히 기재되어 있는 바, 이를 상세히 설명하면, 다음과 같다.

도 1은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.

(1) 스텝 S101 : 반응 변수 y_i를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속 하면, -1로 놓는다.

(2) 스텝 S102 : n 개의 가중치 w₁, ..., w_n을 w_i = 1/n으로 놓음으로써, 초기화한다.

(3) 스텝 S103 : n 개의 학습 자료 (x₁, y₁), ..., (x_n, y_n)과 가중치 w₁, ..., w_n을 이용하여 주어진 설명 변수 x에 대하여 반응 변수가 1일 확률을 기본 학습기를 이용하여 추정한다. 이때, 반응 변수가 1일 확률은 아래의 [수학식 1]에 의하여 결정된다.

(4) 스텝 S104 : 상기 P_m을 변환하여 f_m을 구한다. 이는 아래의 [수학식 2]에 의하여 결정된다.

(5) 스텝 S105 : 새로운 가중치를 아래의 [수학식 3]에 의하여 구한 후, 이를

이 되도록 정규화(Normalization)한다.

(6) 스텝 S106 : 상기 스텝 S103 내지 스텝 S105를 m = 1, ..., M 번까지 반복함으로써, M 개의 기본 학습기를 생성한다.

(7) 스텝 S107 : 최종 앙상블 모형을 아래의 [수학식 4]에 의하여 결정한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.

위와 같은 과정을 통하여 최종적으로 앙상블 모형을 구축하게 된다.

2-2. 로지트 부스팅 알고리즘(Friedman et al., 2000)

도 2는 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.

(1) 스텝 S201 : 반응 변수 y_i를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속하면, 0으로 놓는다.

(2) 스텝 S202 : n 개의 가중치 w₁, ..., w_n을 w_i = 1/n, F(x) = 0, p(x) = 1/2로 초기화한다.

(3) 스텝 S203 : 주어진 설명 변수에 대하여 새로운 반응 변수 z_i 및 가중치 w_i를 아래의 [수학식 5]에 의하여 구한다.

(4) 스텝 S204 : 반응 변수 z_i, 설명 변수 x_i 및 가중치 w_i를 이용하고, 기본 학습기를 참조하여 회귀 모형 f_m(x)를 구축한다.

(5) 스텝 S205 : 상기 스텝 S204에서 구한 f_m(x)를 이용하여 확률을 갱신한다. 이를 나타낸 것이 아래의 [수학식 6]이다.

(6) 스텝 S206 : 상기 스텝 S203 내지 스텝 S205를 M 번 반복함으로써, 확률 갱신을 M 번 수행한다.

(7) 스텝 S207 : 최종 앙상블 모형을 H(x) = F(x)로 하여, 구축한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.

2-3. 그레디언트 부스팅 알고리즘(Friedman, 2001)

도 3은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.

(1) 스텝 S301 : 반응 변수 y_i를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속하면, -1로 놓는다.

(2) 스텝 S302 : 아래의 [수학식 7]과 같이 각종 변수를 초기화한다.

(3) 스텝 S303 : 주어진 설명 변수에 대하여 새로운 반응 변수 z_i를 아래의 [수학식 8]에 의하여 계산한다.

(4) 스텝 S304 : 반응 변수 z_i, 설명 변수 x_i 및 기본 학습기(회귀 의사 결정 나무 모형 : Regression Decision Tree)를 이용하여 f_m(x)를 추정한다.

(5) 스텝 S305 : 상기 f_m(x)의 l 번째 최종 노드(Terminal Node)의 예측값

을 아래의 [수학식 9]를 이용하여 추정한다.

여기서, R_i는 i 번째 최종 노드에 속하는 자료의 집합이다.

(6) 스텝 S306 : F(x) = F(x) + f_m(x)로 갱신한다.

(7) 스텝 S307 : 상기 스텝 S303 내지 스텝 S306을 M번 반복함으로써, F(x)를 M번 갱신한다.

(8) 스텝 S308 : 최종 앙상블 모형을 H(x) = F(x)로 구축한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.

한편, 상술한 리얼 부스팅 알고리즘 또는 로지트 부스팅 알고리즘은 다양한 기본 학습기를 사용할 수 있지만, 그레디언트 부스팅 알고리즘은 기본 학습기로 반드시 의사 결정 나무를 사용하여야 한다.

또한, 상기 알고리즘에서 기본 학습기를 구축할 때, 학습기의 복잡도(Complexity)를 미리 정하여야 한다. 기본 학습기가 의사 결정 나무인 경우에는 최종 노드의 수로 학습기의 복잡도를 조절할 수 있다. 한편, 부스팅 알고리즘에서는 기본 학습기들이 약한 학습기이므로, 학습기의 복잡도를 최소화한다. 일반적으로는 2 개 내지 8 개의 최종 노드를 가지는 의사 결정 나무가 기본 학습기로 많이 사용되고 있다.

3. 멀티 클래스(Multi Class)에 대한 종래의 부스팅 알고리즘

상술한 3 가지 부스팅 알고리즘들은 그룹이 2 개인 경우에 적용되는 알고리즘들이고, 그룹이 2 개 이상으로 확장되는 경우에는 상기 알고리즘들을 확장 변형 하여야만 한다.

이하에서는 멀티 클래스에 적용되는 리얼 부스팅 알고리즘, 로지트 부스팅 알고리즘 및 그레디언트 부스팅 알고리즘에 대하여 살펴 보도록 하겠다.

3-1. 멀티 클래스에 적용되는 리얼 부스팅 알고리즘

도 4는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

(1) 스텝 S401 : 주어진 하나의 학습 자료 (x_i, y_i)에 대하여 J 개의 새로운 자료 ((x_i, 1), y_i1), ..., ((x_i, J), y_iJ)를 생성한다. 이때, y_ik는 y_i가 k이면, 1이고, k가 아니면, -1이다.

(2) 스텝 S402 : 2-클래스 리얼 부스팅 알고리즘을 n X J 개의 새로운 자료에 적용시켜(즉, 멀티 클래스를 2-클래스로 변환), 최종 앙상블 모형을 아래의 [수학식 10]에 의하여 구축한다.

(3) 스텝 S403 : 새로운 설명 변수 x에 대하여 argmax_j H(x, j) 그룹에 할당한다.

한편, 상술한 멀티 클래스에 적용되는 리얼 부스팅 알고리즘은 실행 횟수, 즉, 계산 횟수가 부스팅 횟수에 해당하므로 시간이 특히 너무 오래 걸린다는 문제 점이 있다.

3-2. 멀티 클래스에 적용되는 로지트 부스팅 알고리즘

도 5는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

(1) 스텝 S501 : 각종 변수들을 초기화한다. 즉, F_j(x) = 0, p_j(x) = 1/J, j = 1, 2, ..., J로 놓는다.

(2) 스텝 S502 : i 번째 자료가 j 그룹에 포함되면 y_i ^* = 1로, 포함되지 아니하면, y_i ^* = 0로 놓는다.

(3) 스텝 S503 : 새로운 반응 변수 z_i 및 새로운 가중치 w_i를 아래의 [수학식 11]에 의하여 결정한다.

(4) 스텝 S504 : 반응 변수 z_i, 설명 변수 x_i, 가중치 w_i를 이용하고, 기본 학습기를 참조함으로써, 회귀 모형 f_mj(x)를 산출한다.

(5) 스텝 S505 : 상기 스텝 S502 내지 스텝 S504를 J번 반복한다.

(6) 스텝 S506 : j 번째 F_j(x)를 아래의 [수학식 12]에 의하여 갱신한다.

(7) 스텝 S507 : j 번째 확률 p_j(x)를 아래의 [수학식 13]에 의하여 갱신한다.

(8) 스텝 S508 : 상기 스텝 S502 내지 스텝 S507을 M 번 반복한다.

(9) 스텝 S509 : 새로운 설명 변수 x에 대하여 argmax_jF_j(x) 그룹에 할당한다.

3-3. 멀티 클래스에 적용되는 그레디언트 부스팅 알고리즘

도 6은 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면 다음과 같다.

(1) 스텝 S601 : 각종 변수들을 초기화한다. 즉, F_j(x) = 0, p_j(x) = 1/J, j = 1, 2, ..., J로 놓는다.

(2) 스텝 S602 : i 번째 자료가 j 그룹에 포함되면, y_i ^* = 1, 포함되지 아니하면, y_i ^* = 0로 놓는다.

(3) 스텝 S603 : 새로운 반응 변수 z_i를 아래의 [수학식 14]로 결정한다.

(4) 스텝 S604 : 반응 변수 z_i, 설명 변수 x_i를 이용하고, 기본 학습기(회귀 의사 결정 나무 모형 : Regression Decision Tree)를 이용하여 회귀 모형 f_mj(x)를 구축한다.

(5) 스텝 S605 : 상기 회귀 모형 f_mj(x)의 l 번째 최종 노드(Terminal Node)의 예측값

을 아래의 [수학식 15]에 의하여 추정한다.

(6) 스텝 S606 : F_j(x)를 아래의 [수학식 16]에 의하여 결정한다.

(7) 스텝 S607 : 상기 스텝 S602 내지 스텝 S606을 j = 1, ..., J 번 반복한 다.

(8) 스텝 S608 : 상기 스텝 S602 내지 스텝 S607을 m = 1, ..., M 번 반복한다.

(9) 스텝 S609 : 새로운 설명 변수 x에 대하여 argmax_jF_j(x) 그룹에 할당한다.

4. 종래 기술들의 문제점 정리

상술한 바와 같은 부스팅 기법의 기본 아이디어는 여러 개의 약한 학습기를 구축한 후, 이를 결합하여 새로운 강한 학습기를 만드는 것이다. 그러나, 이러한 아이디어는 여러 가지 문제점을 가지고 있는데, 이를 정리하면 다음과 같다.

첫째, 구축된 모형의 해석이 어렵다.

둘째, 여러 개의 튜닝 모수(Tuning Parameter), 즉, 의사 결정 나무의 크기, 의사 결정 나무의 개수 등이 있는데, 이를 일반 사용자가 정하는 것이 쉽지 않다.

셋째, 자료가 과적합(Overfitting)되는 경향이 있다.(Ridgeway, 2000)

넷째, 반응 변수의 종류가 연속형인 경우에 알고리즘의 사용이 쉽지 않다.

다섯째, 분류(Classification) 문제에서 확률의 추정이 쉽지 않다. 즉, 새로운 데이터가 입력될 때, 입력된 새로운 데이터가 취할 분류 확률을 추정할 수가 없다.

여섯째, 부스팅 기법의 일반적인(통계학적) 이론이 미비하여 그 안정성에 대 한 검증이 쉽지 않다.

상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 앙상블 구축 장치 및 그 방법을 제공하기 위한 것이다.

상기한 목적을 달성하기 위하여 본 발명에 따르면, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, M 개의 앙상블 모형 구축 수단을 포함하고, 첫 번째 앙상블 모형 구축 수단은 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여, 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; k 번째 앙상블 모형 구축 수단은 k-1 번째 앙상블 모형 구축 수단의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치를 제공한다.

또한, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, M 번의 앙상블 모형 구축 단계를 포함하고, 제 1 번째 앙상블 모형 구축 단계는, 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; 제 k 번째 앙상블 모형 구축 단계는, 제 k-1 번째 앙상블 모형 구축 단계의 결과물인 k-1 번째 학습기를 입력받아, 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법을 제공한다.

또한, 앙상블(Ensemble) 모형을 이용한 두 그룹 분류에서의 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 가중치 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 확률 추정 수단; 상기 확률 추정 수단에 의하여 추정된 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 학습기 갱신 수단; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 장치를 제공한다.

또한, 앙상블(Ensemble) 모형을 이용한 두 그룹 분류에서의 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입 력받는 제 1 단계; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계; 상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 및 상기 제 4 단계에서 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 제 5 단계를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 방법을 제공한다.

앙상블(Ensemble) 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 가중치 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 확률 추정 수단; 상기 확률 추정 수단에 의하여 추정된 확률에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 학습기 갱신 수단; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 장치를 제공한다.

또한, 앙상블(Ensemble) 모형을 이용한 멀티 클래스 분류에서의 데이터 마이 닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입력받는 제 1 단계; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계; 상기 제 3 단계에서 추정된 확률에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 상기 제 4 단계에서 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 제 5 단계; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 제 6 단계를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법을 제공한다.

또한, 반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 계산하는 잔차 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 회귀 모형 구축 수단; 상기 회귀 모형 구축 수단에 의하여 구축된 회귀 모형에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 반응 변수를 갱신함으로써, 학습기를 재구축하는 학습기 갱신 수단; 및 상기 재구축된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 반응 변수가 연속형인 경우에 앙상블 모형을 이용한 데 이터 마이닝 모형 구축 장치를 제공한다.

또한, 반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입력받는 제 1 단계; 앙상블 모형의 잔차를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 제 3 단계; 상기 제 3 단계에서 구축된 회귀 모형에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 상기 제 4 단계에서 계산된 수정 모수를 이용하여 반응 변수를 갱신함으로써, 학습기를 재구축하는 제 5 단계; 및 상기 제 5 단계에서 재구축된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 제 6 단계를 포함하는 것을 특징으로 하는 반응 변수가 연속형인 경우에 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법을 제공한다.

보다 더 양호하게는, 상기 입력된 학습 데이터들을 가중치를 이용하여 부스트랩(Boostrap) 자료로 생성한다.

또한, 보다 더 양호하게는, 상기 학습기는 의사 결정 나무(Decision Tree) 또는 신경망 모형 중 어느 하나인 것을 특징으로 한다.

또한, 보다 더 양호하게는, 현재 앙상블 모형의 손실 함수가 가장 작을 때 최종적으로 앙상블 모형을 구축한다.

이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 데이터 마이닝 을 위한 앙상블 구축 장치 및 그 방법을 보다 상세하게 설명하기로 한다.

1. 서설

본 발명에서 제안하는 데이터 마이닝 모형 구축 알고리즘은 상술한 부스팅 기법의 문제들을 해결하면서, 동시에 그 예측력이 부스팅보다 뛰어난 새로운 알고리즘이다. 또한 해석력에 있어서도 의사 결정 나무를 기본 학습기로 채용하는 경우, 종래의 데이터 마이닝 기법 중 그 해석력이 가장 뛰어나다고 알려진(물론, 예측력은 매우 나쁨.) 의사 결정 나무보다도 더욱 향상된 결과를 가져온다. 특히, 주어진 자료를 설명할 수 있는 다양한 종류의 연관성 규칙을 추출할 수 있고, 이를 통하여 다양한 각도에서 주어진 자료를 분석할 수 있다.

이론적으로 본 발명에서 제안하는 알고리즘은 부스팅 기법의 이론과는 기본이 되는 아이디어가 완전히 다르다. 부스팅 기법은 약한 학습기 여러개를 융합하여 새로운 강한 학습기를 만드는 것임에 비하여, 본 발명에서 제안하는 알고리즘은 강한 학습기 여러 개를 융합하여 보다 더 강한 학습기를 만드는 것이다.

본 발명에서 제안하는 앙상블 기법에 쓰이는 기본 학습기는 의사 결정 나무를 사용하는 경우를 예로 들어 설명하도록 하겠다. 그 이유는, 의사 결정 나무의 장점인 알고리즘의 단순성과 높은 해석력 때문이다. 그러나, 기본 학습기의 선정은 자료의 종류에 따라 바뀔 수 있는데, 예를 들면, 문자 인식이나 음성 인식의 경우에는 신경망(Neural Network) 모형을 사용할 수 있다.

의사 결정 나무를 기본 학습기로 사용하기 위해서는 빠른 계산이 필수적이 다. 일반적으로 현재 널리 알려진 의사 결정 나무 구축 알고리즘으로는 'Breiman'이 제시한 카트 알고리즘(CART Algorithm, Breiman et al., 1986)이 있다. 카트 알고리즘의 경우에는, 나무의 성장, 가지 치기 및 최적 의사 결정 나무 선택의 3 단계로 이루어진다.

이때, 세 번째 단계인 최적 나무 모형을 선택하는 알고리즘은 교차 확인(Cross Validation) 기법을 사용하는데, 이 기법은 많은 계산량을 요구한다. 하나의 의사 결정 나무를 생성하기 위하여 교차 확인에 필요한 계산량은 그리 부담이 되지 않지만, 앙상블 기법에서는 여러 개의 의사 결정 나무를 생성하기 때문에, 모든 의사 결정 나무에 교차 확인 기법을 적용하는 것은 계산량의 폭증을 필연적으로 수반하게 된다.

본 발명에서는 이러한 교차 확인의 문제점을 극복하기 위하여 TIC(Tree Information Criteria)라는 양을 새로 정의하고, 이를 이용함으로써, 보다 빠른 시간에 최적의 의사 결정 나무를 구축하게 된다.

그러나, 본 발명에서 제안하는 데이터 마이닝 모형 구축 기법은 상기 TIC를 이용한 의사 결정 나무 선택 방법에 제한되는 것은 아니다. 왜냐하면, 본 발명은 기본 학습기로 의사 결정 나무만이 사용되는 것이 아니라 다양한 기본 학습기(예를 들면, 신경망 학습기)를 사용할 수 있기 때문이다. 다만, 설명의 편의상 본 출원에서는 기본 학습기로 의사 결정 나무를 선택하여 설명한다.

도 7은 본 발명의 일 실시예에 따른 앙상블 모형 구축 방법을 개략적으로 도시한 흐름도로서, 이를 설명하면 다음과 같다.

먼저, 스텝 S701에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S702에서, 기본 학습기를 구축한다. 이때, 기본 학습기로는 의사 결정 나무, 신경망 모형 등이 사용될 수 있는 바, 본 출원서에서는 설명의 편의상 의사 결정 나무인 것으로 한다. 따라서, 스텝 S702에서는 최적의 의사 결정 나무를 구축하게 된다. 이때, 최적의 의사 결정 나무를 구축하는 방법은 여러 가지가 있는데, 본 발명에서는 TIC(Tree Information Criteria) 알고리즘이라는 새로운 방법을 도입한다.

이어서, 스텝 S703에서, 구축된 기본 학습기들을 이용하여 앙상블 모형을 구축하고, 스텝 S704에서, 상기 구축된 앙상블 모형이 최적인지 여부를 판단한다.

상기 스텝 S704에서의 판단 결과, 최적이 아닌 것으로 판단되면, 스텝 S705에서, 새로운 반응 변수를 생성한 후, 상기 스텝 S702로 복귀한다.

상기 스텝 S704에서의 판단 결과, 최적인 것으로 판단되면, 스텝 S706에서, 최종 모형을 구축한 후, 종료한다.

한편, 본 출원서의 구성은 다음과 같다.

(1) 먼저, 교차 확인 방법을 대치하는 새로운 최적의 의사 결정 나무 구축 알고리즘인 TIC에 대해서 설명함으로써, 최적의 의사 결정 나무 구축 방법을 알아 보고(스텝 S702), (2) 본 발명이 이용하는 부스트랩(Boostrap) 자료 추출 방법을 살펴보며(스텝 S703의 전단부), (3) 이를 이용한 새로운 앙상블 알고리즘을 설명하고,(반드시 TIC 알고리즘을 이용할 필요가 없슴. 즉, 기본 학습기로 의사 결정 나무를 반드시 선택할 필요가 없슴.)(스텝 S703의 후반부 내지 스텝 S706) (3) 연관 성 규칙 생성 알고리즘을 살펴보며, (4) 가상 실험을 통하여 여러 가지 알고리즘의 성능을 비교한 후, 마지막으로 실제 자료를 이용하여 각각의 알고리즘의 성능을 비교한다.

2. TIC(Tree Information Criteria)

본 절에서는 최적의 의사 결정 나무를 결정하는 문제에서 기존에 사용되는 교차 확인 방법의 문제점을 개선하는 TIC 방법에 대하여 설명한다. 먼저 의사 결정 나무를 생성하는 전반적인 알고리즘을 설명하고, 종래의 교차 확인 알고리즘을 살펴 본 후, 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무 선택 알고리즘을 설명하도록 하겠다.

2-1. 의사 결정 나무 구축 알고리즘(Breiman et al., 1984)

'Breiman'이 제시한 의사 결정 나무 구축 알고리즘은 크게는 삼단계로 나눌 수 있다.

첫째는 성장 알고리즘으로서, 주어진 자료에 대하여 가장 큰 크기의 의사 결정 나무를 생성하는 단계이다.

둘째는 가지 치기 알고리즘으로서, 상기 성장 알고리즘을 통하여 구축한 거대한 의사 결정 나무에서 불필요한 가지를 순서대로 삭제함으로써, 내포되는 여러개의 의사 결정 나무들을 생성하는 단계이다. 이때, 구축된 의사 결정 나무들은 점점 그 크기가 작아진다.

셋째는 최적 나무 선택 알고리즘으로서, 상기 가지 치기 알고리즘으로 구한 의사 결정 나무 중 최적의 의사 결정 나무를 선택하는 단계이다.

2-2. 최적 의사 결정 나무 선택을 위한 교차 확인 알고리즘(k 폴드 교차 확인)

도 8은 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

입력되는 다차원 데이터에서 성장 알고리즘과 가지 치기 알고리즘을 이용하여 생성된 의사 결정 나무를 T₁, ..., T_m이라 하고, e_i는 T_i의 교차 확인 에러라고 하자.

(1) 스텝 S801 : 각종 변수들을 초기화한다. 즉, e_i = 0, i = 1, 2, ..., m 으로 놓는다.

(2) 스텝 S802 : 주어진 n 개의 학습 자료를 k 등분하여 k 개의 상호 배반인 자료 D₁, D₂, ..., D_k를 생성한다.

(3) 스텝 S803 : D_i를 테스트 자료로 하고, 나머지 자료를 학습 자료로 한다.

(4) 스텝 S804 : 상기 학습 자료들을 이용하여 내포되는 의사 결정 나무들(성장과 가지 치기 알고리즘을 이용하여)을 구축한다.

(5) 스텝 S805 : 상기 구축된 의사 결정 나무들 각각에 대하여 테스트 자료(D_i)를 이용하여 예측 에러를 구한다.

(6) 스텝 S806 : 상기 구축된 의사 결정 나무 중 의사 결정 나무 T_j에 가장 근접한 의사 결정 나무를 선택한다. 이때, 선택하는 알고리즘은 'Breiman et al.(1984)'에 상세히 기재되어 있는 바, 여기서는 생략한다.

(7) 스텝 S807 : e_j에 상기 스텝 S806에서 구한 의사 결정 나무의 예측 에러를 더한다.

(8) 스텝 S808 : j = 1, ..., m번 반복한다.

(9) 스텝 S809 : i = 1, ..., k번 반복한다.

(10) 스텝 S810 : e₁, ..., e_m을 의사 결정 나무 T₁, ..., T_m 각각의 교차 확인 에러라 부르며, 이 교차 확인 에러가 가장 작은 의사 결정 나무를 최적의 의사 결정 나무로 선택한다.

한편, 이러한 교차 확인 알고리즘은 k 폴드 교차 확인 알고리즘이라고도 부르는데, 일반적으로 5 폴드 또는 10 폴드 교차 확인 방법이 주로 사용된다.

상술한 바와 같은 최적의 의사 결정 나무 구축을 위한 교차 확인 알고리즘은 의사 결정 나무를 여러번 구축해야 한다. 따라서, 자료가 거대한 경우에는 계산 시간이 매우 길어지고, 그 결과가 자료를 어떻게 나누느냐에 따라 임의적으로 변동하는 문제점이 있다.

이러한 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 본 발명에서는 TIC라는 알고리즘을 새롭게 제안한다. 이하에서는 TIC 알고리즘을 소개한다.

2-3. 최적의 의사 결정 나무 선택을 위한 TIC 알고리즘

TIC 알고리즘의 목적은 여러 개의 나무 순열, 즉, T₁, ..., T_m 중 최적의 나무를 결정하는 것이다. 이때, 각각의 나무의 사후 확률(Posterior Probability)을 계산하고, 이 사후 확률이 가장 큰 나무를 최적의 나무로 선택하게 된다.

사후 확률이란 주어진 자료에 대하여 각각의 나무의 확률을 의미한다. 즉, 나무 T_i의 사후 확률은 주어진 자료 D_n = {(y₁, x₁), ..., (y _n, x_n)}에 대하여

이 된다.

도 9는 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도로서, 이를 상세히 설명하면, 다음과 같다.

먼저, 스텝 S901에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S902에서, 상기 자료를 이용하여 최대 크기의 의사 결정 나무를 구축한다. 이어서, 스텝 S903에서, 상기 구축된 최대 크기 의사 결정 나무들을 가지 치기 이론을 이용하여 내포 의사 결정 나무(Nested Trees)들로 새롭게 생성한다.

그리고, 스텝 S904에서, 각각의 의사 결정 나무들의 사후 확률을 계산한 후, 스텝 S905에서, 최대 사후 확률을 가지는 의사 결정 나무를 선택하여, 스텝 S906에서, 단일화된 최적 의사 결정 나무를 최종적으로 구한다.

이하에서는 이러한 최적 의사 결정 나무를 선택하는 방법을 보다 상세하게 설명한다.

먼저, 사후 확률을 계산하는 일반적인 방법에 대하여 살펴 본다.

사후 확률은 베이지안 정리(Bayesian Theorem)에 의하여

= cPr(D_n │T_i)Pr(T_i)가 되며, 이때 상기 Pr(D_{n │}T _i)는 모형이 T_i일 때의 자료의 확률, Pr(T_i)는 자료를 보기 전에 사용자가 임의로 정한 확률, 그리고, c는

로 만드는 상수이다.

한편, 사후 확률을 구하는 목적은 사후 확률이 가장 큰 나무를 결정하기 위한 것으로서, 상기 상수 c는 구할 필요가 없으며, 아래의 [수학식 17]을 사용하기 로 한다.

Pr(D_n │ T_i)를 구하여 보자.

먼저, 자료가 독립이므로, 아래의 [수학식 18]가 성립한다.

또한, 상기 [수학식 18]은 아래의 [수학식 19]로도 쓸 수 있다.

여기서, 나무 모형 T_i는 주어진 입력 x_k에 대하여 y_k의 확률 구조를 나타내는 모형이므로, Pr(x_k│T_i)는 T_i에 의존하지 아니한다. 즉, Pr(x_k│T _i) = Pr(x_k)이다. 따라서, Pr(D_n│T_i)를 구하기 위하여는 Pr(y_k│T_i, x_k)를 구하면 된다.

한편, 상수 c와 마찬가지로 Pr(x_k)는 모든 나무에 공통으로 적용되는 값으로서, 최대의 사후 확률을 가지는 나무를 찾는데는 필요하지 않다. 따라서, 이를 반영하여 수식으로 표현하면, 아래의 [수학식 20]이 된다.

상기

를 구하는 방법은 다음과 같다.

의 최종 노드들의 집합을

라 하자. 그리고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률을

라 하자. 그러면, 주어진 입력 변수 x_k가 나무

의 h 번째 최종 노드에 속하는 경우, 아래의 [수학식 21]이 성립한다.

이때, y_k는 자료가 속하는 그룹을 나타낸다.

상술한 내용들을 이용하면, 아래의 [수학식 22]가 성립한다.

이때, n_jh는 h 번째 최종 노드에 포함되는 자료 중, 그룹 j에 속하는 자료의 수이다.

각 최종 노드의 확률

가 모르는 변수이므로, 이를 기대값을 이용하여 제거한다. 기대값을 구하기 위하여는

의 분포가 필요한데, 이를

라 하자. 그러면, 아래의 [수학식 23]이 성립한다.

여기서,

로 여러 가지 분포를 사용할 수 있으며, 일반적인 분포를 사용하면, 아래의 [수학식 24]가 성립한다.

또한, 일양 분포를 사용하면, 아래의 [수학식 25]가 성립한다.

이때,

이다.

한편, 상기 일양 분포는 아래의 [수학식 26]과 같이 정의된다.

이하에서는 나무의 사전 확률(Prior Probability)

를 정하는 방법을 살펴 보자.

는 자료로부터 구하는 것이 아니라, 사용자가 입력하는 것이다.

TIC를 위한

는 다음과 같이 구축한다.

먼저, 각각의 주어진 h 번째 노드에서 그 노드가 중간 노드(즉, 계속해서 분기가 진행됨.)가 될 확률을 아래의 [수학식 27]과 같이 정의하자.

여기서, f_h는 주어진 노드의 조상 노드들의 수이고, 상수

와

는 사용자에 의하여 정하여 진다.

그러면, 주어진 노드가 최종 노드가 될 확률은 자연스럽게 아래의 [수학식 28]과 같이 결정된다.

상기 [수학식 28]와 같은 조건하에서 주어진 나무 T_i의 사전 확률은 아래의 [수학식 29]와 같이 표현된다.

이 때,

는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.

이제, 상술한 내용들을 이용하여 TIC를 계산해 보도록 하자.

상술한 수식을 모두 정리하면, 아래의 [수학식 30]으로 최종 정리된다. 이때, 아래의 [수학식 30]은 일양 분포를 이용한 것이다.

그리고, 위의 마지막 식에 log를 취한 값을 TIC로 정의한다. 즉, 나무 T_i의 TIC는 아래의 [수학식 31]과 같이 표현된다.

그룹이 두 개인 경우, 즉, J = 2 인 경우의 TIC는 아래의 [수학식 32]와 같이 표현된다.

이때,

는 h 번째 최종 노드에 있는 자료 중, 두 번째 그룹에 속하는 자료의 수가 된다.

상술한 바와 같이 정의한 TIC를 각각의 의사 결정 나무 T₁, ..., T_m에 적용하여 TIC가 최대가 되는 의사 결정 나무를 최적의 의사 결정 나무로 선택함으로서, 본 알고리즘은 종료된다.

한편, 종래의 베이지안 정리를 이용하는 방법과 본 발명에서 제시하는 TIC 방법은 사후 확률을 이용한다는 측면에서는 같은 발명이나, 사후 확률을 구할 때 사용되는 사전 확률의 구축에 있어서 차이가 있다. 그리고, 이러한 차이는 사후 확률의 계산에 많은 영향을 미친다. 즉, 종래의 베이지안 정리를 이용하는 방법에서는 사후 확률이 수식으로 계산되지 아니하며, 이를 컴퓨터를 사용하여 계산하는데, 그 계산 시간이 교차 확인을 사용하는 방법보다 훨씬 오래 걸린다.

종래의 베이지안 정리를 이용하는 방법에서 사전 확률을 구축하는 방법은 가능한 모든 나무에 확률을 할당한다. 그런데, 가능한 모든 의사 결정 나무의 수는 엄청나게 많으므로, 사전 확률을 구축하는 방법 또한 매우 복잡하다. 그리고, 필연적으로, 사후 확률을 구하여야 하는 의사 결정 나무의 수도 크게 증가하게 되고, 이는 곧 계산량의 폭증으로 이어진다.

그러나, TIC 방법은 종래의 베이지안 정리를 이용하는 방법의 문제점을 해결한 것으로서, 사전 확률을 가능한 모든 의사 결정 나무에 할당하는 것이 아니라, 가지 치기 알고리즘으로부터 도출된 내포되는 의사 결정 나무에만 할당한다. 따라서, 사전 확률을 구축하는 방법이 매우 쉽고, 사후 확률의 계산 또한 간단해 진다는 효과가 있다.

즉, TIC 방법에서 사용하는 사전 확률 구축 방법은 자료를 이용하여 의사 결정 나무들의 집합을 줄이는 방법으로서, 이 부분이 종래의 베이지안 정리를 이용한 방법과 결정적으로 다른 부분이다.

정리하면, TIC를 이용하는 방법은 의사 결정 나무를 한번만 구축하면 되므로, 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상된다. 또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다.

아래의 [표 1]은 종래의 5 폴드 교차 확인 방법과 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무의 선택 방법의 시뮬레이션 결과를 보여준다.

즉, 본 실험 데이터는 5 폴드 교차 확인을 통한 단일 나무(Single Tree)의 생성과 본 발명에서 제안하는 TIC를 이용한 싱글 트리의 생성 속도를 비교하기 위한 데이터이다.

각각의 실험 데이터는 평균 동일한 데이터를 반복 횟수 500 번씩 생성할 때의 평균 시간을 나타내며, 컴퓨터의 사양은 펜티엄 3 900 MHz, 메인 메모리 256 메가 바이트, 운영 체제는 윈도우 2000 이다.

아래의 [표 1]에 의하면, 본 발명에서 제안하는 TIC 방법은 종래의 5 폴드 교차 확인 방법에 비하여 대략 1/5의 계산 시간만이 소요됨을 알 수 있다.

한편, 시뮬레이션 자료는 데이터마이닝에서 널리 알려져 있는 표준 자료에 해당하는 바, 각각 'Radius2', 'Interaction', 'Breast Cancer', 'Ionosphere' 및 'Sonar' 자료로서, 본 기술 분야에서는 데이터마이닝의 효율을 가늠하는 가장 유력한 시뮬레이션 자료이다. 본 시뮬레이션 자료는 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에 상세하게 나와 있다.

[표 1]

데이터	5폴드 교차확인	TIC
데이터	평균 소요 시간	평균 소요 시간
radius2	235.4 msec	43.2 msec
interaction	228.6 msec	43.3 msec
breast cancer	128.3 msec	25.6 msec
ionosphere	182.9 msec	34.4 msec
sonar	259.3 msec	46.6 msec

3. 부스트랩(Boostrap) 자료 추출 방법

본 장에서는 본 발명이 이용하고 있는 부스트랩 자료의 추출 방법에 대하여 개략적으로 설명한다.

먼저, 부스트랩 자료 생성의 전반적인 알고리즘은 다음과 같다.

원래의 데이터가 y₁, ..., y_n의 n 개의 데이터라고 하면, 생성하고자 하는 부스트랩 자료의 개수 m을 정한 후, 새로운 데이터 집합 D^B를 공집합으로 초기화한다.

그리고, 난수 발생기를 이용하여

인 정수 k를 생성한 후,

를

로 할당하고,

를

에 추가하는데, 이 과정을 i = 1, ..., m 번 반복한다.

도 10은 본 발명의 일 실시예에 따른 부스트랩 자료의 생성 과정을 나타낸 흐름도로서, 이를 설명하면 다음과 같다.

(1) 스텝 S1001 : 입력되는 n 개의 다차원 자료 (x₁, y₁), ..., (x_n, y _n)에 대하여 w₁, ..., w_n의 가중치를 할당한다. 여기서 x_i는 p 차원의 설명 변수이다. 즉, x_i = (x_1i, ..., x_pi)이다.

(2) 스텝 S1002 : y₁, ..., y_n에 대하여 할당된 w₁, ..., w_n의 가중치의 누적 가중치를 계산한다. 즉, 새로운 누적 가중치는 아래의 [수학식 33]과 같이 계산된다.

(3) 스텝 S1003 : 생성하고자 하는 새로운 데이터의 개수 m을 정한다. 본 발명에 따른 앙상블 알고리즘을 위한 부스트랩 자료의 개수 m은 n으로 한다.

(4) 스텝 S1004 : 새로운 데이터의 집합, D^B를 공집합으로 초기화한다.

(5) 스텝 S1005 : 난수 발생기를 이용하여

을 만족하는 실수 난수를 생성한다.

(6) 스텝 S1006 :

, ...,

중,

를 만족하는 j를 결정한다. 이때, j = 1, ..., n 이다.

(7) 스텝 S1007 :

로 할당한다.

(8) 스텝 S1008 :

에 해당하는 가중치

으로 한다.

(9) 스텝 S1009 :

를

에 추가한다.

(10) 스텝 S1010 : i = 1, ..., m 번 반복한다.

4. 본 발명에서 제안하는 앙상블 알고리즘의 배경 및 기본 원리

4-1. 서언

본 장에서는 본 출원에서 제안하는 새로운 앙상블 알고리즘의 배경 및 기본 원리를 설명한다. 본 발명에 따른 앙상블 알고리즘은 캠 알고리즘(CHEM : Convex Hull Ensemble Machine)이라고 지칭하겠다.

캠 알고리즘은 여러 개의 기본 학습기를 이용하여 새로운 학습기를 생성하는 앙상블 알고리즘이다.

분류 문제(반응 변수가 범주형인 경우)나 회귀 모형(반응 변수가 연속형인 경우)에 있어서, 학습 문제를 함수 추정 문제로 바꿀 수 있다.

반응 변수가 J 개의 범주를 가지는 분류 문제에서는 J 차원 함수 F = (F₁, ..., F_J)를 추정하는 문제인데, 이때, 상기 함수 F는 아래의 [수학식 34]와 같이 정의된다.

또한, 회귀 모형 문제인 경우에는

를 추정하는 문제로 된다.

함수 F의 참값을

(참 학습기라 칭한다.)라고 하면,

를 캠 알고리즘에서 사용되는 기본 학습기들의 집합이라고 하자. 즉, 주어진 학습 자료에 대하여 최적의 기본 학습기를 집합

중의 하나로 선택한다. 한편, 최적의 기본 학습기를 찾는 방법은 종래에 널리 알려져 있다.

데이터 마이닝에 사용되는 기본 학습기들의 집합

로는 의사 결정 나무, 신경망 모형 등이 사용된다. 그러나, 이러한 기본 학습기들의 큰 문제점으로는 자료의 변화에 매우 민감하게 반응한다는 것이다. 이러한 기본 학습기들의 불안정성의 원인을 규명하고 이를 극복하기 위한 것이 본 발명에서 제안하는 캠 알고리즘인 것이다.

종래의 기본 학습기들의 불안정성의 원인을 살펴보면, 다음과 같다.

4-2. 종래의 기본 학습기들의 불안정성의 원인

데이터 마이닝에 사용되는 여러 가지 알고리즘들이 매우 불안정하게 움직이는 이유는 기본 학습기 집합

내부에 있는 서로 다른 많은 학습기들이 자료를 비슷하게 설명하기 때문이다.

전혀 다른 학습기들이 자료를 비슷하게 설명하는 보다 근본적인 이유는

가 고려된 기본 학습기 집합

에 포함되지 않기 때문이다. 또한,

에 포함되는 학습기 중,

와 거리(쉽게 말하면 다른 정도)가 작은 학습기들이 여러 개 존재하기 때문이다.

도 11은 종래의 기본 학습기들의 집합에 포함되는 학습기 중 참 학습기와 거리가 작은 학습기들이 다수개 존재함을 보여 주는 기본 개념도이다.

도 11에 도시되어 있듯이,

의 여러 학습기들이

를 둘러싸고 있는 모양이다. 이 경우에는, 자료가 조금만 변해도, 최적의 학습기가 크게 변할 수 있다. 즉, 자료가

로부터 어느 방향으로 변하느냐에 따라, 최적의 학습기는

,

및

중에 어느 하나가 될 것이다.

기본 학습기의 집합

가 도 11에 도시된 바와 같이 위치하면, 아무리 최적의 학습기를 잘 구축하여도

를 제대로 구축할 수 없다. 하지만, 여러 개의 학습기를 결합하면

를 구축할 수 있다. 그 이유는,

가

에 포함되는 학습기들의 컨벡스 헐(Convex Hull) 공간에 위치하기 때문이다. 특히, 도 11에서, 적절한 가중치 w₁, w₂, w₃ 를 구하면 아래의 [수학식 35]가 성립한다.

상기 [수학식 35]의 의미를 살펴보면,

를

에 속하는 몇 개의 학습기들의 가중 평균으로 구할 수 있다는 것이다. 본 발명에서 제안하는 캠 알고리즘은 이러한 아이디어를 이용하여 개발된 알고리즘이다.

이하에서는 본 발명에서 제안하는 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리에 대하여 자세히 설명한다.

4-3. 참 학습기를 알 때, 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리

본 절에서는 참 학습기

를 알고 이

가

에 포함되어지지 않을 때,

의 여러 학습기들의 가중 평균으로

를 구축하는 방법을 소개한다. 다음 절에서는,

가 미지인 경우, 자료를 이용하여

를 추정하는 방법을 소개한다.

캠 알고리즘의 기본 가정은

가

에 포함되는 M 개의 학습기

의 가중 평균으로 표현된다는 것이다. 이를 나타낸 것이 아래의 [수학식 36]이다.

캠 알고리즘은 가중 평균에 쓰인 학습기

와 가중치

를 순차적으로 찾아가는 알고리즘이다. 캠 알고리즘에서 기존에 구축된 k 개의 학습기

와 가중치

를 이용하여 (k+1)번째 학습기

과 가중치

을 찾는 알고리즘의 원리를 단계별로 설명하면, 다음과 같다.

첫 번째로, 상기 [수학식 36]에 따른 현재의 앙상블 모형 F_k와 직교하는 학습기 중, 최적의 학습기를

로 하고, 두 번째로, 새로운 앙상블 모형을 아래의 [수학식 37]에 의하여 생성하는데, 이 때, 가중치

와

은

과 참 학습기

와의 거리가 최소가 되게 구한다.

이러한 알고리즘을 보다 상세하게 설명하면, 다음과 같다.

(1) 첫 번째 학습기 구축

도 12a는 본 발명에서 제안하는 캠 알고리즘에 따라 첫 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.

도 12a에 도시한 바와 같이, 최적의 학습기

(즉,

와 가장 가깝게 위치하는 학습기)을 구한다.

(2) 두 번째 학습기 구축

도 12b는 본 발명에서 제안하는 캠 알고리즘에 따라 두 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.

과 직교하며 최적인 학습기

를 찾고 상기 [수학식 37]에 따른 앙상블 모형 F₂가

와 가장 거리가 짧아지는 가중치

과

를 구한다. 이때,

과

는 각각

과

이다. 한편, 상기 [수학식 37]에 따른 앙상블 모형 F₂는 아래의 [수학식 38]과 같이 표현된다.

이때, d₁은

와

과의 거리이고, d₂는

와

와의 거리이다.

(3) 세 번째 학습기 구축

도 12c는 본 발명에서 제안하는 캠 알고리즘에 따라 세 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.

와 직교하며 최적인 학습기

를 구한다. 그리고, 상기 [수학식 37]에 따른 앙상블 모형 F₃ 중,

와 거리가 가장 가깝게 하는 가중치

와

를 구한다. 한편, 상기 [수학식 37]에 따른 앙상블 모형 F₃는 아래의 [수학식 39]와 같이 표현된다.

그러면, 아래의 [수학식 40]이 성립한다.

(4) m 번째 학습기 구축

도 12d는 본 발명에서 제안하는 캠 알고리즘에 따라 m 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.

위의 알고리즘을 계속 반복함으로써, m 번째 앙상블 모형을 아래의 [수학식 41]과 같이 구한다.

4-4. 참 학습기가 미지일 때, 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리

모든 학습 문제에서는

는 미지이고, 그 대신 n 개의 학습 자료

이 주어진다. 학습의 목적은 자료를 이용하여

를 효과적으로 추정하는 것이다. 본 절에서는 윗 절에서 설명한 알고리즘이 자료가 주어진 경우 어떻게 구성되는 가를 설명한다.

l을 주어진 손실 함수라 하고, 주어진 학습기

의 디비언스를 아래의 [수학식 42]로 정의한다.

범주형 자료인 경우에는 두 그룹인 경우만을 고려한다.

(1) 첫 번째 학습기 구축

최적의 학습기

을 구한다.

(2) 두 번째 학습기 구축

과 직교이며 최적의 학습기를 찾는다.

먼저, 직교인 학습기를 구하기 위하여는 잔차를 사용한다. 잔차 r_i는 반응 변수가 범주형인 경우에는 아래의 [수학식 43]으로 구할 수 있다.

여기서, P₁은 첫 번째 앙상블 모형을 이용하여 y가 1일 확률이다.

반응 변수가 연속형인 경우에는 아래의 [수학식 44]로 구할 수 있다.

범주형 자료인 경우에는 |

|를 가중치로 하여 최적의 학습기

를 구축한다. 연속형인 경우에는

를 반응 변수로 하여 최적의 학습기

를 구한다.

한편, 잔차를 이용하여 최적의 학습기를 구하는 이유는, 회귀 모형에서 잔차는 반응 변수와 직교하는 성질이 있기 때문이다. 따라서, 잔차에 최적인 학습기

는 반응 변수에 최적인 학습기

과 거의 직교한다.

이어서, 잔차를 이용하여 최적의 학습기

를 구한 후

를 최소로 하는 상수

를 구한다. 그리고,

=

로 놓는다. 이때, 앙상블 모형은 상기 [수학식 37]에 의하여 결정된다. 즉, 아래의 [수학식 45]와 같이 된다.

,

한편, 통계 이론적으로

는 근사적으로

와

와의 거리의 제곱이 된다.

(3) 세 번째 학습기 구축

세 번째 학습기 구축은 두 번째 학습기 구축 방법에서

대신

를 사용하여 잔차를 구하는 것 외에는 동일하다. 구하여진 세 번째 학습기

에 대하여 앙상블 모형 F₃는 아래의 [수학식 46]과 같이 된다.

,

(4) 위의 알고리즘을 계속 반복하여 m 번째 앙상블 모형 F_m을 아래의 [수학식 47]과 같이 구한다.

5. 두 그룹 분류 문제에서의 캠 알고리즘

두 그룹 분류 문제에서 본 발명에서 제안하는 캠 알고리즘을 보다 상세하게 설명하면 다음과 같다.

도 13은 본 발명의 일 실시예에 따른 캠 알고리즘의 개요를 보여주는 흐름도 이다.

먼저, 스텝 S1301에서, 각종 변수들을 초기화한 후, 스텝 S1302에서, 입력되는 다차원 자료들을 가중치를 이용하여 부스트랩 자료로 생성한다. 그리고, 스텝 S1303에서, 주어진 설명 변수에 대하여 반응 변수가 1이 될 확률을 기본 학습기를 이용하여 추정한 후, 스텝 S1304에서, 주어진 디비언스를 최소로 하는 수정 모수를 계산한다.

그리고, 스텝 S1305에서, 상기 수정 모수를 이용하여 수정된 학습기를 구축한 후, 스텝 S1306에서, 수정된 학습기에 기반하여 앙상블 모형을 구축한다.

그리고, 스텝 S1307에서, 후술하는 스탑 규칙을 만족하는지 여부를 판단하여, 만족하지 아니하면, 상기 스텝 1302로 복귀하고, 만족하면, 종료한다.

캠 알고리즘을 수학식 등을 사용하여 보다 상세하게 설명한다.

(1) 제 1 단계 : 반응 변수 y_i를 자료가 그룹 2에 속하면 1로, 그룹 1에 속하면 0로 놓는다.

(2) 제 2 단계 : 각종 변수들을 초기화한다. 즉, n 개의 가중치 w₁, ..., w_n을 w_i = 1/n으로, F(x) = 0로 놓는다.

(3) 제 3 단계 : 상기 가중치 {w_i}를 이용하여 부스트랩 자료 (x₁ ^B, y₁ ^B), ..., (x_n ^B, y_n ^B)를 생성한다. 부스트랩 자료 생성에 대해서는 이미 상술한 바 있다.

(4) 제 4 단계 : 부스트랩 자료를 이용하여 주어진 설명 변수 x에 대하여 반 응 변수가 1이 될 확률

을 기본 학습기를 이용하여 추정한다.

(5) 제 5 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 48]을 최소로 하는 수정 모수

를 계산한다.

이때,

이다.

(6) 제 6 단계 : 상기 수정 모수를 이용하여 학습기를 새로 수정하여 재구축한다. 이 과정을 수식으로 나타내면, 아래의 [수학식 49]와 같이 된다.

로 놓는다.

로 구한다.

으로 갱신한다.

가중치를

로 갱신한다.

이 때,

이다.

(7) 제 7 단계 : 앙상블 모형을 최종적으로 구축하기 위하여 상기 제 3 단계 내지 제 6 단계를 m = 1, ..., M 번 반복한다. 그리고, 최종 앙상블 모형을 H(x)=F(x)로 하여, 새로운 반응 변수 x에 대하여 H(x)>0이면 그룹 2에, H(x)<0이면 그룹 1에 할당한다.

한편, 상기 손실 함수로는 여러 가지 손실 함수가 사용될 수 있지만, 보다 양호한 결과를 얻기 위해서는 익스포넨셜(Exponential) 손실 함수 또는 로그 우도(Negative Log-Likelihood) 손실 함수가 사용될 수 있다.

아래의 [수학식 50]은 익스포넨셜 손실 함수이고, [수학식 51]은 로그 우도 손실 함수를 나타낸 것이다.

또한, 본 발명에서는 부스트랩을 사용하지 않고, 가중치를 이용한 기본 학습기를 생성할 수도 있다. 그러나, 대부분의 경우 부스트랩을 이용하는 것이 훨씬 좋은 성능을 나타낸다.

또한, 본 발명에서 사용되는 기본 학습기로는 여러 가지가 쓰일 수 있는데, 본 실시예에서는 의사결정나무를 사용하였다. 종래의 부스팅 알고리즘과는 달리, 캠 알고리즘에서는 기본 학습기들이 강한 학습기이다. 따라서 단순한 의사 결정 나무가 아니라 의사 결정 나무 구축의 전 과정을 거친 최적의 의사 결정 나무를 사용한다. 이때, 계산상의 문제점을 극복하기 위하여 TIC를 사용한다. 이는 이미 상술한 바 있다.

캠 알고리즘을 두 개 이상의 분류 문제로 확장하는 알고리즘은 다음과 같다.

6. 멀티 클래스 분류 문제에서의 캠 알고리즘

멀티 클래스로 확장된 캠 알고리즘의 경우에도 그 개요는 도 13의 과정을 따른다. 다만, 적용되는 수식 등이 두 그룹 분류 문제에서의 캠 알고리즘과 약간씩의 차이를 보이는 바, 이를 상세하게 설명하면, 다음과 같다.

(1) 제 1 단계 : 각종 변수들을 초기화한다. 즉, 가중치

, i = 1, ..., n, j = 1, ..., J, F_j(x) = 0, j = 1, ..., J로 놓는다.

(2) 제 2 단계 : i 번째 자료가 j 그룹에 포함되면 y_i ^*를 1로 놓고, 포함되지 아니하면 0로 놓는다.

(3) 제 3 단계 : 가중치 {w_1j, ..., w_nj}를 이용하여 부스트랩 자료 (x₁ ^B, y₁ ^*B), ..., (x_n ^B, y_n ^*B)를 생성한다. 부스트랩 자료 생성에 대해서는 이미 상술한 바 있다.

(4) 제 4 단계 : 부스트랩 자료를 이용하여 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률

을 기본 학습기를 이용하여 추정한다.

(5) 제 5 단계 :

로 놓는다.

(6) 제 6 단계 : 상기 제 2 단계 내지 제 5 단계를 j = 1, ..., J 번 반복한다.

(7) 제 7 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 52]를 최소로 하는 수정 모수

를 계산한다.

이때,

이고,

이다.

(8) 제 8 단계 : 상기 수정 모수를 이용하여 학습기를 새롭게 수정하여 구축한다. 이 과정을 수식으로 나타내면, 아래의 [수학식 53]과 같이 된다.

로 놓는다.

로 구한다.

으로 갱신한다. 이때,

이다.

가중치를

로 갱신한다.

이때,

이고,

는 i 번째 관측치가 j 번째 그룹에 속하면 1이고, 아니면 0이다.

(9) 제 9 단계 : 상기 제 2 단계 내지 제 8 단계를 m = 1, ..., M 번 반복함으로써, 앙상블 모형을 최종적으로 구축한다. 이때, 새로운 설명 변수 x에 대하여

그룹에 할당한다.

캠 알고리즘을 연속형 변수 문제로 확장하는 알고리즘은 다음과 같다.

7. 연속형 변수 문제에서의 캠 알고리즘

본 장에서는 반응 변수가 연속형인 경우에 앙상블 모형을 만드는 알고리즘 (Regression CHEM)을 설명한다. 반응 변수가 연속형인 경우를 회귀 모형이라 하며, 그 기본 모형은 다음과 같다.

도 14는 본 발명의 일 실시예에 따른 연속형 변수를 위한 앙상블 알고리즘을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면 다음과 같다.

먼저, 스텝 S1401에서, 각종 변수들을 초기화하고, 반응 변수를 정의한 후, 스텝 S1402에서, 기본 학습기를 이용하여 회귀 모형을 구축한다. 이어서, 스텝 S1403에서, 주어진 디비언스를 최소로 하는 수정 모수를 계산한 후, 스텝 S1404에서, 상기 수정 모수를 기반으로 새로운 반응 변수를 갱신하며, 스텝 S1405에서, 갱신된 반응 변수를 토대로 앙상블 모형을 구축한다.

그리고, 스텝 S1406에서, 후술하는 스탑 규칙을 만족하는지 여부를 판단하여, 만족하지 아니하면, 상기 스텝 S1402로 복귀하고, 만족하면, 종료한다.

이를 보다 상세하게 설명하면 다음과 같다.

먼저, 입력되는 n 개의 다차원 자료인 학습 자료 (x₁, y₁), ..., (x_n, y _n)이 주어졌다고 가정하자. 여기서, x_i는 p 차원의 설명 변수, 즉, x_i = (x_1i, ..., x_pi) 이고, 반응 변수는 y_i이다.

본 알고리즘의 목적은 n 개의 학습 자료를 이용하여 설명 변수로 반응 변수를 가장 잘 설명하는 관계를 찾는 것이다. 다시 말하면, 학습 자료들을 이용하여 최적의 함수 H : R^p → R을 만드는 것이다. 그리고, 새로운 설명 변수 x가 주어지면, 이 자료의 반응 변수를 H(x)로 추정한다.

한편, 통계 이론적으로 볼 때,

이다. 즉, 조건부 기대값을 추정하는 것이 회귀 분석의 목적이다.

연속형 변수를 위한 캠 알고리즘은 다음과 같다.

(1) 제 1 단계 : 새로운 반응 변수 z_i = y_i로 놓는다.

(2) 제 2 단계 : 반응 변수를 z_i, 설명 변수를 x_i로 하여 회귀 모형

를 기본 학습기를 이용하여 구한다.

(3) 제 3 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 54]를 최소로 하는 수정 모수

를 찾는다.

(4) 제 4 단계 : 상기 수정 모수

를 이용하여 새로운 반응 변수를 갱신한다. 이를 나타낸 것이 아래의 [수학식 55]이다.

로 놓는다.

를 계산한다.

로 갱신한다.

새로운 반응 변수

로 갱신한다.

(5) 제 5 단계 : 상기 제 2 단계 내지 제 4 단계를 m = 1, ..., M 번 반복한다.

(6) 최종 앙상블 모형을 H(x) = F(x)로 구축한다.

한편, 상기 손실 함수 l은

또는

등의 알려져 있는 여러 가지 손실 함수등이 사용될 수 있다.

8. 스탑(Stop) 규칙

본 장에서는 최종 앙상블 모형에 필요한 기본 학습기의 개수를 정하는 알고리즘을 설명한다. 본 스탑 규칙의 기본 아이디어는 현재 앙상블 모형의 디비언스가 가장 작을 때, 더 이상 앙상블을 갱신하지 아니하고, 전체 알고리즘을 정지시키는 것이다.

스탑 규칙을 설명하면, 다음과 같다.

(1) 제 1 단계 : 양의 정수 K 값을 정한다.

(2) 제 2 단계 : F_m을 처음 m 개의 기본 학습기로 구축된 앙상블 모형이라 하고, 주어진 손실 함수 l에 대하여 앙상블 모형 F_m의 디비언스(Deviance)를 아래의 [수학식 56]에 따라 계산한다.

(3) 제 3 단계 :

,

로 놓고,

를 만족시키는 최초의 m에 대하여 앙상블 모형 F_m을 최종 앙상블 모형으로 정하고, 알고리즘을 정지시킨다.

한편, 양의 정수 K는 사용자가 정의하는 값이다.

아래의 [표 2]는 여러 자료에서 캠 알고리즘에 스탑 규칙을 적용하지 않았을 때와 적용하였을 때의 예측력을 비교한 시뮬레이션 자료이다. 아래의 [표 2]에 도시되어 있듯이 두 예측력은 거의 비슷하게 나온다. 따라서, 스탑 규칙을 적용하면, 적은 수의 기본 학습기를 이용하여 최적의 앙상블 모형을 구축할 수 있으며, 이를 통하여 계산 속도가 크게 향상되는 결과가 도출된다.

[표 2]

9. 연관성 규칙 생성 알고리즘

9-1. 서언

본 장에서는 최종 앙상블 모형을 만들 때 쓰인 기본 학습기를 이용하여 자료를 설명할 수 있는 다양한 종류의 연관성 규칙을 찾아내는 알고리즘을 설명한다.

한편, 본 장에서 제시하는 연관성 규칙 생성 알고리즘은 본 발명에서 제시하는 캠 알고리즘에 의하여 구축된 앙상블 모형 뿐만 아니라, 종래의 앙상블 모형 구축 방법에도 적용될 수 있다.

9-2. 연관성 규칙 생성 알고리즘

연관성 규칙을 찾는 알고리즘은 다음과 같다.

도 15는 연관성 규칙 생성 알고리즘의 개요를 나타내는 흐름도이다.

(1) 스텝 S1501 : 각종 변수들을 초기화한다. 즉, 반응 변수가 범주형 데이터이면, 관심이 있는 그룹을 g로, 최소 허용 자료수를 m으로, 최소 허용 신뢰도 p로 결정한다. 또한, 반응 변수가 연속형인 경우에는 그룹 g 대신에 관심 영역 (g_L, g_U)을 결정한다.

(2) 스텝 S1502 : 기본 규칙의 총집합 S를 구축한다. 이를 보다 상세히 설명하면 다음과 같다.

기본 학습기를 검색하여 앙상블에 사용되었던 모든 기본 학습기의 모든 노드 중 포함하는 자료의 수가 m 보다 크고, 그룹 g의 확률이 p 보다 큰 모든 노드를 선 택한다.

이때, 두 그룹 분류 문제인 경우에는 앙상블 횟수만큼의 기본 학습기가 존재하므로, 모든 기본 학습기를 검색하여 조건에 맞는 모든 노드를 선택한다.

만일, 두 그룹 이상의 분류 문제인 경우에는 앙상블 횟수와 그룹의 수를 곱한 만큼의 기본 학습기가 존재하며, 이들 중 관심 그룹 g에 해당하는 앙상블 횟수만큼의 기본 학습기를 이용하여 조건에 맞는 모든 노드를 선택한다.

상술한 방법으로 선택된 노드를 기본 규칙의 총집합 S로 한다.

(3) 스텝 S1503 : 조건에 맞게 선택되어진 모든 노드들에 대하여 해당 노드보다 상위 노드들은 규칙의 집합에서 제거한다. 이를 상세히 설명하면 다음과 같다.

모든 규칙

에 대하여(i = 1, ..., N) 다음을 N 번 반복한다.

를 선택하고, 선택된 s_i에 대하여 k = 1, ..., N 까지의 s_k 노드가 s_i의 상위 노드이면, s_k를 S에서 제거한다.

(4) 스텝 S1504 : S에 포함된 모든 규칙들에 대한 신뢰도를 계산한다. 이때, 각 조건의 신뢰도는 해당 규칙에 속하는 데이터의 전체 개수를 n, 이 중 관심있는 그룹(즉, 그룹 g)에 속하는 자료의 수를 n_g라 하면, 신뢰도는 n_g/n으로 계산된다.

(5) 스텝 S1505 : 계산된 S 집합의 규칙들을 정렬한다. 즉, 계산된 S 집합의 규칙을 신뢰도가 높은 것부터 낮은 것의 순으로 정렬한다. 이때, 정렬되어진 규칙들을 o₁, ..., o_H라 한다.

(6) 스텝 S1506 : 연관성 규칙 집합을 R이라 하자. R이 공집합이면, o_h를 집합 R에 추가하고, R이 공집합이 아니면, 집합 R에 포함된 모든 연관성 규칙들에 대하여 o_h와의 유사성을 비교한다. R에 포함된 모든 규칙과 유사하지 아니하면, 노드 o_h를 R에 추가한다.

한편, 유사성 비교 방법은 다음과 같다.

설명 변수 x = (x₁, ..., x_p)에 대하여 주어진 두 개의 규칙 o와 r은 아래의 [수학식 57]과 같이 정의된다고 하자.

이때, x_i가 R_oi에 포함되는 자료들의 집합을 D_o, x_i가 R_ri에 포함되는 자료들의 집합을 D_r이라 하자. 한편, 이 경우 R_oi와 R_ri는 R의 부분 집합이다.

먼저, 최대 허용 유사성

을 결정한 후,

에 포함되는 자료의 수를

에 포함되는 자료의 수로 나눈 값이 s 보다 크거나 같으면, x_i에 대하여 두 개의 조건 o와 r은 유사하다고 판정하고, s보다 작으면, x_i에 대하여 두 개의 조건 o와 r은 유사하지 않다고 판정한다. 이러한 과정을 i = 1, ..., p 번 반복한다.

그리고, 모든 x_i에 대하여 유사성 판정의 결과가 모두 유사하다라고 판정되어 지면, 규칙 o와 규칙 r은 유사하다라고 판정하며, 어떠한 x_i라도 유사하지 아니하다라고 판정되면, o와 r은 유사하지 않다고 판정한다.

(7) 스텝 S1507 : 연관성 규칙 집합 R에 포함되어 있는 모든 규칙들을 사용하여 신뢰도 순으로 자료를 해석한다.

9-3. 연관성 규칙 생성 알고리즘의 성능 실험

여기에서는 연관성 규칙 생성 알고리즘의 해석력을 보기 위한 실험 자료를 설명한다. 대비되는 종래 기술로는 CART 알고리즘을 선택한 바, CART에서 구축된 하나의 의사 결정 나무를 연관성 규칙 생성 알고리즘에 적용시켰다. 또한, 실제 자료는 German 데이터를 이용하여 실험하였다.

실제 데이터의 연관성 규칙 결과는 아래의 [표 3] 및 [표 4]에 정리되어 있다.

[표 3] CART를 이용한 연관성 규칙의 검색 결과

[표 4] 캠 알고리즘에 연관성 규칙 알고리즘을 적용한 검색 결과

German 데이터는 1,000 명의 신용 거래 현황 자료를 기반으로 700 명의 우량 신용 고객과 300 명의 불량 신용 고객으로 구성된 데이터이며, 연관성 규칙의 정확한 비교를 위하여 동일한 조건의 최소 허용 자료수와 최소 허용 신뢰도를 사용하여 분석하였다. 불량 신용 고객의 자료를 분석하기 위한 최소 허용 자료수는 50 명(5 %), 최소 허용 신뢰도는 50 %로 하였으며, 우량 신용 고객의 자료를 분석하기 위한 최소 허용 자료수는 50 명(5 %), 최소 허용 신뢰도는 85 %로 하였다.

위의 조건으로 검색되어진 CART의 연관성 규칙 검색 결과는 1 개의 불량 신용 고객 그룹과 1 개의 우량 신용 고객군으로 검색이 되었으며, 캠 알고리즘에서 연관성 규칙을 적용한 예는 5 개의 불량 신용 고객 그룹과 4 개의 우량 신용 고객 그룹으로 나타났다.

캠 알고리즘의 연관성 규칙은 CART의 연관성 규칙을 포함하는 광범위한 검색에 해당하며, 캠 알고리즘의 결과는 CART의 결과를 포함하는 연관성 규칙을 찾아냄을 알 수 있다. 또한, CART에 의하여 검색되어진 연관성 규칙에 해당하는 데이터는 하나의 기본 학습기로부터 생성되어 있기 때문에 서로간에 배반적인 데이터로 구성이 되는 반면, 본 발명에서 제시하는 연관성 규칙 알고리즘은 규칙이 포함하는 데이터들이 서로 배반이 아닌 집합으로 나타난다.

다시 말하면, 캠 알고리즘은 여러 개의 기본 학습기를 이용하여 연관성 규칙을 찾아내므로, 하나의 기본 학습기에 의존하는 CART에 비하여 매우 다양한 종류의 연관성 규칙을 찾아 낼 수 있으며, 이를 통하여 자료를 보다 입체적으로 해석할 수 있게 된다.

10. 실험을 통한 앙상블 기법의 성능 비교

본 장에서는 각종 실험을 통하여 여러 가지 앙상블 기법의 성능을 비교하여 본다.

10-1. 가상 실험을 통한 성능 비교

가상 실험에는 다음과 같은 모형을 사용한다.

(1) 모형 1 : Radius 2

학습 자료 수는 1,000 개이고, 테스트 자료 수는 5,000 개이며, 그룹의 수는 2이다.

설명 변수 : x = (x₁, ..., x₁₀)이고, 이들은 각각 독립이며 표준 정규 분포를 따른다.

반응 변수 :

이면, 확률 0.9로 y = 1이고, 확률 0.1로 y = -1로 한다. 또한,

이면, 확률 0.9로 y = -1이고, 확률 0.1로 y = 1로 한다. 여기서 c는

를 만족하는 상수이다.

(2) 모형 2 : Interaction

학습 자료 수는 1,000 개이고, 테스트 자료수는 5,000 개이며, 그룹의 수는 2 이다.

반응 변수 : 반응 변수는

를 따르는 0-1 변수이고, F(x)는 아래의 [수학식 58]과 같다.

(3) 모형 3 : Two Normal

처음 500 개의 자료는 그룹 1에 속하고, 설명 변수 x = (x₁, ..., x₁₀)이며, 이들은 각각 독립이고 표준 정규 분포를 따른다. 나머지 500 개 자료는 그룹 2에 속하며, 설명 변수 x = (x₁, ..., x₁₀)이며, 이들은 각각 독립이고 평균이 0이며 분산이 2인 정규 분포를 따른다.

(4) 모형 4 : Simple Quadratic

설명 변수 x는 표준 정규 분포를 따른다.

반응 변수는 아래의 [수학식 59]를 따르는 0-1 변수이고, F(x) = -x² + 2 로 주어진다.

도 16a 내지 도 16d는 이러한 4 개의 가상 실험 결과를 보여 주는 그래프이 다.

도 16a 내지 도 16d를 보면 알 수 있듯이, 본 발명에서 제시하는 캠 알고리즘이 매우 안정적으로 작동함을 볼 수 있다. 특히, 모형 4에서는 다른 모든 앙상블 알고리즘은 나무의 수가 증가하면서, 성능이 나빠지지만, 캠 알고리즘의 경우에는 이러한 문제가 전혀 발생하지 아니한다.

아래의 [표 5]는 상기 도 16a 내지 도 16d의 결과를 수치로 표현한 도표이다.

[표 5] 가상 실험의 결과

한편, 대부분의 모형에서 캠 알고리즘의 예측력이 종래의 앙상블 알고리즘에 비하여 보다 우수함을 알 수 있다. 예측력뿐만 아니라 디비언스(Deviance)를 비교하여 보면, 캠 알고리즘이 종래의 알고리즘에 비하여 훨씬 우수함을 알 수 있다. 즉, 캠 알고리즘 이외의 종래 알고리즘에서는 디비언스가 계속 증가하는데, 이는 종래의 앙상블 알고리즘들의 함수 추정이 거의 안된다는 것을 의미한다.

그에 반하여 캠 알고리즘에서의 디비언스 값은 안정적으로 출력됨을 알 수 있다. 예측력은 좋으나 디비언스가 증가하는 현상은 캠 알고리즘 이외의 모든 앙상블 알고리즘에서 발견되며, 이러한 현상은 분류 문제에서 두 그룹 간의 경계선을 잘 찾아낼 수 있지만, 그 외의 모든 정보는 상실된다는 것을 의미한다.

예를 들면, 새로운 설명 변수 x에 대하여 반응 변수 y가 k 번째 그룹에 속할 확률은 캠 알고리즘 이외의 모든 앙상블 알고리즘에서 추정이 안된다.

결론적으로 본 발명에서 제안하는 캠 알고리즘은 그 예측력의 우수성 뿐만 아니라 안정성의 우수성도 함께 가지고 있다는 것을 본 가상 실험 결과가 보여 준다.

10-2. 실제 자료의 분석을 통한 비교

여러 개의 실제 자료들의 분석을 통하여 캠 알고리즘과 기존의 알고리즘을 비교한다. 사용된 실제 자료는 상술한 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에서 구하였다.

아래의 [표 6]은 실제 자료에 대한 정보를 보여 주는 도표이다.

[표 6] 실제 자료에 대한 정보

도 17a 내지 도 17i는 실제 자료 분석의 결과를 보여주는 그래프이다.

대부분의 경우에 캠 알고리즘이 매우 안정적으로 작동함을 알 수 있다. 'Ionospher 자료'에서는 조금 나쁘게 움직이지만, 그 차이는 그리 크지 않다. 'German 자료'인 경우에는 캠 알고리즘이 다른 알고리즘보다 예측력이 뛰어나고, 안정적임을 알 수 있다. 상술한 가상 실험과 마찬가지로 디비언스 값은 캠 알고리즘이 가장 작은 값을 가짐을 알 수 있다.

아래의 [표 7]은 상기 도 17a 내지 도 17i의 결과를 수치적으로 표현한 도표이다.

[표 7] 실제 자료 분석 결과

결론적으로 캠 알고리즘은 아주 우수한 예측력과 동시에 매우 안정적이며(어떤 자료에서도 크게 잘못 예측하지는 아니한다.), 함수 추정(즉, 디비언스가 작다.)이 가능하다.

함수 추정은 확률의 추정을 의미하며, 캠 알고리즘은 종래의 앙상블 알고리즘과는 달리 주어진 자료에서 반응 변수의 값을 확률적으로 나타낼 수 있다. 이는 실제 자료의 분석에서 아주 유용하게 사용될 수 있다.

또한, 아래의 [표 8]은 연속형 변수의 실험 결과를 보여 주는 도표이다.

[표 8] 연속형 변수 분석 결과

상기 [표 8]에 도시된 종래의 알고리즘으로는 LS 부스트 알고리즘을 사용하였다.

Friedman 모형은 가상 모형으로서, 학습 자료의 수는 500 개이고, 테스트 자료 수는 5,000 개다. 또한, 설명 변수 x = (x₁, ..., x₁₀)이고, 이들은 각각 독립이며, [0, 1]에서 균등 분포를 따른다. 또한, 반응 변수는

이고,

이다.

실제 자료로는 보스톤 지역에서 여러 환경 변수가 집값에 미치는 영향을 알아 보기 위한 자료를 이용하였다.(Boston Housing Data) 이 자료도 인터넷에서 쉽게 구할 수 있다.

자료의 수는 506이며, 테스트 에러를 구하기 위하여 5 폴드 교차 확인 방법을 사용하였다. 가상 실험과 보스톤 집값 자료 분석의 결과, 캠 알고리즘은 분류 문제뿐만 아니라 회귀 모형에도 잘 작동함을 알 수 있다. 특히, 종래의 LS 부스팅 방법에서는 축소 모수를 사용자가 정의하여야 하나, 캠 알고리즘에서는 사용자가 지정하여야 하는 것이 거의 없다.

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상과 같이 본 발명에 의하면 다음과 같은 효과가 있다.

첫째, 제안된 캠 알고리즘은 그 예측력이 종래의 앙상블 구축 알고리즘보다 훨씬 뛰어나고, 매우 안정적으로 작동한다. 즉, 과적합 문제가 발생할 여지가 현저히 줄어든다.

둘째, 제안된 캠 알고리즘은 기존의 앙상블 구축 방법이 공통적으로 가지는 해석력의 저하를 극복하고, 연관성 규칙 알고리즘을 사용함으로써, 어떤 데이터 마이닝 기법보다 더 우수한 해석력을 보여 준다.

셋째, 연속형 변수 문제에서도 자연스럽게 캠 알고리즘을 적용함으로써, 일반 산업 분야에서도 쉽게 적용될 수 있다.

Claims

삭제
앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서,

M 개의 앙상블 모형 구축 단계를 포함하고,

상기 제 1 앙상블 모형 구축 단계는,

입력되는 다차원 학습 자료로부터 첫번째 학습기를 구축하여, 상기 구축된 첫번째 학습기 자체를 첫번째 앙상블 모형으로 구축하고;

상기 제 k 번째 앙상블 모형 구축 단계는,

제 k-1 번째 앙상블 모형 구축 단계의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기(
)를 구축하며, 상기
를 입력받아
를 최소로 하는 상수
를 구한 후,
를 이용하여 상기 k 번째 학습기를 수정하고,

상기 구축된 k-1 번째 앙상블 모형과 k 번째 학습기를 최적의 가중 평균(컨벡스 컴비네이션(Convex Combination))을 이용하여 결합시킴으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법.

여기서, M은 2 이상의 정수이고, k는 2 이상 M 이항의 정수이며, d는 디비언스(Deviance)이다.
앙상블(Ensemble) 모형을 이용한 두 그룹(2 Class) 분류에서의 데이터 마이닝 모형 구축 방법에 있어서,

다차원 데이터(Multi-Dimensional Data)인 학습 자료들을 입력받는 제 1 단계;

앙상블 모형의 잔차(Residual)를 이용하여 가중치를 계산하는 제 2 단계;

상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수(x)에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계;

상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및

상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션(Convex Combination))을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;

를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 방법.
앙상블(Ensemble) 모형을 이용한 멀티 클래스(Multi Class) 분류에서의 데이터 마이닝 모형 구축 방법에 있어서,

다차원 데이터인 학습 자료들을 입력받는 제 1 단계;

앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계;

상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계;

상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및

상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션)을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;

를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법.
반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 마이닝 모형 구축 방법에 있어서,

다차원 데이터인 학습 자료들을 입력받는 제 1 단계;

앙상블 모형의 잔차를 계산하는 제 2 단계;

상기 제 1 단계에서 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 제 3 단계;

상기 제 3 단계에서 구축된 회귀 모형에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및

상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션)을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;

를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제