KR100640264B1 - 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법 - Google Patents

앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법 Download PDF

Info

Publication number
KR100640264B1
KR100640264B1 KR1020020011208A KR20020011208A KR100640264B1 KR 100640264 B1 KR100640264 B1 KR 100640264B1 KR 1020020011208 A KR1020020011208 A KR 1020020011208A KR 20020011208 A KR20020011208 A KR 20020011208A KR 100640264 B1 KR100640264 B1 KR 100640264B1
Authority
KR
South Korea
Prior art keywords
delete delete
learner
model
ensemble
ensemble model
Prior art date
Application number
KR1020020011208A
Other languages
English (en)
Other versions
KR20030071939A (ko
Inventor
김용대
Original Assignee
김용대
(주)비엘시스템스
전종우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김용대, (주)비엘시스템스, 전종우 filed Critical 김용대
Priority to KR1020020011208A priority Critical patent/KR100640264B1/ko
Priority to AU2003212671A priority patent/AU2003212671A1/en
Priority to PCT/KR2003/000409 priority patent/WO2003075187A1/en
Publication of KR20030071939A publication Critical patent/KR20030071939A/ko
Application granted granted Critical
Publication of KR100640264B1 publication Critical patent/KR100640264B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 앙상블 구축 장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, M 개의 앙상블 모형 구축 수단을 포함하고, 첫 번째 앙상블 모형 구축 수단은 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여, 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; k 번째 앙상블 모형 구축 수단은 k-1 번째 앙상블 모형 구축 수단의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치를 제공한다.
데이터 마이닝, 앙상블, 부스팅, 의사 결정 나무

Description

앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및 그 방법 {Apparatus and method for construction model of data mining using ensemble machines}
도 1은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이고,
도 2는 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이고,
도 3은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이고,
도 4는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이고,
도 5는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이고,
도 6은 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이고,
도 7은 본 발명의 일 실시예에 따른 앙상블 모형 구축 방법을 개략적으로 도시한 흐름도이고,
도 8은 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도이고,
도 9는 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도이고,
도 10은 본 발명의 일 실시예에 따른 부스트랩 자료의 생성 과정을 나타낸 흐름도이고,
도 11은 종래의 기본 학습기들의 집합에 포함되는 학습기 중 참 학습기와 거리가 작은 학습기들이 다수개 존재함을 보여 주는 기본 개념도이고,
도 12a는 본 발명에서 제안하는 캠 알고리즘에 따라 첫 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,
도 12b는 본 발명에서 제안하는 캠 알고리즘에 따라 두 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,
도 12c는 본 발명에서 제안하는 캠 알고리즘에 따라 세 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,
도 12d는 본 발명에서 제안하는 캠 알고리즘에 따라 m 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이고,
도 13은 본 발명의 일 실시예에 따른 캠 알고리즘의 개요를 보여주는 흐름도이고,
도 14는 본 발명의 일 실시예에 따른 연속형 변수를 위한 앙상블 알고리즘을 개략적으로 도시한 흐름도이고,
도 15는 연관성 규칙 생성 알고리즘의 개요를 나타내는 흐름도이고,
도 16a 내지 도 16d는 종래의 앙상블 기법과 본 발명에서 제안하는 앙상블 기법의 성능을 알아 보기 위한 가상 실험 결과를 보여 주는 그래프이고,
도 17a 내지 도 17i는 종래의 앙상블 기법과 본 발명에서 제안하는 앙상블 기법의 성능을 알아 보기 위한 실제 자료 분석의 결과를 보여주는 그래프이다.
본 발명은 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 데이터 마이닝 모형 구축 장치 및 그 방법에 관한 것이다.
1. 서설
데이터 마이닝(DataMining)에서 앙상블 알고리즘(Ensemble Algorithm)은 'Breiman'의 배깅(Bagging) 기법을 효시로 하여 최근까지 많은 연구가 진행되고 있다.
즉, 상술한 'Breiman'의 배깅 기법을 보다 개량하는 수많은 연구가 진행되고 있는 바, 이러한 종래의 연구 성과로는, 'Freund and Schapire'가 제안하고 있는 부스팅(Boosting) 알고리즘, 'Breiman'이 제안하고 있는 아킹(Arcing) 알고리즘 및 'Breiman'이 제안하고 있는 랜덤 포레스트(Random Forest) 알고리즘 등이 있다.
이러한 앙상블 기법 중 'Freund and Schapire'가 제안한 부스팅 알고리즘은 그 예측력의 뛰어남으로 인하여 최근에 이를 기반으로 한 다양한 개선된 알고리즘이 등장하고 있다. 이러한 개선된 알고리즘으로는 'Schapire and Singer'가 제안한 리얼 부스팅(Real Boosting) 알고리즘 및 'Friedman'이 제안한 그레디언트 부스팅(Gradient Boosting) 알고리즘이 있다.
즉, 종래의 데이터 마이닝에 사용하는 앙상블 알고리즘은 주로 부스팅 알고리즘에 기반을 두고 있다.
이하에서는 분류(Classification) 문제에 적용되는 종래의 여러 가지 부스팅 알고리즘에 대하여 간략히 소개한다. 특히, 현재 가장 널리 사용되고 있는 리얼 부스팅 알고리즘, 로지트(Logit) 부스팅 알고리즘 및 그레디언트 부스팅 알고리즘에 대하여 설명하도록 하겠다.
2. 2-클래스에 관한 종래의 부스팅 알고리즘
부스팅 알고리즘은 분류(Classfication) 문제에 주로 사용되는 방법이다. 분류 문제의 기본 모형은 다음과 같다.
n 개의 학습 자료 (x1, y1), ..., (xn, yn)이 주어졌다고 가정하자. 여기서, xi는 p 차원의 설명 변수, 즉, xi = (x1i, ..., xpi)이고, 반응 변수 yi는 자료가 속하는 그룹을 나타낸다. 즉, J 개의 그룹이 있을 때, yi는 1부터 J 중의 하나의 정수값을 가진다.
분류 문제의 목적은 n 개의 학습 자료를 이용하여 설명 변수로 반응 변수를 가장 잘 설명하는 관계를 찾는 것이다. 다시 말하면, 학습 자료를 이용하여 최적의 함수 H : Rp --> {1, 2, ..., J}를 만드는 것이다. 그리고, 새로운 설명 변수 x가 주어지면, 이 자료를 그룹 H(x)로 할당한다.
먼저, 그룹이 두 개인 경우, 즉, J = 2 인 경우를 고려한다. 그룹이 여러 개인 경우는 후술하도록 한다. 다음은 여러 가지 부스팅 알고리즘에 관한 것이다.
2-1. 리얼 부스팅 알고리즘(Schapire and Singer, 1999)
리얼 부스팅 알고리즘은 데이터 마이닝을 위한 앙상블 구축 알고리즘에 있어서 가장 대표적인 알고리즘이다.
본 알고리즘은 미국 특허(US 5,819,247) 'Apparatus and methods for machine learning hypotheses'에 상세히 기재되어 있는 바, 이를 상세히 설명하면, 다음과 같다.
도 1은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.
(1) 스텝 S101 : 반응 변수 yi를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속 하면, -1로 놓는다.
(2) 스텝 S102 : n 개의 가중치 w1, ..., wn을 wi = 1/n으로 놓음으로써, 초기화한다.
(3) 스텝 S103 : n 개의 학습 자료 (x1, y1), ..., (xn, yn)과 가중치 w1, ..., wn을 이용하여 주어진 설명 변수 x에 대하여 반응 변수가 1일 확률을 기본 학습기를 이용하여 추정한다. 이때, 반응 변수가 1일 확률은 아래의 [수학식 1]에 의하여 결정된다.
Figure 112002006275691-pat00001
(4) 스텝 S104 : 상기 Pm을 변환하여 fm을 구한다. 이는 아래의 [수학식 2]에 의하여 결정된다.
Figure 112002006275691-pat00002
(5) 스텝 S105 : 새로운 가중치를 아래의 [수학식 3]에 의하여 구한 후, 이를
Figure 112002006275691-pat00003
이 되도록 정규화(Normalization)한다.
Figure 112002006275691-pat00004
(6) 스텝 S106 : 상기 스텝 S103 내지 스텝 S105를 m = 1, ..., M 번까지 반복함으로써, M 개의 기본 학습기를 생성한다.
(7) 스텝 S107 : 최종 앙상블 모형을 아래의 [수학식 4]에 의하여 결정한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.
Figure 112002006275691-pat00005
위와 같은 과정을 통하여 최종적으로 앙상블 모형을 구축하게 된다.
2-2. 로지트 부스팅 알고리즘(Friedman et al., 2000)
도 2는 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.
(1) 스텝 S201 : 반응 변수 yi를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속하면, 0으로 놓는다.
(2) 스텝 S202 : n 개의 가중치 w1, ..., wn을 wi = 1/n, F(x) = 0, p(x) = 1/2로 초기화한다.
(3) 스텝 S203 : 주어진 설명 변수에 대하여 새로운 반응 변수 zi 및 가중치 wi를 아래의 [수학식 5]에 의하여 구한다.
Figure 112002006275691-pat00006
(4) 스텝 S204 : 반응 변수 zi, 설명 변수 xi 및 가중치 wi를 이용하고, 기본 학습기를 참조하여 회귀 모형 fm(x)를 구축한다.
(5) 스텝 S205 : 상기 스텝 S204에서 구한 fm(x)를 이용하여 확률을 갱신한다. 이를 나타낸 것이 아래의 [수학식 6]이다.
Figure 112002006275691-pat00007
(6) 스텝 S206 : 상기 스텝 S203 내지 스텝 S205를 M 번 반복함으로써, 확률 갱신을 M 번 수행한다.
(7) 스텝 S207 : 최종 앙상블 모형을 H(x) = F(x)로 하여, 구축한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.
2-3. 그레디언트 부스팅 알고리즘(Friedman, 2001)
도 3은 분류 문제에서 그룹이 두 개인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도이다. 이를 상세히 설명하면, 다음과 같다.
(1) 스텝 S301 : 반응 변수 yi를 자료가 그룹 2에 속하면, 1로, 그룹 1에 속하면, -1로 놓는다.
(2) 스텝 S302 : 아래의 [수학식 7]과 같이 각종 변수를 초기화한다.
Figure 112002006275691-pat00008
(3) 스텝 S303 : 주어진 설명 변수에 대하여 새로운 반응 변수 zi를 아래의 [수학식 8]에 의하여 계산한다.
Figure 112002006275691-pat00009
(4) 스텝 S304 : 반응 변수 zi, 설명 변수 xi 및 기본 학습기(회귀 의사 결정 나무 모형 : Regression Decision Tree)를 이용하여 fm(x)를 추정한다.
(5) 스텝 S305 : 상기 fm(x)의 l 번째 최종 노드(Terminal Node)의 예측값
Figure 112002006275691-pat00010
을 아래의 [수학식 9]를 이용하여 추정한다.
Figure 112002006275691-pat00011
여기서, Ri는 i 번째 최종 노드에 속하는 자료의 집합이다.
(6) 스텝 S306 : F(x) = F(x) + fm(x)로 갱신한다.
(7) 스텝 S307 : 상기 스텝 S303 내지 스텝 S306을 M번 반복함으로써, F(x)를 M번 갱신한다.
(8) 스텝 S308 : 최종 앙상블 모형을 H(x) = F(x)로 구축한다. 이때, 새로운 반응 변수 x에 대하여 H(x) > 0 이면, 그룹 2에, H(x) < 0 이면, 그룹 1에 할당한다.
한편, 상술한 리얼 부스팅 알고리즘 또는 로지트 부스팅 알고리즘은 다양한 기본 학습기를 사용할 수 있지만, 그레디언트 부스팅 알고리즘은 기본 학습기로 반드시 의사 결정 나무를 사용하여야 한다.
또한, 상기 알고리즘에서 기본 학습기를 구축할 때, 학습기의 복잡도(Complexity)를 미리 정하여야 한다. 기본 학습기가 의사 결정 나무인 경우에는 최종 노드의 수로 학습기의 복잡도를 조절할 수 있다. 한편, 부스팅 알고리즘에서는 기본 학습기들이 약한 학습기이므로, 학습기의 복잡도를 최소화한다. 일반적으로는 2 개 내지 8 개의 최종 노드를 가지는 의사 결정 나무가 기본 학습기로 많이 사용되고 있다.
3. 멀티 클래스(Multi Class)에 대한 종래의 부스팅 알고리즘
상술한 3 가지 부스팅 알고리즘들은 그룹이 2 개인 경우에 적용되는 알고리즘들이고, 그룹이 2 개 이상으로 확장되는 경우에는 상기 알고리즘들을 확장 변형 하여야만 한다.
이하에서는 멀티 클래스에 적용되는 리얼 부스팅 알고리즘, 로지트 부스팅 알고리즘 및 그레디언트 부스팅 알고리즘에 대하여 살펴 보도록 하겠다.
3-1. 멀티 클래스에 적용되는 리얼 부스팅 알고리즘
도 4는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 리얼 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
(1) 스텝 S401 : 주어진 하나의 학습 자료 (xi, yi)에 대하여 J 개의 새로운 자료 ((xi, 1), yi1), ..., ((xi, J), yiJ)를 생성한다. 이때, yik는 yi가 k이면, 1이고, k가 아니면, -1이다.
(2) 스텝 S402 : 2-클래스 리얼 부스팅 알고리즘을 n X J 개의 새로운 자료에 적용시켜(즉, 멀티 클래스를 2-클래스로 변환), 최종 앙상블 모형을 아래의 [수학식 10]에 의하여 구축한다.
Figure 112002006275691-pat00012
(3) 스텝 S403 : 새로운 설명 변수 x에 대하여 argmaxj H(x, j) 그룹에 할당한다.
한편, 상술한 멀티 클래스에 적용되는 리얼 부스팅 알고리즘은 실행 횟수, 즉, 계산 횟수가 부스팅 횟수에 해당하므로 시간이 특히 너무 오래 걸린다는 문제 점이 있다.
3-2. 멀티 클래스에 적용되는 로지트 부스팅 알고리즘
도 5는 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 로지트 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
(1) 스텝 S501 : 각종 변수들을 초기화한다. 즉, Fj(x) = 0, pj(x) = 1/J, j = 1, 2, ..., J로 놓는다.
(2) 스텝 S502 : i 번째 자료가 j 그룹에 포함되면 yi * = 1로, 포함되지 아니하면, yi * = 0로 놓는다.
(3) 스텝 S503 : 새로운 반응 변수 zi 및 새로운 가중치 wi를 아래의 [수학식 11]에 의하여 결정한다.
Figure 112002006275691-pat00013
(4) 스텝 S504 : 반응 변수 zi, 설명 변수 xi, 가중치 wi를 이용하고, 기본 학습기를 참조함으로써, 회귀 모형 fmj(x)를 산출한다.
(5) 스텝 S505 : 상기 스텝 S502 내지 스텝 S504를 J번 반복한다.
(6) 스텝 S506 : j 번째 Fj(x)를 아래의 [수학식 12]에 의하여 갱신한다.
Figure 112002006275691-pat00014
(7) 스텝 S507 : j 번째 확률 pj(x)를 아래의 [수학식 13]에 의하여 갱신한다.
Figure 112002006275691-pat00015
(8) 스텝 S508 : 상기 스텝 S502 내지 스텝 S507을 M 번 반복한다.
(9) 스텝 S509 : 새로운 설명 변수 x에 대하여 argmaxjFj(x) 그룹에 할당한다.
3-3. 멀티 클래스에 적용되는 그레디언트 부스팅 알고리즘
도 6은 분류 문제에서 멀티 클래스인 경우에 적용되는 종래의 그레디언트 부스팅 방법을 나타낸 흐름도로서, 이를 상세히 설명하면 다음과 같다.
(1) 스텝 S601 : 각종 변수들을 초기화한다. 즉, Fj(x) = 0, pj(x) = 1/J, j = 1, 2, ..., J로 놓는다.
(2) 스텝 S602 : i 번째 자료가 j 그룹에 포함되면, yi * = 1, 포함되지 아니하면, yi * = 0로 놓는다.
(3) 스텝 S603 : 새로운 반응 변수 zi를 아래의 [수학식 14]로 결정한다.
Figure 112002006275691-pat00016
(4) 스텝 S604 : 반응 변수 zi, 설명 변수 xi를 이용하고, 기본 학습기(회귀 의사 결정 나무 모형 : Regression Decision Tree)를 이용하여 회귀 모형 fmj(x)를 구축한다.
(5) 스텝 S605 : 상기 회귀 모형 fmj(x)의 l 번째 최종 노드(Terminal Node)의 예측값
Figure 112002006275691-pat00017
을 아래의 [수학식 15]에 의하여 추정한다.
Figure 112002006275691-pat00018
(6) 스텝 S606 : Fj(x)를 아래의 [수학식 16]에 의하여 결정한다.
Figure 112002006275691-pat00019
(7) 스텝 S607 : 상기 스텝 S602 내지 스텝 S606을 j = 1, ..., J 번 반복한 다.
(8) 스텝 S608 : 상기 스텝 S602 내지 스텝 S607을 m = 1, ..., M 번 반복한다.
(9) 스텝 S609 : 새로운 설명 변수 x에 대하여 argmaxjFj(x) 그룹에 할당한다.
4. 종래 기술들의 문제점 정리
상술한 바와 같은 부스팅 기법의 기본 아이디어는 여러 개의 약한 학습기를 구축한 후, 이를 결합하여 새로운 강한 학습기를 만드는 것이다. 그러나, 이러한 아이디어는 여러 가지 문제점을 가지고 있는데, 이를 정리하면 다음과 같다.
첫째, 구축된 모형의 해석이 어렵다.
둘째, 여러 개의 튜닝 모수(Tuning Parameter), 즉, 의사 결정 나무의 크기, 의사 결정 나무의 개수 등이 있는데, 이를 일반 사용자가 정하는 것이 쉽지 않다.
셋째, 자료가 과적합(Overfitting)되는 경향이 있다.(Ridgeway, 2000)
넷째, 반응 변수의 종류가 연속형인 경우에 알고리즘의 사용이 쉽지 않다.
다섯째, 분류(Classification) 문제에서 확률의 추정이 쉽지 않다. 즉, 새로운 데이터가 입력될 때, 입력된 새로운 데이터가 취할 분류 확률을 추정할 수가 없다.
여섯째, 부스팅 기법의 일반적인(통계학적) 이론이 미비하여 그 안정성에 대 한 검증이 쉽지 않다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 다차원 거대 자료의 분석 및 예측에 있어서 기존의 방법에 비하여 보다 빠른 계산 시간 및 안정적인 모델의 구축이 용이하고 뛰어난 해석력과 예측력을 가지는 앙상블 구축 장치 및 그 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위하여 본 발명에 따르면, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, M 개의 앙상블 모형 구축 수단을 포함하고, 첫 번째 앙상블 모형 구축 수단은 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여, 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; k 번째 앙상블 모형 구축 수단은 k-1 번째 앙상블 모형 구축 수단의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치를 제공한다.
또한, 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, M 번의 앙상블 모형 구축 단계를 포함하고, 제 1 번째 앙상블 모형 구축 단계는, 입력되는 다차원 학습 자료로부터 첫 번째 학습기를 구축하여 상기 구축된 첫 번째 학습기 자체를 첫 번째 앙상블 모형으로 구축하고; 제 k 번째 앙상블 모형 구축 단계는, 제 k-1 번째 앙상블 모형 구축 단계의 결과물인 k-1 번째 학습기를 입력받아, 다차원 공간 상에서 직교인 k 번째 학습기를 구축하고, 상기 구축된 k 번째 학습기와 k-1 번째 앙상블 모형을 결합함으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법을 제공한다.
또한, 앙상블(Ensemble) 모형을 이용한 두 그룹 분류에서의 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 가중치 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 확률 추정 수단; 상기 확률 추정 수단에 의하여 추정된 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 학습기 갱신 수단; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 장치를 제공한다.
또한, 앙상블(Ensemble) 모형을 이용한 두 그룹 분류에서의 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입 력받는 제 1 단계; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계; 상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 및 상기 제 4 단계에서 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 제 5 단계를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 방법을 제공한다.
앙상블(Ensemble) 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 가중치 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 확률 추정 수단; 상기 확률 추정 수단에 의하여 추정된 확률에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 학습기 갱신 수단; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 장치를 제공한다.
또한, 앙상블(Ensemble) 모형을 이용한 멀티 클래스 분류에서의 데이터 마이 닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입력받는 제 1 단계; 앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계; 상기 제 3 단계에서 추정된 확률에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 상기 제 4 단계에서 계산된 수정 모수를 이용하여 학습기를 갱신하여 재구축하는 제 5 단계; 및 상기 갱신된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 제 6 단계를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법을 제공한다.
또한, 반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 장치에 있어서, 다차원 데이터인 학습 자료들을 입력받는 입력 수단; 앙상블 모형의 잔차를 계산하는 잔차 계산 수단; 상기 입력 수단에 의하여 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 회귀 모형 구축 수단; 상기 회귀 모형 구축 수단에 의하여 구축된 회귀 모형에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 수정 모수 계산 수단; 상기 계산된 수정 모수를 이용하여 반응 변수를 갱신함으로써, 학습기를 재구축하는 학습기 갱신 수단; 및 상기 재구축된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 앙상블 모형 구축 수단을 포함하는 것을 특징으로 하는 반응 변수가 연속형인 경우에 앙상블 모형을 이용한 데 이터 마이닝 모형 구축 장치를 제공한다.
또한, 반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서, 다차원 데이터인 학습 자료들을 입력받는 제 1 단계; 앙상블 모형의 잔차를 계산하는 제 2 단계; 상기 제 1 단계에서 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 제 3 단계; 상기 제 3 단계에서 구축된 회귀 모형에 대한 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산하는 제 4 단계; 상기 제 4 단계에서 계산된 수정 모수를 이용하여 반응 변수를 갱신함으로써, 학습기를 재구축하는 제 5 단계; 및 상기 제 5 단계에서 재구축된 학습기에 기반하여 앙상블 모형을 최종적으로 구축하는 제 6 단계를 포함하는 것을 특징으로 하는 반응 변수가 연속형인 경우에 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법을 제공한다.
보다 더 양호하게는, 상기 입력된 학습 데이터들을 가중치를 이용하여 부스트랩(Boostrap) 자료로 생성한다.
또한, 보다 더 양호하게는, 상기 학습기는 의사 결정 나무(Decision Tree) 또는 신경망 모형 중 어느 하나인 것을 특징으로 한다.
또한, 보다 더 양호하게는, 현재 앙상블 모형의 손실 함수가 가장 작을 때 최종적으로 앙상블 모형을 구축한다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 데이터 마이닝 을 위한 앙상블 구축 장치 및 그 방법을 보다 상세하게 설명하기로 한다.
1. 서설
본 발명에서 제안하는 데이터 마이닝 모형 구축 알고리즘은 상술한 부스팅 기법의 문제들을 해결하면서, 동시에 그 예측력이 부스팅보다 뛰어난 새로운 알고리즘이다. 또한 해석력에 있어서도 의사 결정 나무를 기본 학습기로 채용하는 경우, 종래의 데이터 마이닝 기법 중 그 해석력이 가장 뛰어나다고 알려진(물론, 예측력은 매우 나쁨.) 의사 결정 나무보다도 더욱 향상된 결과를 가져온다. 특히, 주어진 자료를 설명할 수 있는 다양한 종류의 연관성 규칙을 추출할 수 있고, 이를 통하여 다양한 각도에서 주어진 자료를 분석할 수 있다.
이론적으로 본 발명에서 제안하는 알고리즘은 부스팅 기법의 이론과는 기본이 되는 아이디어가 완전히 다르다. 부스팅 기법은 약한 학습기 여러개를 융합하여 새로운 강한 학습기를 만드는 것임에 비하여, 본 발명에서 제안하는 알고리즘은 강한 학습기 여러 개를 융합하여 보다 더 강한 학습기를 만드는 것이다.
본 발명에서 제안하는 앙상블 기법에 쓰이는 기본 학습기는 의사 결정 나무를 사용하는 경우를 예로 들어 설명하도록 하겠다. 그 이유는, 의사 결정 나무의 장점인 알고리즘의 단순성과 높은 해석력 때문이다. 그러나, 기본 학습기의 선정은 자료의 종류에 따라 바뀔 수 있는데, 예를 들면, 문자 인식이나 음성 인식의 경우에는 신경망(Neural Network) 모형을 사용할 수 있다.
의사 결정 나무를 기본 학습기로 사용하기 위해서는 빠른 계산이 필수적이 다. 일반적으로 현재 널리 알려진 의사 결정 나무 구축 알고리즘으로는 'Breiman'이 제시한 카트 알고리즘(CART Algorithm, Breiman et al., 1986)이 있다. 카트 알고리즘의 경우에는, 나무의 성장, 가지 치기 및 최적 의사 결정 나무 선택의 3 단계로 이루어진다.
이때, 세 번째 단계인 최적 나무 모형을 선택하는 알고리즘은 교차 확인(Cross Validation) 기법을 사용하는데, 이 기법은 많은 계산량을 요구한다. 하나의 의사 결정 나무를 생성하기 위하여 교차 확인에 필요한 계산량은 그리 부담이 되지 않지만, 앙상블 기법에서는 여러 개의 의사 결정 나무를 생성하기 때문에, 모든 의사 결정 나무에 교차 확인 기법을 적용하는 것은 계산량의 폭증을 필연적으로 수반하게 된다.
본 발명에서는 이러한 교차 확인의 문제점을 극복하기 위하여 TIC(Tree Information Criteria)라는 양을 새로 정의하고, 이를 이용함으로써, 보다 빠른 시간에 최적의 의사 결정 나무를 구축하게 된다.
그러나, 본 발명에서 제안하는 데이터 마이닝 모형 구축 기법은 상기 TIC를 이용한 의사 결정 나무 선택 방법에 제한되는 것은 아니다. 왜냐하면, 본 발명은 기본 학습기로 의사 결정 나무만이 사용되는 것이 아니라 다양한 기본 학습기(예를 들면, 신경망 학습기)를 사용할 수 있기 때문이다. 다만, 설명의 편의상 본 출원에서는 기본 학습기로 의사 결정 나무를 선택하여 설명한다.
도 7은 본 발명의 일 실시예에 따른 앙상블 모형 구축 방법을 개략적으로 도시한 흐름도로서, 이를 설명하면 다음과 같다.
먼저, 스텝 S701에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S702에서, 기본 학습기를 구축한다. 이때, 기본 학습기로는 의사 결정 나무, 신경망 모형 등이 사용될 수 있는 바, 본 출원서에서는 설명의 편의상 의사 결정 나무인 것으로 한다. 따라서, 스텝 S702에서는 최적의 의사 결정 나무를 구축하게 된다. 이때, 최적의 의사 결정 나무를 구축하는 방법은 여러 가지가 있는데, 본 발명에서는 TIC(Tree Information Criteria) 알고리즘이라는 새로운 방법을 도입한다.
이어서, 스텝 S703에서, 구축된 기본 학습기들을 이용하여 앙상블 모형을 구축하고, 스텝 S704에서, 상기 구축된 앙상블 모형이 최적인지 여부를 판단한다.
상기 스텝 S704에서의 판단 결과, 최적이 아닌 것으로 판단되면, 스텝 S705에서, 새로운 반응 변수를 생성한 후, 상기 스텝 S702로 복귀한다.
상기 스텝 S704에서의 판단 결과, 최적인 것으로 판단되면, 스텝 S706에서, 최종 모형을 구축한 후, 종료한다.
한편, 본 출원서의 구성은 다음과 같다.
(1) 먼저, 교차 확인 방법을 대치하는 새로운 최적의 의사 결정 나무 구축 알고리즘인 TIC에 대해서 설명함으로써, 최적의 의사 결정 나무 구축 방법을 알아 보고(스텝 S702), (2) 본 발명이 이용하는 부스트랩(Boostrap) 자료 추출 방법을 살펴보며(스텝 S703의 전단부), (3) 이를 이용한 새로운 앙상블 알고리즘을 설명하고,(반드시 TIC 알고리즘을 이용할 필요가 없슴. 즉, 기본 학습기로 의사 결정 나무를 반드시 선택할 필요가 없슴.)(스텝 S703의 후반부 내지 스텝 S706) (3) 연관 성 규칙 생성 알고리즘을 살펴보며, (4) 가상 실험을 통하여 여러 가지 알고리즘의 성능을 비교한 후, 마지막으로 실제 자료를 이용하여 각각의 알고리즘의 성능을 비교한다.
2. TIC(Tree Information Criteria)
본 절에서는 최적의 의사 결정 나무를 결정하는 문제에서 기존에 사용되는 교차 확인 방법의 문제점을 개선하는 TIC 방법에 대하여 설명한다. 먼저 의사 결정 나무를 생성하는 전반적인 알고리즘을 설명하고, 종래의 교차 확인 알고리즘을 살펴 본 후, 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무 선택 알고리즘을 설명하도록 하겠다.
2-1. 의사 결정 나무 구축 알고리즘(Breiman et al., 1984)
'Breiman'이 제시한 의사 결정 나무 구축 알고리즘은 크게는 삼단계로 나눌 수 있다.
첫째는 성장 알고리즘으로서, 주어진 자료에 대하여 가장 큰 크기의 의사 결정 나무를 생성하는 단계이다.
둘째는 가지 치기 알고리즘으로서, 상기 성장 알고리즘을 통하여 구축한 거대한 의사 결정 나무에서 불필요한 가지를 순서대로 삭제함으로써, 내포되는 여러개의 의사 결정 나무들을 생성하는 단계이다. 이때, 구축된 의사 결정 나무들은 점점 그 크기가 작아진다.
셋째는 최적 나무 선택 알고리즘으로서, 상기 가지 치기 알고리즘으로 구한 의사 결정 나무 중 최적의 의사 결정 나무를 선택하는 단계이다.
2-2. 최적 의사 결정 나무 선택을 위한 교차 확인 알고리즘(k 폴드 교차 확인)
도 8은 최적의 의사 결정 나무 선택을 위한 교차 확인 과정을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
입력되는 다차원 데이터에서 성장 알고리즘과 가지 치기 알고리즘을 이용하여 생성된 의사 결정 나무를 T1, ..., Tm이라 하고, ei는 Ti의 교차 확인 에러라고 하자.
(1) 스텝 S801 : 각종 변수들을 초기화한다. 즉, ei = 0, i = 1, 2, ..., m 으로 놓는다.
(2) 스텝 S802 : 주어진 n 개의 학습 자료를 k 등분하여 k 개의 상호 배반인 자료 D1, D2, ..., Dk를 생성한다.
(3) 스텝 S803 : Di를 테스트 자료로 하고, 나머지 자료를 학습 자료로 한다.
(4) 스텝 S804 : 상기 학습 자료들을 이용하여 내포되는 의사 결정 나무들(성장과 가지 치기 알고리즘을 이용하여)을 구축한다.
(5) 스텝 S805 : 상기 구축된 의사 결정 나무들 각각에 대하여 테스트 자료(Di)를 이용하여 예측 에러를 구한다.
(6) 스텝 S806 : 상기 구축된 의사 결정 나무 중 의사 결정 나무 Tj에 가장 근접한 의사 결정 나무를 선택한다. 이때, 선택하는 알고리즘은 'Breiman et al.(1984)'에 상세히 기재되어 있는 바, 여기서는 생략한다.
(7) 스텝 S807 : ej에 상기 스텝 S806에서 구한 의사 결정 나무의 예측 에러를 더한다.
(8) 스텝 S808 : j = 1, ..., m번 반복한다.
(9) 스텝 S809 : i = 1, ..., k번 반복한다.
(10) 스텝 S810 : e1, ..., em을 의사 결정 나무 T1, ..., Tm 각각의 교차 확인 에러라 부르며, 이 교차 확인 에러가 가장 작은 의사 결정 나무를 최적의 의사 결정 나무로 선택한다.
한편, 이러한 교차 확인 알고리즘은 k 폴드 교차 확인 알고리즘이라고도 부르는데, 일반적으로 5 폴드 또는 10 폴드 교차 확인 방법이 주로 사용된다.
상술한 바와 같은 최적의 의사 결정 나무 구축을 위한 교차 확인 알고리즘은 의사 결정 나무를 여러번 구축해야 한다. 따라서, 자료가 거대한 경우에는 계산 시간이 매우 길어지고, 그 결과가 자료를 어떻게 나누느냐에 따라 임의적으로 변동하는 문제점이 있다.
이러한 교차 확인 방법이 가지고 있는 계산량의 폭증과 결과의 불안정성 등의 문제를 해결하기 위하여 본 발명에서는 TIC라는 알고리즘을 새롭게 제안한다. 이하에서는 TIC 알고리즘을 소개한다.
2-3. 최적의 의사 결정 나무 선택을 위한 TIC 알고리즘
TIC 알고리즘의 목적은 여러 개의 나무 순열, 즉, T1, ..., Tm 중 최적의 나무를 결정하는 것이다. 이때, 각각의 나무의 사후 확률(Posterior Probability)을 계산하고, 이 사후 확률이 가장 큰 나무를 최적의 나무로 선택하게 된다.
사후 확률이란 주어진 자료에 대하여 각각의 나무의 확률을 의미한다. 즉, 나무 Ti의 사후 확률은 주어진 자료 Dn = {(y1, x1), ..., (y n, xn)}에 대하여
Figure 112002006275691-pat00020
이 된다.
도 9는 TIC를 이용한 최적의 의사 결정 나무를 선택하는 방법의 전체 개요를 보여주는 흐름도로서, 이를 상세히 설명하면, 다음과 같다.
먼저, 스텝 S901에서, 다차원 데이터인 학습 데이터가 입력되면, 스텝 S902에서, 상기 자료를 이용하여 최대 크기의 의사 결정 나무를 구축한다. 이어서, 스텝 S903에서, 상기 구축된 최대 크기 의사 결정 나무들을 가지 치기 이론을 이용하여 내포 의사 결정 나무(Nested Trees)들로 새롭게 생성한다.
그리고, 스텝 S904에서, 각각의 의사 결정 나무들의 사후 확률을 계산한 후, 스텝 S905에서, 최대 사후 확률을 가지는 의사 결정 나무를 선택하여, 스텝 S906에서, 단일화된 최적 의사 결정 나무를 최종적으로 구한다.
이하에서는 이러한 최적 의사 결정 나무를 선택하는 방법을 보다 상세하게 설명한다.
먼저, 사후 확률을 계산하는 일반적인 방법에 대하여 살펴 본다.
사후 확률은 베이지안 정리(Bayesian Theorem)에 의하여
Figure 112002006275691-pat00021
= cPr(Dn Ti)Pr(Ti)가 되며, 이때 상기 Pr(Dn │ T i)는 모형이 Ti일 때의 자료의 확률, Pr(Ti)는 자료를 보기 전에 사용자가 임의로 정한 확률, 그리고, c는
Figure 112002006275691-pat00022
로 만드는 상수이다.
한편, 사후 확률을 구하는 목적은 사후 확률이 가장 큰 나무를 결정하기 위한 것으로서, 상기 상수 c는 구할 필요가 없으며, 아래의 [수학식 17]을 사용하기 로 한다.
Figure 112002006275691-pat00023
Pr(Dn │ Ti)를 구하여 보자.
먼저, 자료가 독립이므로, 아래의 [수학식 18]가 성립한다.
Figure 112002006275691-pat00024
또한, 상기 [수학식 18]은 아래의 [수학식 19]로도 쓸 수 있다.
Figure 112002006275691-pat00025
여기서, 나무 모형 Ti는 주어진 입력 xk에 대하여 yk의 확률 구조를 나타내는 모형이므로, Pr(xk│Ti)는 Ti에 의존하지 아니한다. 즉, Pr(xk│T i) = Pr(xk)이다. 따라서, Pr(Dn│Ti)를 구하기 위하여는 Pr(yk│Ti, xk )를 구하면 된다.
한편, 상수 c와 마찬가지로 Pr(xk)는 모든 나무에 공통으로 적용되는 값으로서, 최대의 사후 확률을 가지는 나무를 찾는데는 필요하지 않다. 따라서, 이를 반영하여 수식으로 표현하면, 아래의 [수학식 20]이 된다.
Figure 112002006275691-pat00026
상기
Figure 112002006275691-pat00027
를 구하는 방법은 다음과 같다.
Figure 112002006275691-pat00028
의 최종 노드들의 집합을
Figure 112002006275691-pat00029
라 하자. 그리고, 주어진 h 번째 최종 노드에 대하여 각 J 개의 그룹의 확률을
Figure 112002006275691-pat00030
라 하자. 그러면, 주어진 입력 변수 xk가 나무
Figure 112002006275691-pat00031
의 h 번째 최종 노드에 속하는 경우, 아래의 [수학식 21]이 성립한다.
Figure 112002006275691-pat00032
이때, yk는 자료가 속하는 그룹을 나타낸다.
상술한 내용들을 이용하면, 아래의 [수학식 22]가 성립한다.
Figure 112002006275691-pat00033
이때, njh는 h 번째 최종 노드에 포함되는 자료 중, 그룹 j에 속하는 자료의 수이다.
각 최종 노드의 확률
Figure 112002006275691-pat00034
가 모르는 변수이므로, 이를 기대값을 이용하여 제거한다. 기대값을 구하기 위하여는
Figure 112002006275691-pat00035
의 분포가 필요한데, 이를
Figure 112002006275691-pat00036
라 하자. 그러면, 아래의 [수학식 23]이 성립한다.
Figure 112002006275691-pat00037
여기서,
Figure 112002006275691-pat00038
로 여러 가지 분포를 사용할 수 있으며, 일반적인 분포를 사용하면, 아래의 [수학식 24]가 성립한다.
Figure 112002006275691-pat00039
또한, 일양 분포를 사용하면, 아래의 [수학식 25]가 성립한다.
Figure 112002006275691-pat00040
이때,
Figure 112002006275691-pat00041
이다.
한편, 상기 일양 분포는 아래의 [수학식 26]과 같이 정의된다.
Figure 112002006275691-pat00042
이하에서는 나무의 사전 확률(Prior Probability)
Figure 112002006275691-pat00043
를 정하는 방법을 살펴 보자.
Figure 112002006275691-pat00044
는 자료로부터 구하는 것이 아니라, 사용자가 입력하는 것이다.
TIC를 위한
Figure 112002006275691-pat00045
는 다음과 같이 구축한다.
먼저, 각각의 주어진 h 번째 노드에서 그 노드가 중간 노드(즉, 계속해서 분기가 진행됨.)가 될 확률을 아래의 [수학식 27]과 같이 정의하자.
Figure 112002006275691-pat00046
여기서, fh는 주어진 노드의 조상 노드들의 수이고, 상수
Figure 112002006275691-pat00047
Figure 112002006275691-pat00048
는 사용자에 의하여 정하여 진다.
그러면, 주어진 노드가 최종 노드가 될 확률은 자연스럽게 아래의 [수학식 28]과 같이 결정된다.
Figure 112002006275691-pat00049
상기 [수학식 28]와 같은 조건하에서 주어진 나무 Ti의 사전 확률은 아래의 [수학식 29]와 같이 표현된다.
Figure 112002006275691-pat00050
이 때,
Figure 112002006275691-pat00051
는 중간 노드(즉, 최종 노드가 아닌 모든 노드)의 집합이다.
이제, 상술한 내용들을 이용하여 TIC를 계산해 보도록 하자.
상술한 수식을 모두 정리하면, 아래의 [수학식 30]으로 최종 정리된다. 이때, 아래의 [수학식 30]은 일양 분포를 이용한 것이다.
Figure 112002006275691-pat00052
그리고, 위의 마지막 식에 log를 취한 값을 TIC로 정의한다. 즉, 나무 Ti의 TIC는 아래의 [수학식 31]과 같이 표현된다.
Figure 112002006275691-pat00053
그룹이 두 개인 경우, 즉, J = 2 인 경우의 TIC는 아래의 [수학식 32]와 같이 표현된다.
Figure 112002006275691-pat00054
이때,
Figure 112002006275691-pat00055
는 h 번째 최종 노드에 있는 자료 중, 두 번째 그룹에 속하는 자료의 수가 된다.
상술한 바와 같이 정의한 TIC를 각각의 의사 결정 나무 T1, ..., Tm에 적용하여 TIC가 최대가 되는 의사 결정 나무를 최적의 의사 결정 나무로 선택함으로서, 본 알고리즘은 종료된다.
한편, 종래의 베이지안 정리를 이용하는 방법과 본 발명에서 제시하는 TIC 방법은 사후 확률을 이용한다는 측면에서는 같은 발명이나, 사후 확률을 구할 때 사용되는 사전 확률의 구축에 있어서 차이가 있다. 그리고, 이러한 차이는 사후 확률의 계산에 많은 영향을 미친다. 즉, 종래의 베이지안 정리를 이용하는 방법에서는 사후 확률이 수식으로 계산되지 아니하며, 이를 컴퓨터를 사용하여 계산하는데, 그 계산 시간이 교차 확인을 사용하는 방법보다 훨씬 오래 걸린다.
종래의 베이지안 정리를 이용하는 방법에서 사전 확률을 구축하는 방법은 가능한 모든 나무에 확률을 할당한다. 그런데, 가능한 모든 의사 결정 나무의 수는 엄청나게 많으므로, 사전 확률을 구축하는 방법 또한 매우 복잡하다. 그리고, 필연적으로, 사후 확률을 구하여야 하는 의사 결정 나무의 수도 크게 증가하게 되고, 이는 곧 계산량의 폭증으로 이어진다.
그러나, TIC 방법은 종래의 베이지안 정리를 이용하는 방법의 문제점을 해결한 것으로서, 사전 확률을 가능한 모든 의사 결정 나무에 할당하는 것이 아니라, 가지 치기 알고리즘으로부터 도출된 내포되는 의사 결정 나무에만 할당한다. 따라서, 사전 확률을 구축하는 방법이 매우 쉽고, 사후 확률의 계산 또한 간단해 진다는 효과가 있다.
즉, TIC 방법에서 사용하는 사전 확률 구축 방법은 자료를 이용하여 의사 결정 나무들의 집합을 줄이는 방법으로서, 이 부분이 종래의 베이지안 정리를 이용한 방법과 결정적으로 다른 부분이다.
정리하면, TIC를 이용하는 방법은 의사 결정 나무를 한번만 구축하면 되므로, 교차 확인을 이용하는 방법에 비하여 계산 속도가 비약적으로 향상된다. 또한, 그 결과도 같은 자료에는 항상 같게 되므로, 결과에 대한 신뢰도가 교차 확인 방법에 비하여 매우 뛰어나다.
아래의 [표 1]은 종래의 5 폴드 교차 확인 방법과 본 발명에서 제안하는 TIC를 이용한 최적 의사 결정 나무의 선택 방법의 시뮬레이션 결과를 보여준다.
즉, 본 실험 데이터는 5 폴드 교차 확인을 통한 단일 나무(Single Tree)의 생성과 본 발명에서 제안하는 TIC를 이용한 싱글 트리의 생성 속도를 비교하기 위한 데이터이다.
각각의 실험 데이터는 평균 동일한 데이터를 반복 횟수 500 번씩 생성할 때의 평균 시간을 나타내며, 컴퓨터의 사양은 펜티엄 3 900 MHz, 메인 메모리 256 메가 바이트, 운영 체제는 윈도우 2000 이다.
아래의 [표 1]에 의하면, 본 발명에서 제안하는 TIC 방법은 종래의 5 폴드 교차 확인 방법에 비하여 대략 1/5의 계산 시간만이 소요됨을 알 수 있다.
한편, 시뮬레이션 자료는 데이터마이닝에서 널리 알려져 있는 표준 자료에 해당하는 바, 각각 'Radius2', 'Interaction', 'Breast Cancer', 'Ionosphere' 및 'Sonar' 자료로서, 본 기술 분야에서는 데이터마이닝의 효율을 가늠하는 가장 유력한 시뮬레이션 자료이다. 본 시뮬레이션 자료는 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에 상세하게 나와 있다.
[표 1]
데이터 5폴드 교차확인 TIC
평균 소요 시간 평균 소요 시간
radius2 235.4 msec 43.2 msec
interaction 228.6 msec 43.3 msec
breast cancer 128.3 msec 25.6 msec
ionosphere 182.9 msec 34.4 msec
sonar 259.3 msec 46.6 msec
3. 부스트랩(Boostrap) 자료 추출 방법
본 장에서는 본 발명이 이용하고 있는 부스트랩 자료의 추출 방법에 대하여 개략적으로 설명한다.
먼저, 부스트랩 자료 생성의 전반적인 알고리즘은 다음과 같다.
원래의 데이터가 y1, ..., yn의 n 개의 데이터라고 하면, 생성하고자 하는 부스트랩 자료의 개수 m을 정한 후, 새로운 데이터 집합 DB를 공집합으로 초기화한다.
그리고, 난수 발생기를 이용하여
Figure 112002006275691-pat00056
인 정수 k를 생성한 후,
Figure 112002006275691-pat00057
Figure 112002006275691-pat00058
로 할당하고,
Figure 112002006275691-pat00059
Figure 112002006275691-pat00060
에 추가하는데, 이 과정을 i = 1, ..., m 번 반복한다.
도 10은 본 발명의 일 실시예에 따른 부스트랩 자료의 생성 과정을 나타낸 흐름도로서, 이를 설명하면 다음과 같다.
(1) 스텝 S1001 : 입력되는 n 개의 다차원 자료 (x1, y1), ..., (xn, y n)에 대하여 w1, ..., wn의 가중치를 할당한다. 여기서 xi는 p 차원의 설명 변수이다. 즉, xi = (x1i, ..., xpi)이다.
(2) 스텝 S1002 : y1, ..., yn에 대하여 할당된 w1, ..., wn의 가중치의 누적 가중치를 계산한다. 즉, 새로운 누적 가중치는 아래의 [수학식 33]과 같이 계산된다.
Figure 112002006275691-pat00061
(3) 스텝 S1003 : 생성하고자 하는 새로운 데이터의 개수 m을 정한다. 본 발명에 따른 앙상블 알고리즘을 위한 부스트랩 자료의 개수 m은 n으로 한다.
(4) 스텝 S1004 : 새로운 데이터의 집합, DB를 공집합으로 초기화한다.
(5) 스텝 S1005 : 난수 발생기를 이용하여
Figure 112002006275691-pat00062
을 만족하는 실수 난수를 생성한다.
(6) 스텝 S1006 :
Figure 112002006275691-pat00063
, ...,
Figure 112002006275691-pat00064
중,
Figure 112002006275691-pat00065
를 만족하는 j를 결정한다. 이때, j = 1, ..., n 이다.
(7) 스텝 S1007 :
Figure 112002006275691-pat00066
로 할당한다.
(8) 스텝 S1008 :
Figure 112002006275691-pat00067
에 해당하는 가중치
Figure 112002006275691-pat00068
으로 한다.
(9) 스텝 S1009 :
Figure 112002006275691-pat00069
Figure 112002006275691-pat00070
에 추가한다.
(10) 스텝 S1010 : i = 1, ..., m 번 반복한다.
4. 본 발명에서 제안하는 앙상블 알고리즘의 배경 및 기본 원리
4-1. 서언
본 장에서는 본 출원에서 제안하는 새로운 앙상블 알고리즘의 배경 및 기본 원리를 설명한다. 본 발명에 따른 앙상블 알고리즘은 캠 알고리즘(CHEM : Convex Hull Ensemble Machine)이라고 지칭하겠다.
캠 알고리즘은 여러 개의 기본 학습기를 이용하여 새로운 학습기를 생성하는 앙상블 알고리즘이다.
분류 문제(반응 변수가 범주형인 경우)나 회귀 모형(반응 변수가 연속형인 경우)에 있어서, 학습 문제를 함수 추정 문제로 바꿀 수 있다.
반응 변수가 J 개의 범주를 가지는 분류 문제에서는 J 차원 함수 F = (F1, ..., FJ)를 추정하는 문제인데, 이때, 상기 함수 F는 아래의 [수학식 34]와 같이 정의된다.
Figure 112002006275691-pat00071
또한, 회귀 모형 문제인 경우에는
Figure 112002006275691-pat00072
를 추정하는 문제로 된다.
함수 F의 참값을
Figure 112002006275691-pat00073
(참 학습기라 칭한다.)라고 하면,
Figure 112002006275691-pat00074
를 캠 알고리즘에서 사용되는 기본 학습기들의 집합이라고 하자. 즉, 주어진 학습 자료에 대하여 최적의 기본 학습기를 집합
Figure 112002006275691-pat00075
중의 하나로 선택한다. 한편, 최적의 기본 학습기를 찾는 방법은 종래에 널리 알려져 있다.
데이터 마이닝에 사용되는 기본 학습기들의 집합
Figure 112002006275691-pat00076
로는 의사 결정 나무, 신경망 모형 등이 사용된다. 그러나, 이러한 기본 학습기들의 큰 문제점으로는 자료의 변화에 매우 민감하게 반응한다는 것이다. 이러한 기본 학습기들의 불안정성의 원인을 규명하고 이를 극복하기 위한 것이 본 발명에서 제안하는 캠 알고리즘인 것이다.
종래의 기본 학습기들의 불안정성의 원인을 살펴보면, 다음과 같다.
4-2. 종래의 기본 학습기들의 불안정성의 원인
데이터 마이닝에 사용되는 여러 가지 알고리즘들이 매우 불안정하게 움직이는 이유는 기본 학습기 집합
Figure 112002006275691-pat00077
내부에 있는 서로 다른 많은 학습기들이 자료를 비슷하게 설명하기 때문이다.
전혀 다른 학습기들이 자료를 비슷하게 설명하는 보다 근본적인 이유는
Figure 112002006275691-pat00078
가 고려된 기본 학습기 집합
Figure 112002006275691-pat00079
에 포함되지 않기 때문이다. 또한,
Figure 112002006275691-pat00080
에 포함되는 학습기 중,
Figure 112002006275691-pat00081
와 거리(쉽게 말하면 다른 정도)가 작은 학습기들이 여러 개 존재하기 때문이다.
도 11은 종래의 기본 학습기들의 집합에 포함되는 학습기 중 참 학습기와 거리가 작은 학습기들이 다수개 존재함을 보여 주는 기본 개념도이다.
도 11에 도시되어 있듯이,
Figure 112002006275691-pat00082
의 여러 학습기들이
Figure 112002006275691-pat00083
를 둘러싸고 있는 모양이다. 이 경우에는, 자료가 조금만 변해도, 최적의 학습기가 크게 변할 수 있다. 즉, 자료가
Figure 112002006275691-pat00084
로부터 어느 방향으로 변하느냐에 따라, 최적의 학습기는
Figure 112002006275691-pat00085
,
Figure 112002006275691-pat00086
Figure 112002006275691-pat00087
중에 어느 하나가 될 것이다.
기본 학습기의 집합
Figure 112002006275691-pat00088
가 도 11에 도시된 바와 같이 위치하면, 아무리 최적의 학습기를 잘 구축하여도
Figure 112002006275691-pat00089
를 제대로 구축할 수 없다. 하지만, 여러 개의 학습기를 결합하면
Figure 112002006275691-pat00090
를 구축할 수 있다. 그 이유는,
Figure 112002006275691-pat00091
Figure 112002006275691-pat00092
에 포함되는 학습기들의 컨벡스 헐(Convex Hull) 공간에 위치하기 때문이다. 특히, 도 11에서, 적절한 가중치 w1, w2, w3 를 구하면 아래의 [수학식 35]가 성립한다.
Figure 112002006275691-pat00093
상기 [수학식 35]의 의미를 살펴보면,
Figure 112002006275691-pat00094
Figure 112002006275691-pat00095
에 속하는 몇 개의 학습기들의 가중 평균으로 구할 수 있다는 것이다. 본 발명에서 제안하는 캠 알고리즘은 이러한 아이디어를 이용하여 개발된 알고리즘이다.
이하에서는 본 발명에서 제안하는 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리에 대하여 자세히 설명한다.
4-3. 참 학습기를 알 때, 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리
본 절에서는 참 학습기
Figure 112002006275691-pat00096
를 알고 이
Figure 112002006275691-pat00097
Figure 112002006275691-pat00098
에 포함되어지지 않을 때,
Figure 112002006275691-pat00099
의 여러 학습기들의 가중 평균으로
Figure 112002006275691-pat00100
를 구축하는 방법을 소개한다. 다음 절에서는,
Figure 112002006275691-pat00101
가 미지인 경우, 자료를 이용하여
Figure 112002006275691-pat00102
를 추정하는 방법을 소개한다.
캠 알고리즘의 기본 가정은
Figure 112002006275691-pat00103
Figure 112002006275691-pat00104
에 포함되는 M 개의 학습기
Figure 112002006275691-pat00105
의 가중 평균으로 표현된다는 것이다. 이를 나타낸 것이 아래의 [수학식 36]이다.
Figure 112002006275691-pat00106
캠 알고리즘은 가중 평균에 쓰인 학습기
Figure 112002006275691-pat00107
와 가중치
Figure 112002006275691-pat00108
를 순차적으로 찾아가는 알고리즘이다. 캠 알고리즘에서 기존에 구축된 k 개의 학습기
Figure 112002006275691-pat00109
와 가중치
Figure 112002006275691-pat00110
를 이용하여 (k+1)번째 학습기
Figure 112002006275691-pat00111
과 가중치
Figure 112002006275691-pat00112
을 찾는 알고리즘의 원리를 단계별로 설명하면, 다음과 같다.
첫 번째로, 상기 [수학식 36]에 따른 현재의 앙상블 모형 Fk와 직교하는 학습기 중, 최적의 학습기를
Figure 112002006275691-pat00113
로 하고, 두 번째로, 새로운 앙상블 모형을 아래의 [수학식 37]에 의하여 생성하는데, 이 때, 가중치
Figure 112002006275691-pat00114
Figure 112002006275691-pat00115
Figure 112002006275691-pat00116
과 참 학습기
Figure 112002006275691-pat00117
와의 거리가 최소가 되게 구한다.
Figure 112002006275691-pat00118
이러한 알고리즘을 보다 상세하게 설명하면, 다음과 같다.
(1) 첫 번째 학습기 구축
도 12a는 본 발명에서 제안하는 캠 알고리즘에 따라 첫 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.
도 12a에 도시한 바와 같이, 최적의 학습기
Figure 112002006275691-pat00119
(즉,
Figure 112002006275691-pat00120
와 가장 가깝게 위치하는 학습기)을 구한다.
(2) 두 번째 학습기 구축
도 12b는 본 발명에서 제안하는 캠 알고리즘에 따라 두 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.
Figure 112002006275691-pat00121
과 직교하며 최적인 학습기
Figure 112002006275691-pat00122
를 찾고 상기 [수학식 37]에 따른 앙상블 모형 F2
Figure 112002006275691-pat00123
와 가장 거리가 짧아지는 가중치
Figure 112002006275691-pat00124
Figure 112002006275691-pat00125
를 구한다. 이때,
Figure 112002006275691-pat00126
Figure 112002006275691-pat00127
는 각각
Figure 112002006275691-pat00128
Figure 112002006275691-pat00129
이다. 한편, 상기 [수학식 37]에 따른 앙상블 모형 F2는 아래의 [수학식 38]과 같이 표현된다.
Figure 112002006275691-pat00130
이때, d1
Figure 112002006275691-pat00131
Figure 112002006275691-pat00132
과의 거리이고, d2
Figure 112002006275691-pat00133
Figure 112002006275691-pat00134
와의 거리이다.
(3) 세 번째 학습기 구축
도 12c는 본 발명에서 제안하는 캠 알고리즘에 따라 세 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.
Figure 112002006275691-pat00135
와 직교하며 최적인 학습기
Figure 112002006275691-pat00136
를 구한다. 그리고, 상기 [수학식 37]에 따른 앙상블 모형 F3 중,
Figure 112002006275691-pat00137
와 거리가 가장 가깝게 하는 가중치
Figure 112002006275691-pat00138
Figure 112002006275691-pat00139
를 구한다. 한편, 상기 [수학식 37]에 따른 앙상블 모형 F3는 아래의 [수학식 39]와 같이 표현된다.
Figure 112002006275691-pat00140
그러면, 아래의 [수학식 40]이 성립한다.
Figure 112002006275691-pat00141
Figure 112002006275691-pat00142
Figure 112002006275691-pat00143
(4) m 번째 학습기 구축
도 12d는 본 발명에서 제안하는 캠 알고리즘에 따라 m 번째 학습기를 구축하는 방법을 개념적으로 도시한 도면이다.
위의 알고리즘을 계속 반복함으로써, m 번째 앙상블 모형을 아래의 [수학식 41]과 같이 구한다.
Figure 112002006275691-pat00144
4-4. 참 학습기가 미지일 때, 캠 알고리즘에 따른 학습기 결합 방법의 기본 원리
모든 학습 문제에서는
Figure 112002006275691-pat00145
는 미지이고, 그 대신 n 개의 학습 자료
Figure 112002006275691-pat00146
이 주어진다. 학습의 목적은 자료를 이용하여
Figure 112002006275691-pat00147
를 효과적으로 추정하는 것이다. 본 절에서는 윗 절에서 설명한 알고리즘이 자료가 주어진 경우 어떻게 구성되는 가를 설명한다.
l을 주어진 손실 함수라 하고, 주어진 학습기
Figure 112002006275691-pat00148
의 디비언스를 아래의 [수학식 42]로 정의한다.
Figure 112002006275691-pat00149
범주형 자료인 경우에는 두 그룹인 경우만을 고려한다.
(1) 첫 번째 학습기 구축
최적의 학습기
Figure 112002006275691-pat00150
을 구한다.
(2) 두 번째 학습기 구축
Figure 112002006275691-pat00151
과 직교이며 최적의 학습기를 찾는다.
먼저, 직교인 학습기를 구하기 위하여는 잔차를 사용한다. 잔차 ri는 반응 변수가 범주형인 경우에는 아래의 [수학식 43]으로 구할 수 있다.
Figure 112002006275691-pat00152
Figure 112002006275691-pat00153
여기서, P1은 첫 번째 앙상블 모형을 이용하여 y가 1일 확률이다.
반응 변수가 연속형인 경우에는 아래의 [수학식 44]로 구할 수 있다.
Figure 112002006275691-pat00154
범주형 자료인 경우에는 |
Figure 112002006275691-pat00155
|를 가중치로 하여 최적의 학습기
Figure 112002006275691-pat00156
를 구축한다. 연속형인 경우에는
Figure 112002006275691-pat00157
를 반응 변수로 하여 최적의 학습기
Figure 112002006275691-pat00158
를 구한다.
한편, 잔차를 이용하여 최적의 학습기를 구하는 이유는, 회귀 모형에서 잔차는 반응 변수와 직교하는 성질이 있기 때문이다. 따라서, 잔차에 최적인 학습기
Figure 112002006275691-pat00159
는 반응 변수에 최적인 학습기
Figure 112002006275691-pat00160
과 거의 직교한다.
이어서, 잔차를 이용하여 최적의 학습기
Figure 112002006275691-pat00161
를 구한 후
Figure 112002006275691-pat00162
를 최소로 하는 상수
Figure 112002006275691-pat00163
를 구한다. 그리고,
Figure 112002006275691-pat00164
=
Figure 112002006275691-pat00165
로 놓는다. 이때, 앙상블 모형은 상기 [수학식 37]에 의하여 결정된다. 즉, 아래의 [수학식 45]와 같이 된다.
Figure 112002006275691-pat00166
Figure 112002006275691-pat00167
,
한편, 통계 이론적으로
Figure 112002006275691-pat00168
는 근사적으로
Figure 112002006275691-pat00169
Figure 112002006275691-pat00170
와의 거리의 제곱이 된다.
(3) 세 번째 학습기 구축
세 번째 학습기 구축은 두 번째 학습기 구축 방법에서
Figure 112002006275691-pat00171
대신
Figure 112002006275691-pat00172
를 사용하여 잔차를 구하는 것 외에는 동일하다. 구하여진 세 번째 학습기
Figure 112002006275691-pat00173
에 대하여 앙상블 모형 F3는 아래의 [수학식 46]과 같이 된다.
Figure 112002006275691-pat00174
Figure 112002006275691-pat00175
,
(4) 위의 알고리즘을 계속 반복하여 m 번째 앙상블 모형 Fm을 아래의 [수학식 47]과 같이 구한다.
Figure 112002006275691-pat00176
5. 두 그룹 분류 문제에서의 캠 알고리즘
두 그룹 분류 문제에서 본 발명에서 제안하는 캠 알고리즘을 보다 상세하게 설명하면 다음과 같다.
도 13은 본 발명의 일 실시예에 따른 캠 알고리즘의 개요를 보여주는 흐름도 이다.
먼저, 스텝 S1301에서, 각종 변수들을 초기화한 후, 스텝 S1302에서, 입력되는 다차원 자료들을 가중치를 이용하여 부스트랩 자료로 생성한다. 그리고, 스텝 S1303에서, 주어진 설명 변수에 대하여 반응 변수가 1이 될 확률을 기본 학습기를 이용하여 추정한 후, 스텝 S1304에서, 주어진 디비언스를 최소로 하는 수정 모수를 계산한다.
그리고, 스텝 S1305에서, 상기 수정 모수를 이용하여 수정된 학습기를 구축한 후, 스텝 S1306에서, 수정된 학습기에 기반하여 앙상블 모형을 구축한다.
그리고, 스텝 S1307에서, 후술하는 스탑 규칙을 만족하는지 여부를 판단하여, 만족하지 아니하면, 상기 스텝 1302로 복귀하고, 만족하면, 종료한다.
캠 알고리즘을 수학식 등을 사용하여 보다 상세하게 설명한다.
(1) 제 1 단계 : 반응 변수 yi를 자료가 그룹 2에 속하면 1로, 그룹 1에 속하면 0로 놓는다.
(2) 제 2 단계 : 각종 변수들을 초기화한다. 즉, n 개의 가중치 w1, ..., wn을 wi = 1/n으로, F(x) = 0로 놓는다.
(3) 제 3 단계 : 상기 가중치 {wi}를 이용하여 부스트랩 자료 (x1 B, y1 B), ..., (xn B, yn B)를 생성한다. 부스트랩 자료 생성에 대해서는 이미 상술한 바 있다.
(4) 제 4 단계 : 부스트랩 자료를 이용하여 주어진 설명 변수 x에 대하여 반 응 변수가 1이 될 확률
Figure 112002006275691-pat00177
을 기본 학습기를 이용하여 추정한다.
(5) 제 5 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 48]을 최소로 하는 수정 모수
Figure 112002006275691-pat00178
를 계산한다.
Figure 112002006275691-pat00179
이때,
Figure 112002006275691-pat00180
이다.
(6) 제 6 단계 : 상기 수정 모수를 이용하여 학습기를 새로 수정하여 재구축한다. 이 과정을 수식으로 나타내면, 아래의 [수학식 49]와 같이 된다.
Figure 112002006275691-pat00181
로 놓는다.
Figure 112002006275691-pat00182
로 구한다.
Figure 112002006275691-pat00183
으로 갱신한다.
가중치를
Figure 112002006275691-pat00184
로 갱신한다.
이 때,
Figure 112002006275691-pat00185
이다.
(7) 제 7 단계 : 앙상블 모형을 최종적으로 구축하기 위하여 상기 제 3 단계 내지 제 6 단계를 m = 1, ..., M 번 반복한다. 그리고, 최종 앙상블 모형을 H(x)=F(x)로 하여, 새로운 반응 변수 x에 대하여 H(x)>0이면 그룹 2에, H(x)<0이면 그룹 1에 할당한다.
한편, 상기 손실 함수로는 여러 가지 손실 함수가 사용될 수 있지만, 보다 양호한 결과를 얻기 위해서는 익스포넨셜(Exponential) 손실 함수 또는 로그 우도(Negative Log-Likelihood) 손실 함수가 사용될 수 있다.
아래의 [수학식 50]은 익스포넨셜 손실 함수이고, [수학식 51]은 로그 우도 손실 함수를 나타낸 것이다.
Figure 112002006275691-pat00186
Figure 112002006275691-pat00187
또한, 본 발명에서는 부스트랩을 사용하지 않고, 가중치를 이용한 기본 학습기를 생성할 수도 있다. 그러나, 대부분의 경우 부스트랩을 이용하는 것이 훨씬 좋은 성능을 나타낸다.
또한, 본 발명에서 사용되는 기본 학습기로는 여러 가지가 쓰일 수 있는데, 본 실시예에서는 의사결정나무를 사용하였다. 종래의 부스팅 알고리즘과는 달리, 캠 알고리즘에서는 기본 학습기들이 강한 학습기이다. 따라서 단순한 의사 결정 나무가 아니라 의사 결정 나무 구축의 전 과정을 거친 최적의 의사 결정 나무를 사용한다. 이때, 계산상의 문제점을 극복하기 위하여 TIC를 사용한다. 이는 이미 상술한 바 있다.
캠 알고리즘을 두 개 이상의 분류 문제로 확장하는 알고리즘은 다음과 같다.
6. 멀티 클래스 분류 문제에서의 캠 알고리즘
멀티 클래스로 확장된 캠 알고리즘의 경우에도 그 개요는 도 13의 과정을 따른다. 다만, 적용되는 수식 등이 두 그룹 분류 문제에서의 캠 알고리즘과 약간씩의 차이를 보이는 바, 이를 상세하게 설명하면, 다음과 같다.
(1) 제 1 단계 : 각종 변수들을 초기화한다. 즉, 가중치
Figure 112002006275691-pat00188
, i = 1, ..., n, j = 1, ..., J, Fj(x) = 0, j = 1, ..., J로 놓는다.
(2) 제 2 단계 : i 번째 자료가 j 그룹에 포함되면 yi *를 1로 놓고, 포함되지 아니하면 0로 놓는다.
(3) 제 3 단계 : 가중치 {w1j, ..., wnj}를 이용하여 부스트랩 자료 (x1 B, y1 *B), ..., (xn B, yn *B)를 생성한다. 부스트랩 자료 생성에 대해서는 이미 상술한 바 있다.
(4) 제 4 단계 : 부스트랩 자료를 이용하여 주어진 설명 변수 x에 대하여 반응 변수가 1이 될 확률
Figure 112002006275691-pat00189
을 기본 학습기를 이용하여 추정한다.
(5) 제 5 단계 :
Figure 112002006275691-pat00190
로 놓는다.
(6) 제 6 단계 : 상기 제 2 단계 내지 제 5 단계를 j = 1, ..., J 번 반복한다.
(7) 제 7 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 52]를 최소로 하는 수정 모수
Figure 112002006275691-pat00191
를 계산한다.
Figure 112002006275691-pat00192
이때,
Figure 112002006275691-pat00193
이고,
Figure 112002006275691-pat00194
이다.
(8) 제 8 단계 : 상기 수정 모수를 이용하여 학습기를 새롭게 수정하여 구축한다. 이 과정을 수식으로 나타내면, 아래의 [수학식 53]과 같이 된다.
Figure 112002006275691-pat00195
로 놓는다.
Figure 112002006275691-pat00196
로 구한다.
Figure 112002006275691-pat00197
으로 갱신한다. 이때,
Figure 112002006275691-pat00198
이다.
가중치를
Figure 112002006275691-pat00199
로 갱신한다.
이때,
Figure 112002006275691-pat00200
이고,
Figure 112002006275691-pat00201
는 i 번째 관측치가 j 번째 그룹에 속하면 1이고, 아니면 0이다.
(9) 제 9 단계 : 상기 제 2 단계 내지 제 8 단계를 m = 1, ..., M 번 반복함으로써, 앙상블 모형을 최종적으로 구축한다. 이때, 새로운 설명 변수 x에 대하여
Figure 112002006275691-pat00202
그룹에 할당한다.
캠 알고리즘을 연속형 변수 문제로 확장하는 알고리즘은 다음과 같다.
7. 연속형 변수 문제에서의 캠 알고리즘
본 장에서는 반응 변수가 연속형인 경우에 앙상블 모형을 만드는 알고리즘 (Regression CHEM)을 설명한다. 반응 변수가 연속형인 경우를 회귀 모형이라 하며, 그 기본 모형은 다음과 같다.
도 14는 본 발명의 일 실시예에 따른 연속형 변수를 위한 앙상블 알고리즘을 개략적으로 도시한 흐름도로서, 이를 상세히 설명하면 다음과 같다.
먼저, 스텝 S1401에서, 각종 변수들을 초기화하고, 반응 변수를 정의한 후, 스텝 S1402에서, 기본 학습기를 이용하여 회귀 모형을 구축한다. 이어서, 스텝 S1403에서, 주어진 디비언스를 최소로 하는 수정 모수를 계산한 후, 스텝 S1404에서, 상기 수정 모수를 기반으로 새로운 반응 변수를 갱신하며, 스텝 S1405에서, 갱신된 반응 변수를 토대로 앙상블 모형을 구축한다.
그리고, 스텝 S1406에서, 후술하는 스탑 규칙을 만족하는지 여부를 판단하여, 만족하지 아니하면, 상기 스텝 S1402로 복귀하고, 만족하면, 종료한다.
이를 보다 상세하게 설명하면 다음과 같다.
먼저, 입력되는 n 개의 다차원 자료인 학습 자료 (x1, y1), ..., (xn, y n)이 주어졌다고 가정하자. 여기서, xi는 p 차원의 설명 변수, 즉, xi = (x1i, ..., xpi) 이고, 반응 변수는 yi이다.
본 알고리즘의 목적은 n 개의 학습 자료를 이용하여 설명 변수로 반응 변수를 가장 잘 설명하는 관계를 찾는 것이다. 다시 말하면, 학습 자료들을 이용하여 최적의 함수 H : Rp → R을 만드는 것이다. 그리고, 새로운 설명 변수 x가 주어지면, 이 자료의 반응 변수를 H(x)로 추정한다.
한편, 통계 이론적으로 볼 때,
Figure 112002006275691-pat00203
이다. 즉, 조건부 기대값을 추정하는 것이 회귀 분석의 목적이다.
연속형 변수를 위한 캠 알고리즘은 다음과 같다.
(1) 제 1 단계 : 새로운 반응 변수 zi = yi로 놓는다.
(2) 제 2 단계 : 반응 변수를 zi, 설명 변수를 xi로 하여 회귀 모형
Figure 112002006275691-pat00204
를 기본 학습기를 이용하여 구한다.
(3) 제 3 단계 : 주어진 손실 함수 l에 대하여 아래의 [수학식 54]를 최소로 하는 수정 모수
Figure 112002006275691-pat00205
를 찾는다.
Figure 112002006275691-pat00206
(4) 제 4 단계 : 상기 수정 모수
Figure 112002006275691-pat00207
를 이용하여 새로운 반응 변수를 갱신한다. 이를 나타낸 것이 아래의 [수학식 55]이다.
Figure 112002006275691-pat00208
로 놓는다.
Figure 112002006275691-pat00209
를 계산한다.
Figure 112002006275691-pat00210
로 갱신한다.
새로운 반응 변수
Figure 112002006275691-pat00211
로 갱신한다.
(5) 제 5 단계 : 상기 제 2 단계 내지 제 4 단계를 m = 1, ..., M 번 반복한다.
(6) 최종 앙상블 모형을 H(x) = F(x)로 구축한다.
한편, 상기 손실 함수 l은
Figure 112002006275691-pat00212
또는
Figure 112002006275691-pat00213
등의 알려져 있는 여러 가지 손실 함수등이 사용될 수 있다.
8. 스탑(Stop) 규칙
본 장에서는 최종 앙상블 모형에 필요한 기본 학습기의 개수를 정하는 알고리즘을 설명한다. 본 스탑 규칙의 기본 아이디어는 현재 앙상블 모형의 디비언스가 가장 작을 때, 더 이상 앙상블을 갱신하지 아니하고, 전체 알고리즘을 정지시키는 것이다.
스탑 규칙을 설명하면, 다음과 같다.
(1) 제 1 단계 : 양의 정수 K 값을 정한다.
(2) 제 2 단계 : Fm을 처음 m 개의 기본 학습기로 구축된 앙상블 모형이라 하고, 주어진 손실 함수 l에 대하여 앙상블 모형 Fm의 디비언스(Deviance)를 아래의 [수학식 56]에 따라 계산한다.
Figure 112002006275691-pat00214
(3) 제 3 단계 :
Figure 112002006275691-pat00215
,
Figure 112002006275691-pat00216
로 놓고,
Figure 112002006275691-pat00217
를 만족시키는 최초의 m에 대하여 앙상블 모형 Fm을 최종 앙상블 모형으로 정하고, 알고리즘을 정지시킨다.
한편, 양의 정수 K는 사용자가 정의하는 값이다.
아래의 [표 2]는 여러 자료에서 캠 알고리즘에 스탑 규칙을 적용하지 않았을 때와 적용하였을 때의 예측력을 비교한 시뮬레이션 자료이다. 아래의 [표 2]에 도시되어 있듯이 두 예측력은 거의 비슷하게 나온다. 따라서, 스탑 규칙을 적용하면, 적은 수의 기본 학습기를 이용하여 최적의 앙상블 모형을 구축할 수 있으며, 이를 통하여 계산 속도가 크게 향상되는 결과가 도출된다.
[표 2]
Figure 112002006275691-pat00218
9. 연관성 규칙 생성 알고리즘
9-1. 서언
본 장에서는 최종 앙상블 모형을 만들 때 쓰인 기본 학습기를 이용하여 자료를 설명할 수 있는 다양한 종류의 연관성 규칙을 찾아내는 알고리즘을 설명한다.
한편, 본 장에서 제시하는 연관성 규칙 생성 알고리즘은 본 발명에서 제시하는 캠 알고리즘에 의하여 구축된 앙상블 모형 뿐만 아니라, 종래의 앙상블 모형 구축 방법에도 적용될 수 있다.
9-2. 연관성 규칙 생성 알고리즘
연관성 규칙을 찾는 알고리즘은 다음과 같다.
도 15는 연관성 규칙 생성 알고리즘의 개요를 나타내는 흐름도이다.
(1) 스텝 S1501 : 각종 변수들을 초기화한다. 즉, 반응 변수가 범주형 데이터이면, 관심이 있는 그룹을 g로, 최소 허용 자료수를 m으로, 최소 허용 신뢰도 p로 결정한다. 또한, 반응 변수가 연속형인 경우에는 그룹 g 대신에 관심 영역 (gL, gU)을 결정한다.
(2) 스텝 S1502 : 기본 규칙의 총집합 S를 구축한다. 이를 보다 상세히 설명하면 다음과 같다.
기본 학습기를 검색하여 앙상블에 사용되었던 모든 기본 학습기의 모든 노드 중 포함하는 자료의 수가 m 보다 크고, 그룹 g의 확률이 p 보다 큰 모든 노드를 선 택한다.
이때, 두 그룹 분류 문제인 경우에는 앙상블 횟수만큼의 기본 학습기가 존재하므로, 모든 기본 학습기를 검색하여 조건에 맞는 모든 노드를 선택한다.
만일, 두 그룹 이상의 분류 문제인 경우에는 앙상블 횟수와 그룹의 수를 곱한 만큼의 기본 학습기가 존재하며, 이들 중 관심 그룹 g에 해당하는 앙상블 횟수만큼의 기본 학습기를 이용하여 조건에 맞는 모든 노드를 선택한다.
상술한 방법으로 선택된 노드를 기본 규칙의 총집합 S로 한다.
(3) 스텝 S1503 : 조건에 맞게 선택되어진 모든 노드들에 대하여 해당 노드보다 상위 노드들은 규칙의 집합에서 제거한다. 이를 상세히 설명하면 다음과 같다.
모든 규칙
Figure 112002006275691-pat00219
에 대하여(i = 1, ..., N) 다음을 N 번 반복한다.
Figure 112002006275691-pat00220
를 선택하고, 선택된 si에 대하여 k = 1, ..., N 까지의 sk 노드가 si의 상위 노드이면, sk를 S에서 제거한다.
(4) 스텝 S1504 : S에 포함된 모든 규칙들에 대한 신뢰도를 계산한다. 이때, 각 조건의 신뢰도는 해당 규칙에 속하는 데이터의 전체 개수를 n, 이 중 관심있는 그룹(즉, 그룹 g)에 속하는 자료의 수를 ng라 하면, 신뢰도는 ng/n으로 계산된다.
(5) 스텝 S1505 : 계산된 S 집합의 규칙들을 정렬한다. 즉, 계산된 S 집합의 규칙을 신뢰도가 높은 것부터 낮은 것의 순으로 정렬한다. 이때, 정렬되어진 규칙들을 o1, ..., oH라 한다.
(6) 스텝 S1506 : 연관성 규칙 집합을 R이라 하자. R이 공집합이면, oh를 집합 R에 추가하고, R이 공집합이 아니면, 집합 R에 포함된 모든 연관성 규칙들에 대하여 oh와의 유사성을 비교한다. R에 포함된 모든 규칙과 유사하지 아니하면, 노드 oh를 R에 추가한다.
한편, 유사성 비교 방법은 다음과 같다.
설명 변수 x = (x1, ..., xp)에 대하여 주어진 두 개의 규칙 o와 r은 아래의 [수학식 57]과 같이 정의된다고 하자.
Figure 112002006275691-pat00221
이때, xi가 Roi에 포함되는 자료들의 집합을 Do, xi가 Rri 에 포함되는 자료들의 집합을 Dr이라 하자. 한편, 이 경우 Roi와 Rri는 R의 부분 집합이다.
먼저, 최대 허용 유사성
Figure 112002006275691-pat00222
을 결정한 후,
Figure 112002006275691-pat00223
에 포함되는 자료의 수를
Figure 112002006275691-pat00224
에 포함되는 자료의 수로 나눈 값이 s 보다 크거나 같으면, xi에 대하여 두 개의 조건 o와 r은 유사하다고 판정하고, s보다 작으면, xi에 대하여 두 개의 조건 o와 r은 유사하지 않다고 판정한다. 이러한 과정을 i = 1, ..., p 번 반복한다.
그리고, 모든 xi에 대하여 유사성 판정의 결과가 모두 유사하다라고 판정되어 지면, 규칙 o와 규칙 r은 유사하다라고 판정하며, 어떠한 xi라도 유사하지 아니하다라고 판정되면, o와 r은 유사하지 않다고 판정한다.
(7) 스텝 S1507 : 연관성 규칙 집합 R에 포함되어 있는 모든 규칙들을 사용하여 신뢰도 순으로 자료를 해석한다.
9-3. 연관성 규칙 생성 알고리즘의 성능 실험
여기에서는 연관성 규칙 생성 알고리즘의 해석력을 보기 위한 실험 자료를 설명한다. 대비되는 종래 기술로는 CART 알고리즘을 선택한 바, CART에서 구축된 하나의 의사 결정 나무를 연관성 규칙 생성 알고리즘에 적용시켰다. 또한, 실제 자료는 German 데이터를 이용하여 실험하였다.
실제 데이터의 연관성 규칙 결과는 아래의 [표 3] 및 [표 4]에 정리되어 있다.
[표 3] CART를 이용한 연관성 규칙의 검색 결과
Figure 112002006275691-pat00225
[표 4] 캠 알고리즘에 연관성 규칙 알고리즘을 적용한 검색 결과
Figure 112002006275691-pat00226
German 데이터는 1,000 명의 신용 거래 현황 자료를 기반으로 700 명의 우량 신용 고객과 300 명의 불량 신용 고객으로 구성된 데이터이며, 연관성 규칙의 정확한 비교를 위하여 동일한 조건의 최소 허용 자료수와 최소 허용 신뢰도를 사용하여 분석하였다. 불량 신용 고객의 자료를 분석하기 위한 최소 허용 자료수는 50 명(5 %), 최소 허용 신뢰도는 50 %로 하였으며, 우량 신용 고객의 자료를 분석하기 위한 최소 허용 자료수는 50 명(5 %), 최소 허용 신뢰도는 85 %로 하였다.
위의 조건으로 검색되어진 CART의 연관성 규칙 검색 결과는 1 개의 불량 신용 고객 그룹과 1 개의 우량 신용 고객군으로 검색이 되었으며, 캠 알고리즘에서 연관성 규칙을 적용한 예는 5 개의 불량 신용 고객 그룹과 4 개의 우량 신용 고객 그룹으로 나타났다.
캠 알고리즘의 연관성 규칙은 CART의 연관성 규칙을 포함하는 광범위한 검색에 해당하며, 캠 알고리즘의 결과는 CART의 결과를 포함하는 연관성 규칙을 찾아냄을 알 수 있다. 또한, CART에 의하여 검색되어진 연관성 규칙에 해당하는 데이터는 하나의 기본 학습기로부터 생성되어 있기 때문에 서로간에 배반적인 데이터로 구성이 되는 반면, 본 발명에서 제시하는 연관성 규칙 알고리즘은 규칙이 포함하는 데이터들이 서로 배반이 아닌 집합으로 나타난다.
다시 말하면, 캠 알고리즘은 여러 개의 기본 학습기를 이용하여 연관성 규칙을 찾아내므로, 하나의 기본 학습기에 의존하는 CART에 비하여 매우 다양한 종류의 연관성 규칙을 찾아 낼 수 있으며, 이를 통하여 자료를 보다 입체적으로 해석할 수 있게 된다.
10. 실험을 통한 앙상블 기법의 성능 비교
본 장에서는 각종 실험을 통하여 여러 가지 앙상블 기법의 성능을 비교하여 본다.
10-1. 가상 실험을 통한 성능 비교
가상 실험에는 다음과 같은 모형을 사용한다.
(1) 모형 1 : Radius 2
학습 자료 수는 1,000 개이고, 테스트 자료 수는 5,000 개이며, 그룹의 수는 2이다.
설명 변수 : x = (x1, ..., x10)이고, 이들은 각각 독립이며 표준 정규 분포를 따른다.
반응 변수 :
Figure 112002006275691-pat00227
이면, 확률 0.9로 y = 1이고, 확률 0.1로 y = -1로 한다. 또한,
Figure 112002006275691-pat00228
이면, 확률 0.9로 y = -1이고, 확률 0.1로 y = 1로 한다. 여기서 c는
Figure 112002006275691-pat00229
를 만족하는 상수이다.
(2) 모형 2 : Interaction
학습 자료 수는 1,000 개이고, 테스트 자료수는 5,000 개이며, 그룹의 수는 2 이다.
설명 변수 : x = (x1, ..., x10)이고, 이들은 각각 독립이며 표준 정규 분포를 따른다.
반응 변수 : 반응 변수는
Figure 112002006275691-pat00230
를 따르는 0-1 변수이고, F(x)는 아래의 [수학식 58]과 같다.
Figure 112002006275691-pat00231
(3) 모형 3 : Two Normal
학습 자료 수는 1,000 개이고, 테스트 자료 수는 5,000 개이며, 그룹의 수는 2이다.
처음 500 개의 자료는 그룹 1에 속하고, 설명 변수 x = (x1, ..., x10)이며, 이들은 각각 독립이고 표준 정규 분포를 따른다. 나머지 500 개 자료는 그룹 2에 속하며, 설명 변수 x = (x1, ..., x10)이며, 이들은 각각 독립이고 평균이 0이며 분산이 2인 정규 분포를 따른다.
(4) 모형 4 : Simple Quadratic
학습 자료 수는 1,000 개이고, 테스트 자료 수는 5,000 개이며, 그룹의 수는 2이다.
설명 변수 x는 표준 정규 분포를 따른다.
반응 변수는 아래의 [수학식 59]를 따르는 0-1 변수이고, F(x) = -x2 + 2 로 주어진다.
Figure 112002006275691-pat00232
도 16a 내지 도 16d는 이러한 4 개의 가상 실험 결과를 보여 주는 그래프이 다.
도 16a 내지 도 16d를 보면 알 수 있듯이, 본 발명에서 제시하는 캠 알고리즘이 매우 안정적으로 작동함을 볼 수 있다. 특히, 모형 4에서는 다른 모든 앙상블 알고리즘은 나무의 수가 증가하면서, 성능이 나빠지지만, 캠 알고리즘의 경우에는 이러한 문제가 전혀 발생하지 아니한다.
아래의 [표 5]는 상기 도 16a 내지 도 16d의 결과를 수치로 표현한 도표이다.
[표 5] 가상 실험의 결과
Figure 112002006275691-pat00233
한편, 대부분의 모형에서 캠 알고리즘의 예측력이 종래의 앙상블 알고리즘에 비하여 보다 우수함을 알 수 있다. 예측력뿐만 아니라 디비언스(Deviance)를 비교하여 보면, 캠 알고리즘이 종래의 알고리즘에 비하여 훨씬 우수함을 알 수 있다. 즉, 캠 알고리즘 이외의 종래 알고리즘에서는 디비언스가 계속 증가하는데, 이는 종래의 앙상블 알고리즘들의 함수 추정이 거의 안된다는 것을 의미한다.
그에 반하여 캠 알고리즘에서의 디비언스 값은 안정적으로 출력됨을 알 수 있다. 예측력은 좋으나 디비언스가 증가하는 현상은 캠 알고리즘 이외의 모든 앙상블 알고리즘에서 발견되며, 이러한 현상은 분류 문제에서 두 그룹 간의 경계선을 잘 찾아낼 수 있지만, 그 외의 모든 정보는 상실된다는 것을 의미한다.
예를 들면, 새로운 설명 변수 x에 대하여 반응 변수 y가 k 번째 그룹에 속할 확률은 캠 알고리즘 이외의 모든 앙상블 알고리즘에서 추정이 안된다.
결론적으로 본 발명에서 제안하는 캠 알고리즘은 그 예측력의 우수성 뿐만 아니라 안정성의 우수성도 함께 가지고 있다는 것을 본 가상 실험 결과가 보여 준다.
10-2. 실제 자료의 분석을 통한 비교
여러 개의 실제 자료들의 분석을 통하여 캠 알고리즘과 기존의 알고리즘을 비교한다. 사용된 실제 자료는 상술한 'UC Irvine'의 'Machine Learning Web Site'(http://www1.ics.uci.edu/~mlearn/MLRepository.html)에서 구하였다.
아래의 [표 6]은 실제 자료에 대한 정보를 보여 주는 도표이다.
[표 6] 실제 자료에 대한 정보
Figure 112002006275691-pat00234
도 17a 내지 도 17i는 실제 자료 분석의 결과를 보여주는 그래프이다.
대부분의 경우에 캠 알고리즘이 매우 안정적으로 작동함을 알 수 있다. 'Ionospher 자료'에서는 조금 나쁘게 움직이지만, 그 차이는 그리 크지 않다. 'German 자료'인 경우에는 캠 알고리즘이 다른 알고리즘보다 예측력이 뛰어나고, 안정적임을 알 수 있다. 상술한 가상 실험과 마찬가지로 디비언스 값은 캠 알고리즘이 가장 작은 값을 가짐을 알 수 있다.
아래의 [표 7]은 상기 도 17a 내지 도 17i의 결과를 수치적으로 표현한 도표이다.
[표 7] 실제 자료 분석 결과
Figure 112002006275691-pat00235
결론적으로 캠 알고리즘은 아주 우수한 예측력과 동시에 매우 안정적이며(어떤 자료에서도 크게 잘못 예측하지는 아니한다.), 함수 추정(즉, 디비언스가 작다.)이 가능하다.
함수 추정은 확률의 추정을 의미하며, 캠 알고리즘은 종래의 앙상블 알고리즘과는 달리 주어진 자료에서 반응 변수의 값을 확률적으로 나타낼 수 있다. 이는 실제 자료의 분석에서 아주 유용하게 사용될 수 있다.
또한, 아래의 [표 8]은 연속형 변수의 실험 결과를 보여 주는 도표이다.
[표 8] 연속형 변수 분석 결과
Figure 112002006275691-pat00236
상기 [표 8]에 도시된 종래의 알고리즘으로는 LS 부스트 알고리즘을 사용하였다.
Friedman 모형은 가상 모형으로서, 학습 자료의 수는 500 개이고, 테스트 자료 수는 5,000 개다. 또한, 설명 변수 x = (x1, ..., x10)이고, 이들은 각각 독립이며, [0, 1]에서 균등 분포를 따른다. 또한, 반응 변수는
Figure 112002006275691-pat00237
이고,
Figure 112002006275691-pat00238
이다.
실제 자료로는 보스톤 지역에서 여러 환경 변수가 집값에 미치는 영향을 알아 보기 위한 자료를 이용하였다.(Boston Housing Data) 이 자료도 인터넷에서 쉽게 구할 수 있다.
자료의 수는 506이며, 테스트 에러를 구하기 위하여 5 폴드 교차 확인 방법을 사용하였다. 가상 실험과 보스톤 집값 자료 분석의 결과, 캠 알고리즘은 분류 문제뿐만 아니라 회귀 모형에도 잘 작동함을 알 수 있다. 특히, 종래의 LS 부스팅 방법에서는 축소 모수를 사용자가 정의하여야 하나, 캠 알고리즘에서는 사용자가 지정하여야 하는 것이 거의 없다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면 다음과 같은 효과가 있다.
첫째, 제안된 캠 알고리즘은 그 예측력이 종래의 앙상블 구축 알고리즘보다 훨씬 뛰어나고, 매우 안정적으로 작동한다. 즉, 과적합 문제가 발생할 여지가 현저히 줄어든다.
둘째, 제안된 캠 알고리즘은 기존의 앙상블 구축 방법이 공통적으로 가지는 해석력의 저하를 극복하고, 연관성 규칙 알고리즘을 사용함으로써, 어떤 데이터 마이닝 기법보다 더 우수한 해석력을 보여 준다.
셋째, 연속형 변수 문제에서도 자연스럽게 캠 알고리즘을 적용함으로써, 일반 산업 분야에서도 쉽게 적용될 수 있다.

Claims (78)

  1. 삭제
  2. 앙상블(Ensemble) 모형을 이용한 데이터 마이닝(Data Mining) 모형 구축 방법에 있어서,
    M 개의 앙상블 모형 구축 단계를 포함하고,
    상기 제 1 앙상블 모형 구축 단계는,
    입력되는 다차원 학습 자료로부터 첫번째 학습기를 구축하여, 상기 구축된 첫번째 학습기 자체를 첫번째 앙상블 모형으로 구축하고;
    상기 제 k 번째 앙상블 모형 구축 단계는,
    제 k-1 번째 앙상블 모형 구축 단계의 결과물인 k-1 번째 앙상블 모형을 입력받아 다차원 공간 상에서 직교인 k 번째 학습기(
    Figure 112004012621224-pat00406
    )를 구축하며, 상기
    Figure 112004012621224-pat00407
    를 입력받아
    Figure 112004012621224-pat00408
    를 최소로 하는 상수
    Figure 112004012621224-pat00409
    를 구한 후,
    Figure 112004012621224-pat00410
    를 이용하여 상기 k 번째 학습기를 수정하고,
    상기 구축된 k-1 번째 앙상블 모형과 k 번째 학습기를 최적의 가중 평균(컨벡스 컴비네이션(Convex Combination))을 이용하여 결합시킴으로써, k 번째 앙상블 모형을 구축하는 것을 특징으로 하는 앙상블 모형을 이용한 데이터 마이닝 모형 구축 방법.
    여기서, M은 2 이상의 정수이고, k는 2 이상 M 이항의 정수이며, d는 디비언스(Deviance)이다.
  3. 앙상블(Ensemble) 모형을 이용한 두 그룹(2 Class) 분류에서의 데이터 마이닝 모형 구축 방법에 있어서,
    다차원 데이터(Multi-Dimensional Data)인 학습 자료들을 입력받는 제 1 단계;
    앙상블 모형의 잔차(Residual)를 이용하여 가중치를 계산하는 제 2 단계;
    상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수(x)에 대하여 반응 변수가 1이 될 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계;
    상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및
    상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션(Convex Combination))을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;
    를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 두 그룹 분류에서의 데이터 마이닝 모형 구축 방법.
  4. 앙상블(Ensemble) 모형을 이용한 멀티 클래스(Multi Class) 분류에서의 데이터 마이닝 모형 구축 방법에 있어서,
    다차원 데이터인 학습 자료들을 입력받는 제 1 단계;
    앙상블 모형의 잔차를 이용하여 가중치를 계산하는 제 2 단계;
    상기 제 1 단계에서 입력된 자료들로부터 주어진 설명 변수 x에 대하여 반응 변수가 j 그룹에 속할 확률을 기본 학습기 및 상기 가중치를 이용하여 추정하는 제 3 단계;
    상기 제 3 단계에서 추정한 확률에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및
    상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션)을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;
    를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법.
  5. 반응 변수가 연속형(Regression)인 경우에 앙상블(Ensemble) 모형을 이용한 마이닝 모형 구축 방법에 있어서,
    다차원 데이터인 학습 자료들을 입력받는 제 1 단계;
    앙상블 모형의 잔차를 계산하는 제 2 단계;
    상기 제 1 단계에서 입력된 자료들로부터 기본 학습기 및 상기 잔차를 이용하여 회귀 모형을 구축하는 제 3 단계;
    상기 제 3 단계에서 구축된 회귀 모형에 대하여 주어진 손실 함수(Loss Function)를 최소로 하는 수정 모수를 계산한 후, 이를 이용하여 학습기를 갱신하는 제 4 단계; 및
    상기 갱신된 학습기(k 번째)와 바로 이전 단계(k-1 번째)에서의 앙상블 모형을 최적의 가중 평균(컨벡스 컴비네이션)을 이용하여 결합시킴으로써, 앙상블 모형(k 번째)을 구축하는 제 5 단계;
    를 포함하는 것을 특징으로 하는 앙상블 모형을 이용한 멀티 클래스 분류에서의 데이터 마이닝 모형 구축 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
KR1020020011208A 2002-03-02 2002-03-02 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법 KR100640264B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020020011208A KR100640264B1 (ko) 2002-03-02 2002-03-02 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법
AU2003212671A AU2003212671A1 (en) 2002-03-02 2003-03-03 Apparatus and method for constructing data mining model using ensemble machines
PCT/KR2003/000409 WO2003075187A1 (en) 2002-03-02 2003-03-03 Apparatus and method for constructing data mining model using ensemble machines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020011208A KR100640264B1 (ko) 2002-03-02 2002-03-02 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법

Publications (2)

Publication Number Publication Date
KR20030071939A KR20030071939A (ko) 2003-09-13
KR100640264B1 true KR100640264B1 (ko) 2007-02-28

Family

ID=27785964

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020011208A KR100640264B1 (ko) 2002-03-02 2002-03-02 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법

Country Status (3)

Country Link
KR (1) KR100640264B1 (ko)
AU (1) AU2003212671A1 (ko)
WO (1) WO2003075187A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017294B2 (en) 2016-12-16 2021-05-25 Samsung Electronics Co., Ltd. Recognition method and apparatus

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153630B (zh) * 2016-03-04 2020-11-06 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
US10832162B2 (en) 2016-09-08 2020-11-10 International Business Machines Corporation Model based data processing
KR102078289B1 (ko) * 2017-12-18 2020-02-19 기술보증기금 Ip 평가 모형을 이용한 ip 평가 방법 및 그 장치
KR102038703B1 (ko) * 2017-12-27 2019-11-26 (주)가디엘 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
CN109920551A (zh) * 2019-01-24 2019-06-21 华东师范大学 基于机器学习的自闭症儿童社会行为表现特征分析系统
WO2020178843A1 (en) * 2019-03-05 2020-09-10 Telefonaktiebolaget Lm Ericsson (Publ) System and method for managing resources
KR20210060146A (ko) 2019-11-18 2021-05-26 삼성전자주식회사 딥 뉴럴 네트워크 모델을 이용한 데이터 처리 방법 및 장치, 딥 뉴럴 네트워크 모델을 학습시키는 학습 방법 및 장치
CN112378619B (zh) * 2020-11-06 2022-08-19 东北财经大学 具有ReMD-OSELM的FER-FSE在风洞试验冲压阶段总压实时建模中的应用
CN113051827A (zh) * 2021-03-30 2021-06-29 南华大学 一种基于分类与回归树的矿井通风摩擦风阻预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000024514A (ko) * 2000-02-17 2000-05-06 전성현 에이전시 웹브라우저
KR20010082412A (ko) * 2001-06-05 2001-08-30 안종배 숨겨진 메시지를 담고 해석할 수 있는 디지털 코드,디지털 디코더 기술과 프로모션과 설문이 결합된전자우편이 자동 시스템화된 On & Off Digital marketing사업모델
KR20010083846A (ko) * 2001-07-04 2001-09-03 김병기 데이터 마이닝을 이용한 시험합격확률 계산 시스템
KR20010105126A (ko) * 2000-05-19 2001-11-28 권영주 샘플이용에 따른 릴레이션 디비엠에스 구축과 광고체제 및방법
KR20010105967A (ko) * 2000-05-19 2001-11-29 이기영 실시간 웹데이터의 수집과 분석을 활용한 웹데이터마이닝방법 및 그 결과를 이용한 컨설팅 시스템
KR20020005418A (ko) * 2001-06-08 2002-01-17 남궁석 동영상에 포함된 ppl을 이용한 정보제공장치 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
EP0994423A3 (en) * 1998-10-16 2001-11-21 Mitsubishi Denki Kabushiki Kaisha Smoothing algorithm for bayesian classifier

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000024514A (ko) * 2000-02-17 2000-05-06 전성현 에이전시 웹브라우저
KR20010105126A (ko) * 2000-05-19 2001-11-28 권영주 샘플이용에 따른 릴레이션 디비엠에스 구축과 광고체제 및방법
KR20010105967A (ko) * 2000-05-19 2001-11-29 이기영 실시간 웹데이터의 수집과 분석을 활용한 웹데이터마이닝방법 및 그 결과를 이용한 컨설팅 시스템
KR20010082412A (ko) * 2001-06-05 2001-08-30 안종배 숨겨진 메시지를 담고 해석할 수 있는 디지털 코드,디지털 디코더 기술과 프로모션과 설문이 결합된전자우편이 자동 시스템화된 On & Off Digital marketing사업모델
KR20020005418A (ko) * 2001-06-08 2002-01-17 남궁석 동영상에 포함된 ppl을 이용한 정보제공장치 및 그 방법
KR20010083846A (ko) * 2001-07-04 2001-09-03 김병기 데이터 마이닝을 이용한 시험합격확률 계산 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
논문서강대학교 경영학연구원 서강경영논총 9권 시작쪽수 293쪽, 전체쪽수 14쪽).[요약,내용 참조](1998.12.) *
서강경영논문집 제9집(1998.12.) *
카다로그.[조선닷컴 2000년 4월 27일자 관련 인쇄물 첨부]2000.04.27. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017294B2 (en) 2016-12-16 2021-05-25 Samsung Electronics Co., Ltd. Recognition method and apparatus

Also Published As

Publication number Publication date
AU2003212671A1 (en) 2003-09-16
WO2003075187A1 (en) 2003-09-12
KR20030071939A (ko) 2003-09-13

Similar Documents

Publication Publication Date Title
Mohamed et al. Generalized hidden Markov models. I. Theoretical frameworks
Anandkumar et al. Learning loopy graphical models with latent variables: Efficient methods and guarantees
Leblé Local microscopic behavior for 2D Coulomb gases
Rahman et al. Merging Strategies for Sum-Product Networks: From Trees to Graphs.
KR100640264B1 (ko) 앙상블 모형을 이용한 데이터 마이닝 모형 구축 장치 및그 방법
Parikh et al. A spectral algorithm for latent junction trees
Shur Growth properties of power-free languages
Chen et al. Decentralized stochastic bilevel optimization with improved per-iteration complexity
Tugnait Sparse graph learning under Laplacian-related constraints
Elvira et al. Gradient-based adaptive importance samplers
Salgia Provably and practically efficient neural contextual bandits
Stevenson et al. Self-supervised machine learning based approach to orbit modelling applied to space traffic management
Kumar et al. Graphical models and message-passing algorithms: Some introductory lectures
CN113408289A (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统
Zhang Dive into Decision Trees and Forests: A Theoretical Demonstration
Palmieri A comparison of algorithms for learning hidden variables in normal graphs
Kudinov et al. A hybrid language model based on a recurrent neural network and probabilistic topic modeling
Dean et al. Novel Deep Neural Network Classifier Characterization Metrics with Applications to Dataless Evaluation
Yu et al. Learning Uncertainty for Unknown Domains with Zero-Target-Assumption
Caragea et al. Abstraction augmented Markov models
Sullivan et al. Bayesian decision trees via tractable priors and probabilistic context-free grammars
Nair et al. Study of machine learning techniques for sentiment analysis
Huang et al. Rule-Extraction from Soft Decision Trees
Rappaport et al. Faster Clustering via Non-Backtracking Random Walks
Popescu et al. Word Embeddings for Romanian Language and Their Use for Synonyms Detection

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20040830

Effective date: 20060224

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee