KR101085066B1

KR101085066B1 - 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법

Info

Publication number: KR101085066B1
Application number: KR1020100001426A
Authority: KR
Inventors: 류근호; 이동규; 이경민; 정석호; 신동문
Original assignee: 충북대학교 산학협력단
Priority date: 2010-01-07
Filing date: 2010-01-07
Publication date: 2011-11-21
Also published as: KR20110080966A

Abstract

본 발명은 분류 정확성을 높일 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에 관한 것이다. 이와 같은 본 발명은 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계; 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계; 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계; 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계; 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및 탐색 가능 여부를 확인하여 생성된 규칙들이 모든 속성을 고려할 때까지 상기 정규화 단계 이후의 단계들을 반복수행하는 단계를 포함하여 이루어짐으로써, 생성한 분류 모델을 이용하여 기존 분류 기법들보다 정확하게 클래스 라벨이 알려지지 않은 레코드들로 구성된 시험 집합(test set)의 클래스 라벨을 종래의 기법들보다 정확하게 예측함에 있다.

Description

대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법{An Associative Classification Method for detecting useful knowledge from huge multi-attributes dataset}

본 발명은 데이터마이닝 분야의 연관 분류 기법에 관한 것으로서, 특히 분류 정확성을 높일 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에 관한 것이다.

분류 기법은 해킹 방지 시스템, 부도 예측, 마케팅 전략 활용 등 다양한 방면에서 활용되고 있다. 많은 분야에서 사용되고 있는 분류 기법은 질적인 예측을 위해서 훈련 집합(training set)으로부터 모델을 생성한다. 분류기법에서 생성된 모델은 데이터의 클래스 라벨을 예측하는데 사용된다.

전통적인 분류 기법들은 단일 속성만을 고려하여 규칙을 생성한다. 따라서 최근 제안되고 있는 연관분류기법보다 정확성이 떨어진다.

연관 분류 기법은 빈발 패턴과 클래스 레이블간의 연관성을 이용한 기법이다. 분류기법과 연관 규칙을 결합한 연관 분류 기법은 구매 패턴을 이용한 마케팅 전략 등 다양한 분야에서 활용되고 있다.

전통적인 연관분류기법들은 데이터의 분류 기준을 최소 지지도와 신뢰도를 이용하여 후보자를 생성하고 분류기를 통해 규칙을 생성한다.

종래의 연관 분류 기법 중 최초로 제안된 방법은 CBA(Classification Based on Associations) 이다. 연관분류 기법들중 가장 간단한 구조를 갖고 있으며 Apriori 알고리즘을 확장하여 적용하였다. 또한 새로운 규칙생성 알고리즘(CBA-RG: CBA Rule Generator))과 분류기 생성 알고리즘(CBA-CB: CBA Classifirer Builder)을 제안하였다. 그러나 대용량 데이터에서의 사용이 용이하지 않다는 Apriori 기반 알고리즘의 문제점이 있다.

CMAR(Classification based on Multiple Association Rules)은 대용량 데이터베이스에서의 사용이 적합하지 않은 CBA를 보완하기 위해서 제안되었다. FP-growth(Frequent Pattern growth) 알고리즘을 기반으로 하기 때문에 Apriori 기반인 CBA보다 수행속도가 향상되었다. 또한 CBA 보다 대용량 데이터베이스에서 효율적이고 정확한 분류기 생성이 가능하다. 그러나 많은 후보자 생성으로 인한 오버 헤드를 유발시키는 문제가 여전히 남아있다.

CPAR(Classification based on Predictive Association Rules)은 이전 기법들의 많은 후보자 생성 문제를 해결하기 위해 제안된 방법이다. Greed 알고리즘을 기반으로 사용하여 많은 후보자 생성을 피한다. 또한 규칙 생성 시 미리 만들어진 규칙들을 고려함으로써 중복을 피한다. 그러나 많은 분류기 생성으로 인해서 시스템 리소스를 많이 차지하는 문제점이 있다.

CAAR(Classification based on Atomic Association Rules)은 많은 분류기를 생성하는 이전 기법들을 보완하기 위해 제안된 방법이다. 최소 지지도 1%와 최소 신뢰도(0.98*minimum confidence)보다 높거나 가장 근접한 강한 최소 규칙(Strong atomic rule)을 사용한다. CAAR에서 제안한 Counter를 사용하여 3차원 배열 구조에 최소 규칙(2-itemset atomic rule)을 저장한다. 강한 최소 규칙(Strong atomic rule)을 사용함으로써 신뢰할 수 있는 정확한 예측을 가능하게 해준다.

CorClass(Correlated Association Rule Mining for Classification)는 고정된 최소 지지도를 사용함으로써 이전의 기법들에서 발생하는 문제점을 보완하기 위해 제안된 방법이다. branch-and-bound 알고리즘을 기반으로 사용하였다. 규칙을 생성할 때는 제거 임계값을 상한값까지 상승시켜서 사용한다. 유동적인 제거 임계값의 사용은 규칙 생성 후 처리 과정을 필요로 하지 않는다. 또한 더 빠르게 마이닝 과정을 끝마칠 수 있다. 또한 CorClass에서 제안한 최적의 정제 연산자(Optimal Refinement Operator)를 통해서 하나 이상의 규칙을 생성할 수 없도록 하였다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 시험 집합의 클래스 라벨을 보다 더 정확하게 예측할 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법을 제공하는데 있다.

본 발명의 다른 목적은 새로운 분류 규칙 생성 방법을 제안하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법은, 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계; 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계; 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계; 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계; 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및 탐색 가능 여부를 확인하여 생성된 규칙들이 모든 속성을 고려할 때까지 상기 정규화 단계 이후의 단계들을 반복수행하는 단계를 포함하여 이루어질 수 있다.

바람직하게, 상기 연관 규칙을 탐색하는 단계는 각 데이터 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구하는 단계; 각 데이터 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬하는 단계; 및 상기 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 연관 규칙을 탐색하는 단계를 포함할 수 있다.

바람직하게, 상기 분류 기준값을 생성하는 단계는 상기 평균과 표준 편차의 차를 이용하여 각 클래스의 분포값의 차이를 획득하는 단계; 및 상기 획득한 분포값의 차이를 이용하여 분류 기준값을 나타내는 단계를 포함할 수 있다.

바람직하게, 상기 규칙 기준값을 생성하는 단계는 각 클래스에 해당하는 데이터들의 평균값을 구하는 단계; 및 상기 구해진 각 클래스의 평균값의 차이에서 중간값을 사용하여 규칙 기준값을 생성하는 단계를 포함할 수 있다.

본 발명에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에서는 평균과 표준편차를 이용한 데이터 분포 기반의 연관 분류 기법을 제안함으로써, 데이터 분포를 가시화하고 데이터의 분류 정도를 쉽게 판별한다. 또한 제안된 분류 기준값과 규칙 기준값의 사용은 이전 기법들보다 더 정확한 규칙을 생성할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법의 수행 과정을 나타낸 흐름도이다.
도 2는 본 발명의 실시 예에 따른 분류 기준값(CRV: Classification Reference Value)을 나타낸 그래프이다.
도 3은 본 발명의 실시 예에 따른 규칙 기준값(RRV: Rule Reference Value)을 나타낸 그래프이다.
도 4 내지 도 6은 본 발명의 실시 예에 따른 각 데이터 속성의 분류 기준 값을 얻는 과정을 나타낸 그래프이다.
도 7 내지 도 9는 본 발명의 실시 예에 따른 각 데이터 속성의 규칙 기준 값을 얻는 과정을 나타낸 그래프이다.
도 10은 기존의 헌트 알고리즘을 이용하여 나타낸 의사결정 트리(Decision Tree)이다.
도 11은 본 발명에의 실시 예에 따라 도출된 최상 분포값을 갖는 규칙을 나타낸 의사결정 트리이다.

이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

하기의 설명에서 클래스의 중간값은 데이터들의 분포를 고려한 중간값을 의미하는 바로 사용될 것이다.

도 1은 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법의 수행 과정을 나타낸 흐름도이다. 도 1을 참조하면 전체 과정은 6단계의 핵심적인 수행 과정으로 구성된다. 도 2는 도 1의 수행 과정 중 3번째 단계에서 생성되는 분류 기준값(CRV: Classification Reference Value)을 나타낸 도면이고, 도 3은 도 1의 수행 과정 중 4번째 단계에서 생성되는 규칙 기준값(RRV: Rule Reference Value)을 나타낸 도면이다. 본 발명에서의 정확성 있는 분류 모델 생성은 도 1에 도시된 6단계의 핵심적인 수행과정을 따라서 획득할 수 있다.

트랜잭션들로 구성된 데이터를 D={d₁,d₂, ~ d_n}라 하고, 데이터 속성을 A={a₁,a₂, ~a_n}, 클래스 라벨을 C={c₁,c₂, ~ c_n}라 정의한다. 이하의 설명에서 동작의 주체는 시스템의 제어부나 제어 프로그램, 혹은 이와 동등한 수준의 제어 수단인 것으로 한다.

S110 단계에서는 데이터를 정규화한다. 본 발명에서는 데이터 집합 D를 분류기법에서 사용하기 위해 0과 1 사이 값으로 정규화하였다. 이때 정규화된 연속형 속성값들은 소수점 셋째 자리에서 반올림하여 사용한다. 상기 정규화 과정을 통해서 데이터의 범위가 큰 데이터가 작은 데이터보다 더 많은 작용을 하는 것을 방지한다.

S120 단계에서는 연관 규칙을 탐색한다. 연관 규칙탐색은 모든 속성을 고려하여 규칙을 생성한다. 만약 규칙 생성의 마지막 단계인 탐색 가능 여부 단계에서 모든 속성이 고려되지 않았다면, 모든 속성을 탐색할 때까지 속성의 항목을 증가시켜가면서 규칙을 생성한다.

S130 단계에서는 분류 기준값을 생성한다. 도 2를 참조하면, 두 개의 클래스 라벨(c₁,c₂)값을 갖는 데이터 분포를 나타낸다. x축은 속성들의 값이고 y축은 트랜잭션의 개수를 나타낸다. 실선으로 나타낸 avg(c₁)은 클래스 라벨이 c₁인 데이터들의 평균이다. 점선으로 나타낸 std(c₁)은 클래스 라벨이 c₁인 데이터의 표준편차이다. 분류 기준값은 각 클래스의 분포값의 차이를 이용하여 나타낸다. 분포값의 차이는 평균과 표준 편차의 차를 이용함으로써 획득한다. 따라서 분류 기준 값은 데이터의 분류 정도와 생성된 모든 규칙들을 비교할 수 있다.

S140 단계에서는 규칙 기준값(RRV: Rule Reference Value)을 생성한다. 도 3을 참조하면, 각 클래스의 평균값을 이용하여 해당되는 클래스의 중간값을 얻는다. 각 클래스 c₁과 c₂에 해당하는 데이터들의 평균값을 구하고 평균값의 차이에서 중간값을 사용하여 규칙 기준값을 생성한다. 규칙 기준값은 규칙 생성 시 규칙의 범위를 정해주는 값이다.

S150 단계에서는 상기 생성된 규칙 기준 값을 이용하여 규칙을 생성한다. 본 발명에서는 규칙을 생성할 때 목표 클래스 라벨을 기준으로 획득한다. 도 3을 참조하면 c₁의 평균이 c₂의 평균보다 작다. 만약 목표 클래스 라벨을 도 3의 c₁으로 선택할 경우, 속성A는 규칙 기준 값보다 작은 값을 갖는 규칙을 생성한다. 하지만 목표 클래스 값이 c₂인 경우 속성 A는 규칙 기준 값보다 큰 값을 갖는 규칙을 생성한다.

S160 단계는 탐색 가능 여부를 확인하는 단계이다. 만약 생성된 규칙들이 모든 속성을 고려하지 않았다면 연관규칙 단계로 돌아가서 조건 속성의 개수를 증가시켜 조건을 탐색한다. 위와 같은 과정은 모든 속성을 고려할 때까지 반복한다. 모든 단계를 거쳐 생성된 규칙들 중 최상의 분류 기준 값을 갖는 규칙은 가장 높은 분류 정확성을 갖는다.

이하 본 발명에서 제안하는 알고리즘을 예제 데이터를 통해 설명한다.

Tid	Home owner	Marital Status	Annual Income	Defaulted Borrower
1	Yes	Single	125K	No
2	No	Married	100K	No
3	No	Single	70K	No
4	Yes	Married	120K	No
5	No	Divorced	95K	Yes
6	No	Married	60K	No
7	Yes	Divorced	220K	No
8	No	Single	85K	Yes
9	No	Married	75K	No
10	No	Single	90K	Yes

상기 [표1]은 대출자의 개인 정보와 대출금 체납 여부를 나타낸 데이터로서, 5개의 속성(Tid, Home Owner, Marital Status, Annual Income, Defaulted Borrower)으로 구성된다. Tid 속성은 트랜잭션 식별자 값을 의미한다. Home Owner 속성은 현재 집 보유 여부를 이진 값으로 나타냈다. Marital Status 속성은 결혼 여부를 범주형 값으로 나타냈다. Annual Income 속성은 연봉을 연속형 값으로 나타냈다. Defaulted Borrower 속성은 체납여부를 이진 값으로 나타냈고 클래스 라벨로 사용하였다. 상기 Defaulted Borrower 클래스 라벨 값이 Yes이면 대출금 체납 고객을 나타내고, No이면 대출금을 상환한 고객을 나타낸다.

상기 [표1]의 데이터를 분류 기법에서 사용하기 위해서는 정규화 과정이 필요하다. [표2]에서는 상기 표 1의 데이터를 0과 1 사이의 값으로 정규화하였다.

특히 Annual Income 속성은 값에 영향을 주지 않는 문자 "K"를 제거하고, 연속형 속성들만 이용하여 소수 셋째에서 반올림하여 사용한다.

Tid	Home owner	Marital Status	Annual Income	Defaulted Borrower
1	1	0	0.41	0
2	0	1	0.25	0
3	0	0	0.06	0
4	1	1	0.38	0
5	0	0.5	0.22	1
6	0	1	0	0
7	1	0.5	1	0
8	0	0	0.16	1
9	0	1	0.09	0
10	0	0	0.19	1

상기와 같이 정규화된 [표2]를 통해서 연관 규칙을 탐색한다. 연관규칙 탐색 방법은 모든 속성을 고려한다. 먼저 각 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구한다. 다음 과정으로는 각 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬한다. 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 연관 규칙을 탐색한다.

상기 [표3]은 Home owner, Marital Status, Annual Income속성들을 클래스 라벨 c₀과 c₁에 해당하는 데이터들의 평균 및 표준 편차를 나타내었다. [표3]에서 표현한 avg(c₀)는 클래스 라벨이 0인 값을 갖는 데이터들의 평균이다. 같은 맥락으로 std(c₀)는 클래스 라벨이 0인 값들의 표준편차 값을 나타낸다.

상기 [표4]는 분류 기준값(CRV)과 규칙 기준값(RRV)을 나타낸다. [표4]는 도 2와 도 3과 같은 방법을 이용하여 값을 얻을 수 있다.

도 4 내지 도 6은 분류 기준 값을 얻는 과정을 나타내었다. 여기에서 x축은 속성들의 값을 나타내고, y축은 해당 값들의 트랜잭션 카운트를 나타내었다. 또한 Class0은 클래스 라벨 값을 0을 갖는 데이터들의 분포를 나타내었다. Class1은 클래스 라벨 값을 1을 갖는 데이터들의 분포를 나타내었다. avg(c₀)은 Class0의 평균값을 나타내고 avg(c₁)은 Class1의 평균값을 나타낸다. 그리고 std(c₀)은 Class0의 표준 편차 값을 나타내고 std(c₁)은 Class1의 표준 편차 값을 나타낸다. 평균과 표준 편차 값을 이용한 분류 기준 값은 데이터의 분류 정도를 객관적으로 나타낸다.

도 7 내지 도 9는 규칙 기준 값을 얻는 과정을 나타내었다. 규칙을 생성할 때는 목표 클래스 라벨을 기준으로 규칙기준 값의 범위를 설정한다. 현재의 데이터는 목표 클래스 라벨 값을 Yes(1)로 한다. 목표 클래스 라벨을 기준으로 도 4 내지 도 9의 과정을 통해 [표5]와 같은 규칙이 생성된다.

[표5]는 하나의 속성만을 고려하여 생성된 규칙들이다. [표5]를 바탕으로 모든 속성을 고려한 규칙을 생성한다.

[표6]은 모든 속성들을 고려하여 생성된 규칙들을 CRV값을 기준으로 정렬하였다.

Home owener < 0.05 and Annual Income > 0.15 AND Marital Status < 0.59 CRV:0.54

[표7]은 모든 과정을 통해서 나온 규칙들 중 최상의 분포 값을 갖는 규칙이다. 그러므로 가장 높은 분류 정확성을 갖는다.

본 발명이 제안하는 기법을 통해 얻어진 결과와 예제 데이터에서 나온 결과를 분류모델을 생성하여 비교한다.

도 10은 상기 [표1]을 기존의 헌트 알고리즘을 이용하여 나타낸 의사결정 트리(Decision Tree)이다. 도 11은 본 발명에서 제안한 기법을 이용하여 얻은 상기 [표7]의 규칙을 트리 구조로 나타내었다. 최상위 노드인 Home owner 속성은 도 10에서 데이터 값이 Yes(1)를 갖는 경우 대출금을 모두 상환하였다. 도 11에서는 Home owner의 값이 0.05보다 큰 경우 대출금을 모두 상환하였다. 두 번째 노드인 Marital Status 속성은 도 10에서 Single(0), Divorce(0.5) 값을 갖지 않는 경우에서 대출금을 상환하였다. 도 11의 Annual Income 값이 0.13을 기준으로 작은 경우는 대출금을 상환하였다. 마지막 노드는 도10의 Annual Income 속성은 80K(0.13)값보다 클 때 대출금을 상환하였고, 작을 경우는 상환을 하지 못한 결과를 얻었다. 도 11의 Marital Status가 0.59보다 큰 값을 갖는 경우는 대출금을 상환하였고 작은 경우는 대출금을 상환하지 못한 결과를 얻었다.

이상에서는 본 발명에서 특정의 바람직한 실시 예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시 예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

Claims

각각 다른 속성을 갖는 다수의 데이터를 포함하는 대용량 다속성 데이터집합에서의 연관 분류 방법에 있어서,
(a) 상기 데이터 집합을 연관 분류하도록 제어하는 프로그램은, 상기 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계;
(b) 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계;
(c) 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계;
(d) 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계;
(e) 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및
(f) 생성된 규칙들이 상기 데이터 집합에 포함된 모든 데이터의 속성을 고려할 때까지 상기 (b) 내지 (e) 단계를 반복수행하는 단계를 포함하여 이루어지는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
제 1항에 있어서, 상기 (b) 단계는
각 데이터 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구하는 단계;
각 데이터 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬하는 단계; 및
상기 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 상기 연관 규칙을 탐색하는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
제 2항에 있어서, 상기 (c) 단계는
상기 평균과 표준 편차의 차를 이용하여 각 클래스의 분포값의 차이를 획득하는 단계; 및
상기 획득한 분포값의 차이를 이용하여 상기 분류 기준값을 나타내는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
제 1항에 있어서, 상기 (d) 단계는
각 클래스에 해당하는 데이터들의 평균값을 구하는 단계; 및
구해진 각 클래스의 평균값의 차이에서 중간값을 사용하여 상기 규칙 기준값을 생성하는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.