KR101085066B1 - 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법 - Google Patents

대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법 Download PDF

Info

Publication number
KR101085066B1
KR101085066B1 KR1020100001426A KR20100001426A KR101085066B1 KR 101085066 B1 KR101085066 B1 KR 101085066B1 KR 1020100001426 A KR1020100001426 A KR 1020100001426A KR 20100001426 A KR20100001426 A KR 20100001426A KR 101085066 B1 KR101085066 B1 KR 101085066B1
Authority
KR
South Korea
Prior art keywords
data
rule
classification
generated
attribute
Prior art date
Application number
KR1020100001426A
Other languages
English (en)
Other versions
KR20110080966A (ko
Inventor
류근호
이동규
이경민
정석호
신동문
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020100001426A priority Critical patent/KR101085066B1/ko
Publication of KR20110080966A publication Critical patent/KR20110080966A/ko
Application granted granted Critical
Publication of KR101085066B1 publication Critical patent/KR101085066B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 분류 정확성을 높일 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에 관한 것이다. 이와 같은 본 발명은 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계; 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계; 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계; 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계; 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및 탐색 가능 여부를 확인하여 생성된 규칙들이 모든 속성을 고려할 때까지 상기 정규화 단계 이후의 단계들을 반복수행하는 단계를 포함하여 이루어짐으로써, 생성한 분류 모델을 이용하여 기존 분류 기법들보다 정확하게 클래스 라벨이 알려지지 않은 레코드들로 구성된 시험 집합(test set)의 클래스 라벨을 종래의 기법들보다 정확하게 예측함에 있다.

Description

대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법{An Associative Classification Method for detecting useful knowledge from huge multi-attributes dataset}
본 발명은 데이터마이닝 분야의 연관 분류 기법에 관한 것으로서, 특히 분류 정확성을 높일 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에 관한 것이다.
분류 기법은 해킹 방지 시스템, 부도 예측, 마케팅 전략 활용 등 다양한 방면에서 활용되고 있다. 많은 분야에서 사용되고 있는 분류 기법은 질적인 예측을 위해서 훈련 집합(training set)으로부터 모델을 생성한다. 분류기법에서 생성된 모델은 데이터의 클래스 라벨을 예측하는데 사용된다.
전통적인 분류 기법들은 단일 속성만을 고려하여 규칙을 생성한다. 따라서 최근 제안되고 있는 연관분류기법보다 정확성이 떨어진다.
연관 분류 기법은 빈발 패턴과 클래스 레이블간의 연관성을 이용한 기법이다. 분류기법과 연관 규칙을 결합한 연관 분류 기법은 구매 패턴을 이용한 마케팅 전략 등 다양한 분야에서 활용되고 있다.
전통적인 연관분류기법들은 데이터의 분류 기준을 최소 지지도와 신뢰도를 이용하여 후보자를 생성하고 분류기를 통해 규칙을 생성한다.
종래의 연관 분류 기법 중 최초로 제안된 방법은 CBA(Classification Based on Associations) 이다. 연관분류 기법들중 가장 간단한 구조를 갖고 있으며 Apriori 알고리즘을 확장하여 적용하였다. 또한 새로운 규칙생성 알고리즘(CBA-RG: CBA Rule Generator))과 분류기 생성 알고리즘(CBA-CB: CBA Classifirer Builder)을 제안하였다. 그러나 대용량 데이터에서의 사용이 용이하지 않다는 Apriori 기반 알고리즘의 문제점이 있다.
CMAR(Classification based on Multiple Association Rules)은 대용량 데이터베이스에서의 사용이 적합하지 않은 CBA를 보완하기 위해서 제안되었다. FP-growth(Frequent Pattern growth) 알고리즘을 기반으로 하기 때문에 Apriori 기반인 CBA보다 수행속도가 향상되었다. 또한 CBA 보다 대용량 데이터베이스에서 효율적이고 정확한 분류기 생성이 가능하다. 그러나 많은 후보자 생성으로 인한 오버 헤드를 유발시키는 문제가 여전히 남아있다.
CPAR(Classification based on Predictive Association Rules)은 이전 기법들의 많은 후보자 생성 문제를 해결하기 위해 제안된 방법이다. Greed 알고리즘을 기반으로 사용하여 많은 후보자 생성을 피한다. 또한 규칙 생성 시 미리 만들어진 규칙들을 고려함으로써 중복을 피한다. 그러나 많은 분류기 생성으로 인해서 시스템 리소스를 많이 차지하는 문제점이 있다.
CAAR(Classification based on Atomic Association Rules)은 많은 분류기를 생성하는 이전 기법들을 보완하기 위해 제안된 방법이다. 최소 지지도 1%와 최소 신뢰도(0.98*minimum confidence)보다 높거나 가장 근접한 강한 최소 규칙(Strong atomic rule)을 사용한다. CAAR에서 제안한 Counter를 사용하여 3차원 배열 구조에 최소 규칙(2-itemset atomic rule)을 저장한다. 강한 최소 규칙(Strong atomic rule)을 사용함으로써 신뢰할 수 있는 정확한 예측을 가능하게 해준다.
CorClass(Correlated Association Rule Mining for Classification)는 고정된 최소 지지도를 사용함으로써 이전의 기법들에서 발생하는 문제점을 보완하기 위해 제안된 방법이다. branch-and-bound 알고리즘을 기반으로 사용하였다. 규칙을 생성할 때는 제거 임계값을 상한값까지 상승시켜서 사용한다. 유동적인 제거 임계값의 사용은 규칙 생성 후 처리 과정을 필요로 하지 않는다. 또한 더 빠르게 마이닝 과정을 끝마칠 수 있다. 또한 CorClass에서 제안한 최적의 정제 연산자(Optimal Refinement Operator)를 통해서 하나 이상의 규칙을 생성할 수 없도록 하였다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 시험 집합의 클래스 라벨을 보다 더 정확하게 예측할 수 있는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법을 제공하는데 있다.
본 발명의 다른 목적은 새로운 분류 규칙 생성 방법을 제안하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법을 제공함에 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법은, 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계; 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계; 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계; 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계; 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및 탐색 가능 여부를 확인하여 생성된 규칙들이 모든 속성을 고려할 때까지 상기 정규화 단계 이후의 단계들을 반복수행하는 단계를 포함하여 이루어질 수 있다.
바람직하게, 상기 연관 규칙을 탐색하는 단계는 각 데이터 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구하는 단계; 각 데이터 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬하는 단계; 및 상기 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 연관 규칙을 탐색하는 단계를 포함할 수 있다.
바람직하게, 상기 분류 기준값을 생성하는 단계는 상기 평균과 표준 편차의 차를 이용하여 각 클래스의 분포값의 차이를 획득하는 단계; 및 상기 획득한 분포값의 차이를 이용하여 분류 기준값을 나타내는 단계를 포함할 수 있다.
바람직하게, 상기 규칙 기준값을 생성하는 단계는 각 클래스에 해당하는 데이터들의 평균값을 구하는 단계; 및 상기 구해진 각 클래스의 평균값의 차이에서 중간값을 사용하여 규칙 기준값을 생성하는 단계를 포함할 수 있다.
본 발명에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법에서는 평균과 표준편차를 이용한 데이터 분포 기반의 연관 분류 기법을 제안함으로써, 데이터 분포를 가시화하고 데이터의 분류 정도를 쉽게 판별한다. 또한 제안된 분류 기준값과 규칙 기준값의 사용은 이전 기법들보다 더 정확한 규칙을 생성할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법의 수행 과정을 나타낸 흐름도이다.
도 2는 본 발명의 실시 예에 따른 분류 기준값(CRV: Classification Reference Value)을 나타낸 그래프이다.
도 3은 본 발명의 실시 예에 따른 규칙 기준값(RRV: Rule Reference Value)을 나타낸 그래프이다.
도 4 내지 도 6은 본 발명의 실시 예에 따른 각 데이터 속성의 분류 기준 값을 얻는 과정을 나타낸 그래프이다.
도 7 내지 도 9는 본 발명의 실시 예에 따른 각 데이터 속성의 규칙 기준 값을 얻는 과정을 나타낸 그래프이다.
도 10은 기존의 헌트 알고리즘을 이용하여 나타낸 의사결정 트리(Decision Tree)이다.
도 11은 본 발명에의 실시 예에 따라 도출된 최상 분포값을 갖는 규칙을 나타낸 의사결정 트리이다.
이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
하기의 설명에서 클래스의 중간값은 데이터들의 분포를 고려한 중간값을 의미하는 바로 사용될 것이다.
도 1은 본 발명의 실시 예에 따른 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법의 수행 과정을 나타낸 흐름도이다. 도 1을 참조하면 전체 과정은 6단계의 핵심적인 수행 과정으로 구성된다. 도 2는 도 1의 수행 과정 중 3번째 단계에서 생성되는 분류 기준값(CRV: Classification Reference Value)을 나타낸 도면이고, 도 3은 도 1의 수행 과정 중 4번째 단계에서 생성되는 규칙 기준값(RRV: Rule Reference Value)을 나타낸 도면이다. 본 발명에서의 정확성 있는 분류 모델 생성은 도 1에 도시된 6단계의 핵심적인 수행과정을 따라서 획득할 수 있다.
트랜잭션들로 구성된 데이터를 D={d1,d2, ~ dn}라 하고, 데이터 속성을 A={a1,a2, ~an}, 클래스 라벨을 C={c1,c2, ~ cn}라 정의한다. 이하의 설명에서 동작의 주체는 시스템의 제어부나 제어 프로그램, 혹은 이와 동등한 수준의 제어 수단인 것으로 한다.
S110 단계에서는 데이터를 정규화한다. 본 발명에서는 데이터 집합 D를 분류기법에서 사용하기 위해 0과 1 사이 값으로 정규화하였다. 이때 정규화된 연속형 속성값들은 소수점 셋째 자리에서 반올림하여 사용한다. 상기 정규화 과정을 통해서 데이터의 범위가 큰 데이터가 작은 데이터보다 더 많은 작용을 하는 것을 방지한다.
S120 단계에서는 연관 규칙을 탐색한다. 연관 규칙탐색은 모든 속성을 고려하여 규칙을 생성한다. 만약 규칙 생성의 마지막 단계인 탐색 가능 여부 단계에서 모든 속성이 고려되지 않았다면, 모든 속성을 탐색할 때까지 속성의 항목을 증가시켜가면서 규칙을 생성한다.
S130 단계에서는 분류 기준값을 생성한다. 도 2를 참조하면, 두 개의 클래스 라벨(c1,c2)값을 갖는 데이터 분포를 나타낸다. x축은 속성들의 값이고 y축은 트랜잭션의 개수를 나타낸다. 실선으로 나타낸 avg(c1)은 클래스 라벨이 c1인 데이터들의 평균이다. 점선으로 나타낸 std(c1)은 클래스 라벨이 c1인 데이터의 표준편차이다. 분류 기준값은 각 클래스의 분포값의 차이를 이용하여 나타낸다. 분포값의 차이는 평균과 표준 편차의 차를 이용함으로써 획득한다. 따라서 분류 기준 값은 데이터의 분류 정도와 생성된 모든 규칙들을 비교할 수 있다.
S140 단계에서는 규칙 기준값(RRV: Rule Reference Value)을 생성한다. 도 3을 참조하면, 각 클래스의 평균값을 이용하여 해당되는 클래스의 중간값을 얻는다. 각 클래스 c1과 c2에 해당하는 데이터들의 평균값을 구하고 평균값의 차이에서 중간값을 사용하여 규칙 기준값을 생성한다. 규칙 기준값은 규칙 생성 시 규칙의 범위를 정해주는 값이다.
S150 단계에서는 상기 생성된 규칙 기준 값을 이용하여 규칙을 생성한다. 본 발명에서는 규칙을 생성할 때 목표 클래스 라벨을 기준으로 획득한다. 도 3을 참조하면 c1의 평균이 c2의 평균보다 작다. 만약 목표 클래스 라벨을 도 3의 c1으로 선택할 경우, 속성A는 규칙 기준 값보다 작은 값을 갖는 규칙을 생성한다. 하지만 목표 클래스 값이 c2인 경우 속성 A는 규칙 기준 값보다 큰 값을 갖는 규칙을 생성한다.
S160 단계는 탐색 가능 여부를 확인하는 단계이다. 만약 생성된 규칙들이 모든 속성을 고려하지 않았다면 연관규칙 단계로 돌아가서 조건 속성의 개수를 증가시켜 조건을 탐색한다. 위와 같은 과정은 모든 속성을 고려할 때까지 반복한다. 모든 단계를 거쳐 생성된 규칙들 중 최상의 분류 기준 값을 갖는 규칙은 가장 높은 분류 정확성을 갖는다.
이하 본 발명에서 제안하는 알고리즘을 예제 데이터를 통해 설명한다.
Tid Home owner Marital Status Annual Income Defaulted Borrower
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
상기 [표1]은 대출자의 개인 정보와 대출금 체납 여부를 나타낸 데이터로서, 5개의 속성(Tid, Home Owner, Marital Status, Annual Income, Defaulted Borrower)으로 구성된다. Tid 속성은 트랜잭션 식별자 값을 의미한다. Home Owner 속성은 현재 집 보유 여부를 이진 값으로 나타냈다. Marital Status 속성은 결혼 여부를 범주형 값으로 나타냈다. Annual Income 속성은 연봉을 연속형 값으로 나타냈다. Defaulted Borrower 속성은 체납여부를 이진 값으로 나타냈고 클래스 라벨로 사용하였다. 상기 Defaulted Borrower 클래스 라벨 값이 Yes이면 대출금 체납 고객을 나타내고, No이면 대출금을 상환한 고객을 나타낸다.
상기 [표1]의 데이터를 분류 기법에서 사용하기 위해서는 정규화 과정이 필요하다. [표2]에서는 상기 표 1의 데이터를 0과 1 사이의 값으로 정규화하였다.
특히 Annual Income 속성은 값에 영향을 주지 않는 문자 "K"를 제거하고, 연속형 속성들만 이용하여 소수 셋째에서 반올림하여 사용한다.
Tid Home owner Marital Status Annual Income Defaulted Borrower
1 1 0 0.41 0
2 0 1 0.25 0
3 0 0 0.06 0
4 1 1 0.38 0
5 0 0.5 0.22 1
6 0 1 0 0
7 1 0.5 1 0
8 0 0 0.16 1
9 0 1 0.09 0
10 0 0 0.19 1
상기와 같이 정규화된 [표2]를 통해서 연관 규칙을 탐색한다. 연관규칙 탐색 방법은 모든 속성을 고려한다. 먼저 각 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구한다. 다음 과정으로는 각 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬한다. 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 연관 규칙을 탐색한다.
Figure 112010001057547-pat00001
상기 [표3]은 Home owner, Marital Status, Annual Income속성들을 클래스 라벨 c0과 c1에 해당하는 데이터들의 평균 및 표준 편차를 나타내었다. [표3]에서 표현한 avg(c0)는 클래스 라벨이 0인 값을 갖는 데이터들의 평균이다. 같은 맥락으로 std(c0)는 클래스 라벨이 0인 값들의 표준편차 값을 나타낸다.
Figure 112010001057547-pat00002
상기 [표4]는 분류 기준값(CRV)과 규칙 기준값(RRV)을 나타낸다. [표4]는 도 2와 도 3과 같은 방법을 이용하여 값을 얻을 수 있다.
도 4 내지 도 6은 분류 기준 값을 얻는 과정을 나타내었다. 여기에서 x축은 속성들의 값을 나타내고, y축은 해당 값들의 트랜잭션 카운트를 나타내었다. 또한 Class0은 클래스 라벨 값을 0을 갖는 데이터들의 분포를 나타내었다. Class1은 클래스 라벨 값을 1을 갖는 데이터들의 분포를 나타내었다. avg(c0)은 Class0의 평균값을 나타내고 avg(c1)은 Class1의 평균값을 나타낸다. 그리고 std(c0)은 Class0의 표준 편차 값을 나타내고 std(c1)은 Class1의 표준 편차 값을 나타낸다. 평균과 표준 편차 값을 이용한 분류 기준 값은 데이터의 분류 정도를 객관적으로 나타낸다.
도 7 내지 도 9는 규칙 기준 값을 얻는 과정을 나타내었다. 규칙을 생성할 때는 목표 클래스 라벨을 기준으로 규칙기준 값의 범위를 설정한다. 현재의 데이터는 목표 클래스 라벨 값을 Yes(1)로 한다. 목표 클래스 라벨을 기준으로 도 4 내지 도 9의 과정을 통해 [표5]와 같은 규칙이 생성된다.
Figure 112010001057547-pat00003
[표5]는 하나의 속성만을 고려하여 생성된 규칙들이다. [표5]를 바탕으로 모든 속성을 고려한 규칙을 생성한다.
Figure 112010001057547-pat00004
[표6]은 모든 속성들을 고려하여 생성된 규칙들을 CRV값을 기준으로 정렬하였다.
Home owener < 0.05 and Annual Income > 0.15 AND Marital Status < 0.59 CRV:0.54
[표7]은 모든 과정을 통해서 나온 규칙들 중 최상의 분포 값을 갖는 규칙이다. 그러므로 가장 높은 분류 정확성을 갖는다.
본 발명이 제안하는 기법을 통해 얻어진 결과와 예제 데이터에서 나온 결과를 분류모델을 생성하여 비교한다.
도 10은 상기 [표1]을 기존의 헌트 알고리즘을 이용하여 나타낸 의사결정 트리(Decision Tree)이다. 도 11은 본 발명에서 제안한 기법을 이용하여 얻은 상기 [표7]의 규칙을 트리 구조로 나타내었다. 최상위 노드인 Home owner 속성은 도 10에서 데이터 값이 Yes(1)를 갖는 경우 대출금을 모두 상환하였다. 도 11에서는 Home owner의 값이 0.05보다 큰 경우 대출금을 모두 상환하였다. 두 번째 노드인 Marital Status 속성은 도 10에서 Single(0), Divorce(0.5) 값을 갖지 않는 경우에서 대출금을 상환하였다. 도 11의 Annual Income 값이 0.13을 기준으로 작은 경우는 대출금을 상환하였다. 마지막 노드는 도10의 Annual Income 속성은 80K(0.13)값보다 클 때 대출금을 상환하였고, 작을 경우는 상환을 하지 못한 결과를 얻었다. 도 11의 Marital Status가 0.59보다 큰 값을 갖는 경우는 대출금을 상환하였고 작은 경우는 대출금을 상환하지 못한 결과를 얻었다.
이상에서는 본 발명에서 특정의 바람직한 실시 예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시 예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

Claims (4)

  1. 각각 다른 속성을 갖는 다수의 데이터를 포함하는 대용량 다속성 데이터집합에서의 연관 분류 방법에 있어서,
    (a) 상기 데이터 집합을 연관 분류하도록 제어하는 프로그램은, 상기 데이터 집합의 데이터를 분류기법에서 사용하기 위해 데이터를 정규화하는 단계;
    (b) 상기 정규화된 데이터의 속성을 고려하여 연관 규칙을 탐색하는 단계;
    (c) 상기 데이터의 분류 정도와 상기 연관 규칙 탐색에 의해 생성된 모든 규칙들을 비교하는 분류 기준값을 생성하는 단계;
    (d) 클래스의 중간값을 이용하여 규칙 생성 시 규칙의 범위를 정해주는 규칙 기준값을 생성하는 단계;
    (e) 상기 생성된 규칙 기준 값을 이용하여 목표 클래스 라벨을 기준으로 규칙을 생성하는 단계; 및
    (f) 생성된 규칙들이 상기 데이터 집합에 포함된 모든 데이터의 속성을 고려할 때까지 상기 (b) 내지 (e) 단계를 반복수행하는 단계를 포함하여 이루어지는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
  2. 제 1항에 있어서, 상기 (b) 단계는
    각 데이터 속성의 클래스 라벨을 기준으로 평균과 표준편차를 구하는 단계;
    각 데이터 속성을 기준으로 나온 규칙을 이용하여 데이터를 정렬하는 단계; 및
    상기 정렬된 데이터를 기준으로 속성의 항목을 증가시켜 가면서 상기 연관 규칙을 탐색하는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
  3. 제 2항에 있어서, 상기 (c) 단계는
    상기 평균과 표준 편차의 차를 이용하여 각 클래스의 분포값의 차이를 획득하는 단계; 및
    상기 획득한 분포값의 차이를 이용하여 상기 분류 기준값을 나타내는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
  4. 제 1항에 있어서, 상기 (d) 단계는
    각 클래스에 해당하는 데이터들의 평균값을 구하는 단계; 및
    구해진 각 클래스의 평균값의 차이에서 중간값을 사용하여 상기 규칙 기준값을 생성하는 단계를 포함하는 것을 특징으로 하는 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법.
KR1020100001426A 2010-01-07 2010-01-07 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법 KR101085066B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100001426A KR101085066B1 (ko) 2010-01-07 2010-01-07 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100001426A KR101085066B1 (ko) 2010-01-07 2010-01-07 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법

Publications (2)

Publication Number Publication Date
KR20110080966A KR20110080966A (ko) 2011-07-13
KR101085066B1 true KR101085066B1 (ko) 2011-11-21

Family

ID=44919780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100001426A KR101085066B1 (ko) 2010-01-07 2010-01-07 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법

Country Status (1)

Country Link
KR (1) KR101085066B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101340461B1 (ko) * 2012-03-06 2013-12-11 공주대학교 산학협력단 컨텍스트 예측 시스템
KR101432697B1 (ko) * 2012-12-26 2014-08-25 충북대학교 산학협력단 대용량 다중 클래스 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
KR101637504B1 (ko) * 2015-01-16 2016-07-07 주식회사 솔트룩스 비정형 데이터 처리 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝(강공미 외3명; 정보과학회지 제35권 제2호 (2008년 4월))

Also Published As

Publication number Publication date
KR20110080966A (ko) 2011-07-13

Similar Documents

Publication Publication Date Title
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
Wang et al. Locality sensitive outlier detection: A ranking driven approach
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
US20060004747A1 (en) Automated taxonomy generation
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
CN106991141B (zh) 一种基于深度剪枝策略的关联规则挖掘方法
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US11971892B2 (en) Methods for stratified sampling-based query execution
US20210149924A1 (en) Clustering of data records with hierarchical cluster ids
Wang et al. Mining changes of classification by correspondence tracing
US20210263903A1 (en) Multi-level conflict-free entity clusters
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
Huang et al. Weighting method for feature selection in k-means
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
KR102158049B1 (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
Yun On pushing weight constraints deeply into frequent itemset mining
Adhikari et al. Study of select items in different data sources by grouping
Zhu et al. A Type‐Based Blocking Technique for Efficient Entity Resolution over Large‐Scale Data
CN114625868A (zh) 一种基于选择性集成学习的电力数据文本分类算法
CN112070171A (zh) 一种基于实例选择和特征选择的优化数据集的方法
CN111461199A (zh) 基于分布的垃圾邮件分类数据的安全属性选择方法
Wang et al. A Vision of a Decisional Model for Re-optimizing Query Execution Plans Based on Machine Learning Techniques

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141114

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151111

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee