KR101064833B1 - 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법 - Google Patents

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법 Download PDF

Info

Publication number
KR101064833B1
KR101064833B1 KR1020090045452A KR20090045452A KR101064833B1 KR 101064833 B1 KR101064833 B1 KR 101064833B1 KR 1020090045452 A KR1020090045452 A KR 1020090045452A KR 20090045452 A KR20090045452 A KR 20090045452A KR 101064833 B1 KR101064833 B1 KR 101064833B1
Authority
KR
South Korea
Prior art keywords
association rule
cluster
clustering
reliability
association
Prior art date
Application number
KR1020090045452A
Other languages
English (en)
Other versions
KR20100126988A (ko
Inventor
김상욱
임승환
권용석
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020090045452A priority Critical patent/KR101064833B1/ko
Publication of KR20100126988A publication Critical patent/KR20100126988A/ko
Application granted granted Critical
Publication of KR101064833B1 publication Critical patent/KR101064833B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법을 개시한다. 다차원 연관 규칙 마이닝 방법은 연관 규칙의 좌변에 포함된 속성을 구간화하는 단계; 상기 연관 규칙의 우변의 속성들을 기준으로 분석대상 데이터에 대하여 계층적으로 클러스터링을 수행하는 단계; 상기 클러스터링을 수행하면서 각각의 클러스터를 대상으로 상기 연관 규칙의 신뢰도를 이용하여 특성 분석을 수행하는 단계; 및 상기 특성 분석을 수행하면서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우 상기 특정 클러스터링 이전의 클러스터의 연관 규칙을 상기 연관 규칙의 결과 집합에 포함시키는 단계를 포함한다.
구간화, 클러스터, 클러스터링, 병합, 특성.

Description

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법{APPARATUS AND METHOD FOR MINING OF MULTI-DIMENSIONAL ASSOCIATION RULES OVER INTERVAL DATA USING CLUSTERING AND CHARACTERIZATION}
본 발명은 다차원 연관 규칙 마이닝 장치 및 방법에 관한 것으로, 더욱 상세하게는 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙을 마이닝 하는 장치 및 방법에 관한 것이다.
연관 규칙 도출은 데이터 마이닝의 유용의 연산들 중의 하나로서, 트랜잭션 데이터를 분석 대상으로 한다.
따라서 비 트랜잭션 데이터를 대상으로 연관 규칙을 도출하기 위해서, 데이터의 속성들을 구간화하는 기법이 활발하게 연구되었다.
종래의 연관 규칙 도출 방법들은 속성들을 구간화 하는 단계와 연관 규칙을 도출하는 단계를 분리하여 독립적으로 수행하였다.
따라서 상기 속성들을 구간화 하는 단계에서, 속성들의 구간 범위가 변화하는 것에 따라 도출되는 연관 규칙의 신뢰도 변화를 반영할 수 없는 실정이다.
또한, 이로 인하여 속성들의 구간이 부적절하게 설정되고, 이는 신뢰도가 높 은 연관 규칙들을 결과에서 누락시키는 결과를 가져올 수 있었다.
따라서 속성들의 구간 범위의 변화에 따라 도출되는 연관 규칙의 신뢰도 변화를 반영할 수 있는 방법이 필요한 실정이다.
본 발명은 속성들을 구간화 하는 과정과 연관 규칙을 도출하는 과정을 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관 규칙들을 도출할 수 있는 구간을 설정할 수 있는 다차원 연관 규칙 마이닝 장치 및 필터링 방법을 제공한다.
본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법은 연관 규칙의 좌변에 포함된 속성을 구간화하는 단계; 상기 연관 규칙의 우변의 속성들을 기준으로 분석대상 데이터에 대하여 계층적으로 클러스터링을 수행하는 단계; 상기 클러스터링을 수행하면서 각각의 클러스터를 대상으로 상기 연관 규칙의 신뢰도를 이용하여 특성 분석을 수행하는 단계; 및 상기 특성 분석을 수행하면서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우 상기 특정 클러스터링 이전의 클러스터의 연관 규칙을 상기 연관 규칙의 결과 집합에 포함시키는 단계를 포함한다.
본 발명에 따르면 속성들을 구간화 하는 과정과 연관 규칙을 도출하는 과정을 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관 규칙들을 도출할 수 있는 구간을 설정할 수 있다.
이하 첨부된 도면을 참조하여 본 발명에 따른 다양한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 장치의 개괄적인 모습을 도시한 일례다.
본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 장치는 도 1에 도시된 바와 같이 구간화부(110), 클러스터링부(120), 및 연관 규칙 집합 생성부(130)로 구성될 수 있다.
구간화부(110)는 연관 규칙의 제1 변(예컨대, 좌변)에 포함된 속성을 구간화할 수 있다. 구체적으로 구간화부(110)는 상기 연관 규칙의 제1 변(예컨대, 좌변)이나 제2 변(우변)에 포함된 속성을 구간으로 분류하고, 상기 좌변이나 우변에 포함된 속성의 값을 상기 속성의 값이 대응하는 구간으로 변환할 수 있다.
클러스터링부(120)는 상기 연관 규칙의 우변의 속성들을 기준으로 분석대상 데이터에 대하여 계층적으로 클러스터링을 수행할 수 있다. 구체적으로 클러스터링부(120)는 상기 연관 규칙의 우변에 포함된 n개 속성들의 값을 기초로 상기 연관 규칙의 데이터들을 n 차원상에 매핑하여 초기 클러스터를 생성하고, 상기 초기 클러스터간의 거리가 최소가 되는 초기 클러스터를 병합하여 병합된 클러스터를 생성하며, 상기 병합된 클러스터와의 거리가 최소가 되는 다른 초기 클러스터 및 다른 병합된 클러스터를 순차적으로 병합하여 신규 병합된 클러스터를 생성할 수 있다.
연관 규칙 집합 생성부(130)는 상기 클러스터링을 수행하면서 각각의 클러스터를 대상으로 상기 연관 규칙의 신뢰도를 이용하여 특성 분석을 수행하고, 상기 특성 분석을 수행하면서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우 상기 특정 클러스터링 이전의 클러스터의 연관 규칙을 상기 연관 규칙의 결과 집합에 포함시킬 수 있다.
이때, 상기 신뢰도는 상기 연관 규칙의 좌변에 포함된 속성의 구간과 상기 클러스터에 포함된 데이터 간의 연관도일 수 있다.
또한, 구간화부(110)와 클러스터링부(120)는 동시에 동작하여 각각의 동작을 병행으로 실행할 수 있다.
도 2는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법을 도시한 흐름도이다.
본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 도출하는 연관 규칙은 좌변과 우변에 포함되는 속성들의 구간으로 나타낼 수 있다.
이때, 연관 규칙은 하기된 수학식 1의 형태를 가질 수 있다.
Ai => B1,x ^ B2,y ^ ... ^ Bn ,z
이때, Ai는 좌변에 해당하는 속성 A의 i번째 구간이고, Bm ,w 는 우변에 해당하는 속성 Bm의 w번째 구간일 수 있다.
또한, 상기 수학식 1에서는 좌변이 1개의 속성이고 우변이 n개의 속성을 가지고 있으나 우변이 1개의 속성이고 좌변이 n개의 속성을 가지는 연관 규칙을 사용할 수도 있다.
단계(S210)에서 구간화부(110)는 좌변과 우변 중에서 1개의 속성을 가지는 변을 구간화할 수 있다. 이때, 구간화부(110)는 상기 연관 규칙의 좌변이나 우변에 포함된 속성을 구간으로 분류하고, 상기 좌변이나 우변에 포함된 속성의 값을 상기 속성의 값이 대응하는 구간으로 변환할 수 있다.
단계(S220)에서 클러스터링부(120)는 좌변과 우변 중에서 단계(S210)에서 사용되지 않은 변에 포함된 n개 속성들의 값을 기초로 상기 연관 규칙의 데이터들을 n 차원상에 매핑하여 초기 클러스터를 생성할 수 있다.
단계(S230)에서 클러스터링부(120)는 단계(S220)에서 생성된 상기 초기 클러스터간의 거리를 기초로 상기 초기 클러스터들을 계층적 클러스터링할 수 있다. 구체적으로 클러스터링부(120)는 상기 초기 클러스터간의 거리가 최소가 되는 초기 클러스터를 먼저 병합하여 병합된 클러스터를 생성하고, 상기 병합된 클러스터와의 거리가 최소가 되는 다른 초기 클러스터 및 다른 병합된 클러스터를 순차적으로 병합하여 신규 병합된 클러스터를 생성할 수 있다.
단계(S240)에서 연관 규칙 집합 생성부(130)는 단계(S230)를 수행하면서, 단계(S230)에서 병합된 클러스터들의 특성을 분석할 수 있다.
이때, 연관 규칙 집합 생성부(130)는 단계(S230)에서 클러스터들의 병합 과정에 따른 클러스터의 신뢰도 변화에 기초하여 상기 병합된 클러스터들의 특성을 분석할 수 있다. 이때, 상기 신뢰도는 상기 연관 규칙의 좌변에 포함된 속성의 구간과 상기 클러스터에 포함된 데이터 간의 연관도일 수 있다.
단계(S250)에서 연관 규칙 집합 생성부(130)는 단계(S240)에서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우가 있는지를 확인할 수 있다.
일례로 제1 클러스터와 제2 클러스터가 병합되어 제3 클러스터가 생성되는 경우에 상기 제3 클러스터의 신뢰도를 상기 제1 클러스터의 신뢰도 및 상기 제2 클러스터의 신뢰도와 비교하고, 상기 제3 클러스터의 신뢰도가 상기 제1 클러스터의 신뢰도나 상기 제2 클러스터의 신뢰도보다 작은지를 확인할 수 있다.
단계(S260)에서 연관 규칙 집합 생성부(130)는 단계(S250)에서 신뢰도가 감소하는 것으로 확인된 클러스터링 전의 클러스터의 연관 규칙을 연관 규칙 집합에 포함할 수 있다.
일례로 연관 규칙 집합 생성부(130)는 상기 제1 클러스터나 상기 제2 클러스터의 연관 규칙을 상기 연관 규칙의 집합에 포함하여 상기 연관 규칙의 집합을 생성할 수 있다.
이때, 연관 규칙 집합 생성부(130)는 상기 연관 규칙의 집합에 포함하는 단계는, 상기 제1 클러스터나 상기 제2 클러스터의 특성 값을 임계 값과 비교하고, 상기 임계 값보다 높은 특성 값을 가지는 클러스터의 연관 규칙을 상기 연관 규칙의 집합에 포함할 수 있다.
단계(S270)에서 연관 규칙 집합 생성부(130)는 단계(S250)에서 확인된 상기 특정 클러스터링 전후의 클러스터에 대한 병합을 중단 시킬 수 있다.
단계(S280)에서 연관 규칙 집합 생성부(130)는 클러스터링이 완료되었는지 확인하고, 완료되지 않았으면 단계(S230)를 실행할 수 있다.
이하에서 상기 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법을 도 3 내지 도 7을 참조하여 상세히 설명한다.
도 3은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에 사용되는 속성들의 일례이고, 도 4는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 구간화 하는 과정의 일례이다.
본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 사용되는 데이터는 도 3에 도시된 바와 같이 하나의 속성을 가지는 좌변(310)과 복수의 속성(321, 322, 323)을 가지는 우변(320)으로 구성될 수 있다.
상기 도 3은 주가 관련 데이터를 대상으로 연관 규칙을 도출하기 위하여 좌변과 우변의 속성을 결정한 실시예로서 좌변(310)의 속성인 전일 대비 환율의 변화에 따른 전일 대비 주가(321), 시가 총액(322) 및 부채 비율(323)의 변화 패턴을 도출하는 것에 사용될 수 있다.
상기 도 3에서 좌변(310)의 속성인 전일 대비 환율은 연속되는 값을 가질 수 있다. 따라서 구간화부(110)는 단계(S210)에서 데이터 마이닝의 이산화 기법인 동일 간격, 동일 개수, 클러스터링 기법 등을 이용하여 좌변(310)의 속성이 구간 값을 갖도록 변환할 수 있다.
이때, 구간화부(110)는 도 4에 도시된 바와 같이 속성(410)에서 사용될 수 있는 값을 구간화(420)하고, 각각의 데이터들이 가지는 속성(410)의 속성 값을 상기 속성 값이 포함되는 구간의 항목인 A1, A2, A3, A4, A5 등으로 대체할 수 있다(430). 이때, 상기 좌변에 해당되는 속성의 구간의 항목들은 연관 규칙의 좌변으로 이용될 수 있다.
일례로 id가 1인 데이터는 속성값이 +5이므로 +5가 포함된 구간인 [+5, +9]인 A2로 대체하고, id가 2인 데이터는 속성값이 +12이므로 +12가 포함된 구간인 [+10, +20]인 A1로 대체할 수 있다.
도 5는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 n차원 공간에 매핑하는 과정의 일례이다.
본 발명의 일실시예에서 우변은 n개의 속성들로 구성되어 있으므로 우변에서 유사한 속성 값을 갖는 데이터 집합들을 먼저 식별해야 한다.
클러스터링부(120)는 도 5에 도시된 바와 같이 단계(S220)에서 클러스터링의 수행을 위해서 데이터들을 우변(510)의 속성 값((511, 512, 513, 514)을 토대로 n차원 공간(520)상의 한 점(521, 522, 523, 524)으로 매핑하여 초기 클러스터를 생성할 수 있다.
이때, n차원 공간의 각 차원은 우변의 속성일 수 있다.
이때, 상기 점 간의 유클리드 거리는 각각의 점이 나타내는 데이터 간의 유사도의 척도로서 이용될 수 있다.
도 6은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 클러스터링 하는 과정의 일례이다.
클러스터링부(120)는 단계(S230)에서 도 6에 도시된 바와 같이 상기 초기 클러스터들을 대상으로 클러스터의 개수가 1이 될 때까지 가장 가까운 거리에 있는 두 개의 클러스터들을 식별하여 이들 클러스터들의 병합을 진행할 수 있다.
이때, 클러스터링부(120)는 최소, 최대, 평균, 중심 거리를 이용하여 클러스터 간의 거리를 측정할 수 있으며, 본 실시예에서는 두 클러스터에 각각 속해 있는 데이터들의 거리 값들 중에서 최소값을 가지는 거리 값을 두 클러스터 간의 거리로 부여하는 최소 거리 기법을 이용하였다.
먼저 클러스터링부(120)는 초기 클러스터(611, 612, 613, 614, 615, 616, 617, 618, 619, 620, 621)중에서 서로간의 거리가 가장 가까운 초기 클러스터(612)와 초기 클러스터(613)를 병합하여 병합된 클러스터(631)를 생성할 수 있다.
다음으로 클러스터링부(120)는 초기 클러스터(611, 614, 615, 616, 617, 618, 619, 620, 621)와 병합된 클러스터(631) 중에서 서로간의 거리가 가장 가까운 초기 클러스터(616)와 초기 클러스터(617)를 병합하여 병합된 클러스터(632)를 생성할 수 있다.
그 다음으로 클러스터링부(120)는 초기 클러스터(611, 614, 615, 618, 619, 620, 621)와 병합된 클러스터(631, 632) 중에서 서로간의 거리가 가장 가까운 초기 클러스터(611)와 병합된 클러스터(631)를 병합하여 병합된 클러스터(633)를 생성할 수 있다.
이후로는 상기 과정을 반복하여 병합된 클러스터(634, 635, 636, 637, 638, 639)를 생성하고, 남아 있는 2개의 클러스터인 병합된 클러스터(637)와 병합된 클러스터(639)를 병합하여 단일 클러스터(640)를 생성할 수 있다.
상기 과정을 통하여 생성되는 병합된 클러스터들은 각각 우변의 속성들의 구간 값을 나타낼 수 있다.
즉, 클러스터 Cj에 포함되는 데이터들이 갖는 속성 Bm의 값들의 범위는 Cj가 나타내는 Bm의 구간일 수 있다.
따라서, 상기 병합된 클러스터들은 각각 좌변 속성의 구간들과 결합하여 연관 규칙으로 나타낼 수 있다.
즉, Cj가 나타내는 구간들 B1,x, B2,y, ..., Bn ,z는 좌변 속성의 임의의 구간 Ai와 결합하여 연관 규칙 Ai ⇒ B1,x ^ B2,y ^ ... ^ Bn ,z를 나타낼 수 있다. 이때, 상기 병합된 클러스터들은 최대 좌변 속성의 구간들의 개수만큼의 연관 규칙들을 나타낼 수 있다.
도 7은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 특성 값을 분석하는 과정의 일례이다.
본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 도 6에 도시된 바와 같은 계층적 클러스터링이 수행되어 병합 과정이 진행됨에 따라, 대체로 클러스터가 나타내는 연관 규칙들의 우변 속성들의 구간들의 범위가 커지게 된다. 또한, 이로 인해 임계 값 이상의 특성 값을 가지는 연관 규칙들의 개수도 줄어드는 경향을 보일 수 있다.
두 개의 연관 규칙이 동일한 좌변과, 동일한 신뢰도를 갖는 경우, 우변 속성들의 범위가 클수록 보다 유용한 규칙이라고 할 수 있다.
일례로 제1 연관 규칙 (40<=age<45) ⇒ ($50,000<=salary<$55,000) [지지도: 0.3]과 제2 연관 규칙(40<=age<45) ⇒ ($50,000<=salary<$70,000) [지지도: 0.3]이 있는 경우에 상기 제2 연관 규칙이 보다 넓은 범위를 포함하고 있으므로, 상기 제1 연관 규칙에 비해서 유용한 연관 규칙임을 알 수 있다.
이때, 클러스터 Cj가 좌변 속성의 구간 Ai에 대하여 갖는 특성 값 score(Cj,Ai)는 하기된 수학식 2를 만족할 수 있다.
score(Cj,Ai) = P(Cj|Ai)
이때, P(Cj|Ai)는 Ai를 만족하는 데이터들 중에서 Cj에 포함되는 데이터들의 비율이므로, Ai ⇒ Cj의 신뢰도, 또는 연관도를 의미할 수 있다.
연관 규칙 집합 생성부(130)는 신뢰도의 손실 없이 속성들의 구간들이 넓은 범위를 갖도록 설정하는 위하여 제1 클러스터와 제2 클러스터가 병합되어 제3 클러스터가 생성되는 경우에 상기 제3 클러스터의 신뢰도를 상기 제1 클러스터와 상기 제2 클러스터의 신뢰도와 비교하고, 상기 제3 클러스터의 신뢰도가 상기 제1 클러스터의 신뢰도나 상기 제2 클러스터의 신뢰도보다 작으면, 상기 제1 클러스터나 상기 제2 클러스터의 연관 규칙을 상기 연관 규칙의 집합에 포함할 수 있으며, 동시에 상기 제3 클러스터와 상기 제1 클러스터 및 상기 제2 클러스터에 대한 병합을 중단할 수 있다.
일례로 도 7에 도시된 바와 같이 초기 클러스터(711, 712, 713, 714, 715, 716, 717, 718, 719, 720, 721)를 사용하여 병합된 클러스터(731, 732, 733, 734, 735, 736, 737, 738, 739) 및 단일 클러스터(740)를 생성하는 실시예에서, 클러스터 특성 값의 임계 값은 0.05이고, 원 위의 값은 해당 클러스터의 특성 값일 수 있다. 이때, 각 병합된 클러스터(731, 732, 733, 734, 735, 736, 737, 738, 739) 안의 숫자는 클러스터 특성 값의 변화를 나타내는 것으로서 병합 후의 클러스터의 특성 값이 병합 전의 특성 값보다 증가한 경우에 1로 표시하고, 감소한 경우에 0으로 표시할 수 있다.
이때, 병합된 클러스터(732)의 특성 값 0.05는 초기 클러스터(716)와 초기 클러스터(717)의 특성 값 0.01보다 크면서 동시에 임계 값보다 높으므로 병합된 클러스터(732)는 1로 표시될 수 있다.
또한, 병합된 클러스터(735)의 특성 값 0.1은 병합된 클러스터(732)의 특성 값 0.05와 초기 클러스터(715)의 특성 값 0.01보다 크면서 동시에 임계 값보다 높으므로 병합된 클러스터(735)는 1로 표시될 수 있다.
그리고, 병합된 클러스터(738)의 특성 값 0.3은 병합된 클러스터(735)의 특성 값 0.1과 병합된 클러스터(734)의 특성 값 0.03보다 크면서 동시에 임계 값보다 높으므로 병합된 클러스터(738)는 1로 표시될 수 있다.
그러나, 병합된 클러스터(739)의 특성 값 0.15는 임계 값과 병합된 클러스터(736)의 특성 값 0.01보다는 크나 병합된 클러스터(738)의 특성 값 0.3보다는 작으므로 병합된 클러스터(739)는 0으로 표시될 수 있다.
이때, 연관 규칙 집합 생성부(130)는 병합된 클러스터(739)에 병합되는 클러스터인 병합된 클러스터(736)와 병합된 클러스터(738)의 연관 규칙을 상기 연관 규 칙 집합에 포함할 수 있다. 단, 이 경우에 병합된 클러스터(736)의 특성 값은 임계 값보다 낮으므로 연관 규칙 집합 생성부(130)는 임계 값보다 큰 특성 값을 가지는 병합된 클러스터(738)의 연관 규칙을 상기 연관 규칙 집합에 포함할 수 있다.
본 발명의 성능 분석을 위하여 보스턴시의 집 가격과 관련된 데이터를 사용하였다.
상기 데이터는 1997년 7월에 수집된 것으로서 506개의 레코드, 14가지의 속성들로 구성되어 있다.
상기 속성들은 각각 1) CRIM : 범죄 발생률, 2) ZN : 주거 지역의 비율, 3) INDUS : 비즈니스를 위한 기업들이 차지한 비율, 4) CHAS : 찰스강 주변에 위치 여부, 5) NOX : 질소 화합물 농도, 6) RM : 평균 방의 개수, 7) AGE : 집의 나이, 8) DIS : 보스톤의 5개 주요 회사들과의 가중치 거리, 9) RAD : 고속도로와의 접근성, 10) TAX : 재산세 비율, 11) PTRATIO : 학생당 선생님의 비율, 12) B : 폐허가 된 지역의 비율, 13) LSTAT : 인구 증가의 상태, 14) MEDV : 자가 거주 주택의 평균 가격을 의미한다.
Figure 112009031179633-pat00001
표 1에서 RMUC(Rule Mining Using Clustering)은 본 발명에 따른 다차원 연관 규칙 마이닝 방법이고, Clustering은 클러스터링을 이용하는 기법이며, Equi-depth는 포함하는 데이터의 개수가 동일하도록 구간을 설정하는 기법이다. 상기 세 가지 기법들을 통해서 우변 속성들의 구간을 설정하고, 이를 이용하여 연관 규칙을 도출한 후 어느 기법에 따를 경우 가장 우수한 신뢰도를 보이는지 실험한 결과가 표 1에 나타나 있다.
이때, 어떤 속성이 방의 개수, 집의 나이, 집의 가격에 영향을 미치는지를 분석하기 위하여 속성 RM, AGE, MEDV의 조합들을 우변으로 갖고, 그 외의 속성들을 각각 좌변으로 갖는 연관 규칙을 도출 할 수 있다.
이때, 우변의 속성 RM, AGE, MEDV를 각각 B1, B2, B3로 나타낼 수 있다.
따라서 도출되는 연관 규칙들의 우변은 B1, B2, B3의 가능한 조합들인 B1, B2, B3, B1&B2, B1&B3, B2&B3, B1&B2&B3의 총 7가지의 경우로 구성될 수 있다.
도 8은 기법 RMUC, 기법 Clustering, 기법 Equi-depth를 통하여 B1, B2, B3의 구간들을 설정하고, 이를 통해서 도출된 연관 규칙들의 개수, 규칙들이 갖는 신뢰도의 평균값을 비교한 결과이다.
도출된 연관 규칙을 비교하는 그래프(810)에 도시된 바와 같이 본 발명에 따른 기법 RMUC는 총 276개, 평균 39.43개, 평균 신뢰도 0.757554를 갖는 규칙들을 도출한 반면에, 기법 Clustering은 총 162개, 평균 23.14개, 평균 신뢰도 0.756102를 갖는 규칙들을 도출하였다. 또한, 기법 Equi-depth는 총 254개, 평균 36.29개, 평균 신뢰도 0.723875를 갖는 규칙들을 도출하였다.
또한, 도출된 연관 규칙들의 평균 신뢰도를 비교하는 그래프(820)에 도시된 바와 같이 본 발명에 따른 기법 RMUC는 기법 Clustering에 비해서 평균 신뢰도는 유사한 반면에, 도출된 규칙의 수는 1.7배 증가하였는데, 이는 기법 RMUC가 기법 Clustering이 도출하지 못한 높은 신뢰도를 갖는 연관 규칙들을 도출하였음을 의미한다. 또한, 기법 RMUC는 기법 Equi-depth에 비해서 도출되는 규칙의 수는 유사한 반면에, 평균 신뢰도는 0.033 가량 높은 값을 보이는데, 이는 기법 RMUC가 기법 Equi-depth에 비해서 우변 속성들에 보다 의미 있는 구간 범위가 설정되었음을 의미한다.
즉, 본 발명에 따른 기법 RMUC는 연관 규칙의 우변에 다수의 속성들이 포함되는 경우인 B1&B2&B3에 기법 Clustering, 기법 Equi-depth에 비해서 우수한 성능을 보였다.
따라서, 본 발명에 따른 기법 RMUC가 다수의 속성들을 우변으로 갖는 연관 규칙을 도출하는 데에 적당한 기법임을 알 수 있다.
이상에서 설명한 바와 같이, 본 발명에 따른 다차원 연관 규칙 마이닝 장치 및 방법은 속성들을 구간화 하는 과정과 연관 규칙을 도출하는 과정을 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관 규칙들을 도출할 수 있는 구간을 설정할 수 있다.
본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 파일 데이터, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 장치의 개괄적인 모습을 도시한 일례다.
도 2는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법을 도시한 흐름도이다.
도 3은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에 사용되는 속성들의 일례이다.
도 4는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 구간화 하는 과정의 일례이다.
도 5는 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 n차원 공간에 매핑하는 과정의 일례이다.
도 6은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 클러스터링 하는 과정의 일례이다.
도 7은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법에서 특성 값을 분석하는 과정의 일례이다.
도 8은 본 발명의 일실시예에 따른 다차원 연관 규칙 마이닝 방법과 다른 방법을 사용하여 동일한 데이터에서 도출한 연관 규칙들의 개수, 및, 규칙들이 갖는 신뢰도의 평균값을 비교한 결과의 일례이다.

Claims (7)

  1. 연관 규칙의 제1 변에 포함된 속성을 구간화하는 단계;
    상기 연관 규칙의 제2 변의 속성들을 기준으로 분석대상 데이터에 대하여 계층적으로 클러스터링을 수행하는 단계;
    상기 클러스터링을 수행하면서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는지 여부를 판단하는 단계; 및
    특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우 상기 특정 클러스터링 이전의 클러스터의 연관 규칙을 상기 연관 규칙의 결과 집합에 포함시키는 단계
    를 포함하는 다차원 연관 규칙 마이닝 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 클러스터링을 수행하는 단계는,
    상기 연관 규칙의 제2 변에 포함된 n개 속성들의 값을 기초로 상기 연관 규칙의 데이터들을 n 차원상에 매핑하여 초기 클러스터를 생성하는 단계;
    상기 초기 클러스터간의 거리가 최소가 되는 초기 클러스터를 먼저 병합하여 병합된 클러스터를 생성하는 단계; 및
    상기 병합된 클러스터와의 거리가 최소가 되는 다른 초기 클러스터 및 다른 병합된 클러스터를 순차적으로 병합하여 신규 병합된 클러스터를 생성하는 단계
    를 포함하는 것을 특징으로 하는 다차원 연관 규칙 마이닝 방법.
  4. 제1항에 있어서,
    상기 신뢰도는 상기 연관 규칙의 제1 변에 포함된 속성의 구간과 상기 클러스터에 포함된 데이터 간의 연관도인 것을 특징으로 하는 다차원 연관 규칙 마이닝 방법.
  5. 제1항에 있어서,
    상기 연관 규칙의 결과 집합에 포함시키는 단계는 상기 특정 클러스터링 이전의 클러스터 중에서 임계 값보다 높은 신뢰도를 가지는 클러스터의 연관 규칙을 상기 연관 규칙의 집합에 포함하는 것을 특징으로 하는 다차원 연관 규칙 마이닝 방법.
  6. 제5항에 있어서,
    상기 연관 규칙의 결과 집합에 포함시키는 단계는 상기 특정 클러스터링 이전의 클러스터에 대한 병합을 중단 시키는 것을 특징으로 하는 다차원 연관 규칙 마이닝 방법.
  7. 연관 규칙에서 제1 변에 포함된 속성을 구간화하는 구간화부;
    상기 연관 규칙의 제2 변의 속성들을 기준으로 분석대상 데이터에 대하여 계층적으로 클러스터링을 수행하는 클러스터링부; 및
    상기 클러스터링을 수행하면서 각각의 클러스터를 대상으로 상기 연관 규칙의 신뢰도를 이용하여 특성 분석을 수행하고, 상기 특성 분석을 수행하면서 특정 클러스터링 전후로 상기 연관 규칙의 신뢰도가 감소하는 경우 상기 특정 클러스터링 이전의 클러스터의 연관 규칙을 상기 연관 규칙의 결과 집합에 포함시키는 연관 규칙 집합 생성부
    를 포함하는 것을 특징으로 하는 다차원 연관 규칙 마이닝 장치.
KR1020090045452A 2009-05-25 2009-05-25 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법 KR101064833B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090045452A KR101064833B1 (ko) 2009-05-25 2009-05-25 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090045452A KR101064833B1 (ko) 2009-05-25 2009-05-25 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100126988A KR20100126988A (ko) 2010-12-03
KR101064833B1 true KR101064833B1 (ko) 2011-09-14

Family

ID=43504378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090045452A KR101064833B1 (ko) 2009-05-25 2009-05-25 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101064833B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462608A (zh) * 2014-12-31 2015-03-25 中山大学 基于模糊c均值聚类算法的无线传感器网络数据聚类方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102071702B1 (ko) * 2017-10-30 2020-01-30 서울대학교산학협력단 연관 규칙의 단계적 추출 장치 및 방법
KR20190048119A (ko) 2017-10-30 2019-05-09 부산대학교 산학협력단 Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국컴퓨터종합학술대회 논문집(2008. 제목 : 다중 속성 기반 다단계 클러스터링을 이용한 이웃 선정 방법)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462608A (zh) * 2014-12-31 2015-03-25 中山大学 基于模糊c均值聚类算法的无线传感器网络数据聚类方法

Also Published As

Publication number Publication date
KR20100126988A (ko) 2010-12-03

Similar Documents

Publication Publication Date Title
CN111475596B (zh) 一种基于多层级轨迹编码树的子段相似性匹配方法
Ta et al. Signature-based trajectory similarity join
Wu et al. A data mining approach for spatial modeling in small area load forecast
CN105307121B (zh) 一种信息处理方法及装置
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
US8243988B1 (en) Clustering images using an image region graph
US20080126556A1 (en) System and method for classifying data streams using high-order models
RU2012152447A (ru) Выполняемый в окне статистический анализ для обнаружения аномалий в наборах геофизических данных
CN111916144A (zh) 基于自注意力神经网络和粗化算法的蛋白质分类方法
CN109582960B (zh) 基于结构化关联语义嵌入的零示例学习方法
Codocedo et al. Lattice-based biclustering using Partition Pattern Structures.
KR101064833B1 (ko) 클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 장치 및 방법
CN110070131A (zh) 一种面向数据驱动建模的主动学习方法
NL2030476B1 (en) Prospecting Method Based on Geological Information and Device, Electronic Equipment and Storage Medium Thereof
Kang et al. Sensitivity of sequence methods in the study of neighborhood change in the United States
CN109325966A (zh) 一种通过时空上下文进行视觉跟踪的方法
Liu et al. A process-oriented spatiotemporal clustering method for complex trajectories of dynamic geographic phenomena
Guo et al. A visualization platform for spatio-temporal data: a data intensive computation framework
EP2989568A1 (en) Attribute importance determination
Nguyen et al. A method for efficient clustering of spatial data in network space
KR101469136B1 (ko) 의사결정트리에서 공간 예측을 위한 리프노드 등급 결정 방법 및 이를 기록한 기록매체
WO2018219284A1 (zh) 数据流的聚类方法和装置
CN105956113B (zh) 基于粒子群优化的视频数据挖掘高维聚类方法
Doğan et al. Use of data mining techniques in advance decision making processes in a local firm
Mulaudzi et al. Improving the performance of multivariate forecasting models through feature engineering: A South African unemployment rate forecasting case study

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140528

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150630

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee