KR101113006B1

KR101113006B1 - 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법

Info

Publication number: KR101113006B1
Application number: KR1020100015573A
Authority: KR
Inventors: 서창우; 김수철; 홍성대; 김은영
Original assignee: 숭실대학교산학협력단
Priority date: 2010-02-22
Filing date: 2010-02-22
Publication date: 2012-02-24
Also published as: KR20110096236A

Abstract

클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법이 개시된다. 초기값 결정부는 데이터 집합을 구성하는 복수의 데이터 점 중에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 클러스터 중심 결정부는 초기 클러스터 중심이 결정되면 데이터 점들 각각에 대해 산출된 밀도값을 기초로 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정한다. 상호정보 산출부는 순차적으로 결정되는 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에서 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다. 제어부는 현재 클러스터 중심이 결정된 시점에서 산출된 상호정보의 값에 의해 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 현재 클러스터 중심의 결정을 취소하고, 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 데이터 집합을 분류한다. 본 발명에 따르면, 클러스터의 개수를 사전에 설정하지 않고 클러스터 사이의 종속관계에 따라 적응적으로 결정함으로써 잘못된 초기치 선택에 따른 성능 저하를 방지할 수 있다.

Description

클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법{Apparatus and method for clustering using mutual information between clusters}

본 발명은 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에 관한 것으로, 보다 상세하게는, 데이터 분류를 위해 전체 데이터 집합을 복수 개의 부분집합으로 분할하는 장치 및 방법에 관한 것이다.

데이터 분류기법의 하나인 클러스터링 알고리즘(clustering algorithm)은 다양한 형태의 데이터 집합을 몇 개의 작은 클러스터로 분할하는 것을 목적으로 한다. 현재 클러스터링 방법 중에서 가장 널리 사용되는 것은 K-평균 알고리즘(K-means algorithm)으로, 간단하면서 수렴 속도가 빠르다는 장점을 가진다. 그러나 K-평균 알고리즘은 실제 데이터를 클러스터링할 때 두 가지의 중요한 문제점을 가진다.

K-평균 알고리즘의 첫 번째 문제점은 클러스터 중심에 대한 비적절한 초기치 추정으로 인해 성능이 감소될 수 있다는 점이다. 이러한 초기치 추정 문제를 해결하기 위해 마운틴 클러스터링(mountain clustering)과 전역 K-평균 방법(global K-means method)이 제안되었다. 그러나 마운틴 클러스터링과 전역 K-평균 방법은 클러스터의 개수를 알고 있다는 가정 하에만 수행될 수 있다는 단점이 있다.

K-평균 알고리즘의 두 번째 문제점은 클러스터의 개수에 대한 정보를 항상 사전에 정의할 수 없다는 것이다. 이러한 문제를 해결하기 위해 스케일 기반 방법(scale based method)과 일반화된 K-평균 방법(generalized K-means method)이 제안되었다. 그러나 이 두 방법들에는 데이터의 양이 늘어날수록 계산량이 급격히 증가하게 되는 문제점이 존재한다.

본 발명이 이루고자 하는 기술적 과제는, 데이터 양의 증가에 따른 계산량의 증가가 크지 않으며 클러스터 개수에 대한 사전정보 없이 데이터를 분류할 수 있는 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 데이터 양의 증가에 따른 계산량의 증가가 크지 않으며 클러스터 개수에 대한 사전정보 없이 데이터를 분류할 수 있는 클러스터 간 상호정보를 이용한 클러스터링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치는, 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 초기값 결정부; 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정하는 클러스터 중심 결정부; 순차적으로 결정되는 상기 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 상호정보 산출부; 및 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 제어부;를 구비한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법은, (a) 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 단계; (b) 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 현재 클러스터 중심을 결정하는 단계; (c) 상기 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 단계; 및 (d) 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 단계;를 가지며, 상기 (d) 단계에서 상기 현재 클러스터 중심의 결정이 취소되지 않으면 상기 (b) 단계 내지 상기 (d) 단계가 반복 수행된다.

본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에 의하면, 많은 양의 데이터를 클러스터로 분류함에 있어서 클러스터의 개수를 사전에 설정하지 않고 클러스터 사이의 종속관계에 따라 적응적으로 결정함으로써 잘못된 초기치 선택에 따른 성능 저하를 방지할 수 있다. 또한 이전에 결정된 클러스터 중심의 정보를 기초로 새로운 클러스터 중심을 순차적으로 결정함으로써 데이터 분류 과정에서 계산량을 감소시킬 수 있다.

도 1은 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치에 대한 바람직한 실시예의 구성을 도시한 블록도,
도 2는 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도,
도 3은 본 발명을 적용하여 인공적으로 생성된 데이터 집합에 대해 클러스터 중심을 순차적으로 생성한 결과를 나타낸 도면, 그리고,
도 4는 본 발명, 전역 K-평균 방법, K-평균 방법 및 SOM 방법에 의해 얻어진 5개의 클러스터 중심을 나타낸 도면이다.

이하에서 첨부된 도면들을 참조하여 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.

먼저 K-평균 알고리즘에 의한 클러스터링 방법에 관하여 간단하게 설명하고 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법의 각 구성요소에 대하여 상세하게 설명하기로 한다.

길이가 N인 데이터 집합 X={x(1),x(2),…,x(N)}가 주어질 때, K-평균 알고리즘은 거리를 줄이기 위해 다음 수학식 1의 목적함수(object function) J를 최소화시키는 것이다.

여기서,

는 데이터 점 x_i(n)과 클러스터 중심 μ_i 사이의 거리를 나타낸다.

K-평균 알고리즘에서는 먼저 각 데이터를 k개의 집합으로 나누고 각 집합에 대한 클러스터 중심을 임의로 결정한다. 이들 클러스터 중심에 대한 좋은 초기치를 얻기 위해서는 가능한 한 서로 멀리 떨어진 데이터를 선택하여야 한다. 다음으로 주어진 데이터 집합과 각 클러스터 중심 사이의 거리를 계산하여 가장 가까운 클러스터 중심에 연결시킴으로써 새로운 집합을 만들 수 있다. 이러한 과정을 반복하면 데이터들이 소속된 집합을 바꾸지 않거나 클러스터 중심이 변하지 않는 상태로 수렴할 수 있다. 따라서 K-평균 알고리즘은 실제 사용될 때 빠르게 수렴하기 때문에 널리 사용된다. 그러나 결과의 효용 측면에서 초기 클러스터 중심의 선택에 있어서 결과가 많은 영향을 받기 때문에 전역 최적값을 보장하지 못하는 단점이 있다.

최근 이러한 문제점에 대한 해결방법으로 전역 K-평균 클러스터링 알고리즘이 연구되었다. 전역 K-평균 알고리즘은 초기치에 종속적이지 않으면서 기존의 K-평균 알고리즘과 같이 지역 검색 과정을 적용하는 결정론적인(deterministic) 방법이다. 전역 K-평균 알고리즘에서 초기치 추정은 랜덤하게 선택되지만, 진행과정에서 각 단계별로 한 개의 새로운 클러스터 중심이 점진적으로 추가된다.

길이가 N인 데이터 집합 X={x(1),x(2),…,x(N)}가 주어질 때 L-클러스터링 문제는 데이터 집합을 L개의 부분집합 S₁,…S_L로 나누는 것이다. 공통적인 클러스터링 판별은 다음의 수학식 2와 같이 부분집합 S_k의 각 데이터 x(n)과 각 부분집합의 클러스터 중심 C_k 사이의 자승화된 유클리디안 거리(squared Euclidean distance : SSE)의 합이다.

위 수학식 2에서 I(X)는 X가 참이면 1, 그렇지 않으면 0의 값을 가지는 함수이다.

전역 K-평균 알고리즘에서 클러스터 중심의 결정은 다음의 과정에 의해 진행된다. 먼저 하나의 클러스터(k=1)로부터 출발하여 데이터 집합 X의 중심에 대응하는 최적의 위치를 결정한다. 다음으로 두 개의 클러스터(k=2)에 대해 문제를 해결하기 위하여 K-평균 알고리즘의 N-실행을 수행한다. 이때 첫 번째 클러스터 중심은 k=1일 때 결정된 최적의 위치로 고정되고, n번째 실행에서의 두 번째 클러스터 중심은 데이터 x(n)의 위치에 있다.

n번째 클러스터링 과정에서 K-평균 알고리즘은 {C₁,…,C_k _-1,x(n)}과 같은 k개의 클러스터 중심으로 초기화된다. 이때 수학식 2의 SSE를 최소화하기 위한 클러스터링에 의해 k에 대한 최적 해가 구해진다. 만약 k가 데이터 집합 개수인 L과 동일하다면 알고리즘은 종료되고, 그렇지 않다면 k=k+1로 증가시켜 위 과정을 반복한다.

이러한 전역 K-평균 알고리즘 역시 데이터의 양이 많아질수록 계산량이 급격히 증가한다는 문제점이 있으며, 클러스터의 개수를 사전에 알고 있다는 가정하에 수행된다.

본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에서는 이러한 문제를 해결하기 위해 생성된 클러스터 사이의 상호정보를 이용하여 데이터를 분류하는 방식을 사용한다. 클러스터 중심은 초기에 클러스터 개수만큼 생성되는 것이 아닌 점진적으로 추가되는 형태이며, 클러스터의 최적 개수는 다른 클러스터들과의 관계에서 상호정보를 분석하여 결정할 수 있다. 클러스터 간의 상호정보에 대하여는 뒤에 상세하게 설명한다.

도 1은 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치에 대한 바람직한 실시예의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명에 따른 클러스터링 장치는, 초기값 결정부(110), 클러스터 중심 결정부(120), 상호정보 산출부(130) 및 제어부(140)를 구비한다.

초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 중에서 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다.

앞에서 설명한 K-평균 알고리즘 및 전역 K-평균 알고리즘에서는 데이터 집합을 구성하는 복수의 데이터 점을 사전에 설정된 개수의 클러스터로 분류한다. 그러나 본 발명에 따른 클러스터링 장치는 한 개의 초기 클러스터 중심으로부터 출발하여 추가적인 클러스터 중심을 한 개씩 순차적으로 결정하여 일정한 조건을 만족하면 클러스터링 과정을 중단하는 구성을 가진다. 따라서 사전에 클러스터의 개수를 설정할 필요 없이 데이터 집합의 특성에 따라 적응적으로 클러스터의 개수가 결정될 수 있다.

초기값 결정부(110)는 복수의 데이터 점 중에서 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 여기서 데이터 점의 밀도값이 크다 함은 해당 데이터 점이 많은 개수의 이웃한 데이터 점들에 의해 둘러싸여 있다는 것을 의미한다. 따라서 초기 클러스터 중심을 결정하기 위한 각각의 데이터 점의 초기 밀도값은 해당 데이터 점과 다른 데이터 점 사이의 거리정보를 기초로 다음의 수학식 3과 같이 산출할 수 있다.

여기서, N은 데이터 점의 개수, D₁(m)은 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 데이터 공간에서 m번째 데이터 점의 위치, 그리고 α는 클러스터의 크기를 결정하는 디자인 파라미터로서, 초기 클러스터 중심을 결정할 때만 사용되기 때문에 1로 설정할 수 있다.

초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 각각에 대하여 수학식 3에 의해 초기 밀도값을 산출한 후, 다음의 수학식 4와 같이 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 즉, 초기 클러스터 중심이 결정된 시점에서는 전체 데이터 집합이 하나의 클러스터에 속하게 된다.

여기서, C₁은 데이터 공간에서 초기 클러스터 중심의 위치이고, D₁(m)은 데이터 점들 중에서 x(m)에 대해 산출된 초기 밀도값이다.

클러스터 중심 결정부(120)는 초기 클러스터 중심이 결정되면 데이터 점들 각각에 대해 산출된 밀도값을 기초로 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정한다. 이때 순차적으로 결정되는 복수의 클러스터 중심 중에서 이전 클러스터 중심을 결정할 때 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 이전 클러스터 중심에 시간적으로 연속하는 현재 클러스터 중심을 결정하기 위한 복수의 데이터 점 각각의 현재 밀도값을 산출할 수 있다.

전역 K-평균 알고리즘은 데이터의 양이 많아질수록 클러스터 중심을 결정하기 위한 계산량이 급격히 증가한다는 문제점을 가진다. 이를 해결하기 위해 본 발명에 따른 클러스터링 장치의 클러스터 중심 결정부(120)는 순차적으로 클러스터 중심을 결정할 때마다 이전에 클러스터 중심을 결정할 때 기초가 된 밀도값 정보를 사용한다.

즉, 현재 결정하고자 하는 클러스터 중심이 k번째 클러스터 중심이라면 k-1번째 클러스터 중심의 위치 및 k-1번째 클러스터 중심을 결정할 때 각각의 데이터 점에 대해 산출된 이전 밀도값의 정보가 주어져 있다. 클러스터 중심 결정부(120)는 이와 같이 주어진 정보를 기초로 하여 k번째 클러스터 중심을 결정하기 위해 각각의 데이터 점에 대하여 다음의 수학식 5에 의해 현재 밀도값을 산출한다. 다만, 밀도값 산출의 대상이 되는 데이터 점들은 이미 클러스터 중심으로 결정된 점들을 제외한 데이터 점들이다.

여기서, D_k(m)은 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, D_k _-1(m)은 m번째 데이터 점에 대한 이전 밀도값, D_k _- ₁(m^*)는 k-1번째 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 데이터 공간에서 m번째 데이터 점의 위치, C_k _-1은 데이터 공간에서 k-1번째 클러스터 중심의 위치, 그리고 β는 복수의 클러스터 중심 사이의 거리를 제한하기 위해 설정되는 값을 가지는 디자인 파라미터이다.

이때, β는 0.1≤β<1의 값을 가지도록 설정되며, 서로 인접한 클러스터 중심이 결정되는 것을 피하기 위해 α보다 작은 값으로 설정된다. 클러스터 중심 결정부(120)는 이미 결정된 k-1개의 클러스터 중심을 제외한 나머지 데이터 점들 각각에 대해 수학식 5에 의해 현재 밀도값이 산출되면, 다음의 수학식 6과 같이 현재 밀도값이 최대인 데이터 점을 k번째 클러스터 중심으로 결정한다.

여기서, C_k는 데이터 공간에서 k번째 클러스터 중심의 위치이고, D_k(m)은 m번째 데이터 점에 대해 산출된 현재 밀도값이다.

상호정보 산출부(130)는 각각의 데이터 점으로부터 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심까지의 거리정보를 기초로 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다.

앞에서 설명한 바와 같이 본 발명에 따른 클러스터링 장치는 데이터 분류를 위한 클러스터의 개수를 사전에 설정하지 않고, 초기 클러스터 중심으로부터 하나씩 순차적으로 클러스터 중심을 추가하다가 일정한 조건에 부합하면 클러스터의 개수를 확정한다.

상호정보 산출부(130)는 클러스터의 개수를 확정할지 여부를 결정하기 위해 구비된 것으로, 새로운 클러스터 중심이 결정될 때마다 새롭게 결정된 클러스터 중심에 대응하는 클러스터와 이전에 결정된 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출한다. 상호정보는 두 클러스터 사이의 종속관계를 나타내는 값이며, 두 클러스터가 얼마나 많은 정보를 공유하고 있는지를 나타낸다.

일 예로서, 클러스터 중심 결정부(120)에 의해 k번째 클러스터 중심이 결정된 시점에서 데이터 집합은 모두 k개의 클러스터로 분류된다. 이때 k개의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값은 다음의 수학식 7에 의해 산출된다.

여기서, ψ(i,k)는 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i)는 i번째 클러스터의 확률, p(k)는 k번째 클러스터의 확률, 그리고 p(i,k)는 두 클러스터 간의 결합 확률이다.

먼저 단일 클러스터에 대한 확률인 p(i)는 다음의 수학식 8에 의해 산출된다.

여기서, N은 데이터 집합을 구성하는 복수의 데이터 점의 개수이다.

k번째 클러스터의 확률인 p(k) 역시 수학식 8을 적용하여 산출되며, 결합 확률인 p(i,k)는 다음의 수학식 9에 의해 산출된다.

수학식 8 및 수학식 9의 우변에 나타난 p(i|x(n)) 또는 p(k|x(n))은 다음의 수학식 10에 의해 산출되는 값이다.

여기서, x(n)은 데이터 공간에서 n번째 데이터 점의 위치, C_i는 데이터 공간에서 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 C_j는 데이터 공간에서 k개의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.

수학식 7 내지 수학식 10으로부터 알 수 있듯이 클러스터 중심 결정부(120)에 의해 결정된 k번째 클러스터 중심, 즉 현재 클러스터 중심이 적합한 것인지의 여부를 결정하기 위해서도 데이터 공간에서 데이터 점과 클러스터 중심 사이의 거리정보가 사용된다.

제어부(140)는 현재 클러스터 중심이 결정된 시점에서 산출된 상호정보의 값에 의해 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 현재 클러스터 중심의 결정을 취소하고, 복수의 데이터 점을 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 분류한다.

수학식 7에 의해 산출되는 상호정보 ψ(i,k)는 p(i,k)와 p(i)p(k) 사이의 크기 관계에 따라 다음의 수학식 11과 같이 세 가지 경우의 값을 가진다.

수학식 11의 첫 번째 경우와 같이 상호정보의 값이 0이면, i번째 클러스터와 k번째 클러스터는 통계적 독립의 관계이다. 또한 수학식 11의 두 번째 경우와 같이 상호정보의 값이 양수이면, i번째 클러스터와 k번째 클러스터는 통계적 종속의 관계이다. 마지막으로 수학식 11의 세 번째 경우와 같이 상호정보의 값이 음수이면, i 번째 클러스터와 k번째 클러스터는 약한 종속의 관계이다.

따라서, k번째 클러스터 중심이 결정되었을 때 k번째 클러스터 중심에 대응하는 k번째 클러스터와 나머지 클러스터들 중에서 어느 하나인 i번째 클러스터가 종속적인 관계에 있는 것으로 판단되면, 즉 ψ(i,k)의 값이 양수이면 제어부(140)는 클러스터 중심 결정부(120)에 의해 결정된 k번째 클러스터 중심을 제거하고, 클러스터의 총 개수를 k-1개로 확정한다.

만약 k개의 클러스터에 대해 산출된 k-1개의 상호정보의 값이 모두 0 이하이면 k번째 클러스터 중심은 확정되고, 클러스터 중심 결정부(120)는 k+1번째 클러스터 중심을 계속하여 결정한다. 이와 같이 새로운 클러스터 중심이 결정될 때마다 상호정보 산출부(130) 및 제어부(140)에 의해 해당 클러스터 중심을 확정할 것인지 제거할 것인지 여부가 결정되므로, 사전에 클러스터의 개수를 결정하지 않아도 데이터 집합을 적절한 개수의 클러스터로 분류할 수 있다.

도 2는 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.

도 2를 참조하면, 초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 중에서 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다(S210).

다음으로 클러스터 중심 결정부(120)는 초기 클러스터 중심이 결정되면 순차적으로 데이터 점들 중에서 데이터 집합을 복수의 클러스터로 분류하기 위한 클러스터 중심을 결정하되, 순차적으로 결정되는 복수의 클러스터 중심 중에서 이전 클러스터 중심을 결정할 때 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 산출된 현재 밀도값이 최대인 데이터 점을 이전 클러스터 중심에 시간적으로 연속하는 현재 클러스터 중심으로 결정한다(S220).

상호정보 산출부(130)는 각각의 데이터 점으로부터 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심까지의 거리정보를 기초로 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다(S230).

제어부(140)는 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면(S240), 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 판단하여 현재 클러스터 중심의 결정을 취소하고, 복수의 데이터 점을 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 분류한다(S250). 만약 산출된 상호정보의 값이 모두 0 이하이면(S240), 현재 클러스터 중심은 확정되고, 클러스터 중심 결정부(120)는 새로운 클러스터 중심을 결정한다.

본 발명의 성능을 평가하기 위한 실험을 수행하였다. 본 발명과의 비교 대상이 되는 기존의 방법들은 K-평균 알고리즘, 전역 K-평균 알고리즘 및 자기 조직화 지도(Self-Organizing Map : SOM) 방법이다. 또한 디자인 파라미터 값으로는 α=1, β=0.1의 값이 설정되었다.

실험을 위한 데이터는 클러스터링을 위한 2차원 공간에서 인공적인 데이터를 생성하여 다음의 수학식 12 및 수학식 13에 의해 가공하였다.

위 수학식 12 및 수학식 13에서 pN[μ,Σ]는 확률 p, 평균 μ, 그리고 공분산 Σ를 가지는 가우시안 정규분포(Gaussian normal distribution)이다.

첫 번째 실험에서는 4개의 가우시안 정규분포 모양의 혼합성분으로 구성된 3000개의 샘플 데이터를 수학식 12에 적용하였다. 도 3은 본 발명을 적용하여 인공적으로 생성된 데이터 집합에 대해 클러스터 중심을 순차적으로 생성한 결과를 나타낸 도면이다.

도 3의 (a)에서 한 개의 초기 클러스터 중심은 전역 검색에 의해 결정되었으며, (b) 내지 (e)와 같이 다섯 개의 클러스터가 생성될 때까지 새로운 클러스터 중심이 한 개씩 추가된다. 즉, 양수의 상호관계의 값이 얻어질 때까지 클러스터가 순차적으로 생성된다. 도 3의 (e)에 나타난 다섯 개의 클러스터 k₁ 내지 k₅는 대응하는 고유치의 자승 근(square root)에 두 배의 축과 반지름을 가지는 공분산 행렬을 갖는 타원으로 나타내어진다.

다음의 표 1은 새로운 클러스터 중심이 추가될 때마다 얻어진 상호정보 ψ(i,k)의 값을 나타낸 것이다.

클러스터 개수(k)	k번째 클러스터 중심	i	ψ(i,k)
1	(1.03849, 0.98034)	1	-
2	(2.42590, 2.05131)	1	-0.09205
3	(2.12397, -0.43478)	1	-0.04072
3	(2.12397, -0.43478)	2	-0.03634
4	(0.92091, 2.52659)	1	-0.05578
		2	-0.09299
		3	-0.01941
5	(3.019148, 2.52013)	1	-0.05555
		2	0.322426
		3	-0.02438
		4	-0.518873

표 1을 참조하면, 도 3의 (e)와 같이 다섯 개의 클러스터가 생성되었을 때 두 번째와 다섯 번째 클러스터 사이의 상호정보의 값인 ψ(2,5)가 양수로 나타났다. 따라서 두 번째 클러스터와 다섯 번째 클러스터는 통계종속이며, 최적 클러스터의 개수는 네 개로 확정된다.

두 번째 실험에서는 5000개의 인공적인 데이터 집합을 수학식 13에 적용하여 5개의 클러스터를 가지는 가우시안 정규분포 모양으로 구성하였다. 도 4는 본 발명, 전역 K-평균 방법, K-평균 방법 및 SOM 방법에 의해 얻어진 5개의 클러스터 중심을 나타낸 도면이다. 도 4에서 K-평균 방법의 결과는 랜덤하게 선택한 초기값으로부터 평균 20회의 반복에 의해 얻어졌다.

실험결과로부터 본 발명과 전역 K-평균 방법에 의해 결정된 클러스터 중심의 위치가 원 평균(original mean)의 위치에 근접하게 나타나므로 K-평균 방법과 SOM 방법보다 우수한 성능을 보임을 알 수 있다.

다음의 표 2는 각 방법들의 구동시간을 나타낸 것이다.

클러스터링 방법	구동시간(초)
SOM 방법	4.8957
K-평균 방법	0.4167
전역 K-평균 방법	2.8302
본 발명	1.7168

표 2를 참조하면, SOM 방법의 구동시간이 가장 길게 나타나며, 디자인 파라미터 β를 이용한 본 발명은 다른 모든 방법들보다 짧은 구동시간을 보이므로 클러스터링 성능을 향상시킨다는 것을 확인할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

110 - 초기값 결정부
120 - 클러스터 중심 결정부
130 - 상호정보 산출부
140 - 제어부

Claims

데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 초기값 결정부;
상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정하는 클러스터 중심 결정부;
순차적으로 결정되는 상기 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 상호정보 산출부; 및
상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심의 이전에 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 제어부;를 포함하며,
상기 클러스터 중심 결정부는 상기 이전 클러스터 중심을 결정할 때 상기 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 상기 복수의 데이터 점 각각의 현재 밀도값을 산출하여 상기 현재 밀도값이 최대인 점을 상기 현재 클러스터 중심으로 결정하는 것을 특징으로 하는 클러스터링 장치.
삭제
제 1항에 있어서,
상기 초기값 결정부는 하기 수학식 A에 의해 상기 초기 밀도값을 산출하는 것을 특징으로 하는 클러스터링 장치:
[수학식 A]

여기서, N은 상기 데이터 점의 개수, D₁(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 상기 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, 그리고 α는 출력값을 얻기 위해 설정되는 디자인 파라미터이다.
제 1항에 있어서,
상기 클러스터 중심 결정부는 하기 수학식 B에 의해 상기 현재 밀도값을 산출하는 것을 특징으로 하는 클러스터링 장치:
[수학식 B]

여기서, D_k(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, D_k-1(m)은 상기 m번째 데이터 점에 대한 이전 밀도값, D_k-1(m^*)는 상기 이전 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, C_k-1은 상기 데이터 공간에서 상기 이전 클러스터 중심의 위치, 그리고 β는 상기 복수의 클러스터 중심 사이의 거리를 제한하기 위해 결정되는 디자인 파라미터이다.
제 1항에 있어서,
상기 제어부는 하기 수학식 C 내지 수학식 E에 의해 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출하고, 상기 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면 상기 현재 클러스터 중심의 결정을 취소하는 것을 특징으로 하는 클러스터링 장치:
[수학식 C]

[수학식 D]

[수학식 E]

여기서, ψ(i,k)는 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i|x(n))은
와 같이 정의되는 상기 i번째 클러스터와 상기 복수의 데이터 점 중에서 n번째 데이터 점 사이의 확률값, x(n)은 상기 데이터 공간에서 상기 n번째 데이터 점의 위치, C_i는 상기 데이터 공간에서 상기 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 C_j는 상기 데이터 공간에서 상기 복수의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.
(a) 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 단계;
(b) 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 현재 클러스터 중심을 결정하는 단계;
(c) 상기 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 단계; 및
(d) 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심의 이전에 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 단계;를 포함하며,
상기 (b) 단계에서, 상기 이전 클러스터 중심을 결정할 때 상기 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 상기 복수의 데이터 점 각각의 현재 밀도값을 산출하여 상기 현재 밀도값이 최대인 데이터 점을 상기 현재 클러스터 중심으로 결정하고,
상기 (d) 단계에서 상기 현재 클러스터 중심의 결정이 취소되지 않으면 상기 (b) 단계 내지 상기 (d) 단계가 반복 수행되는 것을 특징으로 하는 클러스터링 방법.
삭제
제 6항에 있어서,
상기 (a) 단계에서, 하기 수학식 A에 의해 상기 초기 밀도값을 산출하는 것을 특징으로 하는 클러스터링 방법:
[수학식 A]

여기서, N은 상기 데이터 점의 개수, D₁(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 상기 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, 그리고 α는 출력값을 얻기 위해 설정되는 디자인 파라미터이다.
제 6항에 있어서,
상기 (b) 단계에서, 하기 수학식 B에 의해 상기 현재 밀도값을 산출하는 것을 특징으로 하는 클러스터링 방법:
[수학식 B]

여기서, D_k(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, D_k-1(m)은 상기 m번째 데이터 점에 대한 이전 밀도값, D_k-1(m^*)는 상기 이전 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, C_k-1은 상기 데이터 공간에서 상기 이전 클러스터 중심의 위치, 그리고 β는 상기 복수의 클러스터 중심 사이의 거리를 제한하기 위해 결정되는 디자인 파라미터이다.
제 6항에 있어서,
상기 (d) 단계에서, 하기 수학식 C 내지 수학식 E에 의해 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출하고, 상기 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면 상기 현재 클러스터 중심의 결정을 취소하는 것을 특징으로 하는 클러스터링 방법:
[수학식 C]

[수학식 D]

[수학식 E]

여기서, ψ(i,k)는 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i|x(n))은
와 같이 정의되는 상기 i번째 클러스터와 상기 복수의 데이터 점 중에서 n번째 데이터 점 사이의 확률값, x(n)은 상기 데이터 공간에서 상기 n번째 데이터 점의 위치, C_i는 상기 데이터 공간에서 상기 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 C_j는 상기 데이터 공간에서 상기 복수의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.
제 6항에 기재된 클러스터링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.