KR20180119443A

KR20180119443A - 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치

Info

Publication number: KR20180119443A
Application number: KR1020170053233A
Authority: KR
Inventors: 이재욱; 박새롬; 손영두
Original assignee: 서울대학교산학협력단
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2018-11-02
Also published as: KR101949448B1

Abstract

가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치가 개시된다. 클러스터링장치는 클러스터 대상인 제1 데이터 집합을 입력받고, 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화한 후, 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하고, 분산 함수의 서포트 영역을 설정하고, 서포트 영역 내에서 분산 함수의 극대값을 나타내는 지점을 대표점으로 선별하고, 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화한다.

Description

가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치{Clustering method and apparatus using Gaussian Process Regression}

본 발명은 가우신안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치에 관한 것이다.

일반적인 지지 기반 군집화(Support based Clustering) 방법은 복잡한 데이터의 구조를 잘 반영하여 군집을 결정해 주지만 학습 시간과 새로운 데이터에 대한 테스트 시간이 많이 소요되는 문제점이 있다. 또한 종래 지지 기반 군집화의 대표점(representative point)은 군집의 경계에 있는 점들이고, 안정평형점(stable equilibrium point)을 대표점으로 설정하면, 그 점은 클러스터링 대상 데이터에 실제로 존재하지 아니한 점이다.

주어진 데이터들 중에서 대표점을 찾아 군집화하는 친화 전파(affinity propagation) 방법이 존재하나, 해당 방법은 볼록 집합(covex group)의 군집화만 가능하고, 각 클러스터당 하나의 대표점만을 만든다는 단점이 존재한다. 따라서 해당 방법으로 비볼록(non-covex) 집합의 군집화를 위해서는 많은 파라미터들의 학습 과정이 필요하다.

등록특허공보 제10-0895261호 등록특허공보 제10-1133804호

본 발명이 이루고자 하는 기술적 과제는, 가우시안 프로세스(이하, 'GP'라 함) 회귀분석을 이용하여 볼록 집합뿐만 아니라 비볼록 집합의 군집화가 가능한 클러스터링 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터링 방법의 일 실시 예는, 클러스터 대상인 제1 데이터 집합을 입력받는 단계; 상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 단계; 상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 단계; 상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 단계; 상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 단계; 및 상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터링 장치의 일 실시 예는, 클러스터 대상인 제1 데이터 집합을 입력받는 입력부; 상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 초기화부; 상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 파라미터산출부; 상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 서포트영역설정부; 상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 대표점산출부; 및 상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 군집화하는 클러스터링부;를 포함한다.

본 발명에 따른 GP 회귀분석을 기초로 생성된 분산 함수를 이용하여 볼록 집합뿐만 아니라 비볼록 집합의 군집화가 가능하다. 또한 군집화 과정에서 구해진 관련 벡터(relevant vector)를 클러스터링 대상 데이터 중에서 선택할 수 있어 군집의 대표점들 또한 클러스터링 대상 데이터에서 선택할 수 있다. 또한 대표점들이 분산 함수의 극대점을 나타내는 지점이므로 빠른 라벨링(fast labeling) 방법을 활용하여 학습 및 테스트 시간을 줄일 수 있다.

도 1은 본 발명에 따른 클러스터링 방법의 일 실시 예를 도시한 흐름도,
도 2는 본 발명의 일 실시 예에 따른 분산 함수를 도시한 도면,
도 3은 데이터 집합에 포함된 데이터 요소의 개수에 따른 기저 벡터의 개수를 다양한 클러스터링 방법별로 도시한 도면,
도 4는 절단레벨값이 고정된 상태에서 파라미터 σ의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면,
도 5는 파라미터 σ의 값이 고정된 상태에서 절단레벨값의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면, 그리고,
도 6은 본 발명에 따른 클러스터링장치의 일 실시 예의 구성을 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 클러스터링 방법 및 장치에 대해 상세히 설명한다.

먼저, 군집화를 위한 대표점을 선별하기 위한 분산 함수(variance function)를 가우시안 프로세스(Gaussian Process)를 이용하여 정의하는 과정에 대해 살펴본다.

입출력 쌍(x,y)의 관계를 다음의 가산에러회귀모델(additvie error regression model)로 정의한다.

위 함수가 수학식 2와 같은 형태의 제한된 GP를 따른다고 가정하자. 여기서, 입력데이터 및 출력데이터는 각각

,

로 정의될 수 있으며, 입력데이터가 클러스터링 대상 데이터이다.

f는

형태의 선형기저함수(linear basic function)의 서브클래스에 속하도록 제한된다. 여기서,

이고,

이다. σ값은 실시 예에 따라 다양하게 설정될 수 있으며, σ값의 변화에 따른 군집화의 결과는 도 4에 도시되어 있다.

로 주어진 공분산 함수(covariance function)에서, A는 N*N 대각선 행렬(diagonal matrix)이고, A_ii=α_i>0이다. 클러스터 대상인 크기 N의 데이터가 주어졌을 때, GP는 다음과 같은 결합 가우시안(joint Gaussina)를 정의한다.

여기서,

이고,

는 i번째 행이

인 N*N 행렬이다. 가중치 w에 대한 사전 분포(prior distribution)가

이면, 공분산 함수는

와 같이 주어진다.

수학식 1의 ε또한 아래와 같이 GP를 따른다고 가정한다.

여기서, β(x)는 하이퍼-함수이며,

이다.

는 디랙델타함수(Dirac delta function)로서, x=x'이면 1, 그렇지 않으면 0의 값을 나타낸다. GP는

의 결합 분포(joint distribution)를 다음과 같이 정의한다.

따라서 주변 우도(marginal likelihood)는 다음과 같이 주어진다.

Sherman-Morrison-Woodbury 역행렬 공식을 이용하여, 새로운 테스트 값 x*에 대한 f(x*)의 사후 예측 분포(posterior predictive distribution)는 다음과 같다.

사후 분포(posterior distribution)의 평균(mean)과 공분산 행렬은 다음과 같다.

여기서, B는

인 N*N 대각선 행렬이다.

그리고,

이고,

이다.

하이퍼-함수 Β가 주어질 때, 예측 공분산

는 오직 클러스터 대상 데이터 x에 의해서만 영향을 받을 뿐 y의 값에 의존하지 않는다. 일정 개수의 커널 기저 함수는 입력 데이터가 위치한 지점에 집중되고, 예측 공분산은 조밀하게 위치한 입력 데이터의 근처에서 커지고, 입력 데이터가 느슨하게 분포한 지점에서 작아진다. 이러한 특성에 기반하여 분산 함수를 정의하면 다음과 같다.

도 1은 본 발명에 따른 클러스터링 방법의 일 실시 예를 도시한 흐름도이다.

도 1을 참조하면, 클러스터링장치는 클러스터 대상인 제1 데이터 집합을 입력받는다(S100). 그리고 클러스터링장치는 제1 데이터 집합(

)의 개수와 동일한 개수를 가진 제2 데이터 집합(

)을 기 설정된 값(예를 들어, 0)으로 초기화한다.

클러스터링장치는 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱(logistic) GP(Gaussian Process) 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구한다(S120).

일 예로, 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석(p(y_k|x_k)) 및 로그-우도 함수(L(α))는 각각 다음 수학식과 같이 정의될 수 있다.

여기서, N은 제1 데이터 집합의 데이터 요소의 개수이며,

,

이다.

로그-우도 함수는 파라미터 α에 의존한다. 클러스터링장치는 군집화를 위한 최적의 α를 찾기 위하여 순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 이용할 수 있다. 베이지안 학습 알고리즘을 적용하여 최적의 파라미터를 찾는 과정을 살펴보면 다음과 같다.

먼저 C를 다음과 같이 나타낼 수 있다.

수학식 12를 이용하여, 로그-우도 함수를 다시 표현하면 다음과 같다.

여기서,

이고,

,

이다. λ(α_i)의 모든 항은 α_i에 의존성을 가진다. 따라서 λ(α_i)를 최대화함으로써 로그-우도 함수의 값을 최대화할 수 있으므로, α_i는 다음 수식에 의해 구해질 수 있다.

최적 파라미터의 값을 구한 후, 클러스터링장치는 파라미터를 반영한 수학식 9의 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 분산 함수의 입력값의 범위인 서포트 영역을 설정한다(S130). 분산 함수는 앞서 살핀 바와 같이 GP를 통해 정의된 함수로서 클러스터 대상인 입력 값인 제1 데이터에 의해서만 영향을 받는 함수이며, 제2 데이터에 의해 영향을 받지 않는 함수이다.

예를 들어, 클러스터링장치는 제1 데이터 집합의 각 요소에 대한 분산함수의 값 중 최소값을 기준값으로 설정하고, 분산함수의 값이 기준값보다 큰 분산함수의 입력값의 범위를 서포트 영역으로 설정할 수 있다. 이를 수학식으로 나타내면 다음과 같다.

클러스터링장치는 서포트 영역 설정 후 서포트 영역 내에서 분산 함수의 극대값을 나타내는 분산 함수의 입력값을 대표점으로 선별한다(S140). 예를 들어, 분산 함수가 도 2와 같고, 서포트 영역이 -10~10 사이이면, 클러스터링장치는 분산 함수의 극대값을 나타내는 6개의 지점을 대표점으로 선별한다.

그리고 클러스터링장치는 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 군집화한다. 예를 들어, 클러스터링장치는 각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이를 연결하는 선분 상에 위치한 값들에 대한 분산 함수의 값이 기 설정된 절단수준값(Cutting Level)보다 모두 작으면 인접한 대표점에 동일한 클러스터 라벨을 부여한다. 즉 인접한 대표점은 하나의 그룹에 속한다. 그리고 클러스터링장치는 최단 이웃점 탐색(nearest neighbor search) 방법 등을 적용하여 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화한다.

도 2는 본 발명의 일 실시 예에 따른 분산 함수를 도시한 도면이다.

도 2를 참조하면, 1차원 분산 함수의 예가 도시되어 있다. 유한 개수의 파라미터 α에 대응하는 입력 벡터를 기저 벡터(basis vector)라고 한다. 기저 벡터는 데이터 집합의 중앙에 위치하므로, 클러스터 대상 데이터의 대표점으로 간주할 수 있다. 분산 함수는 기저 벡터(basis vector) 근처에서 큰 값을 가짐을 알 수 있으며, 분산 함수의 극대값을 나타내는 지점(원으로 표시된 부분)이 대표점이 된다.

도 3은 데이터 집합에 포함된 데이터 요소의 개수에 따른 기저 벡터의 개수를 다양한 클러스터링 방법별로 도시한 도면이다.

도 3을 참조하면, 본 실시 예에 따른 클러스터링 방법을 사용할 경우에 데이터 집합 내 데이터 요소의 개수가 증가하여도 기저 벡터의 개수가 거의 일정함을 수 있다.

도 4는 절단레벨값이 고정된 상태에서 파라미터 σ의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면이다. 도 4의 예에서 절단레벨값은 모두 1.5로 고정된 경우이다.

도 4(a)는 파라미터 σ가 1, 도 4(b)는 파라미터 σ가 0.6, 도 4(c)는 파라미터 σ가 0.42, 도 4(d)는 파라미터 σ가 0.3인 경우이다. 파라미터 σ의 값이 작아질수록 기저 벡터(원으로 표시된 부분)의 개수가 증가함을 알 수 있다.

도 5는 파라미터 σ의 값이 고정된 상태에서 절단레벨값의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면이다. 도 5의 예에서, 파라미터 σ의 값은 0.3으로 고정되어 있다.

도 5(a)의 절단레벨값은 1.5이고, 도 5(b)의 절단레벨값은 0.3이다. 절단레벨값이 감소하면, 도 5(a)의 아래 부분의 그룹이 하나로 합쳐지는 것을 알 수 있다.

도 6은 본 발명에 따른 클러스터링장치의 일 실시 예의 구성을 도시한 도면이다.

도 6을 참조하면, 클러스터링장치(600)는 입력부(610), 초기화부(620), 파라미터산출부(630), 서포트영역설정부(640), 대표점산출부(650) 및 클러스터링부(660)를 포함한다.

입력부(610)는 클러스터 대상인 제1 데이터 집합을 입력받는다.

초기화부(620)는 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 생성하고 기 설정된 값으로 초기화한다. 예를 들어, 초기화부(620)는 단일 클래스(one-class) 회귀분석을 위하여 제2 데이터 집합의 각 데이터 요소를 0으로 초기화할 수 있다.

파라미터산출부(630)는 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구한다. 이때 파라미터산출부(630)는 베이지안 학습 알고리즘을 이용하여 파라미터를 구할 수 있다.

서포트영역설정부(640)는 파라미터산출부(630)에서 구한 파라미터가 반영된 분산 함수의 값이 기 설정된 기준값 이상이 되도록 하는 서포트 영역을 설정한다. 여기서 기준값은 실시 예에 따라 다양하게 설정할 수 있으며, 일 예로, 제1 데이터 집합의 각 데이터 요소별 분산 함수의 값 중 최소값을 기준값으로 설정할 수 있다.

대표점산출부(650)는 서포트 영역 내에서 분산 함수의 극대값을 나타내는 지점을 대표점으로 산출한다. 대표점산출부(650)에서 구한 대표점은 제1 데이터 집합의 데이터 요소와 중첩되거나 중첩되지 않을 수 있다.

클러스터링부(660)는 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 클러스터링한다. 일 실시 예로, 대표점산출부(650)에서 구한 대표점들이 동일한 그룹에 속할 수 있다. 따라서 클러스터링부(660)는 각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이를 연결하는 선분 상에 위치한 값들에 대한 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 인접한 대표점에 동일한 클러스터 라벨을 부여한다. 즉 인접한 대표점은 하나의 그룹에 속한다. 그리고 클러스터링부(660)는 최단 이웃점 탐색(nearest neighbor search) 방법 등을 적용하여 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 그룹핑한다.

본 실시 예는 설명의 편의를 위하여 각 기능별 구성을 도시하고 있으나, 클러스터링장치는 입출력장치, 메모리, 프로세서로 구현된 컴퓨팅 장치에 의해 구현될 수 있다. 예를 들어, 입출력장치는 키보드나 키패드 등의 사용자 인터페이스 장치, 유무선 통신망을 통해 데이터를 송수신하는 각종 통신장치, 하드 디스크나 USB 메모리 등과 입출력을 수행하는 장치 등을 포함하는 개념이며, 이들 장치 중 적어도 하나를 통해 클러스터링 대상 데이터를 입력받을 수 있다. 또한, 입출력부는 클러스터링 결과를 통신장치를 통해 외부의 장치로 전송하거나 하드디스크나 USB에 전송하거나 디스플레이장치를 통해 화면에 표시할 수 있다. 그리고, 도 6에 도시된 각종 구성은 소프트웨어로 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

클러스터 대상인 제1 데이터 집합을 입력받는 단계;
상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 단계;
상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 단계;
상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 단계;
상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 단계; 및
상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
제 1항에 있어서, 상기 초기화하는 단계는,
단일 클래스 회귀분석(one-class regression)을 위하여 상기 제2 데이터 집합의 데이터 요소를 모두 0으로 초기화하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
제 1항에 있어서, 상기 파라미터를 구하는 단계는,
순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 적용하여 파라미터를 구하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
제 1항에 있어서, 상기 서포트 영역을 설정하는 단계는,
상기 제1 데이터 집합의 데이터 요소들에 대한 분산 함수의 값 중 최소값을 산출하는 단계; 및
상기 분산 함수의 값이 상기 최소값 이상이 되도록 하는 상기 분산 함수의 입력값의 범위를 서포트 영역으로 설정하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
제 1항에 있어서, 상기 클러스터링하는 단계는,
각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이에 위치한 값들에 대해 상기 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 상기 인접한 대표점에 동일한 클러스터 라벨을 부여하는 단계; 및
최단 이웃점 탐색 방법을 적용하여 상기 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
클러스터 대상인 제1 데이터 집합을 입력받는 입력부;
상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 초기화부;
상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 파라미터산출부;
상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 서포트영역설정부;
상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 대표점산출부; 및
상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 군집화하는 클러스터링부;를 포함하는 것을 특징으로 하는 클러스터링 방법.
제 6항에 있어서, 상기 초기화부는,
단일 클래스 회귀분석(one-class regression)을 위하여 상기 제2 데이터 집합의 데이터 요소를 모두 0으로 초기화하는 것을 특징으로 하는 클러스터링 장치.
제 6항에 있어서, 상기 파라미터산출부는,
순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 적용하여 파라미터를 구하는 것을 특징으로 하는 클러스터링 장치.
제 6항에 있어서, 상기 서포트영역설정부는,
상기 제1 데이터 집합의 데이터 요소들에 대한 분산 함수의 값 중 최소값을 산출하고, 상기 분산 함수의 값이 상기 최소값 이상이 되도록 하는 상기 분산 함수의 입력값의 범위를 서포트 영역으로 설정하는 것을 특징으로 하는 클러스터링 장치.
제 6항에 있어서, 상기 클러스터링부는,
각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이에 위치한 값들에 대해 상기 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 상기 인접한 대표점에 동일한 클러스터 라벨을 부여하고, 최단 이웃점 탐색 방법을 적용하여 상기 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화하는 것을 특징으로 하는 클러스터링 장치.
제 1항 내지 제 5항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.