KR101113006B1 - 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 - Google Patents

클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 Download PDF

Info

Publication number
KR101113006B1
KR101113006B1 KR1020100015573A KR20100015573A KR101113006B1 KR 101113006 B1 KR101113006 B1 KR 101113006B1 KR 1020100015573 A KR1020100015573 A KR 1020100015573A KR 20100015573 A KR20100015573 A KR 20100015573A KR 101113006 B1 KR101113006 B1 KR 101113006B1
Authority
KR
South Korea
Prior art keywords
cluster
data
cluster center
determined
current
Prior art date
Application number
KR1020100015573A
Other languages
English (en)
Other versions
KR20110096236A (ko
Inventor
서창우
김수철
홍성대
김은영
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020100015573A priority Critical patent/KR101113006B1/ko
Publication of KR20110096236A publication Critical patent/KR20110096236A/ko
Application granted granted Critical
Publication of KR101113006B1 publication Critical patent/KR101113006B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법이 개시된다. 초기값 결정부는 데이터 집합을 구성하는 복수의 데이터 점 중에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 클러스터 중심 결정부는 초기 클러스터 중심이 결정되면 데이터 점들 각각에 대해 산출된 밀도값을 기초로 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정한다. 상호정보 산출부는 순차적으로 결정되는 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에서 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다. 제어부는 현재 클러스터 중심이 결정된 시점에서 산출된 상호정보의 값에 의해 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 현재 클러스터 중심의 결정을 취소하고, 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 데이터 집합을 분류한다. 본 발명에 따르면, 클러스터의 개수를 사전에 설정하지 않고 클러스터 사이의 종속관계에 따라 적응적으로 결정함으로써 잘못된 초기치 선택에 따른 성능 저하를 방지할 수 있다.

Description

클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법{Apparatus and method for clustering using mutual information between clusters}
본 발명은 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에 관한 것으로, 보다 상세하게는, 데이터 분류를 위해 전체 데이터 집합을 복수 개의 부분집합으로 분할하는 장치 및 방법에 관한 것이다.
데이터 분류기법의 하나인 클러스터링 알고리즘(clustering algorithm)은 다양한 형태의 데이터 집합을 몇 개의 작은 클러스터로 분할하는 것을 목적으로 한다. 현재 클러스터링 방법 중에서 가장 널리 사용되는 것은 K-평균 알고리즘(K-means algorithm)으로, 간단하면서 수렴 속도가 빠르다는 장점을 가진다. 그러나 K-평균 알고리즘은 실제 데이터를 클러스터링할 때 두 가지의 중요한 문제점을 가진다.
K-평균 알고리즘의 첫 번째 문제점은 클러스터 중심에 대한 비적절한 초기치 추정으로 인해 성능이 감소될 수 있다는 점이다. 이러한 초기치 추정 문제를 해결하기 위해 마운틴 클러스터링(mountain clustering)과 전역 K-평균 방법(global K-means method)이 제안되었다. 그러나 마운틴 클러스터링과 전역 K-평균 방법은 클러스터의 개수를 알고 있다는 가정 하에만 수행될 수 있다는 단점이 있다.
K-평균 알고리즘의 두 번째 문제점은 클러스터의 개수에 대한 정보를 항상 사전에 정의할 수 없다는 것이다. 이러한 문제를 해결하기 위해 스케일 기반 방법(scale based method)과 일반화된 K-평균 방법(generalized K-means method)이 제안되었다. 그러나 이 두 방법들에는 데이터의 양이 늘어날수록 계산량이 급격히 증가하게 되는 문제점이 존재한다.
본 발명이 이루고자 하는 기술적 과제는, 데이터 양의 증가에 따른 계산량의 증가가 크지 않으며 클러스터 개수에 대한 사전정보 없이 데이터를 분류할 수 있는 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 데이터 양의 증가에 따른 계산량의 증가가 크지 않으며 클러스터 개수에 대한 사전정보 없이 데이터를 분류할 수 있는 클러스터 간 상호정보를 이용한 클러스터링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치는, 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 초기값 결정부; 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정하는 클러스터 중심 결정부; 순차적으로 결정되는 상기 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 상호정보 산출부; 및 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 제어부;를 구비한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법은, (a) 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 단계; (b) 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 현재 클러스터 중심을 결정하는 단계; (c) 상기 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 단계; 및 (d) 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심에 시간적으로 앞서 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 단계;를 가지며, 상기 (d) 단계에서 상기 현재 클러스터 중심의 결정이 취소되지 않으면 상기 (b) 단계 내지 상기 (d) 단계가 반복 수행된다.
본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에 의하면, 많은 양의 데이터를 클러스터로 분류함에 있어서 클러스터의 개수를 사전에 설정하지 않고 클러스터 사이의 종속관계에 따라 적응적으로 결정함으로써 잘못된 초기치 선택에 따른 성능 저하를 방지할 수 있다. 또한 이전에 결정된 클러스터 중심의 정보를 기초로 새로운 클러스터 중심을 순차적으로 결정함으로써 데이터 분류 과정에서 계산량을 감소시킬 수 있다.
도 1은 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치에 대한 바람직한 실시예의 구성을 도시한 블록도,
도 2는 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도,
도 3은 본 발명을 적용하여 인공적으로 생성된 데이터 집합에 대해 클러스터 중심을 순차적으로 생성한 결과를 나타낸 도면, 그리고,
도 4는 본 발명, 전역 K-평균 방법, K-평균 방법 및 SOM 방법에 의해 얻어진 5개의 클러스터 중심을 나타낸 도면이다.
이하에서 첨부된 도면들을 참조하여 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저 K-평균 알고리즘에 의한 클러스터링 방법에 관하여 간단하게 설명하고 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법의 각 구성요소에 대하여 상세하게 설명하기로 한다.
길이가 N인 데이터 집합 X={x(1),x(2),…,x(N)}가 주어질 때, K-평균 알고리즘은 거리를 줄이기 위해 다음 수학식 1의 목적함수(object function) J를 최소화시키는 것이다.
Figure 112010011293887-pat00001
여기서,
Figure 112010011293887-pat00002
는 데이터 점 xi(n)과 클러스터 중심 μi 사이의 거리를 나타낸다.
K-평균 알고리즘에서는 먼저 각 데이터를 k개의 집합으로 나누고 각 집합에 대한 클러스터 중심을 임의로 결정한다. 이들 클러스터 중심에 대한 좋은 초기치를 얻기 위해서는 가능한 한 서로 멀리 떨어진 데이터를 선택하여야 한다. 다음으로 주어진 데이터 집합과 각 클러스터 중심 사이의 거리를 계산하여 가장 가까운 클러스터 중심에 연결시킴으로써 새로운 집합을 만들 수 있다. 이러한 과정을 반복하면 데이터들이 소속된 집합을 바꾸지 않거나 클러스터 중심이 변하지 않는 상태로 수렴할 수 있다. 따라서 K-평균 알고리즘은 실제 사용될 때 빠르게 수렴하기 때문에 널리 사용된다. 그러나 결과의 효용 측면에서 초기 클러스터 중심의 선택에 있어서 결과가 많은 영향을 받기 때문에 전역 최적값을 보장하지 못하는 단점이 있다.
최근 이러한 문제점에 대한 해결방법으로 전역 K-평균 클러스터링 알고리즘이 연구되었다. 전역 K-평균 알고리즘은 초기치에 종속적이지 않으면서 기존의 K-평균 알고리즘과 같이 지역 검색 과정을 적용하는 결정론적인(deterministic) 방법이다. 전역 K-평균 알고리즘에서 초기치 추정은 랜덤하게 선택되지만, 진행과정에서 각 단계별로 한 개의 새로운 클러스터 중심이 점진적으로 추가된다.
길이가 N인 데이터 집합 X={x(1),x(2),…,x(N)}가 주어질 때 L-클러스터링 문제는 데이터 집합을 L개의 부분집합 S1,…SL로 나누는 것이다. 공통적인 클러스터링 판별은 다음의 수학식 2와 같이 부분집합 Sk의 각 데이터 x(n)과 각 부분집합의 클러스터 중심 Ck 사이의 자승화된 유클리디안 거리(squared Euclidean distance : SSE)의 합이다.
Figure 112010011293887-pat00003
위 수학식 2에서 I(X)는 X가 참이면 1, 그렇지 않으면 0의 값을 가지는 함수이다.
전역 K-평균 알고리즘에서 클러스터 중심의 결정은 다음의 과정에 의해 진행된다. 먼저 하나의 클러스터(k=1)로부터 출발하여 데이터 집합 X의 중심에 대응하는 최적의 위치를 결정한다. 다음으로 두 개의 클러스터(k=2)에 대해 문제를 해결하기 위하여 K-평균 알고리즘의 N-실행을 수행한다. 이때 첫 번째 클러스터 중심은 k=1일 때 결정된 최적의 위치로 고정되고, n번째 실행에서의 두 번째 클러스터 중심은 데이터 x(n)의 위치에 있다.
n번째 클러스터링 과정에서 K-평균 알고리즘은 {C1,…,Ck -1,x(n)}과 같은 k개의 클러스터 중심으로 초기화된다. 이때 수학식 2의 SSE를 최소화하기 위한 클러스터링에 의해 k에 대한 최적 해가 구해진다. 만약 k가 데이터 집합 개수인 L과 동일하다면 알고리즘은 종료되고, 그렇지 않다면 k=k+1로 증가시켜 위 과정을 반복한다.
이러한 전역 K-평균 알고리즘 역시 데이터의 양이 많아질수록 계산량이 급격히 증가한다는 문제점이 있으며, 클러스터의 개수를 사전에 알고 있다는 가정하에 수행된다.
본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법에서는 이러한 문제를 해결하기 위해 생성된 클러스터 사이의 상호정보를 이용하여 데이터를 분류하는 방식을 사용한다. 클러스터 중심은 초기에 클러스터 개수만큼 생성되는 것이 아닌 점진적으로 추가되는 형태이며, 클러스터의 최적 개수는 다른 클러스터들과의 관계에서 상호정보를 분석하여 결정할 수 있다. 클러스터 간의 상호정보에 대하여는 뒤에 상세하게 설명한다.
도 1은 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 장치에 대한 바람직한 실시예의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명에 따른 클러스터링 장치는, 초기값 결정부(110), 클러스터 중심 결정부(120), 상호정보 산출부(130) 및 제어부(140)를 구비한다.
초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 중에서 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다.
앞에서 설명한 K-평균 알고리즘 및 전역 K-평균 알고리즘에서는 데이터 집합을 구성하는 복수의 데이터 점을 사전에 설정된 개수의 클러스터로 분류한다. 그러나 본 발명에 따른 클러스터링 장치는 한 개의 초기 클러스터 중심으로부터 출발하여 추가적인 클러스터 중심을 한 개씩 순차적으로 결정하여 일정한 조건을 만족하면 클러스터링 과정을 중단하는 구성을 가진다. 따라서 사전에 클러스터의 개수를 설정할 필요 없이 데이터 집합의 특성에 따라 적응적으로 클러스터의 개수가 결정될 수 있다.
초기값 결정부(110)는 복수의 데이터 점 중에서 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 여기서 데이터 점의 밀도값이 크다 함은 해당 데이터 점이 많은 개수의 이웃한 데이터 점들에 의해 둘러싸여 있다는 것을 의미한다. 따라서 초기 클러스터 중심을 결정하기 위한 각각의 데이터 점의 초기 밀도값은 해당 데이터 점과 다른 데이터 점 사이의 거리정보를 기초로 다음의 수학식 3과 같이 산출할 수 있다.
Figure 112010011293887-pat00004
여기서, N은 데이터 점의 개수, D1(m)은 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 데이터 공간에서 m번째 데이터 점의 위치, 그리고 α는 클러스터의 크기를 결정하는 디자인 파라미터로서, 초기 클러스터 중심을 결정할 때만 사용되기 때문에 1로 설정할 수 있다.
초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 각각에 대하여 수학식 3에 의해 초기 밀도값을 산출한 후, 다음의 수학식 4와 같이 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다. 즉, 초기 클러스터 중심이 결정된 시점에서는 전체 데이터 집합이 하나의 클러스터에 속하게 된다.
Figure 112010011293887-pat00005
여기서, C1은 데이터 공간에서 초기 클러스터 중심의 위치이고, D1(m)은 데이터 점들 중에서 x(m)에 대해 산출된 초기 밀도값이다.
클러스터 중심 결정부(120)는 초기 클러스터 중심이 결정되면 데이터 점들 각각에 대해 산출된 밀도값을 기초로 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정한다. 이때 순차적으로 결정되는 복수의 클러스터 중심 중에서 이전 클러스터 중심을 결정할 때 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 이전 클러스터 중심에 시간적으로 연속하는 현재 클러스터 중심을 결정하기 위한 복수의 데이터 점 각각의 현재 밀도값을 산출할 수 있다.
전역 K-평균 알고리즘은 데이터의 양이 많아질수록 클러스터 중심을 결정하기 위한 계산량이 급격히 증가한다는 문제점을 가진다. 이를 해결하기 위해 본 발명에 따른 클러스터링 장치의 클러스터 중심 결정부(120)는 순차적으로 클러스터 중심을 결정할 때마다 이전에 클러스터 중심을 결정할 때 기초가 된 밀도값 정보를 사용한다.
즉, 현재 결정하고자 하는 클러스터 중심이 k번째 클러스터 중심이라면 k-1번째 클러스터 중심의 위치 및 k-1번째 클러스터 중심을 결정할 때 각각의 데이터 점에 대해 산출된 이전 밀도값의 정보가 주어져 있다. 클러스터 중심 결정부(120)는 이와 같이 주어진 정보를 기초로 하여 k번째 클러스터 중심을 결정하기 위해 각각의 데이터 점에 대하여 다음의 수학식 5에 의해 현재 밀도값을 산출한다. 다만, 밀도값 산출의 대상이 되는 데이터 점들은 이미 클러스터 중심으로 결정된 점들을 제외한 데이터 점들이다.
Figure 112010011293887-pat00006
여기서, Dk(m)은 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, Dk -1(m)은 m번째 데이터 점에 대한 이전 밀도값, Dk - 1(m*)는 k-1번째 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 데이터 공간에서 m번째 데이터 점의 위치, Ck -1은 데이터 공간에서 k-1번째 클러스터 중심의 위치, 그리고 β는 복수의 클러스터 중심 사이의 거리를 제한하기 위해 설정되는 값을 가지는 디자인 파라미터이다.
이때, β는 0.1≤β<1의 값을 가지도록 설정되며, 서로 인접한 클러스터 중심이 결정되는 것을 피하기 위해 α보다 작은 값으로 설정된다. 클러스터 중심 결정부(120)는 이미 결정된 k-1개의 클러스터 중심을 제외한 나머지 데이터 점들 각각에 대해 수학식 5에 의해 현재 밀도값이 산출되면, 다음의 수학식 6과 같이 현재 밀도값이 최대인 데이터 점을 k번째 클러스터 중심으로 결정한다.
Figure 112010011293887-pat00007
여기서, Ck는 데이터 공간에서 k번째 클러스터 중심의 위치이고, Dk(m)은 m번째 데이터 점에 대해 산출된 현재 밀도값이다.
상호정보 산출부(130)는 각각의 데이터 점으로부터 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심까지의 거리정보를 기초로 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다.
앞에서 설명한 바와 같이 본 발명에 따른 클러스터링 장치는 데이터 분류를 위한 클러스터의 개수를 사전에 설정하지 않고, 초기 클러스터 중심으로부터 하나씩 순차적으로 클러스터 중심을 추가하다가 일정한 조건에 부합하면 클러스터의 개수를 확정한다.
상호정보 산출부(130)는 클러스터의 개수를 확정할지 여부를 결정하기 위해 구비된 것으로, 새로운 클러스터 중심이 결정될 때마다 새롭게 결정된 클러스터 중심에 대응하는 클러스터와 이전에 결정된 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출한다. 상호정보는 두 클러스터 사이의 종속관계를 나타내는 값이며, 두 클러스터가 얼마나 많은 정보를 공유하고 있는지를 나타낸다.
일 예로서, 클러스터 중심 결정부(120)에 의해 k번째 클러스터 중심이 결정된 시점에서 데이터 집합은 모두 k개의 클러스터로 분류된다. 이때 k개의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값은 다음의 수학식 7에 의해 산출된다.
Figure 112010011293887-pat00008
여기서, ψ(i,k)는 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i)는 i번째 클러스터의 확률, p(k)는 k번째 클러스터의 확률, 그리고 p(i,k)는 두 클러스터 간의 결합 확률이다.
먼저 단일 클러스터에 대한 확률인 p(i)는 다음의 수학식 8에 의해 산출된다.
Figure 112010011293887-pat00009
여기서, N은 데이터 집합을 구성하는 복수의 데이터 점의 개수이다.
k번째 클러스터의 확률인 p(k) 역시 수학식 8을 적용하여 산출되며, 결합 확률인 p(i,k)는 다음의 수학식 9에 의해 산출된다.
Figure 112010011293887-pat00010
수학식 8 및 수학식 9의 우변에 나타난 p(i|x(n)) 또는 p(k|x(n))은 다음의 수학식 10에 의해 산출되는 값이다.
Figure 112010011293887-pat00011
여기서, x(n)은 데이터 공간에서 n번째 데이터 점의 위치, Ci는 데이터 공간에서 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 Cj는 데이터 공간에서 k개의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.
수학식 7 내지 수학식 10으로부터 알 수 있듯이 클러스터 중심 결정부(120)에 의해 결정된 k번째 클러스터 중심, 즉 현재 클러스터 중심이 적합한 것인지의 여부를 결정하기 위해서도 데이터 공간에서 데이터 점과 클러스터 중심 사이의 거리정보가 사용된다.
제어부(140)는 현재 클러스터 중심이 결정된 시점에서 산출된 상호정보의 값에 의해 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 현재 클러스터 중심의 결정을 취소하고, 복수의 데이터 점을 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 분류한다.
수학식 7에 의해 산출되는 상호정보 ψ(i,k)는 p(i,k)와 p(i)p(k) 사이의 크기 관계에 따라 다음의 수학식 11과 같이 세 가지 경우의 값을 가진다.
Figure 112010011293887-pat00012
수학식 11의 첫 번째 경우와 같이 상호정보의 값이 0이면, i번째 클러스터와 k번째 클러스터는 통계적 독립의 관계이다. 또한 수학식 11의 두 번째 경우와 같이 상호정보의 값이 양수이면, i번째 클러스터와 k번째 클러스터는 통계적 종속의 관계이다. 마지막으로 수학식 11의 세 번째 경우와 같이 상호정보의 값이 음수이면, i 번째 클러스터와 k번째 클러스터는 약한 종속의 관계이다.
따라서, k번째 클러스터 중심이 결정되었을 때 k번째 클러스터 중심에 대응하는 k번째 클러스터와 나머지 클러스터들 중에서 어느 하나인 i번째 클러스터가 종속적인 관계에 있는 것으로 판단되면, 즉 ψ(i,k)의 값이 양수이면 제어부(140)는 클러스터 중심 결정부(120)에 의해 결정된 k번째 클러스터 중심을 제거하고, 클러스터의 총 개수를 k-1개로 확정한다.
만약 k개의 클러스터에 대해 산출된 k-1개의 상호정보의 값이 모두 0 이하이면 k번째 클러스터 중심은 확정되고, 클러스터 중심 결정부(120)는 k+1번째 클러스터 중심을 계속하여 결정한다. 이와 같이 새로운 클러스터 중심이 결정될 때마다 상호정보 산출부(130) 및 제어부(140)에 의해 해당 클러스터 중심을 확정할 것인지 제거할 것인지 여부가 결정되므로, 사전에 클러스터의 개수를 결정하지 않아도 데이터 집합을 적절한 개수의 클러스터로 분류할 수 있다.
도 2는 본 발명에 따른 클러스터 간 상호정보를 이용한 클러스터링 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 2를 참조하면, 초기값 결정부(110)는 데이터 집합을 구성하는 복수의 데이터 점 중에서 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정한다(S210).
다음으로 클러스터 중심 결정부(120)는 초기 클러스터 중심이 결정되면 순차적으로 데이터 점들 중에서 데이터 집합을 복수의 클러스터로 분류하기 위한 클러스터 중심을 결정하되, 순차적으로 결정되는 복수의 클러스터 중심 중에서 이전 클러스터 중심을 결정할 때 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 산출된 현재 밀도값이 최대인 데이터 점을 이전 클러스터 중심에 시간적으로 연속하는 현재 클러스터 중심으로 결정한다(S220).
상호정보 산출부(130)는 각각의 데이터 점으로부터 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심까지의 거리정보를 기초로 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출한다(S230).
제어부(140)는 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면(S240), 현재 클러스터에 대응하는 클러스터가 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 판단하여 현재 클러스터 중심의 결정을 취소하고, 복수의 데이터 점을 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 분류한다(S250). 만약 산출된 상호정보의 값이 모두 0 이하이면(S240), 현재 클러스터 중심은 확정되고, 클러스터 중심 결정부(120)는 새로운 클러스터 중심을 결정한다.
본 발명의 성능을 평가하기 위한 실험을 수행하였다. 본 발명과의 비교 대상이 되는 기존의 방법들은 K-평균 알고리즘, 전역 K-평균 알고리즘 및 자기 조직화 지도(Self-Organizing Map : SOM) 방법이다. 또한 디자인 파라미터 값으로는 α=1, β=0.1의 값이 설정되었다.
실험을 위한 데이터는 클러스터링을 위한 2차원 공간에서 인공적인 데이터를 생성하여 다음의 수학식 12 및 수학식 13에 의해 가공하였다.
Figure 112010011293887-pat00013
Figure 112010011293887-pat00014
위 수학식 12 및 수학식 13에서 pN[μ,Σ]는 확률 p, 평균 μ, 그리고 공분산 Σ를 가지는 가우시안 정규분포(Gaussian normal distribution)이다.
첫 번째 실험에서는 4개의 가우시안 정규분포 모양의 혼합성분으로 구성된 3000개의 샘플 데이터를 수학식 12에 적용하였다. 도 3은 본 발명을 적용하여 인공적으로 생성된 데이터 집합에 대해 클러스터 중심을 순차적으로 생성한 결과를 나타낸 도면이다.
도 3의 (a)에서 한 개의 초기 클러스터 중심은 전역 검색에 의해 결정되었으며, (b) 내지 (e)와 같이 다섯 개의 클러스터가 생성될 때까지 새로운 클러스터 중심이 한 개씩 추가된다. 즉, 양수의 상호관계의 값이 얻어질 때까지 클러스터가 순차적으로 생성된다. 도 3의 (e)에 나타난 다섯 개의 클러스터 k1 내지 k5는 대응하는 고유치의 자승 근(square root)에 두 배의 축과 반지름을 가지는 공분산 행렬을 갖는 타원으로 나타내어진다.
다음의 표 1은 새로운 클러스터 중심이 추가될 때마다 얻어진 상호정보 ψ(i,k)의 값을 나타낸 것이다.
클러스터 개수(k) k번째 클러스터 중심 i ψ(i,k)
1 (1.03849, 0.98034) 1 -
2 (2.42590, 2.05131) 1 -0.09205
3
(2.12397, -0.43478)
1 -0.04072
2 -0.03634

4

(0.92091, 2.52659)
1 -0.05578
2 -0.09299
3 -0.01941

5


(3.019148, 2.52013)

1 -0.05555
2 0.322426
3 -0.02438
4 -0.518873
표 1을 참조하면, 도 3의 (e)와 같이 다섯 개의 클러스터가 생성되었을 때 두 번째와 다섯 번째 클러스터 사이의 상호정보의 값인 ψ(2,5)가 양수로 나타났다. 따라서 두 번째 클러스터와 다섯 번째 클러스터는 통계종속이며, 최적 클러스터의 개수는 네 개로 확정된다.
두 번째 실험에서는 5000개의 인공적인 데이터 집합을 수학식 13에 적용하여 5개의 클러스터를 가지는 가우시안 정규분포 모양으로 구성하였다. 도 4는 본 발명, 전역 K-평균 방법, K-평균 방법 및 SOM 방법에 의해 얻어진 5개의 클러스터 중심을 나타낸 도면이다. 도 4에서 K-평균 방법의 결과는 랜덤하게 선택한 초기값으로부터 평균 20회의 반복에 의해 얻어졌다.
실험결과로부터 본 발명과 전역 K-평균 방법에 의해 결정된 클러스터 중심의 위치가 원 평균(original mean)의 위치에 근접하게 나타나므로 K-평균 방법과 SOM 방법보다 우수한 성능을 보임을 알 수 있다.
다음의 표 2는 각 방법들의 구동시간을 나타낸 것이다.
클러스터링 방법 구동시간(초)
SOM 방법 4.8957
K-평균 방법 0.4167
전역 K-평균 방법 2.8302
본 발명 1.7168
표 2를 참조하면, SOM 방법의 구동시간이 가장 길게 나타나며, 디자인 파라미터 β를 이용한 본 발명은 다른 모든 방법들보다 짧은 구동시간을 보이므로 클러스터링 성능을 향상시킨다는 것을 확인할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
110 - 초기값 결정부
120 - 클러스터 중심 결정부
130 - 상호정보 산출부
140 - 제어부

Claims (11)

  1. 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 초기값 결정부;
    상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 복수의 클러스터 중심을 순차적으로 결정하는 클러스터 중심 결정부;
    순차적으로 결정되는 상기 복수의 클러스터 중심 중에서 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 상호정보 산출부; 및
    상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심의 이전에 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 제어부;를 포함하며,
    상기 클러스터 중심 결정부는 상기 이전 클러스터 중심을 결정할 때 상기 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 상기 복수의 데이터 점 각각의 현재 밀도값을 산출하여 상기 현재 밀도값이 최대인 점을 상기 현재 클러스터 중심으로 결정하는 것을 특징으로 하는 클러스터링 장치.
  2. 삭제
  3. 제 1항에 있어서,
    상기 초기값 결정부는 하기 수학식 A에 의해 상기 초기 밀도값을 산출하는 것을 특징으로 하는 클러스터링 장치:
    [수학식 A]
    Figure 112011101257608-pat00015

    여기서, N은 상기 데이터 점의 개수, D1(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 상기 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, 그리고 α는 출력값을 얻기 위해 설정되는 디자인 파라미터이다.
  4. 제 1항에 있어서,
    상기 클러스터 중심 결정부는 하기 수학식 B에 의해 상기 현재 밀도값을 산출하는 것을 특징으로 하는 클러스터링 장치:
    [수학식 B]
    Figure 112011101257608-pat00016

    여기서, Dk(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, Dk-1(m)은 상기 m번째 데이터 점에 대한 이전 밀도값, Dk-1(m*)는 상기 이전 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, Ck-1은 상기 데이터 공간에서 상기 이전 클러스터 중심의 위치, 그리고 β는 상기 복수의 클러스터 중심 사이의 거리를 제한하기 위해 결정되는 디자인 파라미터이다.
  5. 제 1항에 있어서,
    상기 제어부는 하기 수학식 C 내지 수학식 E에 의해 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출하고, 상기 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면 상기 현재 클러스터 중심의 결정을 취소하는 것을 특징으로 하는 클러스터링 장치:
    [수학식 C]
    Figure 112011101257608-pat00017

    [수학식 D]
    Figure 112011101257608-pat00018

    [수학식 E]
    Figure 112011101257608-pat00019

    여기서, ψ(i,k)는 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i|x(n))은
    Figure 112011101257608-pat00020
    와 같이 정의되는 상기 i번째 클러스터와 상기 복수의 데이터 점 중에서 n번째 데이터 점 사이의 확률값, x(n)은 상기 데이터 공간에서 상기 n번째 데이터 점의 위치, Ci는 상기 데이터 공간에서 상기 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 Cj는 상기 데이터 공간에서 상기 복수의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.
  6. (a) 데이터 집합을 구성하는 복수의 데이터 점 중에서 상기 복수의 데이터 점이 위치하는 데이터 공간에서 다른 데이터 점과의 거리정보를 기초로 산출된 초기 밀도값이 최대인 데이터 점을 초기 클러스터 중심으로 결정하는 단계;
    (b) 상기 초기 클러스터 중심이 결정되면 상기 데이터 점들 각각에 대해 산출된 밀도값을 기초로 상기 데이터 집합을 복수의 클러스터로 분류하기 위한 현재 클러스터 중심을 결정하는 단계;
    (c) 상기 현재 클러스터 중심이 결정된 시점에 존재하는 복수의 클러스터 중심과 상기 각각의 데이터 점 사이의 거리정보를 기초로 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 종속관계를 나타내는 상호정보의 값을 산출하는 단계; 및
    (d) 상기 현재 클러스터 중심이 결정된 시점에서 산출된 상기 상호정보의 값에 의해 상기 현재 클러스터에 대응하는 클러스터가 상기 나머지 클러스터 중심에 대응하는 클러스터 중 적어도 하나와 종속적인 관계인 것으로 결정되면 상기 현재 클러스터 중심의 결정을 취소하고, 상기 현재 클러스터 중심의 이전에 결정된 이전 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터로 상기 데이터 집합을 분류하는 단계;를 포함하며,
    상기 (b) 단계에서, 상기 이전 클러스터 중심을 결정할 때 상기 복수의 데이터 점 각각에 대해 산출된 이전 밀도값을 기초로 상기 복수의 데이터 점 각각의 현재 밀도값을 산출하여 상기 현재 밀도값이 최대인 데이터 점을 상기 현재 클러스터 중심으로 결정하고,
    상기 (d) 단계에서 상기 현재 클러스터 중심의 결정이 취소되지 않으면 상기 (b) 단계 내지 상기 (d) 단계가 반복 수행되는 것을 특징으로 하는 클러스터링 방법.
  7. 삭제
  8. 제 6항에 있어서,
    상기 (a) 단계에서, 하기 수학식 A에 의해 상기 초기 밀도값을 산출하는 것을 특징으로 하는 클러스터링 방법:
    [수학식 A]
    Figure 112011101257608-pat00021

    여기서, N은 상기 데이터 점의 개수, D1(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 초기 밀도값, x(n)은 상기 데이터 공간에서 n번째 데이터 점의 위치, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, 그리고 α는 출력값을 얻기 위해 설정되는 디자인 파라미터이다.
  9. 제 6항에 있어서,
    상기 (b) 단계에서, 하기 수학식 B에 의해 상기 현재 밀도값을 산출하는 것을 특징으로 하는 클러스터링 방법:
    [수학식 B]
    Figure 112011101257608-pat00022

    여기서, Dk(m)은 상기 복수의 데이터 점 중에서 m번째 데이터 점에 대한 현재 밀도값, Dk-1(m)은 상기 m번째 데이터 점에 대한 이전 밀도값, Dk-1(m*)는 상기 이전 클러스터 중심에 대응하는 데이터 점에 대한 이전 밀도값, x(m)은 상기 데이터 공간에서 상기 m번째 데이터 점의 위치, Ck-1은 상기 데이터 공간에서 상기 이전 클러스터 중심의 위치, 그리고 β는 상기 복수의 클러스터 중심 사이의 거리를 제한하기 위해 결정되는 디자인 파라미터이다.
  10. 제 6항에 있어서,
    상기 (d) 단계에서, 하기 수학식 C 내지 수학식 E에 의해 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 상기 현재 클러스터 중심에 대응하는 클러스터와 나머지 클러스터 중심에 대응하는 각각의 클러스터 사이의 상호정보의 값을 산출하고, 상기 산출된 상호정보의 값 중에서 적어도 하나의 값이 양수이면 상기 현재 클러스터 중심의 결정을 취소하는 것을 특징으로 하는 클러스터링 방법:
    [수학식 C]
    Figure 112011101257608-pat00023

    [수학식 D]
    Figure 112011101257608-pat00024

    [수학식 E]
    Figure 112011101257608-pat00025

    여기서, ψ(i,k)는 상기 현재 클러스터 중심이 결정된 시점에서 생성된 복수의 클러스터 중에서 i번째 클러스터와 k번째 클러스터 사이의 상호정보의 값, p(i|x(n))은
    Figure 112011101257608-pat00026
    와 같이 정의되는 상기 i번째 클러스터와 상기 복수의 데이터 점 중에서 n번째 데이터 점 사이의 확률값, x(n)은 상기 데이터 공간에서 상기 n번째 데이터 점의 위치, Ci는 상기 데이터 공간에서 상기 i번째 클러스터에 대응하는 클러스터 중심의 위치, 그리고 Cj는 상기 데이터 공간에서 상기 복수의 클러스터 중 j번째 클러스터에 대응하는 클러스터 중심의 위치이다.
  11. 제 6항에 기재된 클러스터링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020100015573A 2010-02-22 2010-02-22 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 KR101113006B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100015573A KR101113006B1 (ko) 2010-02-22 2010-02-22 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100015573A KR101113006B1 (ko) 2010-02-22 2010-02-22 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110096236A KR20110096236A (ko) 2011-08-30
KR101113006B1 true KR101113006B1 (ko) 2012-02-24

Family

ID=44931501

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100015573A KR101113006B1 (ko) 2010-02-22 2010-02-22 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101113006B1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907551B1 (ko) 2012-07-05 2018-12-07 삼성전자 주식회사 확률 그래프의 효과적인 그래프 클러스터링 장치 및 방법
KR101402808B1 (ko) * 2012-09-18 2014-07-08 한국과학기술원 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치
KR101937494B1 (ko) * 2013-12-05 2019-01-10 건국대학교 산학협력단 알고리즘 저장장치를 포함하는 클러스터링 장치
KR101616886B1 (ko) * 2014-09-05 2016-04-29 (주)에스티씨 단일 센서의 다중 이벤트 식별 방법 및 장치
KR101949448B1 (ko) * 2017-04-25 2019-02-18 서울대학교산학협력단 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치
WO2019216469A1 (ko) * 2018-05-11 2019-11-14 서울대학교 산학협력단 자동차 레이더 시스템에서 탐지된 타겟들의 클러스터링 방법 및 이를 위한 장치
KR102142767B1 (ko) * 2018-09-11 2020-08-10 강원대학교산학협력단 데이터간 상대적 거리 비율 및 클러스터의 중심 데이터 간의 거리를 고려한 데이터 클러스터링 방법 및 시스템
CN109408562B (zh) * 2018-11-07 2021-11-26 广东工业大学 一种基于客户特征的分组推荐方法及其装置
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN111476270B (zh) * 2020-03-04 2024-04-30 中国平安人寿保险股份有限公司 基于K-means算法的课程信息确定方法、装置、设备及存储介质
CN113761076A (zh) * 2020-09-25 2021-12-07 北京沃东天骏信息技术有限公司 一种应用于数据仓库的聚类方法、装置、设备和存储介质
CN112328796B (zh) * 2020-11-17 2023-06-30 中国平安财产保险股份有限公司 文本聚类方法、装置、设备及计算机可读存储介质
CN113657525B (zh) * 2021-08-23 2024-04-26 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
CN113780437B (zh) * 2021-09-15 2024-04-05 大连交通大学 一种dpc聚类算法的改进方法
CN117251749B (zh) * 2023-11-17 2024-02-27 陕西通信规划设计研究院有限公司 一种基于增量分析的物联网数据处理方法
CN117912712B (zh) * 2024-03-20 2024-05-28 徕兄健康科技(威海)有限责任公司 基于大数据的甲状腺疾病数据智能管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090028953A (ko) * 2007-09-17 2009-03-20 한국전자통신연구원 자동화된 클러스터링 방법 및 이를 이용한 이동통신환경에서 다중 경로의 클러스터링 방법 및 장치
KR20100056066A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090028953A (ko) * 2007-09-17 2009-03-20 한국전자통신연구원 자동화된 클러스터링 방법 및 이를 이용한 이동통신환경에서 다중 경로의 클러스터링 방법 및 장치
KR20100056066A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김택헌 외, 다중속성 기반 다단계 클러스터링을 이용한 이웃 선정 방법, 한국컴퓨터종합학술대회 논문집 Vol.35, No.1(C), 2008.6. pp 397-401.*
김호숙외, 공간 데이터 마이닝에서 가중치를 고려한 클러스터링 알고리즘의 설계와 구현, 한국지능정보시스템학회논문지, 제8권 제2호, 2002.12 : pp 177~187.*

Also Published As

Publication number Publication date
KR20110096236A (ko) 2011-08-30

Similar Documents

Publication Publication Date Title
KR101113006B1 (ko) 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법
Rajakumar Impact of static and adaptive mutation techniques on the performance of genetic algorithm
Chander et al. A new social and momentum component adaptive PSO algorithm for image segmentation
US6516309B1 (en) Method and apparatus for evolving a neural network
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
US8484253B2 (en) Variational mode seeking
US11574147B2 (en) Machine learning method, machine learning apparatus, and computer-readable recording medium
JP2013519152A (ja) テキスト分類の方法及びシステム
Maree et al. Real-valued evolutionary multi-modal optimization driven by hill-valley clustering
Shleifer et al. Using small proxy datasets to accelerate hyperparameter search
CN110689113A (zh) 一种基于大脑共识主动性的深度神经网络压缩方法
CN109840558B (zh) 基于密度峰值-核心融合的自适应聚类方法
US7809726B2 (en) Mechanism for unsupervised clustering
CN112560881B (zh) 对象识别方法和装置、数据处理方法
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
Lin et al. Aacp: Model compression by accurate and automatic channel pruning
Hamid A new approach for classifying large number of mixed variables
US8301579B2 (en) Fast algorithm for convex optimization with application to density estimation and clustering
CN116629376A (zh) 一种基于无数据蒸馏的联邦学习聚合方法和系统
CN105589896B (zh) 数据挖掘方法及装置
CN113609677B (zh) 一种基于多路径的机器学习辅助天线设计方法
CN114723043A (zh) 基于超图模型谱聚类的卷积神经网络卷积核剪枝方法
Erol A model selection algorithm for mixture model clustering of heterogeneous multivariate data
CN110309139B (zh) 高维近邻对搜索方法和系统
US8924316B2 (en) Multiclass classification of points

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150108

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170116

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee