KR100895261B1 - 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 - Google Patents
평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 Download PDFInfo
- Publication number
- KR100895261B1 KR100895261B1 KR1020070084468A KR20070084468A KR100895261B1 KR 100895261 B1 KR100895261 B1 KR 100895261B1 KR 1020070084468 A KR1020070084468 A KR 1020070084468A KR 20070084468 A KR20070084468 A KR 20070084468A KR 100895261 B1 KR100895261 B1 KR 100895261B1
- Authority
- KR
- South Korea
- Prior art keywords
- vector
- basin
- equilibrium
- cells
- state
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명에 의한 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법은, 입력 데이터에 대한 서포트 함수를 산출하는 과정; 상기 서포트 함수를 미분하여 이루어진 동적 시스템을 구성하고 상기 시스템을 이용한 상태 평형 벡터를 산출하는 과정; 상기 상태 평형 벡터를 중심으로 할당된 베이슨 셀들로 데이터 공간을 분할하는 과정; 상기 베이슨 셀들로 할당된 공간에서 상기 상태 평형 벡터간을 연결하여 가중 그래프를 구축하는 과정; 및 상기 가중 그래프에 따라 베이슨 셀을 병합하여 최종 군집화하는 과정을 포함함이 바람직하다.
본 발명에 의하면 귀납적이고 계층적인 군집화가 가능하며, 커널 파라미터에 보다 민감도가 낮고 군집의 수를 효과적으로 조절할 수 있으며, 전체 데이터 공간을 분할함으로써 새로운 데이터에 대해 군집 경계를 번거롭게 다시 산출할 필요 없이 새로운 데이터가 존재하는 해당 분할된 공간의 군집으로 라벨링할 수 있다.
Description
본 발명은 군집화 방법에 관한 것으로서, 보다 상세하게는 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법에 관한 것이다.
서포트 벡터 기반 군집화 방법은 서포트 벡터 머신에서 착안되어 최근 들어 고차원 분포의 서포트를 특징짓는 알고리즘으로 제안되어 어렵고 다양한 군집화 문제나 이상치 감지 문제에 성공적으로 적용되어 왔다.
이러한 군집화 방법들은 커널을 통해 데이터 점들을 고차원 특징 공간으로 사상시키고, 이 공간에서 대부분의 데이터를 포함하는 최소 반지름 구를 찾는 방법을 사용한다. 산출된 구는 다시 데이터 공간으로 역 사상되며 각각의 군집을 나타내는 분할된 몇 개의 집합으로 나누어 진다.
이러한 방법들은 임의의 형태를 가진 군집 경계선을 구할 수 있다는 점과 소프트 마진(Soft Margin)을 이용하여 특징공간에서 모든 점들을 포함하지는 않도록 함으로써 이상치 데이터를 다룰 수 있다는 점에서 다른 군집화 방법에 비해 장점을 가지고 있다.
이러한 장점에도 불구하고 군집 경계에 의존한 전통적인 소프트 벡터 군집(soft vector cluster; SVC) 알고리즘들은 몇 가지 단점들을 안고 있다. 첫째로, 군집 경계를 학습하기 위해 사용한 샘플에 포함되지 않은 새로운 데이터에 대해서는 군집 라벨링을 할 수 없다. 둘째로, 군집화 결과가 커널함수와 커널 파라미터의 선택에 민감하다. 마지막으로, 군집 수에 대한 주어진 정보가 있을 경우 이러한 정보에 맞추어 군집의 수를 조절하기 위한 효과적인 커널 파라미터 조절이 용이하지 않았다.
즉, K개의 군집을 얻기 위해서는 계산적으로 매우 복잡한 2차원 최적화 문제와 군집 라벨링 과정을 수차례 반복하여 시행착오를 통해 적당한 파라미터를 찾아내야 하는 비효율적 방법이었다.
도 1은 종래와 본 발명에 적용되는 서포트 함수의 레벨 셋에 의해 표현된 군집의 경계를 도시한 도면이다.
도 1에서 도시된 바와 같이 데이터(10)의 군집에 대한 경계(12)를 도출하면 이후에 새로운 데이터가 군집 경계선 외부에 생성될 때마다 그 데이터가 어느 군집에 속하는지에 대한 유추가 불가능하여 새로운 데이터에 근거하여 군집 경계를 다시 산출해야 하는 번거로운 문제점이 있었다.
본 발명의 기술적 과제는 전체 데이터 공간에 대한 서포트 추정 함수를 도출하여 데이터 공간을 동역학적으로 정의된 베이슨 셀(Basin Cell)들로 분할하는 함수와 연관된 동역학 과정을 구축하고, 이어서 계층적 군집화를 위한 동역학적 과정의 기하학적 특성으로부터 유도된 각 베이슨 셀들 간의 새로운 비유사성 측도를 정의하여 전체 데이터 공간을 분할하여 군집화하는 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법을 제공하는 데 있다.
상기 과제를 해결하기 위한 본 발명에 의한 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법은,
입력 데이터에 대한 서포트 함수를 산출하는 과정;
상기 서포트 함수를 미분하여 이루어진 동적 시스템을 구성하고 상기 시스템을 이용한 상태 평형 벡터를 산출하는 과정;
상기 상태 평형 벡터를 중심으로 할당된 베이슨 셀들로 데이터 공간을 분할하는 과정;
상기 베이슨 셀들로 할당된 공간에서 이웃한 상기 상태 평형 벡터간을 연결하여 가중 그래프를 구축하는 과정; 및
상기 가중 그래프에 따라 베이슨 셀을 병합하여 최종 군집화하는 과정을 포함함이 바람직하다.
또한, 상기 이웃한 상기 상태 평형 벡터인 경우는
또한, 상기 상태 평형 벡터를 연결하는 과정은 각각 상태 평형 벡터를 포함 하는 이웃한 베이슨 셀 간의 전이 평형 벡터를 이용하여 연결함을 특징으로 한다.
또한, 상기 서포트 함수는,
여기서, Φ는 비선형 변환, a는 구의 중심, β는 서포트 함수의 계수, xj는 서포트 벡터, K는 입력공간임을 특징으로 한다.
또한, 상기 동적 시스템의 기초가 되는 수학식은
본 발명에 의하면, 귀납적이고 계층적인 군집화가 가능하며, 커널 파라미터에 보다 민감도가 낮고 군집의 수를 효과적으로 조절할 수 있으며, 전체 데이터 공간을 분할함으로써 새로운 데이터에 대해 군집 경계를 번거롭게 다시 산출할 필요 없이 새로운 데이터가 존재하는 해당 분할된 공간의 군집으로 라벨링할 수 있다.
또한, 커널 파라미터의 선택에 덜 민감하고, 군집의 수를 효율적으로 조절할 수 있으며, 전체 데이터 공간을 효과적으로 분할할 수 있다.
이하 첨부 도면을 참조하여 본 발명의 바람직한 일 실시예를 설명한다.
본 발명의 실시예에서, 해당 분야에서 일부 기초적인 용어 및 부호에 대한 설명은 발명의 요지를 흐리게 할 가능성이 있으므로 상세한 기술은 생략하기로 한다.
도 2는 본 발명에 의한 군집화 방법을 설명하기 위한 흐름도이다.
우선, 군집화를 위하여 입력 데이터에 대한 서포트 함수를 산출한다(200 단계). 데이터 분포의 서포트를 추정하는 서포트 함수로서, 학습된 커넬 서포트 함수(Trained Kernel Support Function)는 다음과 같이 도출된다. 를 주어진 N 개의 데이터라고 하고, 를 데이터 공간이라고 할 때, 에서 어떤 고차원 특징 공간으로의 비선형 변환 를 사용하여 데이터를 포함하는 이론적인 최소 반지름 의 구는 다음 수학식 1로 나타낼 수 있다.
수학식 1을 다음과 같은 라그랑지안식으로 바꾸고
여기서 커널 함수는 로 정의되며, βi, βj는 서포트 함수의 계수이다. xi, xj는 구한 해가 를 만족시키는 점들만 구의 경계선상에 위치하며, 이들을 서포트 벡터(Support Vectors; SVs)라고 부른다.
산출된 해들을 이라고 하고, 를 가 0이 아닌 점들의 인덱스 셋(Index Set)이라고 하면, 데이터가 있는 범위를 포함하는 구의 중심으로부터 거리의 제곱을 나타내는 학습된 커널 서포트 함수는 다음과 수학식 4와 같이 정의될 수 있다.
서포트 함수에서 특징적인 부분은, 라고 할 때, 를 만족하는 점들이 이루는 윤곽(Contour)으로 군집 경계선을 도 1에 도시된 바와 같은 형태를 이루며, 이는 도 1에 도시되어 있으며, 이러한 특징이 SVC 방법론의 기초가 된다.
본 발명의 실시예에서 서포트 함수를 도출하는 단계는 후술되는 가우시안 커널을 이용한 수학식 7의 시스템과 같은 가우시안 커널 서포트 함수를 사용한다. 그러나, 데이터 전체 분포에 대한 서포트를 근사하게 추정할 수 있는 모든 커널에 대하여 제안된 방법이 확장될 수 있다. 또한, 서포트 함수의 레벨 셋에 의하여 도 1과 같이 데이터에 대하여 군집 경계를 표시할 수 있다.
도 2의 흐름도에서 202 단계는 서포트 함수를 이용하여 동적 시스템을 구축하고, 상태 평형 벡터를 산출한다.
200 단계에서 산출된 서포트 함수는 다른 서포트 벡터를 기초로 하여 군집하는 방법들과 같이 레벨 셋 의 같거나 다른 연결된 요소들을 구분함으로써 임의의 형태의 군집 형태를 결정할 수 있다. 그러나 이러한 방법은 레벨 셋 밖에 존재하는 데이터 점들에 대해서는 라벨링할 수 없으므로 귀납적 군집 방법론, 예컨대 전체 데이터 공간을 독립된 영역으로 나누는 K-means 알고리즘과 같은 방법으로의 확장에 있어 문제가 된다.
본 발명에서는 이러한 문제를 동적 시스템을 통해 해결하며, 특히 구축된 서포트 함수를 이용하여 이러한 시스템을 구축한다. 구축된 동적 시스템은 데이터 공간 전체를 베이슨 셀이라고 불리는 작은 독립된 공간들로 분할하며, 각각의 이런 공간은 상태 평형 벡터(Stable Equilibrium Vector)라고 불리는 대표적 점들에 의해 표현된다.
<동적 시스템의 구축>
첫 번째로 수학식 6의 학습된 가우시안 커널 서포트 함수와 연관된 동적 시스템을 다음 수학식 7과 같이 구축하며, 이 수학식 7의 동적 시스템은 레벨 셋 의 위상적, 기하학적 구조를 다음과 같다.
여기서 이고 이다. 함수 F의 완만함(Smoothness)에 의해 각 초기 조건 에 대한 유일한 해 가 반드시 존재한다. 를 만족하는 상태 벡터 를 수학식 7의 평형 벡터(Equilibrium Vector)라고 하며, 에서 F의 자코비안(Jacobian) 행렬 가 0인 고유값이 없을 경우 를 하이퍼볼릭(Hyperbolic)하다고 한다.
또한, 하이퍼볼릭 평형벡터 는 (i) 벡터를 2번 미분한 값인 헤시안(Hessian)의 모든 고유값이 양수일 경우 상태 평형 벡터(Stable Equilibrium Vector; SEV)라고 하며 (ii)그렇지 않을 경우 불안정 평형 벡터(Unstable Equilibrium Vector; UEV)라고 한다. 특히, 하이퍼볼릭 평형 벡터는 헤시안이 정확히 k개의 음수 고유값을 가질 때, 인덱스-k 평형 벡터라고 칭한다.
상태 평형 벡터의 의미는 가우시안 커널과 같이 모든 에 대해 을 만족하는 커널들에 대해서는 수학식 7의 시스템과 같은 상태 평형 벡터는 반지름 의 데이터를 포함하는 최소 구의 중심 를 근사하는 Pre-Image의 근사점으로 설명될 수 있다. 이를 설명하기 위해 수학식 1의 Primal문제를 소프트 마진 없이 고려해 볼 때, Primal과 Dual의 해가 같다는 Strong Duality Theorem에 의해 다음 수학식 8이 만족된다.
조건 에 의해 이므로 특징 공간에는 중심 의 정확한 Pre-Image가 존재하지는 않는다. 즉, 인 는 존재하지 않는다. 하지만 특징 영역 에서 중심 와 가장 가까운 점을 근사 시킬 수 있으며 이는 학습된 가우시안 커널 함수 와 연관된 다음 수학식 9의 최적화 문제를 풀어 구할 수 있다.
극값에서 를 만족하며, 이를 만족하는 는 수학식 7의 평형 벡터이면서 동시에 최적 조건의 2차 필요충분조건을 만족하는 경우에는 수학식 7의 시스템의 상태 평형 벡터임을 보일 수 있다.
204 단계는 산출된 상태 평형 벡터를 중심으로 할당된 베이슨 셀들로 데이터 공간을 분할한다.
수학식 7을 기초로 구축된 시스템은 전체 데이터 공간을 베이슨 셀이라는 독립된 영역들로 분할이 가능하며, 분할된 각 영역은 각각 하나의 상태 평형 벡터들을 통해 대표될 수 있다. 이를 보이기 위하여, 수학식 7을 통해 유사한 데이터 점들을 묶는데 있어 중요한 역할을 하는 베이슨 셀에 대해 정의한다.
도 3a는 본 발명에 의한 상태 평형 벡터에 따라 베이슨 셀로 분할된 데이터 공간을 도시한 도면이다.
도 3a에서 s1, 내지 s10은 상태 평형벡터이며, A(s1) 내지 A(s10)은 상태 평형 벡터에 따라 분할된 베이슨 셀을 나타낸다.
상태 평형 벡터 s의 Basin of attraction은 다음과 같이 수학식 7의 동적 과정이 진행됨에 따라 상태 평형 벡터 s로 수렴하는 모든 데이터 점들의 집합인 수학식 10을 의미한다.
상태 평형 벡터 s의 베이슨 셀이란 Basin 의 경계로서 정의되며 로 나타낸다. 베이슨 셀의 경계는 로 나타낸다. 다음의 결과는 수학식 7의 시스템을 통해 전체 공간을 분할한다.
전체 데이터 공간은 다음과 같이 베이슨 셀의 합인 다음 수학식 11로 이루어진다.
계산의 복잡도의 측면에서 전체 데이터 공간의 분할을 위해 정확한 베이슨 셀들을 찾을 필요는 없으며, 모든 데이터 점들이 동적 과정에 의해 특정 상태 평형 벡터로 수렴하므로 상태 평형 벡터들을 찾아냄으로써 쉽게 베이슨 셀들을 파악할 수 있다.
베이슨 셀로 분할된 공간은 베이슨 셀의 상태 평형 벡터간을 연결하여 가중 그래프를 구축하고, 연결된 베이슨 셀을 병합한다(206, 208 단계). 이때, 상태 평형 벡터의 연결과 베이슨 셀의 병합은 전이 평형 벡터(Transition Equilibrium Vector; TEV)를 이용한다.
200 단계에서 산출된 서포트 함수 를 임의의 형태의 군집 형태를 생성하도록 하기 위해서는 여러 개의 베이슨 셀들을 각각의 유사도 혹은 비유사도에 따라 묶거나 분리하여야 한다. 가중 그래프는 레벨 셋 의 연결된 요소들로 이루어진 군집 구조를 단순화할 뿐만 아니라, 서로 다른 군집에 속한 상태 평형 벡터들을 구분하는 일관적인 방법을 제공한다.
상태 평형 벡터의 이웃함(Adjacency)에 대해 정의하면, 두개의 상태 평형 벡터 와 는 이 두 벡터 사이에 index-one-Saddle 평형 벡터 가 존재할 때 서로 이웃한다고 한다. 이러한 index-one-Saddle 평형 벡터를 와 사이의 전이 평형 벡터라고 한다.
각 상태 평형 벡터는 최소한 하나의 TEV를 해당되는 베이슨 셀에 가지고 있으며 따라서 서로 이웃하는 상태평형 벡터들 사이에는 반드시 전이 평형 벡터가 있음을 증명할 수 있다.
또한, 가중 그래프에서 인접한 상태 평형 벡터의 베이슨 셀 영역을 하나의 군집으로 통합시키는 연결선을 E라고 하면 다음과 같이 정의된다. 만약 와 사이에 TEV 가 있으면 가중 거리 와 함께 이다.
여기서 이웃한 두 상태 평형 벡터간 연결선의 가중 거리는 서포트 함수 값 에 의해 결정되며 수학식 5에 의해 항상 양의 값을 가진다. 기하학적으로 의 값은 베이슨 셀내에서 하나의 상태 평형 벡터로부터 전이 평형 벡터를 거쳐 다른 상태 평형 벡터로 가는 경로를 따라 최소값을 가진다.
도 3c는 본 발명에 의한 서로 이웃한 상태 평형 벡터 사이에 있는 전이 평형 벡터와 관계를 기하학적으로 설명하기 위한 도면이다.
서로 인접한 상태 평형 벡터 근처에 있는 데이터는 경계상에서 가장 낮은 값을 갖는 전이 평형 벡터(d1)의 경로를 통해서 근접한 상태 평형 벡터(s1, s2)에 속하게 된다.
가중 그래프의 중요한 특징중 하나는 이 그래프가 연결되어 있으며, 따라서 서로 이웃한 상태 평형 벡터간의 거리를 임의의 두 상태 평형 벡터간의 거리로 확장할 수 있다. 예를 들어 주어진 두 상태 평형 벡터 와 에 대하여 두 벡터 간의 거리 를 인 경로 를 따라 다음 수학식 12와 같이 정의할 수 있다.
이것이 가중 그래프에서의 비유사도에 대한 척도가 된다. (여기서 이면 라고 가정) 기하학적으로, 거리 의 함수 값은 하나의 상태 평형 벡터에서 다른 상태 평형 벡터로 가는 경로에서 최소값을 갖는다.
도 3b는 본 발명에 의한 전이 평형 벡터를 이용하여 이웃한 상태 평형 벡터 벡터를 연결한 가중 그래프를 도시한다.
도 3b에서 전이 평형 벡터에 의해 연결된 베이슨 셀을 도 3a에 적용하면, 베이슨 셀이 연결된 부분의 경계(24)는 없어지며, 연결되지 않은 베이슨 셀의 경계(26)는 남게 된다. 따라서, 이러한 군집화 경계에 따라 입력된 데이터의 위치가 어느 경계 영역에 포함되는가에 따라 해당 데이터를 최종 군집화한다(210 단계).
또한, 계층적 군집화는 200 단계와 206 단계의 샘플 공간을 귀납적 학습을 위해 분할하고 200 단계에서 산출한 서포트 함수를 활용하여 군집 구조를 밝히는 과정이다. 그러나 서포트 함수 는 커널 파라미터에 매우 민감하고 따라서 레벨 셋 역시 민감하다. 또한 군집의 수를 조절하기 위해서는 커널 파라미터를 바꾸어 가며 계산상으로 매우 복잡한 2차원 최적화와 라벨링을 반복하여 수행해 보아야 한다는 문제가 있다.
계층적 군집화 단계는 이러한 단점을 극복하기 위해서 가중 그래프를 활용하여 계층적인 군집 방법을 제공한다. 개략적인 방법은, 각 상태 평형 벡터에 해당하는 베이슨 셀들을 각각의 군집을 수행하고, 원하는 군집의 수 개가 될 때까지 계층적으로 묶어 가는 것으로, 이러한 군집들을 라고 할 때 각 단계에서 가장 인접한 두 군집(즉, 두 상태 평형 벡터들 사이의 거리가 가장 가까운 군집)을 묶어 새로운 하나의 군집으로 정한다. 계층적 군집 단계는 일관적 특성을 띠고 있으며 이는 곧 합쳐진 군집들 간의 비유사성이 합쳐진 때에 비례한다는 것을 의미한다.
다음은 본 발명의 방법을 적용하여 샘플 데이터에 대한 군집화를 실행시키기 위한 알고리즘의 일 예이다.
Algorithm 1 :
//Phase I : Support Function 구축 //
//Phase II : Sample 공간을 분할//
B.0. //초기화//
B.1. //Sample 데이터를 Basin Cell을 이용하여 분할 //
end
//Phase III : 가중 그래프 G를 구축//
C.0. //초기화//
C.1. // 수학식 7의 모든 TEV를 찾음
end
end
end
C.2. //연결선 E 구축//
do
end
// Phase IV: K개의 군집이 되도록 계층적 군집화 //
D.0. //초기화//
각 군집의 SEV로부터 시작함(개 군집에 대해 각각 하나씩의 SEV). 이러한 군집을 라고 함. 초기 단계에서 두 군집간의 거리는 두 군집이 가지고 있는 SEV간의 연결선 가중치로 다음과 같이 정의 됨 :
D.1. // 단일 연결 합병//
end
end
도 4a 및 도 4b는 본 발명에 의한 서로 다른 커널 파라미터 q값을 적용한 경우의 가중 그래프와 병합된 베이슨 셀을 중첩시킨 군집화된 공간을 도시한 도면이다.
도 4c 및 도 4d는 본 발명에서 서로 다른 커널 파라미터 q값을 적용시의 계층적인 군집을 도시한 도면이다.
도 4c 및 도 4d의 덴드로그램이라 불리는 이진 트리는 각 교점의 높이가 두 자손간의 그룹내 비유사도에 비례하여 그려지며, 도 4에서 전통적인 SVC에 비해 커널 파라미터 값의 선택에 대하여 민감도가 적음을 알 수 있다. 도 4에서와 같이 여러값에 대해 유사한 군집 경계를 나타내며, 샘플의 군집 결과는 정확히 같다. 제안된 방법의 또 다른 특성으로는 커널 파라미터를 바꾸지 않고도 구축된 그래프를 조절함으로써 군집의 수를 결정할 수 있다.
도 5a 내지 도 5d는 일반적인 crab과 iris 데이터에 대하여 본 발명과 종래 기술이 적용된 각각의 군집화 결과를 나타낸 도면이다.
2차원으로 전사시킨 도 5는 반복을 통해 가장 좋은 파라미터 를 찾아 SVC 방법을 사용하였을 때의 결과를 나타낸다. crap과 iris 데이터에 대하여 종래의 군집화 방법 적용한 결과를 도시한 도 5b 및 도 5d를 참조하면 Bounded Support Vector(BSV)를 사용하면 많은 BSV들은 일부 주어진 데이터 샘플인 경우 특정 군집에 속하지 못하여 라벨링하지 못하는 결과를 보인다. 반면에 본 발명에 의한 방법은 도 5a 및 도 5c에 도시된 바와 같이 BSV 없이도 비교적 정확하게 주어진 데이터 샘플 및 새로운 데이터에 대해서도 군집화시켜 라벨링할 수 있음을 알 수 있다.
도 1은 종래와 본 발명에 적용되는 서포트 함수의 레벨 셋에 의해 표현된 군집의 경계를 도시한 도면이다.
도 2는 본 발명에 의한 군집화 방법을 설명하기 위한 흐름도이다.
도 3a는 본 발명에 의한 상태 평형 벡터에 따라 베이슨 셀로 분할된 데이터 공간을 도시한 도면이다.
도 3b는 본 발명에 의한 전이 평형 벡터를 이용하여 이웃한 상태 평형 벡터 벡터를 연결한 가중 그래프를 도시한다.
도 3c는 본 발명에 의한 서로 이웃한 상태 평형 벡터 사이에 있는 전이 평형 벡터와 관계를 기하학적으로 설명하기 위한 도면이다.
도 4a 및 도 4b는 본 발명에 의한 서로 다른 커널 파라미터값을 적용시의 가중 그래프와 병합된 베이슨 셀을 중첩시킨 군집화된 공간을 도시한 도면이다.
도 4c 및 도 4d는 본 발명에서 서로 다른 커널 파라미터값을 적용시의 계층적인 군집을 도시한 도면이다.
도 5a 내지 도 5d는 일반적인 crab과 iris 데이터에 대하여 본 발명과 종래 기술이 적용된 각각의 군집화 결과를 나타낸 도면이다.
Claims (4)
- 입력 데이터에 대한 서포트 함수를 산출하는 과정;상기 서포트 함수를 미분하여 이루어진 동적 시스템을 구성하고 상기 시스템을 이용한 상태 평형 벡터를 산출하는 과정;상기 상태 평형 벡터를 중심으로 할당된 베이슨 셀들로 데이터 공간을 분할하는 과정;상기 베이슨 셀들로 할당된 공간에서 이웃한 상기 상태 평형 벡터간을 연결하여 가중 그래프를 구축하는 과정; 및상기 가중 그래프에 따라 베이슨 셀을 병합하여 최종 군집화하는 과정을 포함하며,상기 서포트 함수는,여기서, Φ는 비선형 변환, a는 구의 중심, β는 서포트 함수의 계수, xj는 서포트 벡터, K는 입력공간이며,상기 동적 시스템의 수학식은
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070084468A KR100895261B1 (ko) | 2007-08-22 | 2007-08-22 | 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070084468A KR100895261B1 (ko) | 2007-08-22 | 2007-08-22 | 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090020057A KR20090020057A (ko) | 2009-02-26 |
KR100895261B1 true KR100895261B1 (ko) | 2009-04-29 |
Family
ID=40687580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070084468A KR100895261B1 (ko) | 2007-08-22 | 2007-08-22 | 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100895261B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101133804B1 (ko) | 2010-08-24 | 2012-04-05 | 포항공과대학교 산학협력단 | 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법 |
KR20180119443A (ko) | 2017-04-25 | 2018-11-02 | 서울대학교산학협력단 | 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101503644B1 (ko) * | 2014-04-07 | 2015-03-17 | 한국과학기술원 | 비간섭 전력 부하 감시에 알맞도록 고차 적률 특징을 쓰는 전력 신호 인식 방법 및 그 시스템 |
KR102542451B1 (ko) * | 2020-11-04 | 2023-06-12 | 서울대학교산학협력단 | 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치 |
CN114005085B (zh) * | 2021-10-28 | 2024-09-27 | 武汉大学 | 一种视频中密集人群分布检测与计数方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100598134B1 (ko) | 2005-03-24 | 2006-07-10 | 인하대학교 산학협력단 | 케이평균 군집화를 이용한 벡터 데이터 압축 방법 및시스템 |
-
2007
- 2007-08-22 KR KR1020070084468A patent/KR100895261B1/ko not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100598134B1 (ko) | 2005-03-24 | 2006-07-10 | 인하대학교 산학협력단 | 케이평균 군집화를 이용한 벡터 데이터 압축 방법 및시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101133804B1 (ko) | 2010-08-24 | 2012-04-05 | 포항공과대학교 산학협력단 | 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법 |
KR20180119443A (ko) | 2017-04-25 | 2018-11-02 | 서울대학교산학협력단 | 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20090020057A (ko) | 2009-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109118564B (zh) | 一种基于融合体素的三维点云标记方法和装置 | |
CN110599506B (zh) | 一种复杂异形曲面机器人三维测量的点云分割方法 | |
CN110827921B (zh) | 一种单细胞聚类方法、装置、电子设备及存储介质 | |
US20060184461A1 (en) | Clustering system | |
CN106257498A (zh) | 基于异构纹理特征的锌浮选工况状态划分方法 | |
WO2019207910A1 (ja) | データ分析システム及びデータ分析方法 | |
KR100895261B1 (ko) | 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법 | |
CN102622609B (zh) | 一种基于支持向量机的三维模型自动分类方法 | |
JP2015203946A (ja) | ヒストグラムの重心を計算する方法 | |
CN109492796A (zh) | 一种城市空间形态自动分区方法与系统 | |
CN108846261B (zh) | 基于可视图算法的基因表达时序数据分类方法 | |
CN110298392A (zh) | 一种标签约束自权重多超图学习的半监督分类方法 | |
CN102136073A (zh) | 学习装置及方法、识别装置及方法、程序和信息处理系统 | |
CN109919112B (zh) | 一种复杂场景中流动人群的分布与计数检测的方法 | |
Chen et al. | DensityPath: an algorithm to visualize and reconstruct cell state-transition path on density landscape for single-cell RNA sequencing data | |
CN113221065A (zh) | 数据密度估计及回归方法、相应装置、电子设备、介质 | |
CN108921853B (zh) | 基于超像素和免疫稀疏谱聚类的图像分割方法 | |
Ma et al. | An interactive framework for visualization of weather forecast ensembles | |
JP7310912B2 (ja) | 3次元点群ラベル学習装置、3次元点群ラベル推定装置、方法、及びプログラム | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
CN102147868A (zh) | 学习装置、学习方法、识别装置、识别方法和程序 | |
CN111126467B (zh) | 一种基于多目标正余弦算法的遥感影像空谱聚类方法 | |
KR101577249B1 (ko) | 보로노이 셀 기반의 서포트 클러스터링 장치 및 방법 | |
CN107578070A (zh) | 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 | |
CN115273645B (zh) | 一种室内面要素自动聚类的地图制图方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |