KR101133804B1

KR101133804B1 - 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법

Info

Publication number: KR101133804B1
Application number: KR1020100082126A
Authority: KR
Inventors: 이재욱; 이대원; 김남형; 정규환
Original assignee: 포항공과대학교 산학협력단
Priority date: 2010-08-24
Filing date: 2010-08-24
Publication date: 2012-04-05
Also published as: KR20120019041A

Abstract

본 발명에 의한 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법은, 포지션 별로 분류된 데이터 샘플들을 포함하며, 일정한 머징 파라미터를 갖는 복수의 작은 구를 형성하는 단계; 상기 작은 구들의 중심값을 초기값으로 하며 산출한 퀀타일 함수의 동적 시스템을 이용하여 상태 평형 벡터를 산출하는 단계; 및 상기 작은 구를 하나의 샘플 데이터로 대응시켜 상기 작은 구를 군집화하는 단계;를 포함함을 특징으로 한다.
본 발명은 모든 데이터 샘플들을 복수의 작은 구에 포함되도록 분류시키고 이들 각 작은 구에 대하여 sev를 산출하여 군집화시킴으로써 정확도를 종래와 거의 동일하게 유지하면서, 복잡도가 현저히 감소시키고, 군집화 처리 속도를 향상시킨 군집화 방법을 제공한다.

Description

대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법{Fast kernel quantile clustering method for large-scale data}

본 발명은 군집화 방법에 관한 것으로서, 보다 상세하게는 데이터에 대하여 작은 구(small ball)를 적용하여 보다 신속하게 군집화할 수 있는 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법에 관한 것이다.[과제고유번호 : R01-2007-000-20792-0, 연구과제명 : 대용량 희소 출력값 데이터 분석을 위한 데이터마이닝 시스템 개발 및 생체 데이터 분류에의 응용]

커널 퀀타일 군집화 방법은 최근 들어 어렵고 다양한 군집화 문제나 이상치 감지 문제에 성공적으로 적용되어 왔다. 이러한 방법들은 다른 군집화 방법에 비해서 다양한 모양의 군집경계를 만들 수 있고 이상치 데이터를 처리하는 능력이 뛰어나다는 장점이 있다.

이러한 커널 퀀타일 군집화 방법은 크게 두 단계로 나누어 처리된다. 첫 번째 단계는 퀀타일 함수를 구하는 트레이닝 단계이며, 두 번째 단계는 군집 라벨링(Labeling) 단계로서 각 데이터를 해당 군집에 할당하는 단계이다. N이 데이터의 개수이고, m << N이 각 테두리의 샘플링 데이터의 개수일 때, 두 번째 단계의 시간 복잡도가 O(N²m)로써 전체 군집화 과정에서 대부분의 시간을 차지하게 된다. 그러므로 이미지 픽셀 군집화 같은 대용량 문제뿐 아니라 중용량 문제에서도 라벨링 속도를 강화시키는 것이 중요하다. 기존의 이러한 문제를 해결하기 위한 방법으로는그래프 기반(Proximity Graph-based), 정복 기반(Conquer-based)와 평형 기반(Equilibrium-based) 방법이 있다. 앞의 2가지 방법들은 속도를 줄이는 대신 정확도가 떨어지는 반면에 세 번째 Equilibrium-based 방법은 정확도를 훼손하지 않으면서 속도를 높이는 방법으로 가장 효율적인 방법이라 할 수 있다. 그러나 이 방법 역시 앞의 두 방법과 마찬가지로 적용할 수 있는 데이터 크기가 제한적이다.

이러한 병목현상을 없애기 위해서 동적 일관성(Dynamical Consistency) 개념을 도입하여 특징(feature) 공간에서 분석 속도를 높이는 고속 커널 퀀타일 군집화 방법을 제안한다. 제안된 방법은 라벨링 단계의 시간을 효과적으로 줄이면서 평형 기반(Equilibrium-based) 방법의 장점을 그대로 가지게 된다. 또한 동적 시스템의 특징으로 인해 병렬화가 가능해서 계산 시간을 더 줄일 수 있고, 평형 기반(Equilibrium-based) 방법의 귀납성도 강화될 수 있다.

퀀타일 함수

는 n차원의 데이터를 양의 실수로 보내는 함수로 데이터 분포의 서포트를 측정한다. 이것은 다음과 같이 m개의 연결된 서로소 집합으로 나누어진다.

여기서

는 연결된 서로소 집합으로 f에 의해서 결정되어지는 m개의 군집에 각각 해당한다. 도 1은 군집화되기 전의 데이터 샘플들을 나타낸 도면이며, 도 2는 수학식 1의 군집화 과정에서 데이터 샘플의 군집 경계를 나타낸 것이다.

전통적인 퀀타일 군집화 방법에서 퀀타일 함수는 서포트 벡터 도메인 기술(Support Vector Domain Description: SVDD) 방법에 의해서 생성된다. SVDD 방법은 데이터 점들을 고차원 특징 공간으로 사상시키고, 이 특징 공간에서 대부분의 데이터를 포함하는 최소 반지름 구를 찾는 방법을 사용한다. 이렇게 찾아진 구는 다시 데이터 공간으로 역사상되면 각각의 군집을 나타내는 m 개의 닫힌 집합으로 나뉘어 진다.

가우시안 커널

을 가지고 SVDD 방법으로 학습된(Trained) 커널 퀀타일 함수(서포트(support) 함수로도 칭함)를 구하면 다음과 같다.

여기서

는 서포트 벡터,

,

는 서포트 벡터들의 계수이다. 여기서 제안되는 방법은 SVDD에만 국한되는 것이 아니라 데이터를 통해서 실험적으로 퀀타일 함수를 구하는 모든 방법에 적용될 수 있다. 그 중의 하나로 다음과 같은 가우시안 프로세스의 분산 함수로부터 생성되는 가우시안 프로세스 퀀타일 함수가 있다.

여기서 K는 양의 한정 공분산 행렬(positive definite covariance matrix)로

이고

이다. 일반적으로 사용되는 공분산(covariance) 함수는 수학식 4로 나타낼 수 있다.

여기서

는 모델 선택 기법에 의해 결정되는 hyper-parameter이다. 또한 mean-shift 기법이라 불리는 Parzen window나 그것의 sparse version도 퀀타일 함수로 사용될 수 있다.

2.2. 군집 할당

수학식 1에서 표현된 군집들은 자동적으로 데이터들의 군집을 할당하지 않는다. 데이터 공간에서 군집 경계선이 직접적으로 명백하게 만들어지는 것이 아니기 때문이다. 즉 각각의 데이터 쌍인

와

가 같은 경계선 안에 있는지 알아내는 것이 문제가 된다. 퀀타일 군집화 방법은 두 데이터가 다른 경계선 안에 존재할 경우 두 점을 잇는 선이 항상 데이터 공간에서 경계선을 벗어나게 되고, 이는 Feature공간에서 최소 반지름 구를 벗어난다는 것을 의미한다는 점을 이용한 간접적인 방법을 이용하여 각 데이터 쌍이 같은 군집에 있는지 여부를 결정한다.

지금까지 몇 가지 군집 라벨링 방법이 제안되어 왔다. 그 중 Complete Graph(CG) 방법은 각 데이터 쌍 x_i와 x_j 사이에서 인접 행렬(adjacency matrix) A_ij를 수학식 5와 같이 생성한다.

즉 두 데이터를 연결하는 라인에 있는 몇 개의 데이터들의 퀀타일 함수값이 최소 반지름 r보다 작을 경우에는 1이 되며, 이것은 두 데이터가 같은 군집에 속해 있다는 것을 의미한다. 반대로 퀀타일 함수값이 최소 반지름 r보다 큰 데이터가 라인상에 하나라도 존재할 경우에는 0이 되며 이는 두 데이터가 다른 군집에 속해 있다는 것을 의미한다. CG 방법은 모든 데이터 쌍들에 대해서 각각의 데이터가 같은 군집에 속하는지 여부를 확인해야하기 때문에 매우 계산 복잡도(

)가 커서 대용량 데이터에 적용하기는 비효율적이다. CG 방법의 계산 복잡도를 줄이기 위하여 종래 기술에서는 근접 그래프(proximity graph) 방법을 적용하였다. 이 방법에서, 근접 그래프의 각 점들은 데이터를 의미하고, 유사도와 이웃함에 따라 두 점간에 모서리를 연결한다. 그리고 그래프에서 연결된 모서리에 대해서만 퀀타일 함수 값을 확인한다.

도 3은 각각의 종래 군집화 방법에서 인접 행렬을 구축하기 위해 사용된 그래프를 나타낸다. 종래의 군집화 방법에서 제안된 근접 그래프는 delaunay diagram (DD), minimum spanning tree (MST), k-nearest neighbor (KNN)이 있다. 도 4는 각각의 종래 군집화 라벨링 방법을 이용한 퀀타일 군집화 결과를 나타낸 도면이다. 도 4에서, MST와 KNN 방법으로 군집화를 했을 때 도 2에 도시된 실제의 경계선과 다르게 잘못 군집화된 경우가 도시되어 있다. 종래의 군집화 방법들은 중요한 모서리들을 놓칠 가능성이 있기 때문에 도 4와 같은 결과가 나올 수도 있다.

이러한 근접 그래프 기반 방법의 단점을 해결하기 위하여, 학습된 퀀타일 함수의 위상학적 특징을 이용한 평형 벡터기반 군집 라벨링(equilibrium vector-based cluster labeling: (EVC)) 방법을 제안하였다. EVC는 두가지 단계로 이루어진다. 첫 번째 단계는 퀀타일 함수 와 연관된 다음의 동적 시스템에 따라서 주어진 데이터를 몇 개의 서로소 집단으로 나누는 것이다.

여기서 G(x)는 모든 데이터

에 대해서 positive definite symmetric matrix이다.

가 수학식 5에 기초한 동적 시스템과 관련된 시간 t와 시작점 x에 대한 함수라고 할 때, 각 초기값

에 대해서 유일한 해가 존재한다는 것은 함수 f가 두 번 미분가능하고

의 norm이 bounded되어 있다는 것으로 보장된다.

를 만족하는 상태(state) 벡터

를 수학식 5에 의해 구축된 동적 시스템의 평형벡터(equilibrium vector)라고 한다.

에서 F의 Jacobian 행렬

이 0인 고유값이 없을 경우

를 Hyperbolic 하다고 한다. Hyperbolic Equilibrium Vector

는 (i) Hessian의 모든 고유값이 양수일 경우 상태 평형 벡터(Stable Equilibrium Vector; SEV)라고 하며, (ii)그렇지 않을 경우 불안정 평형 벡터(Unstable Equilibrium Vector; UEV)라고 한다. 여기서 SEV는 퀀타일 함수 f의 국소 최소값에 해당한다.

귀납적 학습을 위한 EVC에서 중요한 개념으로 수학식 5의 동적 시스템과 관련된 베이신 셀(Basin Cell)이 있다. SEV s의 Basin of attraction은 수학식 5의 동적 시스템이 수행됨에 따라 수학식 7과 같이 s로 수렴하는 모든 점들의 집합을 의미하며,

SEV s의 베이신 셀이란 베이신

의 Closure로서 정의되며

로서 수학식 8과 같이 나타낸다.

베이신 셀의 경계는

로 나타낸다.

베이신 셀의 좋은 특징 중 하나는 전체 데이터 공간이 어떤 조건 하에서는 몇 개의 SEV의 베이신 셀로 분할될 수 있다.

여기서

는 수학식 5에 기초한 동적 시스템의 SEV들의 집합이다. 그러므로 전체 데이터 공간은 베이신 셀로 분할할 수 있다. 모든 데이터 점들이 수학식 5의 동적 시스템에 의해서 특정 SEV로 수렴하므로 SEV들을 찾아냄으로써 베이신 셀을 파악할 수 있다. 이후 두 번째 단계에서는 도 4에 도시된 바와 같이 SEV들만 인접(adjacency) 행렬을 이용하여 라벨링하거나, 전이 평형 벡터(Transition Equilibrium Vector; TEV)를 이용하여 전체 데이터 공간을 라벨링한다. 또한 이 방법은 수학식 1에서 군집

가 다음 수학식 7에서와 같이 보다 확대된 군집

로 확장될 수 있는 방식을 제공해 준다.

여기서 Sik는, 군집

에 있는 모든 SEV들을 나타낸다. 결과적으로 전체 데이터 공간은 다음과 같이 더 확대된 군집으로 나누어질 수 있다.

그러므로 군집 경계선 밖에 위치한 bounded support vector들 뿐만 아니라 학습에 사용되지 않은 데이터에 대해서도 도 4에 도시된 바와 같은 귀납적인 군집 라벨링을 할 수 있게 된다.

이러한, 특히 종래의 군집화 방법 중 복잡도가 특히 개선된 평형 기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법(문헌 1)에 있어서도, 각각의 데이터 샘플에 대하여 평형 벡터를 산출함으로써 복잡도가 증가하게 되어 대용량의 데이터 샘플을 군집화하는 경우 시스템의 성능에 따라 처리가 지연되는 문제점이 있었다.

문헌 1: 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인 군집화 방법 (한국특허 등록 번호:895261)

따라서, 본 발명의 과제는 문헌 1의 군집화 처리 과정 중에 있어서, 모든 데이터 샘플들을 복수의 작은 구에 포함되도록 분류시키고 이들 각 작은 구에 대하여 sev를 산출함으로써 복잡도를 현저히 감소시켜 군집화 처리 속도를 향상시킨 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명에 의한 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법은,

포지션별로 분류된 데이터 샘플들을 포함하며, 일정한 머징 파라미터를 갖는 복수의 작은 구를 형성하는 단계;

상기 작은 구들의 중심값을 초기값으로 하며 산출한 퀀타일 함수의 동적 시스템을 이용하여 상태 평형 벡터를 산출하는 과정; 및

상기 작은 구를 하나의 샘플 데이터로 대응시켜 상기 작은 구를 군집화하는 과정;을 포함함을 특징으로 한다.

또한, 상태 평형 벡터를 산출하는 단계는

상기 작은 구들의 중심 점들만을 상태 평형 벡터에 도달할 때까지 반복적으로 동적 시스템에 적용시켜 산출함을 특징으로 한다.

본 발명은 모든 데이터 샘플들을 복수의 작은 구에 포함되도록 분류시키고 이들 각 작은 구에 대하여 sev를 산출하여 군집화시킴으로써 정확도를 종래와 거의 동일하게 유지하면서, 복잡도가 현저히 감소시키고, 군집화 처리 속도를 향상시킨 군집화 방법을 제공한다.

도 1은 군집화되기 전의 데이터 샘플들을 나타낸 도면이다.
도 2는 군집화 과정에서 데이터 샘플의 군집 경계를 나타낸 도면이다.
도 3은 각각의 종래 군집화 방법에서 인접 행렬을 구축하기 위해 사용된 그래프를 나타낸다.
도 4는 각각의 종래 군집화 라벨링 방법을 이용한 퀀타일 군집화 결과를 나타낸 도면이다.
도 5는 종래 방법들과 본 발명에서의 다양한 데이터 크기에 따른 군집화 처리 시간을 나타낸 그래프이다.
도 6은 종래 방법들과 본 발명에서의 머징 파라미터에 따른 시간과 정확도 변화를 나타낸 그래프이다.
도 7a 내지 도 7e는 종래와 본 발명의 군집화 방법을 적용시 원 이미지에 대한 각각의 이미지 세분화 결과도이다.
도 8a 내지 도 8e는 종래와 본 발명의 군집화 방법을 적용시의 머징 파라미터 별 각각의 이미지 세분화 결과도이다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 일실시예를 설명하기로 한다.

1. 동적 일관성(dynamical consistency)을 이용한 고속 커널 퀀타일 군집화 방법

계산의 복잡도 측면에서 볼 때, SEV 라벨링은 학습 데이터 샘플 크기를 고려했을 때 적당한 계산 시간 안에 이루어진다. 전체 데이터 개수에 비해서 SEV의 수는 대체적으로 매우 작기 때문이다. 그러나 N개의 모든 학습 데이터에 대해서 각 데이터에 해당하는 SEV를 찾아야 하는 과정이 N의 크기가 매우 클 때는 상당한 계산 시간을 요구한다. 하나의 데이터에서 SEV를 찾는 것은 퀀타일 함수의 최소값을 찾는 과정이 포함되며 이것의 계산 복잡도는

이 된다. 따라서, N개 데이터 각각의 SEV를 찾는 경우의 계산 복잡도는

가 된다. 이러한 점이 평형(equilibrium) 기반의 군집화가 이미지 세분화와 같은 대용량 데이터 문제에는 적용되기 어려운 이유이다. 이러한 한계를 극복하기 위해서 비슷한 동적 행동성향을 가지는 데이터들을 단계적으로 그룹핑해서 라벨링 과정에 걸리는 시간을 줄일 수 있는 새로운 방법을 제안한다.

1.1. 초기 단계: 작은 구(small ball) 형성

저밀도 분리 원칙(Low density separation principle)에 기초한 대부분의 군집화 알고리즘은 metric norm과 같은 유사도를 측정해서 이 유사도에 따라 가까운 데이터들은 같은 군집에 포함시킨다. 초기 단계에 군집화 과정을 촉진시키기 위해서 전체 데이터 샘플

을 다음과 같이 작은 구로 나눈다.

여기서

는 미리 정해놓은 merging 파라미터이고 데이터들은 중심값을 초기치로 갖는 각각의 작은 구에 들어가게 된다. 각 데이터 세트마다 데이터값의 크기가 상이하므로 데이터값에 대하여 정규화가 수행되며,

값은 정규화된 데이터 공간에서 선택된다. 각각의 구

는 다음과 같은 두 가지 범주 중의 하나에 포함된다.

(ⅰ) (Case Ⅰ): 작은 구가 확대된 군집 안에 있는 경우이다. 이 경우에는 작은 구 안에 있는 전체 데이터에 수학식 5의 동적 시스템을 적용시키면 각각의 SEV에 도달하며 이 SEV들은 작은 구가 베이신 셀에 의해 나누어지느냐에 따라 서로 다른 SEV로 갈 수도 있다. 그러나 모든 SEV들은 같은 군집

에 속하게 된다. 그러므로 작은 구의 중심인

의 SEV만 찾아서 라벨링해주고 작은 구 안의 다른 모든 데이터들은 수학식 5의 동적 시스템을 적용시킬 필요 없이 그것과 같은 군집으로 넣어주면 된다.

(ⅱ) (Case Ⅱ): 작은 구가 확대된 군집 경계에 있는 경우이다. 이 경우에는 작은 구 안에 있는 데이터 중 일부가 다른 군집에 속하는 SEV로 갈 수 있다. 그러나 퀀타일 함수가 Low density separation principle에 의해서 만들어졌기 때문에 군집의 경계는 일반적으로 낮은 분포를 가지고 있고 그래서 작은 구 안에 데이터가 거의 없거나 존재하지 않을 것이다. 그러므로 이것은 무시할 수 있는 라벨링 오류이다. 만약 nonseparable 군집화 문제일 경우에도 군집 경계 근처에 있는 데이터들은 원래의 방법을 이용해도 올바르게 라벨링되기 힘들며, 실험적으로 성능 차이가 미미하다는 것을 보여준다.

1.2. 메인 단계: 작은 구 병합

이제

라고 정의하자. 그러면

은

인 열린 집합이 되고 이것은 거의 모든 데이터가

안에 존재한다는 것을 의미한다. 동적 시스템 (5)는 완전히 안정적이기 때문에, 즉 수학식 6과 같은 결과가 나오므로 다음과 같은 결과를 얻을 수 있다.

증가하는 양의 배열

에 대해서 다음과 같은 성질을 가지고 있다.

그러므로

에 있는 점들은 시간 스텝

가 증가할수록 점점 서로 가까워진다. 같은 SEV로 수렴하는 점들을 동적으로 일관적인 점들(dynamically consistent points)이라고 칭하며, 동적으로 일관적인 점들을 초기 단계에 병합한다면 라벨링 효율성이 크게 증가한다.

이러한 관찰을 바탕으로 메인 단계에서는 작은 구들을 각 반복

마다 다음과 같이 병합한다.

(ⅰ) 수학식 5의 동적 시스템을 미리정한 시간 스텝

에 도달할 때까지 각 중심

에 적용시켜

를 구한다.

(ⅱ) 데이터 집합

을 다음 수학식 15에서 표현되는 바와 같이 몇 개의 작은 구로 나눈다.

그러면 집합

는 새로운 작은 구들의 중심으로 감소한다.

수학식 5의 동적 시스템의 단순한 수치적분(또는 steepest desent methods)를 적용하면 지그재그하는 현상을 보이며 선형적인 수렴 속도를 보인다. 프로세스 시간을 좀 더 신속하게 하기 위해서 수학식 5에서 G를 무엇으로 하든지 군집화 성능에 영향을 주지 않는다는 점을 이용해서 SEV로 더 빨리 수렴할 수 있는 G를 선택할 수 있다.

또한, 후술되는 바와 같이 수학식 5의 시스템을 수치적으로 이산화하는 전략이 두 가지 잘 알려진 수치 최적화 방법인 선형 탐색과 Trust Region 방법과 서로 연결됨을 보이면서 고속 퀀타일 군집화 방법이 적용될 수 있음을 알 수 있다.

3.2.1. 선형 탐색 방법과의 연결

선형 탐색 방법은 다음과 같은 수학식 16과 같은 반복식이 주어진다.

여기서 탐색 방향

는 감소하는 방향이고(즉,

), 스텝 크기

는 광역 수렴을 보장하기 위하여 다음의 Wolf Condition을 만족하는 값을 선택한다.

(ⅰ)

(ⅱ)

,

한편 수학식 5의 시스템의 단순한 수치 이산화 전략은 다음과 같다

이것이 선형 탐색 방법과 어떻게 연결되는지 보여주기 위해서 탐색 방향 P^k가 다음과 같은 형태임을 보여주어야 한다.

여기서 G^k는 symmetric positive definite matrix이다. 이것은 만약

가 감소하는 방향이면, 즉 모든 x에 대해서

이면,

와 같은 smooth한 Riemannian metric G가 존재한다는 정리에 의해서 쉽게 증명된다.

3.2.2. Trust Region 방법과의 연결

다음과 같은 수학식 5의 시스템의 1차 선형 형태를 이용한 수치 이산화 전략을 구축한다.

만약에

를 이용하면 다음과 같은 반복식을 얻을 수 있다.

이것은 다음과 같은 Trust Region 문제의 해와 같은 형태를 가진다.

스텝 크기

를 구하기 위해 Trust Region 전략을 사용하면 Trust Region 알고리즘을 얻을 수 있다.

G를 선택하는 문제에 대해서는 우선, 처음 몇 번(예를 들어 3 또는 5)의 반복에서는

를 이용한다(즉, steepest desent method를 이용한다). 작은 구들을 병합하는데는 일차 미분 정보만 있으면 충분하기 때문이다. 이는 상대적으로 큰 샘플 데이터에 적용될 때

를 구하는 계산 시간을 줄일 수 있다. 이후 중용량 문제에는 BFGS 업데이트 식을 이용하는 선형 탐색 방법을 쓰고 Newton-CG 업데이트 방식을 이용한 Trust Region 방법을 사용한다. 선형 탐색 방법과 Trust Region 방법은 몇 가지 조건하에서 국소 최소값에 광역 수렴한다.

1.3. 종료 조건

만약 s가 수학식 5의 시스템의 SEV이고, 자코비안 행렬

의 모든 아이겐 벨류 λ_j에 대해서

이면, 주어진

에 대해 모든

에서 동적 시스템 (5)의

가 다음을 만족하게 하는

가 존재한다.

이것은 수학식 5의 시스템이 가까운 점들에 적용될 때 SEV로 급수적으로 수렴한다는 것을 의미한다. 그러므로 종료 조건으로 중심 점

가 k번째 반복에서

을 만족하는지 확인한다.

2. 구현

상술된 방법의 각 단계별 알고리즘과 시간 복잡도 분석 결과를 보여준다. 또한 본 발명의 방법과 기존 방법의 차이점을 제시한다.

2.1. 알고리즘

본 발명의 군집화는 전체 데이터 샘플을 작은 구로 나누는 것으로 시작된다. 알고리즘 1은 초기 구를 나누는 알고리즘으로 각 구의 중심을 업데이트할 필요가 없다.

Algorithm 1 : 데이터를 작은 구로 분할하기

주어진 데이터

에 대하여

//구의 개수와 중심점들의 집합, 중심 색인

while

do

에서 임의의 점

를 선택한다.

if 주어진 merging 파라미터

에서

를 만족하는

가 존재

then

end if

end while

여기서, 알고리즘 1이 처음에는 초기 중심으로부터 모든 점과의 거리를 계산해야하지만 반복이 계속 될수록 계산이 크게 줄어든다. 왜냐하면 이미 계산된 중심과 샘플사이의 계산은 제외되기 때문이다. 또한 본 알고리즘 1은

번 반복하지 않고 평균

번 반복을 하게 된다. 그러므로 알고리즘 1의 전략은 결과로 나온 중심의 개수가 적을 때 초기 구와 중심을 만들기에 충분히 빠르다.

여기서, 이미 동적 시스템과 관련된 퀀타일 함수

를 구하였다. 그리고 나서

를 이용하여 위에서 구해진 중심점들의 SEV를 다음과 같은 알고리즘으로 찾는다.

Algorithm 2 : 중심점들의 SEV 찾기

//SEV의 개수와 SEV 집합, 반복

while

do

for

do

수치적으로 (5)를 적분해서

에서

로 이동

if

// 국소적 최소값에 수렴 then

if

// 새로운 SEV를 생성 then

else

이고

한

를 찾는다;

end if

else

end if

end for

subroutine : 중간 병합

for

do

if

then

else if

then

end if

end for

end subroutine

end while

제안된 방법에는 두 가지 종류의 중간 병합 단계가 있다. 만약 SEV가 merging 파라미터

보다 가까이에 존재하면 중심점은 이미 SEV에 수렴한 것으로 간주한다. 이러한 과정을 ‘Attraction'이라고 한다. 만약 다른 중심점이 merging 파라미터보다 가까이에 있을 경우에는 이 중심점들을 병합해서 하나로 만든다. 이러한 과정을 'Joint'라고 한다. 이러한 중간 병합 단계를 거쳐, 동적 일관성을 지닌 점들의 수렴 속도를 더욱 증가시킬 수 있다. 중간 병합 단계에서 초기 merging 파라미터와 다른 merging 파라미터 ρ'를 쓸 수도 있고 반복이 증가할수록 크기가 감소하는

를 사용해서 병합 단계에서 다른 SEV로 수렴하는 것을 방지할 수도 있다. 그러나 SEV들은 데이터 공감에서 서로 떨어져 있기 때문에 반복 후에도 가까이에 있는 중심점들은 거의 확실하게 같은 SEV에 수렴하게 된다.

중심점들로부터 SEV를 모두 얻은 다음에 각각의 SEV들의 인접(adjacency) 행렬을 이용하거나, ㅈ저전이 평형 벡터(TEV)를 이용해서 라벨링할 수 있다. SEV들의 수는 원래의 데이터 수보다 매우 적으므로 계산 시간이 줄어들게 된다. SEV들의 Labeling이 끝나면 전체 데이터에 대한 Labeling을 쉽게 할 수 있다. 각 중심점과 같은 구에 포함된 데이터들은 중심점들이 수렴하는 SEV와 같은 군집에 속하게 되는 것이다.

2.2. 고속 커널 퀀타일 군집화 방법의 복잡도 분석

도 5는 종래 방법들과 본 발명에서의 다양한 데이터 크기에 따른 군집화 처리 시간을 나타낸 그래프이며, 도 6은 종래 방법들과 본 발명에서의 머징 파라미터에 따른 시간과 정확도 변화를 나타낸 그래프이다.

작은 구로 분할하는 단계(알고리즘 1)와 중간 병합 단계(알고리즘 2, 16-24)의 시간은 반경(radius) 파라미터, 중심의 개수에 의존한다. 분할 단계에서

가 0에 가까워질 때 가장 안 좋은 복잡도

를 가진다. 왜냐하면 이 경우에 모든 샘플이 중심이 되고 모든 샘플들간의 거리를 계산해야 되기 때문이다.

가 전체 데이터 공간을 덮을 만큼 클 경우 복잡도는

이 된다. 왜냐하면 도 6에서 도시된 바와 같이 매우 적은 점들이 중심점이 되기 때문이다. 그러나 표 1에서 나타난 실험결과에서, 기본적인 계산이 단순한 유클리디안 거리를 계산하는 것이기 때문에 이것은 다른 단계들에 비해 무시할만한 복잡도이다. 중간 병합 단계 역시 이 단계에서 계산해야 되는 중심점들과 SEV가 매우 적기 때문에 무시할만한 복잡도를 가지게 된다. 가장 시간이 오래 걸리는 Labeling 단계의 복잡도는 각 중심들에 대한 수치적 적분이 필요하다. 각 반복시에 gradient 정보가 사용되기 때문에, N_c가 중심점의 개수이고 d가 데이터의 차원일 때 O(N_cd)만큼의 복잡도를 가진다.

데이터의 개수가 증가하면 할수록 데이터 점들이 모든 데이터 공간에 퍼져 있을 가능성이 높아 중심의 수도 증가할 수 있지만 그것은 데이터 크기에 로그 선형적이며 데이터 크기에 상관없이 어떤 상수 k보다 작은 수로 제한되어 있다.

DFS 알고리즘에 의한 인접(adjacency) 행렬을 이용한 SEV의 군집 배정과 각 데이터 샘플의 군집 배정은 O(N_s)과 O(N)의 기본적인 계산 시간이 소요된다. 이것은 실질적으로 무시할만하다. 그러므로 제안된 방법의 총 계산 복잡도는

에 제한되고 데이터 크기에 로그 선형적으로 증가한다. 이것은 대용량 데이터에 적용할 경우에 매우 효율적이다. 여기서 좀더 sparse하고 빠른 훈련방법인 CVM 이나 CBSVM를 이용하여 복잡도를 더 감소시킬 수도 있다.

2.3. 고속 커널 퀀타일 군집화 방법의 특징

제안된 방법과 기존의 방법들의 차이점은 다음과 같다.

(ⅰ) 빠른 귀납적 군집화: 데이터 샘플에 포함되어 있지 않은 데이터가 주어졌을 때, 제안된 방법은 새로운 데이터에서 가장 가까운 중심이

보다 가까울 경우(대부분은 이 경우에 속한다.) 바로 Labeling을 할 수 있다. 만약 새로운 샘플이 새로운 중심이 되어야 하는 경우에도 수치적으로 적분을 하며 SEV를 찾는 과정에서 기존의 중심이나 SEV와의 거리를 계산하면서 좀더 빠르게 Labeling할 수 있다.

(ⅱ) 강건성: SEV는 상대적으로 데이터 공간에서 떨어져있기 때문에 제안된 방법은 merging 파라미터의 작은 변동에도 Labeling 정확도가 강건하다. 이것은 기계 학습 알고리즘에서 필요한 특성이며 Low Density Separation Principle과 5장의 실험적인 결과로 뒷받침된다.

(ⅲ) 병렬화: 중간 병합단계를 건너뛸 경우에, 각 중심점들은 다른 중심점들이 어디에 수렴하는지에 상관없이 각자의 SEV에 수렴하게 된다. 이것은 병렬화를 통해 제안된 방법의 속도를 더 높일 수 있다는 것을 의미한다. 각각의 머신에 커널 퀀타일 함수와 중심점들을 나누어서 주면 각자 돌아가게 된다는 것이다. 기존의 다른 방법들, Spectral Clustering, K-means, SVC, Kernel Clustering에서는 다른 점들간에 서로 의존하기 때문에 병렬화가 불가능하다.

이하 표 1 내지 3은 본 발명의 방법의 벤치마트 데이터 세트에 대한 실험결과와 이미지 세분화 적용결과를 나타낸다.

표1은 군집화 시간과 정확도를 나타낸다.

표 2는 각 데이터 세트에 대하여 GPC를 이용한 군집화 시간과 정확도 결과를 나타낸다.

표 3은 다양한 이미지에 대한 이미지 세분화 결과를 나타낸다.

3. 실험 결과 및 고찰

3.1. 벤치마크 결과

본 발명의 군집화 방법은 토이 데이터와 벤치마크 데이터에 대해서 펜티엄 Ⅳ 3.0 GHz 환경에서 수행되었으며, 토이 문제는 다양한 크기의 네 개의 가우시안 분포에서 나온 2D 샘플을 만들었다. 본 발명과 네 개의 다른 라벨링 방법인, Delaunay Diagram(DD), Minimum Spanning Tree(MST), K-nearest Neighbors(KNN), Equilibrium Vector-based Clustering(EVC) 비교하였다. SVDD의 Trained 커널 퀀타일 함수인 수학식 2를 본 발명의 군집화 방법의 퀀타일 함수로 사용되었다.

도 5에 도시된 바와 같이 본 발명의 군집화 방법이 다른 방법에 비해 매우 우수한 결과를 나타냄을 알 수 있다. 이 실험 결과는 시간 복잡도가 DD, MST, KNN의 경우에는 샘플 크기에 이차적으로 증가하고 EVC의 경우 선형적으로 증가하지만 대용량 문제일 때는 모두 수용 가능 한계를 넘어서는 결과를 보인다. 그러나 제안된 방법은 데이터 크기에 로그 선형적으로 증가하며 대용량 문제에 있어서도 안정적으로 돌아가는 것을 볼 수 있다.

Merging 파라미터의 영향을 분석하기 위해서 다양한 merging 파라미터를 이용한 실험이 적용되었다. 네 개의 가우시안 분포에서 10000개의 2D 샘플을 생성하였다. 도 6에 도시된 바와 같이 병합과 라벨링 시간은 merging 파라미터가 작을수록 커졌다. merging 파라미터가 작을수록 중심점이 많아지기 때문이다. 파라미터 값이 어떤 한계점보다 커지면 정확도는 떨어지지만 시간은 파라미터 변화에 민감하지 않았다. 이것은 파라미터 값이 너무 크면 초기 구가 군집에서 온 비슷하지 않은 샘플까지 포함할 가능성이 크기 때문이다. 그러므로 정확도가 라벨링 시간 사이에는 트레이드 오프가 있다. 그러나 merging 파라미터가 현실적인 범위에 속하면 작은 변화에도 성능이 민감하게 변하지 않는다. 따라서, merging 파라미터를 조정하는 것은 중요한 사안이 아니다.

제안된 방법의 전체 군집화 과정에서의 성능을 증명하기 위하여 우리는 다양한 데이터 셋에 대해서 실험을 하였다. ring, four-Gaussians, delta61, oxours, five-Gaussians는 이 분야의 논문에서 자주 사용되는 데이터 세트이며, wine, iris, car, abalone, shuttle은 UCI repository에서 가져왔다. 본 발명의 군집화 방법과 Equilibrium Vector-based Clustering(EVC), Spectral Clustering based on Nystrom method(Spectral), Kernel Clustering(K-SVC) 방법을 비교하였다. 군집화 결과를 평가하기 위해서 널리 사용되는 adjusted rand index(RIadj)를 사용하였다. 제안된 방법의 군집화 시간을 측정할 때는 퀀타일 함수를 생성하는 시간과 병합 시간, 라벨링 시간을 포함한다. 표 1에서와 같이, EVC와 제안된 방법이 다른 방법들에 비해 정확도 면에서 앞서는 것을 알 수 있다. 그러나 군집화 시간 측면에서 보면 제안된 방법이 EVC에 비해서 군집화 속도가 매우 빠른 것을 알 수 있다. 특히 대용량 데이터일 때 제안된 방법의 속도가 크게 줄어드는데 그것은 대용량 데이터일수록 데이터들의 분포가 밀집되어 있어서 제안된 방법의 초기 구를 만들고 병합하는 과정에서 속도가 빨라지기 때문이다.

제안된 방법이 트레이닝 과정을 통해 퀀타일 함수를 구하는 어떠한 퀀타일 군집화 방법에도 적용될 수 있다는 것을 보이기 위하여 가우시안 프로세스 군집화(Gaussian Process Clustering)방법에도 적용시킨 결과, 표 2에서와 같이 제안된 방법을 GPC에 적용시킬 때에도 기존의 정확도는 유지하면서 라벨링 시간은 줄어드는 것을 알 수 있다.

3.2. 이미지 세분화 적용 결과

이미지 세분화에 적용하기 위하여 종래 방법에서 일부 적용되어온 세 개의 이미지를 참조한다. 다른 군집화 방법과 비교한 실험 결과는 도 7에 나타나 있으며, 이미지 정보와 세분화 시간은 표 3에 나타나 있다. 실험 결과를 보면 제안된 방법의 세분화 결과는 비슷한 색깔별로 영역이 잘 나누어졌으며 속도도 다른 방법에 비해 매우 빠른 것을 알 수 있다. Merging 파라미터에 대한 민감도를 알아보기 위한 실험을 해본 결과 도 7과 같이 Merging 파라미터가 클수록 세분화가 보다 더 단순화되며, 세분화 시간은 좀 더 줄어드는 것을 알 수 있다. 그러나 너무 큰 파라미터 값을 쓸 경우 이미지가 너무 단순해져서 중요한 정보를 잃어버릴 가능성이 있다. 그러므로 정규화된 데이터에서 세분화 시간은 줄이면서 세분화 성능도 높이기 위해서 0.1에서 0.3 사이의 값이 바람직하다. 결론적으로 본 발명은 퀀타일 군집화 방법에서 대용량 문제일 경우 정확도는 유지하면서 라벨링 시간을 효과적으로 줄이는 것을 실험적으로 확인할 수 있었다. 특히 본 발명의 군집화 방법이 이미지 세분화와 같은 실제적인 대용량 문제에서도 잘 적용됨을 알 수 있다.

또한, 데이터로부터 실험적으로 구해진 퀀타일 함수로부터 귀납적인 군집화를 하기 위하여 퀀타일 함수와 관련된 동적 시스템을 구축하였다. 그리고 그 시스템의 동적 성질을 활용하여, 비슷한 데이터들을 몇 개의 작은 구로 나누고 그들의 중심점들만을 SEV에 도달할 때까지 반복적으로 동적 시스템에 적용시켰다. SEV점들을 가지고 라벨링을 한 후에 같은 SEV 도달하는 중심점에 포함되는 모든 데이터들의 군집을 결정해 준다. 실험 결과를 통해 대용량 문제에서도 제안된 방법이 정확도는 유지하면서 속도를 증가시키며 잘 적용됨을 알 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

샘플 공간에 존재하는 데이터 분포를 추정하기 위한 퀀타일 함수를 구축하는 단계;
포지션 별로 분류된 데이터 샘플들을 포함하며, 상기 구축한 퀀타일 함수를 이용하여 일정한 머징 파라미터를 갖는 복수의 가상 구를 형성하는 단계;
상기 복수의 가상 구의 중심값을 초기값으로 하며 산출한 퀀타일 함수를 적용한 동적 시스템을 이용하여 상기 복수의 가상 구의 중심점 중 상기 퀀타일 함수를 최소로 만드는 중심점을 결합하는 상태 평형 벡터를 산출하는 단계; 및
상기 복수의 가상 구를 하나의 샘플 데이터로 대응시켜 상기 복수의 가상 구를 군집화하는 단계;를 포함함을 특징으로 하는 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법.
제1항에 있어서, 상태 평형 벡터를 산출하는 단계는
상기 복수의 가상 구의 중심점이 상태 평형 벡터에 도달할 때까지 반복적으로 동적 시스템에 적용시켜 산출함을 특징으로 하는 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법.