KR20160113826A

KR20160113826A - 빅데이터 클러스터링을 위한 Ｋ-Ｍｅａｎｓ 초기 중심 선정 방법

Info

Publication number: KR20160113826A
Application number: KR1020150040010A
Authority: KR
Inventors: 김영주; 문병대; 정민아
Original assignee: 목포대학교산학협력단
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2016-10-04

Abstract

빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 방법이 제공된다. 이 방법은 빅데이터로부터 표본을 추출하는 단계와, 추출된 표본을 K-Means로 클러스터링하여, 다수의 클러스터와 다수의 클러스터 각각의 중심값을 생성하는 단계 및 상기 각 클러스터의 중심값을 상기 빅데이터의 클러스터링을 위한 초기 중심값으로 선정하는 단계를 포함한다.

Description

빅데이터 클러스터링을 위한 Ｋ-Ｍｅａｎｓ 초기 중심 선정 방법{A Method on Initial Seeds Selection of K-Means for Big Data Clustering}

본 발명은 빅데이터 클러스터링에 관한 것으로서, 더욱 상세하게는 빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 방법에 관한 것이다.

K-Means 알고리즘은 구현이 쉽고, 패턴수가 n일 때 시간 복잡도가 O(n)인 장점을 가져 대용량 데이터에서 널리 이용된다.

K-Means 알고리즘은 초기 클러스터 중심의 선정이 무작위로 이루어지고 클러스터 성능은 이 초기 클러스터 중심에 종속적일 수밖에 없다는 한계를 가지고 있다. 이러한 문제를 개선하기 위해서 현재 많은 연구가 진행되고 있다.

현재 진행하고 있는 연구들 중에서, 초기 중심들을 데이터 집합에 고르게 분포시켜 클러스터링의 성능을 개선하는 연구를 살펴보면, 분산도가 높은 중심들을 얻기 위하여 중심 간의 거리를 최대로 하는 방법, 삼각형의 높이를 이용하는 방법, 최대 평균 거리 알고리즘 등을 이용하는 방법으로 초기 중심을 선정하고 있다.

최대, 거리를 이용한 방법은 초기 중심 간의 거리를 최대로 하는 방법으로 실험결과 초기 중심의 일부분이 밀집되는 현상이 발생되었다. 즉, 높은 분포도와 거리가 먼 결과를 도출하였다.

둘째, 삼각형의 높이를 이용하는 방법은 첫째의 바람직하지 못한 경우를 해결하기 위해 삼각형의 높이를 이용한 방법으로 중심 간의 거리 대신 높이를 계산하여 높으면 중심을 대체하는 방법이다. 이 방법 역시, 첫째와 같은 밀집현상이 나타났고 K(클러스터 개수)가 2일 경우 적용할 수 없다는 단점이 도출되었다.

셋째, 최대 평균 거리 알고리즘은 초기 클러스터 중심들을 가능한 멀리 선정하는 것으로 무작위 선정된 초기 클러스터 중심이 일부 영역으로 편향되는 현상을 막을 수 있고, 이에 따라 클러스터링 속도 향상과 클러스터의 정확도를 높이고자 하는 방법으로 실험결과 초기 클러스터 중심을 무작위로 선정하는 방식에서 벗어나 초기 중심들을 최대한 멀리 배치함으로써 클러스터링의 정확도가 향상되었고 초기 클러스터 중심에 종속적이던 현상을 해소하여 일관된 결과를 얻을 수 있었다.

그 외에도 임의의 한 패턴을 선택하는 대신 선택된 초기 클러스터에서 색인어와 가중치로 표현되는 세 개의 문서를 선택하여 초기 클러스터 중심 벡터로 설정하는 방법이 있다. 또한, 클러스터간의 분리 크기에서 거리를 고려한다면, 각 최적 중심은 초기 센터를 가질 수 있을 것이라는 점에서 출발한다.

그 외에 통신 보안 시스템에 적용하기 위하여 프로토콜을 대상으로 하는 K-Means 알고리즘을 연구하는데 이를 Two-Party K-Means 클러스터링 프로토콜이라 한다. 기본 아이디어는 문서의 중앙에서 출발하여 중심을 찾는 방법이다.

이와 같이, K-Means 알고리즘은 초기 클러스터 중심에 상당히 종속적이고, 초기 클러스터 중심을 어떻게 선정하는가에 따라 할당-재계산 횟수(클러스터링 시간), 클러스터링 결과(클러스터링 중심의 정확도) 등의 편차가 심하다.

따라서, 본 발명의 목적은 빅데이터의 클러스터링 시간을 줄이고 클러스터 중심의 정확도를 향상시키는 빅데이터 클러스터링을 위한 Ｋ-Ｍｅａｎｓ 초기 중심 선정 방법을 제공하는 데 있다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 빅데이터 클러스터링을 위한 Ｋ-Ｍｅａｎｓ 초기 중심 선정 방법은, 빅데이터로부터 표본을 추출하는 단계와, 추출된 표본을 K-Means로 클러스터링하여, 다수의 클러스터와 상기 다수의 클러스터 각각의 중심값을 생성하는 단계 및 상기 생성된 클러스터의 중심값을 상기 빅데이터의 클러스터링을 위한 초기 중심값으로 선정하는 단계를 포함한다.

본 발명에 따르면, 계통임의추출법을 적용한 K-Means 초기 중심 선정 방법을 제공함으로써, 빅데이터의 클러스터링 시간을 줄이고 클러스터 중심의 정확도를 향상시킬 수 있다.

도 1은 도 1은 본 발명의 일 실시 예에 따른 K-Means 알고리즘의 초기 중심 선정 방법을 구현하기 위한 클러스터링 시스템의 블록 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 빅데이터 클러스터링 방법을 보여주는 순서도이다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

본 발명에서는 K-Means 알고리즘의 초기 중심 선정 방법에 대해 기술한다. 특히, 본 발명에서는 빅데이터에서 효율적인 클러스터링을 위해 계통임의추출법을 적용한 K-Means 초기 중심 선정 방법을 제공함으로써, 빅데이터의 클러스터링 시간을 줄이고 클러스터 중심의 정확도를 향상시키다.

도 1은 본 발명의 일 실시 예에 따른 K-Means 알고리즘의 초기 중심 선정 방법을 구현하기 위한 클러스터링 시스템의 블록 구성도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 클러스터링 시스템(100)은 컴퓨팅 장치일 수 있다.

컴퓨팅 장치는 메모리(110), 프로세서(130) 및 이들을 연결하는 시스템 버스(150) 등과 같은 하드웨어 자원(인스턴스(Instance))을 포함할 수 있다.

상기 컴퓨팅 장치는, 일례로, Amazon EC2에서 Hadoop 병렬 컴퓨팅 환경을 제공하도록 구성될 수 있다. 상기 컴퓨팅 장치의 인스턴스(Instance)는 총 60개로 구성될 수 있고, 대표 인스턴스(Instance)의 사양은 아래의 [표 1]과 같다.

Model	m3.xlarge	Memory(GiB)	15
vCPU	4	SSD storage(GB)	2×40

프로세서(130)는 기능적으로 구분되는 표본 추출 모듈(131), 초기 중심 선정 모듈(133) 및 클러스터링 모듈(135)을 포함할 수 있다.

표본 추출 모듈(131)은 계통추출법에 따라 메모리(110)로부터 입력받은 데이터 세트(Data set)로부터 표본 데이터를 추출하고, 클러스터링을 위해 추출된 표본 데이터를 전처리 한다.

초기중심선정 모듈(133)은 최대 거리 방법, 삼각형 높이 방법 및 최대 평균 거리 방법 중 적어도 하나의 방법을 이용하여 상기 표본 추출 모듈(131)에 의해 전처리 된 표본 데이터를 클러스터링 하고, 클러스터링 된 표본 데이터들의 초기 중심값을 생성한다.

클러스터링 모듈(135)은 상기 초기중심선정 모듈(133)에서 생성한 결과를 초기 중심값으로 빅데이터에 대한 클러스터링을 진행하고, 그 결과를 출력한다.

도 2는 본 발명의 일 실시 예에 따른 빅데이터 클러스터링 방법을 보여주는 순서도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 빅데이터 클러스터링 방법은 표본추출 과정(S210~S240), 초기 중심 선정 클러스터링 과정(S250), 클러스터 결과 생성 과정(S260) 및 K-Means 초기 중심값 선정 과정(S270)으로 구분할 수 있다.

표본추출 과정( S210 ~ S240 )

먼저, 표집 간격(Sampling Interval) k를 계산한다. k는 아래의 수학식 1로 계산할 수 있다(S210).

이어, 0 ~ K 사이의 임의의 표본 e1을 추출한다(S220). 여기서, X > K, e1∈X

이어, 추출된 표본 e1과 상기 표집 간격 k를 이용하여 다음 표본 e2를 추출한다(S230). 다음 표본 e2은 아래의 수학식 2로 계산할 수 있다.

즉, 추출된 표본 e1에 상기 표집 간격 k을 더하여 다음 표본 e2를 추출한다.

이어, 전체 데이터 집합 X보다 작거나 같을 조건(e_i ≤ X, 여기서, i≤n)을 만족할 때까지 상기 단계 S230을 반복한다(S240).

빅데이터는 데이터의 생성량, 주기, 형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집, 저장, 검색, 분석이 어려운 방대한 데이터이다.

이러한 빅데이터의 방대한 데이터를 모두 클러스터링 하기 전에 표본을 추출하여 클러스터링을 하면, 모집단의 평균과 가까울 가능성이 높다.

이러한 이론적 배경은 큰 수의 법칙(Strong Law of Large Number)으로 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계와 확률 분야의 기본개념이다. 즉, 빅데이터에서 무작위로 뽑은 표본의 평균은 빅데이터 전체의 평균을 나타낸다.

결과적으로, 표본을 추출하고 추출된 표본의 평균과 분산을 이용하여 K-Means의 초기 중심을 선정 하는 것은 클러스터링 반복 횟수를 줄이고 전체 클러스터링 연산횟수 감소, 최종 클러스터링 의 정확도 향상 등의 영향을 준다.

계통추출은 체계적 표집(systematic sampling)이라고도 하며, 첫 번째 요소는 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법이다. 모집단의 크기를 원하는 표본의 크기로 나누어 k를 계산한다. 여기서 k는 표집 간격(Sampling Interval)이라고 불린다.

모집단이 3,000,000이고 1,500을 표본으로 추출한다고 가정하면, (3,000,000/1,500=2,000) 임의로 선택된 출발점에서 시작하여 매 2,000번째 마다의 표본을 추출하는 것이다.

초기 중심 선정 클러스터링 과정( S250 )

상기 단계 S240에서, 추출된 다음 표본 e_i가 전체 데이터 집합 X보다 작거나 같은 경우, 지금까지 추출된 표본을 K-Means로 클러스터링 한다(S250).

클러스터 결과 생성 과정( S260 )

이어, i개의 클러스터(C₁, C₂, C₃...... C_i)와 각 클러스터의 중심값(E(X₁), E(X₂), E(X₃)...... E(X_i))을 생성한다(S260).

K- Means 초기 중심값 선정 과정( S270 )

이어, 생성된 클러스터의 중심값을 빅데이터 클러스터링의 초기 중심값(C_init = [E(X₁), E(X₂), E(X₃)...... E(X_i])으로 선정한다(S270).

요약하면, 본 발명은 대용량 데이터에서 계산 속도가 빠르고 군집을 발견하는데 효과적인 K-Means 알고리즘을 이용하여 효율적인 빅데이터 클러스터링을 위한 K-Means 초기 중심 선정을 계통추출법을 사용하여 제안하였다. 이는 방대한 빅데이터를 모두 클러스터링 하기 전에 표본을 추출하여 클러스터링을 할 경우 모집단의 평균과 가까울 가능성이 높다는 큰 수의 법칙에 이론적 근거를 두고 표본을 추출한다. 제안한 방법은 대용량 데이터의 클러스터링 시간을 감소하고 정확도를 향상시킬 수 있다.

이상에서와 같이 본 발명은 상기한 바와 같이 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims

빅데이터로부터 표본을 추출하는 단계;
추출된 표본을 K-Means로 클러스터링하여, 다수의 클러스터와 상기 다수의 클러스터 각각의 중심값을 생성하는 단계; 및
상기 생성된 클러스터의 중심값을 상기 빅데이터의 클러스터링을 위한 초기 중심값으로 선정하는 단계
를 포함하는 빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 방법.
제2항에 있어서, 상기 표본을 추출하는 단계는,
큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 큰 수의 법칙(Strong Law of Large Number)을 이용하여 상기 표본을 추출하는 단계임을 특징으로 하는 빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 방법.