KR20110083209A

KR20110083209A - 다양한 밀도를 갖는 데이터 집합 분석 방법

Info

Publication number: KR20110083209A
Application number: KR1020100003315A
Authority: KR
Inventors: 류근호; 이동규; 이경민; 정석호; 신동문
Original assignee: 충북대학교 산학협력단
Priority date: 2010-01-14
Filing date: 2010-01-14
Publication date: 2011-07-20
Also published as: KR101085067B1

Abstract

본 발명은 다양한 밀도를 갖는 데이터 집합에 대해 다계층 군집화 기법을 이용하여 분석하는 다양한 밀도를 갖는 데이터 집합 분석 방법에 관한 것이다. 이와 같은 본 발명은 초기 사용자 입력 파라미터 값을 설정하는 설정 단계; 상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계; 상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하여 이루어짐으로써, 계층적 자료구조를 사용하면서 군집의 밀도가 전체적으로 다양한 대용량 공간 데이터베이스에서의 효율적인 군집 분류가 가능하도록 한다.

Description

다양한 밀도를 갖는 데이터 집합 분석 방법{METHOD FOR ANALYZING A DATASET WITH VARIOUS DENSITY}

본 발명은 데이터 집합 분석 방법에 관한 것으로서, 특히 다양한 밀도를 갖는 데이터 집합에 대해 다계층 군집화 기법을 이용하여 분석하는 방법에 관한 것이다.

데이터마이닝(Data Mining)이란 대용량 데이터베이스에서 알려져 있지 않은 가치 있는 패턴(pattern)을 발견하기 위한 작업을 의미한다. 연관 분석, 분류, 군집분석 등 여러 데이터마이닝 기법들이 연구되고 있다.

특히, 군집화는 데이터마이닝의 대표적인 기법으로서, 대용량 데이터베이스에서 유사한 특성을 가진 객체들을 각각의 다른 그룹으로 분류하는 작업을 말한다. 최근까지 많은 연구가 활발히 진행되고 있으며, 경제학, 사회학, 지리학, 의학, 유전학 등의 여러 응용 분야에서 다양하게 활용되고 있다.

군집화 기법은 크게 분할적(Partitioning) 군집화, 계층적(Hierarchical) 군집화, 그리고 밀도기반(Density-based) 군집화로 구분할 수 있다.

상기 군집화 기법들 중에서 밀도기반 군집화(density-based clustering)는 현재까지 널리 사용되고 있는 군집화 기법으로서, 낮은 밀도의 지역으로 분리되어 있는 특징 공간(feature space)에서 상대적으로 높은 밀도의 지역을 찾아낸다. 그리고 밀집 지역(dense region)을 형성하는 객체들을 하나의 군집으로 그룹화 한다. 밀도는 특정 반경(Eps) 내 객체들의 수를 계산함으로써 획득할 수 있다. 군집 내 각 객체들은 주어진 반경 내의 최소 이웃의 수(MinPts) 이상이 요구된다. 만약에 두 개의 핵심점이 특정 반경 내에 존재하게 된다면, 이 두 군집들을 결합한다. 핵심객체는 군집들의 골격 구조를 형성하게 되고, 경계점은 그 골격 구조를 덧붙이게 된다. 잡음객체는 군집들을 형성하는 과정에서 제거된다.

도 1은 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 밀도기반 군집화 기법을 이용하여 군집을 분류할 경우의 문제점을 나타낸 도면이다. 왼쪽 고밀도인 군집 주변의 잡음 지역이 오른쪽 저밀도인 군집의 밀도와 동일한 밀도를 가진다. 오른쪽 저밀도인 군집을 분류할 정도로 반경 임계치를 충분히 크게 설정한 결과, 왼쪽의 고밀도인 군집과 이를 둘러싸는 주변 객체들이 하나의 군집으로 생성된다. 그리고 왼쪽 고밀도인 군집을 분류할 정도로 반경 임계치를 충분히 작게 설정한 결과, 오른쪽 저밀도인 지역과 이를 둘러싸는 주변 객체들이 모두 잡음으로 분류된다.

이처럼 종래의 군집화 기법은 군집의 밀도가 다양한 대용량 데이터베이스에서 군집을 분류할 경우, 세밀한 집단의 세분화가 곤란하다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 다양한 밀도를 가지는 군집들을 효율적으로 분류할 수 있는 데이터 집합 분석 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법은, 초기 사용자 입력 파라미터 값을 설정하는 설정 단계; 상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계; 상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하여 이루어질 수 있다.

상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법은, 군집화하기 위한 반경 및 최소이웃수의 임계값을 결정하는 단계; 상기 결정된 값에 따라 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계; 상기 반경 임계값을 상시적으로 조절하여 다양한 밀도를 갖는 데이터 집합에 대해 추가 군집화를 수행하는 단계; 및 상기 다양한 밀도를 가진 군집을 분류할 때마다 트리 노드의 수와 높이를 확장하여 군집을 분류하는 단계를 포함하여 이루어질 수 있다.

본 발명에 따르면, 계층적 자료구조를 사용하면서 군집의 밀도가 전체적으로 다양한 대용량 공간 데이터베이스에서의 효율적인 군집 분류가 가능하다는 효과가 있다.

또한 본 발명은 데이터의 분포 상태나 패턴 등을 찾아내기 위한 모든 시스템에 활용 가능한 효과가 있다.

도 1은 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 밀도기반 군집화 기법을 이용하여 군집을 분류할 경우의 문제점을 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 나타낸 흐름도이다.
도 3은 본 발명의 실시 예에 따른 데이터 집합 분석 방법의 수도코드(Pseudo Code)를 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 성별에 따른 흡연 피해에 대한 데이터집합을 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 암 환자 데이터를 분석하기 위해 2차원 평면 좌표에 데이터의 분포를 나타낸 도면이다.
도 6은 반경(Eps)과 최소 이웃 수(MinPts) 두 개의 매개변수를 이용하여 군집의 밀도를 변경하는 것을 나타낸 도면이다.
도 7은 Eps 임계치를 충분히 크게 설정하여 저밀도인 군집을 분류한 것을 나타낸 도면이다.
도 8은 계층적 트리구조를 이용하여 저밀도인 군집을 분류한 것을 나타낸 도면이다.
도 9는 Eps 임계치를 충분히 작게 설정하여 고밀도인 군집을 분류한 것을 나타낸 도면이다.
도 10은 각각의 발견된 군집들로 하여 완전한 계층적 트리구조를 구성한 것을 나타낸 도면이다.
도 11은 군집의 밀도가 전체적으로 다양한 데이터베이스에서 다양한 밀도를 가지는 군집을 모두 분류한 것을 나타낸 도면이다.

이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

도 2는 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 나타낸 흐름도이다.

본 발명의 데이터 집합 분석 방법은 크게 나누어 5개의 단계, 초기 사용자 입력 파라미터 값을 설정하는 단계(S210); 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계(S220); 분류가 가능한 고밀도 군집이 있는지 확인하는 단계(S230); 추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 단계(S240); 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 단계(S250)를 포함하여 이루어질 수 있다.

도 3은 본 발명의 실시 예에 따른 데이터 집합 분석 방법의 수도코드(Pseudo Code)를 나타낸 도면이다.

도 4는 본 발명의 실시 예에 따른 성별에 따른 흡연 피해에 대한 데이터집합을 나타낸 도면이다. 폐암 발병에 관여하는 여러 가지 원인들 중 두 가지 요인, 흡연량과 흡연기간을 가진 100개의 표본 데이터를 사용한다.

도 5는 본 발명의 실시 예에 따른 암 환자 데이터를 분석하기 위해 2차원 평면 좌표에 데이터의 분포를 나타낸 도면이다. 그래프의 x축은 암 진단 이전에 하루 흡연량(개피/일)을 나타낸 세로축이고, y축은 흡연기간(년)을 나타낸 가로축이다. 데이터는 다양한 밀도를 포함한 2개의 원형 군집을 가진다.

이하 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 상세히 설명하기로 한다. 이하의 설명에서 동작의 주체는 시스템의 제어부나 제어 프로그램 혹은 이와 동등한 수준의 제어수단인 것으로 가정한다.

S210 단계는 초기 사용자 입력 파라미터 값을 설정하는 단계로서, 군집화를 수행하기 위해 정지계수를 포함한 사용자 입력 파라미터를 입력받는다.

도 6은 반경(Eps)과 최소 이웃 수(MinPts) 두 개의 매개변수를 이용하여 군집의 밀도를 변경하는 것을 나타낸 도면이다. Eps는 한 객체로부터 떨어진 거리를 나타내고, MinPts는 어느 군집이 포함하는 데이터 객체의 최소 개수를 뜻한다.

Eps를 결정하기 위해서 k-distance 그래프를 사용한다. 상대적으로 작은 밀도에서 높은 밀도를 가지는 군집을 발견하기 위하여 Eps는 점점 작게 하고 MinPts는 크게 조절한다. 그러므로 Eps에 대한 임의의 정지계수를 설정하여 군집화를 정지한다. MinPts는 계산의 복잡성을 줄이기 고정된 값을 사용한다.

초기 사용자 입력 파라미터 값의 설정이 완료되면, S220 단계에서 밀도기반 군집화 기법을 이용하여 군집을 분류한다.

도 7은 Eps 임계치를 충분히 크게 설정하여 저밀도인 군집을 분류한 것을 나타낸 도면이다. 그 결과, 군집 A는 주변의 잡음객체를 포함하여 하나의 군집으로 분류된다.

도 8은 계층적 트리구조를 이용하여 저밀도인 군집을 분류한 것을 나타낸 도면이다. 루트 노드(root node)는 분할된 군집들에 대한 노드를 가지게 된다.

군집 분류가 완료되면, S230 단계에서 분류가 가능한 고밀도 군집이 있는지 확인한다.

즉, 각각의 독립적인 군집들 중에서 높은 밀도를 포함하는 군집이 있는가를 확인하는 단계를 수행한다. 군집 A는 고밀도인 군집을 포함하고 있으므로 군집을 분류하기 위해 추가적으로 군집화를 수행한다.

S240 단계는 분류가 가능한 고밀도 군집이 있는 경우의 추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 단계로서, 모든 분류가 가능한 고밀도 군집에 대해 상기 S220 단계 내지 S230 단계와 함께 반복적으로 수행되며, 상기 S230 단계에서의 확인 결과, 더 이상 분류가 가능한 고밀도 군집이 없는 경우에는 스킵(skip)된다.

군집 A의 군집화를 수행하기 위해 사용자 입력 파라미터 값을 적절하게 조정한다. 상대적으로 고밀도의 군집을 형성하기 위해서 Eps의 크기를 더 작게 조정한다. 또한 상기 반경 임계치의 조절에 대한 한계점을 설정하여 군집지속여부를 결정할 수도 있다.

도 9는 Eps 임계치를 충분히 작게 설정하여 고밀도인 군집을 분류한 것을 나타낸 도면이다. 그 결과, 군집 B와 그 주변 객체들을 잡음으로 분류한다.

이후에 더 이상 분류할 군집이 없거나 Eps가 정지계수에 다다르면 더 이상 군집화 과정을 수행하지 않는다.

S250 단계에서 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류한다.

도 10은 각각의 발견된 군집들로 하여 완전한 계층적 트리구조를 구성한 것을 나타낸 도면이다. 단말 노드(leaf node) 3과 5를 탐색하여 다양한 밀도를 가지는 군집을 모두 분류한다.

도 11은 군집의 밀도가 전체적으로 다양한 데이터베이스에서 다양한 밀도를 가지는 군집을 모두 분류한 것을 나타낸 도면이다. 다계층 밀도기반 군집화 기법에 의해 분류된 군집정보를 통해 여자가 담배를 피우면 남자보다 폐암에 걸릴 위험이 더 높다는 사실을 확인할 수 있다.

이상에서는 본 발명에서 특정의 바람직한 실시 예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시 예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

Claims

다양한 밀도를 갖는 데이터 집합을 분석하는데 있어서,
초기 사용자 입력 파라미터 값을 설정하는 설정 단계;
상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계;
상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및
계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.
제 1항에 있어서, 상기 설정 단계는
반경(Eps) 및 최소이웃수(MinPts)의 임계값을 결정하는 것을 특징으로 하는 데이터 집합 분석 방법.
제 1항에 있어서, 상기 수행 단계는
추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 재조정 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.
제 3항에 있어서, 상기 재조정 단계는
반경(Eps) 임계값을 상시적으로 조절하는 단계인 것을 특징으로 하는 데이터 집합 분석 방법.
제 4항에 있어서,
상기 반경 임계값의 조절에 대한 한계점을 설정하여 군집지속여부를 결정하는 것을 특징으로 하는 데이터 집합 분석 방법.
제 1항에 있어서, 상기 제 2 분류 단계는
각각의 발견된 군집들로 완전한 계층적 트리구조를 구성하고, 적어도 하나의 노드정보를 이용하여 다양한 밀도를 가지는 군집을 분류하는 것을 특징으로 하는 데이터 집합 분석 방법.
다양한 밀도를 갖는 데이터 집합을 분석하는데 있어서,
군집화하기 위한 반경 및 최소이웃수의 임계값을 결정하는 단계;
상기 결정된 반경 및 최소이웃수의 임계값에 따라 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계;
상기 반경 임계값을 상시적으로 조절하여 다양한 밀도를 갖는 데이터 집합에 대해 추가 군집화를 수행하는 단계; 및
상기 다양한 밀도를 가진 군집을 분류할 때마다 트리 노드의 수와 높이를 확장하여 군집을 분류하는 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.