KR102371812B1 - 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템 - Google Patents

생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템 Download PDF

Info

Publication number
KR102371812B1
KR102371812B1 KR1020190151989A KR20190151989A KR102371812B1 KR 102371812 B1 KR102371812 B1 KR 102371812B1 KR 1020190151989 A KR1020190151989 A KR 1020190151989A KR 20190151989 A KR20190151989 A KR 20190151989A KR 102371812 B1 KR102371812 B1 KR 102371812B1
Authority
KR
South Korea
Prior art keywords
migration
habitat
silhouette
cluster
inflow
Prior art date
Application number
KR1020190151989A
Other languages
English (en)
Other versions
KR20210063634A (ko
Inventor
김성수
강범수
Original Assignee
강원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강원대학교산학협력단 filed Critical 강원대학교산학협력단
Priority to KR1020190151989A priority Critical patent/KR102371812B1/ko
Publication of KR20210063634A publication Critical patent/KR20210063634A/ko
Application granted granted Critical
Publication of KR102371812B1 publication Critical patent/KR102371812B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06K9/6221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • G06K9/6223
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Bioethics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)

Abstract

본 발명은 실루엣 평가 기준을 적용한 클러스터 수 결정과 계산 시간을 최소화하는 빠른 생물지리학적 실루엣 최적화(Rapid Biogeography-Based Silhouette Optimization; RBBSO) 방법 및 시스템에 관한 것으로서, 초기 해들의 실루엣 평가값을 산출하는 단계, 상기 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정하는 단계, 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하고, 상기 유입이주 서식지로 상기 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행하는 단계, 상기 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행하는 단계 및 상기 이주 과정 및 상기 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장하는 단계를 포함한다.

Description

생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템{BIOGEOGRAPHY BASED SILHOUETTE OPTIMIZATION METHOD FOR DATA CLUSTERING AND THE SYSTEM THEREOF}
본 발명은 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템에 관한 것으로서, 보다 상세하게는 실루엣 평가 기준을 적용한 클러스터 수 결정과 계산 시간을 최소화하는 빠른 생물지리학적 실루엣 최적화(Rapid Biogeography-Based Silhouette Optimization; RBBSO) 방법에 관한 것이다.
빅데이터 분석을 위한 데이터 클러스터링 문제에 대하여 기존에 가장 널리 사용된 K-means를 적용하는 경우, 초기값에 민감하고 지역해에 빠질 수 있다. 이와 같이 경우의 수가 많고 복잡도가 높은 NP-complete 문제를 해결하기 위해, 기존 연구들은 데이터 클러스터링 문제에 유전자알고리즘(Genetic Algorithm, GA) 등 휴리스틱 알고리즘을, K-means와 파티클 군집최적화 (Particle Swarm Optimization, PSO) 혼합한 방법을, K-means의 해를 PSO 방법의 초기 해로 사용한 방법을 제안하였다. 또한, 기존 연구들은 인공벌군집(Artificial bee colony, ABC) 방법을 제안하였고, K-means와 BBO(Biogeography Based Optimization) 방법을 적용하여 데이터 클러스터링 문제를 몇 가지 평가 척도로 클러스터 수와 해를 탐색하고자 하였으나, 가장 중요한 이주(migration)와 돌연변이(mutation) 과정의 설명이 생략되어 있다. 또한, 기존 연구들은 K-means로 초기해 군을 생성하고 생물지리학적 최적화 BBO 방법의 초기 해로 사용하여 데이터 클러스터링 방법을 제안하였다.
전술한 바와 같은 대부분의 기존 연구에서는 클러스터 내의 거리(intra-cluster distance)만을 평가 기준으로 사용하였기 때문에 클러스터 수를 사전에 고정된 상태에서 사용해야만 한다.
또한, 기존의 연구에서의 평가 기준은 각 데이터의 거리를 모두 계산하기 때문에 데이터 수가 증가하고 클러스터 수의 증가로 복잡도가 커질 경우 계산시간이 기하급수적으로 증가할 수 있다는 문제점이 발생한다.
본 발명의 목적은 효과적인 데이터 클러스터링 계산 과정을 위해 BBO(Biogeography Based Optimization) 방법의 이주(migration) 및 돌연변이(mutation)를 적용하여 해 탐색을 할 수 있는 빠른 생물지리학적 실루엣 최적화(RBBSO) 방법을 제공하고자 한다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 초기 해들의 실루엣 평가값을 산출하는 단계, 상기 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정하는 단계, 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하고, 상기 유입이주 서식지로 상기 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행하는 단계, 상기 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행하는 단계 및 상기 이주 과정 및 상기 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장하는 단계를 포함한다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템은 초기 해들의 실루엣 평가값을 산출하는 초기 해 산출부, 상기 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정하는 서식지 결정부, 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하고, 상기 유입이주 서식지로 상기 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행하는 이주 수행부, 상기 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행하는 돌연변이 수행부 및 상기 이주 과정 및 상기 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장하는 최적 해 획득부를 포함한다.
본 발명의 실시예에 따르면, 빠른 생물지리학적 실루엣 최적화(RBBSO) 방법을 제공함으로써, 각 클러스터의 중심점(centroid)을 이용한 이주(migration)와 각 데이터의 실루엣 평가값을 고려한 돌연변이(mutation)를 적용하여 계산 부담을 효과적으로 줄이면서 해를 탐색할 수 있다.
도 1은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법의 동작 흐름도를 도시한 것이다.
도 2 내지 도 8은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법에 따라 수행되는 클러스터링 과정을 설명하기 위해 도시한 것이다.
도 9 및 도 10은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법을 적용한 실험 결과를 도시한 것이다.
도 11은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템의 구성을 블록도로 도시한 것이다.
도 12는 본 발명의 실시예에 따른 이주 수행부의 세부 구성을 블록도로 도시한 것이다.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 실시예들은, 실루엣 평가 기준을 적용한 적절한 클러스터 수 결정과 효과적인 데이터 클러스터링을 위해 계산 시간을 최소화할 수 있는 빠른 생물지리학적 실루엣 최적화(Rapid Biogeography-Based Silhouette Optimization; RBBSO) 방법을 제안하는 것을 그 요지로 한다.
NP-complete인 데이터 클러스터링 문제는 휴리스틱 알고리즘 등 다양한 방법으로 최적 해를 탐색할 수 있다. 제안하는 빠른 생물지리학적 실루엣 최적화(RBBSO) 방법은 최적 해로의 수렴을 위한 적절한 이주(migration)와 다양한 해 탐색을 위한 돌연변이(mutation)를 통하여 기존 해들을 적응시켜 좋은 해들을 유지하기 때문에 효과적이다. 특히, 해를 나타내는 서식지(habitat)의 중심점을 통한 이주와 각 데이터의 실루엣 평가값을 고려한 돌연변이는 계산시간을 상당히 감소시켜 해 탐색 효율을 극대화할 수 있다.
이러한 본 발명에 대해 도 1 내지 도 12를 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법의 동작 흐름도를 도시한 것이며, 도 2 내지 도 8은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법에 따라 수행되는 클러스터링 과정을 설명하기 위해 도시한 것이다.
도 1을 설명하기에 앞서, 도 2를 참조하여 본 발명의 실시예에 따른 실루엣 값, 실루엣 평가값, 유출이주율 및 유입이주율을 산출하는 과정을 설명한다.
도 2는 본 발명의 실시예에 따른 초기 해를 도시한 것이다.
n개의 데이터를 K개의 그룹으로 클러스터링하는 데이터 클러스터링은 다음과 같이 수리적으로 정립화할 수 있다. 실시예에 따라서, 각각의 데이터 {xi, i= 1, 2, …, n}가 클러스터 k(k = 1, 2, …, K)에 포함되는 경우, 의사결정 변수 Wik를 1로 표시하고, 그렇지 않은 경우 0으로 표시하여 하기의 [표 1]과 같이 정의할 수 있다. 이때, 데이터 클러스터링 해 표현은 W = {wik}로 나타낸다.
[표 1]
Figure 112019120881453-pat00001
예를 들어 도 2를 참조하면, 각 데이터 xi(a1, a2)는 특징 a1과 a2로 구성되고, 10개의 데이터 {xi, i= 1, 2, …, 10} 즉, x1(1, 6), x2(1, 7), x3(2, 7), x4(5, 1), x5(5, 2), x6(6, 1), x7(6, 2), x8(9, 7), x9(9, 6), x10(10, 7)를 클러스터 수 K = 3으로 클러스터링 한다고 가정하는 경우, [표 1] 및 도 2와 같이 초기 해를 표현할 수 있다.
각각의 데이터가 특정 클러스터 1, 2 그리고 3 중에 한 개에만 포함되는 것을 표시하고, 클러스터 1, 2, 3 각각은 적어도 한 개 이상의 데이터를 포함할 수 있다. 예를 들면, 데이터 x1(1, 6), x2(1, 7), x3(2, 7)은 클러스터 1에, 데이터 x4(5, 1), x5(5, 2), x6(6, 1), x7(6, 2)는 클러스터 2에, 데이터 x8(9, 7), x9(9, 6), x10(10, 7)는 클러스터 3에 포함될 수 있다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 데이터 클러스터링 해를 평가할 때 실루엣(Silhouette) 평가 기준으로 데이터 i에 대한 실루엣 S(xi)를 계산한다.
예를 들어, 클러스터 A에 포함된 데이터와 같은 클러스터 A에 속한 다른 데이터와의 평균 거리를 a(xi)라 가정하면, 클러스터 A에 속한 데이터에서 다른 클러스터 B 및 C의 각 데이터와의 평균 거리는 각각 d(xi, B) 및 d(xi, C)일 수 있다. 이에, b(xi)는 d(xi, B)가 d(xi, C)보다 작으면 b(xi) = d(xi, B)가 된다. 따라서, 데이터 xi의 실루엣 값 S(xi)는 하기의 [수식 1]을 통해 산출할 수 있으며, 하기의 [수식 2]를 통해 모든 데이터 i(xi)에 대하여 S(xi)를 구하여 합한 값
Figure 112019120881453-pat00002
을 데이터 수 n으로 나누어 초기 해 H의 실루엣 평가값을 산출할 수 있다.
[수식 1]
Figure 112019120881453-pat00003
[수식 2]
Figure 112019120881453-pat00004
이때, 실루엣 평가값은 -1 내지 1까지의 범위의 값으로, [수식 2]의 실루엣 평가값을 최대화하는 해를 탐색하고자 한다.
[표 1]의 해를 [수식 1] 및 [수식 2]에 적용하면, 실루엣 평가값이 0.822278이며, 이는 1에 가까운 값으로 좋은 데이터 클러스터링 해에 포함될 수 있다. 만약, -1에 가까우면 그 반대로 좋지 않은 데이터 클러스터링 해일 수 있다.
이에, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 데이터 분석 시, 가장 적절한 클러스터 수를 결정할 때, 실루엣 평가값이 1 에 가장 가까운 해의 클러스터 수 K를 가장 적절한 수로 사용한다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 전술한 방법을 통해 실루엣 평가값을 산출한 후, 서식지 H의 유입이주율
Figure 112019120881453-pat00005
와 유출이주율
Figure 112019120881453-pat00006
을 산출한다.
도 2에 도시된 초기 해(서식지) H의 유입이주율
Figure 112019120881453-pat00007
와 유출이주율
Figure 112019120881453-pat00008
은 하기의 [수식 3] 및 [수식 4]에 따라 결정된다.
[수식 3]
Figure 112019120881453-pat00009
[수식 4]
Figure 112019120881453-pat00010
여기서, E는 최대 유출이주율을 나타내고, I는 최대 유입이주율을 나타낸다. SH는 서식지 H의 종의 수를 나타내며, smax는 서식지에 존재할 수 있는 최대 종의 수(즉, SH 중 최대값을 의미)를 나타낸다. 이때, 종의 수(SH)가 많을수록 해당 서식지 H의 평가값을 좋게 하는 특징을 많이 확보하고 있는 서식지임을 나타낸다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 전술한 수식들을 이용하여 이주 과정을 수행할 수 있으며, 이주 과정이 마무리된 후, 하기의 [수식 5]를 이용하여 돌연변이 과정을 수행할 수 있다.
[수식 5]
Figure 112019120881453-pat00011
여기서, MH는 서식지 H의 돌연변이율을 나타내며, mmax는 사용자가 정의하는 돌연변이 최대 확률치를 나타낸다.
PH는 특정 서식지 H의 실루엣 평가값을, PSUM은 군집 내의 모든 서식지의 실루엣 총합 값(PH의 합)을 사용할 수 있다. 이에, 본 발명에서 [수식 2]의 실루엣 평가값이 좋은 서식지(해)는 가능한 돌연변이 과정을 최소화하여 현재의 해를 유지할 수 있게 하고, 상대적으로 [수식 2]의 실루엣 평가값이 나쁜 서식지(해)는 돌연변이 과정을 통한 다양한 해 탐색을 추구하고자 한다.
다시 도 1을 참조하면, 단계 110에서, 초기 해들의 실루엣 평가값을 산출한다.
단계 110은 앞서 전술한 [표 1] 및 도 2에 도시된 초기 해에서, [수식 1]을 이용하여 동일한 클러스터에 포함된 데이터 간의 평균거리, 및 기준 클러스터와 다른 클러스터의 각 데이터 간의 평균거리를 이용하여 초기 해들의 실루엣(Silhouette) 값(S(xi))을 산출할 수 있다. 예를 들면, 단계 110은 동일한 클러스터 1, 2 또는 3에 포함된 데이터 간의 평균거리 및 클러스터 1과 클러스터 2 또는 3, 클러스터 2와 클러스터 1 또는 3, 클러스터 3과 클러스터 1 또는 2의 각 데이터 간의 평균거리를 이용하여 [수식 1]을 통해 초기 해들의 실루엣 값을 산출할 수 있다.
이후에, 단계 110은 초기 해에서, [수식 2]를 이용하여 모든 데이터에 대해 산출된 실루엣 값의 평균인 실루엣 평가값을 산출할 수 있다.
단계 120에서, 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정한다.
세부적으로, 단계 120의 단계 121은 평가 기준인 실루엣 평가값을 기반으로, 실루엣 평가값에 비례하여 각 클러스터의 유출이주율 및 유입이주율을 산출할 수 있다. 예를 들면, 단계 121은 모든 해의 평가 기준인 실루엣 평가값에 비례하여 [수식 3] 및 [수식 4]를 통해 초기 해(서식지) H의 유입이주율
Figure 112019120881453-pat00012
와 유출이주율
Figure 112019120881453-pat00013
를 산출할 수 있다.
단계 120의 단계 122는 유출이주율 및 유입이주율에 따라, 실루엣 평가값에 비례하는 확률로 유출이주 서식지 및 유입이주 서식지를 결정할 수 있다. 예를 들면, 단계 122은 유출이주율 합계의 유출이주율 확률
Figure 112019120881453-pat00014
로 도 3과 같이 유출이주 서식지를 결정하고, 유입이주율 합계의 유입이주율 확률
Figure 112019120881453-pat00015
로 도 4과 같이 유입이주 서식지를 결정할 수 있다.
BBO(Biogeography Based Optimization) 방법은 각각의 해를 나타내는 서식지(habitat)들이 이주(migration)와 돌연변이(mutation)를 통하여 더 좋은 해를 탐색하고, 나쁜 해를 좋은 해로 변화 또는 적응시켜가는 것이다. 실루엣 평가값이 좋은 서식지는 다른 서식지로부터의 유입이주율(immigration rate,
Figure 112019120881453-pat00016
)을 낮게 하여 현재의 좋은 상태를 유지할 수 있도록 하고, 다른 서식지로 유출이주율(emigration rate,
Figure 112019120881453-pat00017
)을 높게 하여 다른 서식지들이 더 좋은 상태가 될 수 있도록 한다.
단계 130에서, 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하여 비교하고, 유입이주 서식지로 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행한다. 이때, 도 3 내지 도 6을 참조하여 단계 130에서 수행되는 이주 과정에 대해 설명하고자 한다.
세부적으로, 단계 130은 유출이주 서식지 및 유입이주 서식지로 선택된 각 클러스터의 클러스터 평균값을 산출하여 비교하는 제1 단계(단계 131), 유출이주 서식지의 클러스터 평균값 중 하나를 선택하여 유입이주 서식지의 클러스터 평균값과의 거리를 산출하여 가장 가까운 클러스터 평균값을 이주하는 제2 단계(단계 132) 및 교체된 평균값에 따라, 평균값이 이주된 유입이주 서식지의 데이터들 간의 거리를 산출하여 가장 가까운 클러스터에 데이터를 재할당 후, 재 클러스터링하여 새로운 해를 업데이트하는 제3 단계(단계 133)를 포함할 수 있다.
단계 131은 유출이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 랜덤하게 하나의 유출이주 평균 중심점을 선택할 수 있다. 예를 들어 데이터 xi(a1, a2)가 각각 특징 a1과 a2로 구성되고, 10개의 데이터 {xi, i= 1, 2, …, 10}를 클러스터 수 K = 3으로 클러스터링 하는 서식지 H에 대하여 이주 과정을 설명하면, 단계 131은 도 3에 도시된 바와 같이 유출이주율
Figure 112019120881453-pat00018
에 따라 선택된 유출이주 서식지의 각 클러스터의 평균값을 산출할 수 있다. 이때, 도 3에 도시된 유출이주 서식지의 실루엣 평가값은 0.583977이며, 이는 0.5이상으로 좋은 클러스터링 해라 할 수 있다.
이후에, 단계 131은 클러스터 1, 2, 3 즉, 3개의 평균 중심점들 (2.25, 5.5), (5.66667, 1.33333), (9.3333, 6.66667) 중에서 랜덤하게 한 개의 평균 중심점 (5.66667, 133333)을 유출이주 평균 중심점으로 선택한다. 도 3에서 선택된 유출이주 평균 중심점은 클러스터 2의 중심점 역할(동그라미 모양)을 할 수 있다.
또한, 단계 131은 유입이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 유출이주 서식지에서 선택한 유출이주 평균 중심점과의 거리가 가장 가까운 하나의 유입이주 평균 중심점을 선택할 수 있다. 예를 들면, 단계 131은 도 4에 도시된 바와 같이 유입이주율
Figure 112019120881453-pat00019
에 따라 선택된 유입이주 서식지의 각 클러스터의 평균값을 산출할 수 있다. 이때, 도 4에 도시된 유입이주 서식지의 실루엣 평가값은 0.0640678이며, 이는 0에 가까워 좋지 못한 클러스터링 해라 할 수 있다.
이후에, 단계 131은 클러스터 1, 2, 3 즉, 3개의 평균 중심점들 (2.66667, 4.66667), (5.4, 3.8), (9.5, 6.5) 중에서 유출이주 서식지에서 선택한 평균 중심점 (5.66667, 133333)과의 거리(
Figure 112019120881453-pat00020
= 2.481043)가 가장 짧은 한 개의 평균 중심점 (5.4, 3.8)을 유입이주 평균 중심점으로 선택한다. 도 4에서 선택된 유입이주 평균 중심점 (5.4, 3.8)은 동그라미 모양을 나타낸다.
단계 132은 유입이주 서식지에서 선택된 유입이주 평균 중심점을 포함하는 클러스터 평균값을 삭제하고, 유출이주 서식지에서 선택된 유출이주 평균 중심점을 포함하는 클러스터 평균값을 이주할 수 있다. 예를 들면, 단계 132은 도 5와 같이 유입이주 서식지(510)의 선택된 클러스터 2의 유입이주 평균 중심점 (5.4, 3.8)을 삭제하고, 유출이주 서식지에서 선택된 클러스터 2의 유출이주 평균 중심점 (5.66667, 1.33333)을 이주(542)시켜 유입이주 서식지(510)에서 클러스터 2의 평균 중심점(521) 역할을 하도록 할 수 있다.
단계 133은 유입이주 서식지에 이주된 유출이주 평균 중심점을 포함하는 클러스터 평균값에 따라, 유입이주 서식지의 데이터들을 평균 중심점에 근접하게 재 클러스터링하며, 재 클러스터링된 서식지를 새로운 해로 업데이트할 수 있다. 예를 들면, 도 5에 도시된 바와 같이, 단계 133은 데이터들을 이주된 유입이주 서식지의 모든 데이터를 (2.66667, 4.66667), (5.66667, 133333), (9.5, 6.5)의 3개의 평균 중심으로 가까운 곳에 재 클러스터링 하여 도 6과 같이 새롭게 재 클러스터링한 서식지의 각 클러스터의 3개의 평균 중심점 (2.22222, 8.22222), (6.91667, 1.83333), (9.5, 6.5)를 산출할 수 있다. 이때, 도 6에 도시된 재 클러스터링된 서식지를 새로운 해 즉, 실루엣 평가값은 0.822278로 업데이트된 것을 알 수 있다.
즉, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 도 4에 도시된 기존 유입이주 서식지의 실루엣 평가값 0.0640678이 도 6에 도시된 재 클러스터링된 유입이주 서식지의 실루엣 평가값 0.822278으로 향상된 것을 확인할 수 있으며, 이로 인해 도 6의 재 클러스터링된 서식지를 새로운 해로 업데이트할 수 있다.
본 발명의 실시예에 따른 이주 과정의 목적은 좋은 서식지에서 상대적으로 나쁜 서식지로 좋은 특징을 이주시켜 해를 표현하는 서식지들을 더 좋은 해로 변화시켜 만들어 가는 과정이고, 좋은 특징을 이주시킨다고 해서 좋은 인자가 사라지는 것이 아니고 나쁜 서식지에게 좋은 특징 또는 인자를 전달하여 공유하는 것이다.
이주 과정이 수행된 후, 단계 101은 각 서식지에 대하여 돌연변이 과정을 수행할 것이지 여부를 판단할 수 있다.
돌연변이 과정 수행에 따라 단계 140에서, 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행한다.
단계 140은 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터가 소속된 클러스터를 다른 클러스터로 변경하여 가장 낮은 실루엣 평가값을 나타내는 데이터를 돌연변이 수행할 수 있다.
예를 들어 도 7에 도시된 10개의 데이터 예제로 돌연변이 과정을 설명하자면, 단계 140은 [수식 5]를 통해 산출되는 일정 비율의 돌연변이율에 따라 랜덤하게 선택된 서식지(a)의 10개 데이터 중 가장 나쁜 실루엣 평가값 -0.6196의 데이터 x2(1, 7)을 선택(710)하고, 해당 데이터 x2의 현재 소속된 클러스터 2(도 8에 도시된 세모 모양)을 다른 클러스터 1(도 8에 도시된 동그라미 모양)으로 데이터 변경(810)하여 데이터 x2의 실루엣 평가값을 0.6196으로 변경(720)할 수 있다.
이에, 데이터 x2가 클러스터 1의 데이터로 변경된 서식지(b)의 실루엣 평가값은 0.5840이고, 이는 기존 서식지(a)의 실루엣 평가값 0.2963보다 향상된 것을 알 수 있으며, 단계 140은 향상된 새로운 해를 업데이트할 수 있다.
본 발명의 실시예에 따른 돌연변이의 목적은 데이터 클러스터링 문제에 적용할 때 다양한 서식지 탐색을 하기 위한 것인데, 현재의 좋은 서식지의 좋은 특성을 해치지 않는 수렴적 탐색 범위 내에서 다양성을 균형 있게 이룰 수 있도록 한다. 즉, 나쁜 서식지는 돌연변이율을 크게 하여 다양한 탐색을 추구하고, 좋은 해는 돌연변이율을 상대적으로 작게 적용하여 수렴적 탐색을 유지하면서 더 좋은 해를 탐색하고자 시도한다.
돌연변이 과정이 수행된 후, 단계 102는 모든 서식지의 돌연변이 여부를 확인할 수 있다.
모든 서식지에서 돌연변이 과정이 수행된 후 단계 150에서, 이주 과정 및 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장한다.
예를 들면, 단계 150은 이주 과정 및 돌연변이 과정을 통해 가장 나쁜 서식지가 삭제되고 새로운 서식지가 생성되어 업데이트된 최종 서식지의 실루엣 평가값을 산출하고, 현재까지의 최적 해를 저장할 수 있다.
이후에, 단계 103은 최종 종료조건의 만족 여부를 판단하며, 최종 종료조건을 만족하지 못하는 경우, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법은 단계 120부터 다시 과정을 수행할 수 있다. 여기서, 최종 종료조건은 최적 해가 필요로 하는 제한시간 또는 일정 탐색 시도를 수행했으나 더 이상 좋은 해(또는 최적 해)를 탐색할 수 없을 때를 나타낸다.
도 9 및 도 10은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법을 적용한 실험 결과를 도시한 것이다.
도 9는 데이터 수, 특징 수와 클러스터링 하려는 클러스터 수 K를 나타내고, 도 10은 도 9의 데이터에 대하여 최종 해(또는 최적 해)를 실루엣 평가기준으로 평가하고, RBBSO의 실루엣 평가값의 평균(AVG), 표준편차(S.D), 가장 좋은 값(Best)를 10회 실험 비교 분석한 것이다.
도 9 및 도 10을 참조하면, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법(RBBSO)은 0.5 이상의 실루엣 평가값을 나타내며 적절한 해를 탐색하는 것을 확인할 수 있으며, 이를 통해 복잡도가 높고 경우의 수가 커질수록 본 발명과 기존 연구들의 해 탐색 능력에 대한 차별성은 더 커지는 것을 알 수 있다.
또한, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법(RBBSO)은 평균 계산시간의 속도가 기존 연구들 및 기존 방법들에 비해 효율적인 것을 확인할 수 있다. 이와 같이 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법(RBBSO)이 기존 연구들 및 기존 방법들 대비 짧은 계산시간에 해를 탐색할 수 있는 이유는 서식지 간에 이주할 때 각 클러스터의 중심점을 이주하여 적용하기 때문에 일부 데이터를 이주시켜 해를 탐색하기 보다는 각 클러스터의 중심점을 이주시켜 전체 데이터를 고려하여 보다 효과적으로 해를 탐색할 수 있기 때문이다.
즉, 데이터 수가 기하급수적으로 많아질수록 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 방법(RBBSO)의 실루엣 평가값과 계산시간 성능은 더욱 우수한 것을 알 수 있다.
도 11은 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템의 구성을 블록도로 도시한 것이며, 도 12는 본 발명의 실시예에 따른 이주 수행부의 세부 구성을 블록도로 도시한 것이다.
도 11을 참조하면, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템은 이주 과정 및 돌연변이 과정을 통해 최적 해를 획득한다.
이를 위해, 본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템(1100)은 초기 해 산출부(1100), 서식지 결정부(1120), 이주 수행부(1130), 돌연변이 수행부(1140) 및 최적해 획득부(1150)를 포함하며, 제어부(1160)를 더 포함할 수 있다.
초기 해 산출부(1100)는 초기 해들의 실루엣 평가값을 산출한다.
초기 해 산출부(1100)는 초기 해에서, 동일한 클러스터에 포함된 데이터 간의 평균거리, 및 기준 클러스터와 다른 클러스터의 각 데이터 간의 평균거리를 이용하여 초기 해들의 실루엣(Silhouette) 값을 산출하고, 모든 데이터에 대해 산출된 실루엣 값의 평균인 실루엣 평가값을 산출할 수 있다.
예를 들면, 초기 해 산출부(1100)는 동일한 클러스터 1, 2 또는 3에 포함된 데이터 간의 평균거리 및 클러스터 1과 클러스터 2 또는 3, 클러스터 2와 클러스터 1 또는 3, 클러스터 3과 클러스터 1 또는 2의 각 데이터 간의 평균거리를 이용하여 [수식 1]을 통해 초기 해들의 실루엣 값을 산출할 수 있으며, [수식 2]를 이용하여 모든 데이터에 대해 산출된 실루엣 값의 평균인 실루엣 평가값을 산출할 수 있다.
서식지 결정부(1120)는 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정한다.
서식지 결정부(1120)는 평가 기준인 실루엣 평가값을 기반으로, 실루엣 평가값에 비례하여 각 클러스터의 유출이주율 및 유입이주율을 산출하고, 유출이주율 및 유입이주율에 따라, 실루엣 평가값에 비례하는 확률로 유출이주 서식지 및 유입이주 서식지를 결정할 수 있다.
예를 들면, 서식지 결정부(1120)는 모든 해의 평가 기준인 실루엣 평가값에 비례하여 [수식 3] 및 [수식 4]를 통해 초기 해(서식지) H의 유입이주율
Figure 112019120881453-pat00021
와 유출이주율
Figure 112019120881453-pat00022
를 산출할 수 있으며, 유출이주율 합계의 유출이주율 확률
Figure 112019120881453-pat00023
로 유출이주 서식지를 결정하고, 유입이주율 합계의 유입이주율 확률
Figure 112019120881453-pat00024
로 유입이주 서식지를 결정할 수 있다.
이주 수행부(1130)는 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하여 비교하고, 유입이주 서식지로 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행한다.
세부적으로, 이주 수행부(1130)는 유출이주 서식지 및 유입이주 서식지로 선택된 각 클러스터의 클러스터 평균값을 산출하여 비교하는 평균값 비교부(1131), 유출이주 서식지의 클러스터 평균값 중 하나를 선택하여 유입이주 서식지의 클러스터 평균값과의 거리를 산출하여 가장 가까운 클러스터 평균값을 이주하는 평균값 이주부(1132) 및 교체된 평균값에 따라, 평균값이 이주된 유입이주 서식지의 데이터들 간의 거리를 산출하여 가장 가까운 클러스터에 데이터를 재할당 후, 재 클러스터링하여 새로운 해를 업데이트하는 업데이트부(1133)를 포함할 수 있다.
평균값 비교부(1131)는 유출이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 랜덤하게 하나의 유출이주 평균 중심점을 선택하고, 유입이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 유출이주 서식지에서 선택한 유출이주 평균 중심점과의 거리가 가장 가까운 하나의 유입이주 평균 중심점을 선택할 수 있다.
평균값 이주부(1132)는 유입이주 서식지에서 선택된 유입이주 평균 중심점을 포함하는 클러스터 평균값을 삭제하고, 유출이주 서식지에서 선택된 유출이주 평균 중심점을 포함하는 클러스터 평균값을 이주할 수 있다.
업데이트부(1133)는 유입이주 서식지에 이주된 유출이주 평균 중심점을 포함하는 클러스터 평균값에 따라, 유입이주 서식지의 데이터들을 평균 중심점에 근접하게 재 클러스터링하며, 재 클러스터링된 서식지를 새로운 해로 업데이트할 수 있다.
돌연변이 수행부(1140)는 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행한다.
돌연변이 수행부(1140)는 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터가 소속된 클러스터를 다른 클러스터로 변경하여 가장 낮은 실루엣 평가값을 나타내는 데이터를 돌연변이 수행할 수 있다.
최적해 획득부(1150)는 이주 과정 및 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장한다.
예를 들면, 최적해 획득부(1150)는 이주 과정 및 돌연변이 과정을 통해 가장 나쁜 서식지가 삭제되고 새로운 서식지가 생성되어 업데이트된 최종 서식지의 실루엣 평가값을 산출하고, 현재까지의 최적 해를 저장할 수 있다.
본 발명의 실시예에 따른 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템(1100)의 제어부(1160)는 최적해 획득부(1150)에서 최종 종료조건을 만족하지 못하는 경우에 서식지 결정부(1120), 이주 수행부(1130), 돌연변이 수행부(1140) 및 최적 해 획득부(1150)까지의 과정을 반복 수행하도록 제어할 수 있다.
비록, 도 11 및 도 12에서 설명하지 않았지만, 도 11 및 도 12의 시스템은 상술한 도 1 내지 도 10에서 설명한 생물지리학적 실루엣 최적화 데이터 클러스터링 방법에 대한 동작을 모두 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템에 의한 생물지리학적 실루엣 최적화 데이터 클러스터링 방법에 있어서,
    초기 해 산출부에 의해, 초기 해들의 실루엣 평가값을 산출하는 단계;
    서식지 결정부에 의해, 상기 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정하는 단계;
    이주 수행부에 의해, 유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하고, 상기 유입이주 서식지로 상기 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행하는 단계;
    돌연변이 수행부에 의해, 상기 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행하는 단계; 및
    최적 해 획득부에 의해, 상기 이주 과정 및 상기 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장하는 단계를 포함하되,
    상기 유출이주 서식지 및 유입이주 서식지를 결정하는 단계는
    평가 기준인 상기 실루엣 평가값을 기반으로, 상기 실루엣 평가값에 비례하여 각 클러스터의 유출이주율 및 유입이주율을 산출하고, 상기 유출이주율 및 상기 유입이주율에 따라, 상기 실루엣 평가값에 비례하는 확률로 상기 유출이주 서식지 및 상기 유입이주 서식지를 결정하며,
    상기 이주 과정을 수행하는 단계는
    상기 유출이주 서식지 및 상기 유입이주 서식지로 선택된 클러스터 각각의 클러스터 평균값을 산출하는 제1 단계;
    상기 유출이주 서식지의 클러스터 평균값 중 하나를 선택하여 상기 유입이주 서식지의 클러스터 평균값과의 거리를 산출하며, 거리가 가장 가까운 유입이주 서식지의 클러스터 평균값 대신에 상기 선택된 유출이주 서식지의 평균값을 이주하는 제2 단계; 및
    상기 평균값이 이주된 유입이주 서식지 내 데이터들 간의 거리를 산출하여 재 클러스터링 후, 새로운 해를 업데이트하는 제3 단계를 포함하고,
    상기 돌연변이 과정을 수행하는 단계는
    상기 새로운 해들의 실루엣 평가값을 기반으로, 상기 실루엣 평가값이 가장 낮은 데이터가 소속된 클러스터를 다른 클러스터로 변경하여 가장 낮은 실루엣 평가값을 나타내는 데이터를 돌연변이 수행하며,
    상기 최적 해를 저장하는 단계는
    모든 서식지에 대한 상기 이주 과정 및 상기 돌연변이 과정이 수행된 후, 상기 최종 서식지의 실루엣 평가값을 산출하고, 현재까지의 최적 해를 저장하는 것을 특징으로 하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  2. 제1항에 있어서,
    상기 초기 해들의 실루엣 평가값을 산출하는 단계는
    상기 초기 해에서, 동일한 클러스터에 포함된 데이터 간의 평균거리, 및 기준 클러스터와 다른 클러스터의 각 데이터 간의 평균거리를 이용하여 상기 초기 해들의 실루엣(Silhouette) 값을 산출하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  3. 제2항에 있어서,
    상기 초기 해들의 실루엣 평가값을 산출하는 단계는
    상기 초기 해에서, 모든 데이터에 대해 산출된 실루엣 값의 평균인 실루엣 평가값을 산출하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 제1 단계는
    상기 유출이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 랜덤하게 하나의 유출이주 평균 중심점을 선택하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  8. 제7항에 있어서,
    상기 제1 단계는
    상기 유입이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 상기 유출이주 서식지에서 선택한 상기 유출이주 평균 중심점과의 거리가 가장 가까운 하나의 유입이주 평균 중심점을 선택하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  9. 제8항에 있어서,
    상기 제2 단계는
    상기 유입이주 서식지에서 선택된 상기 유입이주 평균 중심점을 포함하는 클러스터 평균값을 삭제하고, 상기 유출이주 서식지에서 선택된 상기 유출이주 평균 중심점을 포함하는 클러스터 평균값을 이주하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  10. 제9항에 있어서,
    상기 제3 단계는
    상기 유입이주 서식지에 이주된 상기 유출이주 평균 중심점을 포함하는 클러스터 평균값에 따라, 상기 유입이주 서식지의 데이터들을 평균 중심점에 근접하게 재 클러스터링하며, 재 클러스터링된 서식지를 새로운 해로 업데이트하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 방법.
  11. 삭제
  12. 삭제
  13. 초기 해들의 실루엣 평가값을 산출하는 초기 해 산출부;
    상기 초기 해들의 실루엣 평가값에 따라 유출이주 서식지 및 유입이주 서식지를 결정하는 서식지 결정부;
    유출이주 서식지의 클러스터 평균값 및 유입이주 서식지의 클러스터 평균값을 각기 산출하고, 상기 유입이주 서식지로 상기 유출이주 서식지의 클러스터 평균값을 이주하며, 평균값이 이주된 유입이주 서식지를 재 클러스터링하여 새로운 해를 업데이트하는 이주 과정을 수행하는 이주 수행부;
    상기 새로운 해들의 실루엣 평가값을 기반으로, 실루엣 평가값이 가장 낮은 데이터에 대한 돌연변이 과정을 수행하는 돌연변이 수행부; 및
    상기 이주 과정 및 상기 돌연변이 과정을 수행한 최종 서식지의 실루엣 평가값을 산출하여 최적 해를 저장하는 최적 해 획득부를 포함하되,
    상기 서식지 결정부는
    평가 기준인 상기 실루엣 평가값을 기반으로, 상기 실루엣 평가값에 비례하여 각 클러스터의 유출이주율 및 유입이주율을 산출하고, 상기 유출이주율 및 상기 유입이주율에 따라, 상기 실루엣 평가값에 비례하는 확률로 상기 유출이주 서식지 및 상기 유입이주 서식지를 결정하며,
    상기 이주 수행부는
    상기 유출이주 서식지 및 상기 유입이주 서식지로 선택된 각 클러스터의 클러스터 평균값을 산출하는 평균값 비교부;
    상기 유출이주 서식지의 클러스터 평균값 중 하나를 선택하여 상기 유입이주 서식지의 클러스터 평균값과의 거리를 산출하며, 거리가 가장 가까운 유입이주 서식지의 클러스터 평균값 대신에 상기 선택된 유출이주 서식지의 평균값을 이주하는 평균값 이주부; 및
    상기 평균값이 이주된 유입이주 서식지 내 데이터들 간의 거리를 산출하여 재 클러스터링 후, 새로운 해를 업데이트하는 업데이트부를 포함하고,
    상기 돌연변이 수행부는
    상기 새로운 해들의 실루엣 평가값을 기반으로, 상기 실루엣 평가값이 가장 낮은 데이터가 소속된 클러스터를 다른 클러스터로 변경하여 가장 낮은 실루엣 평가값을 나타내는 데이터를 돌연변이 수행하며,
    상기 최적 해 획득부는
    모든 서식지에 대한 상기 이주 과정 및 상기 돌연변이 과정이 수행된 후, 상기 최종 서식지의 실루엣 평가값을 산출하고, 현재까지의 최적 해를 저장하는 것을 특징으로 하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템.
  14. 제13항에 있어서,
    상기 초기 해 산출부는
    상기 초기 해에서, 동일한 클러스터에 포함된 데이터 간의 평균거리, 및 기준 클러스터와 다른 클러스터의 각 데이터 간의 평균거리를 이용하여 상기 초기 해들의 실루엣(Silhouette) 값을 산출하고, 모든 데이터에 대해 산출된 실루엣 값의 평균인 실루엣 평가값을 산출하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템.
  15. 삭제
  16. 삭제
  17. 제13항에 있어서,
    상기 평균값 비교부는
    상기 유출이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 랜덤하게 하나의 유출이주 평균 중심점을 선택하고, 상기 유입이주 서식지 내 클러스터 각각에 대한 복수의 클러스터 평균값을 산출하여 획득되는 복수의 평균 중심점 중에서 상기 유출이주 서식지에서 선택한 상기 유출이주 평균 중심점과의 거리가 가장 가까운 하나의 유입이주 평균 중심점을 선택하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템.
  18. 제17항에 있어서,
    상기 평균값 이주부는
    상기 유입이주 서식지에서 선택된 상기 유입이주 평균 중심점을 포함하는 클러스터 평균값을 삭제하고, 상기 유출이주 서식지에서 선택된 상기 유출이주 평균 중심점을 포함하는 클러스터 평균값을 이주하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템.
  19. 제18항에 있어서,
    상기 업데이트부는
    상기 유입이주 서식지에 이주된 상기 유출이주 평균 중심점을 포함하는 클러스터 평균값에 따라, 상기 유입이주 서식지의 데이터들을 평균 중심점에 근접하게 재 클러스터링하며, 재 클러스터링된 서식지를 새로운 해로 업데이트하는, 생물지리학적 실루엣 최적화 데이터 클러스터링 시스템.
  20. 삭제
KR1020190151989A 2019-11-25 2019-11-25 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템 KR102371812B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190151989A KR102371812B1 (ko) 2019-11-25 2019-11-25 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190151989A KR102371812B1 (ko) 2019-11-25 2019-11-25 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20210063634A KR20210063634A (ko) 2021-06-02
KR102371812B1 true KR102371812B1 (ko) 2022-03-08

Family

ID=76372635

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190151989A KR102371812B1 (ko) 2019-11-25 2019-11-25 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102371812B1 (ko)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D. Simon, "Biogeography-Based Optimization", IEEE Transctions on Evolutionary Computation, 12(6). (2008.12.)
R. Pal 외, "Histopathological image classification using enhanced bag-of-feature with spiral biogeography-based optimization", Applied Intelligence, 49:3406-3424. (2019.04.11.)
R. Pal 외, "Data Clustering using Enhanced Biogeography-based Optimization", IEEE. (2018.02.08.)*
V. Kumar 외, "initializing Cluster Center for K-Means Using Biogeography Based Optimization", Advances in Computing, Communication and Control, Springer:448-456. (2011.)
김성수 외, "실루엣을 적용한 그룹탐색 최적화 데이터클러스터링", 한국경영과학회지, 42(3):25-34. (2017.08.)*

Also Published As

Publication number Publication date
KR20210063634A (ko) 2021-06-02

Similar Documents

Publication Publication Date Title
CN108475287B (zh) 用于流数据的离群值检测
CN108475207B (zh) 云应用的联合自动缩放
CN113015970B (zh) 划分知识图谱的方法、系统和介质
US10679055B2 (en) Anomaly detection using non-target clustering
US8782635B2 (en) Reconfiguration of computer system to allow application installation
CN111149117A (zh) 机器学习和深度学习模型的基于梯度的自动调整
WO2017124713A1 (zh) 一种数据模型的确定方法及装置
CN111400555B (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN105989015B (zh) 一种数据库扩容方法和装置以及访问数据库的方法和装置
WO2015180340A1 (zh) 一种数据挖掘方法及装置
CN106202092A (zh) 数据处理的方法及系统
US20160337445A1 (en) Method and apparatus to deploy applications in cloud environments
CN109033755A (zh) 基于大数据的融合基因数据检测方法、计算机程序、终端
US11836365B2 (en) Automatically adjusting storage system configurations in a storage-as-a-service environment using machine learning techniques
KR102039244B1 (ko) 반딧불 알고리즘을 이용한 데이터 클러스터링 방법 및 시스템
CN105701128A (zh) 一种查询语句的优化方法和装置
KR102371812B1 (ko) 생물지리학적 실루엣 최적화 데이터 클러스터링 방법 및 시스템
CN110110736A (zh) 增量聚类方法和装置
Jia et al. Kill two birds with one stone: Auto-tuning rocksdb for high bandwidth and low latency
WO2016107297A1 (zh) MapReduce 平台上基于本地密度的聚类方法
CN113297226B (zh) 数据存储方法、数据读取方法、装置、电子设备及介质
KR101470695B1 (ko) 그리드 컴퓨팅 스케쥴링을 위한 생물지리학적 최적화 방법 및 시스템
Lolos et al. Elastic resource management with adaptive state space partitioning of Markov Decision Processes
Abdolazimi et al. Connected components of big graphs in fixed mapreduce rounds
Wang et al. An adaptively disperse centroids k-means algorithm based on mapreduce model

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant