KR20110083209A - 다양한 밀도를 갖는 데이터 집합 분석 방법 - Google Patents

다양한 밀도를 갖는 데이터 집합 분석 방법 Download PDF

Info

Publication number
KR20110083209A
KR20110083209A KR1020100003315A KR20100003315A KR20110083209A KR 20110083209 A KR20110083209 A KR 20110083209A KR 1020100003315 A KR1020100003315 A KR 1020100003315A KR 20100003315 A KR20100003315 A KR 20100003315A KR 20110083209 A KR20110083209 A KR 20110083209A
Authority
KR
South Korea
Prior art keywords
cluster
clusters
density
clustering
classifying
Prior art date
Application number
KR1020100003315A
Other languages
English (en)
Other versions
KR101085067B1 (ko
Inventor
류근호
이동규
이경민
정석호
신동문
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020100003315A priority Critical patent/KR101085067B1/ko
Publication of KR20110083209A publication Critical patent/KR20110083209A/ko
Application granted granted Critical
Publication of KR101085067B1 publication Critical patent/KR101085067B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30021Compare instructions, e.g. Greater-Than, Equal-To, MINMAX
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다양한 밀도를 갖는 데이터 집합에 대해 다계층 군집화 기법을 이용하여 분석하는 다양한 밀도를 갖는 데이터 집합 분석 방법에 관한 것이다. 이와 같은 본 발명은 초기 사용자 입력 파라미터 값을 설정하는 설정 단계; 상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계; 상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하여 이루어짐으로써, 계층적 자료구조를 사용하면서 군집의 밀도가 전체적으로 다양한 대용량 공간 데이터베이스에서의 효율적인 군집 분류가 가능하도록 한다.

Description

다양한 밀도를 갖는 데이터 집합 분석 방법{METHOD FOR ANALYZING A DATASET WITH VARIOUS DENSITY}
본 발명은 데이터 집합 분석 방법에 관한 것으로서, 특히 다양한 밀도를 갖는 데이터 집합에 대해 다계층 군집화 기법을 이용하여 분석하는 방법에 관한 것이다.
데이터마이닝(Data Mining)이란 대용량 데이터베이스에서 알려져 있지 않은 가치 있는 패턴(pattern)을 발견하기 위한 작업을 의미한다. 연관 분석, 분류, 군집분석 등 여러 데이터마이닝 기법들이 연구되고 있다.
특히, 군집화는 데이터마이닝의 대표적인 기법으로서, 대용량 데이터베이스에서 유사한 특성을 가진 객체들을 각각의 다른 그룹으로 분류하는 작업을 말한다. 최근까지 많은 연구가 활발히 진행되고 있으며, 경제학, 사회학, 지리학, 의학, 유전학 등의 여러 응용 분야에서 다양하게 활용되고 있다.
군집화 기법은 크게 분할적(Partitioning) 군집화, 계층적(Hierarchical) 군집화, 그리고 밀도기반(Density-based) 군집화로 구분할 수 있다.
상기 군집화 기법들 중에서 밀도기반 군집화(density-based clustering)는 현재까지 널리 사용되고 있는 군집화 기법으로서, 낮은 밀도의 지역으로 분리되어 있는 특징 공간(feature space)에서 상대적으로 높은 밀도의 지역을 찾아낸다. 그리고 밀집 지역(dense region)을 형성하는 객체들을 하나의 군집으로 그룹화 한다. 밀도는 특정 반경(Eps) 내 객체들의 수를 계산함으로써 획득할 수 있다. 군집 내 각 객체들은 주어진 반경 내의 최소 이웃의 수(MinPts) 이상이 요구된다. 만약에 두 개의 핵심점이 특정 반경 내에 존재하게 된다면, 이 두 군집들을 결합한다. 핵심객체는 군집들의 골격 구조를 형성하게 되고, 경계점은 그 골격 구조를 덧붙이게 된다. 잡음객체는 군집들을 형성하는 과정에서 제거된다.
도 1은 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 밀도기반 군집화 기법을 이용하여 군집을 분류할 경우의 문제점을 나타낸 도면이다. 왼쪽 고밀도인 군집 주변의 잡음 지역이 오른쪽 저밀도인 군집의 밀도와 동일한 밀도를 가진다. 오른쪽 저밀도인 군집을 분류할 정도로 반경 임계치를 충분히 크게 설정한 결과, 왼쪽의 고밀도인 군집과 이를 둘러싸는 주변 객체들이 하나의 군집으로 생성된다. 그리고 왼쪽 고밀도인 군집을 분류할 정도로 반경 임계치를 충분히 작게 설정한 결과, 오른쪽 저밀도인 지역과 이를 둘러싸는 주변 객체들이 모두 잡음으로 분류된다.
이처럼 종래의 군집화 기법은 군집의 밀도가 다양한 대용량 데이터베이스에서 군집을 분류할 경우, 세밀한 집단의 세분화가 곤란하다는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 다양한 밀도를 가지는 군집들을 효율적으로 분류할 수 있는 데이터 집합 분석 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법은, 초기 사용자 입력 파라미터 값을 설정하는 설정 단계; 상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계; 상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하여 이루어질 수 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법은, 군집화하기 위한 반경 및 최소이웃수의 임계값을 결정하는 단계; 상기 결정된 값에 따라 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계; 상기 반경 임계값을 상시적으로 조절하여 다양한 밀도를 갖는 데이터 집합에 대해 추가 군집화를 수행하는 단계; 및 상기 다양한 밀도를 가진 군집을 분류할 때마다 트리 노드의 수와 높이를 확장하여 군집을 분류하는 단계를 포함하여 이루어질 수 있다.
본 발명에 따르면, 계층적 자료구조를 사용하면서 군집의 밀도가 전체적으로 다양한 대용량 공간 데이터베이스에서의 효율적인 군집 분류가 가능하다는 효과가 있다.
또한 본 발명은 데이터의 분포 상태나 패턴 등을 찾아내기 위한 모든 시스템에 활용 가능한 효과가 있다.
도 1은 군집의 밀도가 전체적으로 다양한 대용량 데이터베이스에서 밀도기반 군집화 기법을 이용하여 군집을 분류할 경우의 문제점을 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 나타낸 흐름도이다.
도 3은 본 발명의 실시 예에 따른 데이터 집합 분석 방법의 수도코드(Pseudo Code)를 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 성별에 따른 흡연 피해에 대한 데이터집합을 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 암 환자 데이터를 분석하기 위해 2차원 평면 좌표에 데이터의 분포를 나타낸 도면이다.
도 6은 반경(Eps)과 최소 이웃 수(MinPts) 두 개의 매개변수를 이용하여 군집의 밀도를 변경하는 것을 나타낸 도면이다.
도 7은 Eps 임계치를 충분히 크게 설정하여 저밀도인 군집을 분류한 것을 나타낸 도면이다.
도 8은 계층적 트리구조를 이용하여 저밀도인 군집을 분류한 것을 나타낸 도면이다.
도 9는 Eps 임계치를 충분히 작게 설정하여 고밀도인 군집을 분류한 것을 나타낸 도면이다.
도 10은 각각의 발견된 군집들로 하여 완전한 계층적 트리구조를 구성한 것을 나타낸 도면이다.
도 11은 군집의 밀도가 전체적으로 다양한 데이터베이스에서 다양한 밀도를 가지는 군집을 모두 분류한 것을 나타낸 도면이다.
이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 2는 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 나타낸 흐름도이다.
본 발명의 데이터 집합 분석 방법은 크게 나누어 5개의 단계, 초기 사용자 입력 파라미터 값을 설정하는 단계(S210); 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계(S220); 분류가 가능한 고밀도 군집이 있는지 확인하는 단계(S230); 추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 단계(S240); 및 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 단계(S250)를 포함하여 이루어질 수 있다.
도 3은 본 발명의 실시 예에 따른 데이터 집합 분석 방법의 수도코드(Pseudo Code)를 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 성별에 따른 흡연 피해에 대한 데이터집합을 나타낸 도면이다. 폐암 발병에 관여하는 여러 가지 원인들 중 두 가지 요인, 흡연량과 흡연기간을 가진 100개의 표본 데이터를 사용한다.
도 5는 본 발명의 실시 예에 따른 암 환자 데이터를 분석하기 위해 2차원 평면 좌표에 데이터의 분포를 나타낸 도면이다. 그래프의 x축은 암 진단 이전에 하루 흡연량(개피/일)을 나타낸 세로축이고, y축은 흡연기간(년)을 나타낸 가로축이다. 데이터는 다양한 밀도를 포함한 2개의 원형 군집을 가진다.
이하 본 발명의 실시 예에 따른 다양한 밀도를 갖는 데이터 집합 분석 방법의 절차를 상세히 설명하기로 한다. 이하의 설명에서 동작의 주체는 시스템의 제어부나 제어 프로그램 혹은 이와 동등한 수준의 제어수단인 것으로 가정한다.
S210 단계는 초기 사용자 입력 파라미터 값을 설정하는 단계로서, 군집화를 수행하기 위해 정지계수를 포함한 사용자 입력 파라미터를 입력받는다.
도 6은 반경(Eps)과 최소 이웃 수(MinPts) 두 개의 매개변수를 이용하여 군집의 밀도를 변경하는 것을 나타낸 도면이다. Eps는 한 객체로부터 떨어진 거리를 나타내고, MinPts는 어느 군집이 포함하는 데이터 객체의 최소 개수를 뜻한다.
Eps를 결정하기 위해서 k-distance 그래프를 사용한다. 상대적으로 작은 밀도에서 높은 밀도를 가지는 군집을 발견하기 위하여 Eps는 점점 작게 하고 MinPts는 크게 조절한다. 그러므로 Eps에 대한 임의의 정지계수를 설정하여 군집화를 정지한다. MinPts는 계산의 복잡성을 줄이기 고정된 값을 사용한다.
초기 사용자 입력 파라미터 값의 설정이 완료되면, S220 단계에서 밀도기반 군집화 기법을 이용하여 군집을 분류한다.
도 7은 Eps 임계치를 충분히 크게 설정하여 저밀도인 군집을 분류한 것을 나타낸 도면이다. 그 결과, 군집 A는 주변의 잡음객체를 포함하여 하나의 군집으로 분류된다.
도 8은 계층적 트리구조를 이용하여 저밀도인 군집을 분류한 것을 나타낸 도면이다. 루트 노드(root node)는 분할된 군집들에 대한 노드를 가지게 된다.
군집 분류가 완료되면, S230 단계에서 분류가 가능한 고밀도 군집이 있는지 확인한다.
즉, 각각의 독립적인 군집들 중에서 높은 밀도를 포함하는 군집이 있는가를 확인하는 단계를 수행한다. 군집 A는 고밀도인 군집을 포함하고 있으므로 군집을 분류하기 위해 추가적으로 군집화를 수행한다.
S240 단계는 분류가 가능한 고밀도 군집이 있는 경우의 추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 단계로서, 모든 분류가 가능한 고밀도 군집에 대해 상기 S220 단계 내지 S230 단계와 함께 반복적으로 수행되며, 상기 S230 단계에서의 확인 결과, 더 이상 분류가 가능한 고밀도 군집이 없는 경우에는 스킵(skip)된다.
군집 A의 군집화를 수행하기 위해 사용자 입력 파라미터 값을 적절하게 조정한다. 상대적으로 고밀도의 군집을 형성하기 위해서 Eps의 크기를 더 작게 조정한다. 또한 상기 반경 임계치의 조절에 대한 한계점을 설정하여 군집지속여부를 결정할 수도 있다.
도 9는 Eps 임계치를 충분히 작게 설정하여 고밀도인 군집을 분류한 것을 나타낸 도면이다. 그 결과, 군집 B와 그 주변 객체들을 잡음으로 분류한다.
이후에 더 이상 분류할 군집이 없거나 Eps가 정지계수에 다다르면 더 이상 군집화 과정을 수행하지 않는다.
S250 단계에서 계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류한다.
도 10은 각각의 발견된 군집들로 하여 완전한 계층적 트리구조를 구성한 것을 나타낸 도면이다. 단말 노드(leaf node) 3과 5를 탐색하여 다양한 밀도를 가지는 군집을 모두 분류한다.
도 11은 군집의 밀도가 전체적으로 다양한 데이터베이스에서 다양한 밀도를 가지는 군집을 모두 분류한 것을 나타낸 도면이다. 다계층 밀도기반 군집화 기법에 의해 분류된 군집정보를 통해 여자가 담배를 피우면 남자보다 폐암에 걸릴 위험이 더 높다는 사실을 확인할 수 있다.
이상에서는 본 발명에서 특정의 바람직한 실시 예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시 예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

Claims (7)

  1. 다양한 밀도를 갖는 데이터 집합을 분석하는데 있어서,
    초기 사용자 입력 파라미터 값을 설정하는 설정 단계;
    상기 설정된 파라미터 값을 기반으로 밀도기반 군집화 기법을 이용하여 군집을 분류하는 제 1 분류 단계;
    상기 제 1 분류 단계에서 분류된 군집을 제외한 분류 가능한 고밀도 군집이 있는지 확인하여, 선택적으로 분류 가능한 고밀도 군집이 존재할 때 분류 가능한 모든 고밀도 군집에 대해 추가 군집화를 수행하는 수행 단계; 및
    계층적 트리구조를 이용하여 다양한 밀도를 가지는 군집을 분류하는 제 2 분류 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.
  2. 제 1항에 있어서, 상기 설정 단계는
    반경(Eps) 및 최소이웃수(MinPts)의 임계값을 결정하는 것을 특징으로 하는 데이터 집합 분석 방법.
  3. 제 1항에 있어서, 상기 수행 단계는
    추가 군집화를 위하여 해당 군집에 알맞은 사용자 입력 파라미터 값을 조정하는 재조정 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.
  4. 제 3항에 있어서, 상기 재조정 단계는
    반경(Eps) 임계값을 상시적으로 조절하는 단계인 것을 특징으로 하는 데이터 집합 분석 방법.
  5. 제 4항에 있어서,
    상기 반경 임계값의 조절에 대한 한계점을 설정하여 군집지속여부를 결정하는 것을 특징으로 하는 데이터 집합 분석 방법.
  6. 제 1항에 있어서, 상기 제 2 분류 단계는
    각각의 발견된 군집들로 완전한 계층적 트리구조를 구성하고, 적어도 하나의 노드정보를 이용하여 다양한 밀도를 가지는 군집을 분류하는 것을 특징으로 하는 데이터 집합 분석 방법.
  7. 다양한 밀도를 갖는 데이터 집합을 분석하는데 있어서,
    군집화하기 위한 반경 및 최소이웃수의 임계값을 결정하는 단계;
    상기 결정된 반경 및 최소이웃수의 임계값에 따라 밀도기반 군집화 기법을 이용하여 군집을 분류하는 단계;
    상기 반경 임계값을 상시적으로 조절하여 다양한 밀도를 갖는 데이터 집합에 대해 추가 군집화를 수행하는 단계; 및
    상기 다양한 밀도를 가진 군집을 분류할 때마다 트리 노드의 수와 높이를 확장하여 군집을 분류하는 단계를 포함하는 것을 특징으로 하는 데이터 집합 분석 방법.
KR1020100003315A 2010-01-14 2010-01-14 다양한 밀도를 갖는 데이터 집합 분석 방법 KR101085067B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100003315A KR101085067B1 (ko) 2010-01-14 2010-01-14 다양한 밀도를 갖는 데이터 집합 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100003315A KR101085067B1 (ko) 2010-01-14 2010-01-14 다양한 밀도를 갖는 데이터 집합 분석 방법

Publications (2)

Publication Number Publication Date
KR20110083209A true KR20110083209A (ko) 2011-07-20
KR101085067B1 KR101085067B1 (ko) 2011-11-21

Family

ID=44920996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100003315A KR101085067B1 (ko) 2010-01-14 2010-01-14 다양한 밀도를 갖는 데이터 집합 분석 방법

Country Status (1)

Country Link
KR (1) KR101085067B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220152060A (ko) * 2021-05-07 2022-11-15 한남대학교 산학협력단 자동차 실내 소음 위치 탐색 방법 및 시스템
WO2023128668A1 (ko) * 2021-12-30 2023-07-06 엘에스전선 주식회사 부분방전 모니터링 시스템 및 부분방전 모니터링 방법
KR20240037846A (ko) * 2022-09-14 2024-03-22 주식회사 글로랑 학생의 인적성 및 성적 자료와 머신러닝 기술을 활용하여 학교에서 반 배정을 하는 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738465B1 (ko) 2006-07-27 2007-07-11 인하대학교 산학협력단 장애물을 고려한 이동 거리측정법을 이용한 밀도기반 공간클러스터링 시스템 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220152060A (ko) * 2021-05-07 2022-11-15 한남대학교 산학협력단 자동차 실내 소음 위치 탐색 방법 및 시스템
WO2023128668A1 (ko) * 2021-12-30 2023-07-06 엘에스전선 주식회사 부분방전 모니터링 시스템 및 부분방전 모니터링 방법
KR20240037846A (ko) * 2022-09-14 2024-03-22 주식회사 글로랑 학생의 인적성 및 성적 자료와 머신러닝 기술을 활용하여 학교에서 반 배정을 하는 장치 및 방법

Also Published As

Publication number Publication date
KR101085067B1 (ko) 2011-11-21

Similar Documents

Publication Publication Date Title
Duczmal et al. A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters
Wong A short survey on data clustering algorithms
US9798808B2 (en) Data visualization system
WO2015180340A1 (zh) 一种数据挖掘方法及装置
JP2019091445A5 (ko)
Iodice D’Enza et al. Iterative factor clustering of binary data
US20190311219A1 (en) Quasi-clique prototype-based hybrid clustering
KR101085067B1 (ko) 다양한 밀도를 갖는 데이터 집합 분석 방법
Feng et al. Combining Geo‐SOM and hierarchical clustering to explore geospatial data
CN115617867A (zh) 时间序列的预测方法、电子设备和存储介质
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
Bulysheva et al. Segmentation modeling algorithm: a novel algorithm in data mining
US11423191B2 (en) Automated generation and evaluation of architectural designs
CN114417095A (zh) 一种数据集划分方法及装置
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
Myllymäki et al. Conditionally heteroscedastic intensity‐dependent marking of log Gaussian Cox processes
US9928331B2 (en) Method and control device for circuit layout migration
US20230351229A1 (en) Methods and systems for identifying patterns in data using delimited feature-regions
CN110505632B (zh) 站址规划方法和装置
WO2016107297A1 (zh) MapReduce 平台上基于本地密度的聚类方法
KR20200054364A (ko) 클러스터링 알고리즘의 비교 학습 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
Gorban et al. Robust principal graphs for data approximation
Lewitus et al. Characterizing and comparing phylogenetic trait data from their normalized Laplacian spectrum
Aliperti et al. A fuzzy density-based clustering algorithm for streaming data
Olga et al. Big data analysis methods based on machine learning to ensure information security

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141114

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151111

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee