KR20180119443A - 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 - Google Patents

가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 Download PDF

Info

Publication number
KR20180119443A
KR20180119443A KR1020170053233A KR20170053233A KR20180119443A KR 20180119443 A KR20180119443 A KR 20180119443A KR 1020170053233 A KR1020170053233 A KR 1020170053233A KR 20170053233 A KR20170053233 A KR 20170053233A KR 20180119443 A KR20180119443 A KR 20180119443A
Authority
KR
South Korea
Prior art keywords
data set
value
clustering
dispersion function
data
Prior art date
Application number
KR1020170053233A
Other languages
English (en)
Other versions
KR101949448B1 (ko
Inventor
이재욱
박새롬
손영두
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020170053233A priority Critical patent/KR101949448B1/ko
Publication of KR20180119443A publication Critical patent/KR20180119443A/ko
Application granted granted Critical
Publication of KR101949448B1 publication Critical patent/KR101949448B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F17/30
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N99/005

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치가 개시된다. 클러스터링장치는 클러스터 대상인 제1 데이터 집합을 입력받고, 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화한 후, 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하고, 분산 함수의 서포트 영역을 설정하고, 서포트 영역 내에서 분산 함수의 극대값을 나타내는 지점을 대표점으로 선별하고, 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화한다.

Description

가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치{Clustering method and apparatus using Gaussian Process Regression}
본 발명은 가우신안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치에 관한 것이다.
일반적인 지지 기반 군집화(Support based Clustering) 방법은 복잡한 데이터의 구조를 잘 반영하여 군집을 결정해 주지만 학습 시간과 새로운 데이터에 대한 테스트 시간이 많이 소요되는 문제점이 있다. 또한 종래 지지 기반 군집화의 대표점(representative point)은 군집의 경계에 있는 점들이고, 안정평형점(stable equilibrium point)을 대표점으로 설정하면, 그 점은 클러스터링 대상 데이터에 실제로 존재하지 아니한 점이다.
주어진 데이터들 중에서 대표점을 찾아 군집화하는 친화 전파(affinity propagation) 방법이 존재하나, 해당 방법은 볼록 집합(covex group)의 군집화만 가능하고, 각 클러스터당 하나의 대표점만을 만든다는 단점이 존재한다. 따라서 해당 방법으로 비볼록(non-covex) 집합의 군집화를 위해서는 많은 파라미터들의 학습 과정이 필요하다.
등록특허공보 제10-0895261호 등록특허공보 제10-1133804호
본 발명이 이루고자 하는 기술적 과제는, 가우시안 프로세스(이하, 'GP'라 함) 회귀분석을 이용하여 볼록 집합뿐만 아니라 비볼록 집합의 군집화가 가능한 클러스터링 방법 및 그 장치를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터링 방법의 일 실시 예는, 클러스터 대상인 제1 데이터 집합을 입력받는 단계; 상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 단계; 상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 단계; 상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 단계; 상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 단계; 및 상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화하는 단계;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 클러스터링 장치의 일 실시 예는, 클러스터 대상인 제1 데이터 집합을 입력받는 입력부; 상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 초기화부; 상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 파라미터산출부; 상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 서포트영역설정부; 상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 대표점산출부; 및 상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 군집화하는 클러스터링부;를 포함한다.
본 발명에 따른 GP 회귀분석을 기초로 생성된 분산 함수를 이용하여 볼록 집합뿐만 아니라 비볼록 집합의 군집화가 가능하다. 또한 군집화 과정에서 구해진 관련 벡터(relevant vector)를 클러스터링 대상 데이터 중에서 선택할 수 있어 군집의 대표점들 또한 클러스터링 대상 데이터에서 선택할 수 있다. 또한 대표점들이 분산 함수의 극대점을 나타내는 지점이므로 빠른 라벨링(fast labeling) 방법을 활용하여 학습 및 테스트 시간을 줄일 수 있다.
도 1은 본 발명에 따른 클러스터링 방법의 일 실시 예를 도시한 흐름도,
도 2는 본 발명의 일 실시 예에 따른 분산 함수를 도시한 도면,
도 3은 데이터 집합에 포함된 데이터 요소의 개수에 따른 기저 벡터의 개수를 다양한 클러스터링 방법별로 도시한 도면,
도 4는 절단레벨값이 고정된 상태에서 파라미터 σ의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면,
도 5는 파라미터 σ의 값이 고정된 상태에서 절단레벨값의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면, 그리고,
도 6은 본 발명에 따른 클러스터링장치의 일 실시 예의 구성을 도시한 도면이다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 클러스터링 방법 및 장치에 대해 상세히 설명한다.
먼저, 군집화를 위한 대표점을 선별하기 위한 분산 함수(variance function)를 가우시안 프로세스(Gaussian Process)를 이용하여 정의하는 과정에 대해 살펴본다.
입출력 쌍(x,y)의 관계를 다음의 가산에러회귀모델(additvie error regression model)로 정의한다.
Figure pat00001
위 함수가 수학식 2와 같은 형태의 제한된 GP를 따른다고 가정하자. 여기서, 입력데이터 및 출력데이터는 각각
Figure pat00002
,
Figure pat00003
로 정의될 수 있으며, 입력데이터가 클러스터링 대상 데이터이다.
Figure pat00004
f는
Figure pat00005
형태의 선형기저함수(linear basic function)의 서브클래스에 속하도록 제한된다. 여기서,
Figure pat00006
이고,
Figure pat00007
이다. σ값은 실시 예에 따라 다양하게 설정될 수 있으며, σ값의 변화에 따른 군집화의 결과는 도 4에 도시되어 있다.
Figure pat00008
로 주어진 공분산 함수(covariance function)에서, A는 N*N 대각선 행렬(diagonal matrix)이고, Aiii>0이다. 클러스터 대상인 크기 N의 데이터가 주어졌을 때, GP는 다음과 같은 결합 가우시안(joint Gaussina)를 정의한다.
Figure pat00009
여기서,
Figure pat00010
이고,
Figure pat00011
는 i번째 행이
Figure pat00012
인 N*N 행렬이다. 가중치 w에 대한 사전 분포(prior distribution)가
Figure pat00013
이면, 공분산 함수는
Figure pat00014
와 같이 주어진다.
수학식 1의 ε또한 아래와 같이 GP를 따른다고 가정한다.
Figure pat00015
여기서, β(x)는 하이퍼-함수이며,
Figure pat00016
이다.
Figure pat00017
는 디랙델타함수(Dirac delta function)로서, x=x'이면 1, 그렇지 않으면 0의 값을 나타낸다. GP는
Figure pat00018
의 결합 분포(joint distribution)를 다음과 같이 정의한다.
Figure pat00019
따라서 주변 우도(marginal likelihood)는 다음과 같이 주어진다.
Figure pat00020
Sherman-Morrison-Woodbury 역행렬 공식을 이용하여, 새로운 테스트 값 x*에 대한 f(x*)의 사후 예측 분포(posterior predictive distribution)는 다음과 같다.
Figure pat00021
사후 분포(posterior distribution)의 평균(mean)과 공분산 행렬은 다음과 같다.
Figure pat00022
여기서, B는
Figure pat00023
인 N*N 대각선 행렬이다.
그리고,
Figure pat00024
이고,
Figure pat00025
이다.
하이퍼-함수 Β가 주어질 때, 예측 공분산
Figure pat00026
는 오직 클러스터 대상 데이터 x에 의해서만 영향을 받을 뿐 y의 값에 의존하지 않는다. 일정 개수의 커널 기저 함수는 입력 데이터가 위치한 지점에 집중되고, 예측 공분산은 조밀하게 위치한 입력 데이터의 근처에서 커지고, 입력 데이터가 느슨하게 분포한 지점에서 작아진다. 이러한 특성에 기반하여 분산 함수를 정의하면 다음과 같다.
Figure pat00027
도 1은 본 발명에 따른 클러스터링 방법의 일 실시 예를 도시한 흐름도이다.
도 1을 참조하면, 클러스터링장치는 클러스터 대상인 제1 데이터 집합을 입력받는다(S100). 그리고 클러스터링장치는 제1 데이터 집합(
Figure pat00028
)의 개수와 동일한 개수를 가진 제2 데이터 집합(
Figure pat00029
)을 기 설정된 값(예를 들어, 0)으로 초기화한다.
클러스터링장치는 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱(logistic) GP(Gaussian Process) 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구한다(S120).
일 예로, 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석(p(yk|xk)) 및 로그-우도 함수(L(α))는 각각 다음 수학식과 같이 정의될 수 있다.
Figure pat00030
Figure pat00031
여기서, N은 제1 데이터 집합의 데이터 요소의 개수이며,
Figure pat00032
,
Figure pat00033
이다.
로그-우도 함수는 파라미터 α에 의존한다. 클러스터링장치는 군집화를 위한 최적의 α를 찾기 위하여 순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 이용할 수 있다. 베이지안 학습 알고리즘을 적용하여 최적의 파라미터를 찾는 과정을 살펴보면 다음과 같다.
먼저 C를 다음과 같이 나타낼 수 있다.
Figure pat00034
수학식 12를 이용하여, 로그-우도 함수를 다시 표현하면 다음과 같다.
Figure pat00035
여기서,
Figure pat00036
이고,
Figure pat00037
,
Figure pat00038
이다. λ(αi)의 모든 항은 αi에 의존성을 가진다. 따라서 λ(αi)를 최대화함으로써 로그-우도 함수의 값을 최대화할 수 있으므로, αi는 다음 수식에 의해 구해질 수 있다.
Figure pat00039
최적 파라미터의 값을 구한 후, 클러스터링장치는 파라미터를 반영한 수학식 9의 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 분산 함수의 입력값의 범위인 서포트 영역을 설정한다(S130). 분산 함수는 앞서 살핀 바와 같이 GP를 통해 정의된 함수로서 클러스터 대상인 입력 값인 제1 데이터에 의해서만 영향을 받는 함수이며, 제2 데이터에 의해 영향을 받지 않는 함수이다.
예를 들어, 클러스터링장치는 제1 데이터 집합의 각 요소에 대한 분산함수의 값 중 최소값을 기준값으로 설정하고, 분산함수의 값이 기준값보다 큰 분산함수의 입력값의 범위를 서포트 영역으로 설정할 수 있다. 이를 수학식으로 나타내면 다음과 같다.
Figure pat00040
클러스터링장치는 서포트 영역 설정 후 서포트 영역 내에서 분산 함수의 극대값을 나타내는 분산 함수의 입력값을 대표점으로 선별한다(S140). 예를 들어, 분산 함수가 도 2와 같고, 서포트 영역이 -10~10 사이이면, 클러스터링장치는 분산 함수의 극대값을 나타내는 6개의 지점을 대표점으로 선별한다.
그리고 클러스터링장치는 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 군집화한다. 예를 들어, 클러스터링장치는 각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이를 연결하는 선분 상에 위치한 값들에 대한 분산 함수의 값이 기 설정된 절단수준값(Cutting Level)보다 모두 작으면 인접한 대표점에 동일한 클러스터 라벨을 부여한다. 즉 인접한 대표점은 하나의 그룹에 속한다. 그리고 클러스터링장치는 최단 이웃점 탐색(nearest neighbor search) 방법 등을 적용하여 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화한다.
도 2는 본 발명의 일 실시 예에 따른 분산 함수를 도시한 도면이다.
도 2를 참조하면, 1차원 분산 함수의 예가 도시되어 있다. 유한 개수의 파라미터 α에 대응하는 입력 벡터를 기저 벡터(basis vector)라고 한다. 기저 벡터는 데이터 집합의 중앙에 위치하므로, 클러스터 대상 데이터의 대표점으로 간주할 수 있다. 분산 함수는 기저 벡터(basis vector) 근처에서 큰 값을 가짐을 알 수 있으며, 분산 함수의 극대값을 나타내는 지점(원으로 표시된 부분)이 대표점이 된다.
도 3은 데이터 집합에 포함된 데이터 요소의 개수에 따른 기저 벡터의 개수를 다양한 클러스터링 방법별로 도시한 도면이다.
도 3을 참조하면, 본 실시 예에 따른 클러스터링 방법을 사용할 경우에 데이터 집합 내 데이터 요소의 개수가 증가하여도 기저 벡터의 개수가 거의 일정함을 수 있다.
도 4는 절단레벨값이 고정된 상태에서 파라미터 σ의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면이다. 도 4의 예에서 절단레벨값은 모두 1.5로 고정된 경우이다.
도 4(a)는 파라미터 σ가 1, 도 4(b)는 파라미터 σ가 0.6, 도 4(c)는 파라미터 σ가 0.42, 도 4(d)는 파라미터 σ가 0.3인 경우이다. 파라미터 σ의 값이 작아질수록 기저 벡터(원으로 표시된 부분)의 개수가 증가함을 알 수 있다.
도 5는 파라미터 σ의 값이 고정된 상태에서 절단레벨값의 변화에 따른 클러스터링 결과의 일 예를 도시한 도면이다. 도 5의 예에서, 파라미터 σ의 값은 0.3으로 고정되어 있다.
도 5(a)의 절단레벨값은 1.5이고, 도 5(b)의 절단레벨값은 0.3이다. 절단레벨값이 감소하면, 도 5(a)의 아래 부분의 그룹이 하나로 합쳐지는 것을 알 수 있다.
도 6은 본 발명에 따른 클러스터링장치의 일 실시 예의 구성을 도시한 도면이다.
도 6을 참조하면, 클러스터링장치(600)는 입력부(610), 초기화부(620), 파라미터산출부(630), 서포트영역설정부(640), 대표점산출부(650) 및 클러스터링부(660)를 포함한다.
입력부(610)는 클러스터 대상인 제1 데이터 집합을 입력받는다.
초기화부(620)는 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 생성하고 기 설정된 값으로 초기화한다. 예를 들어, 초기화부(620)는 단일 클래스(one-class) 회귀분석을 위하여 제2 데이터 집합의 각 데이터 요소를 0으로 초기화할 수 있다.
파라미터산출부(630)는 제1 데이터 집합과 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구한다. 이때 파라미터산출부(630)는 베이지안 학습 알고리즘을 이용하여 파라미터를 구할 수 있다.
서포트영역설정부(640)는 파라미터산출부(630)에서 구한 파라미터가 반영된 분산 함수의 값이 기 설정된 기준값 이상이 되도록 하는 서포트 영역을 설정한다. 여기서 기준값은 실시 예에 따라 다양하게 설정할 수 있으며, 일 예로, 제1 데이터 집합의 각 데이터 요소별 분산 함수의 값 중 최소값을 기준값으로 설정할 수 있다.
대표점산출부(650)는 서포트 영역 내에서 분산 함수의 극대값을 나타내는 지점을 대표점으로 산출한다. 대표점산출부(650)에서 구한 대표점은 제1 데이터 집합의 데이터 요소와 중첩되거나 중첩되지 않을 수 있다.
클러스터링부(660)는 대표점을 기반으로 제1 데이터 집합의 데이터 요소를 클러스터링한다. 일 실시 예로, 대표점산출부(650)에서 구한 대표점들이 동일한 그룹에 속할 수 있다. 따라서 클러스터링부(660)는 각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이를 연결하는 선분 상에 위치한 값들에 대한 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 인접한 대표점에 동일한 클러스터 라벨을 부여한다. 즉 인접한 대표점은 하나의 그룹에 속한다. 그리고 클러스터링부(660)는 최단 이웃점 탐색(nearest neighbor search) 방법 등을 적용하여 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 그룹핑한다.
본 실시 예는 설명의 편의를 위하여 각 기능별 구성을 도시하고 있으나, 클러스터링장치는 입출력장치, 메모리, 프로세서로 구현된 컴퓨팅 장치에 의해 구현될 수 있다. 예를 들어, 입출력장치는 키보드나 키패드 등의 사용자 인터페이스 장치, 유무선 통신망을 통해 데이터를 송수신하는 각종 통신장치, 하드 디스크나 USB 메모리 등과 입출력을 수행하는 장치 등을 포함하는 개념이며, 이들 장치 중 적어도 하나를 통해 클러스터링 대상 데이터를 입력받을 수 있다. 또한, 입출력부는 클러스터링 결과를 통신장치를 통해 외부의 장치로 전송하거나 하드디스크나 USB에 전송하거나 디스플레이장치를 통해 화면에 표시할 수 있다. 그리고, 도 6에 도시된 각종 구성은 소프트웨어로 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (11)

  1. 클러스터 대상인 제1 데이터 집합을 입력받는 단계;
    상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 단계;
    상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 단계;
    상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 단계;
    상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 단계; 및
    상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 적어도 하나 이상으로 군집화하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
  2. 제 1항에 있어서, 상기 초기화하는 단계는,
    단일 클래스 회귀분석(one-class regression)을 위하여 상기 제2 데이터 집합의 데이터 요소를 모두 0으로 초기화하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
  3. 제 1항에 있어서, 상기 파라미터를 구하는 단계는,
    순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 적용하여 파라미터를 구하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
  4. 제 1항에 있어서, 상기 서포트 영역을 설정하는 단계는,
    상기 제1 데이터 집합의 데이터 요소들에 대한 분산 함수의 값 중 최소값을 산출하는 단계; 및
    상기 분산 함수의 값이 상기 최소값 이상이 되도록 하는 상기 분산 함수의 입력값의 범위를 서포트 영역으로 설정하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
  5. 제 1항에 있어서, 상기 클러스터링하는 단계는,
    각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이에 위치한 값들에 대해 상기 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 상기 인접한 대표점에 동일한 클러스터 라벨을 부여하는 단계; 및
    최단 이웃점 탐색 방법을 적용하여 상기 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화하는 단계;를 포함하는 것을 특징으로 하는 클러스터링 방법.
  6. 클러스터 대상인 제1 데이터 집합을 입력받는 입력부;
    상기 제1 데이터 집합의 개수와 동일한 개수를 가진 제2 데이터 집합을 기 설정된 값으로 초기화하는 초기화부;
    상기 제1 데이터 집합과 상기 제2 데이터 집합에 대한 로지스틱 GP 회귀분석을 기초로 정의된 로그-우도 함수(log-likelihood function)의 값을 최대화하는 파라미터를 구하는 파라미터산출부;
    상기 파라미터가 반영된 분산 함수의 값이 기 설정된 크기 이상이 되도록 하는 상기 분산 함수의 입력값의 범위인 서포트 영역을 설정하는 서포트영역설정부;
    상기 서포트 영역 내에서 상기 분산 함수의 극대값을 나타내는 상기 분산 함수의 입력값을 대표점으로 선별하는 대표점산출부; 및
    상기 대표점을 기반으로 상기 제1 데이터 집합의 데이터 요소를 군집화하는 클러스터링부;를 포함하는 것을 특징으로 하는 클러스터링 방법.
  7. 제 6항에 있어서, 상기 초기화부는,
    단일 클래스 회귀분석(one-class regression)을 위하여 상기 제2 데이터 집합의 데이터 요소를 모두 0으로 초기화하는 것을 특징으로 하는 클러스터링 장치.
  8. 제 6항에 있어서, 상기 파라미터산출부는,
    순차 스파스 베이지안 학습 알고리즘(sequential sparse Bayesian learning algorithm)을 적용하여 파라미터를 구하는 것을 특징으로 하는 클러스터링 장치.
  9. 제 6항에 있어서, 상기 서포트영역설정부는,
    상기 제1 데이터 집합의 데이터 요소들에 대한 분산 함수의 값 중 최소값을 산출하고, 상기 분산 함수의 값이 상기 최소값 이상이 되도록 하는 상기 분산 함수의 입력값의 범위를 서포트 영역으로 설정하는 것을 특징으로 하는 클러스터링 장치.
  10. 제 6항에 있어서, 상기 클러스터링부는,
    각 대표점에 클러스터 라벨을 부여하되, 인접한 대표점 사이에 위치한 값들에 대해 상기 분산 함수의 값이 기 설정된 절단수준값보다 모두 작으면 상기 인접한 대표점에 동일한 클러스터 라벨을 부여하고, 최단 이웃점 탐색 방법을 적용하여 상기 제1 데이터 집합의 데이터 요소를 각 클러스터 라벨별 대표점을 기준으로 군집화하는 것을 특징으로 하는 클러스터링 장치.
  11. 제 1항 내지 제 5항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020170053233A 2017-04-25 2017-04-25 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 KR101949448B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170053233A KR101949448B1 (ko) 2017-04-25 2017-04-25 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170053233A KR101949448B1 (ko) 2017-04-25 2017-04-25 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20180119443A true KR20180119443A (ko) 2018-11-02
KR101949448B1 KR101949448B1 (ko) 2019-02-18

Family

ID=64328611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170053233A KR101949448B1 (ko) 2017-04-25 2017-04-25 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101949448B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200027888A (ko) * 2018-09-05 2020-03-13 주식회사 스트라드비젼 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20230015668A (ko) * 2021-07-23 2023-01-31 서울대학교산학협력단 마르코프 체인 몬테 카를로 샘플링의 초기값 결정 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100895261B1 (ko) 2007-08-22 2009-04-29 포항공과대학교 산학협력단 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법
KR20110096236A (ko) * 2010-02-22 2011-08-30 숭실대학교산학협력단 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법
KR101133804B1 (ko) 2010-08-24 2012-04-05 포항공과대학교 산학협력단 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100895261B1 (ko) 2007-08-22 2009-04-29 포항공과대학교 산학협력단 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법
KR20110096236A (ko) * 2010-02-22 2011-08-30 숭실대학교산학협력단 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법
KR101133804B1 (ko) 2010-08-24 2012-04-05 포항공과대학교 산학협력단 대용량 데이터에 대한 고속 커널 퀀타일 군집화 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200027888A (ko) * 2018-09-05 2020-03-13 주식회사 스트라드비젼 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20230015668A (ko) * 2021-07-23 2023-01-31 서울대학교산학협력단 마르코프 체인 몬테 카를로 샘플링의 초기값 결정 방법

Also Published As

Publication number Publication date
KR101949448B1 (ko) 2019-02-18

Similar Documents

Publication Publication Date Title
KR102107378B1 (ko) 하이퍼파라미터 자동 최적화 방법 및 그 장치
EA003796B1 (ru) Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве
CN110197716B (zh) 医学影像的处理方法、装置及计算机可读存储介质
JP6965206B2 (ja) クラスタリング装置、クラスタリング方法およびプログラム
US11157380B2 (en) Device temperature impact management using machine learning techniques
US11645562B2 (en) Search point determining method and search point determining apparatus
CN111414987A (zh) 神经网络的训练方法、训练装置和电子设备
JP6299759B2 (ja) 予測関数作成装置、予測関数作成方法、及びプログラム
US11146580B2 (en) Script and command line exploitation detection
US11410073B1 (en) Systems and methods for robust feature selection
KR101949448B1 (ko) 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치
US10248462B2 (en) Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program
US20230196109A1 (en) Non-transitory computer-readable recording medium for storing model generation program, model generation method, and model generation device
US20220138557A1 (en) Deep Hybrid Graph-Based Forecasting Systems
CN113033709A (zh) 链路预测方法和装置
JP2022518671A (ja) デュアル・ネットワークと共に訓練された主ネットワークを介した多目的タスクの実行
US11270369B2 (en) Systems for generating recommendations
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
CN114037060A (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
JP2018028823A (ja) クラスタリング装置およびクラスタリング方法
JP6469033B2 (ja) 分布推定装置、分布推定方法、及び分布推定プログラム
JP6928346B2 (ja) 予測装置、予測方法および予測プログラム
CN111723247A (zh) 基于图的假设计算
CN110705593A (zh) 训练关系网络嵌入模型和确定使用概率的方法及装置
KR20190136941A (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant