KR20080047915A - 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체 - Google Patents

서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체 Download PDF

Info

Publication number
KR20080047915A
KR20080047915A KR1020060117938A KR20060117938A KR20080047915A KR 20080047915 A KR20080047915 A KR 20080047915A KR 1020060117938 A KR1020060117938 A KR 1020060117938A KR 20060117938 A KR20060117938 A KR 20060117938A KR 20080047915 A KR20080047915 A KR 20080047915A
Authority
KR
South Korea
Prior art keywords
data
category
classification
pseudo
function
Prior art date
Application number
KR1020060117938A
Other languages
English (en)
Other versions
KR100842215B1 (ko
Inventor
이대원
이재욱
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020060117938A priority Critical patent/KR100842215B1/ko
Publication of KR20080047915A publication Critical patent/KR20080047915A/ko
Application granted granted Critical
Publication of KR100842215B1 publication Critical patent/KR100842215B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것이다. 본 발명에 따른 SVDD를 이용한 다범주 분류 방법은, 소정 개수(c)의 범주로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계; 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(f k (x))를 구하는 단계; 상기 c개의 범주 각각에 대한 유사 분포 함수(
Figure 112006087472985-PAT00001
)를 추정하는 단계; 및 상기 유사 분포 함수를 범주별-조건부 분포 함수로 사용하여 베이지안 최적 결정 이론을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(
Figure 112006087472985-PAT00002
)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.
Figure 112006087472985-PAT00003
상기 수학식에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.

Description

서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체{Method and apparatus for multi-class classification using support vector domain description, and computer-readable storage medium used thereto}
도 1은 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 방법을 예시하는 흐름도이다.
도 2a 내지 도 2d는 triangle 데이터에 본 발명에 따른 방법을 적용한 결과를 예시하는 도면이다.
도 3a는 본 발명에 따른 방법에 의해 3개의 가우시안 분포 조합에서 임의로 추출된 k번째 범주의 데이터를 예시하는 도면이다.
도 3b는 본 발명에 따른 방법의 단계 (b)에서 구해진 가우시안 커널 서포트 함수(f k (x))를 예시하는 도면이다.
도 3c는 본 발명에 따른 방법의 단계 (c)에서 구해진 유사 분포 함수를 예시하는 도면이다.
도 3d는 본 발명에 따른 방법에 의해 구해진 유사 분포 함수의 서포트를 예시하는 도면이다.
도 4a는 Coil20 데이터 세트의 20개의 상이한 물체 이미지들을 예시하는 도면이다.
도 4b는 Coil20 데이터 세트의 첫 번째 범주에 속하는 이미지 데이터로서 서로 다른 각도에서 촬영된 이미지를 예시하는 도면이다.
도 5a 내지 도 5f는 2차원 데이터 세트들에 대한 실험 결과를 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 장치를 예시하는 블록도이다.
본 발명은 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것으로서, 더 상세하게는 SVDD(support vector domain description)를 이용하여 각 범주별로 사후확률(posterior probability) 분포를 추정함으로써 데이터를 분류하는 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것이다.
다범주 분류기(Multi-class classifier)는 패턴인식, 금융공학, 데이터 마이닝 등에 널리 사용되는 중요한 기술이다. 즉, 주어진 데이터를 이용하여 분류기를 학습하고 학습된 분류기를 이용하여 미래의 데이터에 대해 상기 데이터가 어떤 범주에 속하는지를 예측하는 모델이다. 사람이 손으로 쓴 숫자를 0 내지 9의 숫자 중 어느 하나로 인식하는 것은 다범주 분류기가 적용되는 대표적인 예라고 할 수 있다.
기존의 대표적인 분류기는 의사 결정 나무, 로지스틱스 회귀모형, 인공 신경망, 및 서포트 벡터 머신(Support Vector Machine; SVM) 등이 있지만 이들은 각각 단점을 가지고 있다. 의사 결정 나무와 로지스틱스 회귀모형은 다른 모델에 비해 분류오차가 크다. 인공 신경망은 모델을 구축하는데 시간이 많이 걸리며 신경망의 구조를 결정해야 하는 어려움을 가지고 있다.
SVM은 원래 이진 분류 문제를 풀기 위해 고안되어 그동안 다양한 패턴 인식 문제에 성공적으로 응용되었다. SVM은 SRM(structured risk minimization) 이론에 기초를 두고 있다. 즉, 실험 오차와 모델 복잡도 사이의 트레이드 오프(trade-off)를 최적화하여 기대오차(expected error)의 상한선을 최소화하는 방향으로 분류기가 구축된다. 이를 실제로 구현하기 위해서 SVM은 두 범주 간의 거리(margin)가 최대가 되도록 하는 최적 경계선(optimal separating hyperplane)을 만들어 이진 데이터(binary class data)를 분류하게 된다. 실제 분류 문제들은 대부분 다범주 분류(multi-class classification) 문제이기 때문에 기존의 이진 분류 SVM을 다범주 분류 SVM으로 확장하는 과정이 필요하다. 종래기술에서의 접근법들은 다범주 문제를 여러 개의 이진 분류 문제의 집합으로 나누어 각각에 기존의 이진 분류 SVM을 적용하는 형태였다. 예를 들어, one-against-all 알고리즘은 C개의 범주를 가지는 다범주 문제를 C개의 이진 분류 문제들로 나눈다. 여기서, 각각의 이진 분류 문제들은 특정한 한 범주와 나머지 (C-1)개의 범주들로 구성되어 있다. one-against- one(pair-wise) 알고리즘은 C개의 범주를 가지는 다범주 문제를 C(C-1)/2개의 이진 분류 문제들로 나눈다. 여기서, 각각의 이진 분류 문제들은 각 범주들의 쌍(pair)으로 구성되어 있다. 하지만, 이러한 접근법은 다범주 분류기를 이진 분류기의 조합으로 구성하는 구조상의 한계를 지니고 있다. 이로 인해 입력 공간에서 분류가 불가능한 영역 또는 분류가 매우 부정확한 영역이 존재할 수 있게 된다. 또한 여러 개의 이진 분류기를 학습해야 하기 때문에 대용량의 데이터에 대해서는 많은 계산 시간이 필요하다는 단점이 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는, SVDD를 통해 범주별로 분할된 데이터들의 유사-분포 함수를 추정하고 이를 통해 사후확률 함수를 구한 후, 베이지안 최적 결정이론에 기반하여 분류함으로써, 다범주 분류 문제에 있어서 더 정확한 분류 예측도를 보이면서 불균형 데이터(unbalanced data)에도 적용가능하고, 그리고 분류 확률 정보까지 제공하는 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체를 제공하는 데 있다.
상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법은, (a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계; (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 구하는 단계; (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
Figure 112006087472985-PAT00004
)를 추정하는 단계; 및 (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(
Figure 112006087472985-PAT00005
)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.
Figure 112006087472985-PAT00006
상기 수학식에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상(mapping)된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
바람직하게는, 상기 다범주 분류 방법은 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 단계 (e)를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 c개의 데이터 집합은 디스조인트 서브세트(disjoint subset)인 것을 특징으로 한다.
바람직하게는, 상기 단계 (b)는 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피 쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 단계 (d)는 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 단계 (d)는 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 한다.
바람직하게는, 상기 c개의 범주 중 k번째 범주의 데이터 개수가 N k 일 때, 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N k /N으로 추정하는 것을 특징으로 한다.
상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주 분류 장치는, 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 입력받아 상기 N개의 데이터를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 데이터 분할 모듈; 상기 c개 의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 추출하는 가우시안 커널 서포트 함수 추출 모듈; 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
Figure 112006087472985-PAT00007
)를 추정하는 유사 분포 함수 추정 모듈; 및 상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 데이터 분류 모듈을 포함하고, 상기 유사 분포 함수(
Figure 112006087472985-PAT00008
)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.
Figure 112006087472985-PAT00009
상기 수학식 에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
바람직하게는, 상기 다범주 분류 장치는 상기 데이터 분류 모듈을 통해 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 예측 모듈을 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 c개의 데이터 집합은 디스조인트 서브세트(disjoint subset)인 것을 특징으로 한다.
바람직하게는, 상기 가우시안 커널 서포트 함수 추출 모듈은 상기 c개의 데 이터 집합에 각각 SVDD를 적용하여, 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 것을 특징으로 한다.
바람직하게는, 상기 가우시안 커널 서포트 함수 추출 모듈은 SVDD 모델을 최적화하여 상기 c개의 데이터 집합 각각에 대한 가우시안 커널 서포트 함수를 구하기 위해 QP 솔버(quadratic programming solver)를 사용하는 것을 특징으로 한다.
바람직하게는, 상기 데이터 분류 모듈은 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 것을 특징으로 한다.
바람직하게는, 상기 데이터 분류 모듈은 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 것을 특징으로 한다.
바람직하게는, 상기 데이터 분류 모듈은 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 한다.
바람직하게는, 상기 c개의 범주 중 k번째 범주의 데이터 개수가 N k 일 때, 상기 데이터 분류 모듈은 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N k /N으로 추정하는 것을 특징으로 한 다.
상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주 분류 프로그램이 저장된 컴퓨터 판독가능 저장매체는, 상기 다범주 분류 프로그램이, (a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하기 위한 코드; (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 구하기 위한 코드; (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
Figure 112006087472985-PAT00010
)를 추정하기 위한 코드; 및 (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하기 위한 코드를 포함하고, 상기 유사 분포 함수(
Figure 112006087472985-PAT00011
)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.
Figure 112006087472985-PAT00012
상기 수학식에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
바람직하게는, 상기 다범주 분류 프로그램은 상기 코드 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하기 위한 코드 (e)를 더 포함하는 것을 특징으로 한다.
이하에서, 베이지안 최적 결정이론 및 SVDD 알고리즘을 간략히 소개하고, 그 다음 첨부도면들을 참조하여 본 발명을 상세히 설명하기로 한다.
베이지안 최적 결정 이론( Bayesian optimal decision theory )
베이지안 결정 이론에 따르면, 사전확률(prior probability;
Figure 112006087472985-PAT00013
)과 범주별-조건부 분포 함수(class-conditional densities,
Figure 112006087472985-PAT00014
)를 안다면 최적의 분류기를 구축할 수 있다. 즉, 베이즈 공식에 의해서 사후확률(posterior probabilities)을 하기 수학식 1과 같이 구할 수 있다.
Figure 112006087472985-PAT00015
상기 수학식 1에서, c는 범주의 개수이고
Figure 112006087472985-PAT00016
i번째 범주를 나타낸다. 베이지안 최적 결정 규칙은 하기 수학식 2와 같이 c개의 사후확률 중에 가장 큰 값을 가지는 범주
Figure 112006087472985-PAT00017
로 분류하는 것이다. 이는 분류에 있어서 오차확률을 최소화한다.
Figure 112006087472985-PAT00018
일반적인 분류문제에서는 사전확률의 추정은 어렵지 않다. 대게 범주별로 같 은 값으로 가정하거나 단순히
Figure 112006087472985-PAT00019
으로 계산한다. 이에 비해 범주별-조건부 분포 함수의 추정은 상대적으로 어려운 작업이다. 지난 수십 년간 다양한 분포 추정 알고리즘이 개발되었으며, 이들은 모수적(parametric) 접근법, 비모수적(non-parametric) 접근법, 및 부분-모수적(semi-parametric) 접근법 3가지로 나눌 수 있다.
첫째로, 모수적 접근법은 매개 변수를 포함하는
Figure 112006087472985-PAT00020
의 함수 형태를 가정한다. 가장 간단하면서도 널리 이용되는 형태가 하기 수학식 3과 같은 정규 분포이다.
Figure 112006087472985-PAT00021
이러한 접근법의 단점은, 가정한 함수의 형태가 실제 데이터의 분포를 잘 묘사할 수 없는 경우에 있다.
둘째로, 부분-모수적 접근법은 하기 수학식 4와 같이 유한개의 가우시안 분포의 조합의 형태를 띄고 있다.
Figure 112006087472985-PAT00022
상기 수학식 4에서,
Figure 112006087472985-PAT00023
는 가우시안 함수의 형태인 k번째 성 분(component)이다.
Figure 112006087472985-PAT00024
는 각 성분의 영향도를 나타내는 매개변수이다. 부분-모수적 접근법에서는 각각의 데이터를 생성하는데 어떤 가우시안 성분이 영향을 미치는지를 알 수 없으며 각 성분의 개수를 결정하고 그 매개 변수를 추정하기 위해서는 대개 반복 계산이 필요한 EM 알고리즘이 필요하므로 많은 계산 비용이 든다.
셋째로, 비모수적 접근법은 하기 수학식 5와 같이 함수의 형태를 커널함수(kernel functions)의 가중합으로 둔다.
Figure 112006087472985-PAT00025
상기 비모수적 접근법은 3가지 접근법 중에서 가장 우수한 분포묘사 능력을 가진 반면, 데이터의 수가 많아짐에 따라 결정해야 할 매개변수의 수도 증가하여 이를 추정하는데 어려움이 있다.
SVDD( Support vector domain description )
분포 추정을 위한 기존의 방법론들은 분포 묘사능력과 계산복잡도 사이에 트트레이드 오프(trade-off)가 존재한다. 이러한 문제를 해결하기 위해서 본 발명에 따른 다범주 분류 방법은 SVDD(support vector domain description)를 이용하고자 한다. SVDD를 통해 얻어지는 커널 서포트 함수(trained kernel support function)는 데이터 서포트(support)의 특성을 잘 묘사하기 때문에, 상기 커널 서포트 함수를 이용하여 유사 분포 함수(pseudo-density function)를 추정하는데 이용하고자 한다.
SVDD의 기본 아이디어는 먼저 데이터들을 비선형 변환을 통해 고차원의 피쳐(feature) 공간으로 사상(mapping)시킨 뒤, 상기 피쳐 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾는다. 상기 가장 작은 반지름을 가지는 구를 입력 공간으로 다시 역으로 사상시키면 입력 데이터들은 몇 개의 군집으로 나뉘게 된다. 좀 더 자세히 설명 하자면, 먼저
Figure 112006087472985-PAT00026
를 입력 데이터라고 하자. 비선형 변환함수
Figure 112006087472985-PAT00027
를 이용하여 고차원의 피쳐(feature) 공간으로 사상시키고, 그 공간에서 사상된 점들을 포함하는 가장 작은 반지름 R을 가지는 구를 다음과 같은 최적화 식으로 찾게 된다.
Figure 112006087472985-PAT00028
상기 수학식 6에서, a는 구의 중심이며
Figure 112006087472985-PAT00029
는 일부 사상된 점들이 구 밖으로 나가는 것을 허용하는 slack 변수이다. 이 문제를 풀기 위해 상기 수학식 6을 아래와 같은 라그랑지안식으로 바꾸고
Figure 112006087472985-PAT00030
Figure 112006087472985-PAT00031
,
Figure 112006087472985-PAT00032
로 두면,
Figure 112006087472985-PAT00033
및 하기 수학식 7을 유도할 수 있 다.
Figure 112006087472985-PAT00034
상기 결과를 이용하여 primal 문제인 상기 수학식 6을 dual 문제인 하기 수학식 8과 같이 유도할 수 있고 이를 최적화 함으로 상기 수학식 6의 해를 구할 수 있다.
Figure 112006087472985-PAT00035
상기 수학식 8에서, 매개변수 q를 가지는 가우시안 커널
Figure 112006087472985-PAT00036
Figure 112006087472985-PAT00037
를 이용하였다. 여기서, 오직
Figure 112006087472985-PAT00038
인 점들만 구의 표면에 존재하며 이를 서포트 벡터(support vector)라 한다. 커널 서포트 함수는 상기 수학식 8을 통해 구한 구의 중심과 주어진 사상된 점의 거리를 나타내는 함수로 하기 수학식 9와 같다.
Figure 112006087472985-PAT00039
따라서, 데이터의 서포트(suppport)는
Figure 112006087472985-PAT00040
에 의해 묘사된다. 여기서 임의의 서포트 벡터(
Figure 112006087472985-PAT00041
)에 대해
Figure 112006087472985-PAT00042
이다.
이하에서는, 첨부도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불명료하게 할 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략될 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있을 것이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용들 토대로 내려져야 할 것이다.
도 1에는, 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 방법에 관한 흐름도가 도시되어 있다.
먼저 학습데이터(training data;
Figure 112006087472985-PAT00043
)는 입력변수
Figure 112006087472985-PAT00044
와 그 출력값인 범주를 나타내는
Figure 112006087472985-PAT00045
로 구성되어 있다. 본 발명에 따른 다범주 분류 방법의 핵심 아이디어는 각 범주별로 데이터를 나눈 후, 각 범주 별 데이터의 분포 함수를 SVDD를 이용하여 추정하고, 그리고 추정된 분포 함수를 이용하여 베이지안 결정 이론을 적용함으로써 데이터를 분류하는 것이다. 도 1을 참조하면, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법은 다음의 단계들을 포함한다.
단계 (a; 데이터 분할): 먼저 범주의 개수가 c개인 학습 데이터를 각 범주 별로 c개의 디스조인트 서브세트(disjoint subset;
Figure 112006087472985-PAT00046
)로 나눈다(S100). 예를 들면 k번째 서브세트
Figure 112006087472985-PAT00047
는 하기 수학식 10과 같이
Figure 112006087472985-PAT00048
개의 데이터를 가진다.
Figure 112006087472985-PAT00049
단계 (b; 각 범주별 데이터에 SVDD 적용): 각각의 범주별 데이터 집합인
Figure 112006087472985-PAT00050
에 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수를 구한다(S110). 즉, 상기 수학식 8을 최적화하여 구한 해를
Figure 112006087472985-PAT00051
라 하고
Figure 112006087472985-PAT00052
이면 각 범주별 데이터 집합
Figure 112006087472985-PAT00053
에 대한 가우시안 서포트 함수는 하기 수학식 11과 같다.
Figure 112006087472985-PAT00054
단계 (c; 유사 분포 함수 추정): 각각의 범주 k=1,…,c에 대해 하기 수학식 12와 같이 유사 분포 함수(pseudo-density function)를 추정할 수 있다(S120). 이는 범주별-조건부 분포 함수(class-conditional densities,
Figure 112006087472985-PAT00055
)로 이용된다.
Figure 112006087472985-PAT00056
상기 수학식 12에서,
Figure 112006087472985-PAT00057
이며
Figure 112006087472985-PAT00058
는 서포트 벡터이다.
단계 (d; 추정한 유사-사후확률을 이용하여 분류하기): 각각의 범주 k=1,…,c에 대해 하기 수학식 13과 같이 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정할 수 있다.
Figure 112006087472985-PAT00059
상기 수학식 13에서,
Figure 112006087472985-PAT00060
는 상기 단계 3에서 구한 유사-분포 함수이다. 그러면 본 발명에 따른 다범주 분류 방법은 주어진 x에 대해 베이지안 최적 결정 이론을 기반으로 다음과 같이 분류할 수 있다(S130).
Figure 112006087472985-PAT00061
본 발명에 따른 SVDD를 이용한 다범주 분류 방법은, 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류(S140)하는 단계 (e)를 더 포함할 수 있다.
도 2a 내지 도 2d에는 triangle 데이터에 본 발명에 따른 다범주 분류 방법을 적용한 결과가 도시되어 있다.
도 2a 내지 도 2d를 참조하면, 상기 triangle 데이터는 3종류의 범주를 가지고 있다. 상기 단계 1에서, 상기 triangle 데이터를 각 범주에 따라 3개의 데이터 세트로 나눈다. 상기 단계 2에서, 각각의 데이터 세트에 대해 SVDD를 수행한다. 상 기 단계 3에서는, 상기 단계 2에서 구한 가우시안 커널 서포트 함수를 이용하여 상기 수학식 12와 같이 유사-분포 함수를 추정한다. 도 2a 내지 도 2c에는 각 범주별로 구한 3개의 유사-분포함수가 나타나있다. 상기 단계 4에서, 상기 수학식 13에 의해 추정된 사후확률 분포 함수를 통해 최종 결정 경계선(decision boundary)을 구할 수 있다. 이는 도 2d에 굵은 실선으로 나타나있다.
상기 수학식 12와 같이 유사-분포함수를 추정하는 것은 상기 기존의 분포 추정 방법론들에 비해 몇 가지 좋은 성질이 있다. 첫 째,
Figure 112006087472985-PAT00062
는 범주별-조건부 분포 함수의 점근적 추정값(asymptotic estimate)이다. 이는 하기 정리 1에서 증명된다. 둘째, 상기 수학식 8에 의해서 최적화된 결과 전체 데이터 중에 작은 비율의 데이터에 대해서만 매개변수가 0이 아닌 값을 가지므로(이를 support vector라 함), 추정된 함수인
Figure 112006087472985-PAT00063
를 계산하는 시간을 상당히 감소시킬 수 있다. 마지막으로, 유한한 샘플 크기에서
Figure 112006087472985-PAT00064
는 범주별-조건부 분포 함수의 서포트(support)를 추정한다. 이는 하기 정리 2에서 증명된다. 또한, 상기 추정 함수는 여러 개의 꼭지점(multi-modal)을 가지는 비선형의 복잡한 분포나 노이즈가 있는 분포까지 잘 묘사할 수 있다. 이는 도 3a 내지 도 3d에 잘 나타나 있다.
도 3a 내지 도3d에는, 본 발명에 따른 다범주 분류 방법의 단계 (b) 및 단계 (c)에 의한 결과가 예시되어 있다. 도 3a에는 본 발명에 따른 방법에 의해 3개의 가우시안 분포 조합에서 임의로 추출된 k번째 범주의 데이터가 예시되어 있다. 도 3b에는 본 발명에 따른 방법의 단계 (b)에서 구해진 가우시안 커널 서포트 함 수(f k (x))가 예시되어 있다. 도 3c에는 본 발명에 따른 방법의 단계 (c)에서 구해진 유사 분포 함수가 예시되어 있다. 도 3d에는 본 발명에 따른 방법에 의해 구해진 유사 분포 함수의 서포트가 굵은 실선으로 나타나있다.
이하에서는, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 이론적 근거를 제시한다.
하기 정리 1 에서는, 많은 수의 데이터에 대한 범주별-조건부 분포 함수(class-conditional density)를 추정하기 위해 본 명세서에서 제시한 유사-분포 함수(pseudo-density function)의 점근적 수렴(asymtotic convergence) 성질을 보이겠다. 하기 정리 2에서는, 유한한 데이터 분포함수의 서포트(support)에 대한 추정오차를 나타내는 일반화 오차(generalization error)을 이론적으로 유도하겠다.
정리 1
N개의 데이터
Figure 112006087472985-PAT00065
는 임의의 미지 확률(unknown probability; p(x))에서 i.i.d.(independently and identically distributed)로 추출하였다고 하자. 그리고 p(x)의 추정치인
Figure 112006087472985-PAT00066
는 하기 수학식 14와 같다.
Figure 112006087472985-PAT00067
상기 수학식 14에서
Figure 112006087472985-PAT00068
Figure 112006087472985-PAT00069
Figure 112006087472985-PAT00070
를 만족하는 계수의 집합이다. 매개변수
Figure 112006087472985-PAT00071
이 다음의 조건을 만족한다고 가정하자.
Figure 112006087472985-PAT00072
그러면, 추정치
Figure 112006087472985-PAT00073
는 p(x)에 수렴한다. 즉, 다음을 만족하게 된다.
Figure 112006087472985-PAT00074
Figure 112006087472985-PAT00075
증명:
Figure 112006087472985-PAT00076
라고 하자. 그러면,
Figure 112006087472985-PAT00077
이 되고,
Figure 112006087472985-PAT00078
Figure 112006087472985-PAT00079
이 무한대로 갈 때,
Figure 112006087472985-PAT00080
이 중심인 디랙 델타 함수(Dirac delta function; 함수값이 1이되고 나머지는 0인 함수)가 된다. 상기 사실을 통해, 아래와 같이 N 이 무한대가 될 때
Figure 112006087472985-PAT00081
의 기대값이 p(x)가 됨을 유도할 수 있다.
Figure 112006087472985-PAT00082
이는
Figure 112006087472985-PAT00083
이고,
Figure 112006087472985-PAT00084
가 되면
Figure 112006087472985-PAT00085
이 되기 때문이다.
Figure 112006087472985-PAT00086
가 통계적으로 독립인 확률변수(random variable)의 합의 형태이기 때문에
Figure 112006087472985-PAT00087
의 분사 또한 개별 확률변수의 분산의 합의 형태를 띈다. 따라서,
Figure 112006087472985-PAT00088
의 분산은 다 음과 같이 유도할 수 있다.
Figure 112006087472985-PAT00089
이는
Figure 112006087472985-PAT00090
이고
Figure 112006087472985-PAT00091
에 따라
Figure 112006087472985-PAT00092
= 0이 되기 때문이다.
정리 2
N개의 데이터
Figure 112006087472985-PAT00093
는 임의의 미지 확률(p(x))에서 i.i.d.로 추출하였다고 하자. 상기 수학식 6을 최적화 하여 상기 수학식 9와 같이 해 f를 구하였다고 가정하자.
Figure 112006087472985-PAT00094
Figure 112006087472985-PAT00095
은 레벨 r에 대한 결정되는 영역(즉, support)이라 하자. 그러면,
Figure 112006087472985-PAT00096
의 임의의 확률변수에 관하여,
Figure 112006087472985-PAT00097
인 값에 대해, 확률
Figure 112006087472985-PAT00098
Figure 112006087472985-PAT00099
Figure 112006087472985-PAT00100
에 포함되지 않을 확률의 바운드(bound)를 다음 식과 같이 유도될 수 있다(이는 추출되는 데이터가 서포트에 속하는 확률에 대한 하한선(lower bound)를 줄 수가 있다).
Figure 112006087472985-PAT00101
상기 식에서,
Figure 112006087472985-PAT00102
Figure 112006087472985-PAT00103
Figure 112006087472985-PAT00104
이고,
Figure 112006087472985-PAT00105
f의 임의의 서포트 벡터(
Figure 112006087472985-PAT00106
)에 대한
Figure 112006087472985-PAT00107
이다.
증명: 데이터가 대부분의 데이터를 포함하는 작은 영역에 포함되면 +1을 취하고, 그 영역 밖에 존재하면 -1을 가지는 함수를 찾는 문제를 고려해 보자. 이는 데이터를 피쳐 공간(feature space)으로 변환하고 변환된 공간에서 원점에서 거리가 가장 먼 마진(margin)을 찾는 문제로 수식화할 수 있다. 이는 하기 수학식 15와 같은 QP(quadratic programming)로 모형화할 수 있다.
Figure 112006087472985-PAT00108
그러면, 함수
Figure 112006087472985-PAT00109
는 하기 수학식 16 및 하기 수학식 17과 같이 주어진다.
Figure 112006087472985-PAT00110
Figure 112006087472985-PAT00111
상기 수학식 17에서,
Figure 112006087472985-PAT00112
는 하기 수학식 18과 같은 상기 수학식 15의 wolf dual 문제의 해이다.
Figure 112006087472985-PAT00113
상기 수학식 16은
Figure 112006087472985-PAT00114
의 부호를 결정하여 상기 수학식 15 문제를 해결하는 의사결정 함수이다. 여기서
Figure 112006087472985-PAT00115
는 임의의 서포트 벡터(
Figure 112006087472985-PAT00116
)에 대한
Figure 112006087472985-PAT00117
이다. 가우시안 커널을 쓰는 경우 (즉,
Figure 112006087472985-PAT00118
), 상기 수학식 18은 상기 수학식 8과 동등하게(equivalent) 된다. 따라서 상기 수학식 8과 상기 수학식 18 사이에서 아래와 같은 관계를 얻을 수 있다.
Figure 112006087472985-PAT00119
그러므로, 다음 식과 같이 변환함으로써 참고논문 B. Schoelkpf, J.C. Platt, J. Shawe-Taylor 및 A.J. Smola, Estimating the support of a high-dimensional distributions, Neural Comput. 13 (2001), pp. 1443 1471.의 정리 1의 일반화 에러 바운드(generalization error bound)를 바로 적용하여 정리 2의 확률의 바운드를 유도할 수 있다.
Figure 112006087472985-PAT00120
이하에서는, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 성능을 실험적으로 검증한 결과를 설명하도록 한다. 데이터 세트에 대한 추가적인 정보는 하기 표 1과 같다.
인위적 데이터( Artificial data ): twospiral, tae, OXours, triangle, ring, 및 orange 데이터는 다양한 다범주 분류 방법들과 본 발명에 따른 다범주 분류 방법의 일반화 성능을 검증하기 위해 아주 복잡한 비선형 형태의 분포에서 임의로 추룰한 데이터이다.
작은 스케일 실세계 데이터( Small - scale real - world data ): heart, sonar, iris, wine, vehicle, vowel는 USI 머신 학습 리포지토리(UCI machine learning repository; http://www.ics.uci.edu/mlearn/MLRepository.html, UCI Repository of machine learning databases 참조)와 Statlog 데이터베이스(D. Michie, D.J. Spiegelhalter and C.C. Taylor, Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK (1994). 참조)에서 제공하는 데이터들이다.
큰 스케일 실세계 데이터( Large - scale real - world data ): shuttle, DNA (DNA sequence에서 exon과 intron을 분류하는 문제), satimage (위성 사진을 분류하는 문제), segment (image segmentation data), letter (영어 알파벳 사진을 분류하는 문제; D. Michie, D.J. Spiegelhalter and C.C. Taylor, Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK (1994). 참조), Uspst (필기체 인식 문제), 및 Coil20 (20개의 물체 사진을 분류하는 문제; 도 4a 및 도 4b와 O. Chapelle, A. Zien, Semi-supervised classification by low density separation, Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, 2005, pp. 57 64. 참조).
도 4a에는, Coil20 데이터 세트로서 20개의 상이한 물체 이미지들이 예시되어 있다. 도 4b에는, Coil20 데이터 세트의 첫 번째 범주에 속하는 이미지 데이터로서 서로 다른 각도에서 촬영된 이미지들이 예시되어 있다.
Figure 112006087472985-PAT00121
실험 조건에 관한 열에서 structure는 BR-NN의 네트워크 구조를 의미하고 h는 BDM-Parzen의 윈도우 사이즈를 말하고
Figure 112006087472985-PAT00122
는 1-1-SVM, 1-all-SVM, 및 본 발명에 따른 방법(proposed method)의 가우시안 커널의 매개 변수값이다.
본 발명에 따른 방법과 다음 6개의 대표적인 분류기들, LDA(linear discriminant analysis), QDA(quadratic discriminant analysis), BDM-parzen(parzen windows를 이용한 Bayesian decision method), BR-NN(Bayesian regularization neural network), 1-1-SVM(one-against-one SVM), 및 1-all-SVM(one-against-all SVM)의 성능을 비교하였다. 성능을 평가하기 위한 척도는 training 오차와 test 오차(하기 표 2 참조), 모델 구축 시간(하기 표 3 참조)을 사용하였다.
실험에 있어서, 모델 선택(model selection) 과정을 수행하여 최적의 매개변수를 선택하였다. 즉, training 데이터로 여러 개의 모델을 구축하고 이 모델들에 대한 test 데이터에 대한 오차율 가장 낮은 모델에 이용된 매개변수를 실험에 이용하였다. 실험 시간을 단축하기 위해 상기 수학식 12와 추정한 유사-분포 함수의 q값을 모든 범주별 데이터에 동일하게 사용하였다. 상기 수학식 12에서 C=1로 하였다. 실험에 사용한 구체적인 매개 변수값은 상기 표1에 기술하였다. 또한 상기 표 1에서 struct는 BR-NN의 네트워크 구조를 의미한다. 예를 들어 13-20-2는 입력 레이어(input layer), 히든 레이어(hidden layer), 및 출력 레이어(output layer)에 각각 13개, 20개, 2개의 노드가 사용되었음을 의미한다.
실험 결과는 도 5a 내지 도 5f와 하기 표 2 및 하기 표 3에 정리하였다. 도 5a 내지 도 5f에는, 매우 복잡한 분포(two-spiral) 데이터를 포함하는 다양한 다범주 분류 문제에서 본 발명에 따른 방법에 관한 알고리즘을 적용하여 얻은 결정 경계선이 굵은 실선으로 나타나있다.
Figure 112006087472985-PAT00123
실험 결과: 오차율(%)
*가 표시된 데이터는 정규화하였으며, N/A는 계산불가를 의미한다.
Figure 112006087472985-PAT00124
실험 결과: 모델 구축 시간(초)
상기 표 2 및 상기 표 3에서 train은 training error(%), test는 test error(%), 그리고 time은 모델 구축 시간(초)을 의미한다.
실험 결과 본 발명에 따른 다범주 분류 방법이 다양한 범주 문제에 있어서 는 물론, 이진 문제에 있어서도 분류 정확도와 효율성 측면에서 우수한 성능을 보이거나 적어도 어느 정도 경쟁력이 있음을 알 수 있다.
본 발명에 따른 다범주 분류 방법과 기존의 SVM 방법들의 계산 복잡도를 분석하고자 한다. 먼저 N을 학습 데이터의 개수, c를 범주의 개수라 하자. 제안하는 방법론과 기존의 SVM 방법론들은 모두 QP를 풀어야 하며 QP 솔버는 대개
Figure 112006087472985-PAT00125
의 계산 복잡도를 가지고 있다(J.C. Platt, Fast training of support vector machines using sequential minimal optimization, Advances in Kernel Methods: Support Vector Machines, MIT Press, Cambridge, MA, 1999, pp. 185 208. 참조). 따라서, 대용량의 다범주 문제의 경우 많은 계산 시간이 필요하다. 예를 들어, 상기 표 2에서 letter 데이터의 경우 메모리 문제로 인해 1-all-SVM을 적용할 수 없다. 일반적으로 다범주 분류를 위해 SVM 방법론은 1-1-SVM 또는 1-all-SVM 방법을 이용한다. 1-1-SVM은 다범주 문제를 (c·(c-1))/2 개의 이진 분류문제들의 조합으로 바꾸어 푼다. 여기서, 각각의 이진 데이터 세트는 (2N)/c 개의 데이터를 가진다. 따라서, 이들 이진 분류기를 조합한 다범주 분류기를 구축하기 위한 계산 복잡도는
Figure 112006087472985-PAT00126
이 된다. 1-all-SVM은 c개의 이진 SVM으로 구성되며 각각은 N개의 학습데이터를 가지고 있다. 따라서 계산 복잡도는
Figure 112006087472985-PAT00127
이 된다. 본 발명에 따른 방법은 상기 수학식 8과 같은 QP를 c개 풀어야 하고 각각의 범주별 데이터 세트의 샘플의 개수는 N/c개이다. 따라서 본 발명에 따른 방법의 계산 복잡도는
Figure 112006087472985-PAT00128
이 된다. 계산 복잡도 분석을 통해 제안하는 알고리즘이 우수한 계산 속도를 가짐을 알 수 있고 이러한 분석은 상기 표 3의 결과에서 알 수 있듯이 실험적으로도 검증된다.
도 6에는 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 장치에 관한 블록도가 도시되어 있다.
도 6을 참조하면, 본 발명에 따른 SVDD를 이용한 다범주 분류 장치(600)는, 데이터 분할 모듈(602), 가우시안 커널 서포트 함수 추출 모듈(604), 유사 분포 함수 추정 모듈(606), 및 데이터 분류 모듈(608)을 포함한다. 데이터 분할 모듈은(602)은 입력부(610)로부터 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 입력받아 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 상기 단계 (a)를 수행함으로써 c개의 디스조인트 서브세트(
Figure 112006087472985-PAT00129
)로 분할한다. 상기 가우시안 커널 서포트 함수 추출 모듈(604)은 본 발명에 따른 상기 방법의 상기 단계 (b)를 수행함으로써 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 추출한다. 유사 분포 함수 추정 모듈(606)은 본 발명에 따른 상기 방법의 상기 단계 (c)를 수행함으로써 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
Figure 112006087472985-PAT00130
)를 추정한다. 데이터 분류 모듈(608)은 상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용하는 본 발명에 따른 상기 방법의 상기 단계 (d)를 수행함으로써 데이터를 분류하고 분류 결과를 출력부(630)를 통해 출력되도록 한다. 예측 모듈(620)은 상기 데이터 분류 모듈(608)을 통해 구한 결과 모델을 저장하여 추후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류해주는 역할을 수행한다. 상기 예측 모듈(620)은 상기 다범주 분류 장치에 통합될 수 있다.
본 발명에 따른 SVDD를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체는 다양한 산업에 이용될 수 있는 기술이다.
예들 들면, LCD 모니터 제조업체에서 LCD 모니터 기판의 불량률이 2% 이하라면 양품 대 불량품 비율이 불균형(unbalance)하기 때문에, LCD 모니터 기판의 양품/불량품을 예측하는 모델에 있어서 본 발명은 높은 분류 정확도를 기대할 수 있도록 한다. 또한, 은행권에서도 점차 개인 신용평가 모델을 구축하고자 하고 있고, 그리고 신용고객 대 불량고객 비율은 불균형 데이터라고 할 수 있기 때문에, 고객의 파산 확률을 제공하여 최종적으로 신용고객/불량고객의 판단을 인간이 할 수 있도록 하는 의사결정 지원 시스템(decision supporting system) 등에 본 발명이 효과적으로 적용될 수 있다. 그 밖에도, 반도체 웨이퍼 불량 예측 문제, 컴퓨터 OS 시스템에서의 필기체 문자 인식 문제, 및 웹 서치 엔진에서의 XML 스키마 매칭 문제 등 다양한 분야에 적용 가능성을 가진다.
상술한 바와 같이, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체는, SVDD 모델을 이용하여 사후확률 분포를 직접적으로 추정하고 보정함으로써 다범주 분류 문제, 특히 불균형 데이터 분류에 있어서 향상된 성능을 보이며, 사용자가 결정해야하는 변수의 수와 모델 구축 시간을 감소시키는 이점을 제공한다.
이상에서, 본 발명의 바람직한 실시예에 대해 상세하게 기술하였지만, 첨부된 특허청구범위에 따른 본 발명의 사상 및 범위를 벗어나지 않으면서 여러 가지 다른 변형 또는 변경 실시가 가능함은 당업자에게 자명할 것이다. 따라서, 그와 같 은 본 발명의 변형 또는 변경 실시는 본 명세서에 첨부된 특허청구범위의 기재범위에 속하는 것으로 해석되어야 할 것이다.

Claims (19)

  1. SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법에 있어서,
    (a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계;
    (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 구하는 단계;
    (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
    Figure 112006087472985-PAT00131
    )를 추정하는 단계; 및
    (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(
    Figure 112006087472985-PAT00132
    )가 하기 수학식 1에 의해 추정되는 것을 특징으로 하는 다범주 분류 방법.
    <수학식 1>
    Figure 112006087472985-PAT00133
    상기 수학식 1에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
  2. 제1항에 있어서,
    상기 다범주 분류 방법이, 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 단계 (e)를 더 포함하는 것을 특징으로 하는 다범주 분류 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 c개의 데이터 집합이, 디스조인트 서브세트(disjoint subset)인 것을 특징으로 하는 다범주 분류 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 단계 (b)가, 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 단계 (d)가, 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
  6. 제5항에 있어서,
    상기 단계 (d)가, 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
  7. 제6항에 있어서,
    상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 하는 다범주 분류 방법.
  8. 제6항에 있어서,
    상기 c개의 범주 중 k번째 범주의 데이터 개수가 N k 일 때, 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확 률을 N k /N으로 추정하는 것을 특징으로 하는 다범주 분류 방법.
  9. SVDD(support vector domain description)를 이용한 다범주 분류 장치에 있어서,
    소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 입력받아 상기 N개의 데이터를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 데이터 분할 모듈;
    상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 추출하는 가우시안 커널 서포트 함수 추출 모듈;
    상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
    Figure 112006087472985-PAT00134
    )를 추정하는 유사 분포 함수 추정 모듈; 및
    상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 데이터 분류 모듈을 포함하고, 상기 유사 분포 함수(
    Figure 112006087472985-PAT00135
    )가 하기 수학식 2에 의해 추정되는 것을 특징으로 하는 다범주 분류 장치.
    <수학식 2>
    Figure 112006087472985-PAT00136
    상기 수학식 2에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
  10. 제9항에 있어서,
    상기 다범주 분류 장치가, 상기 데이터 분류 모듈을 통해 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 예측 모듈을 더 포함하는 것을 특징으로 하는 다범주 분류 장치.
  11. 제9항 또는 제10항에 있어서,
    상기 c개의 데이터 집합이 디스조인트 서브세트(disjoint subset)인 것을 특징으로 하는 다범주 분류 장치.
  12. 제9항 또는 제10항에 있어서,
    상기 가우시안 커널 서포트 함수 추출 모듈이, 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 것을 특징으로 하는 다범주 분류 장치.
  13. 제9항 또는 제10항에 있어서,
    상기 가우시안 커널 서포트 함수 추출 모듈이, SVDD 모델을 최적화하여 상기 c개의 데이터 집합 각각에 대한 가우시안 커널 서포트 함수를 구하기 위해 QP 솔버(quadratic programming solver)를 사용하는 것을 특징으로 하는 다범주 분류 장치.
  14. 제9항 또는 제10항에 있어서,
    상기 데이터 분류 모듈이, 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 것을 특징으로 하는 다범주 분류 장치.
  15. 제14항에 있어서,
    상기 데이터 분류 모듈이, 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 것을 특징으로 하는 다범주 분류 장치.
  16. 제15항에 있어서,
    상기 데이터 분류 모듈이, 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 하는 다범주 분류 장치.
  17. 제15항에 있어서,
    상기 c개의 범주 중 k번째 범주의 데이터 개수가 N k 일 때, 상기 데이터 분류 모듈이 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N k /N으로 추정하는 것을 특징으로 하는 다범주 분류 장치.
  18. SVDD(support vector domain description)를 이용한 다범주 분류 프로그램이 저장된 컴퓨터 판독가능 저장매체에 있어서,
    (a) 상기 다범주 분류 프로그램이, 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하기 위한 코드;
    (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f k (x))를 구하기 위한 코드;
    (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
    Figure 112006087472985-PAT00137
    )를 추정하기 위한 코드; 및
    (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하기 위한 코드를 포함하고, 상기 유사 분포 함수(
    Figure 112006087472985-PAT00138
    )가 하기 수학식 3에 의해 추정되는 것을 특징으로 하는 컴퓨터 판독가능 저장매체.
    <수학식 3>
    Figure 112006087472985-PAT00139
    상기 수학식 3에서, r k k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
  19. 제18항에 있어서,
    상기 다범주 분류 프로그램이, 상기 코드 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하기 위한 코드 (e)를 더 포함하는 것을 특징으로 하는 다범주 분류 방법.
KR1020060117938A 2006-11-27 2006-11-27 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체 KR100842215B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060117938A KR100842215B1 (ko) 2006-11-27 2006-11-27 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060117938A KR100842215B1 (ko) 2006-11-27 2006-11-27 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체

Publications (2)

Publication Number Publication Date
KR20080047915A true KR20080047915A (ko) 2008-05-30
KR100842215B1 KR100842215B1 (ko) 2008-06-30

Family

ID=39664218

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060117938A KR100842215B1 (ko) 2006-11-27 2006-11-27 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체

Country Status (1)

Country Link
KR (1) KR100842215B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242733B1 (ko) * 2011-01-10 2013-03-12 고려대학교 산학협력단 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템
KR101275695B1 (ko) * 2011-10-26 2013-06-18 성균관대학교산학협력단 학습 성과 추론 방법 및 장치
CN103675525A (zh) * 2013-11-14 2014-03-26 南京航空航天大学 基于多svdd模型的dc-dc变换器健康监测与故障预测方法
KR20160037022A (ko) * 2014-09-26 2016-04-05 삼성전자주식회사 부스트 풀링 뉴럴 네트워크 기반의 데이터 분류 장치 및 그 데이터 분류 장치를 위한 뉴럴 네트워크 학습 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838705B (zh) * 2012-11-26 2016-12-07 中国航天科工集团第三研究院第八三五七研究所 一种球型分布数据专用线性二分类计算方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242733B1 (ko) * 2011-01-10 2013-03-12 고려대학교 산학협력단 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템
KR101275695B1 (ko) * 2011-10-26 2013-06-18 성균관대학교산학협력단 학습 성과 추론 방법 및 장치
CN103675525A (zh) * 2013-11-14 2014-03-26 南京航空航天大学 基于多svdd模型的dc-dc变换器健康监测与故障预测方法
CN103675525B (zh) * 2013-11-14 2017-01-18 南京航空航天大学 基于多svdd模型的dc‑dc变换器健康监测与故障预测方法
KR20160037022A (ko) * 2014-09-26 2016-04-05 삼성전자주식회사 부스트 풀링 뉴럴 네트워크 기반의 데이터 분류 장치 및 그 데이터 분류 장치를 위한 뉴럴 네트워크 학습 방법

Also Published As

Publication number Publication date
KR100842215B1 (ko) 2008-06-30

Similar Documents

Publication Publication Date Title
US20210365826A1 (en) Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
Ghasedi Dizaji et al. Deep clustering via joint convolutional autoencoder embedding and relative entropy minimization
Liang et al. On the sampling strategy for evaluation of spectral-spatial methods in hyperspectral image classification
Montavon et al. Wasserstein training of restricted Boltzmann machines
Van der Maaten et al. Visualizing data using t-SNE.
Lee et al. Domain described support vector classifier for multi-classification problems
Bouveyron et al. Robust supervised classification with mixture models: Learning from data with uncertain labels
US20180247200A1 (en) Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
Bermejo et al. Adaptive soft k-nearest-neighbour classifiers
Li et al. Classification approach based on non-negative least squares
CN111046900A (zh) 基于局部流形正则化的半监督生成对抗网络图像分类方法
Tixier et al. Graph classification with 2d convolutional neural networks
CN109034186B (zh) 基于da-rbm分类器模型的手写数据识别方法
Laaksonen Subspace classifiers in recognition of handwritten digits
Merchante et al. An efficient approach to sparse linear discriminant analysis
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
KR100842215B1 (ko) 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체
Srivatsan et al. A deep factorization of style and structure in fonts
EP3663980A1 (en) Automatic generation of a new class in a classification system
US20210300390A1 (en) Efficient computational inference using gaussian processes
Kerenidis et al. Quantum expectation-maximization for Gaussian mixture models
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Bhadra et al. Merging two cultures: deep and statistical learning
Imani et al. Semi-supervised Persian font recognition
Walchessen et al. Neural likelihood surfaces for spatial processes with computationally intensive or intractable likelihoods

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee