KR20080047915A

KR20080047915A - 서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및장치와 그에 사용되는 컴퓨터 판독가능 저장매체

Info

Publication number: KR20080047915A
Application number: KR1020060117938A
Authority: KR
Inventors: 이대원; 이재욱
Original assignee: 포항공과대학교 산학협력단
Priority date: 2006-11-27
Filing date: 2006-11-27
Publication date: 2008-05-30
Also published as: KR100842215B1

Abstract

본 발명은 SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것이다. 본 발명에 따른 SVDD를 이용한 다범주 분류 방법은, 소정 개수(c)의 범주로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계; 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(f _k (x))를 구하는 단계; 상기 c개의 범주 각각에 대한 유사 분포 함수(

)를 추정하는 단계; 및 상기 유사 분포 함수를 범주별-조건부 분포 함수로 사용하여 베이지안 최적 결정 이론을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(

)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.

상기 수학식에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.

Description

서포트 벡터 도메인 묘사를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체{Method and apparatus for multi-class classification using support vector domain description, and computer-readable storage medium used thereto}

도 1은 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 방법을 예시하는 흐름도이다.

도 2a 내지 도 2d는 triangle 데이터에 본 발명에 따른 방법을 적용한 결과를 예시하는 도면이다.

도 3a는 본 발명에 따른 방법에 의해 3개의 가우시안 분포 조합에서 임의로 추출된 k번째 범주의 데이터를 예시하는 도면이다.

도 3b는 본 발명에 따른 방법의 단계 (b)에서 구해진 가우시안 커널 서포트 함수(f _k (x))를 예시하는 도면이다.

도 3c는 본 발명에 따른 방법의 단계 (c)에서 구해진 유사 분포 함수를 예시하는 도면이다.

도 3d는 본 발명에 따른 방법에 의해 구해진 유사 분포 함수의 서포트를 예시하는 도면이다.

도 4a는 Coil20 데이터 세트의 20개의 상이한 물체 이미지들을 예시하는 도면이다.

도 4b는 Coil20 데이터 세트의 첫 번째 범주에 속하는 이미지 데이터로서 서로 다른 각도에서 촬영된 이미지를 예시하는 도면이다.

도 5a 내지 도 5f는 2차원 데이터 세트들에 대한 실험 결과를 보여주는 도면이다.

도 6은 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 장치를 예시하는 블록도이다.

본 발명은 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것으로서, 더 상세하게는 SVDD(support vector domain description)를 이용하여 각 범주별로 사후확률(posterior probability) 분포를 추정함으로써 데이터를 분류하는 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체에 관한 것이다.

다범주 분류기(Multi-class classifier)는 패턴인식, 금융공학, 데이터 마이닝 등에 널리 사용되는 중요한 기술이다. 즉, 주어진 데이터를 이용하여 분류기를 학습하고 학습된 분류기를 이용하여 미래의 데이터에 대해 상기 데이터가 어떤 범주에 속하는지를 예측하는 모델이다. 사람이 손으로 쓴 숫자를 0 내지 9의 숫자 중 어느 하나로 인식하는 것은 다범주 분류기가 적용되는 대표적인 예라고 할 수 있다.

기존의 대표적인 분류기는 의사 결정 나무, 로지스틱스 회귀모형, 인공 신경망, 및 서포트 벡터 머신(Support Vector Machine; SVM) 등이 있지만 이들은 각각 단점을 가지고 있다. 의사 결정 나무와 로지스틱스 회귀모형은 다른 모델에 비해 분류오차가 크다. 인공 신경망은 모델을 구축하는데 시간이 많이 걸리며 신경망의 구조를 결정해야 하는 어려움을 가지고 있다.

SVM은 원래 이진 분류 문제를 풀기 위해 고안되어 그동안 다양한 패턴 인식 문제에 성공적으로 응용되었다. SVM은 SRM(structured risk minimization) 이론에 기초를 두고 있다. 즉, 실험 오차와 모델 복잡도 사이의 트레이드 오프(trade-off)를 최적화하여 기대오차(expected error)의 상한선을 최소화하는 방향으로 분류기가 구축된다. 이를 실제로 구현하기 위해서 SVM은 두 범주 간의 거리(margin)가 최대가 되도록 하는 최적 경계선(optimal separating hyperplane)을 만들어 이진 데이터(binary class data)를 분류하게 된다. 실제 분류 문제들은 대부분 다범주 분류(multi-class classification) 문제이기 때문에 기존의 이진 분류 SVM을 다범주 분류 SVM으로 확장하는 과정이 필요하다. 종래기술에서의 접근법들은 다범주 문제를 여러 개의 이진 분류 문제의 집합으로 나누어 각각에 기존의 이진 분류 SVM을 적용하는 형태였다. 예를 들어, one-against-all 알고리즘은 C개의 범주를 가지는 다범주 문제를 C개의 이진 분류 문제들로 나눈다. 여기서, 각각의 이진 분류 문제들은 특정한 한 범주와 나머지 (C-1)개의 범주들로 구성되어 있다. one-against- one(pair-wise) 알고리즘은 C개의 범주를 가지는 다범주 문제를 C(C-1)/2개의 이진 분류 문제들로 나눈다. 여기서, 각각의 이진 분류 문제들은 각 범주들의 쌍(pair)으로 구성되어 있다. 하지만, 이러한 접근법은 다범주 분류기를 이진 분류기의 조합으로 구성하는 구조상의 한계를 지니고 있다. 이로 인해 입력 공간에서 분류가 불가능한 영역 또는 분류가 매우 부정확한 영역이 존재할 수 있게 된다. 또한 여러 개의 이진 분류기를 학습해야 하기 때문에 대용량의 데이터에 대해서는 많은 계산 시간이 필요하다는 단점이 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는, SVDD를 통해 범주별로 분할된 데이터들의 유사-분포 함수를 추정하고 이를 통해 사후확률 함수를 구한 후, 베이지안 최적 결정이론에 기반하여 분류함으로써, 다범주 분류 문제에 있어서 더 정확한 분류 예측도를 보이면서 불균형 데이터(unbalanced data)에도 적용가능하고, 그리고 분류 확률 정보까지 제공하는 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체를 제공하는 데 있다.

상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법은, (a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계; (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 구하는 단계; (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;

)를 추정하는 단계; 및 (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(

)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.

상기 수학식에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상(mapping)된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.

바람직하게는, 상기 다범주 분류 방법은 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 단계 (e)를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 c개의 데이터 집합은 디스조인트 서브세트(disjoint subset)인 것을 특징으로 한다.

바람직하게는, 상기 단계 (b)는 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피 쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 단계 (d)는 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 단계 (d)는 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 한다.

바람직하게는, 상기 c개의 범주 중 k번째 범주의 데이터 개수가 N _k 일 때, 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N _k /N으로 추정하는 것을 특징으로 한다.

상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주 분류 장치는, 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 입력받아 상기 N개의 데이터를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 데이터 분할 모듈; 상기 c개 의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 추출하는 가우시안 커널 서포트 함수 추출 모듈; 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;

)를 추정하는 유사 분포 함수 추정 모듈; 및 상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 데이터 분류 모듈을 포함하고, 상기 유사 분포 함수(

)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.

상기 수학식 에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.

바람직하게는, 상기 다범주 분류 장치는 상기 데이터 분류 모듈을 통해 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 예측 모듈을 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 가우시안 커널 서포트 함수 추출 모듈은 상기 c개의 데 이터 집합에 각각 SVDD를 적용하여, 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 것을 특징으로 한다.

바람직하게는, 상기 가우시안 커널 서포트 함수 추출 모듈은 SVDD 모델을 최적화하여 상기 c개의 데이터 집합 각각에 대한 가우시안 커널 서포트 함수를 구하기 위해 QP 솔버(quadratic programming solver)를 사용하는 것을 특징으로 한다.

바람직하게는, 상기 데이터 분류 모듈은 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 것을 특징으로 한다.

바람직하게는, 상기 데이터 분류 모듈은 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 것을 특징으로 한다.

바람직하게는, 상기 데이터 분류 모듈은 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 한다.

바람직하게는, 상기 c개의 범주 중 k번째 범주의 데이터 개수가 N _k 일 때, 상기 데이터 분류 모듈은 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N _k /N으로 추정하는 것을 특징으로 한 다.

상기 기술적 과제를 이루기 위하여 본 발명에 따른 SVDD(support vector domain description)를 이용한 다범주 분류 프로그램이 저장된 컴퓨터 판독가능 저장매체는, 상기 다범주 분류 프로그램이, (a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하기 위한 코드; (b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 구하기 위한 코드; (c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;

)를 추정하기 위한 코드; 및 (d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하기 위한 코드를 포함하고, 상기 유사 분포 함수(

)가 하기 수학식에 의해 추정되는 것을 특징으로 한다.

바람직하게는, 상기 다범주 분류 프로그램은 상기 코드 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하기 위한 코드 (e)를 더 포함하는 것을 특징으로 한다.

이하에서, 베이지안 최적 결정이론 및 SVDD 알고리즘을 간략히 소개하고, 그 다음 첨부도면들을 참조하여 본 발명을 상세히 설명하기로 한다.

베이지안 최적 결정 이론( Bayesian optimal decision theory )

베이지안 결정 이론에 따르면, 사전확률(prior probability;

)과 범주별-조건부 분포 함수(class-conditional densities,

)를 안다면 최적의 분류기를 구축할 수 있다. 즉, 베이즈 공식에 의해서 사후확률(posterior probabilities)을 하기 수학식 1과 같이 구할 수 있다.

상기 수학식 1에서, c는 범주의 개수이고

는 i번째 범주를 나타낸다. 베이지안 최적 결정 규칙은 하기 수학식 2와 같이 c개의 사후확률 중에 가장 큰 값을 가지는 범주

로 분류하는 것이다. 이는 분류에 있어서 오차확률을 최소화한다.

일반적인 분류문제에서는 사전확률의 추정은 어렵지 않다. 대게 범주별로 같 은 값으로 가정하거나 단순히

으로 계산한다. 이에 비해 범주별-조건부 분포 함수의 추정은 상대적으로 어려운 작업이다. 지난 수십 년간 다양한 분포 추정 알고리즘이 개발되었으며, 이들은 모수적(parametric) 접근법, 비모수적(non-parametric) 접근법, 및 부분-모수적(semi-parametric) 접근법 3가지로 나눌 수 있다.

첫째로, 모수적 접근법은 매개 변수를 포함하는

의 함수 형태를 가정한다. 가장 간단하면서도 널리 이용되는 형태가 하기 수학식 3과 같은 정규 분포이다.

이러한 접근법의 단점은, 가정한 함수의 형태가 실제 데이터의 분포를 잘 묘사할 수 없는 경우에 있다.

둘째로, 부분-모수적 접근법은 하기 수학식 4와 같이 유한개의 가우시안 분포의 조합의 형태를 띄고 있다.

상기 수학식 4에서,

는 가우시안 함수의 형태인 k번째 성 분(component)이다.

는 각 성분의 영향도를 나타내는 매개변수이다. 부분-모수적 접근법에서는 각각의 데이터를 생성하는데 어떤 가우시안 성분이 영향을 미치는지를 알 수 없으며 각 성분의 개수를 결정하고 그 매개 변수를 추정하기 위해서는 대개 반복 계산이 필요한 EM 알고리즘이 필요하므로 많은 계산 비용이 든다.

셋째로, 비모수적 접근법은 하기 수학식 5와 같이 함수의 형태를 커널함수(kernel functions)의 가중합으로 둔다.

상기 비모수적 접근법은 3가지 접근법 중에서 가장 우수한 분포묘사 능력을 가진 반면, 데이터의 수가 많아짐에 따라 결정해야 할 매개변수의 수도 증가하여 이를 추정하는데 어려움이 있다.

SVDD( Support vector domain description )

분포 추정을 위한 기존의 방법론들은 분포 묘사능력과 계산복잡도 사이에 트트레이드 오프(trade-off)가 존재한다. 이러한 문제를 해결하기 위해서 본 발명에 따른 다범주 분류 방법은 SVDD(support vector domain description)를 이용하고자 한다. SVDD를 통해 얻어지는 커널 서포트 함수(trained kernel support function)는 데이터 서포트(support)의 특성을 잘 묘사하기 때문에, 상기 커널 서포트 함수를 이용하여 유사 분포 함수(pseudo-density function)를 추정하는데 이용하고자 한다.

SVDD의 기본 아이디어는 먼저 데이터들을 비선형 변환을 통해 고차원의 피쳐(feature) 공간으로 사상(mapping)시킨 뒤, 상기 피쳐 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾는다. 상기 가장 작은 반지름을 가지는 구를 입력 공간으로 다시 역으로 사상시키면 입력 데이터들은 몇 개의 군집으로 나뉘게 된다. 좀 더 자세히 설명 하자면, 먼저

를 입력 데이터라고 하자. 비선형 변환함수

를 이용하여 고차원의 피쳐(feature) 공간으로 사상시키고, 그 공간에서 사상된 점들을 포함하는 가장 작은 반지름 R을 가지는 구를 다음과 같은 최적화 식으로 찾게 된다.

상기 수학식 6에서, a는 구의 중심이며

는 일부 사상된 점들이 구 밖으로 나가는 것을 허용하는 slack 변수이다. 이 문제를 풀기 위해 상기 수학식 6을 아래와 같은 라그랑지안식으로 바꾸고

,

로 두면,

및 하기 수학식 7을 유도할 수 있 다.

상기 결과를 이용하여 primal 문제인 상기 수학식 6을 dual 문제인 하기 수학식 8과 같이 유도할 수 있고 이를 최적화 함으로 상기 수학식 6의 해를 구할 수 있다.

상기 수학식 8에서, 매개변수 q를 가지는 가우시안 커널

를 이용하였다. 여기서, 오직

인 점들만 구의 표면에 존재하며 이를 서포트 벡터(support vector)라 한다. 커널 서포트 함수는 상기 수학식 8을 통해 구한 구의 중심과 주어진 사상된 점의 거리를 나타내는 함수로 하기 수학식 9와 같다.

따라서, 데이터의 서포트(suppport)는

에 의해 묘사된다. 여기서 임의의 서포트 벡터(

)에 대해

이다.

이하에서는, 첨부도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불명료하게 할 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략될 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있을 것이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용들 토대로 내려져야 할 것이다.

도 1에는, 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 방법에 관한 흐름도가 도시되어 있다.

먼저 학습데이터(training data;

)는 입력변수

와 그 출력값인 범주를 나타내는

로 구성되어 있다. 본 발명에 따른 다범주 분류 방법의 핵심 아이디어는 각 범주별로 데이터를 나눈 후, 각 범주 별 데이터의 분포 함수를 SVDD를 이용하여 추정하고, 그리고 추정된 분포 함수를 이용하여 베이지안 결정 이론을 적용함으로써 데이터를 분류하는 것이다. 도 1을 참조하면, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법은 다음의 단계들을 포함한다.

단계 (a; 데이터 분할): 먼저 범주의 개수가 c개인 학습 데이터를 각 범주 별로 c개의 디스조인트 서브세트(disjoint subset;

)로 나눈다(S100). 예를 들면 k번째 서브세트

는 하기 수학식 10과 같이

개의 데이터를 가진다.

단계 (b; 각 범주별 데이터에 SVDD 적용): 각각의 범주별 데이터 집합인

에 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수를 구한다(S110). 즉, 상기 수학식 8을 최적화하여 구한 해를

라 하고

이면 각 범주별 데이터 집합

에 대한 가우시안 서포트 함수는 하기 수학식 11과 같다.

단계 (c; 유사 분포 함수 추정): 각각의 범주 k=1,…,c에 대해 하기 수학식 12와 같이 유사 분포 함수(pseudo-density function)를 추정할 수 있다(S120). 이는 범주별-조건부 분포 함수(class-conditional densities,

)로 이용된다.

상기 수학식 12에서,

이며

는 서포트 벡터이다.

단계 (d; 추정한 유사-사후확률을 이용하여 분류하기): 각각의 범주 k=1,…,c에 대해 하기 수학식 13과 같이 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정할 수 있다.

상기 수학식 13에서,

는 상기 단계 3에서 구한 유사-분포 함수이다. 그러면 본 발명에 따른 다범주 분류 방법은 주어진 x에 대해 베이지안 최적 결정 이론을 기반으로 다음과 같이 분류할 수 있다(S130).

본 발명에 따른 SVDD를 이용한 다범주 분류 방법은, 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류(S140)하는 단계 (e)를 더 포함할 수 있다.

도 2a 내지 도 2d에는 triangle 데이터에 본 발명에 따른 다범주 분류 방법을 적용한 결과가 도시되어 있다.

도 2a 내지 도 2d를 참조하면, 상기 triangle 데이터는 3종류의 범주를 가지고 있다. 상기 단계 1에서, 상기 triangle 데이터를 각 범주에 따라 3개의 데이터 세트로 나눈다. 상기 단계 2에서, 각각의 데이터 세트에 대해 SVDD를 수행한다. 상 기 단계 3에서는, 상기 단계 2에서 구한 가우시안 커널 서포트 함수를 이용하여 상기 수학식 12와 같이 유사-분포 함수를 추정한다. 도 2a 내지 도 2c에는 각 범주별로 구한 3개의 유사-분포함수가 나타나있다. 상기 단계 4에서, 상기 수학식 13에 의해 추정된 사후확률 분포 함수를 통해 최종 결정 경계선(decision boundary)을 구할 수 있다. 이는 도 2d에 굵은 실선으로 나타나있다.

상기 수학식 12와 같이 유사-분포함수를 추정하는 것은 상기 기존의 분포 추정 방법론들에 비해 몇 가지 좋은 성질이 있다. 첫 째,

는 범주별-조건부 분포 함수의 점근적 추정값(asymptotic estimate)이다. 이는 하기 정리 1에서 증명된다. 둘째, 상기 수학식 8에 의해서 최적화된 결과 전체 데이터 중에 작은 비율의 데이터에 대해서만 매개변수가 0이 아닌 값을 가지므로(이를 support vector라 함), 추정된 함수인

를 계산하는 시간을 상당히 감소시킬 수 있다. 마지막으로, 유한한 샘플 크기에서

는 범주별-조건부 분포 함수의 서포트(support)를 추정한다. 이는 하기 정리 2에서 증명된다. 또한, 상기 추정 함수는 여러 개의 꼭지점(multi-modal)을 가지는 비선형의 복잡한 분포나 노이즈가 있는 분포까지 잘 묘사할 수 있다. 이는 도 3a 내지 도 3d에 잘 나타나 있다.

도 3a 내지 도3d에는, 본 발명에 따른 다범주 분류 방법의 단계 (b) 및 단계 (c)에 의한 결과가 예시되어 있다. 도 3a에는 본 발명에 따른 방법에 의해 3개의 가우시안 분포 조합에서 임의로 추출된 k번째 범주의 데이터가 예시되어 있다. 도 3b에는 본 발명에 따른 방법의 단계 (b)에서 구해진 가우시안 커널 서포트 함 수(f _k (x))가 예시되어 있다. 도 3c에는 본 발명에 따른 방법의 단계 (c)에서 구해진 유사 분포 함수가 예시되어 있다. 도 3d에는 본 발명에 따른 방법에 의해 구해진 유사 분포 함수의 서포트가 굵은 실선으로 나타나있다.

이하에서는, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 이론적 근거를 제시한다.

하기 정리 1 에서는, 많은 수의 데이터에 대한 범주별-조건부 분포 함수(class-conditional density)를 추정하기 위해 본 명세서에서 제시한 유사-분포 함수(pseudo-density function)의 점근적 수렴(asymtotic convergence) 성질을 보이겠다. 하기 정리 2에서는, 유한한 데이터 분포함수의 서포트(support)에 대한 추정오차를 나타내는 일반화 오차(generalization error)을 이론적으로 유도하겠다.

정리 1

N개의 데이터

는 임의의 미지 확률(unknown probability; p(x))에서 i.i.d.(independently and identically distributed)로 추출하였다고 하자. 그리고 p(x)의 추정치인

는 하기 수학식 14와 같다.

상기 수학식 14에서

는

과

를 만족하는 계수의 집합이다. 매개변수

이 다음의 조건을 만족한다고 가정하자.

그러면, 추정치

는 p(x)에 수렴한다. 즉, 다음을 만족하게 된다.

증명:

라고 하자. 그러면,

이 되고,

는

이 무한대로 갈 때,

이 중심인 디랙 델타 함수(Dirac delta function; 함수값이 1이되고 나머지는 0인 함수)가 된다. 상기 사실을 통해, 아래와 같이 N 이 무한대가 될 때

의 기대값이 p(x)가 됨을 유도할 수 있다.

이는

이고,

가 되면

이 되기 때문이다.

가 통계적으로 독립인 확률변수(random variable)의 합의 형태이기 때문에

의 분사 또한 개별 확률변수의 분산의 합의 형태를 띈다. 따라서,

의 분산은 다 음과 같이 유도할 수 있다.

이는

이고

에 따라

= 0이 되기 때문이다.

정리 2

N개의 데이터

는 임의의 미지 확률(p(x))에서 i.i.d.로 추출하였다고 하자. 상기 수학식 6을 최적화 하여 상기 수학식 9와 같이 해 f를 구하였다고 가정하자.

은 레벨 r에 대한 결정되는 영역(즉, support)이라 하자. 그러면,

의 임의의 확률변수에 관하여,

인 값에 대해, 확률

로

가

에 포함되지 않을 확률의 바운드(bound)를 다음 식과 같이 유도될 수 있다(이는 추출되는 데이터가 서포트에 속하는 확률에 대한 하한선(lower bound)를 줄 수가 있다).

상기 식에서,

이고,

는 f의 임의의 서포트 벡터(

)에 대한

이다.

증명: 데이터가 대부분의 데이터를 포함하는 작은 영역에 포함되면 +1을 취하고, 그 영역 밖에 존재하면 -1을 가지는 함수를 찾는 문제를 고려해 보자. 이는 데이터를 피쳐 공간(feature space)으로 변환하고 변환된 공간에서 원점에서 거리가 가장 먼 마진(margin)을 찾는 문제로 수식화할 수 있다. 이는 하기 수학식 15와 같은 QP(quadratic programming)로 모형화할 수 있다.

그러면, 함수

는 하기 수학식 16 및 하기 수학식 17과 같이 주어진다.

상기 수학식 17에서,

는 하기 수학식 18과 같은 상기 수학식 15의 wolf dual 문제의 해이다.

상기 수학식 16은

의 부호를 결정하여 상기 수학식 15 문제를 해결하는 의사결정 함수이다. 여기서

는 임의의 서포트 벡터(

)에 대한

이다. 가우시안 커널을 쓰는 경우 (즉,

), 상기 수학식 18은 상기 수학식 8과 동등하게(equivalent) 된다. 따라서 상기 수학식 8과 상기 수학식 18 사이에서 아래와 같은 관계를 얻을 수 있다.

그러므로, 다음 식과 같이 변환함으로써 참고논문 B. Schoelkpf, J.C. Platt, J. Shawe-Taylor 및 A.J. Smola, Estimating the support of a high-dimensional distributions, Neural Comput. 13 (2001), pp. 1443 1471.의 정리 1의 일반화 에러 바운드(generalization error bound)를 바로 적용하여 정리 2의 확률의 바운드를 유도할 수 있다.

이하에서는, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 성능을 실험적으로 검증한 결과를 설명하도록 한다. 데이터 세트에 대한 추가적인 정보는 하기 표 1과 같다.

인위적 데이터( Artificial data ): twospiral, tae, OXours, triangle, ring, 및 orange 데이터는 다양한 다범주 분류 방법들과 본 발명에 따른 다범주 분류 방법의 일반화 성능을 검증하기 위해 아주 복잡한 비선형 형태의 분포에서 임의로 추룰한 데이터이다.

작은 스케일 실세계 데이터( Small - scale real - world data ): heart, sonar, iris, wine, vehicle, vowel는 USI 머신 학습 리포지토리(UCI machine learning repository; http://www.ics.uci.edu/mlearn/MLRepository.html, UCI Repository of machine learning databases 참조)와 Statlog 데이터베이스(D. Michie, D.J. Spiegelhalter and C.C. Taylor, Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK (1994). 참조)에서 제공하는 데이터들이다.

큰 스케일 실세계 데이터( Large - scale real - world data ): shuttle, DNA (DNA sequence에서 exon과 intron을 분류하는 문제), satimage (위성 사진을 분류하는 문제), segment (image segmentation data), letter (영어 알파벳 사진을 분류하는 문제; D. Michie, D.J. Spiegelhalter and C.C. Taylor, Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK (1994). 참조), Uspst (필기체 인식 문제), 및 Coil20 (20개의 물체 사진을 분류하는 문제; 도 4a 및 도 4b와 O. Chapelle, A. Zien, Semi-supervised classification by low density separation, Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, 2005, pp. 57 64. 참조).

도 4a에는, Coil20 데이터 세트로서 20개의 상이한 물체 이미지들이 예시되어 있다. 도 4b에는, Coil20 데이터 세트의 첫 번째 범주에 속하는 이미지 데이터로서 서로 다른 각도에서 촬영된 이미지들이 예시되어 있다.

실험 조건에 관한 열에서 structure는 BR-NN의 네트워크 구조를 의미하고 h는 BDM-Parzen의 윈도우 사이즈를 말하고

는 1-1-SVM, 1-all-SVM, 및 본 발명에 따른 방법(proposed method)의 가우시안 커널의 매개 변수값이다.

본 발명에 따른 방법과 다음 6개의 대표적인 분류기들, LDA(linear discriminant analysis), QDA(quadratic discriminant analysis), BDM-parzen(parzen windows를 이용한 Bayesian decision method), BR-NN(Bayesian regularization neural network), 1-1-SVM(one-against-one SVM), 및 1-all-SVM(one-against-all SVM)의 성능을 비교하였다. 성능을 평가하기 위한 척도는 training 오차와 test 오차(하기 표 2 참조), 모델 구축 시간(하기 표 3 참조)을 사용하였다.

실험에 있어서, 모델 선택(model selection) 과정을 수행하여 최적의 매개변수를 선택하였다. 즉, training 데이터로 여러 개의 모델을 구축하고 이 모델들에 대한 test 데이터에 대한 오차율 가장 낮은 모델에 이용된 매개변수를 실험에 이용하였다. 실험 시간을 단축하기 위해 상기 수학식 12와 추정한 유사-분포 함수의 q값을 모든 범주별 데이터에 동일하게 사용하였다. 상기 수학식 12에서 C=1로 하였다. 실험에 사용한 구체적인 매개 변수값은 상기 표1에 기술하였다. 또한 상기 표 1에서 struct는 BR-NN의 네트워크 구조를 의미한다. 예를 들어 13-20-2는 입력 레이어(input layer), 히든 레이어(hidden layer), 및 출력 레이어(output layer)에 각각 13개, 20개, 2개의 노드가 사용되었음을 의미한다.

실험 결과는 도 5a 내지 도 5f와 하기 표 2 및 하기 표 3에 정리하였다. 도 5a 내지 도 5f에는, 매우 복잡한 분포(two-spiral) 데이터를 포함하는 다양한 다범주 분류 문제에서 본 발명에 따른 방법에 관한 알고리즘을 적용하여 얻은 결정 경계선이 굵은 실선으로 나타나있다.

실험 결과: 오차율(％)

*가 표시된 데이터는 정규화하였으며, N/A는 계산불가를 의미한다.

실험 결과: 모델 구축 시간(초)

상기 표 2 및 상기 표 3에서 train은 training error(%), test는 test error(%), 그리고 time은 모델 구축 시간(초)을 의미한다.

실험 결과 본 발명에 따른 다범주 분류 방법이 다양한 범주 문제에 있어서 는 물론, 이진 문제에 있어서도 분류 정확도와 효율성 측면에서 우수한 성능을 보이거나 적어도 어느 정도 경쟁력이 있음을 알 수 있다.

본 발명에 따른 다범주 분류 방법과 기존의 SVM 방법들의 계산 복잡도를 분석하고자 한다. 먼저 N을 학습 데이터의 개수, c를 범주의 개수라 하자. 제안하는 방법론과 기존의 SVM 방법론들은 모두 QP를 풀어야 하며 QP 솔버는 대개

의 계산 복잡도를 가지고 있다(J.C. Platt, Fast training of support vector machines using sequential minimal optimization, Advances in Kernel Methods: Support Vector Machines, MIT Press, Cambridge, MA, 1999, pp. 185 208. 참조). 따라서, 대용량의 다범주 문제의 경우 많은 계산 시간이 필요하다. 예를 들어, 상기 표 2에서 letter 데이터의 경우 메모리 문제로 인해 1-all-SVM을 적용할 수 없다. 일반적으로 다범주 분류를 위해 SVM 방법론은 1-1-SVM 또는 1-all-SVM 방법을 이용한다. 1-1-SVM은 다범주 문제를 (c·(c-1))/2 개의 이진 분류문제들의 조합으로 바꾸어 푼다. 여기서, 각각의 이진 데이터 세트는 (2N)/c 개의 데이터를 가진다. 따라서, 이들 이진 분류기를 조합한 다범주 분류기를 구축하기 위한 계산 복잡도는

이 된다. 1-all-SVM은 c개의 이진 SVM으로 구성되며 각각은 N개의 학습데이터를 가지고 있다. 따라서 계산 복잡도는

이 된다. 본 발명에 따른 방법은 상기 수학식 8과 같은 QP를 c개 풀어야 하고 각각의 범주별 데이터 세트의 샘플의 개수는 N/c개이다. 따라서 본 발명에 따른 방법의 계산 복잡도는

이 된다. 계산 복잡도 분석을 통해 제안하는 알고리즘이 우수한 계산 속도를 가짐을 알 수 있고 이러한 분석은 상기 표 3의 결과에서 알 수 있듯이 실험적으로도 검증된다.

도 6에는 본 발명의 일 실시예에 따른 SVDD를 이용한 다범주 분류 장치에 관한 블록도가 도시되어 있다.

도 6을 참조하면, 본 발명에 따른 SVDD를 이용한 다범주 분류 장치(600)는, 데이터 분할 모듈(602), 가우시안 커널 서포트 함수 추출 모듈(604), 유사 분포 함수 추정 모듈(606), 및 데이터 분류 모듈(608)을 포함한다. 데이터 분할 모듈은(602)은 입력부(610)로부터 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 입력받아 본 발명에 따른 SVDD를 이용한 다범주 분류 방법의 상기 단계 (a)를 수행함으로써 c개의 디스조인트 서브세트(

)로 분할한다. 상기 가우시안 커널 서포트 함수 추출 모듈(604)은 본 발명에 따른 상기 방법의 상기 단계 (b)를 수행함으로써 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 추출한다. 유사 분포 함수 추정 모듈(606)은 본 발명에 따른 상기 방법의 상기 단계 (c)를 수행함으로써 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;

)를 추정한다. 데이터 분류 모듈(608)은 상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용하는 본 발명에 따른 상기 방법의 상기 단계 (d)를 수행함으로써 데이터를 분류하고 분류 결과를 출력부(630)를 통해 출력되도록 한다. 예측 모듈(620)은 상기 데이터 분류 모듈(608)을 통해 구한 결과 모델을 저장하여 추후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류해주는 역할을 수행한다. 상기 예측 모듈(620)은 상기 다범주 분류 장치에 통합될 수 있다.

본 발명에 따른 SVDD를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체는 다양한 산업에 이용될 수 있는 기술이다.

예들 들면, LCD 모니터 제조업체에서 LCD 모니터 기판의 불량률이 2% 이하라면 양품 대 불량품 비율이 불균형(unbalance)하기 때문에, LCD 모니터 기판의 양품/불량품을 예측하는 모델에 있어서 본 발명은 높은 분류 정확도를 기대할 수 있도록 한다. 또한, 은행권에서도 점차 개인 신용평가 모델을 구축하고자 하고 있고, 그리고 신용고객 대 불량고객 비율은 불균형 데이터라고 할 수 있기 때문에, 고객의 파산 확률을 제공하여 최종적으로 신용고객/불량고객의 판단을 인간이 할 수 있도록 하는 의사결정 지원 시스템(decision supporting system) 등에 본 발명이 효과적으로 적용될 수 있다. 그 밖에도, 반도체 웨이퍼 불량 예측 문제, 컴퓨터 OS 시스템에서의 필기체 문자 인식 문제, 및 웹 서치 엔진에서의 XML 스키마 매칭 문제 등 다양한 분야에 적용 가능성을 가진다.

상술한 바와 같이, 본 발명에 따른 SVDD를 이용한 다범주 분류 방법 및 장치와 그에 사용되는 컴퓨터 판독가능 저장매체는, SVDD 모델을 이용하여 사후확률 분포를 직접적으로 추정하고 보정함으로써 다범주 분류 문제, 특히 불균형 데이터 분류에 있어서 향상된 성능을 보이며, 사용자가 결정해야하는 변수의 수와 모델 구축 시간을 감소시키는 이점을 제공한다.

이상에서, 본 발명의 바람직한 실시예에 대해 상세하게 기술하였지만, 첨부된 특허청구범위에 따른 본 발명의 사상 및 범위를 벗어나지 않으면서 여러 가지 다른 변형 또는 변경 실시가 가능함은 당업자에게 자명할 것이다. 따라서, 그와 같 은 본 발명의 변형 또는 변경 실시는 본 명세서에 첨부된 특허청구범위의 기재범위에 속하는 것으로 해석되어야 할 것이다.

Claims

SVDD(support vector domain description)를 이용한 다범주(multi-class) 분류 방법에 있어서,

(a) 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 단계;

(b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 구하는 단계;

(c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
)를 추정하는 단계; 및

(d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 단계를 포함하고, 상기 유사 분포 함수(
)가 하기 수학식 1에 의해 추정되는 것을 특징으로 하는 다범주 분류 방법.

<수학식 1>

상기 수학식 1에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
제1항에 있어서,

상기 다범주 분류 방법이, 상기 단계 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 단계 (e)를 더 포함하는 것을 특징으로 하는 다범주 분류 방법.
제1항 또는 제2항에 있어서,

상기 c개의 데이터 집합이, 디스조인트 서브세트(disjoint subset)인 것을 특징으로 하는 다범주 분류 방법.
제1항 또는 제2항에 있어서,

상기 단계 (b)가, 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
제1항 또는 제2항에 있어서,

상기 단계 (d)가, 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
제5항에 있어서,

상기 단계 (d)가, 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 단계를 포함하는 것을 특징으로 하는 다범주 분류 방법.
제6항에 있어서,

상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 하는 다범주 분류 방법.
제6항에 있어서,

상기 c개의 범주 중 k번째 범주의 데이터 개수가 N _k 일 때, 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확 률을 N _k /N으로 추정하는 것을 특징으로 하는 다범주 분류 방법.
SVDD(support vector domain description)를 이용한 다범주 분류 장치에 있어서,

소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 입력받아 상기 N개의 데이터를 각각의 범주에 따라 c개의 데이터 집합으로 분할하는 데이터 분할 모듈;

상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 추출하는 가우시안 커널 서포트 함수 추출 모듈;

상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
)를 추정하는 유사 분포 함수 추정 모듈; 및

상기 추정된 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하는 데이터 분류 모듈을 포함하고, 상기 유사 분포 함수(
)가 하기 수학식 2에 의해 추정되는 것을 특징으로 하는 다범주 분류 장치.

<수학식 2>

상기 수학식 2에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
제9항에 있어서,

상기 다범주 분류 장치가, 상기 데이터 분류 모듈을 통해 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하는 예측 모듈을 더 포함하는 것을 특징으로 하는 다범주 분류 장치.
제9항 또는 제10항에 있어서,

상기 c개의 데이터 집합이 디스조인트 서브세트(disjoint subset)인 것을 특징으로 하는 다범주 분류 장치.
제9항 또는 제10항에 있어서,

상기 가우시안 커널 서포트 함수 추출 모듈이, 상기 c개의 데이터 집합에 각각 SVDD를 적용하여 상기 데이터 집합의 데이터들을 비선형 변환함수를 통해 고차원의 피쳐(feature) 공간으로 사상시키고, 그리고 상기 피쳐 공간에 사상된 점들을 포함하는 구들 중 가장 작은 반지름을 가지는 구를 찾아내는 것을 특징으로 하는 다범주 분류 장치.
제9항 또는 제10항에 있어서,

상기 가우시안 커널 서포트 함수 추출 모듈이, SVDD 모델을 최적화하여 상기 c개의 데이터 집합 각각에 대한 가우시안 커널 서포트 함수를 구하기 위해 QP 솔버(quadratic programming solver)를 사용하는 것을 특징으로 하는 다범주 분류 장치.
제9항 또는 제10항에 있어서,

상기 데이터 분류 모듈이, 상기 베이지안 최적 결정 이론을 적용하여 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수(pseudo-posterior probability density function)를 추정하는 것을 특징으로 하는 다범주 분류 장치.
제14항에 있어서,

상기 데이터 분류 모듈이, 상기 베이지안 최적 결정 이론을 적용하여 추정된 c개의 유사-사후확률 중 가장 큰 유사-사후확률을 가지는 범주로 데이터를 분류하는 것을 특징으로 하는 다범주 분류 장치.
제15항에 있어서,

상기 데이터 분류 모듈이, 상기 c개의 범주 각각에 대한 유사-사후확률 분포 함수를 추정하기 위해 모든 범주에 대한 사전확률(prior probability)을 동일한 값으로 추정하는 것을 특징으로 하는 다범주 분류 장치.
제15항에 있어서,

상기 c개의 범주 중 k번째 범주의 데이터 개수가 N _k 일 때, 상기 데이터 분류 모듈이 상기 k번째 범주에 대한 유사-사후확률 분포 함수를 추정하기 위해 상기 k번째 범주에 대한 사전확률을 N _k /N으로 추정하는 것을 특징으로 하는 다범주 분류 장치.
SVDD(support vector domain description)를 이용한 다범주 분류 프로그램이 저장된 컴퓨터 판독가능 저장매체에 있어서,

(a) 상기 다범주 분류 프로그램이, 소정 개수(c)의 범주(class)로 이루어진 소정 개수(N)의 데이터(x _i , i=1,...,N)를 각각의 범주에 따라 c개의 데이터 집합으로 분할하기 위한 코드;

(b) 상기 c개의 데이터 집합 각각에 대하여 SVDD를 적용하여 c개의 가우시안 커널 서포트 함수(trained Gaussian kernel support function; f _k (x))를 구하기 위한 코드;

(c) 상기 c개의 범주 각각에 대한 유사 분포 함수(pseudo-density function;
)를 추정하기 위한 코드; 및

(d) 상기 유사 분포 함수를 범주별-조건부 분포 함수(class-conditional densities)로 사용하여 베이지안 최적 결정 이론(Bayesian optimal decision theory)을 적용함으로써 데이터를 분류하기 위한 코드를 포함하고, 상기 유사 분포 함수(
)가 하기 수학식 3에 의해 추정되는 것을 특징으로 하는 컴퓨터 판독가능 저장매체.

<수학식 3>

상기 수학식 3에서, r _k 는 k번째 범주의 데이터가 사상된 피쳐(feature) 공간에서 사상된 점들을 포함하는 구들 중 가장 작은 구의 반지름의 제곱이고, f _k (x)는 k번째 범주의 데이터 집합에 대한 가우시안 커널 서포트 함수이다.
제18항에 있어서,

상기 다범주 분류 프로그램이, 상기 코드 (d)에서 구한 결과 모델을 저장하여 차후에 입력되는 데이터에 대해 사후확률을 제공하고 특정 범주로 분류하기 위한 코드 (e)를 더 포함하는 것을 특징으로 하는 다범주 분류 방법.