KR100869554B1

KR100869554B1 - 영역 밀도 표현에 기반한 점진적 패턴 분류 방법

Info

Publication number: KR100869554B1
Application number: KR1020070018192A
Authority: KR
Inventors: 강우성; 최진영
Original assignee: 재단법인서울대학교산학협력재단
Priority date: 2007-02-23
Filing date: 2007-02-23
Publication date: 2008-11-21
Also published as: KR20080078292A

Abstract

본 발명은 영역 밀도 기반의 패턴 분류 방법에 관한 것으로, 특히 주어진 복수 개의 데이터에 대하여 각 종류별로 이차 계획법을 이용하여 특징 영역 거리 함수를 결정하여 특징 영역 거리 함수의 값을 이용하여 데이터의 영역을 결정하고, 최대 우도 추정 방식을 사용하여 영역 내의 데이터 밀도를 산출하고, 데이터 밀도와 사전확률의 곱을 비교하여 데이터를 종류별로 분류하고, 새로운 추가된 데이터가 기 분류된 영역에 포함되지 않으면 기존의 영역에서 구해진 지지벡터와 새로 추가된 데이터를 주어진 전체 데이터로 삼아 새로운 지지벡터를 구하고 지지벡터가 아닌 데이터는 모두 제거하는 패턴 분류 방법에 관한 것이다. 본 발명에 따르면 지지벡터 학습에 의해 얻어진 영역으로부터 밀도 정보를 사용함으로써, 다중 분류의 경우에 기존의 지지벡터 기계 및 신경망 분류기법보다 훨씬 빠르게 학습할 수 있으며, 기존의 확률밀도 추정 방식보다 적은 수의 데이터를 사용하여 판별함수를 표현할 수 있는 효과가 있다. 또한, 인식 성능을 높이기 위해 새롭게 주어진 데이터를 점진적으로 학습함으로써, 여러 번 재학습을 필요로 하는 얼굴 인식 시스템과 같은 응용에서 학습 계산량을 감소시키는 효과가 있다.

패턴인식, 분류, 지지벡터, support vector, 밀도, 이차계획법

Description

영역 밀도 표현에 기반한 점진적 패턴 분류 방법{Domain density description based incremental pattern classification method}

도 1은 본 발명의 바람직한 실시예에 의한 영역 밀도 표현에 기반한 점진적 패턴 분류 방법의 흐름을 나타낸 순서도,

도 3은 3개의 가우시안 분포로 이루어진 확률 분포에서 추출된 데이터를 입력공간에서 영역 표현 방법을 사용하여 얻은 경계면을 보인 그림,

삭제

도 4는 3개의 가우시안 분포로 이루어진 확률 분포에서 추출된 데이터를 고차원 특징공간으로 사상한 후 영역 표현 방법을 사용하여 얻은 경계면을 보인 그림,

도 5은 3개의 가우시안 분포로 이루어진 확률 분포에서 추출된 데이터를 발명된 방법을 사용하여 얻은 영역밀도 표현을 보인 그림,

도 6은 2개의 종류로 구성된 데이터를 분류하기 위해 각각 파즌 창, 지지벡터 기계, 발명된 기법을 사용하여 얻은 경계면을 보인 그림,

도 7은 5개 종류로 구성된 데이터를 분류하기 위해 각각 파즌 창, 다중 분류용 지지벡터 기계, 발명된 방법에 의해 얻은 경계면을 보인 그림,

도 8은 분류 정확도, 학습 속도, 판별함수를 표현하기 위해 필요한 데이터 수를 비교하기 위해 5개 종류의 데이터들을 각각 파즌 창, 다중 분류용 지지벡터 기계, 발명된 기법을 사용하여 얻은 실험 결과를 보인 표,

도 9는 UCI 데이터베이스의 특성을 보인 표,

도 10은 UCI 데이터베이스를 사용하여, 파즌창, 다중 분류용 지지벡터 기계, 발명된 기법의 분류성능을 비교한 표,

도 11은 UCI 데이터베이스를 사용하여, 다중 분류용 지지벡터 기계, 발명된 기법의 학습속도를 비교한 표,

도 12는 UCI 데이터베이스를 사용하여, 파즌창, 다중 분류용 지지벡터 기계, 발명된 기법의 판별함수를 표현하기 위해 필요한 정보량을 비교한 표,

도 13은 예일 얼굴영상 이미지를 사용하여, 다중 분류용 지지벡터 기계와 발명된 기법의 학습속도를 비교한 표,

도 14는 예일 얼굴영상 이미지를 사용하여, 파즌창, 다중 분류용 지지벡터 기계, 발명된 기법의 판별함수를 표현하기 위해 필요한 정보량을 비교한 표,

도 15는 5일 동안 11명의 사람을 점진적으로 학습하여 얻어진 11명 전체에 대한 인식성능의 추이를 나타내는 그래프,

도 16은 5일 동안 11명의 사람을 점진적으로 학습하여 얻어진 개인별 인식성능의 추이를 나타내는 그래프이다.

본 발명은 여러 지능형 인식 문제에서 필요한 데이터 분류(classification) 기법에 관한 것으로써, 특히 점진적 영역 밀도 표현을 사용하여, 기존의 우수한 성능을 보이는 지지벡터 기계(support vector machine) 및 파즌 창(parzen window) 기법과 비교하여 빠르게 학습할 수 있으며 기존 기법이 가지는 계산상의 문제점을 해결하기에 적당하도록 개선한 영역 밀도 기반의 패턴 분류 방법에 관한 것이다.

일반적으로 패턴 분류 문제는 베이지안 결정 이론에 따르며, 이는 모든 종류(class)의 사전 확률과 조건부 확률(conditional probability)을 알 수 있다면, 사후 확률(posterior probability)의 비교를 통해 주어진 데이터를 최적으로 분류할 수 있다는 사실을 명시한다. 따라서 패턴 분류 문제에서 알려지지 않은 분포에서 생성된 데이터를 사용하여 사전 확률 및 사후 확률을 추정하는 것은 매우 중요하다.

기존의 확률 밀도 추정을 위한 방식으로써 가우시안 분포 모델은 함수 구조가 간단하기 때문에 조건부 확률의 추정을 위해 많이 사용되었다. 그러나 대부분의 분류문제에서 실제 확률 분포는 가우시안 분포와 많이 다르기 때문에, 좋은 분류 성능을 얻을 수 없다.

이를 개선하기 위해 제안된 방법으로써, 가우시안 혼합 모델(gaussian mixture model)은 좀 더 실제 분포에 가깝게 확률 밀도 함수를 표현하기 위해, 확률 분포는 여러 개의 가우시안 함수의 가중치의 합으로 이루어지며 각 패턴은 이들 중 하나에 속한다는 가정을 사용한다. 그리고 각 가우시안 모델의 모수를 결정하기 위해 우도의 기댓값을 반복적인 연산을 사용하여 최대화함으로써 주어진 패턴의 확률밀도를 얻을 수 있다. 그러나 가우시안 모델의 개수에 따라 성능이 좌우되며, 해를 구하기 위해 많은 시간이 소요된다는 단점이 있기 때문에 학습이 빈번하게 요구되는 시스템에는 사용할 수 없다.

이와 달리 파즌 창은 확률 분포의 형태를 가정하지 않는 대표적 비모수적 기법으로써, 주어진 모든 패턴을 사용하여 데이터 분포의 밀집도를 나타내도록 한다. 이 방식은 커널 함수의 폭을 조절함으로써 확률 분포를 표현하도록 하며, 이론적으로 충분히 많은 데이터가 주어진다면 실제 확률분포에 근접하게 수렴함이 증명되었다. 그러나 주어진 데이터를 모두 사용하므로 확률 밀도 함수를 나타내기 위한 데이터가 많을 경우, 데이터의 종류를 실시간으로 분류할 수 없기 때문에 대용량의 데이터를 요구하는 시스템에는 부적절하다.

최근에는 확률 밀도 함수를 구하여 판별함수를 구하는 대신, 판별함수를 직접 구할 수 있는 신경망(neural networks)과 지지벡터 기계(support vector machine) 등의 분류기(classifier) 기법이 제안되었다.

신경망은 출력 오차를 역전파(back-propagation)하여 최소화 하는 방식으로써, 학습을 통해 많은 데이터의 정보를 적은 수의 신경망의 가중치로 나타낼 수 있다는 장점을 갖는다. 하지만 가중치의 초기값에 따라 지역최소화에 빠질 가능성이 크며, 뉴런의 층과 개수에 따라 인식성능이 좌우되고 최적화된 해를 보장할 수 없다는 단점이 있다. 또한 같은 데이터에 대해 매 학습 때마다 같은 결과를 보장할 수 없으며, 학습 속도가 느리기 때문에 실제 응용에 적용하기에 어려움이 있다.

이와는 다르게 지지벡터 기계는 서로 다른 종류의 데이터 간에 폭을 최대화하여 구조적 위험의 최소화(Structural risk minimization)를 함으로써, 좋은 일반화 성능을 갖는다는 장점이 있다. 또한 이차 형태 목적함수의 해를 구하기 때문에 항상 전역 최적 해(global optimal solution)를 구할 수 있으며 학습 시 항상 같은 해를 보장할 수 있다. 신경망 기법과는 다르게 판별함수(discriminant function)를 표현하기 위해 지지벡터를 자동으로 결정하여 사용함으로써 좀 더 효율적인 정보 분류의 표현이 가능하기 때문에 여러 가지 패턴 인식 문제에 적용되어 왔다. 하지만 지지벡터 기계는 이진 분류만이 가능하므로, 다중 분류문제를 해결하기 위해서 이를 확장하기 위한 기법이 필요하다. 이를 위한 여러 기법들로 one-against-all, one-against-one, dynamic acyclic graphs 방식의 여러 방법들이 제안되었지만, 지지벡터 기계는 기본적으로 이진 분류를 위해 개발된 알고리듬이기 때문에 다중 분류를 위해서는 항상 데이터의 중복적인 사용이 불가피하다. 이는 데이터의 종류가 증가하거나 데이터 개수가 증가할 경우, 학습 속도가 기하급수적으로 증가하게 되는 결과를 초래하게 된다. 따라서 지지벡터 기계 역시 데이터의 종류가 많은 경우 나 재학습이 요구되는 환경에서는 적용되기 어려운 단점이 있다.

본 발명의 목적은 지지벡터 학습에 의하여 얻어진 영역 표현에서 밀도 정보를 이용하여 데이터를 분류함으로써, 다중 분류의 경우에 기존의 지지벡터 기계보다 훨씬 빠르게 학습할 수 있고, 기존의 확률밀도 추정 방식보다 적은 수의 데이터를 사용하여 판별함수가 표현된 데이터 패턴 분류 방법을 제공하는 데 있다.

또한, 본 발명의 목적은 새롭게 주어진 데이터를 점진적으로 학습함으로써, 여러 번 재학습을 필요로 하는 얼굴 인식 시스템에서 학습 계산량을 감소시킬 수 있는 패턴 분류 방법을 제공하는 데 있다.

본 발명의 영역 밀도 기반의 패턴 분류 방법은, 주어진 복수 개의 데이터에 대하여 각 종류별로 이차 계획법을 이용하여 하기의 수학식 24로 정의되는 특징 영역 거리 함수를 결정하고, 특징 영역 거리 함수의 값이 하기의 수학식 25의 조건을 만족하는 데이터의 영역을 결정하는 제 1 단계; 최대 우도 추정 방식을 사용하여 영역 내의 데이터 밀도를 산출하는 제 2 단계; 및 데이터 밀도와 사전확률의 곱을 비교하여 데이터를 종류별로 분류하는 제 3 단계를 포함하여 구성된다.

[수학식 24]

이때, K(x_i,x_j)는 입력 데이터를 입력 공간에서 고차원 특징공간으로 사상시키는 함수들의 내적으로 표현되는 커널 함수를 나타냄.

[수학식 25]

이때, D²(z)는 지지벡터 영역표현 방법에 의해 얻어진 특징 공간에서의 영역의 중심과 데이터의 거리를 나타내는 특징 영역 거리 함수를 나타냄.

이와 같이 구성된 본 발명에 의한 영역 밀도 표현을 이용하는 점진적 지지벡터 학습에 의한 분류 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.

이하, 본 발명의 바람직한 실시예를 첨부한 도면들을 참조하여 상세히 설명한다.

도 1은 본 발명의 바람직한 실시예에 의한 영역 밀도 기반의 패턴 분류 방법의 흐름을 상세히 설명한 순서도이다.

도시된 바와 같이, 먼저 제 1 단계에서는 분류하고자 주어진 데이터에 대해서 각 종류별로 지지벡터 학습을 사용하여 영역의 중심과 데이터의 거리를 나타내는 특징 영역 거리함수를 결정하고, 이를 통해 데이터의 영역을 표현한다(S10).

그리고, 제 2 단계에서는 제 1 단계에서 얻어진 데이터의 영역에서 최대 우도 추정 방식을 사용하여 영역 밀도를 얻어낸다(S20). 이때, 유클리드 거리(euclidean distance)함수 대신 특징영역(feature space) 거리함수를 사용한 가우시안 함수를 밀도를 표현하는 함수로 사용하도록 한다. 여기서 가우시안 함수의 모수(parameter)는 최대우도 추정(maximum likelihood estimation)을 사용하여 계산하도록 한다. 이 함수를 영역밀도 표현함수(domain density description function)로 부르도록 한다.

그런 후에, 제 3 단계에는 이를 사용하여 분류결과를 얻기 위해 종류별로 각 영역밀도 표현함수와 사전확률의 곱을 계산하고, 이 값들을 비교하여 가장 큰 값을 갖는 종류를 데이터의 종류로 결정하도록 한다(S30).
또한, 새로운 데이터가 추가적으로 재학습되어야 할 경우 점진적으로 학습이 이루어져야 하므로, 앞의 제 3 단계에 이어서 새로운 데이터를 포함하여 다시 학습해야 하는 경우를 고려한다.
즉, 제 4 단계에서는 새로운 데이터가 추가되어 재학습할 때 새로 주어진 데이터가 앞서 단계에서 얻어진 영역에 포함되는지 여부를 조사한다(S40).

삭제

그리고 제 5 단계에서는 앞서 제 4 단계의 조사 판단 결과, 영역에 포함되어 있다면 학습을 다시 하지 않으며, 영역에 포함되어 있지 않다면 이전의 데이터에서 얻어진 결과 즉 지지벡터와 함께 이차계획법을 사용하여 새로운 영역을 구하고 이로부터 영역 밀도를 얻으며 새로 얻어진 지지벡터를 제외한 나머지 데이터를 제거함으로써 영역을 형성하는 데이터만 남겨두게 된다(S50).

이하에서는, 앞서 간략히 설명된 본 발명의 전체 과정에 대하여 각 단계별로 보다 상세히 설명하기로 한다.

제 1 단계. 특징 공간에서의 거리 함수 구하기

본 발명의 제 1 단계에서는 지지벡터 학습을 사용하여 데이터 영역의 중심과 데이터간의 거리를 나타내는 특징 영역 거리함수를 얻는다.

이 함수를 얻기 전에 우선 데이터 영역을 표현하는 방법에 대해 설명하면 다음과 같다. 본 발명에서는 영역을 표현하기 위해 잘 알려진 지지벡터 영역 표현 방법(support vector domain description)을 사용한다. 이 기법의 목적은 모든 혹은 대부분의 데이터를 포함하는 최소크기의 원을 구하는 것이다. 주어진 데이터를 집 합 {x_i}라 하고, 이들의 개수를 n이라 한다면, 이들을 다 포함하는 가장 작은 원은 다음의 수학식 1과 같은 제약 식을 갖는 목적함수를 최소화함으로써 구할 수 있다.

[수학식 1]

여기서 R²과 a는 원의 반지름과 중심을 표시하며, ξ_i는 i번째 데이터를 포함하지 못했을 경우의 에러를 나타내고, C는 데이터 영역의 크기와 에러간의 관계를 조정하는 사용자 정의 상수이다.

수학식 1의 해를 얻기 위해 라그랑제 승수(lagrange multiplier)를 사용하도록 한다. 제약식을 가진 목적함수 수학식 1은 다음의 수학식 2로 변환된다.

[수학식 2]

수학식 2를 최소화하기 위해, 이를 R, a, ξ_i에 대해 편미분하고 이를 0으로 놓으면 다음의 수학식 3을 얻을 수 있다.

[수학식 3]

여기서 α_i≥0, μ_i≥0이기 때문에, 수학식 3으로부터 0 ≤ α_i≤ C와 같은 제약식을 얻을 수 있다. 그래서 수학식 1을 다음의 수학식 4의 형태로 변환시킬 수 있다.

[수학식 4]

수학식 4를 α_i에 대해 최대화함으로써 해를 구할 수 있으며, α_i의 범위에 따라 다음 수학식 5와 같이 3가지 형태의 해로 분류될 수 있다.

[수학식 5]

수학식 5의 결과로부터 영역 표현은 0 < α_i< C의 라그랑제 승수를 가진 데이터로만 표현되며, 이 데이터는 원 또는 영역의 경계선 위에 있는 점을 말하고 이를 지지벡터라고 부른다. 임의의 데이터 z가 영역에 속하는지 조사하기 위해서는 다음의 거리함수를 나타내는 수학식 6을 사용하도록 한다.

[수학식 6]

D²(z) < R²의 관계를 만족한다면, 데이터 z는 영역에 포함됨을 나타낸다. 여기서 R²은 지지벡터에서 D²(ㆍ)의 값을 계산하여 구할 수 있다. 즉, 수학식 6의 z에 지지벡터를 대입함으로써 얻을 수 있다.

도 3은 수학식 6을 사용하여 D²(z) ≤ R²을 만족하는 영역을 나타낸 그림이다.

도시된 바와 같이, 데이터 영역을 입력 공간에서 원으로 나타내면 적절한 표현을 할 수 없기 때문에 우리는 커널 기법을 사용하여 특징공간에서 원을 찾도록 한다. 여기서 특징공간에서의 연산은 비선형 변환을 통해 고차원 영역으로 사상시킴으로써 가능하게 할 수 있다. 이를 위해 φ(x)를 데이터 x를 입력 공간에서 고차원 특징공간으로 사상시키는 함수라 하고, 이 함수들의 내적 φ(x)^Tφ(y)을 커널 함수 K(x,y)라 하자. 고차원 사상을 통해 수학식 1은 다음의 수학식 7로 표현될 수 있다.

[수학식 7]

그리고 위의 수학식 7에 대해 수학식 2, 3의 과정과 같은 계산을 하면 다음의 수학식 8과 같은 α_i에 대한 식으로 표현될 수 있다.

[수학식 8]

그리고 이를 만족시키는 해를 사용하여 특징공간에서의 거리함수를 구하면 다음의 수학식 9와 같다.

[수학식 9]

본 발명에서는 수학식 9를 계산하기 위해 다음의 가우시안 형태의 커널 함수만을 사용하도록 한다.

도 4는 가우시안 커널 함수를 사용하여

을 만족하는 영역을 나타낸 그림이다.

도시된 바와 같이, 도 3과 비교해볼 때 커널 함수를 통해 얻어진 특징 공간 에서의 거리함수가 데이터를 포함하는 작은 영역을 표현하기에 더 적절하며, 데이터의 비선형 특성을 잘 나타낼 수 있음을 알 수 있다.

제 2 단계. 영역 밀도 표현 함수의 정의

제 2 단계에서는 지지벡터 영역 표현 기법으로 얻어진 데이터 영역에서 밀도 정보를 추출하도록 한다. 이를 얻기 위해 표현된 영역에서의 특징 공간 거리함수와 데이터 분포와의 관계를 설명하도록 한다. 설명을 위해, x_a와 x_b는 같은 확률 분포 함수로부터 추출된 같은 종류의 데이터이며 x_a가 x_b보다 뽑힐 확률이 크다고 가정하자.

[수학식 10]

여기서 x_a와 x_b는 집합 X의 원소이며, p(x)는 알려지지 않은 확률밀도 함수이다. 지지벡터 영역 표현 기법으로부터 얻어진 수학식 4의 해는 세 가지이며, 확률 밀도가 높은 부분의 데이터로부터 멀리 떨어져 있을수록 해당 데이터의 라그랑제 승수에 더 높은 가중치가 부여된다. 표현 영역 안에 있는 라그랑제 승수의 값보 다 경계면에 있는 데이터의 라그랑제 승수 값이 더 크며, 영역 밖에 있는 데이터의 라그랑제 승수의 값이 가장 크다. 그리고 같은 범위 안에 있는 데이터는 대부분 확률 밀도가 높은 값을 갖는 데이터의 라그랑제 승수가 확률 밀도가 낮은 데이터의 라그랑제 승수보다 작거나 같다. 이는 실험적으로부터 얻어진 결과이기도 하다. 따라서 두 데이터에 해당되는 라그랑제 승수는 다음의 수학식 11과 같은 관계를 갖는다.

[수학식 11]

그리고 수학식 8을 α_i에 대하여 미분하면 수학식 12와 같다.

[수학식 12]

그리고 수학식 11과 12로부터 다음의 수학식 13에 표현된 부등식을 유도할 수 있다.

[수학식 13]

수학식 13으로부터 우리는 같은 종류의 데이터 x_a, x_b가 p(x_a) ≥ p(x_b)의 관계를 가진다면, 특징 공간에서의 거리함수 값은 다음과 같은 관계를 가짐을 알 수 있다.

따라서 특징 공간 거리함수는 데이터 분류를 위한 밀도 정보로 사용하는 것이 가능하다. 이를 사용하여 같은 영역 안에 있는 데이터 간의 밀도를 비교하는 것이 가능하다. 하지만 다른 종류간의 데이터와 영역 밀도를 비교해야 하기 때문에 각각 영역 밀도는 동일한 기준에 의하여 너비가 정해져야 할 필요가 있다. 따라서 영역밀도의 알맞은 너비를 표현하기 위해 다음의 수학식 14와 같은 가우시안 함수를 영역밀도 표현함수의 모델로 사용하기로 한다. 그리고 영역밀도의 너비를 결정하는 모수 σ값을 결정하기 위해 최대 우도 추정 기법을 사용하도록 한다.

[수학식 14]

수학식 14에서 p(x|σ)로부터 독립적으로 뽑힌 데이터의 집합을 X={x₁, x₂,…, x_n}라 하면, 각 데이터는 독립적으로 뽑혔기 때문에, 다음의 수학식 15와 같은 우도를 갖는다.

[수학식 15]

위의 수학식 15의 우도 대신 다음의 수학식 15-2와 같은 로그-우도를 최대화하도록 한다.

[수학식 15-2]

이를 최대화하기 위해 ℓ(σ)를 σ에 대해 미분하면,

[수학식 16]

그리고 위의 수학식 16으로부터 σ²을 구하면 다음의 수학식 17과 같다.

[수학식 17]

여기서,

이다.

그리고, 본 발명에서는 영역의 중심을 구하기 위해 지지벡터만을 사용하였으므로 σ를 구할 때도 지지벡터만을 사용하도록 한다. 따라서 추정된 너비 모수는 다음의 수학식 18과 같다.

[수학식 18]

여기서 모수 σ²는 기존의 가우시안 모델의 확률밀도 함수에서의 분산과 비슷한 의미를 지닌다. 데이터의 영역이 클수록, 함수의 최대값이 감소하고 너비가 넓어지도록 하는 역할을 한다.

도 5는 위의 결과들을 사용하여 2차원에서 3개의 가우시안 분포로 이루어진 확률 밀도의 밀도 정보를 얻어낸 결과이다.

도시된 바와 같이, 가우시안 확률밀도 함수와는 다르게 데이터의 왜도를 정확하게 표현할 수 있음을 알 수 있다. 다음 단계에서는 제 2 단계에서의 결과를 이용하여 실제 다중 분류에 적용하는 방법에 대해 설명하도록 한다.

제 3 단계. 다중 분류문제에서의 종류 결정

제 3 단계에서는 모든 종류에 대해서 제 2 단계의 과정을 거친 후 비교를 하는 과정이다. 다중 분류 문제에서의 설명을 위해 x_i _ℓ은 ℓ번째 종류의 i번째 데이터라고 하고, y_i _ℓ은 x_i _ℓ의 종류라고 하자. 여기서 x_i _ℓ∈R^d, y_i _ℓ=ℓ∈1,…,k 라 하고 {(x_i _ℓ,y_i _ℓ)}의 데이터가 주어진다면, 본 발명에서는 k종류의 데이터들을 분류하기 위해 k개의 지지벡터 영역 표현을 해야 한다. ℓ번째 종류 데이터의 밀도 정보를 얻기 위해 다음의 수학식 19에 표현된 이차계획법의 해를 구하도록 한다.

[수학식 19]

여기서, n_ℓ은 ℓ번째 종류 데이터의 개수를 나타낸다. 각 종류에 대해 수학식 19의 해를 구하고 나면, 다음의 수학식 20과 같은 k개의 영역 표현을 얻게 된다.

[수학식 20]

여기서

은 ℓ번째 종류에 대해 수학식 20의 해를 나타낸다. 그리고 데이터 종류의 중심과 지지벡터와의 거리는 종류 영역의 반지름과 같기 때문에 수학식 18에서 ℓ번째 종류의 모수 σ_ℓ ²는 다음의 수학식 21과 같이 표현될 수 있다.

[수학식 21]

수학식 21에서 알 수 있듯이 모수 σ_ℓ ²은 학습 후 별도의 계산 없이 수학식 19의 학습과정에서 직접 얻을 수 있다. 마지막으로 각 데이터 종류에 대한 사전확률 p(C_ℓ)을 알 수 있다면, 분류를 위한 판별 함수는 수학식 22와 같다.

[수학식 22]

본 발명에서는 p(C_ℓ)의 값을 전체 데이터 개수에 대한 ℓ번째 종류 데이터 개수의 비율인 n_ℓ/N로 계산하였다.

도 6은 2차원 데이터의 이진 분류 문제에서 제안된 방법과 파즌 창, 지지벡터 기계에 의해 구해진 초평면을 나타내고 있으며, (a), (b), (c)는 각각 파즌 창, 지지벡터 기계, 본 발명의 실시예에 의한 결과를 보여준다.

도시된 바와 같이, 본 발명은 영역 밀도 정보를 사용하여 경계면을 잘 표현하고 있음을 알 수 있다.

도 7은 다중 분류 문제에서 인위적으로 생성된 5종류 데이터에 대한 분류의 예를 나타내었다. (a), (b), (c), (d)는 각각 파즌 창, one-against-all SVM, one-against-one SVM, 본 발명의 실시예에 의한 얻어진 결과이다.

도 8은 각 종류마다 100개의 데이터를 5개의 서로 다른 2차원 가우시안 확률분포 함수로부터 추출하여 학습하고, 다시 1000개의 데이터를 같은 분포로부터 생성하여 이를 분류한 결과를 나타내었다.

도시된 바와 같이, 본 발명의 경우 가장 좋은 분류 성능을 가지며, 학습 속 도는 다른 방법과 비교하여 월등히 빠르다는 것을 알 수 있다. 그리고 분류를 위해 사용되는 정보량은 다른 방법과 비교해 훨씬 적은 양을 갖는다.

도 10, 11, 12는 실제 데이터인 UCI 데이터베이스(UCI Repository of learning machine database)를 사용하여 분류한 결과를 나타낸다.

UCI 데이터베이스 중 iris, glass, vowel, sonar, segment, ionoshere을 비교실험을 위해 사용하였으며, 각 데이터 집합에 대한 특성인 데이터의 개수, 종류의 개수, 차원의 수는 도 9에 나타내었다.

이 데이터 집합에 대한 성능 평가는 분류 정확도, 학습 속도, 판별 함수를 위해 필요한 정보량을 기준으로 하였다. UCI 데이터베이스에서 분류정확도는 대부분의 경우 다른 기법과 비교하여 비슷하거나 더 좋은 성능을 보이며, 학습속도는 모든 분류문제에서 가장 빠른 결과를 보인다. 또한 필요한 정보량 역시 가장 작다. 이는 본 발명의 목적과 부합하는 결과를 나타낸다.

제 4 단계 및 제 5 단계. 데이터 증가에 따른 점진적 학습

제 4 단계 및 제 5 단계에서는 새로운 데이터가 주어져서 학습을 다시 해야 할 경우에 대해 고려하도록 한다. 우선 점진적 학습의 필요성에 대해 설명하도록 한다. 대부분의 경우 본래의 데이터의 통계적 성질을 완벽하게 묘사하는 학습 데이터가 주어지지 않기 때문에, 기존의 인식성능보다 향상된 결과를 얻기 위해 새로운 학습 데이터를 얻게 되었을 경우 이를 추가하여 재학습하게 될 필요가 있다. 동시에 인식성능의 향상에 필요 없는 데이터나 학습에 영향을 끼치지 않는 데이터는 학습 시 제거해야한다.

이와 같이 학습 성능을 높이기 위해 재학습할 때, 필요한 최소한의 데이터를 저장하는 동시에, 최대한 연산량을 줄이기 위한 기법을 점진적 학습으로 정의할 수 있다. 이는 시스템의 메모리 자원 낭비를 막기 위해서나 연산 량을 줄이기 위해 필수 불가결한 요소이다.

기존의 방식은 데이터가 추가될 경우, 이전의 사용되었던 데이터와 현재 추가된 데이터를 모두 사용하여 학습을 하도록 하였다. 그래서 데이터가 늘어남에 따라 학습시간이 기하급수적으로 늘어나기 때문에 데이터의 크기가 유동적으로 변하는 얼굴인식 시스템과 같은 응용에 적절하지 못하다. 특히 지지벡터 기계와 같은 기존의 이진분류기에 의한 학습은 모든 데이터 종류간의 상관관계를 고려하여야 하기 때문에 사람의 수가 늘어날 때마다 기하급수적으로 분류기의 수와 학습시간이 늘어나고 저장해야 하는 정보량이 많아지며, 데이터의 종류를 분류하기 위한 시간이 길어지게 되었다.

그래서 우선적으로 데이터 종류의 수가 늘어나더라도 다른 종류와 관계를 고려하는 것 없이 추가된 데이터의 종류만을 학습할 필요가 있다. 그리고 학습이 될 필요성이 있는 종류 안의 데이터에서도, 필요한 데이터만을 골라내어 학습하거나 새로운 데이터가 재학습될 필요성이 있는지의 여부를 조사할 수 있는 기법이 필요하다.

지금까지 전술된 내용에서의 제안된 본 발명의 기법은 각 종류별로 자신의 종류만의 데이터를 기반으로 학습을 진행하기 때문에 종류별로 독립적인 학습이 가능하다. 따라서 제 4 단계 및 제 5 단계에서는 임의의 종류에서의 데이터가 추가되어 재학습되어야 할 경우 학습에 필요한 데이터를 골라내거나 주어진 데이터가 재학습되어야 할지를 알아내는 기법에 대해서만 중점적으로 설명하도록 한다.

점진적 학습을 위해 우리는 다음과 같은 지지벡터 학습에서의 특성을 사용하도록 하였다.

<지지벡터 학습의 특성>

학습된 결과에서 얻어진 지지벡터만으로 다시 지지벡터 학습을 한 결과와 기존의 모든 데이터 모두를 사용하여 학습한 결과는 같다.

위의 사실은 영역을 표현하는 정보는 지지벡터만으로 구성된다는 사실에 기인한다. 영역 내부에 있는 데이터는 전술된 내용에서 알 수 있듯이, 라그랑제 승수의 값이 0이 되기 때문에 영역 표현에는 아무런 영향을 끼치지 않게 된다. 따라서 새로운 데이터가 추가될 경우에는 기존의 결과 중 지지벡터를 제외한 나머지 모든 데이터는 제거하고 새로운 데이터와 지지벡터를 포함하여 학습하도록 한다. 영역을 표현하기 위해 필요한 지지벡터의 수는 항상 전체 데이터 중 적은 부분을 차지하기 때문에 이와 같은 방법을 사용하면 시스템의 메모리 자원 낭비를 막을 수 있다.

그러나 이보다 더 자원을 효율적으로 사용하기 위해 한가지 더 고려해야 할 사항이 있다. 추가된 데이터는 항상 영역 형성에 영향을 끼치는 것이 아니므로, 추가된 정보 중에도 필요한 정보만을 선택하여 학습에 참여시키도록 해야 하는 것이다. 즉, 추가로 학습되어야 할 데이터가 이전에 구해진 영역에 포함되는지 테스트하여 만약 그렇다면, 이 데이터는 학습될 정보에서 제외시킨다. 이는 포함된 영역에 있는 데이터는 학습 후 영역의 모양에 아무런 영향을 끼치지 않기 때문이다. 이와 같이 지지벡터를 제외한 정보는 제거하고, 추가된 종류 혹은 사람에 대한 정보만을 이용하되, 이 중에서도 학습에 영향을 줄 수 있는 데이터만을 골라내어 학습하여 점진적 학습이 가능하게 할 수 있다.

점진적 알고리즘의 핵심 내용은 다음과 같이 간략하게 요약될 수 있다.

1. 새로운 데이터가 추가될 경우, 해당 종류의 영역에 포함되는지 조사한다.

2. 영역에 속한다면, 재학습을 진행하지 않고 멈춘다. 영역에 속하지 않는다면, 기존의 영역에서 구해진 지지벡터와 추가된 데이터를 사용하여 이차계획법의 해를 구한다.

3. 학습 후 지지벡터가 아닌 데이터는 모두 제거한다.

여기서 과정 1을 수행하기 위해, 새롭게 주어진 데이터 x가 종류ℓ에 속할 경우, ℓ종류 영역 학습 후에 얻어진 하기 수학식 23의 특징 공간 거리 함수를 사용한다.

[수학식 23]

이때, D_ℓ ²(x)는 ℓ종류 영역 학습으로 얻어진 거리함수이며, R_ℓ ²는 특징 공간에서의 영역 반지름을 나타낸다. 여기서 수학식 23의 조건을 만족하면 데이터 x는 ℓ번째 종류의 영역에 속하는 것으로 결정하며, 이때 데이터 x를 학습에서 제외한다.

또한, 과정 3을 수행하기 위해, α_iℓ가 ℓ번째 종류의 i번째 데이터를 의미하고 α_iℓ=0 를 만족할 경우, 지지벡터가 아니므로 ℓ번째 종류의 i번째 데이터 x_iℓ를 이후의 학습을 위해 제거한다.

도 13, 14은 전술된 점진적 학습의 기법의 성능을 평가하기 위해 필요한 실험 결과들을 보여주는 표이다.

도시된 바와 같이, 도 13과 14의 실험은 얼굴 영상 데이터집합인 예일 데이터베이스(Yale Face database)에서 수행되었다. 예일 데이터베이스는 15명에게서 얻은 165장의 얼굴 사진을 포함하고 있으며, 각각의 사람에게서 얻어진 11장의 사진은 서로 다른 조명 및 표정 하에서 얻어진 것이다.

도 13에서의 표는 데이터의 증가에 따른 학습 시간의 비교를 위해 다중 분류용 지지벡터 기계의 3가지 기법과 비교한 결과를 나타낸다.

도시된 바와 같이, 학습용 데이터와 조사용 데이터간의 비가 4:7, 5:6, 6:5, 7:4 일 때의 학습시간을 비교하였으며, 각 비에서 학습 데이터의 개수는 각 각 60개, 75개, 90개, 105개이다. 표에서 알 수 있듯이 기존의 방법들은 데이터의 개수가 늘어날 때마다 학습 시간이 크게 증가하는 경향을 보이며, 제안된 기법과 비교하여 매우 느린 학습 속도를 갖는다.

도 14에서는 데이터의 종류를 결정하기 위해 분류기에서 필요한 데이터의 크기를 실험하였다.

파즌 창 기법은 항상 모든 데이터를 그대로 사용하기 때문에 데이터의 크기는 항상 주어진 데이터의 크기와 같으며, 다중 분류용 지지벡터 기계는 원래의 데이터 크기보다 큰 크기의 데이터를 필요로 한다. 원래 지지벡터 기계는 이진분류문제에서는 학습 데이터보다 훨씬 적은 데이터를 사용하여 데이터를 분류하지만, 다중 분류에서는 이중 분류기를 다중 분류기로 확장하기 위해 데이터를 중복해서 사용하기 때문에 이와 같은 결과를 나타낸다. 이는 효율적으로 적은 데이터를 사용하여 분류기를 구성하려고 하는 지지벡터 기계의 목적과 어긋나는 결과를 보여준다. 따라서 데이터의 수가 늘어나는 경우 학습시간의 증가와 판별함수 표현에 필요한 데이터의 크기를 줄이기 위해, 점진적 학습이 필요함을 알 수 있다.

도 15와 16은 추가적 실험내용으로써 점진적 기법을 사용하여 구현된 얼굴 인식 기법에서의 인식 결과를 나타낸 그래프이다.

실험은 11명의 사람을 대상으로 인식 성능을 평가하도록 하였으며 5일간 조명이 변하는 조건을 고려하기 위해, 조명 조건이 변하는 실내에서 얼굴 인식 성능 평가하도록 하였다. 우선 3사람을 등록하여 인식 성능을 평가하고, 잘못 인식된 사람만을 추가 학습 한 후, 다음 날 다시 8명의 사람을 추가하여 학습하고 인식 성능을 평가하였다. 평가는 오전 10시부터 오후 8시 사이에 무작위로 수행되었으며, 하루 동안의 인식 성능을 도 15에 막대 그래프로 나타내었다. 처음에는 학습된 시각과 평가 시간이 다르므로 조명 조건이 달라서, 인식 성능은 좋지 못한 결과를 나타낸다. 하지만 틀린 사람만을 점진적으로 학습함으로써, 점차 인식 성능이 향상되었다.

도 16은 각각의 개인에 대한 인식 성능의 향상을 5일간 평가하여 이를 나타낸 그래프이다.

도시된 바와 같이, 첫째 날 학습된 3명에 대한 인식 성능은 다음날 8명의 사람이 추가되어, 사람 Na로 표기된 사람을 제외한 나머지 두 사람에 대한 성능이 떨어짐을 볼 수 있다. 그 후 이 두 사람을 추가학습 한 후 성능을 조사하였더니 두 사람이 성능이 좋아지는 대신, 다른 4명에 대한 인식률이 떨어지게 되었다. 하지만 다시 틀린 사람을 점진적으로 학습하고 평가한 결과 모든 사람에 대한 인식 성능은 점진적으로 증가하게 되었다. 그 후 더 좋은 인식 성능을 위해, 잘못 인식된 갖는 사람에 대해 다시 학습한 결과 두 사람만을 제외하고, 나머지 사람에 대해서는 완전한 인식을 하게 되는 결과를 얻게 되었다.

결국 점진적 학습을 통해 전체 인식 성능은 인식률이 향상하는 추이를 보인다. 따라서 점진적으로 계속 학습하게 되면 다양한 조명 효과에서도 인식 성능이 향상되는 것을 볼 수 있다. 이로써 발명된 점진적 학습 기법을 사용함으로써 학습속도와 인식성능을 개선할 수 있음을 알 수 있다.

이상에서 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

상술한 바와 같이, 본 발명에 따르면 지지벡터 학습에 의해 얻어진 영역으로부터 밀도 정보를 사용함으로써, 다중 분류의 경우에 기존의 지지벡터 기계 및 신 경망 분류기법보다 훨씬 빠르게 학습할 수 있으며, 기존의 확률밀도 추정 방식보다 적은 수의 데이터를 사용하여 판별함수를 표현할 수 있는 효과가 있다.

또한, 인식 성능을 높이기 위해 새롭게 주어진 데이터를 점진적으로 학습함으로써, 여러 번 재학습을 필요로 하는 얼굴 인식 시스템과 같은 응용에서 학습 계산량을 감소시키는 효과가 있다.

Claims

주어진 복수 개의 데이터에 대하여 각 종류별로 이차 계획법을 이용하여 하기의 수학식 24로 정의되는 특징 영역 거리 함수를 결정하고, 상기 특징 영역 거리 함수의 값이 하기의 수학식 25의 조건을 만족하는 데이터의 영역을 결정하는 제 1 단계;

최대 우도 추정 방식을 사용하여 상기 영역 내의 데이터 밀도를 산출하는 제 2 단계; 및

종류별로 데이터 밀도와 사전확률의 곱을 계산하고, 상기 종류별 계산결과를 서로 비교하여 그 중에서 가장 큰 값을 갖는 종류를 데이터의 종류로 결정함으로써 각 데이터를 종류별로 분류하는 제 3 단계;

를 포함하여 구성되는 패턴 분류 방법.

[수학식 24]

이때, K(x_i,x_j)는 입력 데이터를 입력 공간에서 고차원 특징공간으로 사상시키는 함수들의 내적으로 표현되는 커널 함수를 나타냄.

[수학식 25]

이때, D²(x)는 지지벡터 영역표현 방법에 의해 얻어진 특징 공간에서의 영역의 중심과 데이터의 거리를 나타내는 특징 영역 거리 함수를 나타냄.
제 1 항에 있어서,

상기 커널 함수는 하기의 수학식 26으로 정의되는 가우시안 커널 함수인 것을 특징으로 하는 패턴 분류 방법.

[수학식 26]
제 1 항에 있어서,

상기 제 2 단계는 하기의 수학식 27의 형태로 영역밀도 표현함수를 정의하는 단계; 및

상기 영역밀도 표현함수의 너비를 결정하는 모수를 추정하는 단계;

를 포함하는 것을 특징으로 하는 패턴 분류 방법.

[수학식 27]

이때, D²(x)는 지지벡터 영역표현 방법에 의해 얻어진 특징 공간에서의 영역의 중심과 데이터의 거리를 나타내는 특징 영역 거리 함수; 및

σ²은 영역밀도 표현함수의 너비를 결정하는 모수를 나타냄.
제 3 항에 있어서,

상기 모수를 추정하는 단계는 데이터 집합에 대하여 하기의 수학식 28로 표현되는 최대우도를 정의하는 단계;

상기 최대우도를 최대화하기 위해 하기의 수학식 29로 표현되는 로그 우도를 최대화하는 단계; 및

상기 모수를 하기의 수학식 30과 같은 값으로 추정하는 단계;

를 포함하는 것을 특징으로 하는 패턴 분류 방법.

[수학식 28]

[수학식 29]

[수학식 30]

이때, n_sv는 지지벡터의 개수;

d는 데이터의 차원;

φ(x)는 고차원 특징함수;

x_sk는 지지벡터; 및

a는 특징 공간의 중심을 나타낸다.
제 1 항에 있어서,

상기 제 3 단계는 각 종류의 데이터 영역에 대하여 하기의 수학식 31로 표현되는 특징공간에서의 거리함수를 구하는 단계; 및

수학식 32로 표현되는 판별함수를 사용하여 사전확률과 영역밀도 표현함수의 곱이 가장 크게 나타나는 영역을 데이터의 영역으로 판별하는 다중 분류를 수행하여 데이터의 종류를 결정하는 단계를 포함하는 것을 특징으로 하는 패턴 분류 방법.

[수학식 31]

이때, D_ℓ(z)는 ℓ번째 거리함수;

K(x,y)는 커널함수; 및

α_iℓ은 ℓ번째 종류 i번째 라그랑제 승수를 나타낸다.

[수학식 32]

이때, C_ℓ은 ℓ번째 데이터 종류;

p(C_ℓ)은 사전확률; 및

p(x|C_ℓ)은 영역밀도 표현함수를 나타낸다.
제 5 항에 있어서,

하기의 수학식 33에 의해 각 종류의 모수를 계산하는 단계를 더 포함하는 것을 특징으로 하는 패턴 분류 방법.

[수학식 33]

이때, R_ℓ은 ℓ번째 종류영역의 반지름; 및

d는 데이터의 차원을 나타낸다.
제 1 항에 있어서,

새로운 데이터가 추가되는 경우, 상기 데이터가 기 분류된 영역에 포함되는지 여부를 판단하는 제 4 단계; 및

상기 판단 결과 기 분류된 영역에 포함되지 않으면 기존의 영역에서 구해진 지지벡터와 새로 추가된 데이터를 주어진 전체 데이터로 삼아 상기 제 1 단계부터 상기 제 3 단계의 과정을 거쳐 새로운 지지벡터를 구하고, 지지벡터가 아닌 데이터 는 모두 제거하는 제 5 단계;

를 더 포함하여 구성되는 패턴 분류 방법.