KR100682935B1

KR100682935B1 - 데이터베이스의 비정상샘플 제거 방법 및 장치

Info

Publication number: KR100682935B1
Application number: KR1020050013137A
Authority: KR
Inventors: 오종구; 김동윤; 방원철; 조준기; 최은석; 양징; 조성정; 장욱
Original assignee: 삼성전자주식회사
Priority date: 2005-02-17
Filing date: 2005-02-17
Publication date: 2007-02-15
Also published as: KR20060092394A

Abstract

데이터베이스의 비정상샘플 제거 방법 및 장치가 개시된다. 이 장치는 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부, 각 클래스에 대해, 상기 클래스 내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부, 상기 클래스 내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 각 클래스 내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 기준값을 결정하여 불량 샘플들을 자동적, 체계적으로 제거할 수 있으며, 데이터베이스의 표준편차를 클래스의 산포 구조의 정도에 따라 원하는 수준으로 낮추고, 전체적으로 데이터베이스 내의 불량샘플 들의 제거량을 조절하는 것이 가능해진다.

Description

데이터베이스의 비정상샘플 제거 방법 및 장치{Method and apparatus for eliminating outlier samples from database}

도 1은 본 발명에 의한 데이터베이스의 비정상샘플 제거장치를 나타내는 블록도이다.

도 2는 샘플검사부의 보다 상세한 구성을 포함한 본 발명에 의한 데이터베이스의 비정상샘플 제거 장치를 나타내는 블록도이다.

도 3은 클래스와 샘플 간의 상대적 관계를 도시한 것이다.

도 4은 본 발명에 의한 데이터베이스의 비정상샘플을 제거하는 방법을 나타내는 흐름도이다.

본 발명은 데이터베이스에 관한 것으로, 보다 상세하게는 각 클래스 내의 각각의 샘플들과 클래스 간의 중심거리와 자신이 속한 클래스와의 중심거리의 차이를 계산하여 특이샘플에 해당하는 비율을 구하고, 이를 이용하여 기준값을 정한 뒤 기준값을 초과한 샘플들을 제거하는 데이터베이스의 비정상샘플을 제거하는 방법 및 장치에 관한 것이다.

기계학습(Machine learning)에 기반한 인식기는 학습에 필요한 샘플들을 모은 데이터베이스가 필요하며 데이터베이스의 데이터의 품질은 인식기 학습결과에 많은 영향을 미친다. 데이터베이스의 구축 과정에는 여러 가지 예측가능하거나 예측불가능한 이유들로 불량 샘플들이 섞이게 된다.

학습 데이터베이스에 불량 샘플들이 많이 섞여있는 경우 이들이 통계학적 이상점(statistical outlier) 들로 작용하여 학습에 부정적 영향을 미친다. 즉 불량 샘플들이 클래스들 간의 혼동을 일으켜 식별성(discriminality)을 떨어뜨리고, 불량 샘플들이 데이터의 산포를 실제보다 과장되어 보이게 함으로써 학습모델의 최적화를 방해하게 된다.

데이터베이스의 규모가 커질수록 이러한 불량 샘플의 개연성은 높아지게 된다. 데이터 제공자의 수가 많아질수록 제공자의 수집장치 조작의 미숙, 실수, 불성실 등의 개연성이 증가하기 때문이다.

따라서 종래에는 이러한 불량 샘플들을 판단하기 위하여 수작업이나 육안에 의한 판별법을 사용하였다. 그러나 이와 같은 육안에 의존한 수작업 검사는, 데이터베이스의 규모가 커질수록 검사에 필요한 시간과 비용이 증가하고, 육안검사를 할 수 없는 경우들이 있으며, 육안 검사가 가능해도 그 신뢰성을 보장할 수 없는 등의 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는, 각 클래스 내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 불량 샘플들을 자동적, 체계적으로 제거할 수 있고, 데이터베이스의 표준편차를 클래스의 산포구조의 정도에 따라 원하는 수준으로 낮출 수 있는, 데이터베이스의 불량샘플을 제거하는 방법 및 장치를 제공하는 데 있다.

상기의 기술적 과제를 이루기 위한 본 발명에 의한, 클래스의 불량샘플을 제거하는 장치는 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부, 각 클래스에 대해, 상기 클래스 내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부, 상기 클래스 내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 한다.

바람직하게는 상기 샘플검사부는 상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력하는 중심거리계산부, 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 비교부, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 특이샘플판별부를 포함하는 것을 특징으로 하고, 상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으 로 한다.

바람직하게는 상기 샘플제거부는 상기 클래스 내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 한다.

바람직하게는 상기 기준값결정부는 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 한다.

바람직하게는 상기 클래스의 비정상샘플 제거장치는 학습용 데이터베이스에 사용되는 것을 특징으로 한다.

상기의 기술적 과제를 이루기 위한 본 발명에 의한, 클래스의 불량샘플을 제거하는 방법은 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들의 군집된 집단으로 정의되는 클래스가 존재하고, 상기 각각의 샘플이 상기 클래스 중 어느 하나에 속해 있는 클래스의 비정상샘플 제거방법에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 단계, 각 클래스에 대해 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 단계, 상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 지 판단하는 단계, 상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 단계를 포함한다.

바람직하게는 상기 검사하는 단계는 상기 샘플과 모든 클래스들의 중심거리들을 계산하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소인지 판단하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 단계를 포함하는 것을 특징으로 하고, 상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 한다.

바람직하게는 상기 제거하는 단계는 상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 한다.

바람직하게는 상기 기준값을 결정하는 단계는 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 한다.

이하, 본 발명에 의한 데이터베이스의 이상점을 제거하는 방법 및 장치를 첨부된 도면을 참조하여 다음과 같이 설명한다.

도 1은 클래스와 샘플 간의 상대적 관계를 도시한 것이다.

도 1은 본 발명에 의한 데이터베이스의 비정상샘플을 제거하는 장치를 나타내는 블록도이다. 도시된 바에 따른 데이터베이스의 비정상샘플을 제거하는 장치는 샘플검사부(100), 기준값결정부(110), 샘플제거부(120)를 포함하여 이루어진다.

상기 샘플검사부(100)는 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사한다. 샘플검사부(100)를 사용하는 것은 클래스와 클래스들 간의 데이터 산포의 거시적 구조와 충돌, 혼란도의 개요을 신속히 파악할 수 있고 이에 기반하여 특이점들 혹은 혼란을 일으키는 샘플들을 감지하는데 활용할 수 있기 때문이다. 또한, 상대적으로 구현과 사용이 쉽고 빠른 장점이 있다.

도 2는 도 2는 샘플검사부(100)의 보다 상세한 구성을 포함한 본 발명에 의한 데이터베이스의 비정상샘플 제거 장치를 나타내는 블록도이다. 도 2를 참조하면 샘플검사부(100)는 중심거리계산부(200), 비교부(210), 특이샘플판별부(220)로 이루어지는 것이 바람직하다.

상기 중심거리계산부(200)는 상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력한다. 중심거리계산부(200)는 각 샘플에 대해 모든 클래스 중심점 들까지의 유클리디언 거리(Euclidean distance)를 계산한다. 유클리디언 거리는 대상들의 특성에 대한 측정치를 하나의 거리로 환산하는 방법인 거리형태 척도 중에서 가장 편리하게 사용되는 척도이다.

상기 비교부(210)는 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교한다.

상기 특이샘플판별부(220)는 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별한다. 즉, 상기 중심거리계산부(200)에서 각 샘플에 대해 모든 클래스 중심점까지의 거리를 계산하여 계산된 거리를 내림차순으로 정렬한다.

도 3은 클래스와 샘플간의 상대적 관계를 도시한 것이다.

예를 들면 도 3에서 샘플에서 각 클래스까지의 거리를 계산하고 계산된 거리를 내림차순으로 정렬하면 C 클래스까지의 거리가 최소거리가 된다.

정렬결과 해당 샘플이 속한 클래스까지의 거리가 가장 낮은 순위인 경우 해 당샘플을 특이샘플로 인식하며 더 가까운 거리의 클래스가 존재하는 경우 특이샘플이 아닌 것으로 본다. 판별결과 특이샘플의 비율이 높은 클래스는 데이터의 표준편차가 큰 샘플 집단이며, 특이샘플의 비율이 낮은 클래스는 데이터의 표준편차가 작은 샘플집단이다. 도 3에서 해당 샘플이 클래스 C에 속하는 것이라면 해당 샘플은 특이샘플에 해당하지 않게 된다.

상기 기준값결정부(110)는 각 클래스에 대해, 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정한다. 즉, 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정한다. 상기 판별 결과 특이샘플로 판별되는 비율이 낮은 클래스의 경우 기준값을 크게 설정한다. 판별비율이 낮은 클래스는 데이터의 표준편차가 작은 샘플집단이므로 기준값을 높게 설정하여 상대적으로 적은 수량의 불량 샘플들만을 제거한다. 그러나 특이샘플판별비율이 높은 클래스는 데이터의 표준편차가 높은 샘플집단이므로 기준값은 낮게 설정하여 많은 불량 샘플들을 제거한다.

상기 샘플제거부(120)는 상기 클래스내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거한다. 즉, 상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거한다.

도 4는 본 발명에 의한 데이터베이스의 불량샘플을 제거하는 방법을 나타내는 흐름도이다. 본 발명에 의한 데이터베이스의 불량샘플을 제거하는 방법을 도 1과 도 2를 결부시켜 설명하기로 한다.

도 4을 참조하면, 데이터베이스 구성을 위한 가공되지 않은(raw) 데이터를 수집한다(300단계). 이때 데이터 샘플들은 전처리를 통해 벡터화되어 있는 것으로 가정한다. 또한, 각 샘플은 클래스 레벨이 있는 것으로 가정한다.

데이터베이스 구성을 위한 데이터가 수집되었으면, 중심거리계산부(200)는 각 샘플에서 클래스의 중심까지의 거리를 계산한다(310단계). 여기서 클래스의 중심점은 그 클래스의 차별적 특징을 반영하는 대표점으로 해석한다.

모든 클래스의 중심점에 대한 거리가 계산되었으면, 비교부(210)는 상기 거리를 내림차순으로 정렬하여 상호 간의 거리를 비교한다(320단계). 특이샘플판별부(220)는 정렬하여 비교한 결과 해당 샘플이 속한 클래스의 중심까지의 거리가 상기 정렬한 거리중 최소이면 특이샘플이 아닌 것으로 보고, 최소가 아니면 특이샘플인 것으로 본다. 클래스의 내의 모든 샘플에 대하여 상기와 같은 특이샘플판별을 수행하여 각 클래스의 특이샘플의 판별비율을 구한다. 판별비율이 낮은 클래스는 데이터의 표준편차가 작은 것이며, 판별비율이 높은 클래스는 데이터의 표준편차가 큰 것이다.

각 클래스의 불량샘플판별비율이 계산되면 불량샘플을 제거하기 위한 기준값을 설정한다(330단계). 표준편차가 작은 클래스에서는 적은 불량 샘플을, 표준편차가 큰 클래스에서는 많은 불량 샘플을 제거할 필요가 있다. 산포구조가 불안정한 클래스에서 더 많은 불량샘플이 존재할 개연성이 있기 때문이다. 따라서 특이샘플판별율과 불량샘플 제거를 위한 기준값(threshold)과의 대응점을 발견함으로써 문제를 해결할 수 있다.

샘플과 클래스의 중심점까지의 거리가 상기 기준값을 초과하는 경우(340단계), 상기 샘플을 불량샘플로 간주하여 제거한다(350단계). 샘플에서 클래스의 중심점까지의 거리가 상기 기준값을 초과하지 않는 경우에는 정상 샘플로 보아서 샘플값을 유지하게 된다(360단계). 모든 샘플에 대하여 상기 검사를 완료하였는지 판단하여(370단계), 검사가 완료된 경우 절차가 종료되며, 검사가 완료되지 않았다면 상기 300단계부터 360단계를 검사가 모든 샘플에 대하여 완료될 때까지 반복된다.

이러한 본원 발명인 방법 및 장치는 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.

이상에서 설명한 바와 같이, 본 발명에 의하면, 각 클래스내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 불량 샘플들을 자동적, 체계적으로 제거할 수 있으며, 데이터베이스의 표준편차를 클래스의 산포 구조의 정도에 따라 원하는 수준으로 낮추고, 전체적으로 데이터베이스 내의 불량샘플 들의 제거량을 조절하는 것이 가능해진다.

Claims

n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서,

각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부;

각 클래스에 대해, 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부; 및

상기 클래스내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
제 1항에 있어서 상기 샘플검사부는

상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력하는 중심거리계산부;

상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 비교부; 및

상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 특이샘플판별부를 포함하는 것을 특징으로 하고,

상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
제 2항에 있어서 상기 샘플제거부는

상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
제 1항에 있어서 상기 기준값결정부는

상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 하는 클래스의 비정상샘플 제거장치.
제 1항에 있어서

상기 클래스의 비정상샘플 제거장치는 학습용 데이터베이스에 사용되는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들의 군집된 집단으로 정의되는 클래스가 존재하고, 상기 각각의 샘플이 상기 클래스 중 어느 하나에 속해 있는 클래스의 비정상샘플 제거방법에 있어서,

각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 단계;

각 클래스에 대해 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 단계; 및

상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 지 판단하는 단계;

상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 단계를 포함하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
제 6항에 있어서 상기 검사하는 단계는

상기 샘플과 모든 클래스들의 중심거리들을 계산하는 단계;

상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 단계; 및

상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소인지 판단하는 단계;

상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 단계를 포함하는 것을 특징으로 하고,

상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
제 7항에 있어서 상기 제거하는 단계는

상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초 과하는 경우 상기 샘플을 제거하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
제 6항에 있어서 상기 기준값을 결정하는 단계는

상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 하는 클래스의 비정상샘플 제거방법.