KR101408345B1 - 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체 - Google Patents

데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체 Download PDF

Info

Publication number
KR101408345B1
KR101408345B1 KR1020090124010A KR20090124010A KR101408345B1 KR 101408345 B1 KR101408345 B1 KR 101408345B1 KR 1020090124010 A KR1020090124010 A KR 1020090124010A KR 20090124010 A KR20090124010 A KR 20090124010A KR 101408345 B1 KR101408345 B1 KR 101408345B1
Authority
KR
South Korea
Prior art keywords
data
boundary
deriving
matrix
probability
Prior art date
Application number
KR1020090124010A
Other languages
English (en)
Other versions
KR20110067423A (ko
Inventor
박명수
나진희
최진영
Original Assignee
서울대학교산학협력단
삼성테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 삼성테크윈 주식회사 filed Critical 서울대학교산학협력단
Priority to KR1020090124010A priority Critical patent/KR101408345B1/ko
Publication of KR20110067423A publication Critical patent/KR20110067423A/ko
Application granted granted Critical
Publication of KR101408345B1 publication Critical patent/KR101408345B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 패턴 인식(pattern recognition) 분야에서 선형 특징추축 방법들의 성능을 향상시키기 위해, 데이터 종류(class) 정보를 기반으로 경계/비경계 데이터로 분리된 데이터들을 이용하여 선형 판별 분석 방법을 수행하는 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체에 관한 것이다. 데이터 분류를 위한 데이터 처리 장치는 입력되는 데이터 및 그 주변의 이웃 데이터를 이용하여 데이터 종류에 따른 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 데이터 처리부; 상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 비산행렬 도출부; 상기 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 변환행렬 도출부; 및 상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 특징 추출부를 포함한다.
이웃 데이터 설정, 확률, 무질서도, 경계/비경계 데이터, 비산행렬, 변환행렬, 특징 추출

Description

데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체{Data processing apparatus and method for classifying data, media for writing the method}
본 발명은 패턴 인식(pattern recognition) 분야에서 선형 특징추축 방법들의 성능을 향상시키기 위해, 데이터 종류(class) 정보를 기반으로 경계/비경계 데이터로 분리된 데이터들을 이용하여 선형 판별 분석 방법을 수행하는 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체에 관한 것이다.
일반적인 컴퓨터를 이용한 분류 시스템에서는 주어진 데이터의 통계적 특성을 분석하여, 같은 통계적 특성을 가진 것으로 판단되는 새로운 데이터의 종류를 결정한다. 이 경우, 분류 성능을 향상시키기 위해서는 주어진 데이터를 처리하여 신뢰도가 높은 데이터를 선택하는 과정이 선행될 필요가 있다. 이러한 과정을 데이터 전처리(preprocessing)이라고 하는데, 이 과정은 주어진 입력 데이터에서 본질적인 정보를 추출하기 쉽도록 현재 주목하고자 하는 부분 데이터를 선정하거나 데이터를 정형하여 불필요한 정보를 분리하기 위한 예비적인 조작이다. 이러한 전처리 과정에는 데이터 정규화(normalization), 데이터 선택, 잡음 데이터 제거 등과 같은 처리가 포함된다. 데이터 전처리 과정 이후에는 계산 량을 적절한 수준으로 낮추고 데이터의 질을 향상시키기 위해 원래의 데이터를 보다 낮은 차원의 새로운 데이터로 변환할 필요가 있다. 이러한 차원감소(dimension reduction)를 위해 얻어지는 새로운 데이터를 원래 데이터의 특징(feature)이라고 부르며, 그러한 특징을 추출하는 과정을 특징추출(feature extraction)이라고 한다. 데이터로부터 특징이 추출되면, 최종적으로 분류기(classifier)를 이용하여 주어진 데이터의 종류 정보가 최종적으로 확정된다.
특징추출 방법 중에서 널리 이용되는 것으로 부분공간기법(subspace method)이 있다. 부분공간기법은 분류를 위한 본질적인 정보가 추출되도록 원 데이터를 가공하는 전처리 단계와, 가공된 데이터를 이용하여 데이터를 투영하기 위한 축들의 집합인 변환행렬을 찾는 단계와, 변환행렬을 이용하여 데이터를 투영하여 특징을 추출하는 단계와, 원 데이터 대신 투영된 특징을 이용하여 데이터를 분류하는 단계로 구성된다.
부분공간기법의 대표적인 예로는 선형판별분석(linear discriminant analysis)을 들 수 있다. 선형판별분석은 분류성능을 높이기 위해 정의된 비산을 최대화하는 축을 찾는 단계와; 찾은 축들 위로 데이터를 투영시키는 단계와; 원 영상 대신 투영된 값을 특징으로 이용하는 단계로 구성된다.
이러한 선형판별분석은 분류성능을 높이기 위해 정의된 비산(scatter)을 최대화하는 축을 찾고 이에 포함된 축을 이용하여 특징을 구한다. 비산을 표현하는 비산행렬(scatter matrix)은 같은 종류(class)에 속하는 데이터들로 정의되는 종류 내 비산 행렬(within-class scatter matrix)과 전체 데이터의 평균과 종류들의 평균들로 정의되는 종류간 비산 행렬(between-class scatter matrix)로 정의되어 있으며, 이것을 이용하면 다르게 분류되어야 할 데이터 간의 비산을 최대로 하면서 같은 종류로 분류되어야 할 데이터 간의 비산을 최소로 하는 축을 찾을 수 있다.
선형판별분석을 통해 얻어지는 특징은 기존의 주성분분석(principal component analysis)을 통해 얻어지는 특징보다 적거나 같은 차원을 가지면서도 높은 분류성능을 보여준다. 한편 선형판별분석은 전체 데이터를 동일한 가중치를 곱하여 다루는 방식으로 해석할 수 있는데, 이러한 관점에서 이 방법은 어떤 데이터가 차원 축소를 위한 축들의 집합인 변환행렬을 구하는데 더 적합한지를 고려하지 않았다는 단점이 있다.
본 발명이 해결하고자 하는 기술적인 과제는 전처리 과정을 추가하여 데이터를 종류별 결정 경계(decision boundary) 영역에 있는 데이터와 비결정 경계 영역에 있는 데이터로 나누고, 이를 이용하여 새로운 종류내 비산행렬과 종류간 비산행렬을 정의하여 분류를 위한 특징 추출 성능을 향상시킬 수 있는 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체를 제공하는데 있다.
본 발명이 이루고자 하는 기술적인 과제를 해결하기 위한 데이터 분류를 위한 데이터 처리 장치는 입력되는 데이터 및 그 주변의 이웃 데이터를 이용하여 데이터 종류에 따른 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 데이터 처리부; 상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 비산행렬 도출부; 상기 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 변환행렬 도출부; 및 상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 특징 추출부를 포함하는 것이 바람직하다.
본 발명에 있어서, 상기 데이터 처리부는 입력되는 적어도 두 종류 이상의 데이터와 소정 거리에 있는 데이터를 이웃 데이터를 설정하는 설정부; 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 도출하는 확률 도출부; 상기 확률을 이용하여 일 영역에 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타내는 무질서도를 도출하는 무질서도 도출부; 및 상기 무질서도가 기준값 이상이면 상기 데이터를 경계 데이터로 구분하고, 상기 무질서도가 기준값 이하이면 상기 데이터를 비경계 데이터로 구분하는 데이터 구분부를 포함할 수 있다.
본 발명이 이루고자 하는 기술적인 과제를 해결하기 위한 데이터 분류를 위한 데이터 처리 방법은 (a) 입력되는 데이터 및 그 주변의 이웃 데이터를 이용하여 데이터 종류에 따른 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 단계; (b) 상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 단계; (c) 상기 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 단계; 및 (d) 상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 단계를 포함하는 것이 바람직하다.
본 발명에 있어서, 상기 (a)단계는 (a-1) 입력되는 적어도 두 종류 이상의 데이터와 소정 거리에 있는 데이터를 이웃 데이터를 설정하는 단계; (a-2) 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 도출하는 단계; (a-3) 상기 확률을 이용하여 일 영역에 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타내는 무질서도를 도출하는 단계; 및 (a-4) 상기 무질서도가 기준값 이상이면 상기 데이터를 경계 데이터로 구분하고, 상기 무질서도가 기준값 이하이면 상기 데이터를 비경계 데이터로 구분 하는 단계를 포함할 수 있다.
본 발명이 이루고자 하는 기술적인 과제를 해결하기 위한 기록 매체는 상기 데이터 분류를 위한 데이터 처리 방법을 포함하는 것이 바람직하다.
상술한 바와 같이 본 발명에 따르면, 데이터 분류의 전처리 단계로 데이터의 차원을 축소할 경우, 기존의 선형판별분석 방법에 비해 분류에 적합한 특징들이 추출되도록 함으로써 분류성능을 향상시킬 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명에 따른 데이터 분류를 위한 데이터 처리 장치의 구성을 보이는 블록도로서, 데이터 처리부(110), 비산행렬 도출부(120), 변환행렬 도출부(130) 및 특징 추출부(140)를 포함하는 특징 추출 수단(100) 및 분류 수단(200)을 포함한다. 본 발명에서 데이터 처리부(110)는 이웃 데이터 설정부(111), 확률 도출부(112), 무질서도 도출부(113) 및 데이터 구분부(114)를 포함한다.
데이터 처리부(110)는 입력되는 데이터 및 그 주변의 이웃 데이터를 이용하여 데이터 종류에 따른 확률을 계산하고, 계산된 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 구분한다.
도 2를 참조하여 데이터 처리부(110)를 상세히 설명한다.
이웃 데이터 설정부(111)는 입력 데이터로서 적어도 두 종류 이상의 복수 데이터들을 수집하고, 각 데이터마다 주위의 일정 개수의 데이터들을 이웃 데이터로 설정한다. 수학식 1에는 이웃 데이터를 설정하는 수식이 개시되어 있다.
Figure 112009077089408-pat00001
여기서
Figure 112009077089408-pat00002
Figure 112009077089408-pat00003
데이터와 소정 거리에 있는
Figure 112009077089408-pat00004
개의 데이터들의 집합으로서, 데이터
Figure 112009077089408-pat00005
와 함께
Figure 112009077089408-pat00006
의 이웃 데이터 집합인
Figure 112009077089408-pat00007
를 결정한다.
Figure 112009077089408-pat00008
의 크기는
Figure 112009077089408-pat00009
값에 의해 결정된다.
확률 도출부(112)는 데이터
Figure 112009077089408-pat00010
에 대하여
Figure 112009077089408-pat00011
가 결정되면, 이를 이용하여 데이터 종류에 따른 확률값을 도출한다. 확률 도출부(112)는
Figure 112009077089408-pat00012
번째 데이터와, 상기
Figure 112009077089408-pat00013
번째 데이터 주위의 일 영열에 포함되는
Figure 112009077089408-pat00014
개의 데이터들 중에서, 상기
Figure 112009077089408-pat00015
번째 데이터와 동일한 종류의 데이터를 얼마나 포함하는지에 대한 확률을 도출한다. 수학식 2에는 확률을 도출하는 수식이 개시되어 있다.
Figure 112009077089408-pat00016
여기서
Figure 112009077089408-pat00017
데이터의
Figure 112009077089408-pat00018
번째 근접 데이터가
Figure 112009077089408-pat00019
데이터와 동일한 종류 정보를 갖는 데이터이며,
Figure 112009077089408-pat00020
값은 1이며, 그렇지 않을 경우 값은 0으로 결정된다.
Figure 112009077089408-pat00021
는 종류 정보를 의미하는 것이다. 즉
Figure 112009077089408-pat00022
Figure 112009077089408-pat00023
Figure 112009077089408-pat00024
번째 종류에 속할 확률값을 의미한다.
무질서도 도출부(113)는 상기 도출된 확률을 이용하여 데이터
Figure 112009077089408-pat00025
의 무질서도(entropy)를 도출한다. 무질서도는 상기 이웃 영역에서 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타내는 것이며, 수학식 3에 따라 도출할 수 있다.
Figure 112009077089408-pat00026
여기서
Figure 112009077089408-pat00027
는 데이터 종류의 개수를 의미한다.
도 3a에 도시된 데이터
Figure 112009077089408-pat00028
에 대해 무질서도를 상기 수학식 3을 이용하여 계산하면 0 보다 큰 값을 갖는다. 그러나 도 3b에 도시된 데이터
Figure 112009077089408-pat00029
의 무질서도는 0을 갖는다. 무질서도가 클수록 해당 데이터가 다른 종류 정보를 가진 데이터들의 집합과의 경계 영역에 위치하게 됨을 의미한다.
따라서 상기 도출된 무질서도
Figure 112009077089408-pat00030
가 기준값 보다 큰지 판단한다. 이 때 기준 값은 경험치에 의거하여 결정된 값으로, 노이즈 데이터들이 포함되는 등의 변수를 고려하여 적당하게 결정할 수 있다. 상기 판단은 하기 수학식 4로 나타내어질 수 있다.
Figure 112009077089408-pat00031
여기서
Figure 112009077089408-pat00032
는 경계 데이터의 집합이며,
Figure 112009077089408-pat00033
는 사용자가 미리 결정한 기준 임계값(threshold)으로 상술한 바와 같이
Figure 112009077089408-pat00034
값 결정에 따른 근접 이웃 영역의 크기와 종류 수에 따라 적절한 값으로 결정할 수 있다.
데이터 구분부(114)는 상기 판단 결과 데이터
Figure 112009077089408-pat00035
의 무질서도가 기준값 보다 크지 않다면
Figure 112009077089408-pat00036
는 비경계 데이터이고,
Figure 112009077089408-pat00037
의 무질서도가 기준값 보다 크다면
Figure 112009077089408-pat00038
는 경계 데이터로 구분한다.
비산행렬 도출부(120)는 상기에서 구분되어진 경계 데이터 및 비경계 데이터들을 이용하여 종류간 비산행렬과 종류내 비산행렬을 도출한다.
먼저, 종류간 비산행렬
Figure 112009077089408-pat00039
는 경계 데이터를 이용하여 수학식 5에 의해 계산된다.
Figure 112009077089408-pat00040
여기서
Figure 112009077089408-pat00041
는 상기 과정을 통해 결정된 경계 데이터의 개수를 의미하며,
Figure 112009077089408-pat00042
는 경계 데이터를,
Figure 112009077089408-pat00043
Figure 112009077089408-pat00044
번째 종류 데이터들의 평균을 의미한다.
다음으로 종류내 비산행렬
Figure 112009077089408-pat00045
는 비경계 데이터를 이용하여 수학식 6에 의해 계산된다.
Figure 112009077089408-pat00046
여기서
Figure 112009077089408-pat00047
는 비경계 데이터를,
Figure 112009077089408-pat00048
Figure 112009077089408-pat00049
번째 종류 데이터들의 평균을 의미한다.
변환행렬 도출부(130)는 상기 도출한 비산행렬
Figure 112009077089408-pat00050
,
Figure 112009077089408-pat00051
을 기준으로 삼아서 데이터를 특징으로 변환시키는 변환행렬
Figure 112009077089408-pat00052
를 도출하며, 수학식 7에 의해 계산된다.
Figure 112009077089408-pat00053
여기서 변환행렬
Figure 112009077089408-pat00054
의 각 뎔벡터(row vector)는 데이터를 투영할 축을 의미한다. 상기 수학식 7의 해는 고유치 문제(eigenvalue problem)를 통해 얻을 수 있다.
특징 추출부(140)는 도출된 상기 변환행렬에 수집된 데이터들을 투영하여 최종 특징을 추출한다. 특징 추출을 위해 수학식 8이 이용될 수 있다.
Figure 112009077089408-pat00055
Figure 112009077089408-pat00056
는 변환행렬
Figure 112009077089408-pat00057
에 투영(projection)된 낮은 차원의 특징벡터들의 집합이다.
이와 같은 특징 집합을 분류수단(200)의 입력 데이터로 사용, 분류수단(200)을 통해 데이터를 분류할 수 있다. 선형판별분석은 상기의 과정을 통해 입력데이터로부터 분류에 적합한 차원이 축소된 특징 벡터를 도출하는 과정을 의미한다.
다음에 도 4를 참조하여 본 발명에 따른 데이터 분류를 위한 데이터 처리 방법을 설명한다.
먼저, 입력 데이터로서 적어도 두 종류 이상의 복수 데이터들을 수집하고, 각 데이터마다 주위의 일정 개수의 데이터들을 이웃 데이터로 설정한다(410단계)
이웃 데이터 설정이 완료되면, 이를 이용하여 데이터 종류에 따른 확률값을 도출한다(403단계). 여기서 확률은 i 번째 데이터와, 상기 i 번째 데이터 주위의 일 영역에 포함되는 k개의 데이터들 중에서, 상기 i 번째 데이터와 동일한 종류의 데이터를 얼마나 포함하는지에 대한 확률을 나타낸다.
이어서, 도출된 확률을 이용하여 데이터의 무질서도(entropy)를 도출한다(405단계). 여기서 무질서도는 상기 이웃 영역에서 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타낸다. 무질서도가 클수록 해당 데이터가 다른 종류 정보를 가진 데이터들의 집합과의 경계 영역에 위치하게 됨을 의미한다.
무질서도가 도출되면, 도출된 무질서도가 기준값 보다 큰지 판단한다(407단계). 여기서 기준 값은 경험치에 의거하여 결정된 값으로, 노이즈 데이터들이 포함되는 등의 변수를 고려하여 적당하게 결정할 수 있다.
상기 판단 결과 데이터의 무질서도가 기준값 보다 크면 그 데이터는 경계 데이터로 구분하고(409단계), 무질서도가 기준값 보다 크지 않으면 그 데이터는 비경계 데이터로 구분한다(411단계).
경계 데이터 및 비경계 데이터의 구분이 완료되면, 경계 데이터 및 비경계 데이터들을 이용하여 종류간 비산행렬과 종류내 비산행렬을 도출한다(413단계). 종류간 비산행렬은 경계 데이터, 경계 데이터의 개수 및 i 번째 데이터들의 평균을 이용하여 도출할 수 있다. 종류내 비산 행렬은 를 이용하여 비경계 데이터, 비경계 데이터의 개수 및 i 번째 데이터들의 평균을 이용하여 도출할 수 있다.
비산행렬 도출이 완료되면, 도출한 비산행렬을 기준으로 삼아서 데이터를 특징으로 변환시키는 변환행렬을 도출한다(415단계).
이후, 도출된 변환행렬에 수집된 데이터들을 투영하여 최종 특징을 추출한다(417단계). 이와 같은 특징 집합을 분류수단(200)의 입력 데이터로 사용, 분류수단(200)을 통해 데이터를 분류할 수 있다.
이하에서는 본 발명에서 제시한 특징추출 방법에 대해 분류성능을 평가한 결과에 대해 설명하고자 한다. 이를 위하여 도 5에 도시된 UCI Machine Learning Depository에 공개된 여러 가지 분류 데이터베이스를 이용하여 분류 실험을 수행하였다.
성능 비교를 위해 두 종류의 교차평가(cross validation)를 시행하였다. 첫 번째로 데이터 집합에서 하나의 데이터를 제외한 데이터들을 이용하여 특징을 추출하고 분류기를 학습한 후, 제외하였던 데이터를 정확히 분류하는지를 기록하였다. 이와 같은 과정을 모든 데이터 각각에 대해 반복하여 전체에 대한 교차평가(cross validation)를 시행하고 분류 성능을 확인하였다. 이 방법을 LOO (leave-one-out) 교차평가 방법이라고 한다. 다음으로 데이터 집합을 10개의 부분 집합으로 나눈 후, 9개의 부분 집합에 해당하는 데이터들을 이용하여 특징을 추출하고 분류기를 학습한 후, 나머지 1개의 부분집합에 속하는 데이터를 정확히 분류하는지 기록하였다. 이러한 방식으로 10개의 부분집합 모두에 대하여 데이터를 정확히 분류하는지 분류 성능을 기록하였다. 이 방법을 10-fold 교차평가 방법이라고 한다. 10-fold 교차평가 시에는 10번을 수행하여 평균 분류 성능을 기록하였다. 분류기로는 근접 이웃 분류기(nearest neighborhood classifier)를 사용하였다.
도 6은 UCI 데이터를 이용하여 LOO 교차 평가 결과를 기존의 방법들과 비교한 내용이며, 도 7은 10-fold 교차 평가 결과를 기존의 방법들과 비교한 내용이다. 기존의 방법으로는 주성분분석(principal component analysis), 선형판별분석(linear discriminant analysis) 및 선형판별분석의 변형인 LFDA(local fisher discriminant analysis) 방법을 사용하였다.
제안한 특징추출 방법으로 추출된 특징을 이용하여 근접 이웃 분류기를 적용할 경우에는 다음과 같이 두 가지 방식을 사용하였다. 첫 번째 방식으로는 분류할 데이터(테스트 데이터)를 변환행렬에 투영한 후, 변환행렬을 구할 때 사용한 데이터(학습 데이터) 중에서 비경계 데이터만을 변환행렬에 투영하여 근접 이웃 분류기를 적용한 방식이다(도 6, 7에서는 LBDA+NN(non)으로 나타내었다). 두 번째 방식으로는 마찬가지로 분류할 데이터(테스트 데이터)를 변환행렬에 투영한 후, 변환행렬을 구할 때 사용한 데이터(학습 데이터) 모두를 변환행렬에 투영하여 근접 이웃 분류기를 적용한 방식이다(도 6, 7에서는 LBDA+NN(all)으로 나타내었다).
도 6, 7의 결과를 살펴보면 본 발명에서 제안한 선형 경계 판별 분석이 기존의 방법들에 비해 분류 성능이 우수함을 알 수 있다.
이상에서 본 발명의 바람직한 실시 예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 이들 실시 예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.
도 1은 본 발명에 따른 데이터 분류를 위한 데이터 처리 장치의 구성을 보이는 블록도 이다.
도 2는 도 1 중 데이터 처리부의 상세 블록도 이다.
도 3은 도 2 중 i 번째 데이터 및 i+1 번째 데이터로부터 무질서도를 도출하는 것을 설명하기 위한 도면들이다.
도 4는 본 발명에 따른 데이터 분류를 위한 데이터 처리 방법의 동작을 보이는 흐름도 이다.
도 5는 본 발명의 성능 평가를 위해 사용한 UCI Machine Learning 데이터베이스를 나타낸 도면이다.
도 6 및 도 7은 도 5에 도시된 데이터베이스를 이용하여 본 발명에서 제안한 선형 경계 판별 분석 및 종래의 특징추출 방법을 이용한 분류 성능을 비교하여 나타낸 표이다.

Claims (5)

  1. 입력 데이터 및 그 주변의 이웃 데이터를 이용하여 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 데이터 처리부;
    상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 비산행렬 도출부;
    상기 종류간 비산행렬 및 상기 종류내 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 변환행렬 도출부; 및
    상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 특징 추출부를 포함하는 데이터 분류를 위한 데이터 처리 장치.
  2. 제 1항에 있어서, 상기 데이터 처리부는
    입력되는 적어도 두 종류 이상의 데이터와 소정 거리에 있는 데이터를 이웃 데이터를 설정하는 설정부;
    상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 도출하는 확률 도출부;
    상기 확률을 이용하여 일 영역에 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타내는 무질서도를 도출하는 무질서도 도출부; 및
    상기 무질서도가 기준값 이상이면 상기 데이터를 경계 데이터로 구분하고, 상기 무질서도가 기준값 이하이면 상기 데이터를 비경계 데이터로 구분하는 데이터 구분부를 포함하는 것을 특징으로 하는 데이터 분류를 위한 데이터 처리 장치.
  3. (a) 입력 데이터 및 그 주변의 이웃 데이터를 이용하여 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 단계;
    (b) 상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 단계;
    (c) 상기 종류간 비산행렬 및 상기 종류내 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 단계; 및
    (d) 상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 단계를 포함하는 데이터 분류를 위한 데이터 처리 방법.
  4. 제 3항에 있어서, 상기 (a)단계는
    (a-1) 입력되는 적어도 두 종류 이상의 데이터와 소정 거리에 있는 데이터를 이웃 데이터를 설정하는 단계;
    (a-2) 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 도출하는 단계;
    (a-3) 상기 확률을 이용하여 일 영역에 얼마나 서로 다른 종류의 데이터들이 포함되어 있는지의 정도를 나타내는 무질서도를 도출하는 단계; 및
    (a-4) 상기 무질서도가 기준값 이상이면 상기 데이터를 경계 데이터로 구분하고, 상기 무질서도가 기준값 이하이면 상기 데이터를 비경계 데이터로 구분하는 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법.
  5. (a) 입력 데이터 및 그 주변의 이웃 데이터를 이용하여 상기 이웃 데이터가 상기 입력 데이터와 동일한 종류의 데이터를 얼만큼 포함하고 있는지에 대한 확률을 계산하고 상기 확률에 의한 무질서도를 이용하여 상기 데이터들을 경계 데이터 및 비경계 데이터로 처리하는 단계;
    (b) 상기 경계 데이터를 이용하여 종류간 비산행렬을 도출하고, 상기 비경계 데이터를 이용하여 종류내 비산행렬을 도출하는 단계;
    (c) 상기 종류간 비산행렬 및 상기 종류내 비산행렬을 기반으로 하여 상기 데이터를 소정의 특징으로 변환시키는 변환행렬을 도출하는 단계; 및
    (d) 상기 입력 데이터를 상기 변환행렬에 투영하여 특징을 추출하는 단계를 포함하는 데이터 분류를 위한 데이터 처리 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020090124010A 2009-12-14 2009-12-14 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체 KR101408345B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090124010A KR101408345B1 (ko) 2009-12-14 2009-12-14 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090124010A KR101408345B1 (ko) 2009-12-14 2009-12-14 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체

Publications (2)

Publication Number Publication Date
KR20110067423A KR20110067423A (ko) 2011-06-22
KR101408345B1 true KR101408345B1 (ko) 2014-06-17

Family

ID=44399871

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090124010A KR101408345B1 (ko) 2009-12-14 2009-12-14 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체

Country Status (1)

Country Link
KR (1) KR101408345B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102590575B1 (ko) 2023-04-19 2023-10-17 주식회사 에이오디컨설팅 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법
KR102590576B1 (ko) 2023-04-19 2023-10-24 주식회사 에이오디컨설팅 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090120319A (ko) * 2008-05-19 2009-11-24 삼성테크윈 주식회사 데이터 분류를 위한 데이터 처리 방법, 상기 방법을 기록한기록 매체, 및 상기 방법을 실행하는 데이터 처리 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090120319A (ko) * 2008-05-19 2009-11-24 삼성테크윈 주식회사 데이터 분류를 위한 데이터 처리 방법, 상기 방법을 기록한기록 매체, 및 상기 방법을 실행하는 데이터 처리 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102590575B1 (ko) 2023-04-19 2023-10-17 주식회사 에이오디컨설팅 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법
KR102590576B1 (ko) 2023-04-19 2023-10-24 주식회사 에이오디컨설팅 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법

Also Published As

Publication number Publication date
KR20110067423A (ko) 2011-06-22

Similar Documents

Publication Publication Date Title
CN109952614B (zh) 生物粒子的分类系统和方法
US10839510B2 (en) Methods and systems for human tissue analysis using shearlet transforms
US9031294B2 (en) Region segmented image data creating system and feature extracting system for histopathological images
CN111680614B (zh) 一种基于视频监控中的异常行为检测方法
US20180114337A1 (en) Method and system of detecting and recognizing a vehicle logo based on selective search
CN108109140A (zh) 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统
CN104167208A (zh) 一种说话人识别方法和装置
CN105718866A (zh) 一种视觉目标检测与识别方法
CN113112498B (zh) 一种基于细粒度对抗生成网络的葡萄叶片病斑识别方法
CN110533083B (zh) 基于SVM的Adaboost模型的铸件缺陷识别方法
CN115393293A (zh) 基于UNet网络与分水岭算法的电镜红细胞分割与定位方法
CN112991263A (zh) 用于提升pd-l1免疫组化病理切片tps计算准确度的方法及设备
JP2008251029A (ja) 文字認識装置、ナンバープレート認識システム
Zhang et al. Twin support tensor machines for MCs detection
KR101408345B1 (ko) 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체
KR101247307B1 (ko) 데이터 분류를 위한 데이터 처리 방법, 상기 방법을 기록한기록 매체, 및 상기 방법을 실행하는 데이터 처리 장치
CN106295478A (zh) 一种图像特征提取方法和装置
CN113344047A (zh) 基于改进K-means算法的压板状态识别方法
CN113435477A (zh) 一种提高计算机辅助预测应力性骨折系统预测性能的方法
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
CN117541774A (zh) 基于改进YOLOv5与CBMA的帕金森早期医疗影像的识别方法
KR101298937B1 (ko) 표지판 인식장치, 표지판 인식방법, 및 이미지 인식방법
US20050036669A1 (en) Method, apparatus, and program for detecting abnormal patterns
CN109271902B (zh) 复杂背景下基于时域经验模态分解的红外弱小目标检测方法
Carvajal et al. Skin cancer classification in dermatological images based on a dense hybrid algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180521

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190527

Year of fee payment: 6