KR100581673B1 - 데이터 분류방법 - Google Patents

데이터 분류방법 Download PDF

Info

Publication number
KR100581673B1
KR100581673B1 KR1020040052743A KR20040052743A KR100581673B1 KR 100581673 B1 KR100581673 B1 KR 100581673B1 KR 1020040052743 A KR1020040052743 A KR 1020040052743A KR 20040052743 A KR20040052743 A KR 20040052743A KR 100581673 B1 KR100581673 B1 KR 100581673B1
Authority
KR
South Korea
Prior art keywords
data
distance
classification method
prob
probability
Prior art date
Application number
KR1020040052743A
Other languages
English (en)
Other versions
KR20060003741A (ko
Inventor
이재국
최원호
Original Assignee
학교법인 울산공업학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 울산공업학원 filed Critical 학교법인 울산공업학원
Priority to KR1020040052743A priority Critical patent/KR100581673B1/ko
Publication of KR20060003741A publication Critical patent/KR20060003741A/ko
Application granted granted Critical
Publication of KR100581673B1 publication Critical patent/KR100581673B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

본 발명의 실시예에 따른 데이터 분류방법은, 입력 데이터 간의 유클리드 거리를 이용하여 전체 데이터의 거리를 구하는 단계와, 상기 전체 데이터를 바탕으로 하여 후보그룹들을 설정하는 단계와, 상기 후보 그룹들간의 데이터분포의 특징인 평균, 최소, 최대군집거리 및 표준편차를 구하고 각 후보그룹들의 국부확률을 계산하는 단계와, 상기 각 후보 그룹의 소속 함수 정도를 구하여 데이터 군집들을 분류하는 단계를 포함한다.
본 발명의 실시예에 따른 국부확률과 검정이론을 통한 데이터 분류방법에 따르면 종래의 최소거리를 이용하는 방법이나 통계적인 방법보다 데이터의 특성을 보다 정확히 얻을 수 있다.
데이터 분류, 국부확률, 검정이론.

Description

데이터 분류방법 {Data Classification Method}
도 1은 본 발명의 실시예에 따른 데이터 분류방법의 전체 흐름도이다.
도 2는 본 발명의 실시예에서 사용되어지는 데이터의 거리 분포도이다.
도 3은 본 발명의 실시예에서 사용되어지는 데이터의 그룹별 확률분포도이다.
도 4a 내지 도 4c는 본 발명의 실시예에 따른 데이터 분류방법의 성능검증을 위해 사용되어진 여러 실험 데이터를 나타내는 그림이다.
도 5a 내지 도 5c는 본 발명의 실시예에 따른 데이터 분류방법의 데이터 변화에 따른 성능 변화를 나타내는 그림이다.
본 발명은 데이터 분류방법에 관한 것으로서, 더 상세하게는 유사한 특성을 지닌 데이터를 범주별로 그룹화하는 데이터 분류방법에 관한 것이다.
데이터 분류란 유사한 특성을 지닌 데이터를 범주별로 그룹화 하는데 있다.
공통된 특성을 추출하거나 정의하여 각 그룹별로 세분화하는 작업이 데이터 분류 과정에 포함된다.
최근 산업현장에서는 고장검출 및 진단을 위하여 각 공정에 수개의 센서를 설치하여 각 센서들의 데이터를 입력받아 분석하는 과정을 수행한다.
그러나 산업현장의 생산 시스템이 복잡해지고, 센서 제어기술의 발달로 인하여 많은 데이터의 변수들이 실시간으로 수집, 제어되고 있는 상황에서 데이터 양과 규모의 증가로 인하여 보다 정확하고 신속한 데이터의 분류가 필요하게 되었다.
이러한 데이터 분류방법중 기하학적 데이터 간의 거리계산을 통하여 데이터를 분류하는 방법인 최소거리를 이용한 종래의 분류방법으로는 최대-최소법, C-평균법(C-Means Algorithm), 분할 합병법(Iterative Self Organizing Data Analysis Techniques A : ISODATA), 그리고 학습벡터 양자화(LVQ)와 같은 방법이 있으나, 단순히 기하학적 데이터간의 거리계산을 하고 데이터간의 특성을 충분히 반영하지 못하는 문제점이 있었다.
또한, 종래 확률이론에 근거한 통계적인 데이터 분류방법은, 데이터의 분포형태가 정규분포라는 가정 하에 접근하거나 모든 관련 확률 값을 미리 알고 있다고 가정하기에 정확한 데이터 분류를 하기가 어렵다.
그리고 전문가의 지식이 쉽게 사용되지 못하거나 수학적 모델에 대한 지식이 부족한 경우 등에 주로 사용하는 신경회로망을 이용한 분류방법은, 충분한 데이터의 수를 확보한 후에 많은 학습을 통하여 데이터의 특징을 이용하여 분류해야 하는 단점을 가지고 있다.
또한, 인식률을 높이기 위해 데이터 구성요소의 척도를 통일시키는 정규화, 특징의 차원을 조정하는 KL전개(Karhunen-Lo acute{e} ve expension) 등과 같은 특 징 공간의 변환 방법 등이 이용된다.
한편, 상기한 최소거리 분류방법은 데이터의 처리가 비교적 간단하고 그룹의 수에 관계없이 쉽게 데이터 분류를 수행하기에 많이 이용된다.
그러나 단순한 기하학적 거리를 이용하는 방법은 데이터의 특성과 중요도 및 각 변수들 간의 상호 상관관계를 고려하지 않음으로 인해 임의로 데이터가 분류되는 단점을 가지고 있다.
이러한 단점을 보완하기 위해 최소거리 분류방법에 데이터의 소속 함수간의 특성을 고려한 퍼지이론 등을 적용한 방법 등이 제안되고 있다.
산업현장 시스템에서 취득되어진 센서들의 데이터들은 프로세스의 고장 및 정상 상태를 진단하기 위한 중요한 정보들을 제공한다.
하지만 산업현장의 생산시스템이 복잡해지며, 센서 제어기술의 발달로 인하여 많은 데이터양이 실시간으로 수집되고 제어되어야하는 상황에서, 종래의 최소거리 및 통계적 방법을 이용하여 데이터의 상관관계와 분류를 알아내고 처리하는 방법은 적절하지 못하다.
상술한 문제점을 해결하기 위하여 안출된 본 발명은 데이터간의 거리분포를 국부확률 이론에 적용하여 데이터들 사이의 특성에 따라 분류하는 성능을 높일 수 있는 데이터 분류방법을 제공하는 데 그 목적이 있다.
또한, 본 발명은 데이터간의 거리분포를 그룹별로 통계적인 방법인 국부확률과 검정이론을 통하여 보다 신뢰성 있는 데이터 분류를 정립할 수 있는 데이터 분 류방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 거리분포의 국부확률을 통하여 각 데이터 간의 상관관계를 보다 효율적으로 얻을 수 있는 데이터 분류방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 각 데이터간의 기하학적 거리를 구하고 그에 따른 분포를 국부확률 이론에 적용하여 데이터들 사이의 특성에 따라 분류하며 또한 검정이론을 통하여 보다 높은 신뢰성을 가지는 데이터 분류 성능을 높일 수 있는 데이터 분류방법을 제공하는데 그 목적이 있다.
상술한 목적을 달성하기 위해, 본 발명은 입력 데이터 간의 유클리드 거리를 이용하여 전체 데이터의 거리를 구하는 단계와, 상기 전체 데이터를 바탕으로 하여 후보그룹들을 설정하는 단계와, 상기 후보 그룹들간의 평균, 최소, 최대군집거리 및 표준편차를 구하고 각 후보그룹들의 국부확률을 계산하는 단계와, 상기 각 후보 그룹의 소속 함수 정도를 구하여 데이터 군집들을 분류하는 단계를 포함한다.
이하 본 발명의 실시예에 대하여 첨부된 도면을 참고로 그 구성 및 작용을 설명하면 다음과 같다.
도 1은 본 발명의 실시예에 따른 데이터 분류방법의 전체 흐름도이다.
패턴이나 군집들 간의 유사도(Similarity)를 측정하고, 이 결과에 따라 같은 그룹에 속하는가 속하지 않는가를 결정하여, 유사한 특성을 지닌 데이터를 공통된 특성을 가지는 군집으로 그룹화한다.
유사도 측정을 위하여 각 데이터간의 거리(Euclidean Distance)를 수학식 1 에 의해 구한다(S10).
d(x _{i} ,x _{j} )= sqrt {sum _{k=1} ^{d} |x _{ik} -x _{jk} | ^{2}}
여기서 두 개의 d차원 데이터 x _{i} =(x _{i1} ,x _{i2} ,....,x _{id} ) ^{T}이고, x _{j} =(x _{j1} ,x _{j2} ,....,x _{jd} ) ^{T}이다.
이 거리는 데이터의 벡터와 벡터간의 거리(Point-to-Point)이고 도 2는 데이터의 거리 분포도를 나타낸다.
전체 데이터의 거리를 구하고 이를 바탕으로 하여 후보 그룹들을 결정한다(S12).
후보 그룹들간의 평균(average), 최소(min), 최대(max)군집거리 및 표준편차(Standard deviation)를 구하고, 각 그룹들의 국부확률을 구한다(S14).
국부확률이란 두 가지 사건이 동시에 일어날 경우, 각 사건에 대한 확률비를 각각 계산하는 것을 말한다.
사건 A와 B가 동시에 일어날 경우, 별개의 임의의 변수 x,y에 대한 확률은 수학식 2로 구한다.
Prob[x=x _{i} |y=y _{i} ]= {Prob[x=x _{i} ,y=y _{j} ]} over {Prob[y=y _{i} ]}
여기서, Prob[x=x _{i} |y=y _{i} ]는 모수 y에 대한 x의 조건부 확률이 다.
상기 수학식 2로부터 전체 확률을 다음 수학식 3으로 구한다.
P _{x} (x _{i} )= sum _{j=1} ^{m} P _{(x|y)} (x _{i} |y _{j} )P _{y} (y _{j} )
도 3은 이와 같이 하여 구한 데이터의 확률분포를 나타낸다.
각 그룹의 소속 함수(membership function) 정도를 구하기 위해 데이터의 그룹이 C개라고 가정하고, 그룹의 데이터 수가 k개 이며, 각 그룹 1x,y<C 에서 초기 소속 함수 정도는 tilde{mu _{i}} (y)=1이라고 설정한다.
상기 소속 함수는 각각의 원소에 어떤 값이 대응되는가를 나타내는 함수이다.
다음 전체 소속 함수 정도는 수학식 4로 구한다.
mu _{i} = {sum _{i} ^{k} tilde{mu _{i}} (y _{i} )(1/||x-y _{i} ||) ^{2/(m-1)} )} over {sum _{j} ^{k} (1/||x-y _{j} || ^{2/(m-1)} )}
여기서, m은 소속 함수의 형태를 결정짓는 매개 변수이다.
이렇게 분류된 데이터 군집들을 더 정확하게 분류하기 위해, 상기 소속 함수에 검정이론(Hypothesis Theory)을 적용하여 각 데이터들의 그룹화에 대한 판정을 한다(S16).
검정이론이란 표본으로부터 주어지는 정보를 이용하여 모수(parameter)에 대 한 예상, 주장 또는 단순한 추측 등의 옳고 그름을 판정하는 과정이다.
각 데이터의 표준편차(sigma )와 평균(mu )을 구하고 이를 이용하여 확률분포의 검정은 즉, 귀무가설(H _{0}, null hypothesis)와 대립가설(H _{1}, alternative hypothesis)는 H _{0} : mu = mu _{0} `````H _{1} = mu > mu _{0}이며, 검정 통계량은 표본평균 bar{X}이고, 기각역(critical region)의 형태는 유의수준(T) 이상일 때 결정한다.
여기서 유의수준(level of significance)은 통계적 가설검증에서 가설이 참인데도 불구하고 이를 기각(棄却)하는 확률로서 수학식 5로 구한다.
T=P( bar{X} GEQ threshold| mu = mu _{0} )=P( {bar{X} - mu _{0}} over {sigma / sqrt {n}} GEQ {threshold- mu _{0}} over {sigma / sqrt {n}} )
여기서 threshold(문턱값)는 적절한 상수 값이고, n은 데이터의 개수이고, mu _{0}는 데이터의 평균값이다.
만약 데이터의 확률분포 값이 유의수준(T) 이하가 된다면, 새로운 데이터 군집들의 데이터들과 계산하여 그 결과 값을 비교하는 처리를 반복하게 된다.
이러한 처리과정을 통하여 최종적으로 데이터들을 분류한다(S18).
이와 같은 데이터 분류의 성능을 알기 위해 도 4와 같은 임의의 실험 데이터를 이용한다.
각 데이터는 3종류 데이터 즉, 하나는 격리지역 데이터이고, 나머지 2개는 혼합된 경계지역 데이터이다.
도면에서 각각의 종류를 분리하기 위해 서로 다른 색깔로 표시한다.
도 5a 내지 도 5c는 도 4a 내지 도 4c와 같은 각 실험 데이터에 대한 실험 결과인 성능 변화 그림이다.
표 1은 이를 퍼지 C-mean 알고리즘 및 k-means 알고리즘과 비교 분석하여 얻은 성능비교표이다.
Figure 112004030058611-pat00001
도 4b의 제2실험데이터인 경우에, 본 발명의 성능율은 약 99%이고 퍼지 c-mean 알고리즘과 k-mean 알고리즘도 성능율이 비슷하다.
도 4c의 제3실험데이터인 경우에, 본 발명의 성능율(performance rate)은 약 94%인 반면, 퍼지 c-mean 알고리즘과 k-mean 알고리즘은 약 92%이다.
성능율에 있어서, 본 발명의 실시예에 따른 성능이 종래의 퍼지 c-mean 알고 리즘 및 k-mean 알고리즘보다 우수함을 알 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 실시예에 따른 국부확률과 검정이론을 통한 데이터 분류방법에 따르면 다음과 같은 효과를 얻는다.
첫째, 종래의 최소거리를 이용하는 방법이나 통계적인 방법보다 데이터의 특성을 보다 정확히 얻을 수 있다.
둘째, 검정이론을 통하여 데이터 분류의 신뢰성을 높여 오차를 최소화하는 분류 성능을 얻을 수 있다.

Claims (6)

  1. 입력 데이터 간의 유클리드 거리를 이용한 전체 데이터의 거리를 구하는 단계와,
    상기 전체 데이터를 바탕으로 하여 후보그룹들을 설정하는 단계와,
    상기 후보 그룹들간의 평균, 최소, 최대군집거리 및 표준편차를 구하고 각 후보그룹들의 국부확률을 계산하는 단계와,
    상기 각 후보 그룹의 소속 함수 정도를 구하여 데이터 군집들을 분류하는 단계를 포함하는 데이터 분류방법;
  2. 제1항에 있어서,
    상기 국부 확률은 수학식 6으로 계산함을 특징으로 하는 데이터 분류방법.
    Prob[x=x _{i} |y=y _{i} ]= {Prob[x=x _{i} ,y=y _{j} ]} over {Prob[y=y _{i} ]}
    여기서, Prob[x=x _{i} |y=y _{i} ]는 모수 y에 대한 x의 조건부 확률이다.
  3. 제1항에 있어서,
    상기 소속 함수 정도는 수학식 7로 계산함을 특징으로 하는 데이터 분류방 법.
    mu _{i} = {sum _{i} ^{k} tilde{mu _{i}} (y _{i} )(1/||x-y _{i} ||) ^{2/(m-1)} )} over {sum _{j} ^{k} (1/||x-y _{j} || ^{2/(m-1)} )}
    여기서 k는 그룹의 데이터 수, 초기 소속 함수 정도는 tilde{mu _{i}} (y)=1, m은 소속 함수의 형태를 결정짓는 매개 변수이다.
  4. 제1항에 있어서,
    상기 분류된 데이터 군집들을 검정이론을 이용하여 각 데이터들의 그룹화에 대해 판정하는 단계를 더 포함함을 특징으로 하는 데이터 분류방법.
  5. 제4항에 있어서,
    상기 검정이론을 이용하여 판정하는 단계에서, 각 데이터의 표준편차(sigma )와 평균(mu )을 구하고, 이를 이용하여 귀무가설(H _{0})과 대립가설(H _{1})은 H _{0} : mu = mu _{0} `````H _{1} = mu > mu _{0}이며, 검정 통계량은 표본평균 bar{X}이고, 기각역(critical region)의 형태는 유의수준(T) 이상일 때 결정함을 특징으로 하는 데이터 분류방법.
  6. 제5항에 있어서,
    상기 유의수준은 수학식 8인 것을 특징으로 하는 데이터 분류방법.
    T=P( bar{X} GEQ threshold| mu = mu _{0} )=P( {bar{X} - mu _{0}} over {sigma / sqrt {n}} GEQ {threshold- mu _{0}} over {sigma / sqrt {n}} )
    여기서 threshold(문턱값)는 적절한 상수값, n은 데이터의 개수, mu _{0}는 데이터의 평균값이다.
KR1020040052743A 2004-07-07 2004-07-07 데이터 분류방법 KR100581673B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040052743A KR100581673B1 (ko) 2004-07-07 2004-07-07 데이터 분류방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040052743A KR100581673B1 (ko) 2004-07-07 2004-07-07 데이터 분류방법

Publications (2)

Publication Number Publication Date
KR20060003741A KR20060003741A (ko) 2006-01-11
KR100581673B1 true KR100581673B1 (ko) 2006-05-22

Family

ID=37106140

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040052743A KR100581673B1 (ko) 2004-07-07 2004-07-07 데이터 분류방법

Country Status (1)

Country Link
KR (1) KR100581673B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101052592B1 (ko) * 2008-11-19 2011-07-29 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템
KR101233296B1 (ko) * 2011-03-03 2013-02-14 전자부품연구원 가중치 합을 이용한 거리 함수 생성 방법 및 시스템
KR101507355B1 (ko) * 2013-08-08 2015-04-01 중앙대학교 산학협력단 벡터 분류 장치 및 방법
CN116230193B (zh) * 2023-05-11 2023-07-21 聊城市第二人民医院 一种智能化医院用档案管理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100483321B1 (ko) 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100483321B1 (ko) 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법

Also Published As

Publication number Publication date
KR20060003741A (ko) 2006-01-11

Similar Documents

Publication Publication Date Title
EP1729243A1 (en) Fault detection system and method using approximate null space based fault signature classification
US20120290879A1 (en) Method and device for monitoring the state of a facility
CN114090396B (zh) 一种云环境多指标无监督异常检测和根因分析方法
EP1958034B1 (en) Use of sequential clustering for instance selection in machine condition monitoring
CN110717540A (zh) 一种对雷达新辐射源个体的识别方法及装置
CN113537321B (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
Thielen et al. A machine learning based approach to detect false calls in SMT manufacturing
CN112418065A (zh) 设备运行状态识别方法、装置、设备及存储介质
WO2007020466A2 (en) Data classification apparatus and method
CN110717602B (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
KR100581673B1 (ko) 데이터 분류방법
TWI639908B (zh) 製程偵錯與診斷方法
CN113255810B (zh) 基于关键决策逻辑设计测试覆盖率的网络模型测试方法
CN110673577A (zh) 一种复杂化工生产过程的分布式监控与故障诊断方法
Woodard et al. Online model-based clustering for crisis identification in distributed computing
KR102433598B1 (ko) 데이터 경계 도출 시스템 및 방법
CN114943290A (zh) 一种基于多源数据融合分析的生物入侵识别方法
Chen Data Quality Assessment Methodology for Improved Prognostics Modeling
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统
CN112541554B (zh) 基于时间约束的核稀疏表示的多模态过程监控方法及系统
CN117155706B (zh) 网络异常行为检测方法及其系统
CN117649059B (zh) 一种用于数字化育种流程的成果评价优化方法
EP4163820A1 (en) Detection and representation of decision regions generated by ai based classification algorithm
Zorriassatine et al. Integrating novelty detection, neural networks and conventional tools for pattern recognition in multivariate processes

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee