KR100682935B1 - 데이터베이스의 비정상샘플 제거 방법 및 장치 - Google Patents

데이터베이스의 비정상샘플 제거 방법 및 장치 Download PDF

Info

Publication number
KR100682935B1
KR100682935B1 KR1020050013137A KR20050013137A KR100682935B1 KR 100682935 B1 KR100682935 B1 KR 100682935B1 KR 1020050013137 A KR1020050013137 A KR 1020050013137A KR 20050013137 A KR20050013137 A KR 20050013137A KR 100682935 B1 KR100682935 B1 KR 100682935B1
Authority
KR
South Korea
Prior art keywords
sample
class
samples
reference value
center
Prior art date
Application number
KR1020050013137A
Other languages
English (en)
Other versions
KR20060092394A (ko
Inventor
오종구
김동윤
방원철
조준기
최은석
양징
조성정
장욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050013137A priority Critical patent/KR100682935B1/ko
Publication of KR20060092394A publication Critical patent/KR20060092394A/ko
Application granted granted Critical
Publication of KR100682935B1 publication Critical patent/KR100682935B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

데이터베이스의 비정상샘플 제거 방법 및 장치가 개시된다. 이 장치는 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부, 각 클래스에 대해, 상기 클래스 내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부, 상기 클래스 내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 각 클래스 내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 기준값을 결정하여 불량 샘플들을 자동적, 체계적으로 제거할 수 있으며, 데이터베이스의 표준편차를 클래스의 산포 구조의 정도에 따라 원하는 수준으로 낮추고, 전체적으로 데이터베이스 내의 불량샘플 들의 제거량을 조절하는 것이 가능해진다.

Description

데이터베이스의 비정상샘플 제거 방법 및 장치{Method and apparatus for eliminating outlier samples from database}
도 1은 본 발명에 의한 데이터베이스의 비정상샘플 제거장치를 나타내는 블록도이다.
도 2는 샘플검사부의 보다 상세한 구성을 포함한 본 발명에 의한 데이터베이스의 비정상샘플 제거 장치를 나타내는 블록도이다.
도 3은 클래스와 샘플 간의 상대적 관계를 도시한 것이다.
도 4은 본 발명에 의한 데이터베이스의 비정상샘플을 제거하는 방법을 나타내는 흐름도이다.
본 발명은 데이터베이스에 관한 것으로, 보다 상세하게는 각 클래스 내의 각각의 샘플들과 클래스 간의 중심거리와 자신이 속한 클래스와의 중심거리의 차이를 계산하여 특이샘플에 해당하는 비율을 구하고, 이를 이용하여 기준값을 정한 뒤 기준값을 초과한 샘플들을 제거하는 데이터베이스의 비정상샘플을 제거하는 방법 및 장치에 관한 것이다.
기계학습(Machine learning)에 기반한 인식기는 학습에 필요한 샘플들을 모은 데이터베이스가 필요하며 데이터베이스의 데이터의 품질은 인식기 학습결과에 많은 영향을 미친다. 데이터베이스의 구축 과정에는 여러 가지 예측가능하거나 예측불가능한 이유들로 불량 샘플들이 섞이게 된다.
학습 데이터베이스에 불량 샘플들이 많이 섞여있는 경우 이들이 통계학적 이상점(statistical outlier) 들로 작용하여 학습에 부정적 영향을 미친다. 즉 불량 샘플들이 클래스들 간의 혼동을 일으켜 식별성(discriminality)을 떨어뜨리고, 불량 샘플들이 데이터의 산포를 실제보다 과장되어 보이게 함으로써 학습모델의 최적화를 방해하게 된다.
데이터베이스의 규모가 커질수록 이러한 불량 샘플의 개연성은 높아지게 된다. 데이터 제공자의 수가 많아질수록 제공자의 수집장치 조작의 미숙, 실수, 불성실 등의 개연성이 증가하기 때문이다.
따라서 종래에는 이러한 불량 샘플들을 판단하기 위하여 수작업이나 육안에 의한 판별법을 사용하였다. 그러나 이와 같은 육안에 의존한 수작업 검사는, 데이터베이스의 규모가 커질수록 검사에 필요한 시간과 비용이 증가하고, 육안검사를 할 수 없는 경우들이 있으며, 육안 검사가 가능해도 그 신뢰성을 보장할 수 없는 등의 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는, 각 클래스 내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 불량 샘플들을 자동적, 체계적으로 제거할 수 있고, 데이터베이스의 표준편차를 클래스의 산포구조의 정도에 따라 원하는 수준으로 낮출 수 있는, 데이터베이스의 불량샘플을 제거하는 방법 및 장치를 제공하는 데 있다.
상기의 기술적 과제를 이루기 위한 본 발명에 의한, 클래스의 불량샘플을 제거하는 장치는 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부, 각 클래스에 대해, 상기 클래스 내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부, 상기 클래스 내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 한다.
바람직하게는 상기 샘플검사부는 상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력하는 중심거리계산부, 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 비교부, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 특이샘플판별부를 포함하는 것을 특징으로 하고, 상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으 로 한다.
바람직하게는 상기 샘플제거부는 상기 클래스 내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 한다.
바람직하게는 상기 기준값결정부는 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 한다.
바람직하게는 상기 클래스의 비정상샘플 제거장치는 학습용 데이터베이스에 사용되는 것을 특징으로 한다.
상기의 기술적 과제를 이루기 위한 본 발명에 의한, 클래스의 불량샘플을 제거하는 방법은 n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들의 군집된 집단으로 정의되는 클래스가 존재하고, 상기 각각의 샘플이 상기 클래스 중 어느 하나에 속해 있는 클래스의 비정상샘플 제거방법에 있어서, 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 단계, 각 클래스에 대해 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 단계, 상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 지 판단하는 단계, 상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 단계를 포함한다.
바람직하게는 상기 검사하는 단계는 상기 샘플과 모든 클래스들의 중심거리들을 계산하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소인지 판단하는 단계, 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 단계를 포함하는 것을 특징으로 하고, 상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 한다.
바람직하게는 상기 제거하는 단계는 상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 한다.
바람직하게는 상기 기준값을 결정하는 단계는 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 한다.
이하, 본 발명에 의한 데이터베이스의 이상점을 제거하는 방법 및 장치를 첨부된 도면을 참조하여 다음과 같이 설명한다.
도 1은 클래스와 샘플 간의 상대적 관계를 도시한 것이다.
도 1은 본 발명에 의한 데이터베이스의 비정상샘플을 제거하는 장치를 나타내는 블록도이다. 도시된 바에 따른 데이터베이스의 비정상샘플을 제거하는 장치는 샘플검사부(100), 기준값결정부(110), 샘플제거부(120)를 포함하여 이루어진다.
상기 샘플검사부(100)는 각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사한다. 샘플검사부(100)를 사용하는 것은 클래스와 클래스들 간의 데이터 산포의 거시적 구조와 충돌, 혼란도의 개요을 신속히 파악할 수 있고 이에 기반하여 특이점들 혹은 혼란을 일으키는 샘플들을 감지하는데 활용할 수 있기 때문이다. 또한, 상대적으로 구현과 사용이 쉽고 빠른 장점이 있다.
도 2는 도 2는 샘플검사부(100)의 보다 상세한 구성을 포함한 본 발명에 의한 데이터베이스의 비정상샘플 제거 장치를 나타내는 블록도이다. 도 2를 참조하면 샘플검사부(100)는 중심거리계산부(200), 비교부(210), 특이샘플판별부(220)로 이루어지는 것이 바람직하다.
상기 중심거리계산부(200)는 상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력한다. 중심거리계산부(200)는 각 샘플에 대해 모든 클래스 중심점 들까지의 유클리디언 거리(Euclidean distance)를 계산한다. 유클리디언 거리는 대상들의 특성에 대한 측정치를 하나의 거리로 환산하는 방법인 거리형태 척도 중에서 가장 편리하게 사용되는 척도이다.
상기 비교부(210)는 상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교한다.
상기 특이샘플판별부(220)는 상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별한다. 즉, 상기 중심거리계산부(200)에서 각 샘플에 대해 모든 클래스 중심점까지의 거리를 계산하여 계산된 거리를 내림차순으로 정렬한다.
도 3은 클래스와 샘플간의 상대적 관계를 도시한 것이다.
예를 들면 도 3에서 샘플에서 각 클래스까지의 거리를 계산하고 계산된 거리를 내림차순으로 정렬하면 C 클래스까지의 거리가 최소거리가 된다.
정렬결과 해당 샘플이 속한 클래스까지의 거리가 가장 낮은 순위인 경우 해 당샘플을 특이샘플로 인식하며 더 가까운 거리의 클래스가 존재하는 경우 특이샘플이 아닌 것으로 본다. 판별결과 특이샘플의 비율이 높은 클래스는 데이터의 표준편차가 큰 샘플 집단이며, 특이샘플의 비율이 낮은 클래스는 데이터의 표준편차가 작은 샘플집단이다. 도 3에서 해당 샘플이 클래스 C에 속하는 것이라면 해당 샘플은 특이샘플에 해당하지 않게 된다.
상기 기준값결정부(110)는 각 클래스에 대해, 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정한다. 즉, 상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정한다. 상기 판별 결과 특이샘플로 판별되는 비율이 낮은 클래스의 경우 기준값을 크게 설정한다. 판별비율이 낮은 클래스는 데이터의 표준편차가 작은 샘플집단이므로 기준값을 높게 설정하여 상대적으로 적은 수량의 불량 샘플들만을 제거한다. 그러나 특이샘플판별비율이 높은 클래스는 데이터의 표준편차가 높은 샘플집단이므로 기준값은 낮게 설정하여 많은 불량 샘플들을 제거한다.
상기 샘플제거부(120)는 상기 클래스내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거한다. 즉, 상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거한다.
도 4는 본 발명에 의한 데이터베이스의 불량샘플을 제거하는 방법을 나타내는 흐름도이다. 본 발명에 의한 데이터베이스의 불량샘플을 제거하는 방법을 도 1과 도 2를 결부시켜 설명하기로 한다.
도 4을 참조하면, 데이터베이스 구성을 위한 가공되지 않은(raw) 데이터를 수집한다(300단계). 이때 데이터 샘플들은 전처리를 통해 벡터화되어 있는 것으로 가정한다. 또한, 각 샘플은 클래스 레벨이 있는 것으로 가정한다.
데이터베이스 구성을 위한 데이터가 수집되었으면, 중심거리계산부(200)는 각 샘플에서 클래스의 중심까지의 거리를 계산한다(310단계). 여기서 클래스의 중심점은 그 클래스의 차별적 특징을 반영하는 대표점으로 해석한다.
모든 클래스의 중심점에 대한 거리가 계산되었으면, 비교부(210)는 상기 거리를 내림차순으로 정렬하여 상호 간의 거리를 비교한다(320단계). 특이샘플판별부(220)는 정렬하여 비교한 결과 해당 샘플이 속한 클래스의 중심까지의 거리가 상기 정렬한 거리중 최소이면 특이샘플이 아닌 것으로 보고, 최소가 아니면 특이샘플인 것으로 본다. 클래스의 내의 모든 샘플에 대하여 상기와 같은 특이샘플판별을 수행하여 각 클래스의 특이샘플의 판별비율을 구한다. 판별비율이 낮은 클래스는 데이터의 표준편차가 작은 것이며, 판별비율이 높은 클래스는 데이터의 표준편차가 큰 것이다.
각 클래스의 불량샘플판별비율이 계산되면 불량샘플을 제거하기 위한 기준값을 설정한다(330단계). 표준편차가 작은 클래스에서는 적은 불량 샘플을, 표준편차가 큰 클래스에서는 많은 불량 샘플을 제거할 필요가 있다. 산포구조가 불안정한 클래스에서 더 많은 불량샘플이 존재할 개연성이 있기 때문이다. 따라서 특이샘플판별율과 불량샘플 제거를 위한 기준값(threshold)과의 대응점을 발견함으로써 문제를 해결할 수 있다.
샘플과 클래스의 중심점까지의 거리가 상기 기준값을 초과하는 경우(340단계), 상기 샘플을 불량샘플로 간주하여 제거한다(350단계). 샘플에서 클래스의 중심점까지의 거리가 상기 기준값을 초과하지 않는 경우에는 정상 샘플로 보아서 샘플값을 유지하게 된다(360단계). 모든 샘플에 대하여 상기 검사를 완료하였는지 판단하여(370단계), 검사가 완료된 경우 절차가 종료되며, 검사가 완료되지 않았다면 상기 300단계부터 360단계를 검사가 모든 샘플에 대하여 완료될 때까지 반복된다.
이러한 본원 발명인 방법 및 장치는 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같이, 본 발명에 의하면, 각 클래스내의 샘플들의 자신이 속한 클래스와의 중심거리를 이용하여 특이샘플의 비율을 판단함으로써, 불량 샘플들을 자동적, 체계적으로 제거할 수 있으며, 데이터베이스의 표준편차를 클래스의 산포 구조의 정도에 따라 원하는 수준으로 낮추고, 전체적으로 데이터베이스 내의 불량샘플 들의 제거량을 조절하는 것이 가능해진다.

Claims (9)

  1. n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들이 밀집된 집단으로 정의되는 클래스가 존재하고, 상기 클래스 중 어느 하나에 속해 있는 샘플들로 이루어진 클래스의 비정상샘플 제거 장치에 있어서,
    각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 샘플검사부;
    각 클래스에 대해, 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 기준값결정부; 및
    상기 클래스내의 샘플의 밀집에 기여한 정도가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 샘플제거부를 포함하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
  2. 제 1항에 있어서 상기 샘플검사부는
    상기 샘플과 모든 클래스들의 중심거리들을 계산하고, 상기 중심거리들 중 상기 샘플과 자신이 속한 클래스의 중심거리를 상기 밀집에 기여한 정도로써 출력하는 중심거리계산부;
    상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 비교부; 및
    상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 특이샘플판별부를 포함하는 것을 특징으로 하고,
    상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
  3. 제 2항에 있어서 상기 샘플제거부는
    상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
  4. 제 1항에 있어서 상기 기준값결정부는
    상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 하는 클래스의 비정상샘플 제거장치.
  5. 제 1항에 있어서
    상기 클래스의 비정상샘플 제거장치는 학습용 데이터베이스에 사용되는 것을 특징으로 하는 클래스의 비정상샘플 제거 장치.
  6. n-차원 공간에 벡터화되어 존재하는 샘플과 상기 샘플들의 군집된 집단으로 정의되는 클래스가 존재하고, 상기 각각의 샘플이 상기 클래스 중 어느 하나에 속해 있는 클래스의 비정상샘플 제거방법에 있어서,
    각 샘플이 자신이 속한 클래스의 밀집에 기여한 정도와 특이샘플인지 여부를 검사하는 단계;
    각 클래스에 대해 상기 클래스내의 모든 샘플에 대한 상기 검사 결과에 따라 상기 클래스의 기준값을 결정하는 단계; 및
    상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 지 판단하는 단계;
    상기 클래스내의 샘플의 검사치가 상기 기준값을 초과하는 경우 상기 샘플을 제거하는 단계를 포함하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
  7. 제 6항에 있어서 상기 검사하는 단계는
    상기 샘플과 모든 클래스들의 중심거리들을 계산하는 단계;
    상기 샘플과 자신이 속한 클래스의 중심거리와 상기 계산한 중심거리들을 비교하는 단계; 및
    상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소인지 판단하는 단계;
    상기 샘플과 자신이 속한 클래스의 중심거리가 상기 계산한 중심거리들 중에서 최소가 아닌 경우 상기 샘플은 특이샘플인 것으로 판별하는 단계를 포함하는 것을 특징으로 하고,
    상기 중심거리는 샘플로부터 클래스의 중심점까지의 거리로 하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
  8. 제 7항에 있어서 상기 제거하는 단계는
    상기 클래스내의 샘플과 자신이 속한 클래스의 중심거리가 상기 기준값을 초 과하는 경우 상기 샘플을 제거하는 것을 특징으로 하는 클래스의 비정상샘플 제거 방법.
  9. 제 6항에 있어서 상기 기준값을 결정하는 단계는
    상기 검사 결과에 따라 특이샘플로 판별되는 비율이 높을수록 상기 기준값을 낮게 결정하는 것을 특징으로 하는 클래스의 비정상샘플 제거방법.
KR1020050013137A 2005-02-17 2005-02-17 데이터베이스의 비정상샘플 제거 방법 및 장치 KR100682935B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050013137A KR100682935B1 (ko) 2005-02-17 2005-02-17 데이터베이스의 비정상샘플 제거 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050013137A KR100682935B1 (ko) 2005-02-17 2005-02-17 데이터베이스의 비정상샘플 제거 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20060092394A KR20060092394A (ko) 2006-08-23
KR100682935B1 true KR100682935B1 (ko) 2007-02-15

Family

ID=37593797

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050013137A KR100682935B1 (ko) 2005-02-17 2005-02-17 데이터베이스의 비정상샘플 제거 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100682935B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190131329A (ko) * 2018-05-16 2019-11-26 두산중공업 주식회사 학습 데이터 생성 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313899B (zh) * 2023-11-23 2024-02-23 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950007527A (ko) * 1993-08-30 1995-03-21 배순훈 영상데이터의 오류블럭검출장치와 그 방법
KR19990016366A (ko) * 1997-08-14 1999-03-05 윤종용 손상된 영상의 복원방법
KR19990056314A (ko) * 1997-12-29 1999-07-15 유무성 캐드시스템을 이용한 에어포일 측정좌표값의 산출 방법
KR20030077985A (ko) * 2002-03-25 2003-10-04 톰슨 라이센싱 소시에떼 아노님 3d 장면 모델링 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950007527A (ko) * 1993-08-30 1995-03-21 배순훈 영상데이터의 오류블럭검출장치와 그 방법
KR19990016366A (ko) * 1997-08-14 1999-03-05 윤종용 손상된 영상의 복원방법
KR19990056314A (ko) * 1997-12-29 1999-07-15 유무성 캐드시스템을 이용한 에어포일 측정좌표값의 산출 방법
KR20030077985A (ko) * 2002-03-25 2003-10-04 톰슨 라이센싱 소시에떼 아노님 3d 장면 모델링 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1019990056314

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190131329A (ko) * 2018-05-16 2019-11-26 두산중공업 주식회사 학습 데이터 생성 시스템
KR102110319B1 (ko) * 2018-05-16 2020-05-13 두산중공업 주식회사 학습 데이터 생성 시스템
US11250349B2 (en) 2018-05-16 2022-02-15 Doosan Heavy Industries & Construction Co., Ltd. System for generating learning data

Also Published As

Publication number Publication date
KR20060092394A (ko) 2006-08-23

Similar Documents

Publication Publication Date Title
KR20120107846A (ko) 플라즈마 프로세싱 시스템 내에서의 자동적인 결함 검출 및 분류와 그 방법
CN111275307A (zh) 一种水质自动在线站高频连续观测数据质量控制方法
CN108829878B (zh) 一种工业实验数据异常点检测方法及装置
CN110543907A (zh) 一种基于微机监测功率曲线的故障分类方法
CN110164454B (zh) 一种基于共振峰偏差的音频同一性判别方法及装置
CN113298162A (zh) 一种基于K-means算法的桥梁健康监测方法及系统
CN113420061A (zh) 炼油和化工生产装置的稳态工况分析方法、优化调试方法及系统
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN113239006A (zh) 日志检测模型的生成方法和装置、日志检测方法和装置
CN113484817A (zh) 基于tsvm模型的智能电能表自动化检定系统异常检测方法
CN112417763A (zh) 输电线路的缺陷诊断方法、装置、设备及存储介质
CN115526258A (zh) 基于Spearman相关系数特征提取的电力系统暂稳评估方法
KR100682935B1 (ko) 데이터베이스의 비정상샘플 제거 방법 및 장치
KR20170100710A (ko) 반도체 장치의 결함 모델링 장치 및 방법, 이를 위한 컴퓨터 프로그램과, 이를 이용한 반도체 장치의 결함 검사 시스템
CN108537249B (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN116776631B (zh) 一种基于数据分析的连接器性能评估方法及系统
US20230081224A1 (en) Method and system for evaluating test data, wafer test system, and storage medium
US9904660B1 (en) Nonparametric method for measuring clustered level of time rank in binary data
CN113554079A (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN115511106B (zh) 基于时序数据生成训练数据的方法、设备和可读存储介质
CN117236572B (zh) 一种基于数据分析的干粉灭火设备性能评估方法及系统
CN116739394B (zh) 一种大气污染气象影响评估系统及评估方法
CN113190406B (zh) 一种云原生可观测性下的it实体群组异常检测方法
US20240013369A1 (en) Image defect detecting system, generation method of image defect detecting system and non-transitory computer readable medium
Pavese et al. SAODR: Sequence analysis for outlier data rejection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee