KR101692611B1 - 데이터 연관성 기반 이상치 평가 장치 및 방법 - Google Patents

데이터 연관성 기반 이상치 평가 장치 및 방법 Download PDF

Info

Publication number
KR101692611B1
KR101692611B1 KR1020150027914A KR20150027914A KR101692611B1 KR 101692611 B1 KR101692611 B1 KR 101692611B1 KR 1020150027914 A KR1020150027914 A KR 1020150027914A KR 20150027914 A KR20150027914 A KR 20150027914A KR 101692611 B1 KR101692611 B1 KR 101692611B1
Authority
KR
South Korea
Prior art keywords
input data
data
attribute
information
type
Prior art date
Application number
KR1020150027914A
Other languages
English (en)
Other versions
KR20160104945A (ko
Inventor
이건명
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020150027914A priority Critical patent/KR101692611B1/ko
Publication of KR20160104945A publication Critical patent/KR20160104945A/ko
Application granted granted Critical
Publication of KR101692611B1 publication Critical patent/KR101692611B1/ko

Links

Images

Classifications

    • G06F17/30289
    • G06F17/30303

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 데이터 연관성 기반 이상치 평가 장치 및 방법에 대하여 개시한다. 본 발명의 일면에 따른 테이블 형태로 데이터를 저장하는 데이터베이스 내 입력되는 입력 데이터에 대한 이상치 평가 장치는, 상기 입력 데이터가 입력되면, 상호 연관성이 있는 관련 속성에 대한 분포정보를 제공하는 분포 모듈; 및 상기 분포정보를 이용해 관련 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하고, 상기 관련 속성의 종류에 따라 상기 입력 데이터와 상기 관련 속성 내 속성 간의 거리 및 상기 입력 데이터와 상기 관련 속성의 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하는 것을 특징으로 한다.

Description

데이터 연관성 기반 이상치 평가 장치 및 방법{Apparatus and Method for Evaluating Outlierness based on Data Association}
본 발명은 이상치 검출 기술에 관한 것으로서, 더 구체적으로는 데이터 속성 간의 연관성을 이용하는 데이터 연관성 기반 이상치 평가 장치 및 방법에 관한 것이다.
데이터베이스 내 데이터는 복수의 인스턴스와 각 인스턴스를 구분하는 속성으로 구성될 수 있다. 일 예로서, 도 1과 같이, 데이터베이스에는 11개의 인스턴스와 5개의 속성으로 구성된 소프트웨어 프로젝트 데이터(Software Project Data)가 포함될 수 있다. 여기서, 이상치(outlier)란 그 속성에 비정상적인 값을 포함하는 인스턴스이며, 비정상적인 값을 포함하는 속성을 이상 속성(abnormal attribute)이라한다.
이 같이, 데이터베이스 내 데이터가 의사결정에 사용될 경우, 그 품질은 매우 중요하나, 실무에서는 실무자의 실수 등에 의해서 문제 있는 데이터가 함께 데이터베이스에 불가피하게 입력 또는 수집될 수 있다.
이에, 생명정보 분야 및 데이터 마이닝 분야에서 데이터베이스 내 데이터의 논리적 오류(이하, 이상치 판단)를 찾는 연구가 많이 진행되고 있다.
대표적으로, PANDA 기법, AOI 기법 등의 이상치 판단 기법이 있다. 먼저, PANDA 기법은 데이터베이스 내 각 인스턴스의 모든 속성들에 대한 잡음인자의 합으로 이상치 순위를 결정한다. 그리고, AOI 기법은 각 인스턴스에 대해 특정 속성을 포함시켰을 때와 제외했을 때의 잡음인자의 합을 산출하고, 이들의 이상치 순위의 차이를 이용하여 속성의 이상치를 판단한다.
그런데, 이러한 종래의 이상치 판단 기법은 오류 정보를 포함하는 특정 인스턴스를 찾거나, 데이터 속성값으로 어울리지 않는 것을 판단하기 위한 것이었다.
본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 데이터 속성 간의 연관성을 이용하여 입력 데이터의 이상치 정도를 평가할 수 있는 데이터 연관성 기반 이상치 평가 장치 및 방법을 제공하는 것을 그 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일면에 따른 테이블 형태로 데이터를 저장하는 데이터베이스 내 입력되는 입력 데이터에 대한 이상치 평가 장치는, 상기 입력 데이터가 입력되면, 상호 연관성이 있는 관련 속성에 대한 분포정보를 제공하는 분포 모듈; 및 상기 분포정보를 이용해 관련 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하고, 상기 관련 속성의 종류에 따라 상기 입력 데이터와 상기 관련 속성 내 속성 간의 거리 및 상기 입력 데이터와 상기 관련 속성의 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 따른 적어도 하나의 프로세서에 의한 데이터베이스 내 입력되는 입력 데이터에 대한 이상치 평가 방법은, 상기 입력 데이터가 입력되면, 상호 연관성이 있는 관련 속성에 대한 분포정보를 제공하는 단계; 상기 분포정보를 이용해 관련 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하는 단계; 및 상기 관련 속성의 종류에 따라 상기 입력 데이터와 상기 관련 속성 내 속성 간의 거리 및 상기 입력 데이터와 상기 관련 속성의 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 데이터 속성 간의 연관성을 이용하여 입력 데이터의 이상치 정도를 평가할 수 있다.
도 1은 테이블 기반으로 소프트웨어 프로젝트 데이터를 저장하는 데이터베이스의 예를 도시한 도면.
도 2는 본 발명에 따른 이상치 평가 장치를 도시한 구성도.
도 3a 내지 3c는 본 발명에 따른 수치형 속성에 대한 이상치 정도 산출 과정을 도시한 도면.
도 4a 및 4b는 본 발명에 따른 범주형 속성에 대한 이상치 정도 산출 과정을 도시한 도면.
도 5a 및 5b는 본 발명에 따른 복합형 속성에 대한 이상치 정도 평가 과정을 도시한 도면.
도 6은 본 발명에 따른 데이터 이상치 평가 방법을 독시한 흐름도.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이제 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 2는 본 발명의 실시예에 따른 이상치 평가 장치를 도시한 구성도이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 이상치 평가 장치(20)는 입력 모듈(220), 분포 모듈(210), 평가 모듈(230), 판정 모듈(240) 및 저장 수단(250)을 포함한다.
입력 모듈(220)은 사용자 단말로부터 버퍼(미도시)에 데이터베이스로 입력될 입력 데이터를 입력받아, 임시 저장한다. 여기서, 분포 모듈(210)은 무결성 검증 이전에 입력 데이터를 데이터베이스 저장 이전에 임시 저장할 수 있다.
이때, 데이터베이스는 적어도 하나의 대상에 대한 하나 이상의 속성별 데이터를 테이블 단위로 저장한다. 그리고, 입력 데이터는 테이블의 한 행(또는 열)에 입력되는 데이터일 수 있다. 예컨대, 테이블 내 속성은 열 단위로 저장되면, 입력 데이터는 테이블의 한 행일 수 있다.
분포 모듈(210)은 기정의된 연관성 정보를 기반으로 데이터베이스 내 데이터 테이블의 관련 속성들에 대해 분포정보를 생성한다.
먼저, 관련 속성에 대해 설명하면, 데이터베이스 내 A(범주형), B(수치형), C(수치형), D(수치형)이 존재하고, A와 B가 서로 연관성이 있고 C와 D가 상호 연관성이 있는 경우라면, A와 B의 분포정보는 범주형과 수치형이 혼용된 복합형으로 분류한다. 또한, C와 D의 분포정보는 수치형으로 분류한다.
여기서, 수치형 속성은 데이터가 숫자로 이루어진 속성이고, 범주형 속성은 데이터가 텍스트 기반으로 이루어진 속성이며, 복합형은 수치형과 범주형이 함께 포함된 속성이다.
또한, 분포정보는 관련속성의 군집정보 및 조합 가능한 빈도수 중 적어도 하나를 포함한다.
한편, 분포 모듈(210)은 입력 데이터가 정상 데이터로 판정되어, 입력 데이터가 데이터베이스로 저장되면, 입력 데이터를 포함하는 관련 속성에 대한 분포정보를 갱신한다.
평가 모듈(230)은 분포정보로부터 관련 속성에 포함된 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하고, 확인된 종류에 따라 분포정보로부터 확인된 입력 데이터와 관련 속성 내 속성 간의 거리 및 입력 데이터와 관련 속성 내 속성에 대응하는 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 입력 데이터의 이상치 정도를 산출한다.
평가 모듈(230)은 각 속성 종류에 대응하는 이상치 정도를 산출하는 제1 내지 제3 평가부(231~233)를 포함한다. 각 평가부에 대해서는 도 3a 내지 5b를 참조하여 후술한다.
판정 모듈(240)은 입력 데이터의 이상치 정도를 기설정된 임계치와 비교하여 입력 데이터의 이상치 데이터 여부를 판정하고, 판정 결과를 사용자에게 안내한다.
상세하게는, 판정 모듈(240)은 이상치 정도가 기설정된 임계치 이하이면, 입력 데이터를 이상치 데이터로 분류한다. 반면, 이상치 정도가 임계치를 초과하면, 판정 모듈(240)은 입력 데이터를 정상 데이터로 분류한다.
여기서, 임계치는 입력 데이터의 이상치 여부를 판단하는 기준으로서, 데이터베이스 내 기입력된 정상 데이터와의 거리 및 빈도수 중 적어도 하나를 이용하여 산출될 수 있다.
만약, 입력 데이터를 이상치 데이터임을 분류하면, 판정 모듈(240)은 입력원(관리자 등)에게 판정 결과(입력 오류)를 안내한다. 이때, 판정 모듈(240)은 판정 결과를 표시하거나, 소리 등으로 안내할 수 있으며, SMS 등으로 안내할 수도 있다.
이때, 입력원은 입력 데이터가 실제로 이상치 데이터인지를 재확인하고, 이상치 데이터이면, 입력 데이터를 수정하여 수정된 입력된 데이터를 피드백할 수 있다. 또는, 입력원은 입력 데이터가 실제로 이상치 데이터가 아니라면, 입력 데이터가 실제로는 이상치 데이터가 아니므로, 별도의 편집 없이 저장하라는 지시를 피드백할 수 있다.
저장 수단(250)은 정상적인 데이터로 분류된 입력 데이터를 데이터베이스에 저장시킨다.
이와 같이, 본 발명의 실시예는 입력 데이터와 데이터베이스 내 데이터의 경향 차이를 확인함에 따라 입력 데이터가 이상치 데이터일 가능성이 있는 경우, 입력원에게 안내하여 오류 여부를 재확인하도록 지원할 수 있다. 따라서, 본 발명의 실시예는 데이터베이스 내 데이터의 신뢰성과 정확도를 향상시킬 수 있다.
뿐만 아니라, 본 발명의 실시예는 입력 데이터에 2개 이상의 속성들이 결합된 경우에도 이상 여부를 판정할 수 있다.
이하, 도 2 및 도 3a 내지 5b를 참조하여 본 발명의 실시예에 따른 평가 모듈에 대하여 설명한다. 도 3a 내지 3c는 본 발명의 실시예에 따른 수치형 속성에 대한 이상치 정도 산출 과정을 도시한 도면이고, 도 4a 및 4b는 본 발명의 실시예에 따른 범주형 속성에 대한 이상치 정도 산출 과정을 도시한 도면이고, 도 5a 및 5b는 본 발명의 실시예에 따른 복합형 속성에 대한 이상치 정도 평가 과정을 도시한 도면이다.
도 3a와 같이 관련 속성이 수치형일 경우, 분포 모듈(210)은 도 3b와 같이 관련 속성 내 데이터를 군집하여 적어도 하나의 군집을 생성하며, 적어도 하나의 군집에 대한 군집 정보를 포함하는 분포정보를 제공한다.
제1 평가부(231)는 군집 정보 내 모든 군집과 입력 데이터의 거리를 이용해 입력 데이터와 가장 가까운 일 군집 Ci을 선택한다. 그리고, 제1 평가부(231)는 일 군집과 입력 데이터와의 거리를 퍼지 소속함수에 적용하여 하기의 수학식 1과 같이, 입력 데이터가 선택된 일 군집 Ci에 소속하는 정도
Figure 112015019652946-pat00001
를 산출하고, 1에서 입력 데이터가 일 군집에 소속하는 정도값의 차이를 이상치 정도로 산출한다.
Figure 112015019652946-pat00002
여기서, 퍼지 소속함수(Fuzzy Membership Function) μA(x)는 함수의 값이 구간 [0, 1]의 값을 가지는 것으로서, 도 4c와 같은 형태일 수 있다. 다시 말해, 일 군집과 입력 데이터와의 거리를 퍼지 소속함수에 대입함에 따라 입력 데이터가 일 군집에 소속하는 정도값은 구간 [0,1] 내로 변환될 수 있다.
분류 모듈()은 도 4a와 같이 관련 속성이 범주형이면, 관련 속성의 데이터 간의 가능한 조합에 대한 적어도 하나의 조합 빈도수를 산출하고, 도 4b와 같이, 산출된 적어도 하나의 조합 빈도수를 포함하는 분포정보를 제공한다.
제2 평가부(232)는 분포정보를 이용하여 입력 데이터와 관련 속성의 데이터 간의 가능한 조합에 대한 정규화된 히스토그램
Figure 112015019652946-pat00003
을 산출하고, 하기의 수학식 2와 같이, 숫자 1과 입력 데이터에 대해 정규화된 히스토그램의 빈도수의 차이값을 이용하여 입력 데이터의 이상치 정도를 산출할 수 있다.
Figure 112015019652946-pat00004
여기서, 히스토그램의 빈도수는 값은 복수의 값이므로, 제2 평가부(232)는 그 중 가장 작은 값을 이상치 정도로 산출할 수 있다.
참고로, 도 4b의 빨간색 타원형과 같이, 히스토그램에서 빈도수 값이 작은 부분은 이상치일 가능성이 있는 부분이다. 다시 말해, 해당 부분은 이전에 출현되지 않았던 조합이거나, 아직 이상치 평가가 되지 않았던 부분의 데이터를 포함할 가능성이 있다. 이에, 본 발명에서는 해당 부분을 이상치 데이터로 판단하고, 이에 대해 입력원에게 재확인을 요청하는 것이다.
분포 모듈(210)은 도 5a와 같이 관련 속성이 복합형이면, 관련 속성 중에서 범주형 속성값을 기준으로 관련 속성의 데이터를 도 5b와 같이 계층화(Stratification)하여 적어도 하나의 층을 구성하고, 각 층에 있는 수치형 속성값에 대응하는 데이터를 군집화하여 적어도 하나의 군집정보를 포함하는 분포정보를 제공한다.
그러면, 제3 평가부(233)는 분포정보를 참조하여 군집정보 내 적어도 하나의 군집에 대해 관련 속성이 수치형일 때와 동일한 방식으로 입력 데이터의 이상치 정도를 산출한다. 상세하게는, 제3 평가부(233)는 군집정보를 참조하여 각 층의 군집과 입력 데이터와의 거리를 산출하고, 각 층의 군집 중에서 입력 데이터와 가장 가까운 일 군집의 거리에 상기 수학식 1의 퍼지 소속함수를 적용하여 입력 데이터의 이상치 정도를 산출할 수 있다.
이와 같이, 본 발명의 실시예는 입력 데이터 중 데이터베이스 내 데이터와 일정 경향 차이 있으면 데이터를 이상치 데이터로 검출하여, 입력 단계에서 이상치 데이터를 필터링할 수 있다. 따라서, 본 발명의 실시예는 데이터베이스 내 데이터의 품질을 향상시키고, 신뢰도를 보장할 수 있다.
이하, 도 6을 참조하여 본 발명의 실시예에 따른 데이터 이상치 평가 방법에 대하여 설명한다. 도 6은 본 발명의 실시예에 따른 데이터 이상치 평가 방법을 독시한 흐름도이다.
도 6을 참조하면, 데이터베이스로 입력될 입력 데이터가 존재하면(S610의 예), 평가 모듈(230)은 입력 데이터과 관련된 속성이 복합형 속성인지를 확인한다(S620). 이때, 평가 모듈(230)은 갱신 모듈()로부터 입력 데이터에 관련된 속성의 분포정보를 전달받을 수 있다.
입력 데이터의 관련 속성이 복합형 속성이 아니면, 평가 모듈(230)은 입력 데이터의 관련 속성이 범주형 속성인지를 확인한다(S630).
평가 모듈(230)은 관련 속성 중 범주형 속성에 대해서는 히스토그램 빈도수를 이용하여 입력 데이터의 이상치 정도를 산출한다(S640).
평가 모듈(230)은 관련 속성 중 복합형 속성에 대해서는 계층화하여 적어도 하나의 층을 구성하고, 입력 데이터와 각 층에 대해 군집 간의 차이(거리)를 이용하여 이상치 정도를 산출한다(S650).
평가 모듈(230)은 관련 속성 중 수치형 속성에 대해서는 입력 데이터와 군집 간의 차를 이용해 입력 데이터의 이상치 정도를 산출한다(S660).
판정 모듈(240)은 산출된 이상치 정도값이 임계치 이하인지를 확인한다(S670). 이때, 산출된 이상치 정도값이 복수 개인 경우, 판정 모듈(240)은 각 이상치 정도값을 임계치와 비교하고, 그중 이상치 데이터를 검출할 수 있다.
이상치 정도값이 임계치 이하이면, 판정 모듈(240)은 입력 데이터를 이상치 데이터로 판정한다(S680). 이때, 판정 모듈(240)은 입력 데이터가 이상치 데이터임을 사용자에게 안내할 수 있다. 여기서, 판정 모듈(240)은 입력 데이터의 속성들 중에서 어떤 속성을 이상치 데이터로 판정한지를 안내할 수 있다.
이상치 정도값이 임계치를 초과하면, 판정 모듈(240)은 입력 데이터를 정상 데이터로 판정한다(S690).
이와 같이, 본 발명의 실시예는 입력 데이터 중 데이터베이스 내 데이터와 일정 경향 차이 있으면 데이터를 이상치 데이터로 검출하여, 입력 단계에서 이상치 데이터를 필터링할 수 있다. 따라서, 본 발명의 실시예는 데이터베이스 내 데이터의 품질을 향상시키고, 신뢰도를 보장할 수 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims (12)

  1. 테이블 형태로 데이터를 저장하는 데이터베이스 내 입력되는 입력 데이터에 대한 이상치 평가 장치로서,
    상기 입력 데이터가 입력되면, 상호 연관성이 있는 관련 속성에 대한 분포정보를 제공하는 분포 모듈; 및
    상기 분포정보를 이용해 관련 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하고, 상기 관련 속성의 종류에 따라 상기 입력 데이터와 상기 관련 속성 내 속성 간의 거리 및 상기 입력 데이터와 상기 관련 속성의 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈를 포함하되,
    상기 분포 모듈은, 상기 관련 속성이 수치형이면, 상기 관련 속성에 대응하는 데이터를 군집하여 생성된 적어도 하나의 군집정보를 포함하는 상기 분포정보를 제공하며,
    상기 평가 모듈은, 상기 군집정보를 참고해 상기 적어도 하나의 군집과 상기 입력 데이터의 거리를 산출하고, 산출된 상기 거리를 이용해 상기 입력 데이터와 가장 가까운 일 군집을 선택하며, 상기 입력 데이터의 상기 일 군집에 대한 소속 정도를 이용해 상기 입력 데이터의 이상치 정도를 산출하는 제1 평가부를 포함하는 것인 데이터 이상치 평가 장치.
  2. 삭제
  3. 제1항에 있어서, 상기 제1 평가부는,
    상기 입력 데이터와 상기 일 군집의 거리에 퍼지 소속함수를 적용하여 상기 입력 데이터의 상기 일 군집에 대한 소속정도 값을 산출하고, 1에서 상기 소속 정도의 값을 뺄셈한 결과를 상기 이상치 정도로 산출하는 것인 데이터 이상치 평가 장치.
  4. 제1항에 있어서,
    상기 분포 모듈은, 상기 관련 속성이 범주형이면, 상기 관련 속성의 가능한 조합에 대한 적어도 하나의 조합 빈도수 정보를 포함하는 상기 분포정보를 제공하고,
    상기 평가 모듈은, 상기 조합 빈도수 정보를 이용하여 상기 입력 데이터와 상기 관련 속성의 가능한 조합에 대한 적어도 하나의 빈도수를 산출하고, 이를 이용하여 상기 입력 데이터의 이상치 정보를 산출하는 제2 평가부를 포함하는 것인 데이터 이상치 평가 장치.
  5. 제4항에 있어서, 상기 제2 평가부는,
    상기 적어도 하나의 조합 빈도수를 이용하여 정규화된 히스토그램을 산출하고, 1에서 상기 히스토그램의 각 빈도수를 뺄셈한 결과를 상기 이상치 정도로 산출하는 것인 데이터 이상치 평가 장치.
  6. 제1항에 있어서,
    상기 분포 모듈은, 상기 관련 속성 내 각 속성이 상기 수치형과 상기 범주형이 혼용된 복합형이면, 상기 관련 속성 중에서 범주형 속성값을 기준으로 상기 관련 속성에 대응하는 데이터를 계층화(Stratification)하여 적어도 하나의 속성층을 구성하고, 상기 적어도 하나의 속성층의 각 층에 있는 수치형 속성값에 대응하는 데이터를 군집화한 결과 적어도 하나의 군집정보를 포함하는 상기 분포정보를 제공하며,
    상기 평가 모듈은, 상기 적어도 하나의 군집정보를 이용하여 상기 입력 데이터와 상기 적어도 하나의 군집정보에 따른 군집 간의 거리를 이용하여 상기 이상치 정도를 산출하는 것인 데이터 이상치 평가 장치.
  7. 제1항, 제3항 내지 제6항 중 어느 한 항에 있어서,
    상기 이상치 정도와 기설정된 임계치와 비교하여 상기 입력 데이터의 이상치 데이터 여부를 판정하고, 판정 결과를 사용자에게 안내하는 판정 모듈
    을 더 포함하는 데이터 이상치 평가 장치.
  8. 제1항에 있어서,
    상기 분포 모듈은, 상기 입력 데이터를 정상 데이터로 판정하면, 상기 입력 데이터를 상기 데이터베이스에 저장시키고, 상기 입력 데이터를 포함하는 상기 분포정보를 생성하는 것인 데이터 이상치 평가 장치.
  9. 적어도 하나의 프로세서에 의한 데이터베이스 내 입력되는 입력 데이터에 대한 이상치 평가 방법으로서,
    상기 입력 데이터가 입력되면, 상호 연관성이 있는 관련 속성에 대한 분포정보를 제공하는 단계;
    상기 분포정보를 이용해 관련 속성이 수치형, 범주형 및 복합형 중 어느 종류인지를 확인하는 단계; 및
    상기 관련 속성의 종류에 따라 상기 입력 데이터와 상기 관련 속성 내 속성 간의 거리 및 상기 입력 데이터와 상기 관련 속성의 데이터 간의 조합 빈도수 중 적어도 하나를 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 단계를 포함하되,
    상기 제공하는 단계는, 상기 관련 속성이 수치형이면, 상기 관련 속성에 대응하는 데이터를 군집하여 생성된 적어도 하나의 군집정보를 포함하는 상기 분포정보를 제공하는 단계를 포함하며,
    상기 평가하는 단계는, 상기 군집정보를 참고해 상기 적어도 하나의 군집과 상기 입력 데이터의 거리를 산출하고, 산출된 상기 거리를 이용해 상기 입력 데이터와 가장 가까운 일 군집을 선택하며, 상기 입력 데이터의 상기 일 군집에 대한 소속 정도를 이용해 상기 입력 데이터의 이상치 정도를 산출하는 단계를 포함하는 것인 데이터 이상치 평가 방법.
  10. 삭제
  11. 제9항에 있어서,
    상기 제공하는 단계는, 상기 관련 속성이 범주형이면, 상기 관련 속성의 가능한 조합에 대한 적어도 하나의 조합 빈도수 정보를 포함하는 상기 분포정보를 제공하는 단계를 포함하며,
    상기 평가하는 단계는, 상기 조합 빈도수 정보를 이용하여 상기 입력 데이터와 상기 관련 속성의 가능한 조합에 대한 적어도 하나의 빈도수를 산출하고, 이를 이용하여 상기 입력 데이터의 이상치 정보를 산출하는 단계를 포함하는 것인 데이터 이상치 평가 방법.
  12. 제9항에 있어서,
    상기 제공하는 단계는, 상기 관련 속성 내 각 속성이 상기 수치형과 상기 범주형이 혼용된 복합형이면, 상기 관련 속성 중에서 범주형 속성값을 기준으로 상기 관련 속성에 대응하는 데이터를 계층화(Stratification)하여 적어도 하나의 속성층을 구성하고, 상기 적어도 하나의 속성층의 각 층에 있는 수치형 속성값에 대응하는 데이터를 군집화한 결과 적어도 하나의 군집정보를 포함하는 상기 분포정보를 제공하며,
    상기 평가하는 단계는, 상기 적어도 하나의 군집정보를 이용하여 상기 입력 데이터와 상기 적어도 하나의 군집정보에 따른 군집 간의 거리를 이용하여 상기 이상치 정도를 산출하는 것인 데이터 이상치 평가 방법.
KR1020150027914A 2015-02-27 2015-02-27 데이터 연관성 기반 이상치 평가 장치 및 방법 KR101692611B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150027914A KR101692611B1 (ko) 2015-02-27 2015-02-27 데이터 연관성 기반 이상치 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150027914A KR101692611B1 (ko) 2015-02-27 2015-02-27 데이터 연관성 기반 이상치 평가 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160104945A KR20160104945A (ko) 2016-09-06
KR101692611B1 true KR101692611B1 (ko) 2017-01-17

Family

ID=56945872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150027914A KR101692611B1 (ko) 2015-02-27 2015-02-27 데이터 연관성 기반 이상치 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101692611B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470763B1 (ko) 2022-10-13 2022-11-25 주식회사 비플컨설팅 데이터 이상치 탐색 장치 및 방법
KR20230166608A (ko) 2022-05-31 2023-12-07 삼성에스디에스 주식회사 이상치 탐지 방법 및 그 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020241959A1 (ko) * 2019-05-31 2020-12-03 주식회사 포스코아이씨티 비정상 제어데이터 탐지시스템
CN112101765A (zh) * 2020-09-08 2020-12-18 国网山东省电力公司菏泽供电公司 一种配电网运行指标数据异常数据处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101172579B1 (ko) * 2009-12-15 2012-08-09 한국과학기술원 이상 속성을 포함하는 데이터의 검출 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230166608A (ko) 2022-05-31 2023-12-07 삼성에스디에스 주식회사 이상치 탐지 방법 및 그 시스템
KR102470763B1 (ko) 2022-10-13 2022-11-25 주식회사 비플컨설팅 데이터 이상치 탐색 장치 및 방법

Also Published As

Publication number Publication date
KR20160104945A (ko) 2016-09-06

Similar Documents

Publication Publication Date Title
KR101692611B1 (ko) 데이터 연관성 기반 이상치 평가 장치 및 방법
US20160210535A1 (en) Image processing apparatus, image processing method, program, and storage medium
US8423960B2 (en) Evaluation of software based on review history
CN109472005B (zh) 数据可信度评估方法、装置、设备和存储介质
US20160342963A1 (en) Tree pathway analysis for signature inference
KR102097953B1 (ko) 고장 리스크 지표 추정 장치 및 고장 리스크 지표 추정 방법
WO2017101301A1 (zh) 数据信息处理方法及装置
CN106874199B (zh) 测试用例处理方法和装置
Yamashita et al. Thresholds for size and complexity metrics: A case study from the perspective of defect density
US20150186807A1 (en) Multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
US20210157831A1 (en) Method and analytical engine for a semantic analysis of textual data
US8977665B2 (en) Fault-aware matched filter and optical flow
KR101331452B1 (ko) 데이터베이스 관리 방법 및 그를 위한 데이터베이스 관리 서버
CN108885684A (zh) 用于检测视频中的对象的方法和系统
CN112685324A (zh) 一种生成测试方案的方法及系统
Azzalini et al. FAIR-DB: Function Al dependencies to discover data bias
US11727522B2 (en) Method, system, and apparatus for damage assessment and classification
US9020268B2 (en) Method and apparatus for annotating multimedia data in a computer-aided manner
US20210382947A1 (en) Accuracy metric for regular expression
CN109558910B (zh) 一种信息安全等级评测的方法、系统及相关组件
US11301493B2 (en) Systems and methods for providing data exploration techniques
Wu et al. Classifying weak, and strong components using ROC analysis with application to burn-in
JP6065657B2 (ja) 電子データ承認方法、及び電子データ承認サーバ
JP2021124886A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2016099688A (ja) リスク評価方法およびリスク評価装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant