KR101749798B1 - 이력데이터의 이상치 평가 장치 및 방법 - Google Patents

이력데이터의 이상치 평가 장치 및 방법 Download PDF

Info

Publication number
KR101749798B1
KR101749798B1 KR1020150027915A KR20150027915A KR101749798B1 KR 101749798 B1 KR101749798 B1 KR 101749798B1 KR 1020150027915 A KR1020150027915 A KR 1020150027915A KR 20150027915 A KR20150027915 A KR 20150027915A KR 101749798 B1 KR101749798 B1 KR 101749798B1
Authority
KR
South Korea
Prior art keywords
data
input data
value
input
database
Prior art date
Application number
KR1020150027915A
Other languages
English (en)
Other versions
KR20160104946A (ko
Inventor
이건명
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020150027915A priority Critical patent/KR101749798B1/ko
Publication of KR20160104946A publication Critical patent/KR20160104946A/ko
Application granted granted Critical
Publication of KR101749798B1 publication Critical patent/KR101749798B1/ko

Links

Images

Classifications

    • G06F17/30289
    • G06F17/30303

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 이력데이터의 이상치 평가 장치 및 방법에 대하여 개시한다. 본 발명의 일면에 따른 이력데이터들을 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 장치는, 상기 데이터베이스로 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 확인 모듈; 및 상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하는 것을 특징으로 한다.

Description

이력데이터의 이상치 평가 장치 및 방법{Appratus and Method for Evaluating Outlierenss}
본 발명은 이상치 평가 기법에 관한 것으로서, 더 구체적으로는 관찰 또는 관측 데이터가 누적되는 이력데이터의 이상치 평가 장치 및 방법에 관한 것이다.
일반적으로, 데이터베이스 내 데이터가 의사결정에 사용될 경우, 그 품질은 매우 중요하나, 실무에서는 실무자의 실수 등에 의해서 오류 있는 데이터가 함께 데이터베이스에 불가피하게 입력 또는 수집될 수 있다.
이를 방지하고자, 생명정보 분야 및 데이터 마이닝 분야에서는 데이터베이스 내 데이터의 논리적 오류(이하, 이상치 판단)를 찾는 연구가 많이 진행되고 있다.
본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 입력되는 이력데이터에 대해 이상 여부를 평가할 수 있는 이력데이터의 이상치 평가 장치 및 방법을 제공하는 것을 그 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일면에 따른 이력데이터들을 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 장치는, 상기 데이터베이스로 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 확인 모듈; 및 상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 따른 력데이터를 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 방법은, 상기 데이터베이스에 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 단계; 및 상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 이력데이터의 입력시에 실시간으로 데이터의 이상 여부를 확인할 수 있다.
도 1은 본 발명에 따른 이력데이터의 이상치 평가 장치를 도시한 구성도.
도 2a는 본 발명에 따른 제1 평가기를 도시한 구성도.
도 2b는 본 발명에 따른 제2 평가기를 도시한 구성도.
도 3은 본 발명에 따른 이력데이터의 이상치 평가 방법을 도시한 흐름도.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이제 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 이력데이터의 이상치 평가 장치를 도시한 구성도이고, 도 2a는 본 발명의 실시예에 따른 제1 평가기를 도시한 구성도이고, 도 2b는 본 발명의 실시예에 따른 제2 평가기를 도시한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 이력데이터의 이상치 평가 장치(10)는 확인 모듈(100) 및 평가 모듈(200)을 포함한다.
확인 모듈(100)은 데이터베이스에 새로운 이력데이터가 입력되면, 기설정된 데이터 프로파일을 이용하여 해당 입력 데이터의 속성 종류를 확인한다.
여기서, 데이터 프로파일은 데이터베이스 내 기축척된 이력데이터들을 분석하여 추출된 대상별 이력데이터의 특성을 추출하기 위한 데이터 프로파일일 수 있다. 여기서, 데이터 프로파일은 확인 모듈(100) 또는 다른 처리수단(미도시)에 의해 자동으로 생성될 수 있으며, 전문자의 분석에 의해 수동으로 생성될 수도 있다.
데이터베이스는 표 1과 같이, 테이블 단위로 이력데이터를 저장하며, 동일한 대상에 대한 이력데이터는 동일한 식별자(Person)로 구분될 수 있다.
이때, 이력데이터는 어떤 대상에 대한 관찰 또는 관측 데이터일 수 있으며, 식별자는 사람 이름, 아이디 등일 수 있다.
또한, 하기의 표 1과 같이, 수치형 속성(Numeric attribute)은 데이터가 숫자로 이뤄진 속성이며, 범주형 속성(Categorical attribute)는 데이터가 텍스트 기반으로 이뤄진 속성이다. 표 1에서, Timestamps는 입력 데이터의 입력(또는, 저장) 시간일 수 있다.
Figure 112015019653093-pat00001
평가 모듈(200)은 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 입력 데이터의 이상치 정도를 평가한다. 여기서, 평가 모듈(200)은 입력 데이터에 대해 각 속성별로 입력 데이터의 이상치 정도를 평가할 수 있다. 다시 말해, 입력 데이터가 복수의 속성을 가지는 경우, 각 속성에 대해 다음을 과정을 수행하여 속성별로 입력 데이터의 이상치 정도를 평가할 수 있다. 이 경우, 입력 데이터의 복수의 속성 중에서 하나의 속성에 이상치 가능성이 있음을 확인하면, 이를 사용자에게 안내할 수 있다.
평가 모듈(200)은 입력 데이터가 수치형 속성에 해당하는 경우 입력 데이터의 이상치 정도를 평가하는 제1 평가기(210) 및 제2 평가기(220)를 포함한다.
먼저, 도 2a를 참조하여 제1 평가기(210)에 대하여 설명한다.
제1 평가기(210)은 속성 종류가 수치형이면, 데이터베이스로부터 입력 데이터와 동일한 식별자를 갖는(이하, "동일 대상"이라고 함) 동일 대상의 이력데이터(표 1의 수치형 속성의 빨간색 사각형들 참조) 및 다른 대상의 이력데이터 중 적어도 하나의 이력데이터를 불러와, 불러온 적어도 하나의 이력데이터와 입력 데이터의 유사성을 이용하여 입력 데이터의 이상치를 평가한다.
이때, 제1 평가기(210)는 다음의 3가지 평가기법 중 적어도 하나를 이용하여 입력 데이터의 무결성(또는, 이상치)을 평가한다. 구체적으로, 제1 평가기(210)는 새로운 데이터는 그와 동일한 대상의 기존 데이터와 유사해야 한다는 자기유사성(Self Similarity), 새로운 데이터의 추가에 따라 표준편차의 변화가 작아야 한다는 자기 표준편차변화 최소화(Self standard deviation change minimization) 및 다른 대상과 새로운 데이터의 표준편차의 차이가 작아야 한다는 상대적 표준편차변화 최소화(Relative standard deviation change minimization)를 이용하여 입력 데이터의 이상치를 평가할 수 있다. 여기서, 제1 평가기(210)는 상기 3가지 평가기법의 하나만을 이용할 수 있지만, 이하에서는 3가지 평가기법을 모두 이용하는 경우를 예로 들어 설명한다.
제1 평가기(210)는 상기의 3가지 평가기법을 각기 이용하여 각기 입력 데이터의 유사성 값을 산출하는 제1 내지 제3 유사성 산출부(211~213) 및 해당 유사성 값을 이용하여 이상치를 산출하는 제1 이상치 산출부(214)를 포함한다.
제1 유사성 산출부(211)는 하기의 수학식 1과 같이 동일 대상의 이력데이터 중 가장 가까운 데이터 vclosest와 입력 데이터 vnew의 거리에 기설정된 퍼지 소속함수를 적용하여 제1 유사성 값 OSS(vnew)을 산출할 수 있다.
Figure 112015019653093-pat00002
여기서, μSS는 단조 증가하는 퍼지 소속함수(fuzzy membership function)이다.
제2 유사성 산출부(212)는 하기의 수학식 2와 같이, 각기 입력 데이터를 추가하기 전의 후의 동일 대상의 이력데이터의 자기 표준편차인 std와 std'의 차이값을 산출하고, 산출된 차이값의 절대값에 퍼지 소속함수를 적용하여 제2 유사성 값 OSSD(vnew)을 산출할 수 있다.
Figure 112015019653093-pat00003
여기서, μSSD는 단조 증가하는 퍼지 소속함수이다.
제3 유사성 산출부(213)는 다른 대상(예컨대, 사람)의 표준편차 중 가장 큰 것 maxk≠istdk과 입력 데이터를 추가한 후의 동일 대상의 이력데이터의 표준편차 std'i의 차이값을 산출하고, 해당 차이값의 절대값에 퍼지 소속함수를 적용하여 제3 유사성 값을 산출할 수 있다. 여기서, 다른 대상의 표준편차는 입력 데이터와 다른 식별자를 갖는 이력데이터의 표준편차일 수 있다.
여기서, μRSD는 단조 증가하는 퍼지 소속함수이다.
제1 이상치 산출부(214)는 하기의 수학식 4와 같이, 전술한 제1 내지 제3 유사성 값 중에서 최대값을 입력 데이터의 이상치 정도값을 산출한다.
Figure 112015019653093-pat00005
이하, 도 2b를 참조하여 제2 평가기(220)에 대하여 설명한다.
제2 평가기(220)는 입력 데이터의 속성 종류가 범주형이면, 동일 대상의 이력데이터와 전체 대상의 이력데이터 중 적어도 하나의 대상의 이력데이터를 불러와, 불러온 적어도 하나의 대상의 이력데이터의 동시발생 행렬을 이용하여 입력 데이터의 이상치를 평가한다.
도 2b에 도시된 바와 같이, 제2 평가기(220)는 행렬 산출부(221), 호환도 추출부(222) 및 제2 이상치 산출부(223)를 포함한다.
제2 평가기(220)는 범주형 속성의 경우, 동일 대상이나 다른 대상에서 자주 나타나는(출현 빈도가 높은) 속성일수록 그 무결성의 정도가 높다는 전제를 이용하여 입력 데이터의 이상치를 평가한다. 이를 위해, 제2 평가기(220)는 두 가지 동시발생(co-occurrence) 정보를 수집하고, 이를 이용해 입력 데이터의 무결성을 확인한다. 이때, 동시발생 정보의 하나는 시간적으로 인접한 데이터들의 쌍의 빈도를 측정하는 순서유지 동시발생(ordered co-occurrence)이고, 다른 하나는 순서를 무시하고 해당 데이터들의 쌍의 빈도를 측정하는 순서무관 동시발생(orderness co-occurrence)이다. 이에 대해, 제2 평가기(220)는 순서유지 동시발생과 순서무관 동시발생을 동시발생 행렬(co-occurrence matrix)로 표현할 수 있다.
행렬 산출부(221)는 순서유지 동시발생 행렬과 순서무관 동시발생 행렬을 이용하여 하기의 수학식 5 및 6과 같이 순서유지 호환성 행렬(Compatibility Matrix)
Figure 112015019653093-pat00006
과 수학식 6과 같이 순서무관 호환성 행렬
Figure 112015019653093-pat00007
을 산출한다.
Figure 112015019653093-pat00008
Figure 112015019653093-pat00009
여기서, cp는 p번째 행의 범주형 속성이고, cq는 q번째 행의 범주형 속성이다. 그리고, mp는 Cordered 행렬의 p번째 행의 합이고, Nv는 Corderless 행렬전체 속성값의 개수이다.
이하, 표 2 내지 5를 참조하여 행렬 산출부(221)가 동일 대상의 범주형 속성 데이터에 대해 순서유지 호환성 행렬을 산출하는 구체적 예에 대해 설명한다. 하기의 표 2는 식별자(ID)가 B인 대상의 범주형 속성 데이터(A1 열의 데이터)를 도시한 것이다. 여기서, TS(Time Stamp)는 시간 정보이며, 녹색 표시 부분이 입력 데이터이다.
Figure 112015019653093-pat00010
먼저, 행렬 산출부(221)는 범주형 속성 데이터의 각 항목이 출현한(입력된 또는 저장된) 순서를 나타내는 하기의 표 3과 같은 동시발생 행렬을 산출한다.
Figure 112015019653093-pat00011
상기 표 3에서, cp는 각 행이며, cq는 각 열이며, 동시발생 행렬의 데이터는 cp 다음에 cq가 출현한 횟수이다. 일 예로서, 첫번째 행과 첫번째 열의 데이터는 범주형 속성 Stomach 다음에 Stomach이 출현한 횟수(빈도)인 2이다.
이어서, 행렬 산출부(221)는 산출된 동시발생 행렬의 각 데이터를 Cordered 행렬의 p번째 행의 합 mp로 제산함에 따라 동일 대상의 순서유지 호환성 행렬 Kordered(cp,cq)을 산출한다.
Figure 112015019653093-pat00012
이후, 행렬 산출부(221)는 동일 대상의 범주형 속성 데이터에 대해 순서유지 호환성 행렬과 유사한 방식으로 순서무관 호환성 행렬 Korderless(cp,cq)을 산출한다. 다만, 순서무관 호환성 행렬의 데이터(빈도)는 cp, cq 가 둘다 출현한 적이 있으면 1로, 그렇지 않으면 0으로 설정된다.
또한, 행렬 산출부(221)는 입력 데이터를 포함하는 전체 이력데이터에 대해서도 순서유지 및 순서무관 동시발생 행렬 Cordered-pop(cp,cq), Corderless-pop(cp,cq)을 산출하고, 해당 행렬들로부터 전체 순서유지 호환성 행렬 Kordered-pop(cp,cq)과 전체 순서무관 호환성 행렬 Korderless-pop(cp,cq)을 산출한다.
Figure 112015019653093-pat00013
Figure 112015019653093-pat00014
호환도 추출부(222)는 동일 대상에 대한 순서유지 및 순서무관 호환성 행렬 Kordered(cp,cq), Korderless(cp,cq)과 전체 이력데이터에 대한 순서유지 및 순서무관 호환성 행렬 Kordered-pop(cp,cq), Korderless-pop(cp,cq)으로부터 각기 입력 데이터의 이전 데이터 ck과 입력 데이터 cnew를 대상으로 하는 순서유지 또는 순서무관 호환성 정도값 Kordered(ck,cnew), Korderless(ck,cnew), Kordered-pop(ck,cnew), Kordered-pop(ck,cnew)을 산출한다.
만약, 동일 대상의 순서유지 호환성 행렬 Kordered(cp,cq)이 표 4인 경우, 호환도 추출부(222)는 표 4의 둥근 모서리 원 부분을 순서유지 호환성 정도값으로 추출한다. 상세하게는, 입력 데이터는 'Tonsil'이고 이전 데이터는 'Stomach'이므로, 동일 대상의 순서유지 호환성 정도값은 1/6일 수 있다.
제2 이상치 산출부(223)는 수학식 9와 같이 호환도 추출부(222)에서 추출된 호환성 정도값 중에서 최대값을 입력 데이터의 이상치 정도값으로 산출한다.
Figure 112015019653093-pat00015
한편, 전술한 예에서는 제2 평가기(220)가 Kordered(ck,cnew), Korderless(ck,cnew), Kordered-pop(ck,cnew), Kordered-pop(ck,cnew)을 모두 이용하여 이상치 정도값을 산출하는 경우를 예로 들어 설명하였지만, 제2 평가기(220)는 이들 중 적어도 하나만을 이용하여 이상치 정도값을 산출할 수도 있다.
한편, 본 발명의 실시예에 따른 이력데이터의 이상치 평가 장치(10)는 산출된 이상치 정도값을 이용하여 입력 데이터의 이상 여부를 확인하고, 그 결과를 사용자에게 알릴 수 있다. 이를 위해, 본 발명의 실시예에 따른 입력 데이터의 이상치 평가 장치(10)는 판정 모듈(300)을 더 포함할 수 있다.
판정 모듈(300)은 전술한 과정을 통해 산출된 이상치 정도값을 기설정된 임계치와 비교하여 입력 데이터의 이상 여부를 판정하고, 판정 결과를 출력한다. 여기서, 임계치는 과거의 이력데이터와 크게 차이가 있어 입력 데이터의 이상치 가능성이 있음을 판단하는 기준일 수 있으며, 이력데이터의 분석결과에 의해 결정될 수 있다.
이때, 수치형 속성으로부터 산출된 제1 이상치 정도값과 범주형 속성으로부터 산출된 제2 이상치 정도값은 차이가 있을 수 있으므로, 판정 모듈(300)은 각기 수치형 속성과 범주형 속성에 사용되는 적어도 두 개의 임계치를 이용하여 입력 데이터의 이상 여부를 판정할 수 있다.
예컨대, 판정 모듈(300)은 제1 이상치 정도값이 제1 임계치 이상이거나, 제2 이상치 정도값이 제2 임계치 이상인 경우, 입력 데이터가 이상치일 가능성이 있는 것으로 판정할 수 있다.
입력 데이터가 이상치일 가능성이 있으면, 판정 모듈(300)은 디스플레이 및 소리 출력수단 중 적어도 하나로 이를 출력할 수 있다.
이때, 사용자는 입력 데이터를 재확인하고 입력 데이터가 실제로 이상치인 경우, 오류를 정정할 수 있다. 또는, 입력 데이터가 이상치가 아니라면, 판정 모듈(300)에 입력 데이터에 대한 저장을 요청할 수 있다. 후자의 경우, 판정 모듈(300) 또는 다른 저장수단(미도시)는 입력 데이터를 그대로 데이터베이스에 저장시킬 수 있다.
전술한, 확인 모듈(100), 평가 모듈(200) 및 판정 모듈(300)은 하나의 프로세서(예컨대, CPU) 내 각기 다른 처리모듈일 수 있으며, 각기 다른 프로세서일 수도 있다.
이와 같이, 본 발명의 실시예는 이력데이터가 입력되는 과정에서 실시간 및 자동으로 이상치 데이터를 검출할 수 있어, 이력데이터의 오입력을 방지하고, 데이터베이스 내 저장 데이터의 품질을 보장할 수 있다.
또한, 본 발명의 실시예는 입력 데이터의 속성 종류에 상관 없이 데이터의 이상 여부를 검출할 수 있다.
이하, 도 3을 참조하여 본 발명의 실시예에 따른 이력데이터의 이상치 평가 방법에 대하여 설명한다. 도 3은 본 발명의 실시예에 따른 이력데이터의 이상치 평가 방법을 도시한 흐름도이다.
도 3을 참조하면, 확인 모듈(100)은 입력되는 이력데이터(이하, '입력 데이터'라고 함)가 있는지를 확인한다(S310).
입력 데이터가 있으면, 확인 모듈(100)은 기설정된 데이터 프로파일을 이용하여 입력 데이터가 수치형 속성인지를 확인한다(S320).
입력 데이터가 수치형 속성이면, 평가 모듈(200)은 자기유사성, 자기 표준편차 변화 최소화 및 상대적 표준편차 변화 최소화를 포함하는 평가기법을 이용하여 입력 데이터와 기존 데이터의 유사성 정도값을 산출한다(S330).
상세하게는, 평가 모듈(200)은 전술한 바와 같이 동일 대상의 이력데이터 중 가장 가까운 데이터와 입력 데이터의 거리를 이하여 제1 유사성 값을 산출할 수 있다. 그리고, 평가 모듈(200)은 전술한 바와 같이 동일 대상의 이력데이터에 입력 데이터를 추가하기 전과 후의 동일 대상의 이력데이터의 자기 표준편차의 차이값을 이용하여 제2 유사성 값을 산출할 수 있다. 또한, 평가 모듈(200)은 전술한 바와 같이 다른 대상의 표준편차 중 가장 큰 것과 입력 데이터의 추가 후 동일 대상의 이력데이터의 표준편차의 차이값을 이용하여 제3 유사성 값을 산출할 수 있다.
이어서, 평가 모듈(200)은 제1 내지 제3 유사성 값 중 최대값을 입력 데이터의 수치형 속성의 입력 데이터의 이상치 정도로 산출한다(S340).
반면, 입력 데이터가 범주형 속성이면, 평가 모듈(200)은 동일 대상에 대한 이력데이터와 전체 이력데이터의 동시발생 행렬을 이용하여 호환성 정도값을 산출한다(S350). 상세하게는, 평가 모듈(200)은 동일 대상의 이력데이터와 전체 이력데이터에 대한 순서유지 동시발생 행렬과 순서무관 동시발생 행렬을 이용하여 전술한 수학식 5 내지 8과 같이 호환성 정도값을 산출할 수 있다.
평가 모듈(200)은 전술한 바와 같이 산출된 호환성 정도값 Kordered(ck,cnew), Korderless(ck,cnew), Kordered-pop(ck,cnew), Kordered-pop(ck,cnew) 중에서 최대값을 범주형 속성의 입력 데이터의 이상치 정도값으로 산출한다(S360).
판정 모듈(300)은 산출된 이상치 정도값이 기설정된 임계치 이상인지를 확인한다(S370). 이때, 판정 모듈(300)은 수치형 속성의 입력 데이터와 범주형 속성의 입력 데이터에 대해 각기 다른 임계치를 적용할 수 있다.
이상치 정도값이 임계치 이상이면, 판정 모듈(300)은 해당 입력 데이터는 이상치일 가능성이 있으므로, 사용자에게 재확인할 것을 안내한다(S380).
이어서, 판정 모듈(300)은 이상치 가능성에 대한 안내에 대한 사용자의 피드백이 수신되는지를 확인하고(S390), 피드백이 수신되면 입력 데이터를 저장한다(S395). 이때, 사용자는 입력 데이터가 실제로 이상치인 경우, 입력 데이터의 오류를 정정할 것이며, 피드백에는 정정된 입력 데이터가 포함될 것이다. 또는, 입력 데이터가 이상치가 아니라면, 피드백에는 그대로의 입력 데이터에 대한 저장 요청이 포함될 것이므로, 그러면 판정 모듈(300) 또는 다른 저장수단(미도시)는 입력 데이터를 그대로 저장할 수 있다.
이와 같이, 본 발명의 실시예는 이력데이터가 입력되는 과정에서 실시간 및 자동으로 이상치 데이터를 검출할 수 있어, 이력데이터의 오입력을 방지하고, 데이터베이스 내 저장 데이터의 품질을 보장할 수 있다.
또한, 본 발명의 실시예는 입력 데이터의 속성 종류에 상관 없이 데이터의 이상 여부를 검출할 수 있다.
전술한 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims (15)

  1. 이력데이터들을 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 장치로서,
    상기 데이터베이스로 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 확인 모듈; 및
    상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하고,
    상기 평가 모듈은, 상기 속성 종류가 상기 범주형이면, 상기 입력 데이터와 동일한 식별자를 갖는 상기 데이터베이스 내 동일 대상과 전체 대상의 이력데이터 중 적어도 하나의 대상의 이력데이터의 동시발생 행렬을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 것인 이력데이터의 이상치 평가 장치.
  2. 제1항에 있어서, 상기 데이터 프로파일은,
    상기 데이터베이스 내 기축척된 상기 이력데이터들을 분석하여 추출된 대상별 이력데이터의 특성을 추출하기 위해 설정된 프로파일인 이력데이터의 이상치 평가 장치.
  3. 제1항에 있어서, 상기 평가 모듈은,
    상기 속성 종류가 상기 수치형이면, 자기유사성, 자기 표준편차 및 상대적 표준편차 중 적어도 하나를 이용하여 상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터 및 다른 식별자를 갖는 대상의 이력데이터 중 적어도 하나의 대상의 이력데이터와 상기 입력 데이터의 유사성을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 것인 이력데이터의 이상치 평가 장치.
  4. 이력데이터들을 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 장치로서,
    상기 데이터베이스로 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 확인 모듈; 및
    상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 평가 모듈을 포함하고,
    상기 평가 모듈은,
    상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터 중 가장 가까운 데이터와 상기 입력 데이터의 거리를 이용하여 제1 유사성 값을 산출하는 제1 유사성 산출부;
    상기 입력 데이터를 추가하기 전과 후의 상기 동일 대상의 이력데이터의 표준편차의 차이값을 이용하여 제2 유사성 값을 산출하는 제2 유사성 산출부; 및
    상기 입력 데이터와 다른 식별자를 갖는 대상의 이력데이터에서 가장 표준편차가 큰 것과 상기 동일 대상의 이력데이터의 표준편차의 차이값을 이용하여 제3 유사성 값을 산출하는 제3 유사성 산출부 중 적어도 하나의 모듈을 포함하고,
    상기 적어도 하나의 모듈에 의해 산출된 유사성 값을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 것인 이력데이터의 이상치 평가 장치.
  5. 제4항에 있어서, 상기 평가 모듈이 상기 제1 내지 제3 유사성 산출부를 모두 포함하는 경우, 상기 평가 모듈은,
    상기 제1 내지 제3 유사성 값 중에서 최대값을 상기 입력 데이터의 이상치 정도로 산출하는 이상치 산출부
    를 더 포함하는 것인 이력데이터의 이상치 평가 장치.
  6. 삭제
  7. 제1항에 있어서, 상기 평가 모듈은,
    상기 동일 대상의 이력데이터에 대해 각기 산출된 순서를 고려한 동시발생 행렬과 순서를 고려하지 않은 동시발생 행렬을 이용하여 제1 및 제2 호환성 행렬을 계산하고, 상기 데이터베이스 내 전체 이력데이터에 대해 각기 산출된 순서를 고려한 동시발생 행렬과 순서를 고려하지 않은 동시발생 행렬을 이용하여 제3 및 제4 호환성 행렬을 산출하는 행렬 산출부; 및
    상기 제1 및 제2 호환성 행렬로부터 상기 입력 데이터의 이전 데이터와 상기 입력 데이터의 제1 순서유지 호환성 정도값과 제1 순서무관 호환성 정도값을 추출하고, 상기 제3 및 제4 호환성 행렬로부터 상기 입력 데이터의 제2 순서유지 호환성 정도값과 제2 순서무관 호환성 정도값을 추출하는 호환도 추출부
    를 포함하는 것인 이력데이터의 이상치 평가 장치.
  8. 제7항에 있어서, 상기 평가 모듈은,
    상기 제1 및 제2 순서유지 호환성 정도값과 상기 제1 및 제2 순서무관 호환성 정도값 중에서 최대값을 상기 입력 데이터의 이상치 정도로 판정하는 이상치 산출부를 더 포함하는 것인 이력데이터의 이상치 평가 장치.
  9. 제1항에 있어서,
    상기 입력 데이터의 이상치 정도를 기설정된 임계치와 비교하고, 비교 결과 상기 입력 데이터가 이상치일 가능성이 있으면, 사용자에게 재확인을 안내하는 판정 모듈을 더 포함하는 이력 데이터의 이상치 평가 장치.
  10. 이력데이터를 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 방법으로서,
    상기 데이터베이스에 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 단계; 및
    상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 단계를 포함하고,
    상기 평가하는 단계는,
    상기 속성 종류가 상기 범주형이면, 상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터의 동시발생 행렬 및 상기 데이터베이스 내 전체 대상의 이력데이터의 동시발생 행렬 중 적어도 하나의 동시발생 행렬을 산출하는 단계; 및 상기 적어도 하나의 동시발생 행렬을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 단계를 포함하는 것인 이력 데이터의 이상치 평가 방법.
  11. 제10항에 있어서, 상기 평가하는 단계는,
    상기 속성 종류가 상기 수치형이면, 자기유사성, 자기 표준편차 및 상대적 표준편차 중 적어도 하나를 이용하여 상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터 및 다른 식별자를 갖는 대상의 이력데이터 중 적어도 하나와 상기 입력 데이터의 유사성을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 단계
    를 포함하는 것인 이력데이터의 이상치 평가 방법.
  12. 이력데이터를 테이블 단위로 저장하는 데이터베이스로 입력되는 이력데이터의 이상치 평가 방법으로서,
    상기 데이터베이스에 입력되는 새로운 이력데이터인 입력 데이터가 있으면, 기설정된 데이터 프로파일을 이용하여 상기 입력 데이터의 속성 종류를 확인하는 단계; 및
    상기 입력 데이터의 속성 종류가 수치형인 경우와 범주형인 경우에 각기 다른 방식으로 상기 입력 데이터의 이상치 정도를 평가하는 단계를 포함하고,
    상기 평가하는 단계는,
    상기 속성 종류가 상기 수치형이면, 자기유사성, 자기 표준편차 및 상대적 표준편차 중 적어도 하나를 이용하여 상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터 및 다른 식별자를 갖는 대상의 이력데이터 중 적어도 하나와 상기 입력 데이터의 유사성을 이용하여 상기 입력 데이터의 이상치 정도를 산출하는 단계를 포함하고,
    상기 산출하는 단계는,
    상기 데이터베이스 내 상기 입력 데이터와 동일한 식별자를 갖는 동일 대상의 이력데이터 중 가장 가까운 데이터와 상기 입력 데이터의 거리를 이용하여 제1 유사성 값을 산출하는 단계;
    상기 입력 데이터를 추가하기 전과 후의 상기 동일 대상의 이력데이터의 표준편차의 차이값을 이용하여 제2 유사성 값을 산출하는 단계; 및
    상기 입력 데이터와 다른 식별자를 갖는 대상의 이력데이터에서 가장 표준편차가 큰 것과 상기 동일 대상의 이력데이터의 표준편차의 차이값을 이용하여 제3 유사성 값을 산출하는 단계 중 적어도 하나의 단계를 포함하고, 상기 적어도 하나의 단계에 의해 산출된 유사성 값을 이용하여 상기 입력 데이터의 이상치 정도를 평가하는 것인 이력데이터의 이상치 평가 방법.
  13. 삭제
  14. 제10항에 있어서, 상기 산출하는 단계는,
    상기 동일 대상의 이력데이터에 대해 각기 산출된 순서를 고려한 동시발생 행렬과 순서를 고려하지 않은 동시발생 행렬을 이용하여 제1 및 제2 호환성 행렬을 산출하는 단계;
    상기 데이터베이스 내 전체 이력데이터에 대해 각기 산출된 순서를 고려한 동시발생 행렬과 순서를 고려하지 않은 동시발생 행렬을 이용하여 제3 및 제4 호환성 행렬을 산출하는 단계;
    상기 제1 및 제2 호환성 행렬로부터 상기 입력 데이터의 이전 데이터와 상기 입력 데이터의 제1 순서유지 호환성 정도값과 제1 순서무관 호환성 정도값을 추출하는 단계; 및
    상기 제3 및 제4 호환성 행렬로부터 상기 입력 데이터의 제2 순서유지 호환성 정도값과 제2 순서무관 호환성 정도값을 추출하는 단계
    을 포함하는 것인 이력데이터의 이상치 평가 방법.
  15. 제14항에 있어서, 상기 추출하는 단계 이후에,
    상기 제1 및 제2 순서유지 호환성 정도값과 상기 제1 및 제2 순서무관 호환성 정도값 중에서 최대값을 상기 입력 데이터의 이상치 정도로 판정하는 단계
    를 더 포함하는 이력데이터의 이상치 평가 방법.
KR1020150027915A 2015-02-27 2015-02-27 이력데이터의 이상치 평가 장치 및 방법 KR101749798B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150027915A KR101749798B1 (ko) 2015-02-27 2015-02-27 이력데이터의 이상치 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150027915A KR101749798B1 (ko) 2015-02-27 2015-02-27 이력데이터의 이상치 평가 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160104946A KR20160104946A (ko) 2016-09-06
KR101749798B1 true KR101749798B1 (ko) 2017-06-22

Family

ID=56945873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150027915A KR101749798B1 (ko) 2015-02-27 2015-02-27 이력데이터의 이상치 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101749798B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125B (zh) * 2016-09-19 2019-12-24 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN117312964B (zh) * 2023-11-29 2024-02-20 安徽三禾一信息科技有限公司 一种智慧火电厂能耗监测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김용기 외 1인, 의료 데이터에서의 데이터 무결성을 고려한 이상치 탐지 기법, 충북대학교 컴퓨터과학과 (2014.10.31.공개)*

Also Published As

Publication number Publication date
KR20160104946A (ko) 2016-09-06

Similar Documents

Publication Publication Date Title
US20210397501A1 (en) System and method for unsupervised prediction of machine failures
CN106104496A (zh) 用于任意时序的不受监督的异常检测
US20160378980A1 (en) Attack detection device, attack detection method, and non-transitory computer readable recording medium recorded with attack detection program
US11119843B2 (en) Verifying application behavior based on distributed tracing
JP2011184121A (ja) 作業内容推定装置及び作業内容推定方法
US20140019215A1 (en) System for assessing procedure compliance level of human operators in nuclear power plants and method thereof
KR101749798B1 (ko) 이력데이터의 이상치 평가 장치 및 방법
US9881045B2 (en) System and method for processing data
JP2019040233A (ja) 信号処理装置、信号処理方法、信号処理プログラム、及びデータ構造
CN111078677B (zh) 数据录入方法及装置
EP3953853A1 (en) Leveraging a collection of training tables to accurately predict errors within a variety of tables
US10069699B2 (en) Monitoring device information analyzing device and method, and non-transitory storage medium storing program
KR101852774B1 (ko) 처방전 인식 오류 보정 방법 및 처방전 인식 오류 보정 시스템
CN109309594B (zh) 通信设备电源故障分析的方法、装置、设备及存储介质
Lu et al. A robust and accurate approach to detect process drifts from event streams
EP3614313A1 (en) Estimating confidence of machine-learning output
CN112100201B (zh) 基于大数据技术的数据监测方法、装置、设备和存储介质
JP2014170269A (ja) 時系列データの異常監視装置、異常監視方法及びプログラム
Santos et al. An empirical study on the influence of context in computing thresholds for Chidamber and Kemerer metrics.
JP6405851B2 (ja) 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
JP2014203332A (ja) 予測誤差評価装置及び方法
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
CN114139853A (zh) 一种基于大数据的钢结构产品清单处理方法和装置
JP6954219B2 (ja) 機械学習装置
CN113992823A (zh) 一种基于多信息源的一二次设备故障智能诊断方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right