KR102653349B1 - 오토 인코더 기반 이상 데이터 감지 시스템 및 방법 - Google Patents

오토 인코더 기반 이상 데이터 감지 시스템 및 방법 Download PDF

Info

Publication number
KR102653349B1
KR102653349B1 KR1020210067561A KR20210067561A KR102653349B1 KR 102653349 B1 KR102653349 B1 KR 102653349B1 KR 1020210067561 A KR1020210067561 A KR 1020210067561A KR 20210067561 A KR20210067561 A KR 20210067561A KR 102653349 B1 KR102653349 B1 KR 102653349B1
Authority
KR
South Korea
Prior art keywords
error vector
autoencoder
probability distribution
data
observation
Prior art date
Application number
KR1020210067561A
Other languages
English (en)
Other versions
KR20220159672A (ko
Inventor
나규민
윤병동
고진욱
김형민
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210067561A priority Critical patent/KR102653349B1/ko
Publication of KR20220159672A publication Critical patent/KR20220159672A/ko
Application granted granted Critical
Publication of KR102653349B1 publication Critical patent/KR102653349B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템은, 훈련용 데이터를 학습한 오토 인코더 기반 이상 데이터 감지 시스템에 있어서, 상기 오토 인코더의 잠재 공간에서 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출하는 모델 산출부, 상기 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출하는 제1 파라미터 산출부, 상기 오토 인코더에 입력되는 관측용 데이터에 대한 관측용 잠재 변수와 관측용 재구축 오차 벡터가 산출되면, 상기 관측용 잠재 변수, 상기 재구축 오차 벡터, 상기 평균 오차 벡터와, 상기 공분산 오차 벡터를 이용하여 제2 파라미터를 산출하는 제2 파라미터 산출부, 및 상기 제2 파라미터와 기설정된 임계값을 고려하여 상기 관측용 데이터의 이상 여부를 감지하는 이상 감지부를 포함한다.

Description

오토 인코더 기반 이상 데이터 감지 시스템 및 방법{ANORMALY DATA DETECTION APPARATUS AND METHOD BASED ON AUTO ENCODER}
본 발명은 오토 인코더 기반 이상 데이터 감지 시스템 및 방법에 관한 것이다.
일반적으로 인공지능 및 데이터 기반 건전성 관리 기술은 다양한 산업 시스템 분야에서 활용되는 것으로서, 고장 정도를 표현할 수 있는 특성(feature)값이 임계값(threshold)을 넘는 지를 기반으로 산업 시스템 분야에서 활용되는 다양한 데이터의 상태를 진단하고 있다.
종래 인공지능 및 데이터 기반 건전성 관리 기술은, 산업 시스템 분야의 실제 상황에서 고장 데이터가 충분히 확보되지 않은 경우가 빈번하므로, 산업 시스템 분야의 정상 데이터를 기반으로 특성값의 분포를 고려하여 임계값을 산출하고, 이를 기초로 고장 진단을 수행하고 있다.
특히, 종래 인공지능 및 데이터 기반 건전성 관리 기술은 물리적 정보나 도메인 지식(domain knowledge)이 부족한 경우, 오토 인코더(auto encoder) 기반의 알고리즘을 활용하여 재구축 오차(reconstruction error)를 산출한 후 이상 감지(anomaly detection)를 수행하고 있다.
종래 오토 인코더를 활용하여 이상 데이터를 감지하는 시스템은, 정상 상태의 데이터가 많이 확보되어 있는 상황에서 정상 상태의 데이터를 설명할 수 있는 잠재 변수들을 검출하고, 검출된 잠재 변수를 기반으로 데이터를 재구축하는 과정을 수행한다.
그러나, 종래 이상 데이터 감지 시스템은, 시스템 운영 조건을 따르지 않은 채 노이즈가 일정하다는 가정하에 이상 감지의 척도로 사용하기 위해 재구축 오차 및 임계값을 산출하고 있다.
즉, 종래 이상 데이터 감지 시스템은, 재구축 오차와 잠재적 변수 사이의 관계를 고려할 수 없으므로, 소정의 상태에 따라 재구축 오차가 변하는 산업 시스템에서는 실용 가능성이 떨어지는 문제가 있다.
또한, 종래 이상 데이터 감지 시스템은, 잠재 변수의 경계값(boundary)을 고려할 수 없으므로, 비정상 데이터를 정상 데이터로 간주하는 등의 오류를 범할 확률이 높아지는 문제가 있다.
최근에는 딥러닝 알고리즘의 기술 발전을 통해 단순 PCA, kernel-PCA 등의 방법이 아닌 비선형 경향성을 모델링할 수 있다. 이러한 재구축 데이터를 기반으로 원본 데이터와 비교하여 차이를 산출하고, 차이를 거리값으로 환산하며 환산된 거리값을 이상 감지의 척도로 활용하고 있다.
산업 시스템 하에서의 실제 데이터는 운행 조건 등에 따라 오차의 크기가 달라지는 비균질 오차(heterogeneous error) 경향성을 가지고 있다. 예를 들면, 진동 신호의 경우 가우시안 노이즈(Gaussian noise)에 의해 온도가 증가함에 따라 평균값은 일정하나 크기가 점점 커지는 경향성이 있다.
또한, 잠재 공간의 차원이 실제보다 낮은 경우, 특정한 함수 형태를 따르는 설명할 수 없는 오차 영역이 발생한다.
종래의 이상 데이터 감지 방법은, 어떠한 상태에서도 균질한 오차가 발생함을 가정하였기에, 데이터 별 이상 감지에 있어서 동일한 임계값(threshold)이 설정될 경우 데이터 이상을 오감지하는 특정 상황이 발생할 수 있다.
예를 들면, 저온 영역에서 오차의 경향성이 작고, 고온 영역에서 오차의 경향성이 큰 데이터가 주어진 경우, 평균 온도 영역에서의 오차를 기반으로 임계값이 설정되는데, 이 경우 저온 영역에서는 이상 상태의 데이터가 관측되더라도 정상으로 판별하게 되고, 고온 영역에서는 정상 상태의 데이터를 이상으로 판별하는 오류가 발생할 수 있다.
종래에는 재구축 오차의 분포가 모든 사영점에서 일정하게 얻어지는 것을 감안하여 재구축 오차 벡터의 크기만을 활용하여 임계값을 계산하고, 이를 기반으로 데이터의 이상 감지를 수행하였다.
그러나, 실제로 재구축 오차는 오토인코더 시스템의 차원 부족 문제, 운영 조건에 따른 노이즈의 변화가 존재하기 때문에 재구축 오차의 크기만 볼 경우 오감지 확률이 커질 수 있다.
대한민국 공개특허 제10-2020-0123853호
이에 본 발명은 상기한 사정을 감안하여 안출된 것으로, 오토 인코더의 잠재 공간에서 재구축 오차 벡터 분포를 감안하여 조건부 확률 분포 모델을 계산함으로써, 재구축 오차 벡터가 특정 사영점에서 편향 오차(bias error)와, 비균질 오차(heterogeneous error)를 가질 때의 경향성을 반영할 수 있고, 이상 감지의 오감지 확률을 감소시킬 수 있는 오토 인코더 기반 이상 데이터 감지 시스템 및 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템은, 훈련용 데이터를 학습한 오토 인코더 기반 이상 데이터 감지 시스템에 있어서, 상기 오토 인코더의 잠재 공간에서 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출하는 모델 산출부; 상기 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출하는 제1 파라미터 산출부; 상기 오토 인코더에 입력되는 관측용 데이터에 대한 관측용 잠재 변수와 관측용 재구축 오차 벡터가 산출되면, 상기 관측용 잠재 변수, 상기 재구축 오차 벡터, 상기 평균 오차 벡터와, 상기 공분산 오차 벡터를 이용하여 제2 파라미터를 산출하는 제2 파라미터 산출부; 및 상기 제2 파라미터와 기설정된 임계값을 고려하여 상기 관측용 데이터의 이상 여부를 감지하는 이상 감지부;를 포함한다.
상기 훈련용 데이터를 입력하여 상기 오토 인코더를 학습시키는 학습부를 더 포함할 수 있다.
상기 오토 인코더는, 미리 마련된 선형 PCA(Principal Component Analysis) 구조를 통해 상기 훈련용 데이터를 학습하여 잠재 변수와 재구축 오차 벡터를 산출할 수 있다.
상기 모델 산출부는, 미리 마련된 다변수 커널 밀도 추정 알고리즘을 이용하여 상기 오토 인코더의 잠재 공간 내 상기 재구축 오차 벡터의 확률 분포 모델을 산출할 수 있다.
상기 모델 산출부는, 상기 확률 분포 모델을 이용하여 상기 잠재 공간 내 특정 사영점에서의 상기 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출할 수 있다.
상기 제2 파라미터는, 상기 잠재 공간 내 상기 특정 사영점과 상기 관측용 재구축 오차 벡터의 확률 분포 사이의 거리를 나타내는 마하라노비스 거리일 수 있다.
상기 이상 감지부는, 상기 마하라노비스 거리가 상기 임계값 이하인 경우 상기 관측용 데이터의 정상으로 판단하고, 상기 마하라노비스 거리가 상기 임계값을 초과하는 경우 상기 관측용 데이터의 이상 상태로 판단할 수 있다.
상기 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 방법은, 훈련용 데이터를 학습한 오토 인코더 기반 이상 데이터 감지 방법에 있어서, 상기 오토 인코더의 잠재 공간에서 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출하는 조건부 확률 분포 모델 산출 단계; 상기 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출하는 제1 파라미터 산출 단계; 상기 오토 인코더에 관측용 데이터가 입력되는 관측용 데이터 입력 단계; 상기 오토 인코더에 의해 상기 관측용 데이터에 대한 관측용 잠재 변수와 관측용 재구축 오차 벡터가 산출되면, 상기 관측용 잠재 변수, 상기 재구축 오차 벡터, 상기 평균 오차 벡터와, 상기 공분산 오차 벡터를 이용하여 제2 파라미터를 산출하는 제2 파라미터 산출 단계; 및 상기 제2 파라미터와 기설정된 임계값을 고려하여 상기 관측용 데이터의 이상 여부를 감지하는 이상 감지 단계;를 포함한다.
상기 조건부 확률 분포 모델 산출 단계 이전에, 상기 오토 인코더에 훈련용 데이터를 입력하여 상기 오토 인코더를 학습시키는 학습 단계; 및 상기 오토 인코더의 잠재 공간 내 상기 재구축 오차 벡터에 대한 확률 분포 모델을 산출하는 확률 분포 모델 산출 단계;를 더 포함할 수 있다.
상기 조건부 확률 분포 모델 산출 단계는, 상기 확률 분포 모델을 이용하여 상기 잠재 공간 내 특정 사영점에서의 상기 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출할 수 있다.
상기 제2 파라미터는, 상기 잠재 공간 내 상기 특정 사영점과 상기 관측용 재구축 오차 벡터의 확률 분포 사이의 거리를 나타내는 마하라노비스 거리일 수 있다.
상기 이상 감지 단계는, 상기 마하라노비스 거리와 상기 임계값을 비교하는 임계값 비교 단계; 상기 마하라노비스 거리가 상기 임계값 이하인 경우 상기 관측용 데이터의 정상으로 판단하는 정상 데이터 감지 단계: 및 상기 마하라노비스 거리가 상기 임계값을 초과하는 경우 상기 관측용 데이터의 이상 상태로 판단하는 이상 데이터 감지 단계;를 더 포함할 수 있다.
본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템 및 방법에 의하면, 훈련용 데이터의 학습시, 비균질성(heterogeneous)을 가지는 재구축 오차 벡터가 획득되는 상황에서, 오토 인코더의 인코더 부분에서 획득되는 잠재 공간(latent space)과 재구축 오차 벡터 사이의 확률 모델을 생성하고, 관측용 데이터가 입력되는 경우 잠재 공간으로 사영(projection)되는 점과 재구축 오차 벡터에 대한 확률 분포(projected probability distribution)와의 통계적 거리 중 하나인 마하라노비스 거리(Mahalanobis distance)를 계산하여 이상 감지의 척도로 활용함으로써 이상 데이터 감지의 신뢰성이 향상되는 효과가 있다.
또한, 오토 인코더의 PCA(Principal Component Analysis) 알고리즘을 기초로 임계값이 설정됨으로써, 비균질성 노이즈를 가지는 선형 시스템에 적용될 수 있고, 선형 시스템의 이상 감지에 대한 오감지율이 감소되는 효과가 있다.
또한, 각종 산업 시스템의 건전성 모니터링에 활용되는 데이터를 정밀하게 분석하여 산업 시스템의 이상 데이터 감지에 대한 오감지율을 감소시킴으로써 유지보수 비용이 절감되는 효과가 있다.
또한, 레이블 정보가 없는 정상 데이터의 잠재 변수 사이의 함수 관계를 추출할 수 있는 오토 인코더 알고리즘을 기반으로 확률적 이상 진단을 수행하기 때문에, 정상 데이터가 충분히 확보되는 제어 시스템 또는 회전 기계 시스템 등에 적용될 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템의 블록도이다.
도 2는 도 1의 훈련용 데이터로 이용되는 정상 데이터와 이상 데이터의 일 예를 보여주는 도면이다.
도 3은 선형 PCA 구조에 따른 오토 인코더의 데이터 학습 결과의 일 예를 보여주는 도면이다.
도 4는 본 발명의 바람직한 실시예에 따른 조건부 확률 분포 모델을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템에서 산출한 마하라노비스 거리 및 임계값을 보여주는 도면이다.
도 6은 종래 방법에 따른 오토 인코더의 이상 데이터 검출 결과의 일 예를 보여주는 도면이다.
도 7은 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템의 이상 데이터 검출 결과의 일 예를 보여주는 도면이다.
도 8은 도 7의 마하라노비스 거리에 따른 동적 임계값의 일 예를 보여주는 도면이다.
도 9는 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 방법의 순서도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템의 블록도이다.
도 1을 참고하면, 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템(300)은, 제어 시스템 또는 회전 기계 시스템을 포함하는 산업 시스템에서 활용되는 각종 데이터가 이상 징후로 인해 정상 데이터 범위를 벗어나는 경우가 있는데, 이러한 정상 데이터 범위를 벗어나는 이상 상태의 데이터를 감지한다.
오토 인코더 기반 이상 데이터 감지 시스템(300)은 정상 데이터만 이용하는 오토 인코더(100)의 알고리즘을 활용함으로써, 산업 시스템에서 정상 데이터가 부족하여 라벨링(labeling)을 할 수 없더라도 데이터에 대한 이상 감지가 가능하다.
오토 인코더 기반 이상 데이터 감지 시스템(300)은, 학습부(200)에 의해 훈련용 데이터가 학습된 오토 인코더(100)의 잠재 공간(latent space) 내의 특정 사영점에서 재구축 오차 벡터의 확률 분포를 고려하여 조건부 확률 분포 모델을 산출하고, 산출한 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 산출한다. 여기서, 잠재 공간(Latent Space)은 오토 인코더(100)를 구성하는 알고리즘에서 입력 데이터와 출력 데이터를 설명할 수 있는 변수로 이루어진 공간을 나타낸다. 즉, 잠재 공간은 데이터를 구축하는 기본 벡터 스페이스(Vector Space)를 의미한다. 일반적으로 잠재 공간으로 설명할 수 없는 입력 데이터의 부분을 오차(error)라고 정의한다. 오토 인코더 기반 이상 데이터 감지 시스템(100)은 이러한 오차를 기반으로 데이터의 이상 감지를 수행할 수 있다.
또한, 오토 인코더 기반 이상 데이터 감지 시스템(300)은, 오토 인코더(100)에 새로운 데이터가 입력되어, 새로운 데이터에 대한 잠재 변수(이하, 관측용 잠재 변수), 및 오차 벡터(이하, 관측용 오차 벡터)가 출력되면, 관측용 잠재 변수, 관측용 오차 벡터, 잠재 공간 내의 평균 오차 벡터(제1 파라미터), 및 공분산 오차 벡터(제1 파라미터)를 이용하여 마하라노비스 거리(Mahalanobis distance)(제2 파라미터)를 산출하며, 마하라노비스 거리와 기설정된 임계값을 고려하여 관측용 데이터의 이상 여부를 감지하는 것을 특징으로 한다.
오토 인코더 기반 이상 데이터 감지 시스템(300)은, 오토 인코더(100)의 잠재 공간의 사영점에서 재구축 오차 벡터의 확률 분포를 확인함으로써 재구축 오차 벡터의 비균질성 문제와 상관없이 강건하게 데이터의 이상을 감지할 수 있다.
일반적으로 오토 인코더(100)는 자기 지도 학습의 실행 형태에 해당하는 것으로서, 데이터 압축 함수를 구비하는 인코더, 잠재 공간, 및 데이터 압축 해제 함수를 구비하는 디코더를 포함하여 구성될 수 있다. 오토 인코더(100)는 신경망 네트워크에서 출력값과 입력값의 개수가 같은 모델을 말한다.
오토 인코더(100)는 선형 PCA 구조를 통해 인코더와 디코더 시스템이 설계될 수 있다. 오토 인코더(100)는 선형 관계를 가지는 구조로 구성되어 입력 데이터에 대해 충분한 모사가 가능하다.
오토 인코더(100)는 학습부(200)에 의해 훈련용 데이터가 입력되면, 인코더를 통해 훈련용 데이터를 압축한 후 디코더를 통해 압축 데이터의 압축 해제를 수행하고, 이러한 과정에서 잠재 변수를 추출하고 추출된 잠재 변수를 학습할 수 있다.
오토 인코더(100)는 새로운 관측용 데이터가 입력되는 경우, 관측용 데이터를 학습된 데이터와 유사한 데이터로 압축할 수 있다. 이때 오토 인코더(100)는 관측용 데이터의 잠재 변수와 오차 벡터를 산출할 수 있다.
학습부(200)는 훈련용 데이터를 오토 인코더(100)에 입력하여 오토 인코더(100)를 학습시킬 수 있다. 여기서, 훈련용 데이터는 다양한 산업 시스템의 고장 감지에 이용되는 선형 제어 데이터, 비선형 제어 데이터, 진동 데이터, 및 음향 데이터를 포함할 수 있다. 훈련용 데이터는 가시적인 효과를 위해 다차원 관측 데이터 및 잠재 변수로 구성될 수 있다. 훈련용 데이터는 불균질 오차 및 이상 정도를 반영하기 위해 잠재 변수 중 어느 하나가 다른 잠재 변수와 함수 관계에 있는 가우시안 노이즈 형태로 구성될 수 있다.
이하, 오토 인코더 기반 이상 데이터 감지 시스템(300)의 구성 별 기능을 설명한다.
오토 인코더 기반 이상 데이터 감지 시스템(300)은, 모델 산출부(310), 제1 파라미터 산출부(320), 제2 파라미터 산출부(330), 및 이상 감지부(340)를 포함할 수 있다.
모델 산출부(310)는, 학습부(200)에 의해 훈련용 데이터가 학습된 오토 인코더(100)의 잠재 공간(latent space) 내의 재구축 오차 벡터의 확률 분포 모델을 산출할 수 있다. 모델 산출부(310)는 잠재 공간 내에 특정 사영점을 설정할 수 있다. 모델 산출부(310)는 잠재 공간 내의 특정 사영점에서의 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출할 수 있다.
제1 파라미터 산출부(320)는, 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출할 수 있다.
제2 파라미터 산출부(330)는, 오토 인코더(100)에 새로운 관측용 데이터가 입력되어, 관측용 데이터에 대한 잠재 변수(이하, 관측용 잠재 변수), 및 오차 벡터(이하, 관측용 오차 벡터)가 출력되면, 관측용 잠재 변수, 관측용 오차 벡터, 잠재 공간 내의 평균 오차 벡터, 및 공분산 오차 벡터를 이용하여 제2 파라미터를 산출할 수 있다. 제2 파라미터는 잠재 공간 내 특정 사영점과 관측용 재구축 오차 벡터의 확률 분포 사이의 거리를 나타내는 마하라노비스 거리(MD, Mahalanobis distance)일 수 있다.
이상 감지부(340)는 마하라노비스 거리(MD)와 기설정된 임계값을 고려하여 관측용 데이터의 이상 여부를 감지할 수 있다. 이상 감지부(340)는 마하라노비스 거리가 임계값 이하인 경우 관측용 데이터의 정상으로 판단할 수 있다. 이상 감지부(340)는 마하라노비스 거리가 임계값을 초과하는 경우 관측용 데이터의 이상 상태로 판단할 수 있다.
도 2는 도 1의 훈련용 데이터로 이용되는 정상 데이터와 이상 데이터의 일 예를 보여주는 도면이다.
도 2를 참고하면, 정상 데이터(Normal data)는 가시적인 효과를 위해 다차원 관측 데이터 및 잠재 변수로 구성될 수 있다. 이상 데이터(Anomaly data)는 불균질 오차 및 이상(anomaly) 정도를 반영하기 위해 잠재 변수 중 하나가 다른 잠재 변수와 함수 관계에 있는 가우시안 노이즈(Gaussian noise) 형태로 구성될 수 있다. 하기 수학식 1은 훈련용 데이터로 이용되는 정상 데이터와 이상 데이터 각각의 x1, x2 값을 나타낼 수 있다. 훈련용 데이터는 1차원 잠재 변수를 가지는 2차원 데이터일 수 있다.
<수학식 1>
수학식 1에서, x는 관측 변수(입력 변수)를 나타내고, y는 잠재 변수를 나타내고, ε는 이기종 데이터(heterogenous data)에 대한 알고리즘 성능을 보여주기 위해 마련된 것으로서, 잠재 변수에 대한 이기종 오차(heterogenous error)를 나타내고, δ(delta)값은 이상치를 나타내는 임의 설정한 변수로서, x2에만 반영될 수 있다. 일 실시예에 있어서, x2의 크기가 2로 설정될 수 있다. 잠재 변수는 정상 상태에서 균등 분포 U(-5, 5)에 따라 임의로 선택되고, 이상 상태에서 균등 분포 U(-0.5, 0.5)에 따라 임의로 선택될 수 있다. N은 샘플 수를 나타낼 수 있다. 일 실시예에 있어서, 총 샘플 수는 정상 데이터의 경우 10000으로 설정되고, 이상 데이터의 경우 1000으로 설정될 수 있다.
도 3은 선형 PCA 구조에 따른 오토 인코더의 데이터 학습 결과의 일 예를 보여주는 도면이다.
도 3을 참고하면, 선형 PCA(Principal Component Analysis) 구조에 따라 데이터 학습을 수행한 오토 인코더(100)의 정상 데이터(Normal data), 및 이상 데이터(Anomaly data)의 분포를 명확하게 확인할 수 있다. 여기서, 이상 데이터가 임계값(Threshold) 안쪽으로 생성되기 때문에 이상 데이터를 정상 데이터로 오인하는 문제가 발생할 수 있음을 확인할 수 있다. 이는 잠재 변수가 0에 가까운 작은 분산 영역에서 특정 타입의 오류가 높은 확률로 발생할 수 있음을 의미한다.
PCA 재구축 오차, 이상 스코어(anomaly score), 및 임계값(threshold)은 다음 수학식 2와 같이 나타낼 수 있다.
<수학식 2>
수학식 2에서,
Figure 112021060621574-pat00003
는 x1, x2의 i번째 관측 값을 나타낼 수 있다. K는 고유 벡터(eigenvector)만을 활용하는지와 잠재 변수 1을 고려하여 1로 설정될 수 있다. E(X)는 X의 평균을 나타내며, eigs(*)는 고유값 분해(Eigenvalue decomposition)를 나타낼 수 있다. Xp는 잠재 공간 변수를 나타낼 수 있다. U는 균등 분포를 나타내고, 임계값(threshold)은
Figure 112021060621574-pat00004
로 나타낼 수 있다.
도 4는 본 발명의 바람직한 실시예에 따른 조건부 확률 분포 모델을 설명하기 위한 도면이다. 도 4를 참고하면, 특정 사영점에서의 재구축 오차 벡터에 대한 조건부 확률 분포 모델의 개념도를 확인할 수 있다. 오토 인코더(100)의 잠재 공간의 특정 지점에서 오차 확률 분포(Probability distribution of error on certain point of latent space)를 확인할 수 있다. 또한, 오토 인코더(100)의 잠재 공간에 공통 사영점을 가지는 데이터 벡터의 하위 집합(Subset of data vector having common projection point on latent space)을 확인할 수 있다. 또한, 오토 인코더(100)의 가능한 데이터 벡터 범위(Possible range of data vector))를 확인할 수 있다. 오토 인코더(100)의 잠재 공간은 데이터 벡터의 사영점인 잠재 변수로 구성될 수 있다.
오토 인코더 기반 이상 데이터 감지 시스템(300)은 잠재 공간 내 재구축 오차 벡터의 확률 분포 모델을 산출할 수 있다. 또한, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 잠재 공간의 사영점에서의 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 생성할 수 있다.
먼저, 잠재 공간 내 재구축 오차 벡터의 확률 분포 모델은 m-KDE(multivariate kernel density estimation)을 방법을 통해 하기 수학식 3과 같이 산출될 수 있다.
<수학식 3>
수학식 3에서, 는 확률 분포 모델이고, xpe는 (xp, e)이며, 재구축 오류 벡터와 잠재 변수의 연결 벡터로 정의된다. xpe,i는 (xp,i, ei)이며, xpe의 i번째 샘플로 정의된다. 나머지 파라미터 KH(x), Hii, 및 σi는 이미 알려진 Silverman의 경험 법칙(Silverman's rule of thumb)에 따라 적절히 결정될 수 있다.
재구축 오차 벡터는 잠재 공간의 잠재 변수와 공통 사영 특성을 가지는 데이터의 부분 집합에 존재하는 일부 데이터 벡터의 차이로 계산될 수 있다. 원본 데이터 영역이 아닌 잠재 변수에 대한 조건부 확률을 사용함으로써 재구축 오차 벡터가 어떻게 분포되는지 알 수 있다.
재구축 오차 벡터는 원본 데이터 도메인이 아니라 잠재 변수에 대한 조건부 확률을 이용하여 더욱 적절히 표현 가능하게 분포될 수 있다.
재구축 오차 벡터에 대한 조건부 확률 분포 모델은 하기 수학식 4에 따라 산출될 수 있다.
<수학식 4>
이후, 수학식 4에서 계산된 비모수 분포(non-parametric distribution)로 인한 거리 복잡성을 회피하기 위해, 편향되지 않는 평균 벡터와 공분산 매트릭스가 산출되고 이때 가우시안 근사가 사용될 수 있다.
평균 오차 벡터는 수학식 5에 따라 산출되고, 공분산 오차 매트릭스는 수학식 6에 따라 산출될 수 있다.
<수학식 5>
<수학식 6>
새로운 관측용 데이터가 오토 인코더(100)에 입력되는 경우, 새로운 관측용 데이터에 대한 잠재 변수 f(xnew)가 획득될 수 있다.
<수학식 7>
수학식 7에서 마하라노비스 거리(MD)가 정의되고, 새로운 데이터에 대한 잠재 변수는 수학식 5와 수학식 6에서 획득한 평균 오차 벡터와 공분산 오차 매트릭스로 대체될 수 있다.
임계값은 다음 수학식 8과 같이 계산될 수 있다.
<수학식 8>
수학식 8에서,(
Figure 112021060621574-pat00012
)-1은 누적 카이 제곱 분포(cumulative chi-square distribution)를 나타내고, n은 입력 데이터의 차원을 나타내고, pcrt는 조건부 마진(Probability margin)을 나타낸다. pcrt는 0 에서 1 로 제한되며, 일반적으로 0.95 또는 그 이상의 값으로 설정될 수 있다.
도 5는 본 발명의 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템에서 산출한 마하라노비스 거리 및 임계값을 보여주는 도면이다.
도 5의 (a)는 새로운 관측용 데이터 x에 대해 계산된 마하라노비스 거리(MD)의 분포의 일 예를 보여주는 도면이다. 도 5의 (b)는 마하라노비스 거리(MD)가 0 일 때, 곡선이 잠재 공간 영역과 매우 유사한 것을 보여주는 도면이다. 도 5의 (c)는 확률 마진이 0.95일 때의 마하라노비스 거리(MD) 분포와 마진 영역을 보여준다. 도 5의 (d)는 확률 마진이 0.999 일 때의 마하라노비스 거리(MD) 분포와 마진 영역을 보여준다.
도 5의 (b)에서 마하라노비스 거리(MD)의 범위를 벗어난 영역은, 잠재 공간 영역과 매우 유사하지 않으며, 이러한 결과는 훈련용 데이터의 부족 인해 나타날 수 있다. 도 4와 같이 잠재 변수가 근본 대응하는 영역에 국한되기 때문에, 훈련용 데이터가 임의의 영역에 위치할 수 있다. 따라서, 이러한 결과는 관측 데이터의 이상 범위를 보여줄 뿐만 아니라, 잠재 공간의 데이터 불균형도 보여준다.
도 5의 (C)와 (D)에서, 관측된 데이터가 임계값을 초과하면 동일한 색상(예, 노란색)으로 설정될 수 있다. 이러한 결과로로부터 훈련용 데이터에 이종의 오차가 반영되었음을 확인할 수 있다.
도 6은 종래 방법에 따른 오토 인코더의 이상 데이터 검출 결과의 일 예를 보여주는 도면이다.
도 6을 참고하면, 샘플 번호 1 내지 10000이 정상 데이터로 설정되고, 샘플 번호 10001 내지 11000이 이상 데이터로 설정될 수 있다. 재구축 오차의 규범에 기반하는 종래 방법으로는 정상 상태와 이상 상태를 구별할 수 없다.
도 7은 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템의 이상 데이터 검출 결과의 일 예를 보여주는 도면이다.
도 7을 참고하면, 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 시스템(300)은, 잠재 공간의 특정 사영점과 재구축 오차 벡터의 확률 분포를 고려하여 마하라노비스 거리(MD)를 계산하고, 마하라노비스 거리(MD)와 마하라노비스 거리를 기반으로 설정되는 임계값을 기초로 이상 데이터의 감지가 가능하다.
도 8은 도 7의 마하라노비스 거리에 따른 동적 임계값의 일 예를 보여주는 도면이다.
도 8을 참고하면, 샘플 번호 10001 내지 1100에 마하라노비스 거리에 따라 동적으로 변화하는 임계값을 통해 정상 데이터와 이상 데이터에 대해 명확한 분별이 가능한 것을 확인할 수 있다.
도 9는 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 방법의 순서도이다.
도 9를 참고하면, 본 발명의 바람직한 실시예에 따른 오토 인코더 기반 이상 데이터 감지 방법은, 학습 단계(S910), 확률 분포 모델 산출 단계(S920), 조건부 확률 분포 모델 산출 단계(S930), 제1 파라미터 산출 단계(S940), 관측 데이터 입력 단계(S950), 제2 파라미터 산출 단계(S960), 임계값 비교 단계(970), 정상 데이터 감지 단계(980), 및 이상 데이터 감지 단계(S990)를 포함한다.
학습 단계(S910)에서, 학습부(200)는 오토 인코더(100)에 다차원 훈련용 데이터를 입력하여 오토 인코더(100)를 학습시킬 수 있다. 여기서, 오토 인코더(100)는 선형 PCA 구조를 통해 인코더와 디코더 시스템이 설계될 수 있다. 오토 인코더(100)는 선형 관계를 가지는 구조로 구성되어 관측용 데이터에 대해 충분한 모사가 가능하다. 다차원 훈련용 데이터 Rn은 정상 데이터와 이상 데이터를 포함할 수 있다. 여기서, n은 훈련용 데이터의 차원(dimension) 수를 나타낸다.
이때 오토 인코더(100)는 다차원 훈련용 데이터의 학습 과정 중 인코더를 통해 데이터 압축을 수행할 수 있다. 오토 인코더(100)는 인코더 함수f(x)를 이용하여 잠재 변수를 산출할 수 있다. 여기서, f(x): Rn ->Rm 일 수 있다. m은 데이터 차원 수를 나타낸다. m은 n보다 작은 수일 수 있다.
또한, 오토 인코더(100)는 디코더를 통해 데이터 압축 해제를 수행하여 훈련용 데이터와 유사한 재구축 데이터 g(xp): Rm ->Rn 를 산출할 수 있다.
이러한 과정을 통해 오토 인코더(100)는 잠재 공간 내 데이터인 잠재 변수 xp와 재구축 오차 벡터 e를 산출할 수 있다. 재구축 오차 벡터 e는 x - g(f(x))로 나타낼 수 있다. 즉, 재구축 오차 벡터 e는 훈련용 데이터의 변수 x에서 재구축 데이터(g(f(x))를 차감함으로써 산출될 수 있다. 오토 인코더(100)는 상기한 과정을 통해 훈련용 데이터의 학습이 완료될 수 있다.
확률 분포 모델 산출 단계(S920)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 새롭게 검사하게 될 관측용 데이터의 이상 여부를 종래보다 더욱 명확히 감지하기 위해, 재구축 오차 벡터에 대한 별도의 확률 분포 모델을 산출할 수 있다. 오토 인코더 기반 이상 데이터 감지 시스템(300)은 불균질성 반영을 위해 다변수 커널 밀도 추정(m-KDE, multivariate kernel density estimation) 알고리즘을 이용하여 오토 인코더(100)의 잠재 공간 내 재구축 오차 벡터의 확률 분포 모델을 산출할 수 있다. 확률 분포 모델 Fxp,E(xp, e) Rm+n -> R 로 나타낼 수 있다.
조건부 확률 분포 모델 산출 단계(S930)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 잠재 공간 내 특정 사영점에 가까운 데이터 벡터로부터 재구축 오차 벡터를 산출할 수 있다. 오토 인코더 기반 이상 데이터 감지 시스템(300)은 잠재 공간 내 특정 사영점의 재구축 오차 벡터에 대한 조건부 확률 분포 모델을 산출할 수 있다. 조건부 확률 분포 모델은 fE|xp(e|xp)로 나타낼 수 있다.
제1 파라미터 산출 단계(S940)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 매트릭스를 포함하는 제1 파라미터를 산출할 수 있다. 제1 파라미터 산출에는 가중 추정(weighted estimation) 방법이 이용될 수 있다. 평균 오차 벡터는
Figure 112021060621574-pat00013
로 나타낼 수 있다. 공분산 오차 매트릭스는 로 나타낼 수 있다.
관측용 데이터 입력(S950)에서, 오토 인코더(100)에 소정의 산업 시스템으로부터 생성되는 관측용 데이터가 입력될 수 있다. 오토 인코더(100)는 새로운 관측용 데이터가 입력되는 경우, 인코더 및 디코더를 통해 오차 벡터를 산출하고, 인코더를 통해 잠재 공간에서의 표현식인 함수 f(xnew)를 산출할 수 있다.
제2 파라미터 산출 단계(S960)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 관측용 데이터의 이상 여부를 감지하기 위해, 조건에 맞는 평균 오차 벡터 및 공분산 오차 매트릭스를 이용하여 제2 파라미터를 산출할 수 있다. 제2 파라미터는 마하라노비스 거리(MD)를 포함할 수 있다. 이때 오토 인코더 기반 이상 데이터 감지 시스템은 관측용 데이터의 입력에 따라 가변되는 임계값을 산출할 수 있다. 임계값은, 마하라노비스 거리(md)가 카이제곱 분포(chi-square distribution)를 따르기 때문에, 역 카이제곱 분포(inverse chi-square distribution)
Figure 112021060621574-pat00015
에 해당하는 값을 기초로 마련될 수 있다.
관측용 데이터에 대한 잠재 공간에서의 사영점에 따라 평균 오차 벡터와 공분산 오차 매트릭스가 달라진다. 임계값은 마하라노비스 거리를 계산하는 벡터 공간이 달라짐에 따라 동적 임계값(dynamic threshold)일 수 있다.
임계값 비교 단계(970)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 마하라노비스 거리와 임계값을 비교할 수 있다.
정상 데이터 감지 단계(980)에서, 오토 인코더 기반 이상 데이터 감지 시스템(300)은 마하라노비스 거리가 임계값 이하인 경우 관측용 데이터가 정상인 것으로 판단할 수 있다.
이상 데이터 감지 단계(S990)에서, 오토 인코더 기반 이상 데이터 감지 시스템은 마하라노비스 거리가 임계값을 초과하는 경우 관측용 데이터가 이상 상태인 것으로 판단할 수 있다.
오토 인코더 기반 이상 데이터 감지 방법은, 오토 인코더 시스템의 분류기 성능 향상을 위한 파라미터 최적화 기법을 위한 목적 함수 설정에 기여하는 효과가 있다.
오토 인코더 기반 이상 데이터 감지 방법은, 오차 벡터 확률 모델의 균질성 정도를 평가하여(잠재 공간 각 사영점에서의 평균 오차 벡터 및 공분산 오차 매트릭스의 변화 추이 분석) 해당 오토 인코더 시스템의 잠재 공간의 차원 수, 인코더와 디코더 시스템의 적합도, 및 하이퍼 파라미터 최적화에 기여하는 효과가 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.
본 발명에 따른 단계들 및/또는 동작들은 기술분야의 통상의 기술자에 의해 이해될 수 있는 것과 같이, 다른 순서로, 또는 병렬적으로, 또는 다른 에포크(epoch) 등을 위해 다른 실시 예들에서 동시에 일어날 수 있다.
실시 예에 따라서는, 단계들 및/또는 동작들의 일부 또는 전부는 하나 이상의 비-일시적 컴퓨터-판독가능 매체에 저장된 명령, 프로그램, 상호작용 데이터 구조(interactive data structure), 클라이언트 및/또는 서버를 구동하는 하나 이상의 프로세서들을 사용하여 적어도 일부가 구현되거나 또는 수행될 수 있다. 하나 이상의 비-일시적 컴퓨터-판독가능 매체는 예시적으로 소프트웨어, 펌웨어, 하드웨어, 및/또는 그것들의 어떠한 조합일 수 있다. 또한, 본 명세서에서 논의된 "모듈"의 기능은 소프트웨어, 펌웨어, 하드웨어, 및/또는 그것들의 어떠한 조합으로 구현될 수 있다.
100: 오토 인코더
200: 학습부
300: 오토 인코더 기반 이상 데이터 감지 시스템
310: 모델 산출부
320: 제1 파라미터 산출부
330: 제2 파라미터 산출부
340: 이상 감지부

Claims (12)

  1. 훈련용 데이터를 학습한 오토 인코더 기반 이상 데이터 감지 시스템에 있어서,
    상기 오토 인코더의 잠재 공간 내 특정 사영점에서의 재구축 오차 벡터의 확률 분포를 나타내는 조건부 확률 분포 모델을 산출하는 모델 산출부;
    상기 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출하는 제1 파라미터 산출부;
    상기 오토 인코더에 입력되는 관측용 데이터에 대한 관측용 잠재 변수와 관측용 재구축 오차 벡터가 산출되면, 상기 관측용 잠재 변수, 상기 재구축 오차 벡터, 상기 평균 오차 벡터와, 상기 공분산 오차 벡터를 이용하여 제2 파라미터를 산출하는 제2 파라미터 산출부; 및
    상기 제2 파라미터와 기설정된 임계값을 고려하여 상기 관측용 데이터의 이상 여부를 감지하는 이상 감지부;
    를 포함하는 오토 인코더 기반 이상 데이터 감지 시스템.
  2. 제 1 항에 있어서,
    상기 훈련용 데이터를 입력하여 상기 오토 인코더를 학습시키는 학습부를 더 포함하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 시스템.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 모델 산출부는,
    미리 마련된 다변수 커널 밀도 추정 알고리즘을 이용하여 상기 오토 인코더의 잠재 공간 내에 존재하는 상기 재구축 오차 벡터의 확률 분포를 나타내는 확률 분포 모델을 산출하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 시스템.
  5. 제 4 항에 있어서,
    상기 모델 산출부는,
    상기 확률 분포 모델을 이용하여 상기 재구축 오차 벡터에 대한 상기 조건부 확률 분포 모델을 산출하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 시스템.
  6. 제 5 항에 있어서,
    상기 제2 파라미터는,
    상기 잠재 공간 내 상기 특정 사영점과 상기 관측용 재구축 오차 벡터의 확률 분포 사이의 거리를 나타내는 마하라노비스 거리인 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 시스템.
  7. 제 6 항에 있어서,
    상기 이상 감지부는,
    상기 마하라노비스 거리가 상기 임계값 이하인 경우 상기 관측용 데이터의 정상으로 판단하고, 상기 마하라노비스 거리가 상기 임계값을 초과하는 경우 상기 관측용 데이터의 이상 상태로 판단하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 시스템.
  8. 훈련용 데이터를 학습한 오토 인코더 기반 이상 데이터 감지 방법에 있어서,
    상기 오토 인코더의 잠재 공간 내 특정 사영점에서 존재하는 재구축 오차 벡터의 확률 분포를 나타내는 조건부 확률 분포 모델을 산출하는 조건부 확률 분포 모델 산출 단계;
    상기 조건부 확률 분포 모델을 이용하여 평균 오차 벡터와 공분산 오차 벡터를 포함하는 제1 파라미터를 산출하는 제1 파라미터 산출 단계;
    상기 오토 인코더에 관측용 데이터가 입력되는 관측용 데이터 입력 단계;
    상기 오토 인코더에 의해 상기 관측용 데이터에 대한 관측용 잠재 변수와 관측용 재구축 오차 벡터가 산출되면, 상기 관측용 잠재 변수, 상기 재구축 오차 벡터, 상기 평균 오차 벡터와, 상기 공분산 오차 벡터를 이용하여 제2 파라미터를 산출하는 제2 파라미터 산출 단계; 및
    상기 제2 파라미터와 기설정된 임계값을 고려하여 상기 관측용 데이터의 이상 여부를 감지하는 이상 감지 단계;
    를 포함하는 하는 오토 인코더 기반 이상 데이터 감지 방법.
  9. 제 8 항에 있어서,
    상기 조건부 확률 분포 모델 산출 단계 이전에, 상기 오토 인코더에 훈련용 데이터를 입력하여 상기 오토 인코더를 학습시키는 학습 단계; 및
    상기 오토 인코더의 잠재 공간 내에 존재하는 상기 재구축 오차 벡터의 확률 분포를 나타내는 확률 분포 모델을 산출하는 확률 분포 모델 산출 단계;
    를 더 포함하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 방법.
  10. 제 9 항에 있어서,
    상기 조건부 확률 분포 모델 산출 단계는,
    상기 확률 분포 모델을 이용하여 상기 재구축 오차 벡터에 대한 상기 조건부 확률 분포 모델을 산출하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 방법.
  11. 제 10 항에 있어서,
    상기 제2 파라미터는,
    상기 잠재 공간 내 상기 특정 사영점과 상기 관측용 재구축 오차 벡터의 확률 분포 사이의 거리를 나타내는 마하라노비스 거리인 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 방법.
  12. 제 11 항에 있어서,
    상기 이상 감지 단계는,
    상기 마하라노비스 거리와 상기 임계값을 비교하는 임계값 비교 단계;
    상기 마하라노비스 거리가 상기 임계값 이하인 경우 상기 관측용 데이터의 정상으로 판단하는 정상 데이터 감지 단계: 및
    상기 마하라노비스 거리가 상기 임계값을 초과하는 경우 상기 관측용 데이터의 이상 상태로 판단하는 이상 데이터 감지 단계;
    를 더 포함하는 것을 특징으로 하는 오토 인코더 기반 이상 데이터 감지 방법.
KR1020210067561A 2021-05-26 2021-05-26 오토 인코더 기반 이상 데이터 감지 시스템 및 방법 KR102653349B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210067561A KR102653349B1 (ko) 2021-05-26 2021-05-26 오토 인코더 기반 이상 데이터 감지 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210067561A KR102653349B1 (ko) 2021-05-26 2021-05-26 오토 인코더 기반 이상 데이터 감지 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220159672A KR20220159672A (ko) 2022-12-05
KR102653349B1 true KR102653349B1 (ko) 2024-03-29

Family

ID=84392091

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210067561A KR102653349B1 (ko) 2021-05-26 2021-05-26 오토 인코더 기반 이상 데이터 감지 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102653349B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102553692B1 (ko) * 2023-01-16 2023-07-10 정미영 전력구 내 재난위험을 탐지하는 딥러닝 시스템
KR102553690B1 (ko) * 2023-01-16 2023-07-10 정미영 딥러닝을 이용한 송배전 전력구 내 재난위험 탐지 및 자동진압 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009411A (ja) 2018-07-09 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 多次元時系列におけるスパース・ニューラル・ネットワーク・ベース異常検出
WO2020031984A1 (ja) 2018-08-08 2020-02-13 Blue Tag株式会社 部品の検査方法及び検査システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789703B2 (en) 2018-03-19 2020-09-29 Kla-Tencor Corporation Semi-supervised anomaly detection in scanning electron microscope images
KR102198339B1 (ko) * 2018-10-05 2021-01-05 넷마블 주식회사 이상 케이스 탐지 방법 및 장치
KR20210033774A (ko) * 2019-09-19 2021-03-29 삼성전자주식회사 이미지 분석 방법 및 이를 수행하는 전자 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009411A (ja) 2018-07-09 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 多次元時系列におけるスパース・ニューラル・ネットワーク・ベース異常検出
WO2020031984A1 (ja) 2018-08-08 2020-02-13 Blue Tag株式会社 部品の検査方法及び検査システム

Also Published As

Publication number Publication date
KR20220159672A (ko) 2022-12-05

Similar Documents

Publication Publication Date Title
JP7167084B2 (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
US7533070B2 (en) Automatic fault classification for model-based process monitoring
Niu et al. Intelligent condition monitoring and prognostics system based on data-fusion strategy
KR102653349B1 (ko) 오토 인코더 기반 이상 데이터 감지 시스템 및 방법
US20170314961A1 (en) A data analytic engine towards the self-management of complex physical systems
Reidemeister et al. Mining unstructured log files for recurrent fault diagnosis
WO2017087440A1 (en) Anomaly fusion on temporal casuality graphs
JP7044117B2 (ja) モデル学習装置、モデル学習方法、及びプログラム
WO2019160003A1 (ja) モデル学習装置、モデル学習方法、プログラム
KR102416474B1 (ko) 기계학습 기반 고장 진단 장치 및 방법
Luca et al. One-class classification of point patterns of extremes
CN112416662A (zh) 多时间序列数据异常检测方法与装置
Cabrera et al. Echo state network and variational autoencoder for efficient one-class learning on dynamical systems
Chehade et al. Structural degradation modeling framework for sparse data sets with an application on Alzheimer’s disease
KR102419782B1 (ko) 인공지능 기반의 산업설비 고장예측 모델링 기법과 경보 통합 시스템 및 그 방법
Li et al. An adaptive prognostics method based on a new health index via data fusion and diffusion process
CN117114454A (zh) 一种基于Apriori算法的直流套管状态评估方法及系统
Hond et al. Verifying artificial neural network classifier performance using dataset dissimilarity measures
CN117269742A (zh) 一种高海拔环境下断路器健康状态评估方法、装置及介质
US20220004882A1 (en) Learning apparatus, method, program and inference apparatus
US20220253051A1 (en) Method and assistance system for detecting an abnormal behaviour of a device
Anaissi et al. Online tensor-based learning model for structural damage detection
Chen et al. Interpretable fault diagnosis of rolling element bearings with temporal logic neural network
Tembhekar et al. Cross-Domain Applications of MLOps: From Healthcare to Finance
Desforges et al. Fault detection in rotating machinery using kernel-based probability density estimation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant