KR20230011117A - 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법 - Google Patents

자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법 Download PDF

Info

Publication number
KR20230011117A
KR20230011117A KR1020210091751A KR20210091751A KR20230011117A KR 20230011117 A KR20230011117 A KR 20230011117A KR 1020210091751 A KR1020210091751 A KR 1020210091751A KR 20210091751 A KR20210091751 A KR 20210091751A KR 20230011117 A KR20230011117 A KR 20230011117A
Authority
KR
South Korea
Prior art keywords
data
network
online network
online
anomaly detection
Prior art date
Application number
KR1020210091751A
Other languages
English (en)
Inventor
양지훈
박인준
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020210091751A priority Critical patent/KR20230011117A/ko
Publication of KR20230011117A publication Critical patent/KR20230011117A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 발명은 자기 지도 학습을 기반으로 한 시계열 데이터 이상 탐지 방법 및 시스템에 관한 것이다. 상기 이상 탐지 방법은, (a) 시퀀스 데이터에 대하여 데이터 증강하는 단계; (b) LSTM 인코더 및 LSTM 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하는 단계; (c) 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성하는 단계; (d) 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 얻는 단계; (e) 각 네트워크의 복원 데이터 사이의 오차를 이용하여 온라인 네트워크의 가중치를 업데이트시키는 단계; (f) 상기 온라인 네트워크의 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 단계; 및 (e) 학습이 완료된 온라인 네트워크에 시퀀스 데이터들을 적용하여 오차들을 예측하고, 예측된 오차를 이용하여 이상 탐지를 하는 단계;를 구비한다.

Description

자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법{System for anomaly detection in time series data using self-supervised learning and method thereof}
본 발명은 시계열 데이터의 이상 탐지 시스템 및 그 방법에 관한 것으로서, 더욱 구체적으로는 순환 신경망의 하나인 LSTM을 기반으로 한 오토 인코더 모델로 구성된 온라인 네트워크와 타겟 네트워크를 구성하고, 시계열 데이터를 데이터 증강시키고, 데이터 증강된 데이터들을 이용하여 온라인 네트워크와 타겟 네트워크를 자기 지도 학습하고, 학습이 완료된 온라인 네트워크를 이용하여 시계열 데이터에 대한 이상 탐지를 수행하는 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법에 관한 것이다.
현대 사회의 문명이 점점 고도화됨에 따라 정상적이 아닌 이상 신호의 탐지는 다양한 분야에서 중요한 문제로 떠오르고 있으며, CCTV 비디오 영상 신호 분석 및 감시, 생산라인의 불량 탐지, 신용카드 비정상적 사용 여부의 감지 등의 분야에서 활용되고 있다. 특히 최근에는 기계학습 기법을 활용하여 이상신호를 탐지하고자 하는 연구가 활발해지고 있다.
이상 탐지(Anomaly Detection)는 주어진 샘플 중에서 정상(Normal) 샘플과 비정상(Abnormal) 샘플을 구별해내는 것으로서, 정상 여부를 판별하기 위한 알고리즘이다. 정상과 비정상을 탐지하는 것은 두 개의 클래스를 분류하는 것으로서, 단순하게 이진 분류(Binary Classification)로 생각할 수 있다. 하지만, 이상 탐지의 경우, 실제로 얻을 수 있는 데이터는 비정상(Abnormal) 데이터의 수가 정상(Normal) 데이터의 수보다 매우 적은 경우가 대부분이다. 따라서, 정상 데이터와 비정상 데이터의 비율이 불균형한 경우가 많기 때문에, 이상 탐지는 이진 분류와는 다른 접근 방법이 요구된다.
이상 탐지 방법론으로는 주성분 분석을 활용한 방법, 오토 인코더 기반의 이상 탐지 방법, 기계 학습을 이용한 이상 탐지 방법 등이 제안되고 있다.
일반적인 지도학습의 경우 기술의 발전과 함께 양질의 데이터가 많이 생겨나고 있지만, 이상 탐지 분야에서 주요 고려 대상이 되는 이상(Abnormal) 데이터는 기계 학습을 위하여 충분히 얻기 힘든 경우가 대부분이다. 따라서 데이터 클래스 불균형 문제로 인하여 지도학습 기반의 방법을 적용하기에는 어려움이 따를 수 있다.
한편, 학습용 데이터의 충분한 확보가 어려울 때는 데이터 증강(Data Augmentation)기법을 사용하기도 한다. 데이터 증강은 데이터의 수가 적을 때 데이터에 인위적인 변화를 가하여 새로운 데이터를 추가적으로 얻는 방법을 말한다. 딥 러닝(Deep Learning) 기반의 지도 학습에서 많이 사용되는 이미지 데이터(Image data)는 회전(rotation), 반전(reflection), 이동(translation) 등의 인위적인 변화를 가하여 새로운 데이터를 확보한다. 하지만, 시계열 데이터(Time Series Data)는 회전, 반전, 이동 등과 같은 데이터 증강 기법을 적용하기 어려우므로, 노이즈를 섞어주는 지터링(jittering), 스케일링(Scaling), 보간(interpolation) 등의 방법을 사용하여 새로운 데이터를 확보하게 된다.
하지만, 시계열 데이터 이상탐지 분야에서는 클래스 불균형 문제점이 여전히 존재한다. 시계열 데이터는 각 시퀀스의 속성값들이 중요하여 임의로 변형을 가할 경우 원본 데이터와 다른 특징을 지닐 수 있게 되므로, 파라미터를 조절하여 변형을 가해야 한다. 즉, 일반적인 데이터 증강 기법은 부족한 클래스의 수를 늘리기 위하여 수행되지만, 클래스 불균형이 심한 시계열 데이터 이상 탐지에는 그대로 적용하기 어려운 문제점이 발생하게 되는 것이다.
본 발명에서는, 데이터 클래스 불균형으로 인한 문제점을 극복하기 위하여, 시계열 데이터에 대한 이상탐지를 위하여 자기 지도 학습 기법을 활용한 순환 신경망을 기반으로 한 학습 모델을 제안하고자 한다.
한국등록특허공보 제 10-2091076호 한국공개특허공보 제 10-2018-0076753호 한국공개특허공보 제 10-2020-0097623호 한국등록특허공보 제 10-2226687호
전술한 문제점을 해결하기 위한 본 발명의 목적은, LSTM을 기반으로 한 오토 인코더 모델을 구성하고, 데이터 증강된 시계열 데이터를 학습 데이터로 하여 상기 모델에 자기 지도 학습을 적용함으로써, 시계열 데이터의 이상 탐지를 수행하는 이상 탐지 시스템 및 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터 이상 탐지 방법은, (a) 시퀀스 데이터에 대하여 데이터 증강하는 단계; (b) 인코더 및 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하는 단계; (c) 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성하는 단계; (d) 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 얻는 단계; (e) 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 평균 제곱 오차를 최소화하는 방향으로 온라인 네트워크를 학습시키는 단계; (f) 상기 온라인 네트워크의 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 단계; 및 (g) 학습이 완료된 온라인 네트워크에 시퀀스 데이터들을 적용하여 오차들을 예측하고, 예측된 오차를 이용하여 이상 탐지를 하는 단계;를 구비한다.
전술한 제1 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법에 있어서, 상기 온라인 네트워크 및 상기 타겟 네트워크는 LSTM 층으로 구성된 인코더 및 LSTM층으로 구성된 디코더를 구비하는 LSTM 기반 오토 인코더로 이루어진 것이 바람직하다.
전술한 제1 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법에 있어서, 상기 (e) 단계는, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 상기 오차를 온라인 네트워크의 손실함수로 정의한 뒤, 역전파 알고리즘을 적용하여 손실 함수를 최소화하는 방향으로 온라인 네트워크의 가중치를 업데이트시킴으로써, 온라인 네트워크를 학습시키는 것이 바람직하다.
전술한 제1 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법에 있어서, 상기 (f) 단계는, 이동 평균(Moving Average)을 사용하여, 타겟 네트워크의 가중치에 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시킴으로써, 타겟 네트워크를 학습시키는 것이 바람직하다.
전술한 제1 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법에 있어서, 상기 (a) 단계는, 시퀀스 데이터는 정상 데이터와 비정상 데이터로 나누고, 정상 데이터를 노이즈를 섞는 지터링과 진폭을 조절하는 스케일링을 이용하여 데이터 증강하는 것이 바람직하다.
본 발명의 제2 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템은, 정상 시퀀스 데이터와 비정상 시퀀스 데이터로 이루어진 학습 데이터를 포함하는 데이터베이스 모듈; 상기 학습 데이터를 사전 설정된 알고리즘을 이용하여 데이터 증강시키는 데이터 증강 모듈; 인코더 및 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하고, 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성하는 네트워크 구성 모듈; 상기 온라인 네트워크 및 타겟 네트워크를 학습시키는 학습 모듈; 상기 학습이 완료된 온라인 네트워크를 이용하여, 시퀀스 데이터들에 대한 오차를 예측하고, 예측된 오차를 이용하여 이상 탐지하는 이상 탐지 모듈; 을 구비한다.
전술한 제2 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템에 있어서, 상기 학습 모듈은, 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 획득하고, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 평균 제곱 오차를 최소화하는 방향으로 온라인 네트워크를 학습시키고, 상기 온라인 네트워크의 가중치를 반영하여 타겟 네트워크의 가중치를 학습시키는 것이 바람직하다.
전술한 제2 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템에 있어서, 상기 온라인 네트워크 및 상기 타겟 네트워크는 LSTM 층으로 구성된 인코더 및 LSTM층으로 구성된 디코더를 구비하는 LSTM 기반 오토 인코더로 이루어진 것이 바람직하다.
전술한 제2 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템에 있어서, 상기 학습 모듈이 온라인 네트워크를 학습시키기 위하여, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 상기 오차를 온라인 네트워크의 손실함수로 정의한 뒤, 역전파 알고리즘을 적용하여 손실 함수를 최소화하는 방향으로 온라인 네트워크의 가중치를 업데이트시키는 것이 바람직하다.
전술한 제2 특징에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템에 있어서, 상기 학습 모듈이 타겟 네트워크를 학습시키기 위하여, 이동 평균(Moving Average)을 사용하여, 타겟 네트워크의 가중치에 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 것이 바람직하다.
전술한 구성을 갖는 본 발명에 따른 자기 지도 학습을 기반으로 한 시계열 데이터 이상 탐지 방법은 LSTM으로 구성된 오토 인코더 모델을 사용함으로써, 비정상 데이터 탐지 건수가 증대되고, 재현율도 향상되어, 기존의 다른 비교 모델들에 비해 높은 성능을 가지게 된다.
도 1은 본 발명의 바람직한 실시예에 따른 시계열 데이터에 대한 이상 탐지 방법을 순차적으로 도시한 흐름도이다.
도 2는 본 발명에 따른 이상 탐지 방법에 있어서, (a)는 원본 데이터이며, (b)는 스케일링을 거친 데이터를 예시적으로 도시한 그래프이며, 도 3은 본 발명에 따른 이상 탐지 방법에 있어서, (a)는 원본 데이터이며, (b)는 지터링을 거친 데이터를 예시적으로 도시한 그래프이다.
도 4는 본 발명의 바람직한 실시예에 따른 시계열 데이터에 대한 이상 탐지 방법에 있어서, 자기 지도 학습 기반 LSTM 오토 인코더 모델을 도시한 모식도이다.
도 5는 본 발명에 따른 시계열 데이터에 대한 이상 탐지 방법을 구현한 알고리즘을 도시한 것이다.
도 6은 본 발명의 바람직한 실시예에 따른 자기 지도 학습을 기반으로 한 시계열 데이터의 이상 탐지 시스템을 도시한 블록도이다.
도 7의 (a)는 본 발명에 따른 방법과 종래의 방법들의 성능 비교를 위해 사용한 모델은 도시한 것이며, (b)는 실험에 사용한 프레임 워크 이름과 버전이며, (c)는 모델 학습에 사용된 하이퍼 파라미터이다.
도 8은 종이 제조 공정 데이터에 대한 각 모델별 비정상 데이터 탐지 건수와 재현율(Recall)을 도시한 도표이다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템 및 방법에 대하여 구체적으로 설명한다. 본 발명은 시계열 데이터에 대한 이상 탐지 방법 및 시스템이므로, 순환 신경망(Recurrent Neural Network) 계열 알고리즘 중 LSTM(Long Short Term Memory)을 사용하여 모델을 구성한다.
도 1은 본 발명의 바람직한 실시예에 따른 시계열 데이터에 대한 이상 탐지 방법을 순차적으로 도시한 흐름도이다.
도 1을 참조하면, 본 발명에 따른 이상 탐지 방법은, 학습을 진행하기에 앞서, 학습용 데이터와 임계값을 정하기 위한 데이터, 테스트 데이터를 나눈 뒤 학습용 데이터들 중 정상 데이터만을 증강시키게 된다. 이를 좀 더 구체적으로 설명하면, 변수 시계열 데이터(Multi-variate time series data)를 LSTM 모델을 통해 일정 시퀀스를 반영하기 위하여 2차원 시퀀스 데이터를 3차원 시퀀스 데이터로 변형시키고, 변형된 데이터를 라벨에 따라 비정상 데이터와 정상 데이터로 나눈 뒤 정상 데이터를 노이즈를 섞는 지터링과 진폭을 조절하는 스케일링을 이용하여 확률적으로 데이터 증강을 진행한다(단계 100). 스케일링을 통해 데이터의 진폭을 변화시키며, 지터링을 통해 데이터에 노이즈를 섞게 된다. 도 2는 본 발명에 따른 이상 탐지 방법에 있어서, (a)는 원본 데이터이며, (b)는 스케일링을 거친 데이터를 예시적으로 도시한 그래프이며, 도 3은 본 발명에 따른 이상 탐지 방법에 있어서, (a)는 원본 데이터이며, (b)는 지터링을 거친 데이터를 예시적으로 도시한 그래프이다.
다음, LSTM 층으로 구성된 인코더 및 LSTM 층으로 구성된 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성한다(단계 110). 따라서, 온라인 네트워크는 LSTM층으로 인코더를 구성하고, 이를 통해 잠재 벡터를 추출하고, 추출된 벡터를 다층 퍼셉트론을 거치지 않고 Repeat Vector를 통해 하이퍼 파라미터 타임 스텝에 출력 형태를 맞춰준다. 이를 LSTM층으로 구성된 디코더를 거치면서 원본 데이터와 유사하게 복원하는 작업을 진행한다. 즉, 온라인 네트워크는 입력으로 정상 시퀀스 또는 증강된 정상 시퀀스 데이터가 들어가게 되고, LSTM 기반 오토 인코더를 통해 시퀀스를 다시 복구하게 된다.
다음, 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성한다(단계 120). 도 4는 본 발명의 바람직한 실시예에 따른 시계열 데이터에 대한 이상 탐지 방법에 있어서, 자기 지도 학습 기반 LSTM 오토 인코더 모델을 도시한 모식도이다. 도 4를 참조하면, 본 발명에 따른 모델은 시계열 데이터를 학습시키기 위하여, 인코더와 디코더를 모두 LSTM Layer로 구성되며, 인코더는 32개의 유닛을 가진 LSTM레이어, 16개의 유닛을 가진 LSTM 레이어와 디코더에 넘겨주기 위해 시퀀스로 변형해주는 레이어로 구성된다. N개의 특징값을 갖는 입력 데이터는 타임 스텝을 포함하여 (batch_size *Timestep * N)의 형태를 띠고 있다. 타임 스텝은 LSTM이 동작할 때 과거 시퀀스를 얼마만큼 반영하는지에 대한 하이퍼 파라미터이다. 디코더는 인코더와 대칭 구조로써, 16개의 유닛을 가진 LSTM, 32개의 유닛을 가진 LSTM레이어와 초기 입력 시퀀스 형태로 변형시켜주는 레이어로 구성된다. 이렇게 구성된 LSTM Auto-Encoder는 온라인 네트워크와 타겟 네트워크가 된다.
다음, 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 얻는다(단계 130).
다음, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 평균 제곱 오차(Mean Squared Error)를 최소화하는 방향으로 온라인 네트워크를 학습시킨다(단계 140). 이때, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 상기 오차를 온라인 네트워크의 손실함수로 정의한 뒤, 역전파 알고리즘을 적용하여 손실 함수를 최소화하는 방향으로 온라인 네트워크의 가중치를 업데이트시키게 된다.
다음, 타겟 네트워크는 이동 평균(Moving Average)을 사용하여, 상기 온라인 네트워크의 업데이트된 가중치(θ)를 반영하여 타겟 네트워크의 가중치(ρ)를 수학식 1을 통해 업데이트시킨다(단계 150).
Figure pat00001
여기서, τ는 이동 평균의 상수값으로 하이퍼 파라미터로 정의한다. 즉, τ만큼 기존의 타겟 네트워크의 가중치를 유지하며, (1-τ) 만큼 온라인 네트워크의 가중치를 반영하며 업데이트하게 된다. 도 5는 본 발명에 따른 시계열 데이터에 대한 이상 탐지 방법을 구현한 알고리즘을 도시한 것이다.
다음, 학습이 완료된 온라인 네트워크 모델에 비정상 데이터와 정상 데이터를 사용하여 오차들을 예측하며, 최종적으로 정상 데이터와 비정상 데이터가 혼합된 테스트 데이터 셋을 사용하여 이상 탐지 성능을 평가한다(단계 160). 다음, 학습이 완료된 온라인 네트워크 모델에 시퀀스 데이터들을 적용하여 오차들을 예측하고, 예측된 오차를 이용하여 이상 탐지를 수행한다(단계 170).
도 6은 본 발명의 바람직한 실시예에 따른 자기 지도 학습을 기반으로 한 시계열 데이터의 이상 탐지 시스템을 도시한 블록도이다. 본 발명에 따른 시계열 데이터의 이상 탐지 시스템은, 전술한 이상 탐지 방법을 구현한 것으로서, 컴퓨터 등을 통해 구현될 수 있다. 도 6을 참조하면, 본 발명에 따른 시계열 데이터의 이상 탐지 시스템(60)은, 데이터 베이스 모듈(600), 데이터 증강 모듈(610), 네트워크 구성 모듈(620), 학습 모듈(630), 성능 평가 모듈(640) 및 이상 탐지 모듈(650)을 구비한다.
상기 데이터 베이스 모듈(600)은 정상 시퀀스 데이터와 비정상 시퀀스 데이터로 이루어진 학습 데이터 및 테스트 데이터를 포함한다. 상기 데이터 증강 모듈(610)은 상기 학습 데이터를 사전 설정된 알고리즘을 이용하여 데이터 증강시키게 된다. 상기 네트워크 구성 모듈(620)은 LSTM 층으로 구성된 인코더 및 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하고, 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성한다.
상기 학습 모듈(630)은 온라인 네트워크 및 타겟 네트워크를 학습시키는 모듈로서, 학습 데이터 중 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 획득하고, 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 평균 제곱 오차를 최소화하는 방향으로 온라인 네트워크를 학습시켜 온라인 네트워크의 가중치를 업데이트시키고, 상기 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키게 된다.
상기 성능 평가 모듈(640)은 학습이 완료된 온라인 네트워크 모델에 정상 데이터와 비정상 데이터가 혼합된 테스트 데이터 셋을 사용하여 성능을 평가한다.
상기 이상 탐지 모듈(650) 상기 학습이 완료된 온라인 네트워크를 이용하여, 시퀀스 데이터들에 대한 오차를 예측하고, 예측된 오차를 이용하여 이상 탐지를 수행한다.
전술한 구성을 갖는 본 발명에 따른 자기 지도 학습을 기반으로 한 시계열 데이터 이상 탐지 방법의 성능을 검증하기 위하여, 고전적인 이상 탐지 분야의 Vanila 오토 인코더, 시계열 데이터의 특성을 고려한 LSTM 오토 인코더, 분류 문제로 접근하여 이상을 탐지하는 LSTM, 합성곱 신경막과 자기지도 학습을 활용한 LSTM 오토 인코더를 비교하였다. 도 7의 (a)는 본 발명에 따른 방법과 종래의 방법들의 성능 비교를 위해 사용한 모델은 도시한 것이며, (b)는 실험에 사용한 프레임 워크 이름과 버전이며, (c)는 모델 학습에 사용된 하이퍼 파라미터이다.
실험에 사용된 데이터 셋은 펄프 및 종이 제조 산업 현장에서 얻어진 데이터이다. 이 데이터는 다변수 시계열 데이터로, 매 타임 스텝마다 61개의 센서 데이터 값이 측정되는 데이터이다.
본 발명에서는 비정상 데이터 탐지 건수를 성능 평가 척도로 사용하였다. 도 8은 종이 제조 공정 데이터에 대한 각 모델별 비정상 데이터 탐지 건수와 재현율(Recall)을 도시한 도표이다. 도 8을 참조하면, 어떠한 기법도 사용하지 않은 오토 인코더의 경우, LSTM 오토 인코더보다 낮은 성능을 보이게 되는데, 이는 시계열 데이터의 시간 특성이 반영되지 않았기 때문이다. 시계열 특성을 고려한 LSTM 오토 인코더는 기존의 오토 인코더보다 높은 성능을 보이고 있다. 본 발명에 따른 자기 지도 학습 기반 LSTM 오토 인코더를 사용한 경우, 기존의 LSTM 오토 인코더보다 높은 성능을 보임을 확인할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
60 : 시계열 데이터의 이상 탐지 시스템
600 : 데이터 베이스 모듈
610 : 데이터 증강 모듈
620 : 네트워크 구성 모듈
630 : 학습 모듈
640 : 성능 평가 모듈
650 : 이상 탐지 모듈

Claims (10)

  1. (a) 정상 시퀀스 데이터에 대하여 데이터 증강하는 단계;
    (b) 인코더 및 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하는 단계;
    (c) 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성하는 단계;
    (d) 정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 얻는 단계;
    (e) 온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 오차를 이용하여 온라인 네트워크를 학습시켜 온라인 네트워크의 가중치를 업데이트시키는 단계;
    (f) 상기 온라인 네트워크의 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 단계;
    (g) 학습이 완료된 온라인 네트워크에 시퀀스 데이터들을 적용하여 오차들을 예측하고, 예측된 오차를 이용하여 이상 탐지를 하는 단계;
    를 구비한 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법.
  2. 제1항에 있어서, 상기 온라인 네트워크 및 상기 타겟 네트워크는
    LSTM 층으로 구성된 인코더 및 LSTM층으로 구성된 디코더를 구비하는 LSTM 기반 오토 인코더로 이루어진 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법.
  3. 제1항에 있어서, 상기 (e) 단계는,
    온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 상기 오차를 온라인 네트워크의 손실함수로 정의한 뒤, 역전파 알고리즘을 적용하여 손실 함수를 최소화하는 방향으로 온라인 네트워크를 학습시켜 온라인 네트워크의 가중치를 업데이트시키는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법.
  4. 제1항에 있어서, 상기 (f) 단계는,
    이동 평균(Moving Average)을 사용하여, 타겟 네트워크의 가중치에 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법.
  5. 제1항에 있어서, 상기 (a) 단계는,
    시퀀스 데이터는 정상 데이터와 비정상 데이터로 나누고, 정상 데이터를 노이즈를 섞는 지터링과 진폭을 조절하는 스케일링을 이용하여 데이터 증강하는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 방법.
  6. 정상 시퀀스 데이터와 비정상 시퀀스 데이터로 이루어진 학습 데이터를 포함하는 데이터베이스 모듈;
    상기 학습 데이터를 사전 설정된 알고리즘을 이용하여 데이터 증강시키는 데이터 증강 모듈;
    인코더 및 디코더를 구비하는 오토 인코더로 이루어진 온라인 네트워크를 구성하고, 온라인 네트워크와 동일한 구조로 이루어진 타겟 네트워크를 구성하는 네트워크 구성 모듈;
    상기 온라인 네트워크를 학습시켜 온라인 네트워크의 가중치를 업데이트시키고, 온라인 네트워크의 업데이트된 가중치를 이용하여 타겟 네트워크의 가중치를 업데이트시키는 학습 모듈;
    상기 학습이 완료된 온라인 네트워크를 이용하여, 시퀀스 데이터들에 대한 오차를 예측하고, 예측된 오차를 이용하여 이상 탐지하는 이상 탐지 모듈;
    을 구비하는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템.
  7. 제6항에 있어서, 상기 학습 모듈은,
    정상 시퀀스 데이터 또는 데이터 증강된 정상 시퀀스 데이터를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 온라인 네트워크 및 타겟 네트워크로부터 각각 재구축된 복원 데이터를 획득하고,
    온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 평균 제곱 오차를 최소화하는 방향으로 온라인 네트워크를 학습시켜 온라인 네트워크의 가중치를 업데이트시키고,
    상기 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템.
  8. 제6항에 있어서, 상기 온라인 네트워크 및 상기 타겟 네트워크는
    LSTM 층으로 구성된 인코더 및 LSTM층으로 구성된 디코더를 구비하는 LSTM 기반 오토 인코더로 이루어진 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템. .
  9. 제7항에 있어서, 상기 학습 모듈은,
    온라인 네트워크의 복원 데이터와 타겟 네트워크의 복원 데이터를 비교하여 오차를 구하고, 상기 오차를 온라인 네트워크의 손실함수로 정의한 뒤, 역전파 알고리즘을 적용하여 손실 함수를 최소화하는 방향으로 온라인 네트워크를 학습시켜, 온라인 네트워크의 가중치를 업데이트시키는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템.
  10. 제7항에 있어서, 상기 학습 모듈은,
    이동 평균(Moving Average)을 사용하여, 타겟 네트워크의 가중치에 온라인 네트워크의 업데이트된 가중치를 반영하여 타겟 네트워크의 가중치를 업데이트시키는 것을 특징으로 하는 자기 지도 학습을 기반으로 한 시계열 데이터에 대한 이상 탐지 시스템.
KR1020210091751A 2021-07-13 2021-07-13 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법 KR20230011117A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210091751A KR20230011117A (ko) 2021-07-13 2021-07-13 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210091751A KR20230011117A (ko) 2021-07-13 2021-07-13 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법

Publications (1)

Publication Number Publication Date
KR20230011117A true KR20230011117A (ko) 2023-01-20

Family

ID=85108631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210091751A KR20230011117A (ko) 2021-07-13 2021-07-13 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법

Country Status (1)

Country Link
KR (1) KR20230011117A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102608171B1 (ko) 2023-01-02 2023-11-30 주식회사 두산 인공 지능 기반의 이상 탐지를 위한 장치 및 이를 위한 방법
KR102664948B1 (ko) 2023-01-02 2024-05-10 주식회사 두산 인공 지능 모델에 대한 입력 데이터를 전처리하기 위한 장치 및 이를 위한 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180076753A (ko) 2016-12-28 2018-07-06 주식회사 엘렉시 이상패턴 감지 시스템 및 방법
KR102091076B1 (ko) 2019-04-16 2020-03-20 주식회사 이글루시큐리티 지도학습기반의 경보분석과 비지도학습기반의 이상행위탐지 기법을 혼용한 지능형 보안관제 시스템 및 그 방법
KR20200097623A (ko) 2019-02-08 2020-08-19 서울대학교산학협력단 데이터 센터 내 서비스별 네트워크 자원을 예측하는 방법 및 장치
KR102226687B1 (ko) 2019-11-20 2021-03-11 (주)위세아이텍 딥러닝을 활용한 시계열 예측 기반의 정비 주기 예측 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180076753A (ko) 2016-12-28 2018-07-06 주식회사 엘렉시 이상패턴 감지 시스템 및 방법
KR20200097623A (ko) 2019-02-08 2020-08-19 서울대학교산학협력단 데이터 센터 내 서비스별 네트워크 자원을 예측하는 방법 및 장치
KR102091076B1 (ko) 2019-04-16 2020-03-20 주식회사 이글루시큐리티 지도학습기반의 경보분석과 비지도학습기반의 이상행위탐지 기법을 혼용한 지능형 보안관제 시스템 및 그 방법
KR102226687B1 (ko) 2019-11-20 2021-03-11 (주)위세아이텍 딥러닝을 활용한 시계열 예측 기반의 정비 주기 예측 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102608171B1 (ko) 2023-01-02 2023-11-30 주식회사 두산 인공 지능 기반의 이상 탐지를 위한 장치 및 이를 위한 방법
KR102664948B1 (ko) 2023-01-02 2024-05-10 주식회사 두산 인공 지능 모델에 대한 입력 데이터를 전처리하기 위한 장치 및 이를 위한 방법

Similar Documents

Publication Publication Date Title
Li et al. Anomaly detection with generative adversarial networks for multivariate time series
EP3620990A1 (en) Capturing network dynamics using dynamic graph representation learning
CN109120462B (zh) 机会网络链路的预测方法、装置及可读存储介质
Hallac et al. Network inference via the time-varying graphical lasso
Xu et al. Digital twin-based anomaly detection in cyber-physical systems
KR20230011117A (ko) 자기 지도 학습을 기반으로 한 시계열 데이터의 이상탐지 시스템 및 이상 탐지 방법
Boto‐Giralda et al. Wavelet‐based denoising for traffic volume time series forecasting with self‐organizing neural networks
Bakırcıoğlu et al. Survey of random neural network applications
CN112416643A (zh) 无监督异常检测方法与装置
KR20210087874A (ko) 시편의 기계 학습 기반 결함 검출
US20220108434A1 (en) Deep learning for defect detection in high-reliability components
KR102270202B1 (ko) 설비 모니터링 시스템의 모델 업데이트 방법
Kordos et al. Reducing noise impact on MLP training: Techniques and algorithms to provide noise-robustness in MLP network training
CN112416662A (zh) 多时间序列数据异常检测方法与装置
Polikar et al. Learn++: an incremental learning algorithm for multilayer perceptron networks
US20210271591A1 (en) Mock data generator using generative adversarial networks
CN114385512B (zh) 软件源代码缺陷检测方法及装置
US20230316710A1 (en) Enabling feature importance using siamese autoencoders for effective image change detection
de Carvalho Pagliosa et al. Applying a kernel function on time-dependent data to provide supervised-learning guarantees
KR20220167782A (ko) 비정상 데이터 검출 방법 및 장치
KR102419782B1 (ko) 인공지능 기반의 산업설비 고장예측 모델링 기법과 경보 통합 시스템 및 그 방법
Basterrech et al. Tracking changes using Kullback-Leibler divergence for the continual learning
CN114818864A (zh) 一种基于小样本的手势识别方法
Jiang et al. A timeseries supervised learning framework for fault prediction in chiller systems
CN115392381A (zh) 基于无迹卡尔曼滤波的时间序列异常检测方法