KR102383675B1 - Anomaly detection system of time-series data - Google Patents

Anomaly detection system of time-series data Download PDF

Info

Publication number
KR102383675B1
KR102383675B1 KR1020200123602A KR20200123602A KR102383675B1 KR 102383675 B1 KR102383675 B1 KR 102383675B1 KR 1020200123602 A KR1020200123602 A KR 1020200123602A KR 20200123602 A KR20200123602 A KR 20200123602A KR 102383675 B1 KR102383675 B1 KR 102383675B1
Authority
KR
South Korea
Prior art keywords
data
module
model
learning
time series
Prior art date
Application number
KR1020200123602A
Other languages
Korean (ko)
Other versions
KR20220040659A (en
Inventor
이성근
Original Assignee
주식회사 비카누스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비카누스 filed Critical 주식회사 비카누스
Priority to KR1020200123602A priority Critical patent/KR102383675B1/en
Publication of KR20220040659A publication Critical patent/KR20220040659A/en
Application granted granted Critical
Publication of KR102383675B1 publication Critical patent/KR102383675B1/en

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

시계열 데이터 이상 진단 시스템이 개시된다. 시계열 데이터를 입력받는 시계열 데이터 입력 모듈; 상기 시계열 데이터 입력 모듈에서 입력받은 시계열 데이터에 대하여 도메인 변환을 수행하는 제2 도메인 변환 모듈; 상기 시계열 데이터에 대한 이상 진단 모델이 미리 저장되는 이상 진단 모델 저장 모듈; 상기 이상 진단 모델 저장 모듈에 미리 저장된 이상 진단 모델을 이용하여 상기 제2 도메인 변환 모듈에서 생성된 변환 도메인 데이터에 대한 이상 진단 연산을 수행하여 이상 여부를 출력하는 이상 진단 연산 모듈을 구성한다. 상술한 시계열 데이터 이상 진단 시스템에 의하면, 시계열 데이터를 도메인 변환 및 특징 추출 후 제조 공정 등에서 이상 진단을 하도록 구성하여 시간 도메인에서의 데이터 특징 분석 과정을 변환 도메인에서 좀 더 쉽게 수행함으로써, 복잡한 공정의 다양한 이상 진단을 용이하게 하고 이상 진단의 정확도를 높이는 효과가 있다.A time series data anomaly diagnosis system is disclosed. a time series data input module for receiving time series data; a second domain transformation module for performing domain transformation on the time series data received from the time series data input module; an abnormality diagnosis model storage module in which an abnormality diagnosis model for the time series data is stored in advance; An abnormality diagnosis operation module for outputting abnormality by performing an abnormality diagnosis operation on the transformed domain data generated in the second domain transformation module by using the abnormality diagnosis model previously stored in the abnormality diagnosis model storage module is configured. According to the time series data anomaly diagnosis system described above, by configuring time series data to diagnose abnormalities in the manufacturing process after domain transformation and feature extraction, the data characteristic analysis process in the time domain is more easily performed in the transformation domain, so that various It is effective in facilitating abnormal diagnosis and increasing the accuracy of abnormal diagnosis.

Description

시계열 데이터 이상 진단 시스템{ANOMALY DETECTION SYSTEM OF TIME-SERIES DATA}Time-series data anomaly diagnosis system {ANOMALY DETECTION SYSTEM OF TIME-SERIES DATA}

본 발명은 시계열 데이터 이상 진단 시스템에 관한 것으로서, 구체적으로는 온도, 습도, 압력, 속도, 유량, 밝기, 네트워크 패킷량, 접속 사용자 수 등 시간 흐름에 따른 값을 갖는 시계열 데이터의 이상(anomaly)을 진단하는 시스템에 관한 것이며, 좀 더 구체적으로는, 시계열 데이터의 단변량 및 다변량 기반의 비지도 학습 모델과 다변량 기반의 지도 학습 모델을 생성하여 시계열 데이터의 이상 상태를 진단하는 시스템에 관한 것이다.the present invention It relates to a time series data anomaly diagnosis system, and specifically, a system for diagnosing anomalies of time series data having values according to time flow, such as temperature, humidity, pressure, speed, flow rate, brightness, network packet amount, and number of connected users , and more specifically, to a system for diagnosing abnormal states of time series data by generating unsupervised learning models based on univariate and multivariate time series data and supervised learning models based on multivariate data.

시간 흐름에 따른 값을 갖는 시계열 데이터를 분석하는 기술은 반도체 공정을 비롯한 제조 공정에서 온도, 습도, 압력, 속도, 유량 등과 같은 센서 데이터를 통해 공정 불량이나 공정에 의한 제품의 이상을 진단하거나, IT 분야에서 네트워크 패킷량, 접속 사용자 수 등을 통해 침입 진단 또는 시스템 과부하 등을 진단할 수 있다. 또한, 일기 예보 등 일상 생활에서도 정상 대비 이상 상태를 진단하는 방법으로 응용될 수 있다. 즉, 시계열 데이터의 진단 및 분석 기술은 다양한 분야에 응용될 수 있다.The technology to analyze time series data with values according to time is used to diagnose process defects or product abnormalities due to processes through sensor data such as temperature, humidity, pressure, speed, flow rate, etc. in the manufacturing process including the semiconductor process, or In the field, intrusion diagnosis or system overload can be diagnosed through the amount of network packets and the number of connected users. In addition, it can be applied as a method of diagnosing an abnormal state compared to normal in daily life such as weather forecasting. That is, the technology for diagnosing and analyzing time series data can be applied to various fields.

이상 상태 데이터를 진단하는 일반적인 방법으로는 도 1에서 보듯이 시계열 데이터의 상/하한 관리선(Upper, Lower Control Limit)을 설정하고 이를 벗어나는 상태를 이상 상태로 판별하는 통계적 품질 관리(Statistical Process Control)가 이용되고 있다.As a general method of diagnosing abnormal state data, as shown in FIG. 1, statistical process control (Statistical Process Control) that sets upper and lower control limits (Upper, Lower Control Limit) of time series data and determines a state that exceeds it as an abnormal state is being used

통계적 품질 관리는 제조 현장에서 흔히 사용되는 방법이지만, 공정이 고도화됨에 따라 상/하한 관리선을 이용하여 공정 데이터의 정상 및 비정상을 판단하기에는 부족함이 많아지고 있는 실정이다.Statistical quality control is a method commonly used in manufacturing sites, but as the process is advanced, it is becoming insufficient to determine normality and abnormality of process data using upper/lower limit control lines.

그래서 도 2와 같이 상/하한 관리선을 조건에 따라 다중으로 설정하여 상/하한 범위를 좁히고 적응적으로 적용하려는 시도도 있지만, 너무 많은 조건 설정으로 인해 시스템이 복잡하게 되는 단점이 있다.Therefore, there is an attempt to narrow the upper/lower limit range by setting multiple upper/lower limit management lines according to conditions as shown in FIG. 2 and apply them adaptively, but there is a disadvantage in that the system becomes complicated due to too many condition settings.

도 2의 방식은 반도체 공정과 같은 품질 관리가 까다로운 공정에서는 한계점을 가질 수밖에 없다.The method of FIG. 2 inevitably has limitations in a process in which quality control is difficult, such as a semiconductor process.

등록특허공보 10-0980603Registered Patent Publication No. 10-0980603 공개특허공보 10-2009-0006437Laid-open Patent Publication 10-2009-0006437

본 발명의 목적은 시계열 데이터 이상 진단 시스템을 제공하는 데 있다.An object of the present invention is to provide a time series data anomaly diagnosis system.

상술한 본 발명의 목적에 따른 시계열 데이터 이상 진단 시스템은, 시계열 데이터를 입력받는 시계열 데이터 입력 모듈; 상기 시계열 데이터 입력 모듈에서 입력받은 시계열 데이터에 대하여 도메인 변환을 수행하는 제2 도메인 변환 모듈; 상기 시계열 데이터에 대한 이상 진단 모델이 미리 저장되는 이상 진단 모델 저장 모듈; 상기 이상 진단 모델 저장 모듈에 미리 저장된 이상 진단 모델을 이용하여 상기 제2 도메인 변환 모듈에서 생성된 변환 도메인 데이터에 대한 이상 진단 연산을 수행하여 이상 여부를 출력하는 이상 진단 연산 모듈을 포함하도록 구성될 수 있다.A time series data abnormality diagnosis system according to the above object of the present invention includes: a time series data input module for receiving time series data; a second domain transformation module for performing domain transformation on the time series data received from the time series data input module; an abnormality diagnosis model storage module in which an abnormality diagnosis model for the time series data is stored in advance; It may be configured to include an abnormality diagnosis operation module for outputting abnormality by performing an abnormality diagnosis operation on the transformation domain data generated by the second domain transformation module using the abnormality diagnosis model stored in advance in the abnormality diagnosis model storage module there is.

여기서, 상기 제2 도메인 변환 모듈은, 상기 시계열 데이터 입력 모듈에서 입력된 시계열 데이터에 대하여 푸리에 변환(Fourier Transform) 또는 웨이블릿 변환(Wavelet Transform)을 수행하여 도메인 변환하도록 구성될 수 있다.Here, the second domain transform module may be configured to domain transform by performing a Fourier transform or a wavelet transform on the time series data input from the time series data input module.

그리고 상기 이상 진단 모델 저장 모듈은, 지도 학습 또는 비지도 학습 방식에 의한 이상 진단 모델이 저장되도록 구성될 수 있다.In addition, the abnormal diagnosis model storage module may be configured to store an abnormality diagnosis model using supervised learning or unsupervised learning.

상술한 시계열 데이터 이상 진단 시스템에 의하면, 시계열 데이터를 도메인 변환 및 특징 추출 후 제조 공정 등에서 이상 진단을 하도록 구성하여 시간 도메인에서의 데이터 특징 분석 과정을 변환 도메인에서 좀 더 쉽게 수행함으로써, 복잡한 공정의 다양한 이상 진단을 용이하게 하고 이상 진단의 정확도를 높이는 효과가 있다.According to the time series data anomaly diagnosis system described above, by configuring time series data to diagnose abnormalities in the manufacturing process after domain transformation and feature extraction, the data characteristic analysis process in the time domain is more easily performed in the transformation domain, so that various It is effective in facilitating abnormal diagnosis and increasing the accuracy of abnormal diagnosis.

특히, 이상 진단 시에 단변량 분석과 다변량 분석을 모두 사용함으로써, 공정관 연관된 진단 정확도를 향상시킬 수 있는 효과가 있다.In particular, by using both univariate analysis and multivariate analysis in diagnosing anomalies, there is an effect of improving the diagnostic accuracy associated with the process.

또한, 비지도 학습과 지도 학습을 단독으로 또는 병행하여 사용하여 이상 진단 모델을 생성하도록 구성됨으로써, 학습 시 고장 또는 이상 상태 데이터가 없더라도 이상 진단 모델을 생성할 수 있는 효과가 있다.In addition, since it is configured to generate an abnormal diagnosis model using unsupervised learning and supervised learning alone or in parallel, there is an effect that an abnormal diagnosis model can be generated even if there is no failure or abnormal state data during learning.

좀 더 구체적으로는, 시계열 데이터의 도메인 변환 전, 후의 시계열 데이터 파형 특성을 반영하는 특징을 추출하고, 이를 기반한 비지도 학습 방식의 단변량 진단 모델 및 및 다변량 기반 비지도 학습 방식의 진단 모델을 생성하며, 종속 변수를 추가하여 지도 학습 방식의 다변량 상관 관계 모델을 생성하여 종합적으로 고장 또는 이상 상태를 진단하여 정확도를 향상시킬 수 있는 효과가 있다.More specifically, a feature that reflects the waveform characteristics of time series data before and after domain transformation of time series data is extracted, and based on this, a univariate diagnostic model of an unsupervised learning method and a diagnostic model of a multivariate-based unsupervised learning method are generated. It has the effect of improving accuracy by comprehensively diagnosing failures or abnormalities by creating a multivariate correlation model of a supervised learning method by adding dependent variables.

따라서 베어링 고장 진단과 같은 독립 변수만 존재하는 경우에는 단변량 및 다변량 진단 모델을 사용할 수 있고, 제조 공정과 같이 독립 변수와 종속 변수가 함께 존재하는 경우에는 위 모든 모델을 사용하여 이상 상태를 진단할 수 있는 효과가 있다.Therefore, when only independent variables such as bearing failure diagnosis exist, univariate and multivariate diagnostic models can be used. can have an effect.

도 1 및 도 2는 상/하한 관리선을 이용한 시계열 데이터의 이상 진단 그래프의 예시도이다.
도 3은 시계열 데이터의 도메인 변환을 이용한 이상 진단 그래프의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 이상 진단 모델을 생성/갱신 후 저장하고, 저장한 모델을 사용하여 이상 진단 연산을 수행하는 과정을 나타내는 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 단변량 및 다변량 변수에 대해 비지도 학습과 지도 학습을 이용하여 이산 진단을 수행하는 블록 구성도이다.
도 6은 본 발명의 일 실시예에 따른 웨이블렛 변환의 모식도이다.
도 7은 본 발명의 일 실시예에 따른 단변량 변수의 특징 벡터 생성과 비지도 학습 방식의 클러스터링을 위한 데이터 생성 과정을 나타내는 표이다.
도 8은 본 발명의 일 실시예에 따른 비지도 학습 기반의 클러스터에서 이상 데이터를 찾아내는 과정을 나타내는 모식도이다.
도 9는 본 발명의 일 실시예에 따른 비지도 학습 기반의 클러스터 특성 대비 변수 특성을 비교하여 이상 상태 유무를 판단하는 모식도이다.
도 10은 본 발명의 일 실시예에 따른 비지도 학습 방식의 다변량 클러스터링을 위한 데이터 생성 과정을 나타내는 표이다.
도 11은 본 발명의 일 실시예에 따른 지도학습 방식의 데이터 생성 과정을 나타내는 표이다.
도 12는 본 발명의 실시예에 따른 모델링 및 이상 진단 과정을 데이터 차원 관점에서 표현한 모식도이다.
도 13은 본 발명의 일 실시예에 따른 진단 모델을 학습하는 과정 및 평가하는 과정, 그리고 진단 모델을 업데이트 과정을 나타내는 모식도이다.
도 14는 본 발명의 실시예에 따른 정상 데이터의 개수가 적을 시 유사 데이터를 생성함으로써 정상 클러스터를 생성하는 과정을 나타내는 모식도이다.
도 15는 본 발명의 실시예에 따른 개수가 적은 정상 데이터의 유사 데이터를 생성한 결과를 나타내는 모식도이다.
도 16은 본 발명의 실시예에 따른 정상 데이터의 학습 과정과 정상, 비정상 데이터가 혼합되었을 경우 분류 과정과 결과를 나타내는 모식도이다.
1 and 2 are exemplary diagrams of an abnormality diagnosis graph of time series data using upper/lower limit management lines.
3 is an exemplary diagram of an abnormality diagnosis graph using domain transformation of time series data.
4 is a block diagram illustrating a process of generating/updating an abnormality diagnosis model, storing it, and performing an abnormality diagnosis operation using the stored model according to an embodiment of the present invention.
5 is a block diagram for performing discrete diagnosis using unsupervised learning and supervised learning on univariate and multivariate variables according to an embodiment of the present invention.
6 is a schematic diagram of a wavelet transform according to an embodiment of the present invention.
7 is a table showing a data generation process for generating a feature vector of a univariate variable and clustering in an unsupervised learning method according to an embodiment of the present invention.
8 is a schematic diagram illustrating a process of finding abnormal data in an unsupervised learning-based cluster according to an embodiment of the present invention.
9 is a schematic diagram for determining whether an abnormal state exists by comparing variable characteristics versus cluster characteristics based on unsupervised learning according to an embodiment of the present invention.
10 is a table showing a data generation process for multivariate clustering in an unsupervised learning method according to an embodiment of the present invention.
11 is a table showing a data generation process of a supervised learning method according to an embodiment of the present invention.
12 is a schematic diagram illustrating the modeling and abnormality diagnosis process according to an embodiment of the present invention from a data dimension point of view.
13 is a schematic diagram illustrating a process of learning and evaluating a diagnostic model, and a process of updating the diagnostic model according to an embodiment of the present invention.
14 is a schematic diagram illustrating a process of generating a normal cluster by generating similar data when the number of normal data is small according to an embodiment of the present invention.
15 is a schematic diagram illustrating a result of generating similar data of a small number of normal data according to an embodiment of the present invention.
16 is a schematic diagram illustrating a learning process of normal data and a classification process and results when normal and abnormal data are mixed according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail in the detailed content for carrying out the invention. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention. In describing each figure, like reference numerals have been used for like elements.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When an element is referred to as being “connected” or “connected” to another element, it is understood that it may be directly connected or connected to the other element, but other elements may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 3은 시계열 데이터의 도메인 변환을 이용한 이상 진단 그래프의 예시도이고, 도 4는 본 발명의 일 실시예에 따른 이상 진단 모델을 생성/갱신 후 저장하고, 저장한 모델을 사용하여 이상 진단 연산을 수행하는 과정을 나타내는 블록 구성도이다. 그리고 도 5는 본 발명의 일 실시예에 따른 단변량 및 다변량 변수에 대해 비지도 학습과 지도 학습을 이용하여 이산 진단을 수행하는 블록 구성도이고, 도 6은 본 발명의 일 실시예에 따른 웨이블렛 변환의 모식도이고, 도 7은 본 발명의 일 실시예에 따른 단변량 변수의 특징 벡터 생성과 비지도 학습 방식의 클러스터링을 위한 데이터 생성 과정을 나타내는 표이고, 도 8은 본 발명의 일 실시예에 따른 비지도 학습 기반의 클러스터에서 이상 데이터를 찾아내는 과정을 나타내는 모식도이고, 도 9는 본 발명의 일 실시예에 따른 비지도 학습 기반의 클러스터 특성 대비 변수 특성을 비교하여 이상 상태 유무를 판단하는 모식도이고, 도 10은 본 발명의 일 실시예에 따른 비지도 학습 방식의 다변량 클러스터링을 위한 데이터 생성 과정을 나타내는 표이고, 도 11은 본 발명의 일 실시예에 따른 지도학습 방식의 데이터 생성 과정을 나타내는 표이고, 도 12는 본 발명의 실시예에 따른 모델링 및 이상 진단 과정을 데이터 차원 관점에서 표현한 모식도이다. 또한, 도 13은 본 발명의 일 실시예에 따른 진단 모델을 학습하는 과정 및 평가하는 과정, 그리고 진단 모델을 업데이트 과정을 나타내는 모식도이고, 도 14는 본 발명의 실시예에 따른 정상 데이터의 개수가 적을 시 유사 데이터를 생성함으로써 정상 클러스터를 생성하는 과정을 나타내는 모식도이고, 도 15는 본 발명의 실시예에 따른 개수가 적은 정상 데이터의 유사 데이터를 생성한 결과를 나타내는 모식도이고, 도 16은 본 발명의 실시예에 따른 정상 데이터의 학습 과정과 정상, 비정상 데이터가 혼합되었을 경우 분류 과정과 결과를 나타내는 모식도이다.3 is an exemplary diagram of an abnormality diagnosis graph using domain transformation of time-series data, and FIG. 4 is an abnormality diagnosis operation generated/updated and stored, and an abnormality diagnosis operation is performed using the stored model according to an embodiment of the present invention. It is a block diagram showing the process to be performed. 5 is a block diagram for performing discrete diagnosis using unsupervised learning and supervised learning on univariate and multivariate variables according to an embodiment of the present invention, and FIG. 6 is a wavelet according to an embodiment of the present invention. 7 is a table showing a data generation process for generating feature vectors of univariate variables and clustering in an unsupervised learning method according to an embodiment of the present invention, and FIG. 8 is an embodiment of the present invention. It is a schematic diagram showing the process of finding abnormal data in an unsupervised learning-based cluster according to , FIG. 10 is a table illustrating a data generation process for multivariate clustering in an unsupervised learning method according to an embodiment of the present invention, and FIG. 11 is a table illustrating a data generation process in a supervised learning method according to an embodiment of the present invention. and FIG. 12 is a schematic diagram expressing the modeling and abnormality diagnosis process according to an embodiment of the present invention from a data dimension point of view. 13 is a schematic diagram illustrating a process for learning a diagnostic model, a process for evaluating a diagnostic model, and a process for updating a diagnostic model according to an embodiment of the present invention, and FIG. Fig. 15 is a schematic diagram showing a process of generating a normal cluster by generating similar data at the time of writing, Fig. 15 is a schematic diagram showing the result of generating similar data of normal data with a small number according to an embodiment of the present invention, Fig. 16 is the present invention It is a schematic diagram showing the learning process of normal data and the classification process and results when normal and abnormal data are mixed according to an embodiment of

먼저 도 3을 참조하면, 본 발명에 따른 시계열 데이터 이상 진단 시스템은 시계열 데이터를 도메인 변환하고 특징을 추출하여 이상 진단을 하도록 구성된다. 도메인 변환은 주로 푸리에 변환(Fourier Transform)이나 웨이블렛 변환(Wavelet Transform)이 주로 사용될 수 있다.First, referring to FIG. 3 , the time-series data anomaly diagnosis system according to the present invention is configured to perform an abnormality diagnosis by domain-converting time-series data and extracting features. As the domain transform, a Fourier transform or a wavelet transform may be mainly used.

도메인 변환 기법은 베어링 이상 진단과 같이 특정 주파수를 갖는 시스템의 이상 진단에 주로 활용될 수 있다. 정상 상태에 없던 진동이 발생할 경우 변환된 도메인에서의 기저(basis) 계수값이 변화하는데 이를 감지하여 진단할 수 있다.The domain conversion technique can be mainly used for diagnosing an abnormality in a system having a specific frequency, such as diagnosing a bearing abnormality. When a vibration that is not in a steady state occurs, the basis coefficient value in the converted domain changes, which can be detected and diagnosed.

예를 들어, 푸리에 도메인에서 새로운 진동은 도 3과 같이 새로운 주파수를 야기하는데, 이를 감지함으로써 이상 진동을 파악할 수 있다.For example, a new vibration in the Fourier domain causes a new frequency as shown in FIG. 3 , and an abnormal vibration can be identified by sensing it.

이러한 변환 도메인에서의 특징 추출을 통한 이상 진단 방식은 도 2의 다중 상/하한 관리선 기반의 이상 진단 방식보다 원 신호의 형태를 더욱 잘 반영할 수 있는 장점이 있다.The abnormality diagnosis method through feature extraction in this transformation domain has the advantage of being able to better reflect the shape of the original signal than the abnormality diagnosis method based on the multiple upper/lower limit management lines of FIG. 2 .

도 4를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 이상 진단 시스템은 시계열 데이터 입력 모듈(100), 학습용 데이터 저장 모듈(200), 제1 도메인 변환 모듈(300), 제1 특징 추출 모듈(400), 이상 진단 모델 생성/갱신 모듈(500), 이상 진단 모델 저장 모듈(600), 제2 도메인 변환 모듈(700), 제2 특징 추출 모듈(800), 이상 진단 연산 모듈(900), 종속 변수 데이터 입력 모듈(1000)을 포함하도록 구성될 수 있다.4 , the time series data abnormality diagnosis system according to an embodiment of the present invention includes a time series data input module 100 , a data storage module for learning 200 , a first domain transformation module 300 , and a first feature extraction module 400 , abnormal diagnosis model generation/update module 500 , abnormal diagnosis model storage module 600 , second domain conversion module 700 , second feature extraction module 800 , abnormal diagnosis operation module 900 , It may be configured to include a dependent variable data input module 1000 .

이하, 세부적인 구성에 대하여 설명한다.Hereinafter, a detailed configuration will be described.

시계열 데이터 입력 모듈(100)은 시계열 데이터를 입력받도록 구성될 수 있다. 시계열 데이터 입력 모듈(100)은 센서 또는 네트워크 장치 등을 통해 제조 공정이나 IT분야의 실시간 시계열 데이터를 수집하거나, 파일 시스템에 미리 저장된 파일을 입력받도록 구성될 수 있다.The time series data input module 100 may be configured to receive time series data. The time series data input module 100 may be configured to collect real-time time series data of a manufacturing process or IT field through a sensor or a network device, or to receive a file stored in advance in a file system.

학습용 데이터 저장 모듈(200)은 시계열 데이터 입력 모듈(100)에서 입력된 시계열 데이터 및 이상 진단 모델 생성/갱신 모듈(500)에서 생성 또는 갱신에 사용된 시계열 데이터를 저장하도록 구성될 수 있다.The learning data storage module 200 may be configured to store time series data input from the time series data input module 100 and time series data used for generation or update in the abnormal diagnosis model generation/update module 500 .

학습용 데이터 저장 모듈(200)은 비지도 학습 또는 지도 학습을 위한 데이터 셋(data set)이 저장되는 구성으로서, 학습 데이터는 시간 또는 사건을 기준으로 데이터 개수를 분할하여 저장될 수 있고, 비지도 학습 또는 지도 학습 시에는 이러한 분할 데이터가 조합되어 학습 데이터로 사용될 수 있다.The learning data storage module 200 is a configuration in which a data set for unsupervised learning or supervised learning is stored, and the learning data may be stored by dividing the number of data based on time or event, and unsupervised learning Alternatively, during supervised learning, the divided data may be combined and used as learning data.

여기서, 학습용 데이터 저장 모듈(200)은 신규 데이터 저장부(201) 및 기존 데이터 저장부(202)를 포함하도록 구성될 수 있다.Here, the learning data storage module 200 may be configured to include a new data storage unit 201 and an existing data storage unit 202 .

신규 데이터 저장부(201)는 시계열 데이터 입력 모듈(100)에서 입력된 시계열 데이터가 신규 학습용 데이터로서 저장되도록 구성될 수 있다.The new data storage unit 201 may be configured to store the time series data input from the time series data input module 100 as new learning data.

기존 데이터 저장부(202)는 이상 진단 모델 생성/갱신 모듈(500)에서 사용된 시계열 데이터가 다음 학습용 데이터로서 저장되도록 구성될 수 있다.The existing data storage unit 202 may be configured such that time series data used in the abnormal diagnosis model generation/update module 500 is stored as data for next learning.

예를 들어, 학습 시에는 이전 학습 모델에 사용된 적이 없는 신규 학습용 데이터 70%와 이전 학습 모델에 사용된 기존 학습용 데이터 30%의 비율을 활용하여 새로운 학습 모델을 지속적으로 생성하고 갱신할 수 있다. 기존 학습용 데이터를 일정 비율로 재사용하는 것은 학습 모델이 급격하게 변동되는 것을 방지하기 위한 것이다.For example, during training, a new learning model can be continuously created and updated using a ratio of 70% of new training data that has not been used in the previous training model and 30% of the existing training data used in the previous training model. Reusing the existing training data at a certain rate is to prevent the training model from changing rapidly.

신규 데이터와 기존 데이터의 비율은 가변될 수 있는데, 이상 진단의 정확도가 급격하게 낮아지는 경우에는 신규 학습용 데이터의 비율을 더 높이도록 피드백 제어할 수 있으며, 이상 진단의 정확도가 완만하게 낮아지는 경우에는 기존 학습용 데이터의 비율을 천천히 높여가도록 피드백 제어할 수도 있다. 즉, 공정에 따라 이상 진단 모델의 정확도를 실시간으로 최적화하도록 구성될 수 있다.The ratio of new data to existing data may be variable. When the accuracy of abnormal diagnosis is sharply lowered, feedback control can be performed to further increase the ratio of new learning data, and when the accuracy of abnormal diagnosis is gradually decreased, It is also possible to control the feedback to slowly increase the ratio of the existing training data. That is, it may be configured to optimize the accuracy of the abnormal diagnosis model in real time according to the process.

제1 도메인 변환 모듈(300)은 학습용 데이터 저장 모듈에서 입력된 시계열 데이터를 도메인 변환하여 도메인 변환된 데이터를 생성하도록 구성될 수 있다.The first domain transformation module 300 may be configured to domain-transform time series data input from the learning data storage module to generate domain-transformed data.

제1 도메인 변환 모듈(300)은 푸리에 변환(Fourier Transform)이나 웨이블렛 변환(Wavelet Transform) 등의 도메인 변환 기법을 이용하여 시계열 데이터를 해당 도메인 데이터로 변환하도록 구성될 수 있다.The first domain transform module 300 may be configured to transform time series data into corresponding domain data using a domain transform technique such as a Fourier transform or a wavelet transform.

도 6은 웨이블렛 변환을 나타내고 있다. 도 6에서 보듯이 변환 과정을 거친 후 시계열 데이터는 Approximation 계수와 Detail 계수로 구성되는데, 이러한 계수값들은 원 신호의 평균적인 경향과 형태뿐만 아니라 세밀한 변화 정보까지 포함한다. 이러한 변환은 원 신호를 로우패스 필터(Low Pass Filter) 및 하이패스 필터(High Pass Filter)에 각각 통과시킨 것과 같은 효과를 갖는다.6 shows a wavelet transform. As shown in FIG. 6 , the time series data after the transformation process is composed of an Approximation coefficient and a Detail coefficient. These coefficient values include not only the average trend and shape of the original signal but also detailed change information. This conversion has the same effect as passing the original signal through a low pass filter and a high pass filter, respectively.

제 1 특징 추출 모듈(400)은 학습용 데이터 저장 모듈(200)에 저장된 원시 시계열 데이터에서 특징을 추출하거나 제1 도메인 변환 모듈(300)에서 생성된 도메인 변환된 데이터를 차원 축소하고, 차원 축소된 데이터로부터 특징 벡터를 생성하도록 구성될 수 있다. 원시 데이터뿐만 아니라 도메인 변환된 데이터도 그 개수가 여전히 커서 학습에 부정적 영향을 미치기 때문에 데이터 개수를 줄이는 방법이 필요하며, 이때 도메인 변환 데이터를 원시 데이터로 복원하는 수준을 의미하는 신호 복원력도 일정 수준 이상이어야 한다.The first feature extraction module 400 extracts features from the raw time series data stored in the learning data storage module 200 or reduces the dimension of the domain-transformed data generated by the first domain transformation module 300, and the dimension-reduced data can be configured to generate a feature vector from Since the number of domain-transformed data as well as raw data is still large and has a negative effect on learning, a method to reduce the number of data is required. should be

일부 연구 논문들은 시계열 데이터 자체 또는 도메인 변환된 계수들을 통계적 요약 값이나 Kurtosis, Skewness, RMS, Crest Factor, Clearance Indicator, Shape Indicator, Impulse Indicator와 같은 신호 형태를 표현하는 지표로 축약, 변환하고 이를 특징 값으로 하여 머신 러닝을 학습하는 것을 개시하고 있다. 그런데, 이러한 지표들은 개수를 결정하는 기준이 모호하고 신호 복원력 또한 낮다. 즉, 원시 신호의 특성을 잘 반영하지 못하는 것을 의미한다.In some research papers, time series data itself or domain-converted coefficients are abbreviated and converted into statistical summary values or indicators expressing signal shapes such as Kurtosis, Skewness, RMS, Crest Factor, Clearance Indicator, Shape Indicator, and Impulse Indicator, and then convert them to feature values. It is started to learn machine learning. However, the criteria for determining the number of these indicators are ambiguous and the signal resilience is also low. That is, it means that the characteristics of the raw signal are not well reflected.

하지만, 미리 주어진 설명력 기준으로 원시 데이터의 차원을 축소하고 이를 다시 복원할 경우, 초기 설정한 설명력 값 수준으로 원시 시계열 데이터가 복원될 수 있다.However, when the dimension of the raw data is reduced based on the explanatory power given in advance and the original data is restored, the raw time series data may be restored to the level of the explanatory power initially set.

데이터의 차원 축소에는 PCA(Principal Component Analysis), LDA(Linear Discriminant Analysis), NMF(Non-negative Matrix Factorization) 등이 이용될 수 있다.Principal component analysis (PCA), linear discriminant analysis (LDA), non-negative matrix factorization (NMF), or the like may be used for dimensionality reduction of data.

도 7은 차원 축소 후의 단변량 변수 관측치로부터 특징 벡터를 생성하는 과정을 나타내는 모식도이다. 차원 축소 후의 단변량 변수 관측치를 특징 벡터로 사용하는 예는, 제 1도메인 변환 모듈(300)에서 생성된 도메인 변환 관측치 데이터들을 PCA를 통해 차원 축소하고, 차원 축소된 관측치별 PCA 스코어 벡터를 특징 벡터로 사용하는 것이 될 수 있다.7 is a schematic diagram illustrating a process of generating a feature vector from observations of a univariate variable after dimensionality reduction. An example of using the observed univariate variable after dimensionality reduction as a feature vector is to dimensionally reduce the domain-transformed observation data generated by the first domain transformation module 300 through PCA, and use the dimensionally-reduced PCA score vector for each observation as a feature vector. can be used as

이상 진단 모델 생성/갱신 모듈(500)은 제1 특징 추출 모듈(400)에서 생성된 특징 벡터를 이용하여 이상 진단 모델을 생성하거나 갱신하도록 구성될 수 있다.The abnormality diagnosis model generation/update module 500 may be configured to generate or update an abnormality diagnosis model by using the feature vector generated by the first feature extraction module 400 .

이상 진단 모델 생성/갱신 모듈(500)은 비지도 학습 또는 지도 학습에 의해 이상 진단 모델을 생성하고 이전의 이상 진단 모델을 갱신하도록 구성될 수 있다.The abnormal diagnosis model creation/update module 500 may be configured to generate an abnormality diagnosis model by unsupervised learning or supervised learning and to update a previous abnormal diagnosis model.

여기서, 이상 진단 모델 생성/갱신 모듈(500)은 비지도 학습 모델링부(500a), 지도 학습 모델링부(500b), 앙상블 모델링부(500c)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.Here, the abnormal diagnosis model generation/update module 500 may be configured to include an unsupervised learning modeling unit 500a, a supervised learning modeling unit 500b, and an ensemble modeling unit 500c. Hereinafter, a detailed configuration will be described.

비지도 학습 모델링부(500a)는 비지도 학습을 이용한 이상 진단 모델을 생성 또는 갱신하도록 구성될 수 있다.The unsupervised learning modeling unit 500a may be configured to generate or update an abnormality diagnosis model using unsupervised learning.

비지도 학습 모델링부(500a)는 도 5에서 보듯이 제 1클러스터 모델링부(501), 다변량 특징 추출부(502), 제 2클러스터 모델링부(503)를 포함하도록 구성될 수 있다.As shown in FIG. 5 , the unsupervised learning modeling unit 500a may be configured to include a first cluster modeling unit 501 , a multivariate feature extraction unit 502 , and a second cluster modeling unit 503 .

지도 학습 모델링부(500b)는 지도 학습을 이용한 이상 진단 모델을 생성 또는 갱신하도록 구성될 수 있다.The supervised learning modeling unit 500b may be configured to generate or update an abnormality diagnosis model using supervised learning.

지도 학습 모델링부(500b)는 도 5에서 보듯이 주요 변수 선택부(504), 상관관계 모델링부(505)를 포함하도록 구성될 수 있다.The supervised learning modeling unit 500b may be configured to include a main variable selection unit 504 and a correlation modeling unit 505 as shown in FIG. 5 .

앙상블 모델링부(500c)는 비지도 학습 모델링부(500a)에서 생성 또는 갱신되는 이상 진단 모델과 지도 학습 모델링부(500b)에서 생성 또는 갱신되는 이상 진단 모델을 각각 가중, 합산하여 이상 진단 모델을 생성 또는 갱신하도록 구성될 수 있다. The ensemble modeling unit 500c generates an abnormality diagnosis model by weighting and summing the abnormal diagnosis model generated or updated by the unsupervised learning modeling unit 500a and the abnormal diagnosis model generated or updated by the supervised learning modeling unit 500b, respectively. Or it may be configured to update.

앙상블 모델링부(500c)는 도 5에서와 같이 제 1가중치 적용부(506), 제 2 가중치 적용부(507), 제 3가중치 적용부(508), 가중 합산 모델링부(509)를 포함하도록 구성될 수 있다.The ensemble modeling unit 500c is configured to include a first weight application unit 506 , a second weight application unit 507 , a third weight application unit 508 , and a weighted sum modeling unit 509 as shown in FIG. 5 . can be

도 5를 참조하여 좀 더 살펴보면, 이상 진단 모델 생성/갱신 모듈(500)은 제 1클러스터 모델링부(501), 다변량 특징 추출부(502), 제 2클러스터 모델링부(503), 주요 변수 선택부(504), 상관관계 모델링부(505), 제 1가중치 적용부(506), 제 2가중치 적용부(507), 제 3가중치 적용부(508), 가중 합산 모델링부(509)를 포함하도록 구성될 수 있다.5, the abnormal diagnosis model generation/update module 500 includes a first cluster modeling unit 501, a multivariate feature extraction unit 502, a second cluster modeling unit 503, and a main variable selection unit. 504 , a correlation modeling unit 505 , a first weight application unit 506 , a second weight application unit 507 , a third weight application unit 508 , and a weighted sum modeling unit 509 . can be

이하, 세부적인 구성에 대하여 설명한다.Hereinafter, a detailed configuration will be described.

제 1클러스터 모델링부(501)는 제 1특징 추출 모듈(400)에서 생성된 단변량 변수의 관측치별 특징 벡터로부터 클러스터를 생성하도록 구성될 수 있고, 도 7은 이 특징 벡터들을 제 1 클러스터 모델링부의 입력값으로 활용하는 예를 보여주는 모식도이다.The first cluster modeling unit 501 may be configured to generate a cluster from the feature vectors for each observation of the univariate variable generated by the first feature extraction module 400, and FIG. 7 shows these feature vectors are used in the first cluster modeling unit. It is a schematic diagram showing an example of using it as an input value.

도 8과 도 9는 제 1클러스터 모델링부(501)에서 비지도 학습 기반으로 학습된 단변량 변수에 대한 클러스터들을 기준으로 이상 데이터를 판별하는 예를 보여주는 도식도이다. 도 9에서 볼 수 있듯이 클러스터의 통계적 특성을 기준하여 입력 데이터의 특성을 계산하여 그 계산 값이 허용치를 벗어나게 되면 이상 데이터로 판별하게 된다. 예를 들어, 각 클러스터들은 중심 벡터를 갖고 있으며 클러스터 내 각 관측치 벡터들과 중심 벡터와의 거리 및 유사도에 관한 평균 및 분산을 클러스터 특성으로 설정할 수 있고, 이 클러스터 특성 대비 신규 관측치와 각 클러스터 중심과의 거리가 크다면 신규 관측치는 클러스터 범위 밖의 데이터라고 간주할 수 있다. 이러한 제 1클러스터 모델은 비지도 학습에 의한 이상 진단 모델로서 이상 진단 연산 모듈(900)의 단변량 변수의 이상 진단에 활용될 수 있다.8 and 9 are schematic diagrams illustrating an example of discriminating abnormal data based on clusters of univariate variables learned based on unsupervised learning by the first cluster modeling unit 501 . As can be seen in FIG. 9 , the characteristics of the input data are calculated based on the statistical characteristics of the cluster, and when the calculated value deviates from the allowable value, it is determined as abnormal data. For example, each cluster has a centroid vector, and the mean and variance regarding the distance and similarity between each observation vector and the centroid vector in the cluster can be set as cluster properties. If the distance of is large, new observations can be regarded as data outside the cluster range. This first cluster model is an abnormality diagnosis model by unsupervised learning and may be utilized for abnormality diagnosis of univariate variables of the abnormality diagnosis operation module 900 .

한편, 온도, 유량, 압력과 같은 각각 개별적인 독립 변수에 대한 이상 진단을 위한 단변량 클러스터 모델뿐만 아니라 여러 독립 변수를 함께 고려하여 이상 진단을 수행하는 다변량 클러스터 모델도 형성될 수 있다. 다변량 클러스터 모델은 각 단변량 특징 또는 각 단변량 클러스터 모델로부터 다변량에 관한 특징을 추출하고 이를 입력값으로 하여 이상 진단을 수행할 수 있다.Meanwhile, not only a univariate cluster model for diagnosing anomalies for each individual independent variable such as temperature, flow rate, and pressure, but also a multivariate cluster model for performing anomaly diagnosis by considering several independent variables together may be formed. The multivariate cluster model can perform anomaly diagnosis by extracting each univariate feature or multivariate feature from each univariate cluster model and using it as an input value.

다변량 특징 추출부(502)는 제 1 특징 추출 모듈(400)에서 생성된 각 단변량 특징 또는 제 1 클러스터 모델링부(501)에서 생성 또는 갱신되는 제 1 클러스터 모델을 이용하여 다변량 특징 데이터를 추출하도록 구성될 수 있다. 다변량 특징 데이터는 제 1클러스터 모델링부(501)에서 생성 또는 갱신되는 제 1클러스터 모델과 각 변수별 관측치와의 관계를 통해 생성될 수 있으며, 클러스터별 평균 벡터와 각 변수별 관측치와의 거리 및 유사도가 그 예가 될 수 있다. 도 10은 다수의 단변량 변수로부터 다변량 특징 데이터를 생성하는 것을 나타내며, 다변량 특징 데이터를 다변량 클러스터를 위한 입력 값으로 형성한 것을 나타내고 있다.The multivariate feature extractor 502 extracts multivariate feature data using each univariate feature generated by the first feature extraction module 400 or a first cluster model generated or updated by the first cluster modeling unit 501 to extract multivariate feature data. can be configured. The multivariate feature data may be generated through the relationship between the first cluster model generated or updated by the first cluster modeling unit 501 and the observation value for each variable, and the distance and similarity between the average vector for each cluster and the observation value for each variable can be an example of that. 10 shows the generation of multivariate feature data from a number of univariate variables, and shows that the multivariate feature data is formed as an input value for a multivariate cluster.

제 2클러스터 모델링부(503)는 다변량 특징 추출부(502)에서 추출된 다변량 특징 데이터를 이용하여 비지도 학습 방식의 제 2클러스터 모델을 생성 또는 갱신하도록 구성될 수 있다. 이러한 제 2클러스터 모델은 비지도 학습에 의한 다변량 클러스터 모델이기 때문에 이상 진단 연산 모듈(900)은 제 2클러스터 모델을 이용하여 다변량에 대한 이상 진단을 수행할 수 있다.The second cluster modeling unit 503 may be configured to generate or update a second cluster model of an unsupervised learning method using the multivariate feature data extracted by the multivariate feature extraction unit 502 . Since the second cluster model is a multivariate cluster model by unsupervised learning, the abnormality diagnosis operation module 900 may perform abnormality diagnosis on multivariate using the second cluster model.

주요 변수 선택부(504)는 다변량 특징 추출부(502)에서 생성된 다변량 특징 데이터에서 지도 학습을 위한 주요 변수를 선택하도록 구성될 수 있다.The main variable selector 504 may be configured to select a main variable for supervised learning from the multivariate feature data generated by the multivariate feature extractor 502 .

상관관계 모델링부(505)는 주요 변수 선택부(504)에서 선택된 독립 변수 데이터와 종속 변수 데이터 입력 모듈(1000)에서 입력 받은 종속 변수 데이터를 이용하여 지도 학습 기반의 상관관계 모델을 생성 또는 갱신하도록 구성될 수 있다.The correlation modeling unit 505 generates or updates a supervised learning-based correlation model using the independent variable data selected by the main variable selection unit 504 and the dependent variable data input from the dependent variable data input module 1000 . can be configured.

종속 변수 데이터 입력 모듈(1000)은 지도 학습을 위한 구성으로서, 독립 변수 데이터에 대한 종속 변수 데이터를 입력받도록 구성될 수 있다. 즉, 각 독립 변수 데이터에 대하여 미리 정해진 종속 변수 데이터를 설정하여 지도 학습을 하기 위한 구성이다.The dependent variable data input module 1000 may be configured to receive dependent variable data for independent variable data as a configuration for supervised learning. That is, it is a configuration for supervised learning by setting predetermined dependent variable data for each independent variable data.

도 11은 각 관측치에 대한 종속 변수를 매칭하고 이에 대한 상관관계 분석을 하는 것을 나타내고 있다. 종속 변수의 예로서 제조 공정의 공정 결과값이 있을 수 있으며, 반도체 공정을 예로 들 경우 독립 변수는 공급되는 가스의 압력, 유량, 온도 등이 될 수 있고 종속 변수는 반도체의 증착막 두께, 선폭 등이 될 수 있다. 이러한 상관관계 모델은 지도 학습에 기반한 이상 진단 모델로서, 이상 진단 연산 모델(900)의 이상 진단에 이용될 수 있다.11 shows that the dependent variable for each observation is matched and correlation analysis is performed thereon. As an example of the dependent variable, there may be a process result value of a manufacturing process. In the case of a semiconductor process, the independent variable may be the pressure, flow rate, temperature of the gas supplied, and the dependent variable is the thickness of the semiconductor deposition film, line width, etc. can be This correlation model is an abnormality diagnosis model based on supervised learning, and may be used for abnormal diagnosis of the abnormality diagnosis calculation model 900 .

제1 가중치 적용부(506)는 제1 클러스터 모델링부(501)에서 생성 또는 갱신된 제1 클러스터 모델에 대하여 제1 가중치를 적용하도록 구성될 수 있다.The first weight application unit 506 may be configured to apply a first weight to the first cluster model generated or updated by the first cluster modeling unit 501 .

제2 가중치 적용부(507)는 제2 클러스터 모델링부(503)에서 생성 또는 갱신된 제2 클러스터 모델에 대하여 제2 가중치를 적용하도록 구성될 수 있다.The second weight application unit 507 may be configured to apply a second weight to the second cluster model generated or updated by the second cluster modeling unit 503 .

제3 가중치 적용부(508)는 상관관계 모델링부(505)에서 생성 또는 갱신된 상관관계 모델에 대하여 제3 가중치를 적용하도록 구성될 수 있다.The third weight application unit 508 may be configured to apply a third weight to the correlation model generated or updated by the correlation modeling unit 505 .

가중 합산 모델링부(509)는 제1 가중치 적용부(506)에서 제1 가중치가 적용된 제1 클러스터 모델, 제2 가중치 적용부(507)에서 제2 가중치가 적용된 제2 클러스터 모델, 제3 가중치 적용부(508)에서 제3 가중치가 적용된 제3 클러스터 모델을 합산하여 앙상블 모델을 생성 또는 갱신하도록 구성될 수 있다.The weighted sum modeling unit 509 applies the first cluster model to which the first weight is applied in the first weight application unit 506 , the second cluster model to which the second weight is applied in the second weight application unit 507 , and the third weight is applied. The unit 508 may be configured to generate or update the ensemble model by summing the third cluster model to which the third weight is applied.

도 12는 비지도 학습 기반의 모델과 지도 학습 기반의 모델을 기반으로 가중치를 적용한 앙상블 모델을 적용한 프로세스를 나타내며 데이터 차원의 관점에서 표시되어 있다. 이러한 앙상블 모델은 이상 진단 연산 모듈(900)의 이상 진단에 이용될 수 있다.12 shows a process in which an unsupervised learning-based model and an ensemble model in which weights are applied based on a supervised learning-based model are applied, and is displayed in terms of a data dimension. Such an ensemble model may be used for abnormal diagnosis of the abnormality diagnosis operation module 900 .

도 13은 진단 모델을 학습하는 과정과 평가하는 과정, 그리고 모델을 업데이트하는 과정을 나타낸 도식도이다. 센서로부터 획득하는 시계열 데이터인 경우 시간이 지남에 따라 센서 열화등으로 인해 입력 데이터의 값이 변하는 현상이 발생한다. 따라서, 정상 데이터이지만 정상 클러스터 대비 아웃라이어로 판정되는 경우가 시간이 지남에 따라 빈번히 발생하게 되고, 이러한 경우 진단 모델의 업데이트가 필요하다. 하지만, 신규로 발생하는 정상인 아웃라이어 데이터들은 그 수가 적어 모델 업데이트 시 학습이 잘 수행되지 않는다. 13 is a schematic diagram illustrating a process of learning and evaluating a diagnostic model, and a process of updating the model. In the case of time series data obtained from a sensor, a phenomenon occurs in which the value of the input data changes due to deterioration of the sensor over time. Accordingly, cases in which normal data is determined to be an outlier compared to a normal cluster occur frequently over time, and in this case, an update of the diagnostic model is required. However, the number of newly generated normal outlier data is small, so learning is not performed well when the model is updated.

도 14는 상태는 정상이지만 아웃라이어, 즉 이상 상태로 판정된 데이터들의 유사데이터를 생성하여 그 개수를 늘리는 과정을 나타내는 모식도이며, 본 발명에서는 이상 상태로 판정된 데이터들의 개수를 늘린 후 모델 업데이트를 수행함으로써 모델 성능을 향상시킨다. 데이터 개수를 늘리는 방법으로서는 SMOTE(Synthetic Minority Oversampling Technique), ADASYN(Adaptive Synthetic Sampling) 등의 기법이 있다.14 is a schematic diagram illustrating a process of increasing the number of similar data by generating outliers, that is, data determined to be in an abnormal state, although the state is normal, and in the present invention, after increasing the number of data determined in an abnormal state, model update By doing so, we improve the model performance. As a method of increasing the number of data, there are techniques such as SMOTE (Synthetic Minority Oversampling Technique) and ADASYN (Adaptive Synthetic Sampling).

도 15는 개수가 적은 정상 데이터의 유사 데이터를 생성한 결과를 나타내고, 도 16은 정상 데이터의 학습 과정과 정상, 비정상 데이터가 혼합되었을 경우 분류 과정과 결과를 나타내고 있다.15 shows a result of generating similar data of a small number of normal data, and FIG. 16 shows a learning process of normal data and a classification process and result when normal and abnormal data are mixed.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although it has been described with reference to the above embodiments, those skilled in the art can understand that various modifications and changes can be made to the present invention without departing from the spirit and scope of the present invention as set forth in the following claims. There will be.

100: 시계열 데이터 입력 모듈
200: 학습용 데이터 저장 모듈
201: 신규 데이터 저장부
202: 기존 데이터 저장부
300: 제1 도메인 변환 모듈
400: 제1 특징 추출 모듈
500: 이상 진단 모델 생성/갱신 모듈
500a: 비지도 학습 모델링부
500b: 지도 학습 모델링부
500c: 앙상블 모델링부
501: 제1 클러스터 모델링부
502: 다변량 특징 추출부
503: 제2 클러스터 모델링부
504: 주요 변수 선택부
505: 상관관계 모델링부
506: 제1 가중치 적용부
507: 제2 가중치 적용부
508: 제3 가중치 적용부
509: 가중 합산 모델링부
600: 이상 진단 모델 저장 모듈
700: 제2 도메인 변환 모듈
800: 제2 특징 추출 모듈
900: 이상 진단 연산 모듈
1000: 종속 변수 데이터 입력 모듈
100: time series data input module
200: data storage module for training
201: new data storage unit
202: existing data storage unit
300: first domain conversion module
400: first feature extraction module
500: Anomaly diagnosis model creation/update module
500a: Unsupervised Learning Modeling Unit
500b: Supervised Learning Modeling Unit
500c: Ensemble Modeling Department
501: first cluster modeling unit
502: multivariate feature extraction unit
503: second cluster modeling unit
504: key variable selection part
505: correlation modeling unit
506: first weight application unit
507: second weight application unit
508: third weight application unit
509: weighted summation modeling unit
600: error diagnosis model storage module
700: second domain conversion module
800: second feature extraction module
900: error diagnosis operation module
1000: dependent variable data entry module

Claims (3)

시계열 데이터를 입력받는 시계열 데이터 입력 모듈;
상기 시계열 데이터가 비지도 학습 또는 지도 학습을 이용하여 이상 진단 모델을 생성 및 갱신하기 위한 학습 데이터로서 저장되는 학습용 데이터 저장 모듈;
상기 학습용 데이터 저장 모듈에 저장된 학습용 데이터에 대하여 도메인 변환을 하는 제1 도메인 변환 모듈;
상기 제1 도메인 변환 모듈에서 도메인 변환된 학습용 데이터에 대하여 특징 벡터를 추출하는 제1 특징 추출 모듈;
상기 시계열 데이터 입력 모듈에서 입력받은 시계열 데이터에 대하여 도메인 변환을 수행하는 제2 도메인 변환 모듈;
상기 제2 도메인 변환 모듈에서 도메인 변환된 학습용 데이터에 대하여 특징 벡터를 추출하는 제2 특징 추출 모듈;
상기 제 1 특징 추출 모듈에서 추출된 특징 벡터를 학습하여 이상 진단 모델을 생성 또는 갱신하는 이상 진단 모델 생성 및 갱신 모듈;
상기 이상 진단 모델 생성 및 갱신 모델에서 생성 또는 갱신된 이상 진단 모델이 저장되는 이상 진단 모델 저장 모듈;
상기 이상 진단 모델 저장 모듈에 저장된 이상 진단 진단 모델을 이용하여 상기 제 2 특징 추출 모듈에서 생성된 특징 데이터에 대한 이상 진단 연산을 수행하여 이상 여부를 출력하는 이상 진단 연산 모듈;
지도 학습을 위하여 독립 변수 데이터인 상기 시계열 데이터에 대한 종속 변수 데이터를 입력받는 종속 변수 데이터 입력 모듈을 포함하고,
상기 제1 특징 추출 모듈은,
상기 제1 도메인 변환 모듈에서 도메인 변환된 학습용 데이터 중에서, 단변량 변수의 학습용 데이터에 대해서는 학습용 데이터를 차원 축소하고 차원 축소된 주축 벡터들의 스코어 값을 이용하여 단변량 특징 벡터를 생성하고, 다변량 변수의 학습 데이터에 대해서는 상기 생성된 단변량 변수의 특징 벡터와 해당 클러스터와의 관계를 각 변수 별로 생성하고, 생성된 결과를 취합하여 다변량 특징 데이터를 생성하고,
상기 제2 특징 추출 모듈은,
상기 제2 도메인 변환 모듈에서 도메인 변환된 학습용 데이터 중에서, 단변량 변수의 학습용 데이터에 대해서는 학습용 데이터를 차원 축소하고 차원 축소된 주축 벡터들의 스코어 값을 이용하여 단변량 특징 벡터를 생성하고, 다변량 변수의 학습 데이터에 대해서는 상기 생성된 단변량 변수의 특징 벡터와 해당 클러스터와의 관계를 각 변수 별로 생성하고, 생성된 결과를 취합하여 다변량 특징 데이터를 생성하고,
상기 학습 데이터 저장 모듈은,
상기 시계열 데이터 입력 모듈에서 입력된 시계열 데이터가 신규 학습용 데이터로서 저장되는 신규 데이터 저장부;
상기 이상 진단 모델 저장 모듈에 저장된 시계열 데이터가 기존 학습용 데이터로서 저장되는 기존 데이터 저장부를 포함하도록 구성되고,
상기 이상 진단 모델 생성/갱신 모듈은,
비지도 학습을 이용한 이상 진단 모델을 생성 또는 갱신하는 비지도 학습 모델링부;
지도 학습을 이용한 이상 진단 모델을 생성 또는 갱신하는 지도 학습 모델링부;
상기 비지도 학습 모델링부에서 생성 또는 갱신되는 이상 진단 모델 및 상기 지도 학습 모델링부에서 생성 또는 갱신되는 이상 진단 모델을 각각 가중 합산하여 이상 진단 모델을 생성 또는 갱신하는 앙상블 모델링부를 포함하도록 구성되는 것을 특징으로 하는 시계열 데이터 이상 진단 시스템.
a time series data input module for receiving time series data;
a learning data storage module in which the time series data is stored as learning data for generating and updating an abnormality diagnosis model using unsupervised learning or supervised learning;
a first domain transformation module that performs domain transformation on the learning data stored in the learning data storage module;
a first feature extraction module for extracting a feature vector from the domain-transformed learning data in the first domain transformation module;
a second domain transformation module for performing domain transformation on the time series data received from the time series data input module;
a second feature extraction module for extracting a feature vector from the domain-transformed learning data in the second domain transformation module;
an abnormality diagnosis model generation and update module for generating or updating an abnormality diagnosis model by learning the feature vector extracted by the first feature extraction module;
an abnormality diagnosis model storage module for storing an abnormality diagnosis model generated or updated in the abnormal diagnosis model generation and update model;
an abnormality diagnosis operation module for outputting abnormality by performing an abnormality diagnosis operation on the feature data generated by the second feature extraction module using the abnormality diagnosis diagnosis model stored in the abnormality diagnosis model storage module;
A dependent variable data input module for receiving dependent variable data for the time series data, which is independent variable data, for supervised learning;
The first feature extraction module,
Among the training data transformed by the domain in the first domain transformation module, for the training data of the univariate variable, the training data is dimensionally reduced, and a univariate feature vector is generated using the score values of the dimensionally reduced principal axis vectors, and For the training data, the relationship between the generated feature vector of the univariate variable and the corresponding cluster is generated for each variable, and multivariate feature data is generated by collecting the generated results,
The second feature extraction module,
Among the training data domain-transformed in the second domain transformation module, for the training data of the univariate variable, the training data is dimensionally reduced, and a univariate feature vector is generated using the score values of the dimension-reduced principal axis vectors, and For the training data, the relationship between the generated feature vector of the univariate variable and the corresponding cluster is generated for each variable, and multivariate feature data is generated by collecting the generated results,
The learning data storage module,
a new data storage unit storing the time series data input from the time series data input module as new learning data;
The time series data stored in the abnormal diagnosis model storage module is configured to include an existing data storage unit that is stored as data for existing learning,
The abnormal diagnosis model creation/update module is
an unsupervised learning modeling unit for generating or updating an abnormal diagnosis model using unsupervised learning;
a supervised learning modeling unit for generating or updating an abnormal diagnosis model using supervised learning;
and an ensemble modeling unit for generating or updating an abnormality diagnosis model by weighted summing the abnormal diagnosis model generated or updated by the unsupervised learning modeling unit and the abnormal diagnosis model generated or updated by the supervised learning modeling unit, respectively Time series data anomaly diagnosis system.
제1항에 있어서,
상기 비지도 학습 모델링부는,
상기 제1 특징 추출 모듈에서 생성된 단변량 변수의 특징 벡터로부터 제1 클러스터를 생성하는 제1 클러스터 모델링부;
상기 제1 특징 추출 모듈에서 생성된 각 단변량 변수의 특징 벡터 또는 상기 제1 클러스터 모델링부에서 생성 또는 갱신되는 제1 클러스터 모델을 이용하여 다변량 특징 데이터를 추출하는 다변량 특징 추출부;
상기 다변량 특징 추출부에서 추출된 다변량 특징 데이터를 이용하여 비지도 학습 방식의 제2 클러스터 모델을 생성 또는 갱신하는 제2 클러스터 모델링부를 포함하도록 구성되고,
상기 지도 학습 모델링부는,
상기 다변량 특징 추출부에서 추출된 다변량 특징 데이터에서 지도 학습을 위한 독립 변수 데이터를 선택하는 주요 변수 선택부;
상기 주요 변수 선택부에서 선택된 독립 변수 데이터와 상기 종속 변수 데이터 입력 모듈에서 입력받은 종속 변수 데이터를 이용하여 지도 학습 기반의 상관관계 모델을 생성 또는 갱신하는 상관관계 모델링부를 포함하도록 구성되고,
상기 앙상블 모델링부는,
상기 제1 클러스터 모델링부에서 생성 또는 갱신된 제1 클러스터 모델에 대하여 제1 가중치를 적용하는 제1가중치 적용부;
상기 제2 클러스터 모델링부에서 생성 또는 갱신된 제2 클러스터 모델에 대하여 제2 가중치를 적용하는 제2 가중치 적용부;
상기 상관관계 모델링부에서 생성 또는 갱신된 상관관계 모델에 대하여 제3 가중치를 적용하는 제3 가중치 적용부;
상기 제1 가중치 적용부에서 제1 가중치가 적용된 제1 클러스터 모델, 상기 제2 가중치 적용부에서 제2 가중치가 적용된 제2 클러스터 모델, 상기 제3 가중치 적용부에서 제3 가중치가 적용된 상관관계 모델을 합산하여 앙상블 모델을 생성 또는 갱신하는 가중 합산 모델링부를 포함하도록 구성되는 것을 특징으로 하는 시계열 데이터 이상 진단 시스템.
According to claim 1,
The unsupervised learning modeling unit,
a first cluster modeling unit for generating a first cluster from the feature vector of the univariate variable generated by the first feature extraction module;
a multivariate feature extracting unit for extracting multivariate feature data using a feature vector of each univariate variable generated by the first feature extracting module or a first cluster model generated or updated by the first cluster modeling unit;
and a second cluster modeling unit for generating or updating a second cluster model of an unsupervised learning method using the multivariate feature data extracted by the multivariate feature extraction unit;
The supervised learning modeling unit,
a main variable selection unit for selecting independent variable data for supervised learning from the multivariate feature data extracted by the multivariate feature extraction unit;
and a correlation modeling unit for generating or updating a supervised learning-based correlation model using the independent variable data selected by the main variable selection unit and the dependent variable data input from the dependent variable data input module,
The ensemble modeling unit,
a first weight application unit for applying a first weight to the first cluster model generated or updated by the first cluster modeling unit;
a second weight application unit for applying a second weight to the second cluster model generated or updated by the second cluster modeling unit;
a third weight application unit for applying a third weight to the correlation model generated or updated by the correlation modeling unit;
a first cluster model to which a first weight is applied by the first weight application unit, a second cluster model to which a second weight is applied by the second weight application unit, and a correlation model to which a third weight is applied by the third weight application unit Time-series data anomaly diagnosis system, characterized in that it comprises a weighted summation modeling unit for generating or updating the ensemble model by summing.
삭제delete
KR1020200123602A 2020-09-24 2020-09-24 Anomaly detection system of time-series data KR102383675B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200123602A KR102383675B1 (en) 2020-09-24 2020-09-24 Anomaly detection system of time-series data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200123602A KR102383675B1 (en) 2020-09-24 2020-09-24 Anomaly detection system of time-series data

Publications (2)

Publication Number Publication Date
KR20220040659A KR20220040659A (en) 2022-03-31
KR102383675B1 true KR102383675B1 (en) 2022-04-06

Family

ID=80934815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200123602A KR102383675B1 (en) 2020-09-24 2020-09-24 Anomaly detection system of time-series data

Country Status (1)

Country Link
KR (1) KR102383675B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102570576B1 (en) * 2021-04-07 2023-08-25 엘아이지넥스원 주식회사 Method and apparatus for diagnosing error using unsupervised learning and supervised learning
CN116304604B (en) * 2023-05-12 2023-08-18 合肥工业大学 Multivariate time series data anomaly detection and model training method and system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090006437A (en) 2007-07-11 2009-01-15 삼성전자주식회사 Process maintenance method of semiconductor manufacturing equipment
KR100980603B1 (en) 2008-01-28 2010-09-07 재단법인서울대학교산학협력재단 Fault detection method using sequential one class classifier chain
KR102472134B1 (en) * 2018-03-29 2022-11-29 삼성전자주식회사 Equipment diagnosis system and method based on deep learning

Also Published As

Publication number Publication date
KR20220040659A (en) 2022-03-31

Similar Documents

Publication Publication Date Title
Song et al. Wind turbine health state monitoring based on a Bayesian data-driven approach
KR101955305B1 (en) Gas turbine sensor failure detection utilizing a sparse coding methodology
US8370108B2 (en) Diagnostic device
JP5284503B2 (en) Diagnostic system and method for predictive condition monitoring
US20160110655A1 (en) System of Sequential Kernel Regression Modeling for Forecasting and Prognostics
US20130060524A1 (en) Machine Anomaly Detection and Diagnosis Incorporating Operational Data
US20110191076A1 (en) Error detection method and system
US20020013664A1 (en) Rotating equipment diagnostic system and adaptive controller
KR102383675B1 (en) Anomaly detection system of time-series data
Nikolai et al. Feature extraction for time series classification using univariate descriptive statistics and dynamic time warping in a manufacturing environment
Amruthnath et al. Factor analysis in fault diagnostics using random forest
Saucedo-Espinosa et al. Detection of defective embedded bearings by sound analysis: a machine learning approach
CN114819315A (en) Bearing degradation trend prediction method based on multi-parameter fusion health factor and time convolution neural network
CN113052302B (en) Machine health monitoring method and device based on cyclic neural network and terminal equipment
Ribeiro et al. Rotating machinery fault diagnosis using similarity-based models
JP7330754B2 (en) Abnormality diagnosis device and method
US20230161653A1 (en) Method of managing system health
Feng et al. Temporal local correntropy representation for fault diagnosis of machines
Li Remaining useful life prediction of bearings using fuzzy multimodal extreme learning regression
KR102486463B1 (en) Method and Apparatus for Real Time Fault Detection Using Time series data According to Degradation
Baek et al. Abnormal vibration detection in the bearing-shaft system via semi-supervised classification of accelerometer signal patterns
CN115081514A (en) Industrial equipment fault identification method under data imbalance condition
TW201913255A (en) Method for detecting and diagnosing an abnormal process
Gelman et al. Novel anomaly detection technique based on the nearest neighbour and sequential methods
Singh et al. Predicting the remaining useful life of ball bearing under dynamic loading using supervised learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right