KR20180081437A - Outlier detecting method, device and system using the method - Google Patents

Outlier detecting method, device and system using the method Download PDF

Info

Publication number
KR20180081437A
KR20180081437A KR1020170120618A KR20170120618A KR20180081437A KR 20180081437 A KR20180081437 A KR 20180081437A KR 1020170120618 A KR1020170120618 A KR 1020170120618A KR 20170120618 A KR20170120618 A KR 20170120618A KR 20180081437 A KR20180081437 A KR 20180081437A
Authority
KR
South Korea
Prior art keywords
data
value
outlier
newly acquired
learning
Prior art date
Application number
KR1020170120618A
Other languages
Korean (ko)
Other versions
KR101977214B1 (en
Inventor
이기천
이운섭
류민호
임태훈
이상곤
Original Assignee
(주) 다봄소프트
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 다봄소프트, 한양대학교 산학협력단 filed Critical (주) 다봄소프트
Publication of KR20180081437A publication Critical patent/KR20180081437A/en
Application granted granted Critical
Publication of KR101977214B1 publication Critical patent/KR101977214B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

The present invention relates to an outlier detecting method and a device and system using the same that are capable of determining whether data newly acquired is an outlier by using a change value and a residual value of the data newly acquired. According to the present invention, the outlier detecting method includes the steps of: acquiring change value data and residual value data on learning data having a reference size; determining whether data newly acquired is an outlier by using the change value data and the residual value data acquired and a change value and a residual value of the data newly acquired; and substituting the data determined as the outlier with a regression value based on the last n data values of the learning data, wherein n is a natural number.

Description

이상치 탐지 방법, 이를 이용하는 장치 및 시스템{OUTLIER DETECTING METHOD, DEVICE AND SYSTEM USING THE METHOD}TECHNICAL FIELD [0001] The present invention relates to an outlier detection method, an apparatus and a system using the outlier detection method,

본 발명의 기술적 사상은 이상치 탐지 방법, 이를 이용하는 장치 및 시스템에 관한 것으로, 보다 상세하게는 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단할 수 있는 이상치 탐지 방법, 이를 이용하는 장치 및 시스템에 관한 것이다.The present invention relates to an outlier detection method and an apparatus and a system using the outlier detection method. More particularly, the present invention relates to an outlier detection method, and more particularly, And an apparatus and a system using the same.

GESD(Generalized Extreme studentized deviate) 모델은 통계분포를 이용한 이상치 탐지 알고리즘이다. GESD 모델에서 ‘주어진 데이터 셋에 이상치가 없다’는 것이 귀무가설로 주어지며, ‘최대 r개까지 이상치가 존재한다’는 것이 대립가설로 주어진다. GESD 모델에서는 데이터가 정규분포를 따른다는 가정 하에, 통계량으로 r개의 데이터 값을 사용하게 된다.The generalized extreme studentized deviate (GESD) model is an outlier detection algorithm using statistical distribution. In the GESD model, a null hypothesis is given that there is no anomaly in a given dataset, and the opposite hypothesis is given that there are up to r anomalies. The GESD model uses r data values as a statistic, assuming that the data follows a normal distribution.

기상, 금융, 공장 등 이상치 탐지가 필요한 여러 산업에서 GESD 모델이 사용되고 있다. 하지만, 최근 대부분의 GESD 모델을 활용하는 이상치 탐지 모형들은 데이터가 시간에 따른 추세나 계절성을 갖는 등의 특수 상황에서 예측 정확도가 떨어진다.The GESD model is used in many industries that require detection of extreme values, such as weather, finance, and factories. However, most of the recent extreme value detection models that use GESD models have poor prediction accuracy in special situations such as data trend or seasonality.

본 발명의 기술적 사상에 따른 이상치 탐지 방법, 이를 이용하는 장치 및 시스템이 이루고자 하는 기술적 과제는, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단할 수 있는 이상치 탐지 방법, 이를 이용하는 장치 및 시스템을 제공하는 데 있다.Technical Solution According to an aspect of the present invention, there is provided an outlier detection method, an apparatus and a system using the outlier detection method. The outcome detection method includes a step of determining whether the newly acquired data corresponds to an outlier And an apparatus and a system using the method.

본 발명의 기술적 사상에 의한 일 양태에 따른 이상치 탐지 방법은 기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하는 단계, 획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 단계 및 이상치로 판단된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 단계를 포함할 수 있다.According to an aspect of the present invention, there is provided an outlier detection method, comprising: obtaining change value data and residual value data for learning data of a reference size; calculating the difference value data and the residual value data Determining whether the newly acquired data corresponds to an outlier by using a change value and a residual value of newly acquired data and comparing the data determined as an outlier with the last n and n is a natural number) of the plurality of data values.

예시적인 실시예에 따르면, 상기 변화값 데이터는, 시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값과 상기 타겟 데이터 값의 인접한 이전 데이터 값의 차이를 계산함으로써 획득될 수 있다.According to an exemplary embodiment, the change value data is obtained by calculating a difference between a target data value and an adjacent previous data value of the target data value, for each of the data values contained in the training data collected in a time series .

예시적인 실시예에 따르면, 상기 변화값 데이터는, 시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값과 상기 타겟 데이터 값과 인접하지 않은 이전 데이터 값의 차이를 계산함으로써 획득될 수 있다.According to an exemplary embodiment, the change value data is obtained by calculating a difference between a target data value and a previous data value that is not adjacent to the target data value, for each of the data values included in the learning data collected in a time series ≪ / RTI >

예시적인 실시예에 따르면, 상기 잔차값 데이터는, 시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값에 인접한 복수의 이전 데이터 값들에 기초한 회귀값과 상기 타겟 데이터 값의 차이를 계산함으로써 획득될 수 있다.According to an exemplary embodiment, the residual value data includes, for each of the data values included in the learning data collected in a time series, a regression value based on a plurality of previous data values adjacent to the target data value and a difference . ≪ / RTI >

예시적인 실시예에 따르면, 상기 타겟 데이터 값에 인접한 복수의 이전 데이터 값들의 개수는, 사용자 설정 또는 데이터 변화추세에 따라 결정될 수 있다.According to an exemplary embodiment, the number of the plurality of previous data values adjacent to the target data value may be determined according to a user setting or a data change trend.

예시적인 실시예에 따르면, 상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 판단하는 단계는, 상기 새로 획득한 데이터에 대한 변화값이 이상치에 해당하는 경우 또는 상기 새로 획득한 데이터에 대한 잔차값이 이상치에 해당하는 경우에 상기 새로 획득한 데이터를 이상치로 판단할 수 있다.According to an exemplary embodiment of the present invention, the step of determining whether the newly acquired data corresponds to an outlier may include determining whether a change value for the newly acquired data corresponds to an outlier, And if it is an outlier, the newly acquired data can be determined as an outlier.

예시적인 실시예에 따르면, 상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 탐지하는 단계는, ESD(Extreme Studentized Deviate) 테스트 또는 GESD(Generalized ESD) 테스트를 통하여 상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 탐지할 수 있다.According to an exemplary embodiment, the step of detecting whether the newly acquired data corresponds to an outlier may include determining whether the newly acquired data corresponds to an outlier through an Extreme Studentized Deviate (ESD) test or a Generalized ESD (GESD) test Can be detected.

예시적인 실시예에 따르면, 상기 새로 획득한 데이터는, 실시간 또는 비실시간으로 획득될 수 있다.According to an exemplary embodiment, the newly acquired data can be acquired in real time or non real time.

예시적인 실시예에 따르면, 상기 이상치 탐지 방법은, 사용자 설정 또는 데이터 변화추세에 따라, 상기 학습 데이터의 상기 기준 크기를 변경하는 단계를 더 포함할 수 있다.According to an exemplary embodiment, the outlier detection method may further include changing the reference size of the learning data according to a user setting or a data change trend.

예시적인 실시예에 따르면, 상기 기준 크기를 변경하는 단계에 따라 상기 기준 크기가 증가한 경우, 상기 학습 데이터의 기존 데이터 값들을 그대로 유지한 상태로 상기 회귀값으로 치환된 데이터를 상기 학습 데이터에 포함시킬 수 있다.According to an exemplary embodiment, when the reference size is increased according to the step of changing the reference size, data that is replaced with the regression value while keeping the existing data values of the learning data may be included in the learning data have.

본 발명의 기술적 사상에 의한 일 양태에 따른 이상치 탐지 장치는 기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하고, 획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 이상치 판단기 및 이상치로 탐지된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 학습 데이터 업데이터를 포함할 수 있다.According to an aspect of the present invention, there is provided an apparatus for detecting an abnormal value, the apparatus comprising: an acquisition unit configured to acquire variation value data and residual value data for learning data of a reference size, An outlier determining unit that determines whether the newly acquired data corresponds to an outlier using the change value and the residual value of the newly acquired data, And a learning data updater that replaces the n data with a regression value based on a plurality of data values of n).

예시적인 실시예에 따르면, 상기 이상치 판단기는, 상기 새로 획득한 데이터에 대한 변화값이 이상치에 해당하는 경우 또는 상기 새로 획득한 데이터에 대한 잔차값이 이상치에 해당하는 경우에 상기 새로 획득한 데이터를 이상치로 판단할 수 있다.According to an exemplary embodiment, when the change value for the newly acquired data corresponds to an outlier, or when the residual value for the newly acquired data corresponds to an outliers, It can be judged to be outliers.

예시적인 실시예에 따르면, 상기 이상치 탐지 장치는 사용자 설정 또는 데이터 변화추세에 따라, 상기 학습 데이터의 상기 기준 크기를 변경하는 학습 데이터 크기 제어기를 더 포함할 수 있다.According to an exemplary embodiment, the outlier detection apparatus may further include a learning data size controller for changing the reference size of the learning data according to a user setting or a data change trend.

예시적인 실시예에 따르면, 상기 이상치 탐지 장치는 상기 이상치 판단기의 판단 결과에 기초하여, 상기 이상치 탐지 장치가 새로 획득한 데이터를 제공한 장치의 장애상황을 판단하는 장애 판단기를 더 포함할 수 있다. According to an exemplary embodiment, the outlier detection apparatus may further include a failure determination unit that determines a failure status of the apparatus that provided the data newly acquired by the outlier detection apparatus, based on the determination result of the outlier determination unit .

본 발명의 기술적 사상에 의한 일 양태에 따른 이상치 탐지 시스템은 서버 및 상기 서버로부터 제공된 데이터에 기초하여, 상기 데이터에 포함된 이상치를 탐지하는 이상치 탐지 장치를 포함하고, 상기 이상치 탐지 장치는, 기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하고, 획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 이상치 판단기 및 이상치로 탐지된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 학습 데이터 업데이터를 포함할 수 있다.The abnormal value detection system according to an aspect of the present invention includes an abnormal value detection device for detecting an abnormal value contained in the data based on a server and data provided from the server, And acquires the change value data and the residual value data for the learning data of the new acquisition data and the change value data and the residual value data for the learning data using the obtained change value data and the residual value data, And an unexpected value determiner for determining whether one of the data corresponds to an outlier and data detected as an outlier by using a regression value based on a plurality of data values of last n (n is a natural number) And a learning data updater that replaces the training data updater with a learning data updater.

본 발명의 기술적 사상에 의한 실시 예들에 따른 방법과 장치는, 새로 획득한 데이터에 대한 변화값 및 잔차값을 함께 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단함에 따라 데이터가 시간에 따른 추세나 계절성을 갖는 등의 특수한 환경에서도 높은 예측 정확도를 갖는 효과가 있다.The method and apparatus according to the technical idea of the present invention can determine whether the newly acquired data corresponds to an outlier by using a change value and a residual value of newly acquired data together, Has a high prediction accuracy even in a special environment such as a time-dependent trend or seasonality.

또한, 본 발명의 기술적 사상에 의한 실시 예들에 따른 방법과 장치는, 이상치로 판단된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값으로 치환함으로써, 이미 발생된 이상치가 이후의 이상치 탐지에 미치는 영향을 현저히 줄일 수 있는 효과가 있다.The method and apparatus according to embodiments of the present invention can replace data determined as an outlier with a regression value based on a plurality of data values of last n (n is a natural number) of the learning data, It is possible to remarkably reduce the influence of the abnormality already generated on the detection of the subsequent abnormality.

또한, 본 발명의 기술적 사상에 의한 실시 예들에 따른 방법과 장치는, 사용자 설정 또는 데이터 변화추세 등에 따라, 학습 데이터의 기준 크기를 유동적으로 변경함으로써, 데이터의 변화 추세가 급변하는 환경에서 이상치 탐지의 정확도를 더욱 향상시킬 수 있는 효과가 있다.Further, the method and apparatus according to the technical idea of the present invention can flexibly change the reference size of the learning data in accordance with the user setting or the data change tendency, The accuracy can be further improved.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 이상치 탐지 방법의 플로우차트이다.
도 2는 본 발명의 일 실시 예에 따른 이상치 탐지 장치의 블록도이다.
도 3은 도 2에 도시된 이상치 판단기의 일 실시 예에 따른 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 학습 데이터이다.
도 5는 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 변화값 데이터이다.
도 6은 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 잔차(residual)의 개념을 나타낸 그래프이다.
도 7은 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 잔차값 데이터이다.
도 8은 도 2에 도시된 새로 획득한 데이터의 일 실시 예를 나타낸 그래프이다.
도 9는 도 8에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터이다.
도 10은 도 2에 도시된 새로 획득한 데이터의 다른 실시 예를 나타낸 그래프이다.
도 11은 도 10에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터의 일 실시 예이다.
도 12는 도 10에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터의 다른 실시 예이다.
도 13은 본 발명의 일 실시 예에 따른 이상치 탐지 시스템의 블록도이다.
BRIEF DESCRIPTION OF THE DRAWINGS A brief description of each drawing is provided to more fully understand the drawings recited in the description of the invention.
1 is a flowchart of an outlier detection method according to an embodiment of the present invention.
2 is a block diagram of an outlier detection apparatus according to an embodiment of the present invention.
FIG. 3 is a block diagram according to one embodiment of the outlier detector shown in FIG. 2. FIG.
4 is learning data used in an outlier detection method according to an embodiment of the present invention.
5 is change value data used in an outlier detection method according to an embodiment of the present invention.
6 is a graph illustrating the concept of a residual used in the method of detecting an outlier according to an embodiment of the present invention.
7 is residual value data used in an outlier detection method according to an embodiment of the present invention.
8 is a graph showing one embodiment of newly acquired data shown in FIG.
FIG. 9 shows updated learning data according to the newly acquired data shown in FIG.
10 is a graph showing another embodiment of the newly acquired data shown in FIG.
11 is an example of learning data updated according to the newly acquired data shown in FIG.
12 is another embodiment of the learning data updated according to the newly acquired data shown in FIG.
13 is a block diagram of an outlier detection system according to an embodiment of the present invention.

본 발명의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention as claimed. However, it should be understood that the technical idea of the present invention is not limited to the specific embodiments but includes all changes, equivalents, and alternatives included in the technical idea of the present invention.

본 발명의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [0029] In the following description of the present invention, a detailed description of known technologies will be omitted when it is determined that the gist of the present invention may be unnecessarily obscured. In addition, numerals (e.g., first, second, etc.) used in the description of the present invention are merely an identifier for distinguishing one component from another.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.Also, in this specification, when an element is referred to as being "connected" or "connected" with another element, the element may be directly connected or directly connected to the other element, It should be understood that, unless an opposite description is present, it may be connected or connected via another element in the middle.

또한, 본 명세서에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processer), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.The terms "to", "to", "to", "to", and "module" in the present specification mean units for processing at least one function or operation, A micro processor, a central processing unit (CPU), a graphics processing unit (GPU), an Accelerate Processor Unit (APU), a digital signal processor (DSP), an application specific integrated circuit (ASIC) (Field Programmable Gate Array), or the like, or a combination of hardware and software.

그리고 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.It is to be clarified that the division of constituent parts in this specification is merely a division by each main function of each constituent part. That is, two or more constituent parts to be described below may be combined into one constituent part, or one constituent part may be divided into two or more functions according to functions that are more subdivided. In addition, each of the constituent units described below may additionally perform some or all of the functions of other constituent units in addition to the main functions of the constituent units themselves, and that some of the main functions, And may be carried out in a dedicated manner.

이하, 본 발명의 기술적 사상에 따른 실시 예들을 차례로 상세히 설명한다.Hereinafter, embodiments according to the technical idea of the present invention will be described in detail.

도 1은 본 발명의 일 실시 예에 따른 이상치 탐지 방법의 플로우차트이다. 도 2는 본 발명의 일 실시 예에 따른 이상치 탐지 장치의 블록도이다.1 is a flowchart of an outlier detection method according to an embodiment of the present invention. 2 is a block diagram of an outlier detection apparatus according to an embodiment of the present invention.

도 1과 도 2를 참조하면, 본 발명의 일 실시 예에 따른 이상치 탐지 장치(100)는 학습 데이터 생성기(110), 이상치 판단기(120), 학습 데이터 크기 제어기(130), 학습 데이터 업데이터(140), 및 장애 판단기(150)를 포함할 수 있다.1 and 2, an outlier detection apparatus 100 according to an embodiment of the present invention includes a learning data generator 110, an outlier determination unit 120, a learning data size controller 130, a learning data updater 140, and a fault determinator 150.

학습 데이터 생성기(110)는 외부로부터 수집 데이터(O-DATA)를 획득하고, 획득한 수집 데이터(O-DATA)에 기초하여 기준 크기의 학습 데이터(T-DATA)를 생성할 수 있다(S10).The learning data generator 110 may acquire the collected data (O-DATA) from the outside and generate the learning data (T-DATA) of the reference size based on the acquired collected data (O-DATA) .

학습 데이터 생성기(110)는 생성된 학습 데이터(T-DATA)를 이상치 판단기(120)로 제공할 수 있다.The learning data generator 110 may provide the generated learning data T-DATA to the outlier determination unit 120. [

실시 예에 따라, 학습 데이터 생성기(110)는 기준 크기의 학습 데이터(T-DATA)가 생성될 수 있을 때까지 외부로부터 수집 데이터(O-DATA)를 수집할 수 있다.According to the embodiment, the learning data generator 110 may collect collected data (O-DATA) from the outside until learning data (T-DATA) of a reference size can be generated.

이상치 판단기(120)는 학습 데이터(T-DATA)에 대한 변화값 데이터와 잔차값 데이터를 계산하여 획득할 수 있다(S20). 이에 대한 상세한 내용은 도 3 내지 도 7을 참조하여 후술하도록 한다.The outlier determining unit 120 may calculate and obtain the change value data and the residual value data for the learning data (T-DATA) (S20). Details thereof will be described later with reference to FIG. 3 to FIG.

이상치 판단기(120)는 학습 데이터 생성기(110)로부터 제공된 학습 데이터(T-DATA)에 대한 변화값 데이터와 잔차값 데이터 및 새로 획득한 데이터(N-DATA)에 대한 변화값 및 잔차값에 기초하여, 새로 획득한 데이터(N-DATA)가 이상치(outlier)에 해당하는지 여부를 판단할 수 있다(S30).The outliers 120 are based on the change value data and the residual value data for the learning data (T-DATA) provided from the learning data generator 110 and the change values and residual values for the newly acquired data (N-DATA) , It can be determined whether or not the newly acquired data (N-DATA) corresponds to an outlier (S30).

실시 예에 따라, 새로 획득한 데이터는 실시간 또는 비실시간으로 획득될 수 있다.According to the embodiment, newly acquired data can be acquired in real time or in non-real time.

실시 예에 따라, 이상치 판단기(120)는 새로 획득한 데이터(N-DATA)가 이상치에 해당하는 경우 새로 획득한 데이터(N-DATA)를 학습 데이터(T-DATA)의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하여 치환된 데이터 값을 학습 데이터 업데이터(140)에 전달할 수 있다.According to the embodiment, the outlier determination unit 120 determines the last n data (N-DATA) of the learning data (T-DATA) when the newly acquired data (N-DATA) n is a natural number), and transmits the data value to the learning data updater 140.

다른 실시 예에 따라, 이상치 판단기(120)는 새로 획득한 데이터(N-DATA)가 이상치에 해당하지 않는 경우 새로 획득한 데이터(N-DATA)를 학습 데이터 업데이터(140)에 전달할 수 있다.According to another embodiment, the outlier determining unit 120 may transmit the newly acquired data (N-DATA) to the learning data updater 140 when the newly acquired data (N-DATA) does not correspond to the outliers.

이상치 판단기(120)는 새로 획득한 데이터(N-DATA)가 이상치에 해당하는지 여부에 관한 정보를 장애 판단기(150)로 전달할 수 있다.The outliers 120 may transmit to the failure determiner 150 information about whether the newly acquired data (N-DATA) corresponds to an outlier.

학습 데이터 크기 제어기(130)는 학습 데이터(T-DATA)의 기준 크기를 제어할 수 있다.The learning data size controller 130 can control the reference size of the learning data (T-DATA).

실시 예에 따라, 학습 데이터 크기 제어기(130)는 사용자 설정 또는 데이터 변화추세에 따라 학습 데이터(T-DATA)의 기준 크기의 변경 필요성을 판단하고(S40), 판단 결과에 따라 학습 데이터(T-DATA)의 기준 크기를 줄이거나 늘릴 수 있다.According to the embodiment, the learning data size controller 130 determines necessity of changing the reference size of the learning data (T-DATA) according to the user setting or the data change trend (S40) DATA) can be reduced or increased.

실시 예에 따라, 상기 데이터 변화추세는 새로 획득한 데이터(N-DATA)의 일정 시간구간 동안의 변화패턴에 기초하여 결정될 수 있다.According to the embodiment, the data change trend may be determined based on a change pattern of the newly acquired data (N-DATA) for a predetermined time period.

실시 예에 따라, 학습 데이터 크기 제어기(130)는 데이터 변화추세를 나타내는 변화패턴이 기준값보다 긴 경우, 즉 데이터 변화추세가 느린 경우에 기준 크기를 늘릴 수 있다.According to the embodiment, the learning data size controller 130 can increase the reference size when the change pattern indicating the data change trend is longer than the reference value, that is, the data change trend is slow.

다른 실시 예에 따라, 학습 데이터 크기 제어기(130)는 데이터 변화추세를 나타내는 변화패턴이 기준값보다 짧은 경우, 즉 데이터 변화추세가 빠른 경우에 기준 크기를 줄일 수 있다.According to another embodiment, the learning data size controller 130 can reduce the reference size when the change pattern indicating the data change trend is shorter than the reference value, that is, the data change trend is fast.

학습 데이터 업데이터(140)는 이상치 판단기(120)로부터 전달된 새로 획득한 데이터(N-DATA) 또는 치환된 데이터 값을 이용하여 학습 데이터(T-DATA)를 업데이트할 수 있다(S50).The learning data updater 140 may update the learning data T-DATA using the newly acquired data (N-DATA) or the replaced data value transmitted from the outlier determination unit 120 (S50).

실시 예에 따라, 학습 데이터 크기가 유지되는 경우, 학습 데이터(T-DATA)의 최초 데이터 값은 버려지는 동시에 이상치 판단기(120)로부터 전달된 새로 획득한 데이터(N-DATA) 또는 치환된 데이터 값이 학습 데이터(T-DATA)에 포함될 수 있다. 이에 대한 상세한 내용은 도 9와 도 11을 참조하여 후술하도록 한다.According to the embodiment, when the learning data size is maintained, the initial data value of the learning data (T-DATA) is discarded and the newly acquired data (N-DATA) or the replaced data Value may be included in the learning data (T-DATA). Details thereof will be described later with reference to FIG. 9 and FIG.

다른 실시 예에 따라, 학습 데이터 크기가 증가하도록 변경된 경우, 학습 데이터(T-DATA)의 기존 데이터 값들은 유지되는 동시에 이상치 판단기(120)로부터 전달된 새로 획득한 데이터(N-DATA) 또는 치환된 데이터 값이 학습 데이터(T-DATA)에 포함될 수 있다. 이에 대한 상세한 내용은 도 12를 참조하여 후술하도록 한다.According to another embodiment, when the learning data size is changed to increase, the existing data values of the training data T-DATA are maintained and the newly acquired data (N-DATA) or substitution Data value can be included in the learning data (T-DATA). Details thereof will be described later with reference to Fig.

장애 판단기(150)는 이상치 판단기(120)의 판단결과를 이용하여 새로 획득한 데이터(N-DATA)를 제공한 장치의 장애상황을 판단할 수 있다.The fault determinator 150 can determine the fault condition of the apparatus that provided the newly acquired data (N-DATA) using the determination result of the outlier determination unit 120. [

실시 예에 따라, 장애 판단기(150)는 이상치로 판단된 데이터가 획득된 시점을 계산하여 장애상황이 발생한 시점을 계산할 수도 있다.According to the embodiment, the fault determinator 150 may calculate the point in time at which the fault condition occurs by calculating the point in time at which the data determined to be outliers are obtained.

실시 예에 따라, 이상치 탐지 장치(100)는 수집 데이터(O-DATA)와 새로 획득한 데이터(N-DATA)를 동일한 장치로부터 제공받을 수도 있고, 서로 다른 장치로부터 제공받을 수도 있다.According to the embodiment, the outlier detection apparatus 100 may receive collected data (O-DATA) and newly acquired data (N-DATA) from the same apparatus or from different apparatuses.

실시 예에 따라, 이상치 탐지 장치(100)의 각 구성(110 ~150)의 기능은 프로세서(processor)와 메모리(memory)의 조합에 의하여 수행될 수 있다.According to the embodiment, the functions of the respective components 110 to 150 of the outlier detection apparatus 100 can be performed by a combination of a processor and a memory.

도 3은 도 2에 도시된 이상치 판단기의 일 실시 예에 따른 블록도이다. 도 4는 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 학습 데이터이다. 도 5는 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 변화값 데이터이다. 도 6은 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 잔차(residual)의 개념을 나타낸 그래프이다. 도 7은 본 발명의 일 실시 예에 따른 이상치 탐지 방법에서 사용되는 잔차값 데이터이다.FIG. 3 is a block diagram according to one embodiment of the outlier detector shown in FIG. 2. FIG. 4 is learning data used in an outlier detection method according to an embodiment of the present invention. 5 is change value data used in an outlier detection method according to an embodiment of the present invention. 6 is a graph illustrating the concept of a residual used in the method of detecting an outlier according to an embodiment of the present invention. 7 is residual value data used in an outlier detection method according to an embodiment of the present invention.

도 2와 도 3을 참조하면, 이상치 판단기(120)는 변화값 계산기(122), 회귀값 계산기(124), 잔차값 계산기(126), 및 이상치 판단모듈(128)을 포함할 수 있다.2 and 3, the outlier value determiner 120 may include a change value calculator 122, a regression value calculator 124, a residual value calculator 126, and an outlier determination module 128.

변화값 계산기(122)는 학습 데이터(T-DATA)와 새로 획득한 데이터(N-DATA)를 수신하고, 학습 데이터(T-DATA)에 대한 변화값 데이터 및 새로 획득한 데이터(N-DATA)에 대한 변화값을 계산할 수 있다.The change value calculator 122 receives the learning data T-DATA and the newly acquired data N-DATA and stores change value data for the learning data T-DATA and newly acquired data N-DATA, Can be calculated.

도 4와 도 5를 함께 참조하면, 학습 데이터(T-DATA)의 일 예로 8개의 데이터 값을 포함하는 학습 데이터(T-DATA)가 도시되어 있다.Referring to FIG. 4 and FIG. 5 together, learning data (T-DATA) including eight data values is shown as an example of learning data (T-DATA).

실시 예에 따라, 변화값 계산기(122)는 시계열적으로 수집된 학습 데이터(T-DATA)에 포함된 데이터 값들(DV1a~DV8a) 각각에 대하여 타겟 데이터(예컨대, 제2데이터 값(DV2a))와 타겟 데이터(예컨대, 제2데이터 값(DV2a))의 인접한 이전 데이터 값(예컨대, 제1데이터 값(DV1a))의 차이를 계산함으로써 변화값 데이터(V-DATA)를 획득할 수 있다.According to the embodiment, the change value calculator 122 calculates the target data (e.g., the second data value DV2a) for each of the data values DV1a to DV8a included in the learning data T- (E.g., the first data value DV1a) of the target data (e.g., the second data value DV2a) and the adjacent previous data value of the target data (e.g., the second data value DV2a).

예컨대, 변화값 계산기(122)는 학습 데이터(T-DATA)에 포함된 제2데이터 값(DV2a)와 제2데이터 값(DV2a)의 인접한 이전 데이터 값인 제1데이터 값(DV1a)의 차이를 계산하여, 계산된 차이값을 변화값 데이터(V-DATA)의 제1데이터 값(DV1b)으로 획득할 수 있다.For example, the change value calculator 122 calculates the difference between the second data value DV2a included in the learning data T-DATA and the first data value DV1a which is the adjacent previous data value of the second data value DV2a , And obtain the calculated difference value as the first data value DV1b of the change value data (V-DATA).

다른 실시 예에 따라, 변화값 계산기(122)는 시계열적으로 수집된 학습 데이터(T-DATA)에 포함된 데이터 값들(DV1a~DV8a) 각각에 대하여 타겟 데이터(예컨대, 제3데이터 값(DV3a))와 타겟 데이터(예컨대, 제3데이터 값(DV3a))과 인접하지 않은 이전 데이터 값(예컨대, 제1데이터 값(DV1a))의 차이를 계산함으로써 변화값 데이터(V-DATA)를 획득할 수 있다.According to another embodiment, the change value calculator 122 calculates the target data (e.g., the third data value DV3a) for each of the data values DV1a to DV8a included in the learning data T- (V-DATA) by calculating the difference between the target data (e.g., the first data value DV1a) and the target data (e.g., the third data value DV3a) have.

예컨대, 변화값 계산기(122)는 학습 데이터(T-DATA)에 포함된 제3데이터 값(DV3a)과 제3데이터 값(DV3a)과 인접하지 않은 이전 데이터 값인 제1데이터 값(DV1a)의 차이를 계산하여, 계산된 차이값을 변화값 데이터(V-DATA)의 제1데이터 값(DV1b)으로 획득할 수 있다.For example, the change value calculator 122 calculates the difference value between the third data value DV3a included in the learning data T-DATA and the first data value DV1a, which is the previous data value not adjacent to the third data value DV3a, , And obtain the calculated difference value as the first data value DV1b of the change value data (V-DATA).

변화값 계산기(122)는 새로 획득한 데이터(N-DATA)에 대한 변화값을 계산할 수 있다. 실시 예에 따라, 변화값 계산기(122)는 새로 획득한 데이터(N-DATA)의 데이터 값과 학습 데이터(T-DATA)의 마지막 데이터 값(예컨대, DV8a)의 차이를 계산하고, 계산된 차이값을 변화값으로 획득할 수 있다.The change value calculator 122 may calculate a change value for the newly acquired data (N-DATA). According to the embodiment, the change value calculator 122 calculates the difference between the data value of the newly acquired data (N-DATA) and the last data value (e.g., DV8a) of the learning data (T-DATA) Value can be obtained as the change value.

변화값 계산기(122)는 변화값 데이터(V-DATA)와 새로 획득한 데이터(N-DATA)에 대한 변화값을 이상치 판단모듈(128)로 전달할 수 있다.The change value calculator 122 may transmit the change value data (V-DATA) and the change value for the newly acquired data (N-DATA) to the outlier determination module 128.

도 3으로 돌아와서, 회귀값 계산기(124)는 학습 데이터(T-DATA)와 새로 획득한 데이터(N-DATA)를 수신하고, 수신된 학습 데이터(T-DATA)와 새로 획득한 데이터(N-DATA)를 이용하여 시계열적으로 수집된 데이터 값들에 대한 회귀식을 계산할 수 있다.3, the regression value calculator 124 receives the learning data (T-DATA) and the newly acquired data (N-DATA) and stores the received learning data (T-DATA) ) Can be used to calculate a regression equation for the data values collected in a time-series manner.

회귀값 계산기(124)는 학습 데이터(T-DATA)에 포함된 데이터 값들에 대하여, 설정된 윈도우 크기(window size) 내의 데이터 값들을 기초로 회귀식과 회귀값을 계산할 수 있다.The regression value calculator 124 may calculate a regression equation and a regression value based on the data values in the set window size for the data values included in the learning data T-DATA.

실시 예에 따라, 회귀값 계산기(124)의 회귀식과 회귀값을 계산하는 과정에서 사용되는 윈도우 크기는 사용자 설정 또는 데이터 변화추세에 따라 결정될 수 있다.According to the embodiment, the window size used in the calculation of the regression equation and the regression value of the regression value calculator 124 may be determined according to the user setting or the data change trend.

잔차값 계산기(126)는 회귀값 계산기(124)에 의해 계산된 회귀값과 학습 데이터(T-DATA)에 포함된 데이터 값과의 차이를 나타내는 잔차값을 계산할 수 있다.The residual value calculator 126 may calculate a residual value indicating a difference between the regression value calculated by the regression value calculator 124 and the data value included in the learning data T-DATA.

도 6을 참조하면, 회귀값 계산기(124)는 학습 데이터(T-DATA)에 포함된 타겟 데이터 값(예컨대, 제4데이터 값(DV4a))에 대하여 설정된 윈도우 크기(예컨대, 4) 내의 인접한 이전 데이터 값들(예컨대, 제1데이터 값(DV1a) 내지 제4데이터 값(DV4a))을 기초로 회귀식(ri)을 계산할 수 있다.6, the regression value calculator 124 calculates the regression value of the adjacent previous data (e.g., 4) within the set window size (for example, 4) with respect to the target data value (e.g., the fourth data value DV4a) included in the learning data It is possible to calculate the regression formula ri based on the values (e.g., the first data value DV1a to the fourth data value DV4a).

이 경우, 잔차값 계산기(126)는 타겟 데이터 값(예컨대, 제4데이터 값(DV4a))과 타겟 데이터 값에 상응하는 회귀값의 차이를 나타내는 잔차 값(RES)을 계산할 수 있다.In this case, the residual value calculator 126 may calculate the residual value RES indicating the difference between the target data value (e.g., the fourth data value DV4a) and the regression value corresponding to the target data value.

도 4, 도 6, 및 도 7을 참조하면, 학습 데이터(T-DATA)에 포함된 타겟 데이터 값, 예컨대 제4데이터 값(DV4a)에 대한 잔차값이 잔차값 데이터(R-DATA)의 제1데이터 값(DV1c)으로 계산되고, 타겟 데이터 값, 예컨대 제5데이터 값(DV5a)에 대한 잔차값이 잔차값 데이터(R-DATA)의 제2데이터 값(DV2c)으로 계산될 수 있다. 같은 방식으로 학습 데이터(T-DATA)에 포함된 타겟 데이터 값, 예컨대 제6데이터 값(DV6a), 제7데이터 값(DV7a), 제8데이터 값(DV8a) 각각에 대한 잔차값이 잔차값 데이터(R-DATA)의 제3데이터 값(DV3c), 제4데이터 값(DV4c), 제5데이터 값(DV5c)으로 계산될 수 있다.Referring to FIGS. 4, 6 and 7, a target data value included in the learning data T-DATA, for example, a residual value for the fourth data value DV4a, 1 data value DV1c and the target data value such as the residual value for the fifth data value DV5a may be calculated as the second data value DV2c of the residual value data R-DATA. The target value data included in the learning data T-DATA, e.g., the sixth data value DV6a, the seventh data value DV7a, and the eighth data value DV8a, The third data value DV3c, the fourth data value DV4c, and the fifth data value DV5c of the data R-DATA.

잔차값 계산기(126)는 새로 획득한 데이터(N-DATA)에 대한 잔차값을 계산할 수 있다. 이 경우, 잔차값 계산기(126)는 학습 데이터(T-DATA)의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값과 새로 획득한 데이터(N-DATA)의 데이터 값의 차이를 나타내는 잔차값을 계산할 수 있다.The residual value calculator 126 may calculate the residual value for the newly acquired data (N-DATA). In this case, the residual value calculator 126 calculates the difference between the regression value based on the plurality of data values of the last n (n is a natural number) of the learning data (T-DATA) and the data value of the newly acquired data Can be calculated.

잔차값 계산기(126)는 잔차값 데이터(R-DATA)와 새로 획득한 데이터(N-DATA)에 대한 잔차값을 이상치 판단모듈(128)로 전달할 수 있다.The residual value calculator 126 may transmit the residual value data (R-DATA) and the residual value of the newly acquired data (N-DATA) to the outlier determination module 128.

도 3으로 돌아와서, 이상치 판단모듈(128)은 변화값 계산기(122)로부터 전달된 변화값 데이터(V-DATA) 및 새로 획득한 데이터(N-DATA)에 대한 변화값, 잔차값 계산기(126)로부터 전달된 잔차값 데이터(R-DATA)와 새로 획득한 데이터(N-DATA)에 대한 잔차값을 이용하여, 새로 획득한 데이터(N-DATA)가 이상치(outlier)에 해당하는지 여부를 판단할 수 있다.3, the outlier determination module 128 determines whether or not the change value data (V-DATA) received from the change value calculator 122 and the change value for the newly acquired data (N-DATA) (N-DATA) corresponds to an outlier by using the residual value data (R-DATA) transferred from the data acquisition unit (N-DATA) and the residual value for the newly acquired data .

실시 예에 따라, 이상치 판단모듈(128)은 ESD(Extreme Studentized Deviate) 테스트 또는 GESD(Generalized ESD) 테스트를 통하여 새로 획득한 데이터(N-DATA)가 이상치에 해당하는지 여부를 탐지, 판단할 수 있다.According to the embodiment, the outlier determination module 128 can detect and determine whether the newly acquired data (N-DATA) corresponds to an outliers through an ESD (Extreme Studentized Deviate) test or a GESD .

이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA)가 이상치에 해당하는지 여부에 따라, 서로 다른 데이터 값을 학습 데이터 업데이터(140)로 전달할 수 있다.The outlier determination module 128 may transmit different data values to the learning data updater 140 depending on whether the newly acquired data (N-DATA) corresponds to an outlier.

실시 예에 따라, 이상치 판단 모듈(128)은 새로 획득한 데이터(N-DATA)에 대한 변화값이 이상치에 해당하는 경우 또는 새로 획득한 데이터(N-DATA)에 대한 잔차값이 이상치에 해당하는 경우에 새로 획득한 데이터(N-DATA)를 이상치로 판단할 수 있다.According to an embodiment, the outlier determination module 128 may determine that the change value for the newly acquired data (N-DATA) corresponds to an outliers or the residual value for newly acquired data (N-DATA) corresponds to an outliers , It is possible to determine the newly acquired data (N-DATA) as an outliers.

실시 예에 따라, 이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA)가 이상치에 해당하는 경우 새로 획득한 데이터(N-DATA)를 학습 데이터(N-DATA)의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하여 치환된 데이터 값을 학습 데이터 업데이터(140)에 전달할 수 있다.According to the embodiment, the outliers determination module 128 updates the data n-DATA newly obtained when the newly acquired data N-DATA corresponds to the outliers to the last n data n-DATA of the learning data N-DATA n is a natural number), and transmits the data value to the learning data updater 140.

다른 실시 예에 따라, 이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA)가 이상치에 해당하지 않는 경우 새로 획득한 데이터(N-DATA)를 학습 데이터 업데이터(140)에 전달할 수 있다.According to another embodiment, the outlier determination module 128 may transmit the newly acquired data (N-DATA) to the learning data updater 140 when the newly acquired data (N-DATA) does not correspond to the outliers.

새로 획득한 데이터(N-DATA)가 이상치에 해당하는지 여부에 따른, 이상치 판단모듈(128)과 학습 데이터 업데이터(140)의 세부적인 데이터 처리에 대해서는 도 8 내지 도 12를 참조하여 후술하도록 한다.Detailed data processing of the outlier determination module 128 and the learning data updater 140 according to whether or not the newly acquired data (N-DATA) corresponds to an outliers will be described later with reference to FIG. 8 to FIG.

이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA)가 이상치에 해당하는지 여부에 관한 정보를 장애 판단기(150)로 전달할 수 있다.The outlier determination module 128 may pass information on whether the newly acquired data (N-DATA) corresponds to an outlier to the failure determiner 150. [

도 8은 도 2에 도시된 새로 획득한 데이터의 일 실시 예를 나타낸 그래프이다. 도 9는 도 8에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터이다. 도 10은 도 2에 도시된 새로 획득한 데이터의 다른 실시 예를 나타낸 그래프이다. 도 11은 도 10에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터의 일 실시 예이다. 도 12는 도 10에 도시된 새로 획득한 데이터에 따라 업데이트된 학습 데이터의 다른 실시 예이다.8 is a graph showing one embodiment of newly acquired data shown in FIG. FIG. 9 shows updated learning data according to the newly acquired data shown in FIG. 10 is a graph showing another embodiment of the newly acquired data shown in FIG. 11 is an example of learning data updated according to the newly acquired data shown in FIG. 12 is another embodiment of the learning data updated according to the newly acquired data shown in FIG.

도 8과 도 9는 새로 획득한 데이터(N-DATA1)가 이상치에 해당하지 않는 경우의 이상치 판단모듈(128)과 학습 데이터 업데이터(140)의 데이터 처리를 나타낸다.8 and 9 show data processing of the outlier determination module 128 and the learning data updater 140 when the newly acquired data (N-DATA1) does not correspond to the outliers.

이상치 판단모듈(128)의 판단결과 새로 획득한 데이터(N-DATA1)가 이상치에 해당하지 않는 경우, 이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA1)를 학습 데이터 업데이터(140)로 전달한다.If the newly acquired data (N-DATA1) does not correspond to the outliers as a result of the determination by the outlier determination module 128, the outlier determination module 128 sends the newly acquired data (N-DATA1) to the learning data updater 140 .

이 경우, 학습 데이터 업데이터(140)는 새로 획득한 데이터(N-DATA1)가 학습 데이터(T-DATA1)에 포함되도록 업데이트를 수행하고, 기존의 학습 데이터(T-DATA)에 포함된 데이터 값들 중에서 최초 데이터 값(DV1a)은 버림으로써 업데이트된 학습 데이터(T-DATA1)를 획득할 수 있다.In this case, the learning data updater 140 updates the learning data (T-DATA1) so that the newly acquired data (N-DATA1) is included in the learning data (T-DATA1) The initial data value DV1a can be discarded and the updated learning data T-DATA1 can be obtained.

도 10 내지 도 12는 새로 획득한 데이터(N-DATA1)가 이상치에 해당하는 경우의 이상치 판단모듈(128)과 학습 데이터 업데이터(140)의 데이터 처리를 나타낸다.10 to 12 show data processing of the outlier determination module 128 and the learning data updater 140 when the newly acquired data (N-DATA1) corresponds to an outlier.

이상치 판단모듈(128)의 판단결과 새로 획득한 데이터(N-DATA2)가 이상치에 해당하는 경우, 이상치 판단모듈(128)은 새로 획득한 데이터(N-DATA2)를 기존의 학습 데이터(T-DATA)의 마지막 n개, 예컨대 3개의 데이터 값들(예컨대, DV6a ~ DV8a)에 기초한 회귀값(예컨대, rDV8a)으로 치환하여 치환된 데이터 값(N-DATA2’)을 학습 데이터 업데이터(140)로 전달한다.If the newly acquired data (N-DATA2) corresponds to an outlier as a result of the determination by the outlier determination module 128, the outlier determination module 128 stores the newly acquired data (N-DATA2) (E.g., rDV8a) based on the last n data, e.g., three data values (e.g., DV6a to DV8a) of the data values (N-DATA2 ').

실시 예에 따라, 이상치로 판단된 데이터(N-DATA2)를 다른 데이터 값으로 치환하는 경우에, 이상치로 판단된 데이터(N-DATA2)를 치환하기 위한 회귀식(ri')을 구하는 데 사용되는 윈도우(window')에는 이상치로 판단된 데이터(N-DATA2)가 제외되며, 이 경우 윈도우(window')의 크기는 도 6에서 회귀식(ri)을 구하는 데 사용된 윈도우(window)의 크기보다 1만큼 작게 설정될 수 있다.According to the embodiment, when replacing the data (N-DATA2) determined to be outliers with other data values, it is used to obtain a regression equation (ri ') for replacing the data (N-DATA2) In this case, the size of the window 'is smaller than the size of the window used for obtaining the regression equation (ri) in FIG. 6, 1 < / RTI >

다른 실시 예에 따라, 이상치로 판단된 데이터(N-DATA2)를 다른 데이터 값으로 치환하는 경우에, 이상치로 판단된 데이터(N-DATA2)를 치환하기 위한 회귀식(ri')을 구하는 데 사용되는 윈도우(window')에는 이상치로 판단된 데이터(N-DATA2)가 제외되며, 윈도우(window')의 크기는 도 6에서 회귀식(ri)을 구하는 데 사용된 윈도우(window)와 동일하게 유지된 채로 쉬프트(shift)되도록 설정될 수도 있다.According to another embodiment, when the data (N-DATA2) determined to be outliers is replaced with another data value, it is used to obtain a regression equation (ri ') for replacing the data (N-DATA2) (N-DATA2), which is determined to be outliers, is excluded from the window 'window', and the size of the window 'is maintained to be the same as the window used to obtain the regression equation (ri) And may be set to be shifted while maintaining a constant value.

도 11을 참조하면, 학습 데이터의 크기가 동일하게 유지되는 경우 학습 데이터 업데이터(140)는 치환된 데이터 값(N-DATA2’)가 학습 데이터(T-DATA2)에 포함되도록 업데이트를 수행하고, 기존의 학습 데이터(T-DATA)에 포함된 데이터 값들 중에서 최초 데이터 값(DV1a)은 버림으로써 업데이트된 학습 데이터(T-DATA2)를 획득할 수 있다.11, when the size of the learning data is kept the same, the learning data updater 140 performs update so that the replaced data value (N-DATA2 ') is included in the learning data (T-DATA2) DATA2 from the data values included in the training data T-DATA of the training data T-DATA.

도 12를 참조하면, 학습 데이터의 크기가 증가하도록 변경된 경우 학습 데이터 업데이터(140)는 학습 데이터(T-DATA)의 기존 데이터 값들은 유지되는 동시에 치환된 데이터 값(N-DATA2’)을 학습 데이터(T-DATA2’)에 포함시킴으로써 업데이트된 학습 데이터(T-DATA2’)를 획득할 수 있다.12, when the size of the learning data is changed to increase, the learning data updater 140 maintains the existing data values of the learning data (T-DATA) and stores the replaced data values (N-DATA2 ' (T-DATA2 ') by including the updated training data (T-DATA2').

도 13은 본 발명의 일 실시 예에 따른 이상치 탐지 시스템의 블록도이다.13 is a block diagram of an outlier detection system according to an embodiment of the present invention.

도 1 내지 도 3 및 도 13을 참조하면, 본 발명의 일 실시 예에 따른 이상치 탐지 시스템(300)은 이상치 탐지 장치(100)와 서버(200)를 포함할 수 있다.1 to 3 and 13, the outlier detection system 300 according to an embodiment of the present invention may include the outlier detection apparatus 100 and the server 200. [

도 13의 이상치 탐지 장치(100)는 도 2의 이상치 탐지 장치(100)와 실질적으로 동일하다.The outlier detection apparatus 100 of Fig. 13 is substantially the same as the outlier detection apparatus 100 of Fig.

도 13에서는 이상치 탐지 장치(100)가 서버(200)의 외부에 구현되는 것으로 도시되어 있으나 이에 한정되지 않으며, 이상치 탐지 장치(100)는 서버(200)의 내부에 포함되는 형태로 구현될 수도 있다.13, the outlier detection apparatus 100 is illustrated as being implemented outside the server 200, but the present invention is not limited thereto. The outliers detection apparatus 100 may be included in the server 200 .

실시 예에 따라, 이상치 탐지 장치(100)는 서버(200)로부터 제공된 데이터에 기초하여, 상기 데이터에 포함된 이상치를 탐지할 수 있다.According to the embodiment, the outlier detection apparatus 100 can detect an abnormal value included in the data based on the data provided from the server 200. [

실시 예에 따라, 이상치 탐지 장치(100)는 서버(200)의 성능지표를 나타내는 데이터(예컨대, 서버 응답시간 등)를 수신하고, 수신된 데이터에 이상치가 발생했는지 여부를 통하여 서버(200)에 오류 또는 장애가 발생하였는지 여부를 판단할 수 있다.According to an embodiment, the outlier detection apparatus 100 receives data (e.g., a server response time) indicative of a performance index of the server 200, and transmits the data to the server 200 It is possible to judge whether an error or a failure has occurred.

실시 예에 따라, 이상치 탐지 시스템(300)은 애플리케이션 성능 관리(Application Performance Management(APM)) 시스템으로 구현될 수 있다.According to an embodiment, the outlier detection system 300 may be implemented as an application performance management (APM) system.

이상, 본 발명의 기술적 사상을 다양한 실시 예들을 들어 상세하게 설명하였으나, 본 발명의 기술적 사상은 상기 실시 예들에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, Various modifications and variations are possible.

100 : 이상치 탐지 장치
200 : 서버
300 : 이상치 탐지 시스템
100: Outlier detection device
200: Server
300: Outlier Detection System

Claims (15)

기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하는 단계;
획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 단계; 및
이상치로 판단된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 단계를 포함하는, 이상치 탐지 방법.
Obtaining change value data and residual value data for learning data of a reference size;
Determining whether the newly acquired data corresponds to an outlier by using the obtained change value data, the residual value data, a change value and a residual value of newly acquired data; And
And replacing the data judged to be outliers by a regression value based on a plurality of data values of the last n (n is a natural number) of the learning data.
제1항에 있어서,
상기 변화값 데이터는,
시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값과 상기 타겟 데이터 값의 인접한 이전 데이터 값의 차이를 계산함으로써 획득되는, 이상치 탐지 방법.
The method according to claim 1,
The change-
For each of the data values included in the learning data collected in a time series, a difference between a target data value and an adjacent previous data value of the target data value.
제1항에 있어서,
상기 변화값 데이터는,
시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값과 상기 타겟 데이터 값과 인접하지 않은 이전 데이터 값의 차이를 계산함으로써 획득되는, 이상치 탐지 방법.
The method according to claim 1,
The change-
For each of the data values included in the learning data collected in a time-series manner, a difference between a target data value and a previous data value that is not adjacent to the target data value.
제1항에 있어서,
상기 잔차값 데이터는,
시계열적으로 수집된 상기 학습 데이터에 포함된 데이터 값들 각각에 대하여, 타겟 데이터 값에 인접한 복수의 이전 데이터 값들에 기초한 회귀값과 상기 타겟 데이터 값의 차이를 계산함으로써 획득되는, 이상치 탐지 방법.
The method according to claim 1,
The residual value data may include:
For each of the data values contained in the training data collected in a time series, a difference between the target data value and a regression value based on a plurality of previous data values adjacent to the target data value.
제4항에 있어서,
상기 타겟 데이터 값에 인접한 복수의 이전 데이터 값들의 개수는,
사용자 설정 또는 데이터 변화추세에 따라 결정되는, 이상치 탐지 방법.
5. The method of claim 4,
Wherein the number of previous data values adjacent to the target data value,
The method of detecting an outlier is determined by user setting or trend of data change.
제1항에 있어서,
상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 판단하는 단계는,
상기 새로 획득한 데이터에 대한 변화값이 이상치에 해당하는 경우 또는 상기 새로 획득한 데이터에 대한 잔차값이 이상치에 해당하는 경우에 상기 새로 획득한 데이터를 이상치로 판단하는, 이상치 탐지 방법.
The method according to claim 1,
Wherein the step of determining whether the newly acquired data corresponds to an outlier comprises:
When the change value of the newly acquired data corresponds to an outlier value or when the residual value of the newly acquired data corresponds to an outlier value, the newly acquired data is determined as an outlier.
제1항에 있어서,
상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 탐지하는 단계는,
ESD(Extreme Studentized Deviate) 테스트 또는 GESD(Generalized ESD) 테스트를 통하여 상기 새로 획득한 데이터가 이상치에 해당하는지 여부를 탐지하는, 이상치 탐지 방법.
The method according to claim 1,
Wherein the step of detecting whether the newly acquired data corresponds to an outlier comprises:
And detecting whether the newly acquired data corresponds to an anomaly through an ESD (Extreme Studentized Deviate) test or a GESD (Generalized ESD) test.
제1항에 있어서,
상기 새로 획득한 데이터는,
실시간 또는 비실시간으로 획득되는, 이상치 탐지 방법.
The method according to claim 1,
The newly acquired data is,
Real-time or non-real-time acquisition of anomaly detection method.
제1항에 있어서,
상기 이상치 탐지 방법은,
사용자 설정 또는 데이터 변화추세에 따라, 상기 학습 데이터의 상기 기준 크기를 변경하는 단계를 더 포함하는, 이상치 탐지 방법.
The method according to claim 1,
The abnormal value detection method includes:
Further comprising changing the reference size of the training data in accordance with a user setting or a data change trend.
제9항에 있어서,
상기 기준 크기를 변경하는 단계에 따라 상기 기준 크기가 증가한 경우,
상기 학습 데이터의 기존 데이터 값들을 그대로 유지한 상태로 상기 회귀값으로 치환된 데이터를 상기 학습 데이터에 포함시키는, 이상치 탐지 방법.
10. The method of claim 9,
When the reference size is increased according to the step of changing the reference size,
Wherein the learning data includes data replaced with the regression value while maintaining existing data values of the learning data.
기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하고, 획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 이상치 판단기; 및
이상치로 탐지된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 학습 데이터 업데이터를 포함하는, 이상치 탐지 장치.
And acquiring change value data and residual value data for the learning data of the reference size and using the obtained change value data and the residual value data and a change value and a residual value for newly acquired data, An outlier determining unit for determining whether newly acquired data corresponds to an outlier; And
And a learning data updater for replacing the data detected as an outlier with a regression value based on a plurality of data values of last n (n is a natural number) of the learning data.
제11항에 있어서,
상기 이상치 판단기는,
상기 새로 획득한 데이터에 대한 변화값이 이상치에 해당하는 경우 또는 상기 새로 획득한 데이터에 대한 잔차값이 이상치에 해당하는 경우에 상기 새로 획득한 데이터를 이상치로 판단하는, 이상치 탐지 장치.
12. The method of claim 11,
The abnormal-
And determines the newly acquired data as an outlier when the change value for the newly acquired data corresponds to an outlier or when the residual value for the newly acquired data corresponds to an outlier.
제11항에 있어서,
사용자 설정 또는 데이터 변화추세에 따라, 상기 학습 데이터의 상기 기준 크기를 변경하는 학습 데이터 크기 제어기를 더 포함하는, 이상치 탐지 장치.
12. The method of claim 11,
Further comprising a learning data size controller for changing the reference size of the learning data in accordance with a user setting or a data change trend.
제11항에 있어서,
상기 이상치 판단기의 판단 결과에 기초하여, 상기 이상치 탐지 장치가 새로 획득한 데이터를 제공한 장치의 장애상황을 판단하는 장애 판단기를 더 포함하는, 이상치 탐지 장치.
12. The method of claim 11,
Further comprising a failure judgment unit for judging a failure situation of the device which has provided the data newly acquired by the above-mentioned abnormal value detection device, based on the judgment result of the above-mentioned outliers value judging device.
서버; 및
상기 서버로부터 제공된 데이터에 기초하여, 상기 데이터에 포함된 이상치를 탐지하는 이상치 탐지 장치를 포함하고,
상기 이상치 탐지 장치는,
기준 크기의 학습 데이터에 대한 변화값 데이터와 잔차값(residual value) 데이터를 획득하고, 획득한 상기 변화값 데이터 및 상기 잔차값 데이터와, 새로 획득한 데이터에 대한 변화값 및 잔차값을 이용하여 상기 새로 획득한 데이터가 이상치(outlier)에 해당하는지 여부를 판단하는 이상치 판단기; 및
이상치로 탐지된 데이터를, 상기 학습 데이터의 마지막 n개(상기 n은 자연수)의 복수의 데이터 값들에 기초한 회귀값(regression value)으로 치환하는 학습 데이터 업데이터를 포함하는, 이상치 탐지 시스템.
server; And
And an abnormal value detection device for detecting an abnormal value included in the data based on data provided from the server,
The above-
And acquiring change value data and residual value data for the learning data of the reference size and using the obtained change value data and the residual value data and a change value and a residual value for newly acquired data, An outlier determining unit for determining whether newly acquired data corresponds to an outlier; And
And a learning data updater for replacing the data detected as an outlier with a regression value based on a plurality of data values of the last n (n is a natural number) of the learning data.
KR1020170120618A 2017-01-06 2017-09-19 Outlier detecting method, device and system using the method KR101977214B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170002254 2017-01-06
KR20170002254 2017-01-06

Publications (2)

Publication Number Publication Date
KR20180081437A true KR20180081437A (en) 2018-07-16
KR101977214B1 KR101977214B1 (en) 2019-05-10

Family

ID=63048193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170120618A KR101977214B1 (en) 2017-01-06 2017-09-19 Outlier detecting method, device and system using the method

Country Status (1)

Country Link
KR (1) KR101977214B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200056183A (en) 2018-11-14 2020-05-22 주식회사 디플리 Anomaly Detection Method
CN117931094A (en) * 2024-03-21 2024-04-26 山东奥斯瑞特检验检测有限公司 Block chain-based reliable storage method for ambient air monitoring data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100997009B1 (en) * 2009-06-09 2010-11-25 한국남동발전 주식회사 The method for dynamic detection and on-time warning of industrial process
KR101432436B1 (en) * 2013-03-27 2014-08-21 부산대학교 산학협력단 Apparatus and method for prediction of influent flow rate and influent components using nearest neighbor method
KR101522385B1 (en) * 2014-05-02 2015-05-26 연세대학교 산학협력단 Method and apparatus for detecting fault in the semiconductor menufacturing process and recording medium thereof
KR20160003580A (en) * 2015-12-08 2016-01-11 국민대학교산학협력단 System for processing and analysing big data obtaining from digital tachograph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100997009B1 (en) * 2009-06-09 2010-11-25 한국남동발전 주식회사 The method for dynamic detection and on-time warning of industrial process
KR101432436B1 (en) * 2013-03-27 2014-08-21 부산대학교 산학협력단 Apparatus and method for prediction of influent flow rate and influent components using nearest neighbor method
KR101522385B1 (en) * 2014-05-02 2015-05-26 연세대학교 산학협력단 Method and apparatus for detecting fault in the semiconductor menufacturing process and recording medium thereof
KR20160003580A (en) * 2015-12-08 2016-01-11 국민대학교산학협력단 System for processing and analysing big data obtaining from digital tachograph

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200056183A (en) 2018-11-14 2020-05-22 주식회사 디플리 Anomaly Detection Method
CN117931094A (en) * 2024-03-21 2024-04-26 山东奥斯瑞特检验检测有限公司 Block chain-based reliable storage method for ambient air monitoring data

Also Published As

Publication number Publication date
KR101977214B1 (en) 2019-05-10

Similar Documents

Publication Publication Date Title
JP5910727B2 (en) Operation management apparatus, operation management method, and program
US20200150159A1 (en) Anomaly detection device, anomaly detection method, and storage medium
JP2017097712A (en) Instrument diagnosis device and system as well as method
CN111033413B (en) Monitoring device and method for monitoring a system
JP2018173948A (en) Malfunction diagnosis device, malfunction diagnosis method, and computer program
JP2020035407A (en) Abnormal sign diagnostic device and abnormal sign diagnostic method
KR101977214B1 (en) Outlier detecting method, device and system using the method
KR20190081844A (en) Method and apparatus for GENERATING VIRTUAL SENSOR DATA
CN110099089B (en) Online self-correction of multiple data streams in a sensor network
WO2020027207A1 (en) Abnormality detecting method, information processing device, and abnormality detecting system
JP2017191395A (en) Management device and control method
US20220156586A1 (en) System for monitoring a circuit breaker
US10254753B2 (en) System for predicting abnormality occurrence using PLC log data
US10698396B2 (en) Information processing apparatus, information processing method, and recording medium
JPWO2020152889A1 (en) Equipment diagnostic equipment, plasma processing equipment and equipment diagnostic method
JP6273835B2 (en) State determination device, state determination method, and state determination program
CN110458713B (en) Model monitoring method, device, computer equipment and storage medium
JP5948998B2 (en) Abnormality diagnosis device
JP7026012B2 (en) Equipment status monitoring system and equipment status monitoring method
AU2013399629A1 (en) Apparatus and method for model adaptation
JP2019159365A (en) State fluctuation detection apparatus and program for state fluctuation detection
KR101615346B1 (en) Method and apparatus for detecting fault in the semiconductor menufacturing process and recording medium thereof
JP7077644B2 (en) Control systems, diagnostic equipment, diagnostic methods, and diagnostic programs
JP7437163B2 (en) Diagnostic equipment, diagnostic methods and programs
KR101615345B1 (en) Method for analyzing wafer yield rate using sensor data in semiconductor manufacturing process

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right