KR102470763B1 - Data outlier detection apparatus and method - Google Patents

Data outlier detection apparatus and method Download PDF

Info

Publication number
KR102470763B1
KR102470763B1 KR1020220131247A KR20220131247A KR102470763B1 KR 102470763 B1 KR102470763 B1 KR 102470763B1 KR 1020220131247 A KR1020220131247 A KR 1020220131247A KR 20220131247 A KR20220131247 A KR 20220131247A KR 102470763 B1 KR102470763 B1 KR 102470763B1
Authority
KR
South Korea
Prior art keywords
data
group
outlier
outliers
search
Prior art date
Application number
KR1020220131247A
Other languages
Korean (ko)
Inventor
이찬영
Original Assignee
주식회사 비플컨설팅
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비플컨설팅 filed Critical 주식회사 비플컨설팅
Priority to KR1020220131247A priority Critical patent/KR102470763B1/en
Application granted granted Critical
Publication of KR102470763B1 publication Critical patent/KR102470763B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

Provided are a data outlier detection apparatus and method, which may classify groups of the data outlier detection method according to attributes of data materials and secure a limitation range of a data outlier according to a degree desired in a corresponding group. The data outlier detection method comprises: a step of determining whether a collected data material is a time series material; a step of detecting a data outlier by using a first group detection method when the collected data material is the time series material; a step of determining number of variables when the collected data material is not the time series data; a step of detecting a data outlier by using a second group detection method different from the first group detection method when the number of variables is one; and a step of detecting a data outlier by using a third group detection method different from the first and second group detection methods when the number of variables is two or more.

Description

데이터 이상치 탐색 장치 및 방법 {DATA OUTLIER DETECTION APPARATUS AND METHOD}Data outlier search device and method {DATA OUTLIER DETECTION APPARATUS AND METHOD}

본 발명은 데이터 이상치(Outlier) 탐색 장치 및 방법에 관한 것으로서, 보다 상세하게는, 정상군에서 벗어난 데이터 이상치의 정확한 탐색 및 처리를 위한 데이터 이상치 탐색 장치 및 방법에 관한 것이다.The present invention relates to a data outlier search apparatus and method, and more particularly, to a data outlier search apparatus and method for accurately searching for and processing data outliers out of the normal group.

데이터 이상치(outlier)는 관측치들이 주로 모여 있는 곳에서 멀리 떨어져 있어 특정 그룹으로 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료를 의미한다. 이상치는 자료들의 분포에 따라 대표값에 영향을 주므로 자료의 신뢰도와 정확도 향상을 위한 보장 측면에서 이상치 탐색과 처리는 중요한 과정이다.A data outlier is a value that cannot be classified into a specific group because it is far from the place where observations are usually gathered, and refers to data outside the range of the upper and lower limits of the normal group. Since outliers affect the representative value according to the distribution of data, outlier search and processing are important processes in terms of ensuring reliability and accuracy of data.

통계학 측면에서 이상치는 관측치들이 주로 모여 있는 곳에서 멀리 떨어져 있는 관측치로 정의된다. 이상치는 입력 오류 등 자료 오염으로 인해 발생한 비합리적인 이상치와, 정확하게 측정되었으나 다른 자료들과 전혀 다른 경향이나 특성을 보이는 합리적인 이상치로 구분할 수 있다. 이상치 탐색은 분석 결과의 안정성을 위한 이상치 제거와 자료 대체, 중요한 정보 탐색을 위한 목적으로 활용된다.In the context of statistics, an outlier is defined as an observation that is far from the main cluster of observations. Outliers can be divided into irrational outliers caused by data contamination, such as input errors, and reasonable outliers that are accurately measured but show trends or characteristics that are completely different from other data. Outlier search is used for the purpose of removing outliers for the stability of analysis results, replacing data, and searching for important information.

데이터 마이닝 분야에서 정확한 데이터 이상치 탐색이 가능한 장치에 대한 요구가 있다.In the field of data mining, there is a demand for a device capable of accurately detecting outliers in data.

등록특허 공보 10-1172579Registered Patent Publication 10-1172579 등록특허 공보 10-1692611Registered Patent Publication 10-1692611

본 발명의 목적은 정상군에서 벗어난 데이터 이상치의 정확한 탐색 및 처리를 위한 데이터 이상치 탐색 장치 및 방법을 제공하는데 있다.An object of the present invention is to provide a data outlier search apparatus and method for accurately searching for and processing data outliers out of the normal group.

본 발명의 상기 및 다른 목적과 이점은 바람직한 실시예를 설명한 하기의 설명으로부터 분명해질 것이다.The above and other objects and advantages of the present invention will become apparent from the following description of preferred embodiments.

상기 목적은, 정상군에서 벗어난 데이터 이상치의 정확한 탐색 및 처리를 위한 데이터 이상치 탐색 장치 및 방법을 제공하는데 있다.The above object is to provide a data outlier search apparatus and method for accurately searching for and processing data outliers out of the normal group.

본 발명의 일 실시예에 따른 데이터 이상치 탐색 방법은, A data outlier search method according to an embodiment of the present invention includes:

수집된 데이터 자료가 시계열(time series) 자료인지 여부를 판단하는 단계;Determining whether the collected data is time series data;

상기 수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계;searching for data outliers using a first group search method when the collected data is time-series data;

상기 수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단하는 단계;determining the number of variables when the collected data is not time series data;

상기 변수가 1개인 경우 상기 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계; 및searching for data outliers using a second group search method different from the first group search method when the variable is one; and

상기 변수가 2개 이상인 경우 상기 제1 그룹 탐색 방법 및 상기 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계를 포함한다.and searching for data outliers using a third group search method different from the first group search method and the second group search method when the number of variables is two or more.

바람직하게는,Preferably,

상기 제1 그룹 탐색 방법은 슈하르트(Shewhart) 관리도, 누적합(cumulative Sum) 관리도, 지수가중이동평균(exponentially weighted moving average) 방법 및 Hidiroglou-Berthelot 중 적어도 하나를 이용하고,The first group search method uses at least one of a Shewhart control chart, a cumulative sum control chart, an exponentially weighted moving average method, and a Hidiroglou-Berthelot,

상기 제2 그룹 탐색 방법은 표준화 점수, 통계적 가설검정, 및 사분위수범위 중 적어도 하나를 이용하고, 및The second group search method uses at least one of a standardized score, a statistical hypothesis test, and an interquartile range, and

상기 제3 그룹 탐색 방법은 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나를 이용한다.The third group search method uses at least one of regression diagnosis, Mahalanobis distance, LOF, and iForest.

바람직하게는,Preferably,

상기 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계, 상기 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계 및 상기 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계는 각각의 그룹 탐색 방법 내의 상이한 방법을 이용하여 복수의 데이터 이상치를 탐색하는 단계를 포함한다.Searching for data outliers using the first group search method, searching for data outliers using the second group search method, and searching for data outliers using the third group search method are respectively and searching for a plurality of data outliers using different methods within the group search method.

바람직하게는,Preferably,

상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교하는 단계; 및comparing a plurality of data outliers searched for using different methods within the first group search method, the second group search method, or the third group search method; and

상기 비교하는 단계에서의 비교 결과 동일한 데이터 이상치를 해당 그룹 탐색 방법의 최종 데이터 이상치로 확정하는 단계를 더 포함한다.A step of determining the same data outlier as a final data outlier of the corresponding group search method as a result of the comparison in the comparing step is further included.

바람직하게는,Preferably,

상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트하는 이상치 카운트 단계; 및an outlier counting step of counting the number of data outliers found by using a method different from the first group search method, the second group search method, or the third group search method; and

상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정하는 단계를 더 포함한다.The method may further include determining the data outliers obtained by using a search method for calculating the largest number of data outliers in the first group search method, the second group search method, or the third group search method as final data outliers.

본 발명의 다른 실시예에 따른 데이터 이상치 탐색 장치는,An apparatus for searching for data outliers according to another embodiment of the present invention,

데이터 자료를 수집하는 데이터 수집부;a data collection unit that collects data;

수집된 상기 데이터 자료가 시계열 자료인지 여부를 판단하는 시계열 판단부;a time-series determination unit determining whether the collected data is time-series data;

상기 수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제1 그룹 데이터 이상치 탐색부;a first group data outlier search unit for searching for data outliers using a first group search method when the collected data is time series data;

상기 수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단하는 변수 판단부;a variable determining unit determining the number of variables when the collected data is not time series data;

상기 변수가 1개인 경우 상기 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제2 그룹 데이터 이상치 탐색부;a second group data outlier search unit for searching for data outliers using a second group search method different from the first group search method when the variable is one;

상기 변수가 2개 이상인 경우 상기 제1 그룹 탐색 방법 및 상기 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제3 그룹 데이터 이상치 탐색부를 포함한다.and a third group data outlier search unit for searching for data outliers using a third group search method different from the first group search method and the second group search method when the number of variables is two or more.

바람직하게는,Preferably,

상기 제1 그룹 데이터 이상치 탐색부는 슈하르트(Shewhart) 관리도, 누적합(cumulative Sum) 관리도, 지수가중이동평균(exponentially weighted moving average) 방법 및 Hidiroglou-Berthelot 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색하고,The first group data outlier search unit uses at least one search method among a Shewhart control chart, a cumulative sum control chart, an exponentially weighted moving average method, and a Hidiroglou-Berthelot data look for outliers,

상기 제2 그룹 데이터 이상치 탐색부는 표준화 점수, 통계적 가설검정, 및 사분위수범위 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색하고,The second group data outlier search unit searches for data outliers using at least one search method among a standardized score, a statistical hypothesis test, and an interquartile range;

상기 제3 그룹 데이터 이상치 탐색부는 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색한다.The third group data outlier search unit searches for data outliers using at least one of regression diagnosis, Mahalanobis distance, LOF, and iForest.

바람직하게는,Preferably,

상기 제1 그룹 데이터 이상치 탐색부, 상기 제2 그룹 데이터 이상치 탐색부 및 상기 제3 그룹 데이터 이상치 탐색부는 개별적으로 상이한 방법을 이용하여 복수의 데이터 이상치를 탐색한다.The first group data outlier search unit, the second group data outlier search unit, and the third group data outlier search unit respectively search for a plurality of data outliers using different methods.

바람직하게는,Preferably,

상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부에서 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교하는 비교부; 및a comparator for comparing a plurality of data outliers discovered by using different methods in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit; and

상기 비교부의 비교 결과 동일한 데이터 이상치를 상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부의 최종 데이터 이상치로 확정하는 데이터 이상치 확정부를 더 포함한다.The data outlier determining unit may further include a data outlier determining unit that determines the same data outlier as a result of the comparison by the comparator as a final data outlier of the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit.

바람직하게는,Preferably,

상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트하는 이상치 카운트부를 더 포함하고,an outlier counting unit counting the number of data outliers found using a different method of the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit;

상기 데이터 이상치 확정부는 상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부에서 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정한다.The data outlier determination unit determines the data outlier obtained by using a search method for calculating the largest number of data outliers in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit. Determine data outliers.

본 발명에 따른 데이터 이상치 탐색 장치 및 방법은 정상군에서 벗어난 데이터 이상치의 정확한 탐색 및 처리가 가능한 효과가 있다.An apparatus and method for searching for data outliers according to the present invention have an effect of enabling accurate search and processing of data outliers out of the normal group.

본 발명에 따른 데이터 이상치 탐색 장치 및 방법은 데이터 자료의 속성에 따라 데이터 이상치 탐색 방법의 그룹을 구분하고, 해당 그룹 내에서 복수의 데이터 이상치를 서로 비교하여 최종 데이터 이상치를 확정함으로써 종래의 데이터 이상치 탐색 방법에 비하여 보다 정확하고 효율적인 데이터 이상치 탐색 방법을 제시한다.An apparatus and method for searching for data outliers according to the present invention classifies groups of data outlier search methods according to the attributes of data data, compares a plurality of data outliers within the group, and determines the final data outliers, thereby searching for conventional data outliers. We present a more accurate and efficient data outlier detection method compared to other methods.

본 발명에 따른 데이터 이상치 탐색 장치 및 방법은 데이터 자료의 속성에 따라 데이터 이상치 탐색 방법의 그룹을 구분하고, 해당 그룹 내에서 원하는 정도의 정확도에 따라 데이터 이상치의 한계 범위를 확정할 수 있는 효율적인 데이터 이상치 탐색 방법을 제시한다.An apparatus and method for searching for data outliers according to the present invention classifies groups of data outlier search methods according to the properties of data data, and efficiently determines the limit range of data outliers within the group according to a desired degree of accuracy. suggest ways to explore.

다만, 본 발명의 효과들은 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.However, the effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 데이터 이상치 탐색 방법의 흐름도를 보여주는 도면이다.
도 2는 본 발명의 복수의 그룹 중 각각의 그룹에 속하는 탐색 방법을 보여주는 도면이다.
도 3은 본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정하는 일 실시예의 흐름도를 보여주는 도면이다.
도 4는 본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정하는 다른 실시예의 흐름도를 보여주는 도면이다.
도 5는 본 발명의 데이터 이상치 탐색 장치를 개략적으로 도시한 도면이다.
도 6은 본 발명의 데이터 이상치 탐색 장치의 다른 실시예를 개략적으로 도시한 도면이다.
In order to more fully understand the drawings cited in the detailed description of the present invention, a brief description of each drawing is provided.
1 is a diagram showing a flow chart of a data outlier search method according to the present invention.
2 is a diagram showing a search method belonging to each group among a plurality of groups according to the present invention.
3 is a flowchart showing an embodiment of determining a final data outlier in the data outlier search method of the present invention.
4 is a flowchart showing another embodiment of determining the final data outlier in the data outlier search method of the present invention.
5 is a diagram schematically illustrating an apparatus for detecting data outliers according to the present invention.
6 is a diagram schematically illustrating another embodiment of an apparatus for detecting an outlier in data according to the present invention.

이하, 본 발명의 실시예와 도면을 참조하여 본 발명을 상세히 설명한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위해 예시적으로 제시한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가지는 자에 있어서 자명할 것이다.Hereinafter, the present invention will be described in detail with reference to embodiments and drawings of the present invention. These examples are only presented as examples to explain the present invention in more detail, and it will be apparent to those skilled in the art that the scope of the present invention is not limited by these examples. .

또한, 달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야의 숙련자에 의해 통상적으로 이해되는 바와 동일한 의미를 가지며, 상충되는 경우에는, 정의를 포함하는 본 명세서의 기재가 우선할 것이다.In addition, unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of skill in the art to which this invention belongs, and in case of conflict, this specification including definitions of will take precedence.

도면에서 제안된 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.In order to clearly explain the proposed invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification. And, when a certain component is said to "include", this means that it may further include other components without excluding other components unless otherwise stated. Also, a “unit” described in the specification means one unit or block that performs a specific function.

각 단계들에 있어 식별부호(제1, 제2, 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 실시될 수도 있고 실질적으로 동시에 실시될 수도 있으며 반대의 순서대로 실시될 수도 있다.In each step, the identification code (first, second, etc.) is used for convenience of description, and the identification code does not describe the order of each step, and each step does not clearly describe a specific order in context. It may be performed differently from the order specified above. That is, each step may be performed in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.

데이터 이상치(outlier)는 탐색 목적에 따라 조금은 다르게 정의되지만 일반적으로는 다른 관측치들과 일관성이 없는 것으로 나타나는 관측치나 관측치의 집합으로 정의된다.A data outlier is defined slightly differently depending on the purpose of the search, but is generally defined as an observation or set of observations that appear to be inconsistent with other observations.

이상치는 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어난 자료를 의미하며, 이상치 탐색은 질 높은 통계 분석 결과 도출에 있어 중요한 역할을 담당한다. 특히 이상치 정의 방법에 따라 열외군의 비율이 달라질 수 있으며, 동일한 방법을 적용하더라도 자료의 분포에 따라 차이가 있을수 있어, 적절한 탐색 방법 선정이 중요하다.An outlier is a value that cannot be classified into a specific designated group, and means data outside the range of the upper and lower limits of the normal group, and outlier search plays an important role in deriving high-quality statistical analysis results. In particular, the ratio of outliers may vary depending on the method of defining outliers, and even if the same method is applied, there may be differences depending on the distribution of data, so it is important to select an appropriate search method.

이상치 탐색 방법론은 다양한 관점에서 분류가 가능하나, 일반적으로 자료의 크기, 차원, 구조와 같은 자료의 특성과 통계적 접근 방법을 기준으로 분류할 수 있다.Outlier search methodologies can be classified from various perspectives, but in general, they can be classified based on data characteristics such as data size, dimension, and structure, and statistical approaches.

이상치 탐색 방법은 자료의 크기에 따라 소표본과 대표본으로 분류할 수 있고, 자료의 차원에 따라 일차원, 이차원, 및 다차원으로 분류할 수 있고, 변수의 개수에 따라 일변량, 이변량 및 다변량으로 분류할 수 있고, 목표 변수의 유무에 따라 지도 방법 및 비지도 방법으로 분류할 수 있고, 통계적 방법에 따라 모수적 방법, 비모수적 방법 및 준모수적 방법으로 분류할 수 있다.Outlier search methods can be classified into small samples and large samples according to the size of the data, one-dimensional, two-dimensional, and multi-dimensional according to the dimension of the data, and univariate, bivariate, and multivariate according to the number of variables. It can be classified into supervised methods and unsupervised methods according to the presence or absence of target variables, and can be classified into parametric methods, non-parametric methods, and semi-parametric methods according to statistical methods.

본 발명은 데이터 자료의 속성에 따라 데이터 이상치 탐색 방법을 달리함으로써 정확한 이상치를 추출하는 방법 및 장치를 제공한다.The present invention provides a method and apparatus for accurately extracting outliers by differentiating data outlier search methods according to data attributes.

도 1은 본 발명의 데이터 이상치 탐색 방법의 흐름도를 보여주는 도면이다.1 is a diagram showing a flow chart of a data outlier search method according to the present invention.

본 발명의 데이터 이상치 탐색 방법은 수집된 데이터 자료가 시계열(time series) 자료인지 여부를 판단하는 단계(S110)를 포함한다.The data outlier search method of the present invention includes determining whether the collected data is time series data (S110).

수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다(S130).If the collected data is time series data, data outliers are searched for using the first group search method (S130).

수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단한다(S150).If the collected data is not time series data, the number of variables is determined (S150).

변수가 1개인 경우 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다(S170).If there is only one variable, data outliers are searched for using a second group search method different from the first group search method (S170).

변수가 2개 이상인 경우 제1 그룹 탐색 방법 및 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다(S190).If there are two or more variables, data outliers are searched for using a third group search method different from the first group search method and the second group search method (S190).

본 발명의 데이터 이상치 탐색 방법은 먼저 수집된 데이터 시계열 자료인지 여부를 판단하고, 시계열 자료가 아닌 경우 변수의 개수에 서로 다른 그룹의 탐색 방법을 이용하여 데이터 이상치를 탐색한다.In the data outlier search method of the present invention, first, it is determined whether or not the collected data is time series data, and if the data is not time series data, data outliers are searched for using different group search methods for the number of variables.

각 그룹의 탐색 방법은 복수의 이상치 탐색 방법을 포함한다. 각 그룹의 탐색 방법은 도 2를 이용하여 상세하게 설명한다.The search method of each group includes a plurality of outlier search methods. A search method for each group will be described in detail with reference to FIG. 2 .

도 2는 본 발명의 복수의 그룹 중 각각의 그룹에 속하는 탐색 방법을 보여주는 도면이다.2 is a diagram showing a search method belonging to each group among a plurality of groups according to the present invention.

본 발명은 데이터 자료의 속성에 따라 데이터 이상치 탐색 방법을 달리함으로써 정확한 이상치를 추출할 수 있다는 것에 특징이 있다.The present invention is characterized in that accurate outliers can be extracted by different data outlier search methods according to data attributes.

본 발명에서의 각각의 이상치 탐색 방법은 종래의 탐색 방법을 이용하므로, 각 탐색 방법에 대한 구체적인 설명은 생략한다.Since each outlier search method in the present invention uses a conventional search method, a detailed description of each search method will be omitted.

수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법(210)을 이용하여 데이터 이상치를 탐색한다.If the collected data is time series data, data outliers are searched for using the first group search method 210 .

제1 그룹 탐색 방법은 슈하르트(Shewhart) 관리도, 누적합(cumulative Sum) 관리도, 지수가중이동평균(exponentially weighted moving average) 방법 및 Hidiroglou-Berthelot 중 적어도 하나를 이용한다.The first group search method uses at least one of a Shewhart control chart, a cumulative sum control chart, an exponentially weighted moving average method, and a Hidiroglou-Berthelot.

슈하르트 관리도는 관리하고자 하는 값을 중심선(central line)으로 하여 관리 하한(lower control limit)과 관리 상한(upper control limit)을 설정하고, 시간의 경과에 따라 관측값을 표시하는 통계적 과정이다. 관리 상한과 관리 하한을 벗어나면 이상치로 판단하며, 관리 모수와 관리 통계량에 따라 다양한 관리도가 존재한다.The Schuhart control chart is a statistical process in which a lower control limit and an upper control limit are set with the value to be controlled as the central line, and the observed values are displayed over time. Outside the upper control limit and lower control limit, it is judged as an outlier, and there are various control charts depending on the control parameters and control statistics.

누적합(cumulative Sum) 관리도는 과거부터 최근까지 통계량의 누적합을 사용하는 방법으로, 작은 변화가 발생하더라도 그 효과가 누적되어 관리 통계량에 반영된다. 누적합 관리도 방법은 작은 추세 변화를 감지하기 위하여 변이가 큰 자료보다 안정적인 자료에서 유용하게 사용되며, 의사결정 구간을 벗어나는 시점을 이상치로 정의한다. The cumulative sum control chart is a method that uses the cumulative sum of statistics from the past to the present. Even if small changes occur, the effect is accumulated and reflected in the management statistics. The cumulative sum control chart method is more useful for stable data than data with large variance in order to detect small trend changes, and defines the time point outside the decision-making interval as an outlier.

지수가중이동평균(exponentially weighted moving average) 방법은 최근 관측값에 큰 가중치를 주어 최근 변화를 반영하여 이상치를 탐지하는 방법이다. 관리 상한과 하한을 설정하여 관리 한계를 벗어나는 시점의 관측치를 이상치로 판단한다. The exponentially weighted moving average method is a method of detecting outliers by reflecting recent changes by giving a large weight to recent observations. Upper and lower control limits are set, and observations outside the control limits are judged as outliers.

Hidroglou-Berthelot 방법은 이전 시점과 현재 시점의 비로 이상치를 탐지하는 방법으로 단위의 크기(size of unit)를 고려하여 이상치에 대한 허용 범위를 정의하는 방법이다.The Hidroglou-Berthelot method is a method of detecting outliers based on the ratio of the previous time point to the current time point, and is a method of defining the allowable range for outliers by considering the size of the unit.

수집된 데이터 자료가 시계열 자료가 아니고, 변수가 1개인 경우 제2 그룹 탐색 방법(230)을 이용하여 데이터 이상치를 탐색한다.If the collected data is not time series data and has only one variable, the data outlier is searched for using the second group search method 230 .

제2 그룹 탐색 방법은 표준화 점수, 통계적 가설검정, 및 사분위수범위 중 적어도 하나를 이용한다.The second group search method uses at least one of a standardized score, a statistical hypothesis test, and an interquartile range.

단변량 자료에서 이상치 탐색 방법은 변수가 하나인 자료에서 이상치 영역을 우선적으로 정의하여 이상치를 탐색하는 방법이다. 관찰치가 정의된 이상치 영역 포함 여부에 따라 판단되는 개념이므로 자료의 분포 형태를 확인한 후에 탐색 목적에 적합한 방법을 선택해야 한다.The outlier search method in univariate data is a method to search for outliers by first defining an outlier area in data with one variable. Since it is a concept that is judged according to whether the observed value is included in the defined outlier area, it is necessary to select a method suitable for the purpose of the search after checking the distribution type of the data.

단변량 자료에서 이상치 탐색 방법으로는 표준화 점수(Z-score), 통계적 가설 검정, 사분위수 범위를 포함한다. Methods for outlier detection in univariate data include standardized scores (Z-score), statistical hypothesis testing, and interquartile ranges.

표준화 점수를 활용한 이상치 탐색 방법에서, 표준화 점수는 평균이 μ이고, 표준편차가 σ인 정규분포를 따르는 관측치들이 자료의 중심(평균)에서 얼마나 떨어져 있는지를 반영한다. 일반적으로 표준화 점수의 절대값이 특정값 보다 큰 경우에 이상치로 정의되지만, 절대적인 기준은 없으므로 경험에 근거하여 이상치 판단 기준을 결정하는 것이 합리적인 대안이다. 그러나 표준화 점수는 평균과 표준편차에 의존하므로, 산출과정에 이상치의 영향을 받는다는 제한점이 있다. In the outlier search method using standardized scores, the standardized scores reflect how far away from the center (mean) of the data are observed values that follow a normal distribution with mean μ and standard deviation σ. In general, an outlier is defined when the absolute value of the standardized score is greater than a specific value, but since there is no absolute standard, it is a reasonable alternative to determine the outlier judgment standard based on experience. However, since the standardized score depends on the mean and standard deviation, there is a limitation that the calculation process is affected by outliers.

통계적 가설검정을 활용한 이상치 탐색은 최소값 혹은 최대값의 이상치 여부에 대한 검정으로, 이상치로 판단된 관측치를 제외해 나가면서 더 이상 이상치가 존재하지 않을 때까지 반복적으로 검정을 수행하여 이상치를 정의하는 방법이다. 통계적 가설검정을 활용한 이상치 탐색 방법은 딕슨 Q검정(Dixon Q-test), Grubbs test, Generalized ESD(extreme studentized deviate) 검정, 카이제곱 검정(Chi-square test) 등이 있다.Outlier search using statistical hypothesis testing is a test of whether the minimum or maximum value is an outlier. It excludes observations judged to be outliers and repeatedly performs tests until there are no more outliers to define outliers. way. Outlier detection methods using statistical hypothesis testing include the Dixon Q-test, the Grubbs test, the Generalized ESD (extreme studentized deviate) test, and the Chi-square test.

사분위수 범위(interquartile range, IQR)를 활용한 이상치 탐색은 상자그림에서 사분위수 범위의 1.5배를 초과하는 관측치는 이상치, 3배를 초과하는 관측치는 극단적 이상치로 정의하는 방법이다. 상자그림은 최소값, 최대값, 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)를 활용하여 자료를 시각적으로 요약한 그래프이다. 상자그림에서 표현되는 최소값과 최대값은 이상치를 제외한 자료의 최소값과 최대값을 의미하고, 사분위수 범위는 제3 사분위수와 제1사분위수의 차이를 말한다. Outlier search using the interquartile range (IQR) is a method in which observations that exceed 1.5 times the interquartile range are defined as outliers, and observations that exceed 3 times the interquartile range are extreme outliers. A boxplot is a graph that visually summarizes data using the minimum value, maximum value, first quartile (Q1), second quartile (Q2), and third quartile (Q3). The minimum and maximum values expressed in the box plot mean the minimum and maximum values of the data excluding outliers, and the interquartile range refers to the difference between the 3rd quartile and the 1st quartile.

수집된 데이터 자료가 시계열 자료가 아니고, 변수가 2개 이상인 경우 제3 그룹 탐색 방법(250)을 이용하여 데이터 이상치를 탐색한다.When the collected data is not time series data and has two or more variables, a data outlier is searched for using the third group search method 250 .

제3 그룹 탐색 방법은 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나를 이용한다.The third group search method uses at least one of regression diagnosis, Mahalanobis distance, LOF, and iForest.

다변량 자료에서 이상치 탐색 방법은 연관성이 존재하는 2개 이상의 변수 정보를 활용하여 관측치 사이의 거리, 밀도 등을 기반으로 이상치를 탐색하는 방법이다. The outlier search method in multivariate data is a method of searching for outliers based on the distance and density between observations by using the information of two or more variables that are correlated.

다변량 자료에서 이상치 탐색 방법에는 회귀진단(regression diagnostics), 마할라노비스 거리(Mahalanobis Distance), LOF(Local Outlier Factor), iForest(Isolation Forest)를 포함한다. Outlier detection methods in multivariate data include regression diagnostics, Mahalanobis distance, LOF (Local Outlier Factor), and iForest (Isolation Forest).

회귀 진단은 추정된 회귀식에 대한 전반적인 검토를 의미하며, 회귀식 추정에 영향을 미치는 극단치를 탐색하는 것을 포함한다. 회귀진단을 통한 이상치 탐색 방법의 통계량으로는 레버리지(leverage), 표준화 잔차(standardized residual), 스튜던트 잔차(studentized residual), 외적 스튜던트 잔차(studentized deleted residual), 쿡의 거리(Cook’s distance), DFFITS(difference of fits), DFBETAS(difference of betas) 등이 있다.Regression diagnosis means an overall review of the estimated regression equation, and includes searching for outliers that affect the estimation of the regression equation. Statistics of outlier search methods through regression diagnosis include leverage, standardized residual, studentized residual, studentized deleted residual, Cook's distance, and DFFITS (difference of fits), and DFBETAS (difference of betas).

레버리지는 독립변수의 각 관측치가 독립변수들의 평균에서 떨어진 정도를 반영하는 통계량으로, 0과 1 사이 값을 가지며, 일반적으로 레버리지 평균의 2~4배를 초과하는 관측치를 이상치로 정의한다. 표준화 잔차는 추정된 회귀모형에 의해 산출된 예측치와 실제로 측정된 관측치의 차이를 의미하는 잔차를 표준화한 통계량으로, 일반적으로 표준화 잔차의 절대값이 2 또는 3을 초과하는 관측치를 이상치로 정의한다. 스튜던트 잔차는 잔차를 잔차의 표준오차로 나눈 통계량으로 t-분포를 기반으로 이상치를 탐색하며, 절대값이 3 또는 4를 초과하면 이상치로 의심한다.Leverage is a statistic that reflects the degree to which each observation of an independent variable deviates from the average of independent variables. The standardized residual is a statistic standardizing the residual, which means the difference between the predicted value calculated by the estimated regression model and the actually measured observed value. In general, an observation whose absolute value of the standardized residual exceeds 2 or 3 is defined as an outlier. The student residual is a statistic obtained by dividing the residual by the standard error of the residual. An outlier is searched for based on the t-distribution, and an outlier is suspected if the absolute value exceeds 3 or 4.

스튜던트 제외 잔차는 해당 관측치를 제외하여 추정된 회귀모형으로부터 산출한 스튜던트 잔차를 의미하며, t-분포의 값을 기준으로 해당 관측치를 이상치로 결정한다. 쿡의 거리는 추정된 회귀모형에 대한 각 관측치들의 전반적인 영향력을 측정하기 위해 잔차와 레버리지를 동시에 고려한 척도로, 쿡의 거리가 1보다 큰 경우 이상치로 판단한다. DFFITS 통계량은 모든 관측치를 활용하여 추정된 회귀모형 예측치와 해당 관측치를 제외한 후 추정된 회귀모형의 예측치 변화 정도를 측정하는 방법으로 DFFITS 값이 클수록 이상치일 가능성이 높다. DFBETAS 통계량은 모든 관측치를 활용하여 추정된 회귀모형의 회귀계수와 해당 관측치를 제외한 후 추정된 회귀모형의 회귀 계수 변화 정도를 측정하는 방법으로 자료의 수가 적은 경우 DFBETAS 절대값이 1, 자료의 수가 많은 경우 절대값이 2/ 보다 크면 이상치로 판단한다.The Student's exclusion residual means the Student's residual calculated from the estimated regression model by excluding the corresponding observation, and the corresponding observation is determined as an outlier based on the value of the t-distribution. Cook's distance is a measure that simultaneously considers residuals and leverage to measure the overall influence of each observation on the estimated regression model. If Cook's distance is greater than 1, it is judged as an outlier. The DFFITS statistic is a method of measuring the predicted value of the regression model estimated using all observations and the degree of change in the predicted value of the regression model after excluding the observed value. The higher the DFFITS value, the higher the possibility of an outlier. The DFBETAS statistic is a method of measuring the regression coefficient of the regression model estimated using all observations and the degree of change in the regression coefficient of the regression model after excluding the corresponding observation. If the absolute value is greater than 2/, it is judged as an outlier.

마할라노비스 거리는 자료의 분포를 고려한 거리 측도이며, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량이다. 변수의 개수를 기준으로 카이제곱 분포의 임계값을 초과하는 경우 이상치로 정의된다. Mahalanobis distance is a distance measure that considers the distribution of data and is a statistic that measures the degree to which observations deviate from the mean. It is defined as an outlier if it exceeds the critical value of the chi-square distribution based on the number of variables.

LOF는 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적인 비교를 통해 이상치를 탐색하는 방법으로 값이 1에 가까울수록 주변의 관측치와 유사한 밀도임을 의미한다. 1보다 커질수록 밀도가 낮음을 의미하므로 이상치로 의심한다.LOF is a method of searching for outliers through a relative comparison between the density around an observation and the density around nearby observations. The closer the value is to 1, the more similar the density to the surrounding observations. If it is greater than 1, it means that the density is low, so it is suspected as an outlier.

iForest기법은 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터마이닝 기법인 의사 결정나무(decision tree)를 이용하여 이상치를 탐지하는 기법이다. 분류모형을 생성하여 모든 관측치를 고립시켜 나가면서 분할 횟수로 이상치를 탐색하며, 모형에서 적은 횟수로 Leaf 노드에 도달하는 관측치일수록 이상치일 가능성이 크다고 판단한다.The iForest method does not depend on the distance or density between observations, but uses a decision tree, a data mining technique, to detect outliers. While isolating all observations by creating a classification model, outliers are searched for by the number of splits, and observations that reach leaf nodes with a small number of times in the model are judged to be more likely to be outliers.

도 3은 본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정하는 일 실시예의 흐름도를 보여주는 도면이다.3 is a flowchart showing an embodiment of determining a final data outlier in the data outlier search method of the present invention.

본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정은 제1 그룹 탐색 방법 또는 제2 그룹 탐색 방법 또는 제3 그룹 탐색 방법 내의 여러 방법을 이용하여 복수의 데이터 이상치를 탐색한다(S310).To determine the final data outlier of the data outlier search method of the present invention, a plurality of data outliers are searched for using various methods in the first group search method, the second group search method, or the third group search method (S310).

즉, 데이터 자료의 속성에 따라 적당한 그룹 탐색 방법을 이용하여 해당 그룹 탐색 방법내의 여러 방법을 이용하여 데이터 이상치를 탐색한다.That is, an appropriate group search method is used according to the attribute of the data data, and data outliers are searched for using various methods within the corresponding group search method.

제1 그룹 탐색 방법 또는 제2 그룹 탐색 방법 또는 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교한다(S330).A plurality of data outliers searched for using different methods in the first group search method, the second group search method, or the third group search method are compared with each other (S330).

비교하는 단계에서의 비교 결과 동일한 데이터 이상치를 해당 그룹 탐색 방법을 이용하여 탐색된 최종 데이터 이상치로 확정한다(S350).As a result of the comparison in the step of comparing, the same data outlier is determined as the final data outlier found using the corresponding group search method (S350).

구체적으로, 단변량 자료에서 이상치 탐색 방법으로 제2 그룹 탐색 방법(230)을 이용하여 데이터 이상치를 탐색한다. 따라서, S330에서의 제2 그룹 탐색 방법내의 여러 방법을 이용하여 복수의 데이터 이상치를 탐색한다.Specifically, data outliers are searched for using the second group search method 230 as an outlier search method in univariate data. Therefore, a plurality of data outliers are searched for using various methods within the second group search method in S330.

표준화 점수(Z-score) 방법을 이용하여 A, B, C의 데이터가 이상치로 탐색되었다고 가정한다.Assume that the data of A, B, and C are detected as outliers using the standardized score (Z-score) method.

그리고 통계적 가설 검정을 이용하여 B, C, D의 데이터가 이상치로 탐색되었다고 가정한다.And it is assumed that the data of B, C, and D are detected as outliers using statistical hypothesis testing.

마지막으로 사분위수 범위를 이용하여, C,D,E의 데이터가 이상치로 탐색되었다고 가정한다.Finally, it is assumed that the data of C, D, and E are detected as outliers using the interquartile range.

도 3에 설명된 실시예는 데이터 자료의 속성에 따라 해당 그룹 탐색 방법내의 여러 방법을 이용하여 탐색된 데이터 이상치를 비교하고, 공통으로 탐색되는 데이터 이상치를 최종 이상치로 확정함으로써 정확한 데이터 이상치를 탐색할 수 있다.The embodiment described in FIG. 3 compares the data outliers searched for using various methods within the corresponding group search method according to the attributes of the data data, and determines the data outliers that are commonly searched for as the final outliers to accurately search for the data outliers. can

도 4는 본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정하는 다른 실시예의 흐름도를 보여주는 도면이다.4 is a flowchart showing another embodiment of determining the final data outlier in the data outlier search method of the present invention.

본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정은 제1 그룹 탐색 방법 또는 제2 그룹 탐색 방법 또는 제3 그룹 탐색 방법 내의 여러방법을 이용하여 복수의 데이터 이상치를 탐색한다(S410).In the data outlier search method according to the present invention, to determine the final data outlier, a plurality of data outliers are searched for using various methods in the first group search method, the second group search method, or the third group search method (S410).

제1 그룹 탐색 방법 또는 제2 그룹 탐색 방법 또는 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트하는 이상치 카운트 단계(S430)를 포함한다.and an outlier counting step ( S430 ) of counting the number of data outliers searched for using different methods within the first group search method, the second group search method, or the third group search method.

제1 그룹 탐색 방법 또는 제2 그룹 탐색 방법 또는 제3 그룹 탐색 방법 내의 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정하는 단계(S450)를 포함한다.and determining the data outliers obtained by using the search method for calculating the largest number of data outliers in the first group search method, the second group search method, or the third group search method as final data outliers (S450).

수집된 데이터 자료가 시계열 자료가 아니고, 변수가 2개 이상인 경우 제3 그룹 탐색 방법(250)을 이용하여 데이터 이상치를 탐색한다.When the collected data is not time series data and has two or more variables, a data outlier is searched for using the third group search method 250 .

제3 그룹 탐색 방법은 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나를 이용한다.The third group search method uses at least one of regression diagnosis, Mahalanobis distance, LOF, and iForest.

구체적으로, 본 발명의 데이터 이상치 탐색 방법의 최종 데이터 이상치를 확정을 위하여 회귀진단을 이용하여 데이터 이상치는 8개로 가정한다.Specifically, in order to determine the final data outliers of the data outlier search method of the present invention, it is assumed that there are 8 data outliers using regression diagnosis.

마할라노비스 거리를 이용한 경우 6개, LOF를 이용한 경우 10개 및 iForest를 이용한 경우 5개로 가정한다.It is assumed that 6 when using Mahalanobis distance, 10 when using LOF, and 5 when using iForest.

이때, 도 4에서 설명된 실시예를 이용하여 확정되는 최종 데이터 이상치는 10개로 LOF를 이용한 탐색 방법으로 획득된 것이다.At this time, the final data outliers determined using the embodiment described in FIG. 4 are 10, obtained by a search method using LOF.

도 4에서 설명된 실시예는 데이터 자료의 원하는 정도의 정확도에 따라 데이터 이상치의 한계 범위를 변화시킬 수 있다.The embodiment described in FIG. 4 may change the limit range of data outliers according to a desired degree of accuracy of data data.

따라서, 보다 정확한 뎅터 자료를 원하는 경우에는, 상기의 예에서 5개의 데이터 이상치를 산출한 iForest를 이용한 탐색 방법으로 획득된 것을 최종 데이터 이상치로 확정할 수 있다.Therefore, if more accurate data is desired, the data obtained by the search method using iForest, which calculated 5 data outliers in the above example, can be determined as the final data outliers.

도 5는 본 발명의 데이터 이상치 탐색 장치를 개략적으로 도시한 도면이다.5 is a diagram schematically illustrating an apparatus for detecting data outliers according to the present invention.

데이터 이상치 탐색 장치(500)는 데이터 수집부(510), 시계열 판단부(530), 제1 그룹 데이터 이상치 탐색부(550), 변수 판단부(570), 제2 그룹 데이터 이상치 탐색부(590) 및 제3 그룹 데이터 이상치 탐색부(595)를 포함한다.The data outlier search apparatus 500 includes a data collection unit 510, a time series determination unit 530, a first group data outlier search unit 550, a variable determination unit 570, and a second group data outlier search unit 590. and a third group data outlier search unit 595 .

데이터 수집부(510)는 데이터 자료를 수집한다.The data collecting unit 510 collects data materials.

시계열 판단부(530)는 수집된 상기 데이터 자료가 시계열 자료인지 여부를 판단한다.The time series determination unit 530 determines whether the collected data is time series data.

제1 그룹 데이터 이상치 탐색부(550)는 수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다.The first group data outlier search unit 550 searches for data outliers using a first group search method when the collected data is time series data.

변수 판단부(570)는 수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단한다.The variable determination unit 570 determines the number of variables when the collected data is not time series data.

제2 그룹 데이터 이상치 탐색부(590)는 변수가 1개인 경우 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다.When there is only one variable, the second group data outlier search unit 590 searches for data outliers using a second group search method different from the first group search method.

제3 그룹 데이터 이상치 탐색부(595)는 변수가 2개 이상인 경우 제1 그룹 탐색 방법 및 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색한다.The third group data outlier search unit 595 searches for data outliers using a third group search method different from the first group search method and the second group search method when there are two or more variables.

제1 그룹 데이터 이상치 탐색부(550), 제2 그룹 데이터 이상치 탐색부(590) 및 제3 그룹 데이터 이상치 탐색부(595)는 개별적으로 상이한 방법을 이용하여 복수의 데이터 이상치를 탐색한다.The first group data outlier search unit 550, the second group data outlier search unit 590, and the third group data outlier search unit 595 individually search for a plurality of data outliers using different methods.

도 6은 본 발명의 데이터 이상치 탐색 장치의 최종 데이터 이상치를 확정하는 일 실시예를 개략적으로 도시한 도면이다.6 is a diagram schematically illustrating an embodiment of determining the final data outlier of the data outlier search apparatus according to the present invention.

데이터 이상치 탐색 장치는 비교부(610), 이상치 카운트부(630) 및 데이터 이상치 확정부(650)를 더 포함한다.The data outlier search apparatus further includes a comparison unit 610 , an outlier count unit 630 and a data outlier determination unit 650 .

비교부(610)는 제1 그룹 데이터 이상치 탐색부 또는 제2 그룹 데이터 이상치 탐색부 또는 제3 그룹 데이터 이상치 탐색부에서 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교한다.The comparator 610 compares a plurality of data outliers detected using different methods in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit.

이상치 카운트부(630)는 제1 그룹 데이터 이상치 탐색부 또는 제2 그룹 데이터 이상치 탐색부 또는 제3 그룹 데이터 이상치 탐색부의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트한다.The outlier counting unit 630 counts the number of data outliers detected by using a method different from the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit.

데이터 이상치 확정부(650)는 비교부(610)의 비교 결과 동일한 데이터 이상치를 제1 그룹 데이터 이상치 탐색부 또는 제2 그룹 데이터 이상치 탐색부 또는 제3 그룹 데이터 이상치 탐색부의 최종 데이터 이상치로 확정한다.The data outlier determining unit 650 determines the same data outlier as the result of the comparison by the comparison unit 610 as the final data outlier of the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit.

데이터 이상치 확정부(650)는 제1 그룹 데이터 이상치 탐색부 또는 제2 그룹 데이터 이상치 탐색부 또는 제3 그룹 데이터 이상치 탐색부에서 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정하도록 추가로 구성된다.The data outlier determination unit 650 determines the data outliers obtained by using the search method for calculating the largest number of data outliers in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit. It is further configured to determine data outliers.

본 명세서에서는 본 발명자들이 수행한 다양한 실시예 가운데 몇 개의 예만을 들어 설명하는 것이나 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고, 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.In this specification, only a few examples of various embodiments performed by the present inventors are described, but the technical spirit of the present invention is not limited or limited thereto, and can be modified and implemented in various ways by those skilled in the art, of course.

Claims (10)

수집된 데이터 자료가 시계열(time series) 자료인지 여부를 판단하는 단계;
상기 수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계;
상기 수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단하는 단계;
상기 변수가 1개인 경우 상기 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계; 및
상기 변수가 2개 이상인 경우 상기 제1 그룹 탐색 방법 및 상기 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계를 포함하는, 데이터 이상치 탐색 방법.
Determining whether the collected data is time series data;
searching for data outliers using a first group search method when the collected data is time-series data;
determining the number of variables when the collected data is not time series data;
searching for data outliers using a second group search method different from the first group search method when the variable is one; and
and searching for data outliers using a third group search method different from the first group search method and the second group search method when the number of variables is two or more.
청구항 1에 있어서,
상기 제1 그룹 탐색 방법은 슈하르트(Shewhart) 관리도, 누적합(cumulative Sum) 관리도, 지수가중이동평균(exponentially weighted moving average) 방법 및 Hidiroglou-Berthelot 중 적어도 하나를 이용하고,
상기 제2 그룹 탐색 방법은 표준화 점수, 통계적 가설검정, 및 사분위수범위 중 적어도 하나를 이용하고, 및
상기 제3 그룹 탐색 방법은 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나를 이용하는, 데이터 이상치 탐색 방법.
The method of claim 1,
The first group search method uses at least one of a Shewhart control chart, a cumulative sum control chart, an exponentially weighted moving average method, and a Hidiroglou-Berthelot,
The second group search method uses at least one of a standardized score, a statistical hypothesis test, and an interquartile range, and
Wherein the third group search method uses at least one of regression diagnosis, Mahalanobis distance, LOF, and iForest.
청구항 2에 있어서,
상기 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계, 상기 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계 및 상기 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 단계는 각각의 그룹 탐색 방법 내의 상이한 방법을 이용하여 복수의 데이터 이상치를 탐색하는 단계를 포함하는, 데이터 이상치 탐색 방법.
The method of claim 2,
Searching for data outliers using the first group search method, searching for data outliers using the second group search method, and searching for data outliers using the third group search method are respectively A method for searching for data outliers, comprising: searching for a plurality of data outliers using different methods within a group search method.
청구항 3에 있어서,
상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교하는 단계; 및
상기 비교하는 단계에서의 비교 결과 동일한 데이터 이상치를 해당 그룹 탐색 방법의 최종 데이터 이상치로 확정하는 단계를 더 포함하는, 데이터 이상치 탐색 방법.
The method of claim 3,
comparing a plurality of data outliers searched for using different methods within the first group search method, the second group search method, or the third group search method; and
The data outlier search method further comprises a step of determining the same data outlier as the final data outlier of the corresponding group search method as a result of the comparison in the comparing step.
청구항 3에 있어서,
상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트하는 이상치 카운트 단계; 및
상기 제1 그룹 탐색 방법 또는 상기 제2 그룹 탐색 방법 또는 상기 제3 그룹 탐색 방법 내의 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정하는 단계를 더 포함하는, 데이터 이상치 탐색 방법.
The method of claim 3,
an outlier counting step of counting the number of data outliers found by using a method different from the first group search method, the second group search method, or the third group search method; and
Determining the data outliers obtained by using the search method for calculating the largest number of data outliers in the first group search method, the second group search method, or the third group search method as final data outliers. How to detect data outliers.
데이터 자료를 수집하는 데이터 수집부;
수집된 상기 데이터 자료가 시계열 자료인지 여부를 판단하는 시계열 판단부;
상기 수집된 데이터 자료가 시계열 자료인 경우 제1 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제1 그룹 데이터 이상치 탐색부;
상기 수집된 데이터 자료가 시계열 자료가 아닌 경우 변수의 개수를 판단하는 변수 판단부;
상기 변수가 1개인 경우 상기 제1 그룹 탐색 방법과 상이한 제2 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제2 그룹 데이터 이상치 탐색부;
상기 변수가 2개 이상인 경우 상기 제1 그룹 탐색 방법 및 상기 제2 그룹 탐색 방법과 상이한 제3 그룹 탐색 방법을 이용하여 데이터 이상치를 탐색하는 제3 그룹 데이터 이상치 탐색부를 포함하는, 데이터 이상치 탐색 장치.
a data collection unit that collects data;
a time-series determination unit determining whether the collected data is time-series data;
a first group data outlier search unit for searching for data outliers using a first group search method when the collected data is time series data;
a variable determining unit determining the number of variables when the collected data is not time series data;
a second group data outlier search unit for searching for data outliers using a second group search method different from the first group search method when the variable is one;
and a third group data outlier search unit for searching for data outliers using a third group search method different from the first group search method and the second group search method when the variables are two or more.
청구항 6에 있어서,
상기 제1 그룹 데이터 이상치 탐색부는 슈하르트(Shewhart) 관리도, 누적합(cumulative Sum) 관리도, 지수가중이동평균(exponentially weighted moving average) 방법 및 Hidiroglou-Berthelot 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색하고,
상기 제2 그룹 데이터 이상치 탐색부는 표준화 점수, 통계적 가설검정, 및 사분위수범위 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색하고,
상기 제3 그룹 데이터 이상치 탐색부는 회귀진단, 마할라노비스 거리, LOF 및 iForest 중 적어도 하나의 탐색 방법을 이용하여 데이터 이상치를 탐색하는, 데이터 이상치 탐색 장치.
The method of claim 6,
The first group data outlier search unit uses at least one search method among a Shewhart control chart, a cumulative sum control chart, an exponentially weighted moving average method, and a Hidiroglou-Berthelot data look for outliers,
The second group data outlier search unit searches for data outliers using at least one search method among a standardized score, a statistical hypothesis test, and an interquartile range;
Wherein the third group data outlier search unit searches for data outliers using at least one search method selected from regression diagnosis, Mahalanobis distance, LOF, and iForest.
청구항 7에 있어서,
상기 제1 그룹 데이터 이상치 탐색부, 상기 제2 그룹 데이터 이상치 탐색부 및 상기 제3 그룹 데이터 이상치 탐색부는 개별적으로 상이한 방법을 이용하여 복수의 데이터 이상치를 탐색하는, 데이터 이상치 탐색 장치.
The method of claim 7,
wherein the first group data outlier search unit, the second group data outlier search unit, and the third group data outlier search unit respectively search for a plurality of data outliers using different methods.
청구항 8에 있어서,
상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부에서 상이한 방법을 이용하여 탐색된 복수의 데이터 이상치를 서로 비교하는 비교부; 및
상기 비교부의 비교 결과 동일한 데이터 이상치를 상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부의 최종 데이터 이상치로 확정하는 데이터 이상치 확정부를 더 포함하는, 데이터 이상치 탐색 장치.
The method of claim 8,
a comparator for comparing a plurality of data outliers discovered by using different methods in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit; and
Further comprising a data outlier determination unit for determining the same data outlier as a result of the comparison by the comparison unit as a final data outlier of the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit. Outlier search device.
청구항 9에 있어서,
상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부의 상이한 방법을 이용하여 탐색된 데이터 이상치를 개수를 카운트하는 이상치 카운트부를 더 포함하고,
상기 데이터 이상치 확정부는 상기 제1 그룹 데이터 이상치 탐색부 또는 상기 제2 그룹 데이터 이상치 탐색부 또는 상기 제3 그룹 데이터 이상치 탐색부에서 가장 많은 데이터 이상치를 산출하는 탐색 방법을 이용하여 획득된 데이터 이상치를 최종 데이터 이상치로 확정하는, 데이터 이상치 탐색 장치.
The method of claim 9,
an outlier counting unit counting the number of data outliers found using a different method of the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit;
The data outlier determination unit determines the data outlier obtained by using a search method for calculating the largest number of data outliers in the first group data outlier search unit, the second group data outlier search unit, or the third group data outlier search unit. A data outlier search device that determines data outliers.
KR1020220131247A 2022-10-13 2022-10-13 Data outlier detection apparatus and method KR102470763B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220131247A KR102470763B1 (en) 2022-10-13 2022-10-13 Data outlier detection apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220131247A KR102470763B1 (en) 2022-10-13 2022-10-13 Data outlier detection apparatus and method

Publications (1)

Publication Number Publication Date
KR102470763B1 true KR102470763B1 (en) 2022-11-25

Family

ID=84237507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220131247A KR102470763B1 (en) 2022-10-13 2022-10-13 Data outlier detection apparatus and method

Country Status (1)

Country Link
KR (1) KR102470763B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640983B1 (en) * 2022-12-21 2024-02-23 재단법인차세대융합기술연구원 Analysis server that symbolize time series data by reflecting outlier and increasing/decreasing trend and data analysis method thereof
KR102645672B1 (en) 2023-10-23 2024-03-11 주식회사 에코시안 System and method for real-time pretreatment of building energy consumption to secure high-quality data in BEMS

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101172579B1 (en) 2009-12-15 2012-08-09 한국과학기술원 Pattern-based method and apparatus of identifying data with abnormal attributes
KR20150120160A (en) * 2014-04-17 2015-10-27 두산인프라코어 주식회사 Method and apparatus for determining abnormal vibration in machine tool
KR101692611B1 (en) 2015-02-27 2017-01-17 충북대학교 산학협력단 Apparatus and Method for Evaluating Outlierness based on Data Association
KR20180057829A (en) * 2016-11-23 2018-05-31 한양대학교 산학협력단 Method for controlling sensor based on statistical process control
KR20190062739A (en) * 2017-11-29 2019-06-07 달리웍스 주식회사 Method, algorithm and device for Data analytics for predictive maintenance using multiple sensors
KR20210153785A (en) * 2020-06-10 2021-12-20 한국전자통신연구원 Method for anomaly behavior detection system using multiple machine learning models, and apparatus for the same
KR20220014086A (en) * 2020-07-28 2022-02-04 한국전자통신연구원 Method and Apparatus for Intelligent Operation Management of Infrastructure
KR20220043547A (en) * 2020-09-29 2022-04-05 주식회사 포스코아이씨티 System And Method for Detecting Abnormal Control Data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101172579B1 (en) 2009-12-15 2012-08-09 한국과학기술원 Pattern-based method and apparatus of identifying data with abnormal attributes
KR20150120160A (en) * 2014-04-17 2015-10-27 두산인프라코어 주식회사 Method and apparatus for determining abnormal vibration in machine tool
KR101692611B1 (en) 2015-02-27 2017-01-17 충북대학교 산학협력단 Apparatus and Method for Evaluating Outlierness based on Data Association
KR20180057829A (en) * 2016-11-23 2018-05-31 한양대학교 산학협력단 Method for controlling sensor based on statistical process control
KR20190062739A (en) * 2017-11-29 2019-06-07 달리웍스 주식회사 Method, algorithm and device for Data analytics for predictive maintenance using multiple sensors
KR20210153785A (en) * 2020-06-10 2021-12-20 한국전자통신연구원 Method for anomaly behavior detection system using multiple machine learning models, and apparatus for the same
KR20220014086A (en) * 2020-07-28 2022-02-04 한국전자통신연구원 Method and Apparatus for Intelligent Operation Management of Infrastructure
KR20220043547A (en) * 2020-09-29 2022-04-05 주식회사 포스코아이씨티 System And Method for Detecting Abnormal Control Data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640983B1 (en) * 2022-12-21 2024-02-23 재단법인차세대융합기술연구원 Analysis server that symbolize time series data by reflecting outlier and increasing/decreasing trend and data analysis method thereof
KR102645672B1 (en) 2023-10-23 2024-03-11 주식회사 에코시안 System and method for real-time pretreatment of building energy consumption to secure high-quality data in BEMS

Similar Documents

Publication Publication Date Title
KR102470763B1 (en) Data outlier detection apparatus and method
US9384603B2 (en) Failure cause classification apparatus
Rahman et al. Multiple linear regression models in outlier detection
US7405088B2 (en) Method for analyzing fail bit maps of waters and apparatus therefor
US20130173332A1 (en) Architecture for root cause analysis, prediction, and modeling and methods therefor
US11170332B2 (en) Data analysis system and apparatus for analyzing manufacturing defects based on key performance indicators
US7584162B2 (en) Manufacture data analysis method and manufacture data analyzer apparatus
CN113092981B (en) Wafer data detection method and system, storage medium and test parameter adjustment method
US10409817B1 (en) Database system and methods for domain-tailored detection of outliers, patterns, and events in data streams
US20220027230A1 (en) Predicting Equipment Fail Mode from Process Trace
CN110543907A (en) fault classification method based on microcomputer monitoring power curve
CN111310275B (en) Bridge disease big data analysis method
JP7354421B2 (en) Error factor estimation device and estimation method
CN110226160B (en) State analysis device, state analysis method, and storage medium
CN113987240B (en) Customs inspection sample tracing method and system based on knowledge graph
JP4758619B2 (en) Problem process identification method and apparatus
TWI823107B (en) Learning device, defective detection device and defective detection method
JP6904331B2 (en) Factor analyzers, factor analysis methods, and programs
KR102428867B1 (en) Method for analysing simility of time-series data considering the change trend
CN114912678A (en) Online automatic detection and early warning method and system for abnormal operation of power grid regulation and control
CN110334721B (en) Oil quality analysis system based on big data
D’Orazio Some Approaches to Outliers’ Detection in R
Turkoglu et al. Application of data mining in failure estimation of cold forging machines: An industrial research
CN114418600B (en) Food input risk monitoring and early warning method
KR20200026359A (en) Web service implementation method of db based on pls-da

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant