KR102544293B1 - 이상치 탐지 및 제거 방법 - Google Patents

이상치 탐지 및 제거 방법 Download PDF

Info

Publication number
KR102544293B1
KR102544293B1 KR1020200147688A KR20200147688A KR102544293B1 KR 102544293 B1 KR102544293 B1 KR 102544293B1 KR 1020200147688 A KR1020200147688 A KR 1020200147688A KR 20200147688 A KR20200147688 A KR 20200147688A KR 102544293 B1 KR102544293 B1 KR 102544293B1
Authority
KR
South Korea
Prior art keywords
data
graph
linear regression
regression equation
detecting
Prior art date
Application number
KR1020200147688A
Other languages
English (en)
Other versions
KR20220061569A (ko
Inventor
김화진
김예진
강현구
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020200147688A priority Critical patent/KR102544293B1/ko
Publication of KR20220061569A publication Critical patent/KR20220061569A/ko
Application granted granted Critical
Publication of KR102544293B1 publication Critical patent/KR102544293B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Combustion & Propulsion (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Food Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 선형회귀식을 포함하는 그래프를 생성하는 단계; 상기 선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계; 상기 선형회귀식 및 상기 거리상수에 근거하여 이상치를 탐지해내는 단계; 및 상기 이상치를 상기 그래프에서 제거하는 단계를 포함하는 것을 특징으로 하는 이상치 탐지 및 제거 방법을 제공한다.

Description

이상치 탐지 및 제거 방법{Outlier Detecting and Removing Method}
본 발명은 이상치 자동 탐지 및 제거 방법에 관한 것으로서, 보다 상세하게는 수집한 데이터들 중 너무 높거나 낮은 이상치(outlier)를 자동으로 인지한 후 이를 제거하는 이상치 자동 탐지 및 제거 방법에 관한 것이다.
기술의 발전과 함께 사용하는 데이터의 종류와 양이 기하급수적으로 증가하고 있다. 이러한 방대한 양의 데이터를 '빅데이터(Big Data)'라고 한다.
빅데이터는 처리가 힘든 만큼 규모가 크고, 생성되는 주기도 짧으며, 데이터의 형태도 다양하다. 빅데이터의 역할과 중요성이 점점 커지면서 국내의 공공기관, 민간기업, 의료 보건분야 및 환경분야 등 다방면에서 빅데이터를 활용하고 있다.
특히, 대기 환경분야에서는 상시 집중 측정소에서 수집한 실시간 측정 데이터를 이용하여 환경오염 연구에 활용하고 있다. 오염이 어디서 왔는지, 오염에 기여하는 요인들이 무엇인지 밝히고 궁극적으로 이를 해결할 방법을 찾을 수 있다. 오염의 원인과 영향을 실시간으로 측정 가능하게 해준다는 면에서 유용하지만, 빅데이터를 효과적으로 다루기란 쉬운 일이 아니며, 때문에 이를 위한 적절한 시스템의 확보가 필수적이다.
데이터를 수집하는 과정에서 일반적인 경향을 벗어난 너무 높거나 낮은 데이터가 발생할 수 있는데, 이를 이상치(outlier)라 한다. 측정 기기의 고장, 갑작스런 환경 변화 등과 같은 이유로 발생하는 이상치는 데이터 분석 결과에 영향을 주기 때문에 이를 파악하고 조정해야 한다.
하지만, 실시간으로 측정되어 여러 날에 걸쳐 쌓이는 다량의 데이터를 개별적으로 하나하나 분석하여 제거하는 것은 경제적ㆍ시간적으로 많은 비용을 필요로 한다. 또한, 이상치 데이터 그 자체도 의미가 있을 수 있기 때문에 임의로 제거해서는 안되며, 적절한 이상치 판단 기준을 세워 신중히 해야 한다.
기존에는 상위 및 하위 몇 %를 적용하여 수동으로 이상치를 제거하던 방법이 알려져 있는데, 이상치를 판단하는 통계기법을 적용하여 이상치를 자동ㆍ객관적으로 판단하여 제거할 수 있는 방법의 개발이 요구된다.
등록 특허 제10-1800281호(2017.11.22)
본 발명은 상기의 과제를 해결하기 위해 안출된 것으로서, 본 발명의 일 목적은 자동화 분석방법을 통해, 수동으로 다루기 힘든 많은 양의 데이터들 중 이상치 데이터를 빠르게 탐지하여 제거하는 방법을 제공하는 것이다.
또한, 본 발명의 다른 일 목적은 신속한 분석을 가능하게 해주고, 결과의 객관성을 높여주는 방법을 제공하는 것이다.
상기의 과제를 해결하기 위해 본 발명의 이상치 탐지 및 제거 방법은, 선형회귀식을 포함하는 그래프를 생성하는 단계; 상기 선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계; 상기 선형회귀식 및 상기 거리상수에 근거하여 이상치를 탐지해내는 단계; 및 상기 이상치를 상기 그래프에서 제거하는 단계를 포함한다.
본 발명과 관련된 일 예에 따르면, 상기 거리상수는, 수학식 d = s / (p * M)에 의해 도출되고, 상기 d는 거리 상수이고, 상기 s는, 상기 선형회귀식에 기 결정된 입력값에 대한 예측값과, 측정에 의해 산출되는 측정값의 차이의 제곱하여 합한 값들이고, 상기 p는 상기 선형회귀식의 계수이고, 상기 M은 평균제곱오차이다.
바람직하게는, 상기 이상치는, 상기 거리상수의 3배 이상의 값이다.
또한, 상기 거리상수는 쿡스의 거리(Cook's Distance)값일 수 있다.
또한, 본 발명과 관련된 다른 일 예에 따르면, 상기 그래프는 x축이 측정 날짜이고, y축이 농도인, 시계열 그래프일 수 있다.
상기 농도는 오염원의 농도일 수 있다.
본 발명의 이상치 탐지 및 제거 방법은 대기 측정자료에 적용될 수 있다.
본 발명은, 다량의 데이터들을 자동으로 처리하여 수동작업에 비해 시간과 비용을 줄일 수 있다.
또한, 본 발명은, 이상치들을 제거함으로써 적절한 모델을 만들고 모델의 정확도를 높일 수 있다.
또한, 본 발명은, 프로그램 자체에서 과학적 기준을 가지고 처리하기 때문에 신뢰도가 높다.
또한, 본 발명은, 광범위한 데이터를 수집하고 다루어야 하는 지자체, 연구소, 기업 등에서 유용하게 활용할 수 있다.
도 1a는 본 발명의 이상치 탐지 및 제거 방법을 도시하는 순서도이다.
도 1b는 쿡스의 거리 값을 가지고 이상치를 탐지하고 이를 제거하여 최종 그래프로 나타내는 순서도이다.
도 1c는 수집한 데이터 웨이브에 기반하여 시계열 그리프를 생성하고 이상치가 제거되는 예를 도시하는 그래프를 포함하는 순서도이다.
도 2는 웨이브(wave) 명령어를 통해 데이터를 불러오는 과정을 나타낸다.
도 3은 농도 데이터를 기반으로 선형회귀식을 생성하고, 평균제곱오차(MSE)를 구하는 과정을 나타낸다.
도 4은 쿡스의 거리 값를 계산하는 과정을 나타낸다.
도 5는 쿡스의 거리 값의 평균값을 이용하여 한계치를 구하는 과정을 나타낸다.
도 6는 앞서 구한 값들을 불러들여 그리고자 하는 그래프들을 생성하는 과정을 나타낸다.
도 7은 수집한 데이터에 의해 생성된 시계열 그래프이다.
도 8은 선형회귀식을 생성하고 이상치를 탐지해 표시한 그래프이다.
도 9은 농도 데이터에 대한 각각의 쿡스의 거리 값을 표시한 그래프이다.
도 10는 이상치 데이터들이 표시된 시계열 그래프이다.
도 11은 탐지된 이상치를 제거하여 생성된 그래프이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일, 유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1a는 본 발명의 이상치 탐지 및 제거 방법(S100)을 도시하는 순서도이다.
도 1a를 참조하면, 본 발명의 이상치 탐지 및 제거 방법(S100)은, 선형회귀식을 포함하는 그래프를 생성하는 단계(S10), 상기 선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계(S20), 상기 선형회귀식 및 상기 거리상수에 근거하여 이상치를 탐지해내는 단계(S30), 및 상기 이상치를 상기 그래프에서 제거하는 단계(S40)를 포함한다.
또한, 본 발명의 이상치 탐지 및 제거 방법(S100)은 Igor pro 소프트웨어를 기반으로 할 수 있다.
또한, 본 발명의 이상치 탐지 및 제거 방법(S100)은 대기 측정자료에 적용될 수 있다.
선형회귀식을 포함하는 그래프를 생성하는 단계(S10)에서, 그래프의 x축은 측정 날짜이고, 그래프의 y축은 농도인 시계열 그래프일 수 있다. 그래프의 y축에 표현되는 농도는 대기 측정자료에 나타나는 오염원의 농도일 수 있다.
본 발명에서, 이상치의 판단은, 특정 데이터가 전체 데이터에 얼마나 영향을 주는지를 통해 정할 수 있다.
일례로, 본 발명에서는, 이상치의 판단을 위해 거리상수를 도출해내고 이를 이용할 수 있다.
선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계(S20)에서, 거리상수는, 수학식 d = s / (p * M)에 의해 도출될 수 있고, 상기 d는 거리상수이고, 상기 s는, 상기 선형회귀식에 기 결정된 입력값에 대한 예측값과, 측정에 의해 산출되는 측정값의 차이의 제곱하여 합한 값들이고, 상기 p는 상기 선형회귀식의 계수이고, 상기 M은 평균제곱오차일 수 있다.
선형회귀식의 계수인 p는, 일례로, 후술하는 선형회귀식 y=ax+b에서 a일 수 있고, 선형(linear)이므로, p는 1의 값을 가질 수 있다. 본 발명에서 선형회귀식은 측정값과 예측값을 비교를 가능하게 할 수 있다.
평균제곱오차인 M은, 오차의 제곱에 대해 평균을 취한 값으로, 작을 수록 원본과의 오차가 적은 것이므로 추측한 값의 정확성이 높은 것이다. 한편, 오차의 의미는 모든 데이터를 가지고 피팅(fitting)했을 때 j 번째 관찰값의 예측값과 i 번째 관찰값을 제외했을 때의 j 번째 예측값의 차이이다. 이러한 차이가 크면 이상치라고 판단될 수 있다.
또한, 상기 s는, 다시 설명하면, s = ∑(c-d)^2의 수학식으로 표현되고, c는 선형회귀식에 기 결정된 입력값에 대한 예측값, d는 측정에 의해 산출되는 측정값이다.
또한, 본 발명에서, 거리상수는, 사용할 수 있는 이상치 판단 통계 기법 중의 쿡스의 거리(Cook's Distance)값일 수 있다.
쿡스의 거리값은, 방대한 데이터 중 한 데이터 포인트씩 제외해 가면서 회귀식을 적용한 후 원래 회귀식 모형과 얼마나 달라졌는가를 기울기 변화를 측정하여 검토하는 통계기법이다.
또한, 선형회귀식 및 거리상수에 근거하여 이상치를 탐지해내는 단계(S30)에서, 본 발명에서 이상치는 거리상수의 3배 이상인 값일 수 있다. 또한, 본 발명에서 거리상수의 3배 이상인 값을 한계치로 규정할 수 있다.
본 발명에서의 거리상수에 근거하여, 일정 이상의 기울기 변화가 있을 시 이상치로 간주되어 그래프에서 제거되게 되며, 이러한 경우 다른 분석방법을 시도하거나 데이터에 대한 재고가 필요할 수도 있다.
따라서, 본 발명은 거리상수에 근거하여, 이상치를 판단하고 이상치를 적절히 제거하는 과정을 자동화하여 빅데이터에 적용할 수 있다.
이하, 본 발명의 이상치 탐지 및 제거 방법(S100)에 의해 그래프 내에서 이상치가 탐지 및 제거되는 예에 대하여 서술한다.
도 2를 참조하면, 웨이브(wave) 명령어를 통해 데이터를 불러들이는 예가 도시된다. 도 2에서는 BC_Conc 및 t_MAAP을 불러왔다. newdatafolder라는 오퍼레이션을 통해 root안에 FindOutliers 폴더를 만들어 불러들인 데이터의 위치를 지정해주는 과정이 도시된다.
이상치를 제거하고자 하는 데이터에 대하여 y축은 농도, x축은 측정 날짜로 하는 시계열 그래프를 만든다.
도 6에서는 앞서 구한 값들을 불러들여 그리고자 하는 그래프들을 생성하는 과정이 표현되고, 도 7에는 수집한 데이터에 의해 생성된 시계열 그래프가 도시된다.
본 발명에서 농도는 오염 물질의 농도일 수 있다.
이를 통해 시간에 따른 농도 변화를 확인할 수 있다. 두 번째 그래프에서는 농도에 대한 선형회귀식을 생성한다. 측정치와 예측치의 오차의 제곱의 합이 최소가 되게 하는 직선을 찾아 함수로 나타낸 것이 선형회귀식이다.
선형회귀식은 일례로, y=ax+b일 수 있으며, 선형회귀식에서 a를 회귀계수, b를 y절편이라고 부른다.
도 9에는 각 농도에 따른 쿡스의 거리값이 표시된다. 쿡스의 거리값은 선형회귀식 기울기에 대한 영향력을 나타낸 것이다.
y=ax+b라는 선형회귀식에서, x 변수에 어떤 값을 넣었을 때 나오는 y값을 예측값이고, 실제로 측정에 의해 나오는 y값은 측정값이다. 이 예측값과 측정값의 차이를 제곱하여 합한 값(s)을 회귀식의 계수(p)와 평균제곱오차(M)를 곱한 값으로 나눈다.
도 3에는 농도 데이터를 기반으로 선형회귀식을 생성하고, 평균제곱오차(MSE)를 구하는 과정이 도시된다. 평균제곱오차는 예측값과 측정값의 오차를 제곱하여 평균한 것으로, 측정치의 정확도를 평가할 수 있다.
또한, 도 4은 쿡스의 거리 값를 계산하는 과정이 도시되는데, 일례로, 도 4의 프로그램 내에서 전술한 s는 v_sum, M은 v_MSE로 표현되어 있는 예가 도시된다.
도 5를 참조하면, 앞서 분석한 선형회귀식과 쿡스의 거리값을 이용하여 한계치를 설정하는 예가 도시된다. 본 발명에서, 한계치는 쿡스의 거리값의 3배로 설정되었다. 즉, 각 데이터마다 쿡스의 거리값이 계산되고, 평균보다 3배이상 차이나는 점들을 이상치로 처리하도록 설정한 것이다. 3배라고 설정한 한계치는 과도한 자료 제거를 방지하기 위해 조정 가능하다. 쿡스의 거리값을 이용해 찾은 이상치들을 시계열 그래프 상에 표시하였다. 마지막으로 이상치를 제거한 그래프를 생성한다.
도 4는 각각의 웨이브에 대한 쿡스의 거리값을 계산하는 과정이다. 도 3에서 구한 평균제곱오차 값을 활용하여 구할 수 있다.
도 5에서는 쿡스의 거리값의 3배가 넘는 웨이브 값들을 이상치라고 설정하였다. 이때, 3배라고 설정한 한계치 값은 조정 가능하다.
도 6에서는 디스플레이(Display) 명령을 사용하여 그리고자 하는 그래프들을 생성하였다. 첫 번째로 y축은 쿡스의 거리값, x축은 농도(concentration)(w_RegX)로 하는 그래프가 그려진다. 두 번째로 y축은 농도, x축은 날짜 및 시간(Date&Time)으로 하는 그래프가 그려진다. 세 번째로 y축은 "x+1"(w_RegY), x축은 "x"(w_RegX)로 하는 선형회귀식이 그려진다.
위 과정을 통해 도 7 그래프에서 최종적으로 이상치가 제거된 도 11 그래프가 만들어진다.
본 발명의 이상치 탐지 및 제거 방법(S100)은 많은 양의 데이터를 빠르고 정확하게 분석하여 그래프 내에서 이상치를 판별하고 제거할 수 있다.
이상에서 설명한 이상치 탐지 및 제거 방법(S100)은 위에서 설명된 실시예들의 구성과 방법에 한정되는 것이 아니라, 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
S100:이상치 탐지 및 제거 방법
S10:선형회귀식을 포함하는 그래프를 생성하는 단계
S20:선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계
S30:선형회귀식 및 거리상수에 근거하여 이상치를 탐지해내는 단계
S40:이상치를 그래프에서 제거하는 단계

Claims (7)

  1. Igor pro 소프트웨어를 이용하여 대기 측정자료의 오염원 농도 데이터로부터 이상치 데이터를 탐지 및 제거하는 방법으로서,
    상기 오염원 농도 데이터를 기초한 선형회귀식을 포함하는 그래프를 생성하는 단계;
    상기 선형회귀식의 기울기에 근거하여 거리상수를 도출해내는 단계;
    상기 선형회귀식 및 상기 거리상수에 근거하여 이상치를 탐지해내는 단계;
    상기 이상치를 상기 그래프에서 제거하는 단계; 및
    상기 그래프로부터 상기 이상치가 제거된 최종 그래프를 생성하는 단계;를 포함하고,
    상기 그래프는, 그 x축이 측정 날짜이고, y축이 오염원의 농도인 시계열 그래프인 것을 특징으로 하는 대기 측정자료의 오염원 농도 데이터로부터 이상치 데이터 탐지 및 제거 방법.
  2. 제1항에 있어서,
    상기 거리상수는, 수학식 d = s / (p * M)에 의해 도출되고,
    상기 d는 거리 상수이고,
    상기 s는, 상기 선형회귀식에 기 결정된 입력값에 대한 예측값과, 측정에 의해 산출되는 측정값의 차이의 제곱하여 합한 값들이고,
    상기 p는 상기 선형회귀식의 계수이고,
    상기 M은 평균제곱오차인 것을 특징으로 하는 대기 측정자료의 오염원 농도 데이터로부터 이상치 데이터 탐지 및 제거 방법.
  3. 제2항에 있어서,
    상기 이상치는, 상기 거리상수의 3배 이상의 값인 것을 특징으로 하는 대기 측정자료의 오염원 농도 데이터로부터 이상치 데이터 탐지 및 제거 방법.
  4. 제2항에 있어서,
    상기 거리상수는 쿡스의 거리(Cook's Distance)값인 것을 특징으로 하는

    대기 측정자료의 오염원 농도 데이터로부터 이상치 데이터 탐지 및 제거 방법.

  5. 삭제
  6. 삭제
  7. 삭제
KR1020200147688A 2020-11-06 2020-11-06 이상치 탐지 및 제거 방법 KR102544293B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200147688A KR102544293B1 (ko) 2020-11-06 2020-11-06 이상치 탐지 및 제거 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200147688A KR102544293B1 (ko) 2020-11-06 2020-11-06 이상치 탐지 및 제거 방법

Publications (2)

Publication Number Publication Date
KR20220061569A KR20220061569A (ko) 2022-05-13
KR102544293B1 true KR102544293B1 (ko) 2023-06-20

Family

ID=81583215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200147688A KR102544293B1 (ko) 2020-11-06 2020-11-06 이상치 탐지 및 제거 방법

Country Status (1)

Country Link
KR (1) KR102544293B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786281B (zh) * 2024-02-23 2024-06-25 中国海洋大学 一种沉积物柱状样沉积速率与误差的优化计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166644A (ja) * 2007-01-04 2008-07-17 Nec Electronics Corp 集積回路装置異常検出装置、方法およびプログラム
US20200344948A1 (en) * 2016-08-11 2020-11-05 The Climate Corporation Automatically detecting outlier values in harvested data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101800281B1 (ko) 2017-05-11 2017-11-22 엘아이지넥스원 주식회사 수치 지형 표고 데이터를 이용한 초고주파 영상의 표적 탐지 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008166644A (ja) * 2007-01-04 2008-07-17 Nec Electronics Corp 集積回路装置異常検出装置、方法およびプログラム
US20200344948A1 (en) * 2016-08-11 2020-11-05 The Climate Corporation Automatically detecting outlier values in harvested data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김진휘, "이상치 탐색을 위한 통계적 방법", HIRA 정책동향 2020년 제14권 제1호, (2020.1.1.)*
전영태외 2명, "Outlier 데이터 제거를 통한 미세먼지 예보성능의 향상", Journal of Korea Multimedia Society Vol. 23, No.6, (2020.6.30.)*

Also Published As

Publication number Publication date
KR20220061569A (ko) 2022-05-13

Similar Documents

Publication Publication Date Title
Garnier Direct continuous-time approaches to system identification. Overview and benefits for practical applications
CN111123188A (zh) 基于改进最小二乘法的电能表综合检定方法及系统
Jablonski et al. Modeling of probability distribution functions for automatic threshold calculation in condition monitoring systems
CN102473660B (zh) 等离子加工系统自动瑕疵检测和分类及其方法
CN111650345B (zh) 大气环境污染检测数据的处理方法、装置、设备及介质
CN110083803B (zh) 基于时间序列arima模型取水异常检测方法与系统
CN110990393B (zh) 一种行业企业数据异常行为的大数据识别方法
KR100679721B1 (ko) 반도체 공정장비의 변동 감지방법
JP2015011027A (ja) 時系列データにおける異常を検出する方法
CN111811567B (zh) 一种基于曲线拐点比对的设备检测方法及相关装置
KR102549313B1 (ko) 오염물질 배출수준 산정 시스템 및 방법
KR102544293B1 (ko) 이상치 탐지 및 제거 방법
CN116985183B (zh) 一种近红外光谱分析仪质量监测管理方法及系统
Lu et al. Trend extraction and identification method of cement burning zone flame temperature based on EMD and least square
KR101998972B1 (ko) 변수 구간별 불량 발생 지수를 도출하여 공정 불량 원인을 파악하고 시각화하는 방법
JP4610946B2 (ja) におい特定方法
CN115565623A (zh) 一种煤地质成分的分析方法、系统、电子设备及存储介质
CN106407246B (zh) Sql执行计划管理的方法及装置
Rizvi et al. Synchrophasor based ZIP parameters tracking using ML with adaptive window and data anomalies
US8682946B1 (en) Robust peak finder for sampled data
CN117315365A (zh) 一种基于视觉分析的凸轮轴表面损伤检测系统
US20130191071A1 (en) System and method for automatic modal parameter extraction in structural dynamics analysis
Beljadid et al. Application of deep learning for the detection of default in fabric texture
CN106706559A (zh) 落叶含水率的测量方法、系统及服务器
CN111272457A (zh) 基于温度数据的机械状态检测方法和电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant