KR101677008B1 - Tsd 기반 데이터 예측 방법 - Google Patents

Tsd 기반 데이터 예측 방법 Download PDF

Info

Publication number
KR101677008B1
KR101677008B1 KR1020150163397A KR20150163397A KR101677008B1 KR 101677008 B1 KR101677008 B1 KR 101677008B1 KR 1020150163397 A KR1020150163397 A KR 1020150163397A KR 20150163397 A KR20150163397 A KR 20150163397A KR 101677008 B1 KR101677008 B1 KR 101677008B1
Authority
KR
South Korea
Prior art keywords
data
seasonality
model
regression
tsd
Prior art date
Application number
KR1020150163397A
Other languages
English (en)
Inventor
김철
남상훈
Original Assignee
(주)엔키아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엔키아 filed Critical (주)엔키아
Priority to KR1020150163397A priority Critical patent/KR101677008B1/ko
Application granted granted Critical
Publication of KR101677008B1 publication Critical patent/KR101677008B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06K9/00563
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 TSD 기반 데이터 예측 방법에 관한 것으로서, 더욱 상세하게는, IT 자원 모니터링을 위한 데이터 예측에 있어 시계열 데이터의 적절한 추세(Trend) 탐지, 최적의 계절성(Seasonality) 탐지, 로그 회귀 계절성 분석을 이용하여 시간 흐름에 따른 데이터 예측의 정확도를 향상시킬 수 있는 TSD 기반 데이터 예측 방법에 관한 것이다.

Description

TSD 기반 데이터 예측 방법 {Method for Data Forecasting based on Time Series Decomposition}
본 발명은 TSD 기반 데이터 예측 방법에 관한 것으로서, 더욱 상세하게는, IT 자원 모니터링을 위한 데이터 예측에 있어 시계열 데이터의 적절한 추세(Trend) 탐지, 최적의 계절성(Seasonality) 탐지, 로그 회귀 계절성 분석을 이용하여 시간 흐름에 따른 데이터 예측의 정확도를 향상시킬 수 있는 TSD 기반 데이터 예측 방법에 관한 것이다.
IT 자원의 모니터링에 있어 데이터 예측은 어려운 작업이다. IT 자원 운영에 있어 운영자는 서비스 품질과 가용성을 보장하기 위해 자원 사용량, 트래픽 등에서 일부 통계량과 운영 경험을 기반으로 고정 임계값(Fixed Threshold)을 설정하여 변화를 감지하고 모니터링을 실시한다.
그런데 고정 임계값을 기반으로 모니터링하는 경우 시간의 흐름에 따른 자원 사용량의 추세(Trend) 변화와 계절성(Seasonality)을 반영하기 곤란하며 최대 사용량을 기반으로 임계값을 설정하기 때문에 최번시(Busy Hours)의 사용량 변화는 감지할 수 있더라도 최한시(None Busy Hours)의 예외 상황은 감지하기 곤란하다.
구체적으로, 종래 시계열 데이터 예측 기법 중 Time Series Decomposition (TSD) 기법에 따르면, 관찰된 데이터를 추세, 계절성, 불규칙성 등의 특성에 따라 분해하고, 예측할 시점에서 조합하여 예측 데이터를 생성한다. 도 1에서 TSD 기법에 따른 데이터 예측을 확인할 수 있다.
TSD 기법은 시계열 데이터의 규칙성이 일정할 경우에는 효과적인 방법이나 시간에 따른 계절성의 변화가 있는 데이터의 경우에는 예측 데이터를 생성할 때 몇 가지의 문제점을 발생시킨다.
먼저, 예측 데이터의 진폭이 관측된 데이터보다 작아지는 현상이 발생한다. 도 2는 종래 기술에 따른 관측된 데이터와 TSD 예측 데이터의 진폭 차이를 나타내는 참고도인데, 도 2 아래의 TSD 예측 데이터는 관측된 데이터보다 작은 진폭을 가지고 있으며, 그 원인은 평균값을 사용하여 예측 데이터를 생성하는 점에 있다. 평균값을 계산하는 과정에서 각 요소들의 변동이 중간값으로 수렴하며 예측 데이터가 평활되는 현상이 발생하는 것이다.
또한, 예측 데이터에서 계절성에 해당하는 부분이 일정한 패턴을 유지하고 있어서 사실적인 예측 관점에서 다소 부자연스럽다는 문제점이 있다. 도 3은 종래 기술에 따른 관측된 데이터와 TSD 예측 데이터의 일정한 패턴 여부를 나타내는 참고도인데, 도 3에서 위쪽의 관측된 데이터는 시간이 지날수록 계절성 뒷부분(time axis 9 부근)부터 크랙이 점점 커지는 현상이 발생하나, 아래쪽의 예측 데이터에서는 일정한 패턴을 가진 계절성을 유지하고 있다. 이는 예측에 반영한 계절성이 평균값으로 만들어진 하나의 패턴을 추세(Trend)에 반영하면서 생기는 것이다.
그리고 종래 기술에 따른 평균 계절성은 시간에 따른 변화를 반영할 수 없다. 도 3에서, 관측 데이터에서 계절성의 형태는 시간에 따라 조금씩 변화하고 있으며 후반부에서는 계절성에 크랙이 발생하였고 점점 깊어지는 현상이 확인되나, 평균 계절성은 이러한 관측 결과를 반영할 수 없다.
시계열 데이터 예측 분야에서 당면 과제는, 대량의 IT 자원에서 장비의 미세한 상태 변화를 감지하고 운영자가 사전에 인지할 수 있도록 하여 문제점 발생 전에 진단과 보정(Correction)을 수행할 수 있도록 요구되는 방법, 도구, 테크닉을 제공하는 것이라 할 수 있는데, 종래의 기술에 따르면 이러한 과제를 만족시키기에는 불충분하다.
관련 분야의 선행문헌으로서 한국등록특허 제10-0252643호 시계열 신호 예측 장치 등을 들 수 있으나, 이러한 선행문헌에서도 상술한 바와 같은 문제점은 해소될 수 없다.
본 발명이 해결하고자 하는 과제는, 상기 문제점을 극복하기 위한 것으로서, IT 자원 모니터링을 위한 데이터 예측에 있어 시계열 데이터의 적절한 추세(Trend) 탐지, 최적의 계절성(Seasonality) 탐지, 로그 회귀 계절성 분석을 이용하여 시간 흐름에 따른 데이터 예측의 정확도를 향상시킬 수 있는 TSD 기반 데이터 예측 방법을 제공하는 것이다.
본 발명은 TSD(Time Series Decomposition) 기반 데이터 예측 방법에 관한 것으로서, (A) 데이터 예측 장치가, 별도의 장치로부터 관찰된 데이터를 수신하며 관찰된 데이터로부터 선형 회귀(Linear Regression), 로그 회귀(Log Regression) 및 지수 회귀(Exponential Regression) 모형 중 특정한 모형을 추세(Trend) 모형으로 선정하는 단계; (B) 상기 데이터 예측 장치가, 선정된 모형으로부터 계절성(Seasonality)을 추출하는 단계; 및 (C) 상기 데이터 예측 장치가, 추출한 계절성으로부터 로그 회귀(Log Regression) 계절성을 계산하여 예측 데이터를 생성하는 단계;를 포함한다.
이때, 상기 (A) 단계는, (A1) 상기 데이터 예측 장치가, 선형 회귀 모형, 로그 회귀 모형 및 지수 회귀 모형 중 p-value(Probability Value)가 0.05 이하인 모형을 유효한 모형으로 간주하며, 유효한 모형에서 추출된 R2 값을 비교함으로써 추세 모형을 선정하는 단계;를 포함하는 것을 특징으로 한다.
또한, 이때, 상기 (C) 단계는, (C1) 상기 데이터 예측 장치가, 관측 데이터에서 동일한 계절성 인덱스를 가진 요소들의 로그 회귀 모형을 추출하여 예측 데이터에 반영하는 단계;를 포함하는 것을 특징으로 한다.
그리고 이때, 상기 (C) 단계는, (C1) 상기 데이터 예측 장치가, 관찰된 데이터에서 추출된 추세를 빼서 잔차(Residuals)를 구하는 단계; (C2) 상기 데이터 예측 장치가, 잔차에서 각 구간의 계절성 데이터를 추출하여 매트릭스를 생성하는 단계; (C3) 상기 데이터 예측 장치가, 생성한 매트릭스를 이용하여 각 계절성의 인덱스마다 로그 회귀 모형을 생성하는 단계; 및 (C4) 상기 데이터 예측 장치가, 추세 모형과 로그 회귀 모형으로부터 특정 위치에서의 예측 데이터를 생성하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에 따르면, IT 자원 모니터링을 위한 데이터 예측에 있어 시계열 데이터의 적절한 추세(Trend) 탐지, 최적의 계절성(Seasonality) 탐지, 로그 회귀 계절성 분석을 이용하여 시간 흐름에 따른 데이터 예측의 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 종래 TSD 기법을 설명하기 위한 참고도.
도 2는 종래 기술에 따른 관측된 데이터와 TSD 예측 데이터의 진폭 차이를 나타내는 참고도.
도 3은 종래 기술에 따른 관측된 데이터와 TSD 예측 데이터의 일정한 패턴 여부를 나타내는 참고도.
도 4는 본 발명의 바람직한 실시 예에 따른 계절성을 설명하기 위한 참고도.
도 5는 본 발명의 바람직한 실시 예에 따른 데이터 예측 장치에 관한 전체 구성도.
도 6은 본 발명의 바람직한 실시 예에 따른 TSD 기반 데이터 예측 방법에 관한 전체 흐름도.
도 7은 본 발명의 바람직한 실시 예에 따른 추세 탐지를 위한 R 코드의 예시도.
도 8은 본 발명의 바람직한 실시 예에 따른 계절성 추출을 설명하기 위한 참고도.
도 9는 본 발명의 바람직한 실시 예에 따른 계절성에 의한 TSD를 설명하기 위한 참고도.
도 10은 본 발명의 바람직한 실시 예에 따른 계절성을 탐지하는 R 코드의 예시도.
도 11은 평균 계절성과 로그 회귀 계절성을 이용한 예측 기법의 차이를 설명하기 위한 참고도.
도 12는 평균 계절성과 로그 회귀 계절성을 이용한 예측 데이터의 차이를 설명하기 위한 참고도.
도 13은 로그 회귀 계절성을 이용한 예측 데이터에서 시간에 따른 계절성 변화를 나타내는 참고도.
도 14는 로그 회귀 계절성 기법을 이용한 TSD R 코드의 예시도.
도 15는 로그 회귀 계절성 방식의 TSD(LRTSD)에 의한 예측 데이터 생성과, 선형 회귀를 이용한 예측 계절성 기법(SLRTSD)에 의한 예측 데이터 생성을 나타내는 참고도.
도 16은 본 발명의 바람직한 실시 예에 따른 예측 데이터 생성 단계를 설명하기 위한 참고도.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
본 발명에서, IT 자원 사용량 등의 시계열 데이터 예측에 있어, 기계화된 해석을 통해 현재 값과 미래 구간의 값을 예측하여 인프라 데이터의 미세한 변화를 감지할 수 있는 기술적 수단이 제공된다.
더욱 구체적으로, TSD(Time Series Decomposition) 기법에 본 발명에 따른 특징적인 기술적 수단이 적용되어 임계값, 비정상 패턴 탐지, 미래 구간의 목표값 도달 시간을 정확히 예측할 수 있다.
본 발명에 따른 특징적인 주요 기술적 수단은, 시계열 데이터의 추세(Trend)를 적절히 탐지하는 수단과, 최적의 계절성(Seasonality)을 탐지하는 수단과, 로그 회귀(Log Regression) 계절성을 이용한 예측 정확도 향상 수단이라 할 수 있다.
본 발명에 따른 기술적 구성에 대해 실험을 수행한 결과, 본 발명에 따르면 종래의 TSD 기법에 의한 일률적인(Uniform) 계절성과는 달리, 시간 흐름에 따른 계절성의 변화를 예측할 수 있으며 종래 기술에 대비하여 예측 정확도를 상당히 향상시킬 수 있고 계절성의 평활(Smoothing) 현상을 방지하며 사실적인 예측 데이터를 생성할 수 있음을 확인하였다.
이하, 본 발명의 바람직한 실시 예에 따른 TSD 기반 데이터 예측 방법에 관해 상세히 설명한다.
본 발명에서 사용하는 용어의 정의는 다음과 같다.
TSD(Time Series Decomposition)는 시계열 분석(Time Series Analysis)의 일종으로서, 시계열 분석은 과거 자료에 내재된 규칙성(Regularity)에 근거하여 시계열 생성 과정을 설명하는 모형(Model)을 추정하는 분석 방법이다. 시스템의 미래 행위는 과거와 크게 다르지 않다는 가정 하에서, 주어진 자료의 특성(Characterization) 파악, 모형화(Modeling), 및 예측(Forecasting)의 세 단계를 거쳐 수행된다.
TSD는 시계열 데이터를 추세(Trend), 계절성(Seasonality), 순환(Cyclical), 불규칙(Random)의 요소로 분해하여, 데이터의 특성을 파악하거나 필요한 시점에 재 조합하여 예측 데이터를 생성하는 기술이다. 관찰된 데이터의 변동이 심한 경우에도 TSD를 이용하여 요소로 분해하면 데이터의 추세를 확인할 수 있고, 주기적으로 반복되는 계절성도 감지할 수 있으며, 추세와 계절성을 제거한 나머지 불규칙 부분도 추출할 수 있다.
추세란 자료의 큰 흐름을 나타내는 것으로 장기적으로 어떻게 변화하는지를 확인할 수 있는 정보이다. 회귀 기법에 의해 추출한 추세는 함수 관계에 의해 표현될 수 있으며, 독립 변수와의 관계를 산술 연산으로 표현할 수 있다. 순환은 적어도 2년 이상에서 주기적이지 않은(None Periodic) 변동(Fluctuations)을 나타내는 패턴을 정의한다. 계절성은 일정한 주기를 갖고 반복적으로 나타나는 패턴을 정의한다. 이는 일반적으로 1년 이내에서 발견되는 주기적 패턴을 의미한다.
계절성(Seasonality)은, 시계열 데이터에서 고정 주기에 의한 반복 패턴이다. 계절성은 다양한 요인, 예를 들면 날씨, 휴가, 휴일 등과 같은 요인으로부터 기인하며, 주기, 반복, 일반적인 규칙성, 그리고 예측 가능한 패턴 등으로 구성된다. 도 4에서, 본 발명의 바람직한 실시 예에 따른 계절성을 설명하기 위한 참고도를 나타내었다.
계절성은 일반적으로 주별, 월별, 분기별로 반복되는 경우가 많으며, 1년 이내의 기간에서 발생한다. 계절성은 순환과 대조적인 성격을 보이는데, 순환은 1년 이상의 주기로 나타나며 대부분 적어도 2년을 넘기는 변동(Fluctuations)을 보인다.
계절성은 곱셈 타입과 덧셈 타입의 두 가지 방식으로 계산할 수 있다. 곱셈 타입은 변동이 일정한 비율로 커지거나 작아지는 모형을 가질 때 사용하고, 덧셈 타입은 변동이 일정한 값의 덧셈으로 설명할 수 있을 때 사용한다. 덧셈 타입의 계산식과, 곱셈 타입의 계산식은 다음의 [수학식 1] 및 [수학식 2]와 같다.
Figure 112015113530788-pat00001
Figure 112015113530788-pat00002
[수학식 1] 및 [수학식 2]에서, Yt는 관측된 데이터, St는 계절성, Tt는 추세, Ct는 순환, Rt는 불규칙을 의미한다.
회귀(Regression) 기법은 추세, 계절성을 추출하기 위한 기법인데, TSD 기법에서 추세를 추출할 때는 종래 이동 평균(Moving Average)을 사용하여 추출하는 방식을 사용하였다. 그러나 본 발명에서, 특히 관찰된 데이터의 종속 변수가 하나 또는 그 이상의 독립 변수에 의해 영향을 받는다면, 회귀 기법을 이용하여 추세나 계절성을 추출할 수 있다. 회귀 기법에 의하면 독립 변수의 영향을 예측에 반영할 수 있는 장점을 가진다. 회귀 기법을 이용하여 추세를 추출하는 경우 N-1 더미 변수를 이용하여 계절성을 추출한다. 이에 따르면 계산 과정을 N-1번으로 감소시킬 수 있는 장점이 있다.
본 발명의 바람직한 실시 예에 따른 TSD 기반 데이터 예측 방법은, 데이터 예측 장치(100)에 의해서 수행될 수 있는데, 도 5에 도시한 바와 같이 데이터 예측 장치(100)는 추세추출수단(110), 계절성추출수단(120) 및 데이터생성수단(130)을 포함할 수 있다.
본 발명의 바람직한 실시 예에 따른 TSD 기반 데이터 예측 방법에 관해, 도 6을 참조하여 상세히 설명하면 다음과 같다.
먼저, 추세추출수단(110)이, 별도의 장치로부터 관찰된 데이터를 수신하며 관찰된 데이터로부터 선형 회귀(Linear Regression), 로그 회귀(Log Regression) 및 지수 회귀(Exponential Regression) 모형 중 특정한 모형을 추세 모형으로 선정한다(S10).
추세(Trend)는 관찰된 데이터의 큰 흐름을 표현하는 정보로서 종래의 기술에서는 이동 평균(Moving Average)을 사용하여 추세를 추출하였다. 그러나 본 발명의 바람직한 실시 예에서는 이와는 달리 회귀 기법을 사용하는데, 이러한 회귀 기법은 특히 하나 또는 그 이상의 독립 변수가 존재하거나 좀더 긴 미래 구간의 예측이 필요할 때 더욱 적합하다.
본 발명의 바람직한 실시 예에 따른 추세 추출 방법은, 선형 회귀(Linear Regression), 로그 회귀(Log Regression) 및 지수 회귀(Exponential Regression) 모형 중에서 관찰된 데이터를 가장 잘 설명하는 모형을 선택하는 방법을 사용한다.
다항 회귀(Polynomial Regression) 모형도 적용할 수 있으나, 다항 회귀 모형은 예측 데이터를 생성할 때 급격한 편향을 보일 수 있으며 실험 결과 예측 정확도가 낮게 나왔으므로 추세 추출을 위한 모형에서는 제외하는 것이 바람직하다.
추세추출수단(110)이 추세 모형을 선정함에 있어, 먼저, 선형 회귀 모형, 로그 회귀 모형, 지수 회귀 모형을 선정하며, 각각의 모형 중 p-value(Probability Value)가 0.05 이하인 모형을 유효한 모형으로 간주하고, 유효한 모형에서 추출된 R2 값을 비교함으로써 추세 모형을 선정한다.
도 7은 추세 탐지를 위한 R 코드의 예시를 나타낸 것으로, fitted Model 함수에서 추세를 결정할 수 있으며 compare Model은 모형의 설명력을 비교할 수 있다.
다음으로, 계절성추출수단(120)이, 선정된 모형으로부터 계절성을 추출한다(S20).
종래 기술에 따른 데이터 예측 기법에서는, 1시간, 1일, 일주일, 한 달 또는 특정일을 기준으로 계절성을 설정하는 것이 일반적이었다. 그런데, IT 자원이 계절성을 가지고는 있으나 자원의 역할과 관련된 특정한 계절성을 따르기도 한다는 점에서, 정확한 계절성 추출을 위해서는 종래 기술과는 다른 추출 기법이 필요하다. 본 발명의 바람직한 실시 예에서는, 기계적인 해석을 통해서 추출한 특정한 계절성에 의해 예측 정확도를 향상시킨다.
도 8을 참조하면, 5일간의 리눅스 서버의 5분 주기 CPU 사용률 차트를 확인할 수 있는데, 파란색으로 표시된 수직선이 계절성을 나타내는 것이다. 초기에 설정한 계절성은 1일이고 기계적인 해석을 통해 추출한 계절성은 5시간임을 알 수 있다. 시각적인 판단에 의할 때, 하루 안에 여러 번의 반복 패턴이 관찰되었으며 기계적인 해석을 통해서 추출한 계절성은 반복 패턴을 탐지하여 계절성으로 설정하였음을 확인할 수 있다.
도 9는 1일 계절성과, 5시간 계절성에 따른 각각의 TSD를 나타낸 것인데, 1일 계절성에 의해 TSD에 따라 예측한 데이터는 관측 데이터와 확연히 다른 형태를 보여주고 있으며 예측 정확도가 -0.16으로서 관측 데이터와는 완전히 상이한 데이터를 예측하였음을 확인할 수 있다. 그러나 본 발명의 바람직한 실시 예에 따라 탐지된 5시간 계절성에 의해 TSD에 따라 예측한 데이터는 관측 데이터와 상당히 유사한 형태를 가지며, 예측 정확도도 97%에 달함을 확인할 수 있다.
도 10에서 계절성을 탐지하는 R 코드의 예시를 확인할 수 있는데, sst(timeSeries)를 실행하면 선정된 모형으로부터 시계열 데이터를 읽어서 계절성을 탐지할 수 있다.
마지막으로, 데이터생성수단(130)이, 추출한 계절성으로부터 로그 회귀(Log Regression) 계절성을 계산하여 예측 데이터를 생성한다(S30).
상술한 바와 같이, 종래 기술에 의하면 예측 데이터를 생성함에 있어 계절성과 같은 인덱스를 가진 계절성 요소들의 평균값을 구해서 예측에 반영하였다. 평균값을 사용하는 방식은, 계절성이 시간이 흘러도 일정한 패턴을 유지할 때는 유용할 수 있으나, 상술한 바와 같은 다음의 문제점들을 노출하였다.
첫째로, 예측 데이터의 진폭이 관측 데이터보다 작아지는 현상이 발생하였다. 둘째로, 예측 데이터에서 계절성에 해당하는 부분이 일정한 패턴을 유지하고 있어서 사실적인 예측 관점에서 부자연스러웠다. 셋째로, 평균 계절성은 시간에 따른 변화를 반영할 수 없었다.
본 발명의 바람직한 실시 예에 있어서, 이러한 종래 기술의 문제점을 해결하기 위한 방법 중 하나로서, 예측 데이터 생성에 있어 종래의 평균 계절성을 로그 회귀를 이용한 계절성으로 대체한다.
도 11은 평균 계절성과, 로그 회귀 계절성을 이용한 예측 기법의 차이를 설명하기 위한 참고도로서, 도 11의 상단 차트는 평균 계절성을 이용한 기법에 관한 것이다. 이는 관찰된 데이터에서 동일한 계절성 인덱스를 가진 요소들의 평균을 계산하여 예측 데이터에 반영한다. 이러한 기법은 종래 TSD에서 사용하는 방법이다.
도 11의 하단 차트는 본 발명의 바람직한 실시 예에 따른 로그 회귀를 이용한 예측 기법에 관한 것으로서, 관측 데이터에서 동일한 계절성 인덱스를 가진 요소들의 로그 회귀 모형을 추출하여 예측에 반영한다. 본 발명에 따르면, 평균을 이용한 방식에 비하여 시간의 흐름에 따른 계절성의 변화를 반영할 수 있으며, 평균값이 갖는 평활 현상을 방지할 수 있고, 일관된 계절성을 예측에 적용하지 않으므로 더욱 자연스러운 예측 데이터 생성이 가능하다.
도 12는 평균 계절성과 로그 회귀 계절성을 이용한 예측 데이터의 차이를 설명하기 위한 참고도로서, 상술한 종래의 3가지 문제점을 기준으로 평가했을 때, 우측의 로그 회귀 계절성은 종래의 TSD보다 넓은 진폭을 보여주고 있으며, 각 구간마다 적용된 계절성이 다르다는 사실을 확인할 수 있고, 예측 정확도도 61%에서 75%로 상승하였음을 확인할 수 있다.
도 13은 로그 회귀 계절성을 이용한 예측 데이터에서 시간에 따른 계절성 변화를 나타내는 참고도로서, 시간에 따라 계절성 변화를 반영하고 있음을 확인할 수 있다. 관측된 데이터에서 시간 축 7부터 두 개의 크랙이 발견되며 후반부로 갈수록 크랙의 깊이가 깊어지는 현상이 관측되고 있으며, 본 발명에 따른 예측 데이터에서도 관측 데이터와 같이 크랙이 점점 깊어지는 현상을 반영하고 있음을 확인할 수 있다. 도 14에서는 로그 회귀 계절성 기법을 이용한 TSD R 코드의 예시를 확인할 수 있다.
이하, 본 발명의 바람직한 실시 예에 따른 TSD 기반 데이터 예측 방법에 관한 실험 결과에 대해 상세히 설명한다.
본 발명자들은 본 발명의 바람직한 실시 예에 따른 로그 회귀 계절성 방식의 TSD를 평가하기 위해서 두 가지 실험을 진행하였다. 첫 번째는 예측 정확도 비교이며, 두 번째는 지연시간(delay-time) 측정으로서, 이러한 실험에 의해 본 발명의 바람직한 실시 예에 따른 예측 데이터 생성 방식의 성능을 평가하였다.
다음의 [표 1]은 세 가지 TSD 기법에 대한 예측 정확도 비교이다. 본 발명에 따른 로그 회귀 계절성 방식의 TSD(LRTSD)가 종래의 TSD에 비하여 예측 정확도가 약 8% 높은 것으로 평가되었으며, 선형 회귀를 이용한 예측 계절성 기법(SLRTSD)은 비교 대상 중 가장 낮은 예측 정확도를 보였다.
Figure 112015113530788-pat00003
도 15는 관측된 데이터와, 본 발명에 따른 로그 회귀 계절성 방식의 TSD(LRTSD)에 의한 예측 데이터 생성과, 선형 회귀를 이용한 예측 계절성 기법(SLRTSD)에 의한 예측 데이터 생성을 나타내는 참고도이다.
[표 2]는 지연시간 평가에 관한 것으로, 지연시간 평가는 예측 정확도가 높았던 TSD와 LRTSD를 대상으로 수행하였다. 종래 TSD는 한 번 생성한 평균 계절성을 이용하여 예측을 수행하는데 비해, LRTSD는 예측 시점(Point)마다 회귀 계산을 수행하므로 지연(delay)이 발생하여 종래 TSD에 비해 4배 정도의 수행시간을 나타낸다. 실험 결과는 R에서 측정한 수행시간으로서 스크립트 언어의 특성을 감안하여 해석되어야 한다.
Figure 112015113530788-pat00004
한편, 도 16을 참조하면 본 발명의 바람직한 실시 예에 따른 데이터 예측 방법 중 예측 데이터 생성 단계를 더욱 상세히 이해할 수 있다.
먼저, 도 16에 도시한 바와 같이, 데이터 예측 장치(100)가, 관찰된 데이터(ts)와 계절성(freq)을 이용하여 예측 데이터를 생성함에 있어서, 관찰된 데이터에서 추출된 추세를 빼서 잔차(Residuals)를 구한다.
다음으로, 데이터 예측 장치(100)가, 잔차(Residuals)에서 각 구간의 계절성 데이터(SeasonalMat)를 추출하여 매트릭스를 생성한다.
다음으로, 데이터 예측 장치(100)가, 생성한 매트릭스를 이용하여 각 계절성의 인덱스마다 로그 회귀 모형을 생성한다. 예를 들어 계절성이 5개이면 5개의 모형이 생성된다.
그리고 데이터 예측 장치(100)가, 추세 모형과 로그 회귀 모형으로부터 특정 위치(i)에서의 예측 데이터를 추정한다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주하여야 할 것이다.
100 : 데이터 예측 장치
110 : 추세추출수단
120 : 계절성추출수단
130 : 데이터생성수단

Claims (4)

  1. TSD(Time Series Decomposition) 기반 데이터 예측 방법에 있어,
    (A) 데이터 예측 장치(100)가, 별도의 장치로부터 관찰된 데이터를 수신하며 관찰된 데이터로부터 선형 회귀(Linear Regression), 로그 회귀(Log Regression) 및 지수 회귀(Exponential Regression) 모형 중 특정한 모형을 추세(Trend) 모형으로 선정하는 단계;
    (B) 상기 데이터 예측 장치(100)가, 선정된 모형으로부터 계절성(Seasonality)을 추출하는 단계; 및
    (C) 상기 데이터 예측 장치(100)가, 추출한 계절성으로부터 로그 회귀(Log Regression) 계절성을 계산하여 예측 데이터를 생성하는 단계;를 포함하며,
    상기 (C) 단계는,
    (C1) 상기 데이터 예측 장치(100)가, 관찰된 데이터에서 추출된 추세를 빼서 잔차(Residuals)를 구하는 단계;
    (C2) 상기 데이터 예측 장치(100)가, 잔차에서 각 구간의 계절성 데이터를 추출하여 매트릭스를 생성하는 단계;
    (C3) 상기 데이터 예측 장치(100)가, 생성한 매트릭스를 이용하여 각 계절성의 인덱스마다 로그 회귀 모형을 생성하는 단계; 및
    (C4) 상기 데이터 예측 장치(100)가, 추세 모형과 로그 회귀 모형으로부터 특정 위치에서의 예측 데이터를 생성하는 단계;를 포함하는 TSD 기반 데이터 예측 방법.
  2. 제1항에 있어,
    상기 (A) 단계는,
    (A1) 상기 데이터 예측 장치(100)가, 선형 회귀 모형, 로그 회귀 모형 및 지수 회귀 모형 중 p-value(Probability Value)가 0.05 이하인 모형을 유효한 모형으로 간주하며, 유효한 모형에서 추출된 R2 값을 비교함으로써 추세 모형을 선정하는 단계;를 포함하는 것을 특징으로 하는 TSD 기반 데이터 예측 방법.
  3. 제1항에 있어,
    상기 (C) 단계는,
    상기 데이터 예측 장치(100)가, 관측 데이터에서 동일한 계절성 인덱스를 가진 요소들의 로그 회귀 모형을 추출하여 예측 데이터에 반영하는 것을 특징으로 하는 TSD 기반 데이터 예측 방법.
  4. 삭제
KR1020150163397A 2015-11-20 2015-11-20 Tsd 기반 데이터 예측 방법 KR101677008B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150163397A KR101677008B1 (ko) 2015-11-20 2015-11-20 Tsd 기반 데이터 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150163397A KR101677008B1 (ko) 2015-11-20 2015-11-20 Tsd 기반 데이터 예측 방법

Publications (1)

Publication Number Publication Date
KR101677008B1 true KR101677008B1 (ko) 2016-11-17

Family

ID=57542162

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150163397A KR101677008B1 (ko) 2015-11-20 2015-11-20 Tsd 기반 데이터 예측 방법

Country Status (1)

Country Link
KR (1) KR101677008B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190078850A (ko) * 2017-12-27 2019-07-05 (주)가디엘 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
KR20200108199A (ko) * 2019-03-08 2020-09-17 (주)엔키아 이상 감지를 이용한 모니터링 자동화 방법 및 장치
KR102167278B1 (ko) * 2019-04-25 2020-10-21 (주)엔키아 로버스트를 이용하는 tsd 기반 데이터 예측 방법
KR102253347B1 (ko) * 2020-09-29 2021-05-18 유한회사 나노웨더 기상요인을 고려한 북미 지역의 대두 수확량 예측 방법
CN113569479A (zh) * 2021-07-27 2021-10-29 天津大学 石窟寺岩体裂隙发育长期多步控制方法、装置及存储介质
KR102335013B1 (ko) * 2020-12-21 2021-12-03 (주)위세아이텍 딥러닝 기반의 진동신호 잡음제거를 이용한 회전설비 결함 탐지 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316751A (ja) * 1998-05-06 1999-11-16 Nec Corp 分散型学習予測装置
KR20090041198A (ko) * 2007-10-23 2009-04-28 한국정보보호진흥원 추이성분 필터링을 이용한 시계열 모델 기반의 네트워크공격 탐지 방법
KR20140116619A (ko) * 2013-03-25 2014-10-06 삼성에스디에스 주식회사 에너지 사용량 예측 시스템 및 방법
KR101484290B1 (ko) * 2013-11-07 2015-01-20 유넷시스템주식회사 통합 로그 분석 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316751A (ja) * 1998-05-06 1999-11-16 Nec Corp 分散型学習予測装置
KR20090041198A (ko) * 2007-10-23 2009-04-28 한국정보보호진흥원 추이성분 필터링을 이용한 시계열 모델 기반의 네트워크공격 탐지 방법
KR20140116619A (ko) * 2013-03-25 2014-10-06 삼성에스디에스 주식회사 에너지 사용량 예측 시스템 및 방법
KR101484290B1 (ko) * 2013-11-07 2015-01-20 유넷시스템주식회사 통합 로그 분석 시스템

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190078850A (ko) * 2017-12-27 2019-07-05 (주)가디엘 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
KR102038703B1 (ko) 2017-12-27 2019-11-26 (주)가디엘 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
KR20200108199A (ko) * 2019-03-08 2020-09-17 (주)엔키아 이상 감지를 이용한 모니터링 자동화 방법 및 장치
KR102158100B1 (ko) * 2019-03-08 2020-09-22 (주)엔키아 이상 감지를 이용한 모니터링 자동화 방법 및 장치
KR102167278B1 (ko) * 2019-04-25 2020-10-21 (주)엔키아 로버스트를 이용하는 tsd 기반 데이터 예측 방법
KR102253347B1 (ko) * 2020-09-29 2021-05-18 유한회사 나노웨더 기상요인을 고려한 북미 지역의 대두 수확량 예측 방법
KR102335013B1 (ko) * 2020-12-21 2021-12-03 (주)위세아이텍 딥러닝 기반의 진동신호 잡음제거를 이용한 회전설비 결함 탐지 장치 및 방법
CN113569479A (zh) * 2021-07-27 2021-10-29 天津大学 石窟寺岩体裂隙发育长期多步控制方法、装置及存储介质
CN113569479B (zh) * 2021-07-27 2023-11-10 天津大学 石窟寺岩体裂隙发育长期多步控制方法、装置及存储介质

Similar Documents

Publication Publication Date Title
KR101677008B1 (ko) Tsd 기반 데이터 예측 방법
US20240037600A1 (en) Methods and apparatus to incorporate saturation effects into marketing mix models
WO2017045472A1 (zh) 资源预测方法、系统和容量管理装
RU2008147223A (ru) Способ и устройство для определения болезненного состояния с помощью биомаркеров
JP2017520029A (ja) カルマンフィルタに基づく容量予測方法、システム及びコンピュータ機器
CN107015875B (zh) 一种电子整机贮存寿命评估方法及装置
US20150046136A1 (en) Method for generating rip current warning
CN109345041B (zh) 一种利用威布尔分布与arma结合的设备故障率预测方法
KR102167278B1 (ko) 로버스트를 이용하는 tsd 기반 데이터 예측 방법
CN111065106B (zh) 移动通信网络中基于异常检测和核密度估计kde的指标突变小区检测方法
KR101409316B1 (ko) 다중모델 확률예측 시스템 및 방법
CN104036362A (zh) 一种台变用电负荷异常数据的快速检测方法
JP6178277B2 (ja) 故障解析における影響因子情報取得方法および影響因子情報取得装置
KR101808642B1 (ko) 빅데이터 로그 예측분석시스템
KR20180060616A (ko) Rba기반 통합 취약점 진단 방법
CN108491440B (zh) 一种gnss非实时数据溯源可视化方法和系统
KR20200107392A (ko) 비선형 회귀 모형 기반 소프트웨어 고장 시간의 예측 방법 및 컴퓨터 판독 가능 기록 매체
CN112630793B (zh) 一种确定平面异常点的方法和相关装置
CN106371419A (zh) 用于监视控制回路的运行的诊断装置和诊断方法
JP2011145905A (ja) 予測関数生成装置、方法、及び、プログラム
KR101181333B1 (ko) 선박 소음원의 특징정보 추출용 커서의 운용 방법
JP2013214256A (ja) 発電所の統合保全システム
CN117114451B (zh) 人工影响降水效果评估方法、装置、电子设备和存储介质
JP6076272B2 (ja) 標準作業時間推定装置及びプログラム
Liu et al. Research on aircraft LY12CZ aluminum alloy corrosion damage prediction based on ARIMA model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190806

Year of fee payment: 4