KR102536284B1 - 시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 - Google Patents
시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 Download PDFInfo
- Publication number
- KR102536284B1 KR102536284B1 KR1020220110549A KR20220110549A KR102536284B1 KR 102536284 B1 KR102536284 B1 KR 102536284B1 KR 1020220110549 A KR1020220110549 A KR 1020220110549A KR 20220110549 A KR20220110549 A KR 20220110549A KR 102536284 B1 KR102536284 B1 KR 102536284B1
- Authority
- KR
- South Korea
- Prior art keywords
- series data
- time series
- time
- data
- model
- Prior art date
Links
- 230000002123 temporal effect Effects 0.000 title claims description 16
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 9
- 238000007405 data analysis Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 37
- 238000013135 deep learning Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 8
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 claims description 6
- 230000010339 dilation Effects 0.000 claims description 6
- 229910052709 silver Inorganic materials 0.000 claims description 6
- 239000004332 silver Substances 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 15
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 15
- 238000010606 normalization Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Algebra (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
시계열 데이터 특성을 반영한 TCN 모델 예측 시스템은 입력으로 주어진 시계열 데이터의 자기상관함수를 계산하여 데이터 특성을 파악하고, 데이터 특성에 맞는 시계열 데이터 예측 모델을 구성하고, 구성된 시계열 데이터 예측 모델을 최적의 파라미터로 구성하여 학습하고, 시계열 데이터 예측 모델의 추론 시에 시계열 데이터 예측 모델에 학습되어 저장되어 있는 시계열 데이터 예측 모델을 입력 데이터 특성과 매칭하여 별도의 재학습이나 지연 없이 예측 결과를 확인할 수 있다.
본 발명은 계열 데이터 종류 및 같은 종류의 시계열 데이터에서도 다른 지역, 다른 시간, 다른 대상에 대한 다양한 시계열 데이터에 대해서 맞춤형 시간적 합성곱 신경망 모델을 구성할 수 있어 효과적인 시계열 데이터 예측 시스템을 구성할 수 있는 효과가 있다.
본 발명은 계열 데이터 종류 및 같은 종류의 시계열 데이터에서도 다른 지역, 다른 시간, 다른 대상에 대한 다양한 시계열 데이터에 대해서 맞춤형 시간적 합성곱 신경망 모델을 구성할 수 있어 효과적인 시계열 데이터 예측 시스템을 구성할 수 있는 효과가 있다.
Description
본 발명은 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템에 관한 것으로서, 더욱 상세하게는 입력으로 주어진 시계열 데이터의 자기상관함수를 계산하여 데이터 특성을 파악하고, 데이터 특성에 맞는 시계열 데이터 예측 모델을 구성하고, 구성된 시계열 데이터 예측 모델을 최적의 파라미터로 구성하여 학습하고, 시계열 데이터 예측 모델의 추론 시에 시계열 데이터 예측 모델에 학습되어 저장되어 있는 시계열 데이터 예측 모델을 입력 데이터 특성과 매칭하여 별도의 재학습이나 지연 없이 예측 결과를 확인할 수 있는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템에 관한 것이다.
딥러닝 기반 시계열 데이터 예측 모델은 RNN(Recurrent Neural Network)의 경우, 이전 타임 스텝에서의 어떠한 정보를 다음 타임 스텝으로 계속 전달하여 연산하는 방식이다. 하지만 RNN의 경우, 시계열 데이터가 너무 길다면 앞쪽의 타임 스텝 정보가 뒤에 있는 타임 스텝까지 충분히 전달되지 못하는 장기 의존성 문제를 가지고 있다.
이를 해결하고자 LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit) 등이 등장한다. LSTM과 GRU는 이전 타임 스텝에서 다음 타입 스텝으로 정보를 넘겨주는 Hidden state만이 아니라 정보를 잃을지, 유지할지를 선택해주는 다양한 게이트(Gate)를 추가적으로 포함하는 구조를 가지고 있다.
딥러닝을 이야기하면 빠질 수 없는 합성곱 신경망(Convolutional Neural Network)은 영상 분류(Image Classification), 객체 탐지(Object Detection), 객체 분할(Image Segmentation)과 같이 영상 데이터에서 좋은 결과를 보인다. 합성곱 신경망 모델로 시계열 데이터를 처리하기 위해서는 1차원 합성곱 필터가 필요하고, 시계열 데이터가 너무 길다면 타임 스텝 정보를 파악하기 위해서 매우 많은 층과 필터가 필요하게 된다.
이와 같은 문제점을 해결하기 위하여, 본 발명은 입력으로 주어진 시계열 데이터의 자기상관함수를 계산하여 데이터 특성을 파악하고, 데이터 특성에 맞는 시계열 데이터 예측 모델을 구성하고, 구성된 시계열 데이터 예측 모델을 최적의 파라미터로 구성하여 학습하고, 시계열 데이터 예측 모델의 추론 시에 시계열 데이터 예측 모델에 학습되어 저장되어 있는 시계열 데이터 예측 모델을 입력 데이터 특성과 매칭하여 별도의 재학습이나 지연 없이 예측 결과를 확인할 수 있는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템을 제공하는데 그 목적이 있다.
본 발명은 입력으로 주어진 시계열 데이터에 자기상관함수값과 데이터에서 제공받을 수 있는 기타 정보를 활용하여 데이터 특성을 파악하여 데이터 특성에 맞는 stride-TCN 모델을 구성하고, 구성된 딥러닝 예측 모델을 통해 시계열 데이터에 최적화된 예측 모델의 결과를 추론할 수 있는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템은, 시계열 데이터를 입력받는 시계열 데이터 입력부; 상기 시계열 데이터 입력부로부터 시계열 데이터를 분석하여 시계열 데이터 특성을 확인하는 데이터 처리부; 상기 데이터 처리부로부터 얻어진 시계열 데이터 특성을 미세하게 변화하여 새로운 종류의 시계열 데이터를 생성하는 데이터 생성부; 상기 데이터 처리부 또는 상기 데이터 생성부로부터 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터가 결정되어 학습하는 시계열 데이터 예측 모델 학습부; 상기 시계열 데이터 예측 모델 학습부로부터 학습된 딥러닝 기반 시계열 데이터 예측 모델의 모델 그래프, 모델 파라미터와 데이터 분석 로그가 매칭되서 저장되는 시계열 데이터 예측 모델 저장부; 상기 시계열 데이터 예측 모델 저장부를 이용한 시계열 데이터 예측 모델의 추론 시에 상기 시계열 데이터 입력부로부터 입력받은 시계열 데이터와 미리 학습된 시계열 데이터 예측 모델 및 데이터 분석 로그를 매칭하여 유사도를 판별하는 데이터 분석 매칭부; 및 상기 데이터 분석 매칭부를 통해서 입력받은 시계열 데이터와 가장 유사도가 높은 사전 학습된 시계열 데이터 예측 모델을 통해서 시계열 데이터 예측을 수행하는 시계열 데이터 예측부를 포함한다.
상기 데이터 처리부는, 상기 시계열 데이터 입력부의 시계열 데이터를 입력받아 시계열 데이터 지점마다 전체 시계열 데이터 지점에 대한 평균을 빼서 전처리를 수행하는 전처리부; 상기 전처리부로부터 전처리가 수행된 시계열 데이터를 자기상관함수(Auto Correlation Function)를 적용하여 최초의 시계열 데이터 지점부터 각 시계열 데이터 지점에 대한 자기상관값을 계산하고, 각 시계열 데이터 지점의 자기상관값에 임계값을 적용하여 유사한 패턴이 얼마의 간격만큼 반복되는지를 확인하는 제1 데이터 분석부; 상기 제1 데이터 분석부로부터 수신된 시계열 데이터의 시간에 따른 상관 정보를 나타내는 시계열 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성하는 제1 하이퍼파라미터 설정부; 및 상기 제1 데이터 분석부의 결과값과 상기 제1 하이퍼파라미터 설정부에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장하는 제1 로그 저장부를 포함한다.
상기 데이터 생성부는, 상기 데이터 처리부로부터 수신한 시계열 데이터 특성을 포함한 데이터 분석 로그를 기반으로 각 시계열 데이터 지점에 대한 자기상관값을 푸리에 변환을 통한 파워 스펙트럼을 계산하여 랜덤하게 주파수를 제거, 추가 또는 섞음을 통해 랜덤 상수를 정의하고 추가하는 랜덤 상수 추가부; 상기 랜덤 상수 추가부를 통해 주제는 같지만 특성이 다른 새로운 시계열 데이터를 생성하고, 생성된 시계열 데이터를 분석하여 랜덤 상수가 반영된 로그를 남기는 제2 데이터 분석부; 상기 제2 데이터 분석부로부터 계산된 랜덤 상수가 반영된 시계열 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성하는 제2 하이퍼파라미터 설정부; 및 상기 제2 데이터 분석부의 결과값과 상기 제2 하이퍼파라미터 설정부에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장하는 제2 로그 저장부를 포함한다.
상기 시계열 데이터 예측 모델 학습부는, 상기 데이터 처리부 또는 상기 데이터 생성부로부터 결정된 데이터 특성 로그와, 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 가지고 딥러닝 기반 시계열 데이터 예측 모델을 학습한다.
상기 시계열 데이터 예측 모델 학습부는, 상기 데이터 처리부 또는 상기 데이터 생성부로부터 결정된 딥러닝 기반 시계열 데이터 예측 모델과 하이퍼파라미터를 베이지안 최적화(Bayesian Optimization) 알고리즘을 적용하여 데이터 특성에 맞게 하이퍼파라미터를 검색하고, 매 반복마다 검증(Validation) 데이터에 대한 검증 테스트를 진행하여 최고 성능을 내는 하이퍼파라미터를 찾는다.
상기 시계열 데이터 예측 모델의 학습 시에는 상기 시계열 데이터 입력부, 상기 데이터 처리부, 상기 데이터 생성부, 상기 시계열 데이터 예측 모델 학습부, 상기 시계열 데이터 예측 모델 저장부를 통해서 시계열 데이터 특성에 대한 값, 상기 시계열 데이터 예측 모델인 stride-TCN 모델의 그래프, stride-TCN 모델의 하이퍼파라미터 설정값, 학습된 stride-TCN 모델이 저장되도록 제어하는 제어부를 더 포함한다.
상기 시계열 데이터 예측 모델의 추론 시에는 상기 시계열 데이터 입력부, 상기 데이터 처리부, 상기 데이터 생성부, 상기 데이터 분석 매칭부, 상기 시계열 데이터 예측부를 통해서 입력된 시계열 데이터에 대해 미래의 시계열 데이터를 예측하도록 제어하는 제어부를 더 포함하며, 데이터 분석 매칭부는 상기 데이터 처리부로터 얻어진 입력 데이터 특성 로그값과 사전 학습된 stride-TCN 모델에 맞는 데이터 특성 로그값 사이의 유사성을 비교해서 유사도가 가장 높은 stride-TCN 모델의 그래프, 하이퍼파라미터 설정값, 학습된 stride-TCN 모델을 불러와서 시계열 데이터를 예측한다.
상기 시계열 데이터 예측 모델은 상기 데이터 처리부 또는 상기 데이터 생성부로부터 계산된 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 수용 필드를 포함한 확장 컨볼루션 , TCN((Temporal Convolutional Network) 블록의 확장 개수를 결정하기 위한 파라미터 를 계산하여 TCN 블록을 생성한다.
[수학식 1]
[수학식 2]
[수학식 3]
상기 시계열 데이터 예측 모델은 시간적 합성곱 신경망(Temporal Convolutional Network, TCN) 모델 또는 stride-TCN 모델이다.
상기 데이터 처리부 또는 상기 데이터 생성부는, 상기 TCN 모델 또는 상기 stride-TCN 모델을 베이지안 최적화 알고리즘을 이용하여 학습 절차 전에 하이퍼파라미터를 자동으로 검색하여 결정한다.
전술한 구성에 의하여, 본 발명은 계열 데이터 종류 및 같은 종류의 시계열 데이터에서도 다른 지역, 다른 시간, 다른 대상에 대한 다양한 시계열 데이터에 대해서 맞춤형 시간적 합성곱 신경망 모델을 구성할 수 있어 효과적인 시계열 데이터 예측 시스템을 구성할 수 있는 효과가 있다.
본 발명은 시계열 데이터 특성을 분석하기 때문에 입력 시계열 데이터에 대한 향후 답러닝 기반 예측 모델을 개발할 때 사용할 수 있는 가공된 정보를 구축할 수 있으며, 미리 학습된 시계열 데이터 별로 시간적 합성공 신경망 모델을 최적의 파라미터로 학습해 놓고 입력 시계열 데이터 특성을 분석하여 미리 학습된 합성곱 신경망 모델을 통해서 추론만 하면 되기 때문에 빠르고 효과적인 시계열 데이터 예측 시스템에 사용할 수 있는 효과가 있다.
본 발명은 주식 가격 예측처럼 아주 빠른 처리가 필요한 예측 시스템에서 효과적으로 적용될 수 있다.
도 1은 본 발명의 실시예에 따른 시계열 데이터 특성을 반영한 stride-TCN(Temporal Convolutional Network) 모델 예측 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 데이터 처리부의 내부 구성을 간략하게 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 데이터 생성부의 내부 구성을 간략하게 나타낸 블록도이다.
도 4는 본 발명의 실시예에 따른 확장된 합성곱 필터(Dilated Convolutional Filter)에서 확장 계수 d를 레이어의 깊이에 맞춰 지수적으로 증가하는 모습을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 TCN 블록의 구조를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 시계열 데이터 특성의 일례를 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 stride 확장 TCN 블록의 구조를 나타낸 도면이다.
도 8은 본 발명의 실시예에 따른 TCN 모델 예측 시스템의 stride-TCN 모델의 추론 시 전체 구조를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 데이터 처리부의 내부 구성을 간략하게 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 데이터 생성부의 내부 구성을 간략하게 나타낸 블록도이다.
도 4는 본 발명의 실시예에 따른 확장된 합성곱 필터(Dilated Convolutional Filter)에서 확장 계수 d를 레이어의 깊이에 맞춰 지수적으로 증가하는 모습을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 TCN 블록의 구조를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 시계열 데이터 특성의 일례를 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 stride 확장 TCN 블록의 구조를 나타낸 도면이다.
도 8은 본 발명의 실시예에 따른 TCN 모델 예측 시스템의 stride-TCN 모델의 추론 시 전체 구조를 나타낸 도면이다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 실시예에 따른 시계열 데이터 특성을 반영한 stride-TCN(Temporal Convolutional Network) 모델 예측 시스템의 구성을 나타낸 도면이고, 도 2는 본 발명의 실시예에 따른 데이터 처리부의 내부 구성을 간략하게 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 데이터 생성부의 내부 구성을 간략하게 나타낸 블록도이고, 도 4는 본 발명의 실시예에 따른 확장된 합성곱 필터(Dilated Convolutional Filter)에서 확장 계수 d를 레이어의 깊이에 맞춰 지수적으로 증가하는 모습을 나타낸 도면이고, 도 5는 본 발명의 실시예에 따른 TCN 블록의 구조를 나타낸 도면이고, 도 6은 본 발명의 실시예에 따른 시계열 데이터 특성의 일례를 나타낸 도면이고, 도 7은 본 발명의 실시예에 따른 stride 확장 TCN 블록의 구조를 나타낸 도면이다.
본 발명의 실시예에 따른 시계열 데이터 특성을 반영한 stride-TCN 모델 예측 시스템(100)은 시계열 데이터 입력부(110), 데이터 처리부(120), 데이터 생성부(130), 제어부(140), 시계열 데이터 예측 모델 학습부(150), 시계열 데이터 예측 모델 저장부(160), 데이터 분석 매칭부(170) 및 시계열 데이터 예측부(180)를 포함한다.
시계열 데이터 입력부(110)는 시계열 데이터를 입력받는다.
시계열 데이터의 모델링은 입력 에 대해 출력 시퀀스 를 매번 예측하는 작업으로 정의한다면, 시퀸스 모델링 네트워크는 입력(x)을 출력(y)으로 매핑하는 최적의 함수 f:X -> Y를 찾는 수학식 1과 같이 정의할 수 있다.
주요한 제약 조건은 관찰된 데이터 포인트의 정렬된 수, P 데이터 포인트는 시간순으로 즉시 예측된다.
여기서, N은 계열의 개수, T는 과거 관측치의 길이, P는 예측 범위의 길이를 나타낸다.
시계열 데이터 예측은 일반적으로 평균 제곱 오차(MSE), 평균 절대 오차(MAE) 또는 변형(평균 절대 백분율 오차, 평균 제곱근 오차 등)과 같은 손실 함수에서 실제값을 예측하는데 중점을 두고 있다.
MSE는 데이터 세트의 이상값을 학습하는데 더 큰 반면, MAE는 이상값을 무시하는데 좋다. 그러나 어떤 경우에는 데이터가 이상값에 덜 민감하므로 해당 지점의 우선 순위가 높지 않아야 한다. 따라서, Huber loss는 제안된 MAE와 MSE를 결합하여 이 문제를 해결한다. Huber 손실의 수학적 형태는 다음의 수학식 2와 같다.
데이터 처리부(120)는 시계열 데이터 입력부(110)로부터 시계열 데이터를 분석하여 시계열 데이터 특성을 확인한다.
도 6에 도시된 바와 같이, 시계열 데이터 특성의 일례로 에너지 소비와 관련된 데이터 세트에서 테스트되었다. 데이터 분석은 에너지 소비 데이터가 주기적임을 발견하고, 일정 기간을 기준으로 해당 기간의 동일한 위치에 있는 정보가 강한 연관 관계를 가지며, 다음 기간에 대한 예측을 지원한다.
데이터 처리부(120)는 시계열 데이터 입력부(110)로부터 수신한 시계열 데이터의 자기상관함수를 계산하여 시계열 데이터 특성을 파악한다.
본 발명의 실시예에 따른 데이터 처리부(120)는 전처리부(121), 제1 데이터 분석부(122), 제1 하이퍼파라미터 설정부(123) 및 제1 로그 저장부(124)를 포함한다.
전처리부(121)는 시계열 데이터 입력부(110)의 시계열 데이터를 입력받아 시계열 데이터 지점마다 전체 시계열 데이터 지점에 대한 평균을 빼서 전처리를 수행한다.
제1 데이터 분석부(122)는 전처리부(121)로부터 전처리가 수행된 시계열 데이터를 자기상관함수(Auto Correlation Function)를 적용하여 최초의 시계열 데이터 지점부터 각 시계열 데이터 지점에 대한 자기상관값을 계산하고, 각 시계열 데이터 지점의 자기상관값에 임계값을 적용하여 유사한 패턴이 얼마의 간격만큼 반복되는지를 확인한다.
여기서, 자기상관함수는 시계열 데이터의 시간에 따른 상관 정도를 나타내는 함수로 공지된 기술이므로 상세한 설명을 생략하고, 시계열 데이터의 특성을 파악할 수 있는 중요한 지표이고, 임의의 어떤 신호(p(t))와 그 신호를 임의의 시간(t)만큼 지연시킨 신호(p(t+t)) 사이의 상관 관계를 파악할 수 있는 함수이며, 지연 시간(t)에 대해 초기 신호의 성분이 계속해서 지속되고 있다면, 높은 상관 관계를 나타낸다고 본다.
시계열 데이터 특성은 시계열 데이터의 시간에 따른 상관 정보를 나타낼 수 있다.
제1 하이퍼파라미터 설정부(123)는 제1 데이터 분석부(122)로부터 계산된 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성한다.
본 발명의 시계열 데이터 예측 모델은 시간적 합성곱 신경망(Temporal Convolutional Network, TCN) 모델을 적용한다.
본 발명의 시계열 데이터 예측 모델은 TCN 이외에 새롭게 정의된 stride-TCN, RNN 계열의 LSTM, GRU 등 다양한 딥러닝 기반 시계열 데이터 예측 모델을 포함한다.
TCN은 RNN(Recurrent Neural Network)과 CNN(Convolution Neural Network) 아키텍처의 일부를 결합하여 시퀀스 모델링 작업을 위한 합성곱 신경망(Convolutional Neural Network, CNN)의 변형이다.
CNN은 영상 분류(Image Classification), 객체 탐지(Object Detection), 객체 분할(Image Segmentation)과 같이 영상 데이터에서 좋은 결과를 보인다. 합성곱 신경망 모델로 시계열 데이터를 처리하기 위해서는 1차원 합성곱 필터가 필요하고, 시계열 데이터가 너무 길다면 타임 스텝 정보를 파악하기 위해서 매우 많은 층과 필터가 필요하게 된다.
1차원 컨볼루션으로 멀리 떨어진 타임 스템의 정보도 파악하기 위해서는 매우 많은 층과 필터가 필요하게 된다. 이를 극복하기 위해서 TCN에서는 WaveNet 모델에서 사용된 확장 합성곱 필터(컨볼루션)을 이용한다.
이를 극복하기 위해서 제1 하이퍼파라미터 설정부(123)는 확장된 합성곱 필터(Dilated Convolutional Filter)를 사용하게 되는데, 도 4와 같이 필터를 입력을 이라고 할 때, 확장된 컨볼루션(합성곱 필터) 는 다음의 수학식 3과 같다.
따라서, 확장(dilation)은 인접한 필터 요소 사이에 고정된 길이를 삽입하는 것과 같다.
d = 1일 경우에는 일반적인 합성곱 신경망 모델을 의미하며, 도 4와 같이, d를 크게 잡을수록 Top 레벨(출력층)에서 입력의 매우 넓은 범위를 표현할 수 있다.
즉, 컨볼루션(Convolution) 층을 적층하거나 필터를 키울 필요없이 receptive field를 손쉽게 늘릴 수 있는 것이다.
이와 같은 합성곱 신경망 모델을 시간적 합성곱 신경망(Temporal Convolutional Network, TCN) 모델이라고 한다.
시계열 데이터는 전력 수요랑, 주식 가격 예측, 농산물 가격 예측 등 다양한 특성을 가지는 데이터가 있기 때문에 시계열 데이터의 특성에 맞는 층의 깊이, 필터 크기, 노드의 수 등 시간적 합성곱 신경망 모델의 파라미터를 최적화시키는 방법이 필요하며, 이하에서 상세하게 설명한다.
제1 하이퍼파라미터 설정부(123)는 확장된 컨볼루션(합성곱 필터)을 적층하면, 네트워크가 수용 필드(receptive field)를 가질 수 있고, 더 적은 수의 층으로 장거리 범위의 시간 종속성을 캡쳐할 수 있다.
제1 하이퍼파라미터 설정부(123)는 컨볼루션 층을 쌓을수록 확장 계수 d를 2의 제곱만큼 증가시켜 입력 시퀀스의 모든 요소를 바라보면서 큰 수용 필드(receptive field)를 효율적으로 구현할 수 있다. d는 로 계산된 블록 내 연속 레이어로 증가된다.
TCN의 수용 필드(Receptive Field)는 확장 계수 d와 커널 크기 k로 결정되므로 TCN의 안정적인 학습을 위해 잔차 연결이 매 레이어(Layer)마다 적용된다.
TCN의 수용 필드를 늘리는 방법이 두 가지 있다. 첫 번째는 필터 크기 k를 늘리고, 확장 계수 d를 증가시켜 수용 필드를 늘릴 수 있다. 두 번째는 네트워크의 깊이를 깊게 쌓는 것인데, 보통 확장 계수 d를 레이어의 깊이에 맞춰 지수적으로 증가하는 형식을 많이 사용한다.
시계열 데이터 예측 모델은 제1 데이터 분석부(122)로부터 계산된 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 수용 필드를 포함한 확장 컨볼루션 , TCN 블록의 확장 개수를 결정하기 위한 파라미터 를 계산하여 TCN 블록을 생성하는 것이다.
도 5에 도시된 바와 같이, TCN 블록에 포함된 잔차 블록은 Dropout, Relu 함수, 가중치 정규화(Weight Normalization)를 수행한다.
Dropout은 신경망의 뉴런을 부분적으로 생략하여 모델의 주어진 데이터를 과도하게 학습하여 높은 성능을 보이는 과적합(overfitting)을 해결해주기 위한 방법중 하나이다.
Normalization은 정규화라고도 불리며 목표는 값 범위의 차이를 왜곡시키지 않고 데이터 세트를 공통된 scale로 변경하는 것이다.
가중치 정규화(Weight Normalization)는 mini-batch를 정규화하는 것이 아니라 레이어(layer)의 가중치를 정규화한다. 가중치 정규화는 레이어의 가중치 w를 다음의 수학식 6과 같이, 파라미터의 크기 g와 방향 v로 re-parameterize를 통해 수행한다.
여기서, 벡터 v의 길이는 일반적으로 || v || 또는 | v | 로 나타내며, 벡터 v에 대한 놈(norm), 길이(distance), 크기(magnitude)라고 부른다.
가중치 정규화는 w 벡터의 방향으로부터 norm을 분리시킨 후, g와 v를 gradient descent하여 최적화(optimize)한다.
가중치 정규화는 레이어의 가중치 w를 수학식 5와 같은 방식으로 변경하는데, 배치 정규에서 입력값을 표준 편차로 나누어주는 것과 유사한 효과를 얻는다.
배치 정규화(Batch Normalization)는 평균과 분산을 조정하는 과정이 별도의 과정으로 떼어진 것이 아니라, 신경망 안에 포함되어 학습 시 평균과 분산을 조정하는 과정 역시 같이 조절된다. 즉, 배치 정규화는 각 레이어마다 정규화 하는 레이어를 두어 변형된 분포가 나오지 않도록 조절하게 하는 것이다.
배치 정규화는 간단히 말하자면 미니배치의 평균과 분산을 이용해서 정규화 한 뒤에, scale 및 shift를 감마(γ) 값, 베타(β) 값을 통해 실행한다. 이 때 감마와 베타 값은 학습 가능한 변수이다. 즉, Backpropagation을 통해서 학습이 된다. 이렇게 정규화된 값을 활성화 함수의 입력으로 사용하고, 최종 출력 값을 다음 레이어의 입력으로 사용하는 것이다.
제1 로그 저장부(124)는 제1 데이터 분석부(122)의 결과값과 제1 하이퍼파라미터 설정부(123)에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장한다.
본 발명의 실시예에 따른 데이터 생성부(130)는 데이터 로그 수신부(131), 랜덤 상수 추가부(132), 제2 데이터 분석부(133), 제2 하이퍼파라미터 설정부(134) 및 제2 로그 저장부(135)를 포함한다.
제어부(140)는 제1 로그 저장부(124)에서 제1 데이터 분석부(122)의 결과값을 추출하여 데이터 로그 수신부(131)로 전송한다.
데이터 로그 수신부(131)는 제어부(140)에 의해 제1 로그 저장부(124)로부터 제1 데이터 분석부(122)의 결과값인 시계열 데이터 특성을 포함한 데이터 분석 로그를 수신한다.
랜덤 상수 추가부(132)는 수신한 시계열 데이터 특성을 포함한 데이터 분석 로그를 기반으로 각 시계열 데이터 지점에 대한 자기상관값을 푸리에 변환을 통한 파워 스펙트럼을 계산하여 랜덤하게 주파수를 제거, 추가 또는 섞음을 통해 랜덤 상수를 정의하고 추가한다.
제2 데이터 분석부(133)는 랜덤 상수 추가부(132)를 통해 주제는 같지만 특성이 다른 새로운 시계열 데이터를 생성하고, 생성한 시계열 데이터를 분석하여 랜덤 상수가 반영된 시계열 데이터 특성에 대한 로그를 남긴다.
제2 하이퍼파라미터 설정부(134)는 제2 데이터 분석부(133)로부터 계산된 랜덤 상수가 반영된 시계열 데이터 특성을 반영하여 전술한 수학식 3 내지 수학식 6에 의해 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성한다. 전술한 수학식 3 내지 수학식 6은 중복되는 설명을 생략한다. 본 발명의 시계열 데이터 예측 모델은 시간적 합성곱 신경망(Temporal Convolutional Network, TCN) 모델을 적용한다.
시계열 데이터 예측 모델은 제2 데이터 분석부(133)로부터 계산된 시계열 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 수용 필드를 포함한 확장 컨볼루션 , TCN 블록의 확장 개수를 결정하기 위한 파라미터 를 계산하여 TCN 블록을 생성하는 것이다.
제2 로그 저장부(135)는 제2 데이터 분석부(133)의 결과값과 제2 하이퍼파라미터 설정부(134)에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장한다.
제1 하이퍼파라미터 설정부(123) 또는 제2 하이퍼파라미터 설정부(134)는 아래의 베이지안 최적화(Bayesian Optimization) 알고리즘을 사용하여 다음의 표 1과 같이, TCN에서 시계열 데이터 예측 모델의 하이퍼파라미터를 자동으로 검색한다.
베이지안 최적화 알고리즘에서의 확률 모듈 은 하이퍼파라미터 집합 가 주어지면, 평가 인덱스 에서 수행된다. 베이지안 최적화 알고리즘은 다음의 알고리즘 1에서 설명한 것과 같이, 최적화할 함수를 추정하기 위해 대체 모델(Surrogate Model)을 사용한다.
베이지안 최적화는 입력값(x)을 임의의 목적 함수(f(x))를 산정하여 해당 목적 함수값을 최대로 만드는 최적해를 찾는 것으로 목적으로 한다. 즉, 목적 함수(탐색대상함수)와 하이퍼파라미터 쌍을 대상으로 대체 모델을 만들고, 순차적으로 하이퍼파라미터를 업데이트해 가면서 평가를 통해 최적의 하이퍼파라미터 조합을 탐색한다. 이때의 목적 함수를 블랙 박스 함수라고 한다.
베이지안 최적화는 대체 모델(Surrogate Model)과 획득 함수(Acquisition Model)의 두가지 필수 요소가 존재한다.
대체 모델은 현재까지 조사된 입력값, 함수 결과값 점들을 바탕으로 미지의 목적 함수의 형태에 대한 확률적인 추정을 수행하는 모델을 의미한다.
획득 함수는 목적 함수에 대한 현재까지의 획률적 추정 결과를 바탕으로 최적 입력값을 찾는데 있어 가장 유용할 만한 다음 입력값 후보를 추천해주는 함수를 의미한다.
베이지안 최적화 알고리즘은 이전 관찰 D=를 기초로 하는 확률 을 결정하기 위해서 알고리즘 1과 같이, 사이클을 반복하는 과정을 수행한다. 여기서, 확률 은 인 잡음이 있는 관측치를 액세스 한다고 가정한다.
자기 상관 방법은 시계열 데이터의 시간 종속성 S를 결정하는데 사용된다.
도 7에 도시된 바와 같이, 제1 하이퍼파라미터 설정부(123) 또는 제2 하이퍼파라미터 설정부(134)는 시계열 데이터의 시간 의존성 S를 결정하기 위한 접근 방식으로 하이퍼파라미터를 자동으로 결정하기 위해서 전술한 베이지안 최적화(Bayesian Optimization) 알고리즘을 사용하여 적은 파라미터수와 연산량을 가지면서도 성능이 좋은 새롭게 정의된 stride-TCN 아키텍처를 제공한다.
제1 하이퍼파라미터 설정부(123) 또는 제2 하이퍼파라미터 설정부(134)는 데이터 처리부(120) 또는 데이터 생성부(130)로부터 결정된 딥러닝 기반 시계열 데이터 예측 모델과 하이퍼파라미터를 베이지안 최적화(Bayesian Optimization) 알고리즘을 적용하여 데이터 특성에 맞게 하이퍼파라미터를 검색하고, 매 반복마다 검증(Validation) 데이터에 대한 검증 테스트를 진행하여 최고 성능을 내는 하이퍼파라미터를 찾는다.
제1 하이퍼파라미터 설정부(123) 또는 제2 하이퍼파라미터 설정부(134)는 전술한 베이지안 최적화(Bayesian Optimization) 알고리즘을 사용하여 다음의 표 2와 같이, stride-TCN에서 시계열 데이터 예측 모델의 하이퍼파라미터를 자동으로 검색한다.
제1 하이퍼파라미터 설정부(123) 또는 제2 하이퍼파라미터 설정부(134)는 TCN 모델 또는 stride-TCN 모델을 베이지안 최적화 알고리즘을 이용하여 학습 절차 전에 하이퍼파라미터를 자동으로 검색하여 결정할 수 있다.
TCN 모델과 stride-TCN 모델에 대한 학습 절차는 하기의 알고리즘 2에 설명되어 있다. 여기서, 손실(W)는 학습해야 하는 모델 파라미터를 나타내고, 는 최적의 조정 가능한 하이퍼파라미터 집합을 나타내며, 손실(W)는 Huber 손실을 사용하여 계산된다.
시계열 데이터 예측 모델 학습부(150)는 데이터 처리부(120) 또는 데이터 생성부(130)로부터 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터가 결정되어 학습된다.
시계열 데이터 예측 모델 학습부(150)는 TCN 모델과 stride-TCN 모델을 기반으로 하이퍼파라미터가 결정되어 알고리즘 2에 의해 학습된다.
시계열 데이터 예측 모델 학습부(150)는 데이터 처리부(120) 또는 데이터 생성부(130)를 통해서 결정된 시계열 데이터 특성에 대한 로그와, 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 가지고 딥러닝 기반 시계열 데이터 예측 모델을 학습한다.
시계열 데이터 예측 모델 저장부(160)는 시계열 데이터 예측 모델 학습부(150)로부터 학습된 딥러닝 기반 시계열 데이터 예측 모델의 모델 그래프, 모델 파라미터와 데이터 분석 로그가 매칭되어 저장된다.
데이터 분석 매칭부(170)는 시계열 데이터 예측 모델 저장부(160)를 이용한 시계열 데이터 예측 모델의 추론 시에 시계열 데이터 입력부(110)로부터 입력받은 시계열 데이터와 미리 학습된 시계열 데이터 예측 모델 및 데이터 분석 로그를 매칭하여 유사도를 판별한다.
도 8은 본 발명의 실시예에 따른 TCN 모델 예측 시스템의 stride-TCN 모델의 추론 시 전체 구조를 나타낸 도면이다.
시계열 데이터 예측부(180)는 데이터분석 매칭부(170)를 통해서 입력받은 시계열 데이터와 가장 유사도가 높은 사전 학습된 시계열 데이터 예측 모델을 통해서 시계열 데이터 예측을 수행한다.
stride-TCN 모델은 데이터 특성 로그에 따라서 시계열 데이터의 패턴이 계속 반복되는 지점의 간격을 stride화 시키는 것으로 기존의 TCN 모델에 dilation 대신 stride와 filter, kernal size, layer를 기반으로 새로운 TCN 모델을 제안한 것이다
stride-TCN 모델은 TCN의 구조가 비슷하게 유지하되, 시계열 데이터는 일반적으로 반복되는 패턴을 가지고 있기 때문에 반복되는 패턴의 특성에 중점을 두어 패턴을 갖는 부분을 더 집중해서 볼 수 있도록 Dilation 대신 stride를 적절하게 준다. 따라서, stride-TCN 모델은 더 적은 파라미터 수와 연산량으로 더 입력 데이터에 적합한 예측 모델을 만들 수 있는 특성을 가진다.
제어부(140)는 시계열 데이터 예측 모델의 학습 시 시계열 데이터 입력부(110), 데이터 처리부(120), 데이터 생성부(130), 시계열 데이터 예측 모델 학습부(150), 시계열 데이터 예측 모델 저장부(160)를 통해서 시계열 데이터 특성에 대한 값, 시계열 데이터 예측 모델인 stride-TCN 모델의 그래프, stride-TCN 모델의 하이퍼파라미터 설정값, 학습된 stride-TCN 모델이 저장되도록 제어한다.
제어부(140)는 시계열 데이터 예측 모델의 추론 시 시계열 데이터 입력부(110), 데이터 처리부(120), 데이터 생성부(130), 데이터 분석 매칭부(170), 시계열 데이터 예측부(180)를 통해서 입력된 시계열 데이터에 대해 미래의 시계열 데이터를 예측한다.
데이터 분석 매칭부(170)는 데이터 처리부(120)로부터 얻어진 입력 데이터 특성 로그값과 TCN 모델 예측 시스템(100)에 사전 학습된 stride-TCN 모델에 맞는 데이터 특성 로그값 사이의 유사성을 비교해서 유사도가 가장 높은 stride-TCN 모델 그래프, 하이퍼파라미터 설정값, 학습된 stride-TCN 모델을 불러와서 시계열 데이터를 예측한다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: TCN 모델 예측 시스템 110: 시계열 데이터 입력부
120: 데이터 처리부 121: 전처리부
122: 제1 데이터 분석부 123: 제1 하이퍼파라미터 설정부
124: 제1 로그 저장부 130: 데이터 생성부
131: 데이터 로그 수신부 132: 랜덤 상수 추가부
133: 제2 데이터 분석부 134: 제2 하이퍼파라미터 설정부
135: 제2 로그 저장부 140: 제어부
150: 시계열 데이터 예측 모델 학습부
160: 시계열 데이터 예측 모델 저장부
170: 데이터 분석 매칭부 180: 시계열 데이터 예측부
120: 데이터 처리부 121: 전처리부
122: 제1 데이터 분석부 123: 제1 하이퍼파라미터 설정부
124: 제1 로그 저장부 130: 데이터 생성부
131: 데이터 로그 수신부 132: 랜덤 상수 추가부
133: 제2 데이터 분석부 134: 제2 하이퍼파라미터 설정부
135: 제2 로그 저장부 140: 제어부
150: 시계열 데이터 예측 모델 학습부
160: 시계열 데이터 예측 모델 저장부
170: 데이터 분석 매칭부 180: 시계열 데이터 예측부
Claims (12)
- 시계열 데이터를 입력받는 시계열 데이터 입력부;
상기 시계열 데이터 입력부로부터 시계열 데이터를 분석하여 시계열 데이터 특성을 확인하는 데이터 처리부;
상기 데이터 처리부로부터 얻어진 시계열 데이터 특성을 미세하게 변화하여 새로운 종류의 시계열 데이터를 생성하는 데이터 생성부;
상기 데이터 처리부 또는 상기 데이터 생성부로부터 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터가 결정되어 학습하는 시계열 데이터 예측 모델 학습부;
상기 시계열 데이터 예측 모델 학습부로부터 학습된 딥러닝 기반 시계열 데이터 예측 모델의 모델 그래프, 모델 파라미터와 데이터 분석 로그가 매칭되서 저장되는 시계열 데이터 예측 모델 저장부;
상기 시계열 데이터 예측 모델 저장부를 이용한 시계열 데이터 예측 모델의 추론 시에 상기 시계열 데이터 입력부로부터 입력받은 시계열 데이터와 미리 학습된 시계열 데이터 예측 모델 및 데이터 분석 로그를 매칭하여 유사도를 판별하는 데이터 분석 매칭부; 및
상기 데이터 분석 매칭부를 통해서 입력받은 시계열 데이터와 가장 유사도가 높은 사전 학습된 시계열 데이터 예측 모델을 통해서 시계열 데이터 예측을 수행하는 시계열 데이터 예측부를 포함하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 1에 있어서,
상기 데이터 처리부는,
상기 시계열 데이터 입력부의 시계열 데이터를 입력받아 시계열 데이터 지점마다 전체 시계열 데이터 지점에 대한 평균을 빼서 전처리를 수행하는 전처리부;
상기 전처리부로부터 전처리가 수행된 시계열 데이터를 자기상관함수(Auto Correlation Function)를 적용하여 최초의 시계열 데이터 지점부터 각 시계열 데이터 지점에 대한 자기상관값을 계산하고, 각 시계열 데이터 지점의 자기상관값에 임계값을 적용하여 유사한 패턴이 얼마의 간격만큼 반복되는지를 확인하는 제1 데이터 분석부;
상기 제1 데이터 분석부로부터 수신된 시계열 데이터의 시간에 따른 상관 정보를 나타내는 시계열 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성하는 제1 하이퍼파라미터 설정부; 및
상기 제1 데이터 분석부의 결과값과 상기 제1 하이퍼파라미터 설정부에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장하는 제1 로그 저장부를 포함하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 1에 있어서,
상기 데이터 생성부는,
상기 데이터 처리부로부터 수신한 시계열 데이터 특성을 포함한 데이터 분석 로그를 기반으로 각 시계열 데이터 지점에 대한 자기상관값을 푸리에 변환을 통한 파워 스펙트럼을 계산하여 랜덤하게 주파수를 제거, 추가 또는 섞음을 통해 랜덤 상수를 정의하고 추가하는 랜덤 상수 추가부;
상기 랜덤 상수 추가부를 통해 주제는 같지만 특성이 다른 새로운 시계열 데이터를 생성하고, 생성된 시계열 데이터를 분석하여 랜덤 상수가 반영된 시계열 데이터 특성에 대한 로그를 남기는 제2 데이터 분석부;
상기 제2 데이터 분석부로부터 계산된 랜덤 상수가 반영된 시계열 데이터 특성을 반영하여 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터를 설정하여 시계열 데이터 예측 모델을 생성하는 제2 하이퍼파라미터 설정부; 및
상기 제2 데이터 분석부의 결과값과 상기 제2 하이퍼파라미터 설정부에서 생성된 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 저장하는 제2 로그 저장부를 포함하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 2 또는 청구항 3에 있어서,
상기 시계열 데이터 예측 모델 학습부는,
상기 데이터 처리부 또는 상기 데이터 생성부로부터 결정된 시계열 데이터 특성에 대한 로그와, 딥러닝 기반 시계열 데이터 예측 모델의 하이퍼파라미터 설정값을 가지고 딥러닝 기반 시계열 데이터 예측 모델을 학습하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 2 또는 청구항 3에 있어서,
상기 시계열 데이터 예측 모델 학습부는,
상기 데이터 처리부 또는 상기 데이터 생성부로부터 결정된 딥러닝 기반 시계열 데이터 예측 모델과 하이퍼파라미터를 베이지안 최적화(Bayesian Optimization) 알고리즘을 적용하여 데이터 특성에 맞게 하이퍼파라미터를 검색하고, 매 반복마다 검증(Validation) 데이터에 대한 검증 테스트를 진행하여 최고 성능을 내는 하이퍼파라미터를 찾는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 1에 있어서,
상기 시계열 데이터 예측 모델의 학습 시에는 상기 시계열 데이터 입력부, 상기 데이터 처리부, 상기 데이터 생성부, 상기 시계열 데이터 예측 모델 학습부, 상기 시계열 데이터 예측 모델 저장부를 통해서 시계열 데이터 특성에 대한 값, 상기 시계열 데이터 예측 모델인 stride-TCN 모델의 그래프, stride-TCN 모델의 하이퍼파라미터 설정값, 학습된 stride-TCN 모델이 저장되도록 제어하는 제어부를 더 포함하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 1에 있어서,
상기 시계열 데이터 예측 모델의 추론 시에는 상기 시계열 데이터 입력부, 상기 데이터 처리부, 상기 데이터 생성부, 상기 데이터 분석 매칭부, 상기 시계열 데이터 예측부를 통해서 입력된 시계열 데이터에 대해 미래의 시계열 데이터를 예측하도록 제어하는 제어부를 더 포함하며,
상기 데이터 분석 매칭부는 상기 데이터 처리부로부터 얻어진 입력 데이터 특성 로그값과 사전 학습된 stride-TCN 모델에 맞는 데이터 특성 로그값 사이의 유사성을 비교해서 유사도가 가장 높은 stride-TCN 모델의 그래프, 하이퍼파라미터 설정값, 학습된 stride-TCN 모델을 불러와서 시계열 데이터를 예측하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 1에 있어서,
상기 시계열 데이터 예측 모델은 시간적 합성곱 신경망(Temporal Convolutional Network, TCN) 모델 또는 stride-TCN 모델인 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템. - 청구항 11에 있어서,
상기 데이터 처리부 또는 상기 데이터 생성부는,
상기 TCN 모델 또는 상기 stride-TCN 모델을 베이지안 최적화 알고리즘을 이용하여 학습 절차 전에 하이퍼파라미터를 자동으로 검색하여 결정하는 시계열 데이터 특성을 반영한 TCN 모델 예측 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220110549A KR102536284B1 (ko) | 2022-09-01 | 2022-09-01 | 시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220110549A KR102536284B1 (ko) | 2022-09-01 | 2022-09-01 | 시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102536284B1 true KR102536284B1 (ko) | 2023-05-30 |
Family
ID=86529557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220110549A KR102536284B1 (ko) | 2022-09-01 | 2022-09-01 | 시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102536284B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190109121A (ko) * | 2018-03-16 | 2019-09-25 | 울산과학기술원 | 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템 |
KR20200137107A (ko) * | 2019-05-29 | 2020-12-09 | 삼성에스디에스 주식회사 | 기계 학습 기반의 시계열 데이터 분석 장치 및 방법 |
KR20210082113A (ko) * | 2019-12-24 | 2021-07-02 | 탱커주식회사 | 시계열 데이터의 이중 학습 장치의 동작 방법 |
JP2022074133A (ja) * | 2020-11-02 | 2022-05-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 多変量時系列モデリングおよび予測のためのコンピューティングデバイス、コンピュータ実装方法、およびコンピュータ可読記憶媒体(改良された多変量時系列モデリングおよび予測のための複数時系列にわたる確率的非線形関係および外部要因) |
-
2022
- 2022-09-01 KR KR1020220110549A patent/KR102536284B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190109121A (ko) * | 2018-03-16 | 2019-09-25 | 울산과학기술원 | 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템 |
KR102113218B1 (ko) | 2018-03-16 | 2020-05-20 | 울산과학기술원 | 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템 |
KR20200137107A (ko) * | 2019-05-29 | 2020-12-09 | 삼성에스디에스 주식회사 | 기계 학습 기반의 시계열 데이터 분석 장치 및 방법 |
KR20210082113A (ko) * | 2019-12-24 | 2021-07-02 | 탱커주식회사 | 시계열 데이터의 이중 학습 장치의 동작 방법 |
JP2022074133A (ja) * | 2020-11-02 | 2022-05-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 多変量時系列モデリングおよび予測のためのコンピューティングデバイス、コンピュータ実装方法、およびコンピュータ可読記憶媒体(改良された多変量時系列モデリングおよび予測のための複数時系列にわたる確率的非線形関係および外部要因) |
Non-Patent Citations (1)
Title |
---|
Livieris et al. "A novel validation framework to enhance deep learning models in time-series forecasting." Neural Computing and Applications 32 (2020): 17149-17167. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111148118B (zh) | 基于时间序列的流量预测和载波关断方法和系统 | |
Hrasko et al. | Time series prediction using restricted boltzmann machines and backpropagation | |
Khan et al. | A higher prediction accuracy–based alpha–beta filter algorithm using the feedforward artificial neural network | |
Amari et al. | Statistical theory of learning curves under entropic loss criterion | |
Moody | Prediction risk and architecture selection for neural networks | |
Pratama et al. | Parsimonious random vector functional link network for data streams | |
US11585918B2 (en) | Generative adversarial network-based target identification | |
Schlegel et al. | General value function networks | |
CN111898764A (zh) | 联邦学习的方法、装置和芯片 | |
CN114399032B (zh) | 一种电能表计量误差预测方法及系统 | |
Yang et al. | A novel self-constructing radial basis function neural-fuzzy system | |
US20220164660A1 (en) | Method for determining a sensor configuration | |
CN114004383A (zh) | 时间序列预测模型的训练方法、时间序列预测方法及装置 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
Hsu | Multi-period time series modeling with sparsity via Bayesian variational inference | |
AU2012264478A1 (en) | Heterogeneous data fusion using gaussian processes | |
Luttmann et al. | Comparison of backpropagation and Kalman filter-based training for neural networks | |
Zhang et al. | Robust data-driven discovery of partial differential equations under uncertainties | |
Jadhav et al. | Data transformation: A preprocessing stage in machine learning regression problems | |
KR102536284B1 (ko) | 시계열 데이터 특성을 반영한 tcn 모델 예측 시스템 | |
CN116596396A (zh) | 一种基于k近邻插值和slstm的工业聚乙烯过程质量预测方法 | |
US20220269991A1 (en) | Evaluating reliability of artificial intelligence | |
Abdullah et al. | Comparison of non-linear time series models (Beta-t-EGARCH and NARMAX models) with Radial Basis Function Neural Network using Real Data | |
KR20230033071A (ko) | Gru 기반 구조물 시계열 응답 예측 방법 | |
US20210149986A1 (en) | Computer architecture for multi-domain probability assessment capability for course of action analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |