KR102653418B1 - 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치 - Google Patents

순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치 Download PDF

Info

Publication number
KR102653418B1
KR102653418B1 KR1020210066758A KR20210066758A KR102653418B1 KR 102653418 B1 KR102653418 B1 KR 102653418B1 KR 1020210066758 A KR1020210066758 A KR 1020210066758A KR 20210066758 A KR20210066758 A KR 20210066758A KR 102653418 B1 KR102653418 B1 KR 102653418B1
Authority
KR
South Korea
Prior art keywords
time series
series data
pattern matching
input
lstm model
Prior art date
Application number
KR1020210066758A
Other languages
English (en)
Other versions
KR20220159006A (ko
Inventor
심정섭
김영준
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210066758A priority Critical patent/KR102653418B1/ko
Publication of KR20220159006A publication Critical patent/KR20220159006A/ko
Application granted granted Critical
Publication of KR102653418B1 publication Critical patent/KR102653418B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법 및 장치가 제시된다. 본 발명에서 제안하는 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법은 LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하는 단계, 순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하는 단계 및 상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측하는 단계를 포함한다.

Description

순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법 및 장치{Method and Apparatus for Prediction of Time Series Data Prediction using a Hybrid Model of Combining LSTM and Order-Preserving Pattern Matching}
본 발명은 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법 및 장치에 관한 것이다.
시계열데이터는 시간적 순서에 따라 측정된 데이터이다. 대표적인 시계열데이터로는 강수량, 기온과 같은 기상 데이터, 환율, 주가지수와 같은 금융 데이터 등이 있다. 이러한 시계열데이터에서 규칙성을 찾거나 데이터 사이의 의존성을 파악하여 미래 데이터를 예측하기 위한 다양한 연구들이 진행되어 왔다[1-3]. 최근에는 딥러닝(deep learning)을 이용하여 시계열데이터를 분석하는 연구가 활발히 진행되고 있다[4-6]. 딥러닝은 모델에 따라 합성곱신경망(convolution neural network), 순환신경망(recurrent neural network), 심층신뢰망(deep belief network) 등 다양한 종류들이 있으며, 시계열데이터 분석에는 순환신경망의 LSTM(Long Short-Term Memory) 모델이 최근 많이 사용되고 있다.
한편, 문자열매칭 분야에서도 시계열데이터의 패턴을 분석하는 순위패턴매칭 알고리즘 연구가 진행되고 있다. 문자열매칭에서는 각 문자들의 동일 여부를 판단하여 일치 여부를 결정하지만, 순위패턴매칭에서는 각 문자들의 순위가 동일한지 여부를 판단하여 일치 여부를 결정한다. 순위패턴매칭문제는 1960년대에 제시된 이후 이산수학과 조합론 분야에서 망패턴(mesh pattern), 사각망패턴(boxed-mesh pattern), 연속패턴 등 다양한 형태에 대해 연구가 진행되어 왔다[7-8].
본 발명이 이루고자 하는 기술적 과제는 시계열데이터를 입력 받아, LSTM과 순위패턴매칭을 함께 이용하여 이후의 시계열데이터를 예측하여 출력하는 방법 및 장치를 제공하는데 있다. 이를 위해 먼저 순위패턴매칭을 이용하여 시계열데이터를 예측하는 알고리즘을 이용하고, 이 알고리즘과 순환신경망의 LSTM을 결합한 시계열데이터 분석을 통해 문제를 해결하는 알고리즘을 제안한다.
일 측면에 있어서, 본 발명에서 제안하는 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법은 LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하는 단계, 순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하는 단계 및 상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측하는 단계를 포함한다.
상기 LSTM 모델 기반 시계열데이터를 예측하는 단계는 상기 LSTM 모델을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하여 크기가 인 배열(LS)에 저장한다.
상기 순위패턴매칭 기반 시계열데이터를 예측하는 단계는 상기 순위패턴매칭 알고리즘을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하여 크기가 인 배열(OP)에 저장한다.
상기 최종 시계열데이터를 예측하는 단계는 상기 예측된 순위패턴매칭 기반 시계열데이터가 저장된 크기가 인 배열(OP)에 저장되어 있는 데이터들의 순위와 일치하도록 상기 예측된 LSTM 모델 기반 시계열데이터가 저장된 크기가 인 배열(LS)에 저장되어 있는 데이터들의 위치를 변경하여 최종 시계열데이터를 예측하고, 예측된 최종 시계열데이터를 최종 출력 배열(AS)에 저장한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 장치는 LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하는 LSTM 모델 학습부, 순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하는 순위패턴매칭부 및 상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측하는 최종 시계열데이터 예측부를 포함한다.
본 발명의 실시예들에 따르면 시계열데이터를 입력 받아, LSTM과 순위패턴매칭을 함께 이용하여 이후의 시계열데이터를 예측할 수 있다. 이를 위해 먼저 순위패턴매칭을 이용하여 시계열데이터를 예측하고, 이 알고리즘과 순환신경망의 LSTM을 결합한 시계열데이터 분석을 통해 문제를 해결할 수 있다.
도 1은 본 발명의 일 실시예에 따른 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 순위패턴매칭을 이용한 시계열데이터 예측 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 LSTM 모델을 이용하여 예측한 시계열데이터 및 순위패턴매칭 알고리즘을 이용하여 예측한 시계열데이터를 결합하여 최종 시계열 데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 장치의 구성을 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명에서는 시계열데이터 분석에 사용되는 LSTM 모델에 순위패턴매칭을 결합하여 시계열데이터를 예측하는 알고리즘을 제안한다. 본 발명의 실시예에 따른 시계열데이터에 있어서, 는 정수문자로 이루어진 집합이다. 로 구성된 길이가 m인 문자열들의 집합을 으로 표기한다. 문자열 의 길이는 로 나타내고, 번째 문자는 로 표기한다. 번째부터 번째까지의 부분문자 열은 로 표기한다. 에 대해 이면 는 공백 문자열을 뜻한다. 두 문자열 , 에 대해 이면 는 순위동형이라 하고 로 표기한다. 예를 들어, 은 길이가 같고 각 문자의 순위가 으로 동일하므로 순위동형이다. 두 문자열의 순위동형은 최근접이웃표현(nearest neighbor representation)의 위치테이블(location table)을 사용하여 판단할 수 있다[8]. 종래기술 [8]에서는 위치테이블과 KMP알고리즘[9]을 이용하여 순위패턴매칭문제를 효율적으로 해결하였다.
기상 데이터, 금융 데이터와 같은 시계열데이터들은 반복성이 있는 경우들이 많다. 이처럼 반복성이 있는 시계열데이터의 경우 유사한 상황, 사건이 발생했을 때 변화 패턴도 유사한 경우가 많다. 따라서 과거의 시계열데이터에서 최근 며칠 동안의 시계열데이터 변화와 비슷한 패턴을 찾는다면 이후 시계열데이터의 변화를 어느 정도 예측할 수 있을 것이다.
본 발명에서는 과거 일의 시계열데이터를 입력 받아, LSTM과 순위패턴매칭을 함께 이용하여 이후 일 동안의 시계열데이터를 예측하여 출력하는 알고리즘을 제안한다. 이를 위해 먼저 순위패턴매칭을 이용하여 시계열데이터를 예측하는 알고리즘을 설명한 뒤, 이 알고리즘과 LSTM을 결합하여 문제를 해결하는 알고리즘을 제시한다.
본 발명의 실시예에 따른 순위패턴매칭을 이용한 시계열데이터 예측 알고리즘에 있어서, 입력으로 주어진 개의 시계열데이터를 로 표현하고, 예측할 개의 시계열데이터를 으로 표현한다. 본 발명의 실시예에 따른 알고리즘은 총 단계로 구성된다. 먼저 , 를 만족하는 정수 를 설정한다. 각 단계 에서는 다음에 나타날 를 예측한다.
를 예측하는 방법은 다음과 같다. 우선 의 순위정보를 계산한다. 계산한 순위정보와 동일한 순위패턴이 에서 발생한 위치들을 모두 저장한 뒤, 이 위치에서부터 개의 정수로 이루어진 문자열들의 순위를 다시 계산한다. 총 가지의 순위가 존재할 수 있는데, 이중 가장 빈도수가 높은 순위를 반영하여 를 예측한다.
도 1은 본 발명의 일 실시예에 따른 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법을 설명하기 위한 흐름도이다.
제안하는 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법은 LSTM 모델 기반 시계열데이터를 예측하는 단계(110), 순위패턴매칭 기반 시계열데이터를 예측하는 단계(120) 및 최종 시계열데이터를 예측하는 단계(130)를 포함한다.
단계(110)에서, LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측한다.
상기 LSTM 모델을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하여 크기가 인 배열(LS)에 저장한다.
단계(120)에서, 순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측한다.
상기 순위패턴매칭 알고리즘을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하여 크기가 인 배열(OP)에 저장한다.
단계(130)에서, 상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측한다.
상기 예측된 순위패턴매칭 기반 시계열데이터가 저장된 크기가 인 배열(OP)에 저장되어 있는 데이터들의 순위와 일치하도록 상기 예측된 LSTM 모델 기반 시계열데이터가 저장된 크기가 인 배열(LS)에 저장되어 있는 데이터들의 위치를 변경하여 최종 시계열데이터를 예측하고, 예측된 최종 시계열데이터를 최종 출력 배열(AS)에 저장한다.
도 2는 본 발명의 일 실시예에 따른 순위패턴매칭을 이용한 시계열데이터 예측 과정을 설명하기 위한 도면이다.
도 2를 참고하여, , 일 때 에 대한 예측 과정을 설명한다. 예를 들어, 도 2에서 , 일 때, 단계 1에서 의 순위는 이다. , , 모두 순위정보가 이므로 , , 의 순위를 계산한다. 각각 순위가 , , 이고 가장 빈도수가 높은 순위는 이다. 따라서 을 예측할 때, 의 순위가 가 되도록 의 범위를 예측한 뒤, 해당 범위 내의 실제 값은 선형보간법(Linear Interpolation)[10]을 이용하여 결정한다. 위의 예시에서는 의 순위가 4이므로 순위가 3인 보다 만큼 큰 29로 을 결정한다.
다음으로, 본 발명의 실시예에 따른 LSTM과 순위패턴매칭을 결합한 하이브리드 알고리즘에 대하여 더욱 상세히 설명한다.
LSTM 모델은 데이터들을 절대적 수치로서 인지하고 데이터들의 관계를 하나의 고차원 함수로 설명하기 위하여 반복학습을 진행한다. 반복학습을 진행하여 입력과 출력의 관계를 가장 잘 설명할 수 있는 고차원 함수가 정의되면 이 함수를 이용하여 미래의 시계열데이터를 예측한다. 반면, 순위패턴매칭 알고리즘은 각 데이터들의 상대적 순위를 기준으로 미래의 데이터들을 예측한다. 따라서 LSTM 모델이 예측한 결과에 데이터들 사이의 순위라는 특성을 추가한다면 정확도의 향상을 기대할 수 있다.
본 발명에서 제안하는 시계열데이터 예측 하이브리드 알고리즘은 상술된 바와 같이 단계(110~130)로 이루어진다.
단계(110)에서는 LSTM 모델과 를 사용하여 학습한 뒤, 개의 시계열데이터를 예측한다. 예측된 시계열데이터는 크기 인 배열 LS에 저장한다.
단계(120)에서는 상술된 순위패턴매칭 알고리즘을 이용하여 시계열데이터를 예측한다. 예측된 일 동안의 시계열데이터를 크기 인 배열 OP에 저장한다.
단계(130)에서는 OP 배열에 저장되어 있는 데이터들의 순위와 일치하도록 LS에 저장되어 있는 데이터들의 위치를 변경하여 출력 배열 AS에 저장한다.
도 3은 본 발명의 일 실시예에 따른 LSTM 모델을 이용하여 예측한 시계열데이터 및 순위패턴매칭 알고리즘을 이용하여 예측한 시계열데이터를 결합하여 최종 시계열 데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 OP배열과 LS배열을 이용하여 AS배열을 계산하는 과정 과정을 설명하기 위한 도면이다
더욱 상세하게는, 순위패턴매칭 알고리즘을 이용하여 예측된 시계열데이터인 크기 인 배열 OP에 저장되어 있는 데이터들의 순위와 일치하도록 LSTM 모델을 이용하여 예측된 시계열데이터인 크기 인 배열 LS에 저장되어 있는 데이터들의 위치를 변경하여 출력 배열 AS에 저장한다.
예를 들어, 도 3에서 이고, 라면 OP에 저장되어 있는 원소들의 순위는 차례대로 이다. 이제 LS에 있는 원소들을 의 순서와 일치하도록 재배열하여 AS에 저장하면 이 된다.
도 4는 본 발명의 일 실시예에 따른 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 장치의 구성을 나타내는 도면이다.
제안하는 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 장치(400)는 LSTM 모델 학습부(410), 순위패턴매칭부(420) 및 최종 시계열데이터 예측부(430)를 포함한다.
LSTM 모델 학습부(410)는 LSTM 모델 기반 시계열데이터를 예측한다.
LSTM 모델 학습부(410)는 LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측한다.
상기 LSTM 모델을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하여 크기가 인 배열(LS)에 저장한다.
순위패턴매칭부(420)는 순위패턴매칭 기반 시계열데이터를 예측한다.
순위패턴매칭부(420)는 순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측한다.
상기 순위패턴매칭 알고리즘을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하여 크기가 인 배열(OP)에 저장한다.
최종 시계열데이터 예측부(430)는 최종 시계열데이터를 예측한다.
최종 시계열데이터 예측부(430)는 상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측한다.
상기 예측된 순위패턴매칭 기반 시계열데이터가 저장된 크기가 인 배열(OP)에 저장되어 있는 데이터들의 순위와 일치하도록 상기 예측된 LSTM 모델 기반 시계열데이터가 저장된 크기가 인 배열(LS)에 저장되어 있는 데이터들의 위치를 변경하여 최종 시계열데이터를 예측하고, 예측된 최종 시계열데이터를 최종 출력 배열(AS)에 저장한다.
본 발명의 실시예에 따른 순위패턴매칭과 LSTM을 결합한 시계열데이터 예측 방법 및 장치의 실험환경은 다음과 같다. OS는 Windows 10(64bit), CPU는 Intel Core i7-4790(3.6GHz), RAM은 8GB의 크기를, 개발 툴은 Visual Studio 2015, jupyter notebook, 개발 언어는 C++와 파이썬(python)기반의 텐서플로우(tensorflow)를 사용하였다. 시계열데이터는 다우존스지수를 이용하였다. 다우존스지수의 경우 1885년 5월 2일부터 1901년 4월 12일까지의 다우존스산업평균지수의 일별 종가를 이용하여 길이가 5,000인 정수로 이루어진 데이터를 생성하였다. 다우존스지수에 대해 하이브리드 알고리즘으로 5,000개 이후 나타나는 5, 10, 20개의 데이터를 예측하여 실제 데이터와의 유사도를 측정하였다. 예측하려는 정수의 개수는 으로 표 1에 표기하였다.
<표 1>
LSTM 모델의 구성을 위해 Tensorflow를 백엔드 엔진으로 사용하는 keras의 models와 layers 라이브러리 내의 Sequential과 Dense 오브젝트를 이용하였다. 뉴런의 개수는 128개, 손실함수는 평균제
곱오차(Mean Squared Error)를 사용하였고 오차의 최저점을 찾아가는 옵티마이저는 adam optimizer를 3000 epoch동안 사용하여 학습하였다.
유사도는 일반적으로 시계열데이터 분석에 가장 많이 사용되는 평균제곱근오차(Root Mean Square Error)를 이용하여 측정하였다. 순위패턴매칭을 이용한 예측 알고리즘을 OPM_q(x), LSTM 모델을 이용한 예측 알고리즘을 LSTM, 본 논문에서 제시하는 알고리즘을 Hybrid_q(x)라고 표기하였다. 이때, x는 상술된 본 발명의 실시예에 따른 의 크기이다. 표 안의 값은 예측한 5, 10, 20개의 데이터들을 기준으로 계산한 평균제곱근오차 값이며 평균제곱근오차가 가장 작은 값들을 진한색으로 표시하였다. 표 1에서와 같이, 하이브리드 알고리즘이 실험한 모든 경우에 대해 RMSE 값이 가장 작았으며, 인 경우 하이브리드 알고리즘은 LSTM모델보다 RMSE 값이 최대 14% 향상되었다.
이와 같이, 본 발명에서는 시계열데이터 분석에 사용되는 LSTM 모델에 순위패턴매칭을 결합하여 시계열데이터를 예측하는 알고리즘을 제안한다. 다우존스지수를 이용하여 실험한 결과, 본 발명에서 제안한 하이브리드 알고리즘은 LSTM모델을 이용한 알고리즘보다 RMSE 값이 최대 14% 향상되었음을 확인할 수 있었다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
<참고문헌>
[1]Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263, 1886.
[2]Box, George, Jenkins, Gwilym. "Time Series Analysis: Forecasting and Control," San Francisco: Holden-Day, pp575, 1970.
[3]Hylleberg, Svend. "Seasonality in Regression," Orlando: Academic Press, pp. 36-44, 1986.
[4]X. Shi, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, W.-C. Woo, "Convolutional LSTM network: A machine learning approach for precipitation nowcasting," In Advances in neural information processing systems, pp. 802-810, 2015.
[5]김동훈, "인공신경망 딥러닝을 활용한 기후예측 모형 개발," 한국기상학회 학술대회 논문집, pp. 192-193, 2016.
[6]X. Qiu, L. Zhang, Y. Ren, P. N. Suganthan, G. Amaratunga, "Ensemble deep learning for regression and time series forecasting," Proc. IEEE Symp. Computational Intelligence Ensemble Learning, pp. 1-6, 2014.
[7]M. Crochemore, C. S. Iliopoulos, T. Kociumaka, M. Kubica, A. Langiu, S. P. Pissis, J. Radoszewski, W. Rytter, T. Walen, "Order-Preserving Suffix Trees and Their Algorithmic Applications,"arXiv CoRR abs/1303.6872, 2013.
[8]J. Kim, P. Eades, R. Fleischer, S.-H. Hong, C. S. Iliopoulos, K. Park, S. J. Puglisi, T. Tokuyama, "Order-preserving matching," Theoretical Computer Science, Vol.525, pp.68-79, 2014.
[9]D. E. Knuth, J. H. Morris, V. R. Pratt, "Fast patternmatching in strings," SIAM journal on computing, Vol. 6, no.2, pp. 323-350, 1977.
[10]https://en.wikipedia.org/wiki/Linear_interpolation

Claims (8)

  1. LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하는 단계;
    순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하는 단계; 및
    상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측하는 단계
    를 포함하고,
    상기 최종 시계열데이터를 예측하는 단계는,
    상기 예측된 순위패턴매칭 기반 시계열데이터가 저장된 크기가 인 배열(OP)에 저장되어 있는 데이터들의 순위와 일치하도록 상기 예측된 LSTM 모델 기반 시계열데이터가 저장된 크기가 인 배열(LS)에 저장되어 있는 데이터들의 위치를 변경하여 최종 시계열데이터를 예측하고, 예측된 최종 시계열데이터를 최종 출력 배열(AS)에 저장하는
    시계열데이터 예측 방법.
  2. 제1항에 있어서,
    상기 LSTM 모델 기반 시계열데이터를 예측하는 단계는,
    상기 LSTM 모델을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하여 크기가 인 배열(LS)에 저장하는
    시계열데이터 예측 방법.
  3. 제1항에 있어서,
    상기 순위패턴매칭 기반 시계열데이터를 예측하는 단계는,
    상기 순위패턴매칭 알고리즘을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하여 크기가 인 배열(OP)에 저장하는
    시계열데이터 예측 방법.
  4. 삭제
  5. LSTM 모델과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여 학습하고, 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하는 LSTM 모델 학습부;
    순위패턴매칭 알고리즘과 입력으로 주어진 개의 시계열데이터의 1부터 까지의 문자열인 를 이용하여, 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하는 순위패턴매칭부; 및
    상기 예측된 LSTM 모델 기반 시계열데이터 및 상기 예측된 순위패턴매칭 기반 시계열데이터를 결합하여 최종 시계열데이터를 예측하는 최종 시계열데이터 예측부
    를 포함하고,
    상기 최종 시계열데이터 예측부는,
    상기 예측된 순위패턴매칭 기반 시계열데이터가 저장된 크기가 인 배열(OP)에 저장되어 있는 데이터들의 순위와 일치하도록 상기 예측된 LSTM 모델 기반 시계열데이터가 저장된 크기가 인 배열(LS)에 저장되어 있는 데이터들의 위치를 변경하여 최종 시계열데이터를 예측하고, 예측된 최종 시계열데이터를 최종 출력 배열(AS)에 저장하는
    시계열데이터 예측 장치.
  6. 제5항에 있어서,
    상기 LSTM 모델 학습부는,
    상기 LSTM 모델을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 LSTM 모델 기반 시계열데이터를 예측하여 크기가 인 배열(LS)에 저장하는
    시계열데이터 예측 장치.
  7. 제5항에 있어서,
    상기 순위패턴매칭부는,
    상기 순위패턴매칭 알고리즘을 이용하여 입력으로 주어진 개의 시계열데이터 이후의 개의 순위패턴매칭 기반 시계열데이터를 예측하여 크기가 인 배열(OP)에 저장하는
    시계열데이터 예측 장치.
  8. 삭제
KR1020210066758A 2021-05-25 2021-05-25 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치 KR102653418B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210066758A KR102653418B1 (ko) 2021-05-25 2021-05-25 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210066758A KR102653418B1 (ko) 2021-05-25 2021-05-25 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220159006A KR20220159006A (ko) 2022-12-02
KR102653418B1 true KR102653418B1 (ko) 2024-04-02

Family

ID=84417874

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210066758A KR102653418B1 (ko) 2021-05-25 2021-05-25 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102653418B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200081098A (ko) * 2018-12-27 2020-07-07 한국남동발전 주식회사 하이브리드 예측 모델에 기반한 가상발전소 운영 시스템 및 그 방법
KR102468316B1 (ko) * 2019-08-08 2022-11-17 한국전자통신연구원 과거 데이터에 기초한 시계열 예측 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. Neuman 등. "Short-term prediction through ordinal patterns". Royal Society Open Science*

Also Published As

Publication number Publication date
KR20220159006A (ko) 2022-12-02

Similar Documents

Publication Publication Date Title
WO2022053064A1 (zh) 用于时间序列预测的方法和装置
Kostopoulos et al. Semi-supervised regression: A recent review
Ahmed et al. Transformers in time-series analysis: A tutorial
Ye et al. Inverted pyramid multi-task transformer for dense scene understanding
Aslanargun et al. Comparison of ARIMA, neural networks and hybrid models in time series: tourist arrival forecasting
Guo et al. A stock market forecasting model combining two-directional two-dimensional principal component analysis and radial basis function neural network
US11562167B2 (en) Method of training neural network classification model using selected data
Tuncer et al. Multileveled ternary pattern and iterative ReliefF based bird sound classification
US20190042956A1 (en) Automatic configurable sequence similarity inference system
JP7345046B2 (ja) 単語重複ベースのクラスタリングクロスモーダル検索
CN107590690B (zh) 数据处理方法、装置及服务器
Chen Economic design of variable sampling interval T2 control charts—a hybrid Markov Chain approach with genetic algorithms
Nayak et al. Efficient financial time series prediction with evolutionary virtual data position exploration
Pathak et al. Study of machine learning algorithms for stock market prediction
US9324026B2 (en) Hierarchical latent variable model estimation device, hierarchical latent variable model estimation method, supply amount prediction device, supply amount prediction method, and recording medium
JP5803469B2 (ja) 予測方法及び予測プログラム
Nam et al. The uncertainty of storm season changes: quantifying the uncertainty of autocovariance changepoints
Fu et al. Financial Time Series Segmentation based on Specialized Binary Tree Representation.
CN112988964B (zh) 文本韵律边界预测的方法、装置、设备及存储介质
US20220027739A1 (en) Search space exploration for deep learning
KR102653418B1 (ko) 순위패턴매칭과 lstm을 결합한 시계열데이터 예측 방법 및 장치
EP4231202A1 (en) Apparatus and method of data processing
CA3199602A1 (en) Multi-scale artificial neural network and a method for operating same for time series forecasting
Li et al. A multiple long short-term model for product sales forecasting based on stage future vision with prior knowledge
WO2020142251A1 (en) Prediction for time series data using a space partitioning data structure

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant