KR20210035613A

KR20210035613A - 시계열 데이터 유사도 계산 시스템 및 방법

Info

Publication number: KR20210035613A
Application number: KR1020190117618A
Authority: KR
Inventors: 정인영; 송인성; 김일희; 박예제
Original assignee: 주식회사 디셈버앤컴퍼니자산운용
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2021-04-01
Also published as: KR102440304B1

Abstract

본 발명은 시계열 데이터를 이산 푸리에 변환하여 푸리에 계수 값을 기초로 유사도를 계산함으로써 보다 정확하게 시계열 데이터의 유사도를 계산할 수 있도록 하는 시계열 데이터 유사도 계산 시스템 및 방법에 관한 것으로, 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신하는 시계열 데이터 수신부, 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성하는 시계열 데이터 가공부, 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이산 푸리에 변환하는 푸리에 변환부 및 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도 값을 계산하는 유사도 계산부를 포함하는 시계열 데이터 유사도 계산 시스템 및 방법에 관한 것이다.

Description

시계열 데이터 유사도 계산 시스템 및 방법{Time series data similarity calculation system and method}

본 발명은 시계열 데이터 유사도 계산 시스템 및 방법에 관한 것으로, 보다 상세하게는 시계열 데이터를 이산 푸리에 변환하여 푸리에 계수 값을 기초로 유사도를 계산함으로써 보다 정확하게 시계열 데이터의 유사도를 계산할 수 있도록 하는 시계열 데이터 유사도 계산 시스템 및 방법에 관한 것이다.

시계열 데이터는 일정 시간 간격으로 배치된 데이터들의 수열을 말하며, 시계열 분석은 주어진 시계열을 보고 수학적인 모델을 만들어서 이를 기반으로 시계열 데이터를 분석한 방법을 말하며, 최근에는 시계열 분석으로 공학이나 과학계산, 혹은 주가 예측 등으로 많이 쓰이고 있는 추세이다.

종래기술인 한국등록특허 제10-1908786호, "데이터 유사도 평가 시스템"은 복수 개의 시계열 데이터, 2차원 및 3차원 공간 분포 데이터 등 데이터의 유사도를 평가하는 기술을 개시하고 있는데, 복수의 시계열 데이터 중 기준값에 따라 변화하는 값 또는 비율로 유사도를 평가하는데 그치고 있어, 주가 데이터의 특성상 다수의 투자자들의 심리로 인하여 발생된 빠르게 진동하는 랜덤 성분이 반영된 주가 시계열 데이터의 유사도를 평가하는데 어려움이 있다. 따라서 랜덤 성분이 반영된 주가 시계열 데이터를 이용하여 유사도를 계산할 수 있도록 하는 시스템 및 방법이 요구된다.

한국등록특허 제10-1908786호

본 발명은 시계열 데이터를 이산 푸리에 변환하여 푸리에 계수 값을 기초로 유사도를 계산함으로써 보다 정확하게 시계열 데이터의 유사도를 계산할 수 있도록 하는 것을 목적으로 한다.

본 발명은 각각의 제1 및 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 일별 누적 수익률 값으로 시계열 분석 데이터를 생성함으로써 데이터를 가공하여 시계열 데이터의 추세를 확인할 수 있도록 하는 것을 목적으로 한다.

본 발명은 각각의 제1 및 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 각각의 데이터들을 이산 푸리에 변환하여 종합 유사도를 구함으로써 시계열 데이터를 장기적으로 분석하였을 때 발생하는 문제점을 해소하여 유사도를 계산할 수 있도록 하는 것을 목적으로 한다.

본 발명은

식을 통해 계산된 dkmax(f,g) 값을 유사도로 구함으로써 시계열 그래프에 포함된 빠르게 진동하는 랜덤성분을 제거할 수 있도록 하는 것을 목적으로 한다.

본 발명은 kmax값을 시계열 데이터의 총 시간단위수의 80% 이하의 정수로 함으로써 전체 추세에서 급격히 변화하는 랜덤성분을 제거하고 전체적인 추세를 반영할 수 있도록 하는 것을 목적으로 한다.

본 발명은

수식을 이용하여 푸리에 변환을 수행함으로써 푸리에 계수의 값이 들쑥날쑥할 가능성을 줄여줄 수 있도록 하는 것을 목적으로 한다.

이러한 목적을 달성하기 위하여 본 발명의 일실시예에 따른 시계열 데이터 유사도 계산 시스템은 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신하는 시계열 데이터 수신부, 상기 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성하는 시계열 데이터 가공부, 상기 제1 시계열 분석 데이터 및 상기 제2 시계열 분석 데이터를 이산 푸리에 변환하는 푸리에 변환부 및 상기 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 상기 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도 값을 계산하는 유사도 계산부를 포함하여 구성될 수 있다.

또한, 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터는 각각 상기 제1 종목의 일별 가격정보 및 상기 제2 종목의 일별 가격정보를 포함하고, 상기 시계열 데이터 가공부는 상기 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제1 시계열 분석 데이터를 생성하고, 상기 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제2 시계열 분석 데이터를 생성하는 것을 특징으로 하여 구성될 수 있다.

또한, 상기 시계열 데이터 가공부는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터들로 구분하고, 상기 푸리에 변환부는 상기 복수의 서브 시계열 데이터들 각각을 이산 푸리에 변환하고, 상기 유사도 계산부는 상기 시간 구간별로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도를 각각 계산한 후, 종합하여 유사도를 구하는 것을 특징으로 하여 구성될 수 있다.

또한, 상기 유사도 계산부는 수식

을 통해 계산된 dkmax(f,g) 값을 유사도로 구하는 것을 특징으로 하여 구성될 수 있다.( 이 때,

는 제1 시계열 분석 데이터의 푸리에 계수,

는 제2 시계열 분석 데이터의 푸리에 계수, T는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수임.)

또한, 상기 kmax는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수의 80% 이하인 정수인 것을 특징으로 하여 구성될 수 있다.

또한, 상기 푸리에 변환부는 수식

를 이용하여 푸리에 변환을 수행하는 것을 특징으로 하여 구성될 수 있다.

본 발명은 시계열 데이터를 이산 푸리에 변환하여 푸리에 계수 값을 기초로 유사도를 계산함으로써 보다 정확하게 시계열 데이터의 유사도를 계산할 수 있도록 한다.

본 발명은 각각의 제1 및 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 일별 누적 수익률 값으로 시계열 분석 데이터를 생성함으로써 데이터를 가공하여 시계열 데이터의 추세를 확인할 수 있도록 한다.

본 발명은 각각의 제1 및 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 각각의 데이터들을 이산 푸리에 변환하여 종합 유사도를 구함으로써 시계열 데이터를 장기적으로 분석하였을 때 발생하는 문제점을 해소하여 유사도를 계산할 수 있도록 한다.

본 발명은

식을 통해 계산된 dkmax(f,g) 값을 유사도로 구함으로써 시계열 그래프에 포함된 빠르게 진동하는 랜덤성분을 제거할 수 있도록 한다.

본 발명은 kmax값을 시계열 데이터의 총 시간단위수의 80% 이하의 정수로 함으로써 전체 추세에서 급격히 변화하는 랜덤성분을 제거하고 전체적인 추세를 반영할 수 있도록 한다.

본 발명은

수식을 이용하여 푸리에 변환을 수행함으로써 푸리에 계수의 값이 들쑥날쑥할 가능성을 줄여줄 수 있도록 한다.

도 1은 본 발명의 일실시예에 따른 시계열 데이터 유사도 계산 시스템의 구성도를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 일별 가격정보를 포함한 시계열 데이터를 기초로 일별 누적 수익률 값을 포함한 시계열 분석 데이터를 생성하는 일례를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 시계열 데이터를 복수의 시간으로 구분하여 복수의 서브 시계열 데이터로 구분한 일례를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 복수의 서브 시계열 데이터 중 일부 구간을 푸리에 변환한 일례를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 kmax값을 반영하여 유사도를 비교하는 일례를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 복수의 서브 시계열 데이터의 유사도 값을 계산한 일례를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 시계열 데이터 유사도 계산 방법의 순서도를 도시한 도면이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다. 또한 본 발명의 실시예들을 설명함에 있어 구체적인 수치는 실시예에 불과하며 이에 의하여 발명의 범위가 제한되지 아니한다.

본 발명에 따른 시계열 데이터의 유사도 값을 계산하는 시스템은 중앙처리장치(CPU) 및 메모리(Memory, 기억장치)를 구비하고 인터넷 등의 통신망을 통하여 다른 단말기와 연결 가능한 서버의 형태로 구성될 수 있다. 그러나 본 발명이 중앙처리장치 및 메모리 등의 구성에 의해 한정되지는 아니한다. 또한, 본 발명에 따른 시계열 데이터의 유사도 값을 계산하는 시스템은 물리적으로 하나의 장치로 구성될 수도 있으며, 복수의 장치에 분산된 형태로 구현될 수도 있어, 본 발명은 이와 같은 물리적인 장치의 구성에 의하여 한정되지 아니한다.

도 1은 본 발명의 일실시예에 따른 시계열 데이터 유사도 계산 시스템의 구성도를 도시한 도면이다.

본 발명에 따른 시계열 데이터의 유사도 값을 계산하는 시스템(100)은 시계열 데이터 수신부(110), 시계열 데이터 가공부(120), 푸리에 변환부(130), 유사도 계산부(140)로 구성될 수 있으며, 각각의 구성요소들은 물리적으로 동일한 컴퓨터 시스템 내에서 동작하는 소프트웨어 모듈일 수 있으며, 물리적으로 2개 이상으로 분리된 컴퓨터 시스템이 서로 연동하여 동작할 수 있도록 구성된 형태일 수 있는데, 동일한 기능을 포함하는 다양한 실시형태가 본 발명의 권리범위에 속한다.

시계열 데이터 수신부(110)는 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신한다.

제1 종목 및 제2 종목은 특정 증권 또는 금융상품일 수 있으며, 상장지수펀드(ETF)일 수 있다. 제1 종목 및 제2 종목이 상장지수펀드(ETF)일 경우 제1 종목 및 제2 종목이 추종하는 기초자산이 동일할 수 있으며, 각각의 종목이 추종하는 기초자산이 동일할 경우 유사종목으로 특정할 수 있다.

제1 시계열 데이터는 제1 종목과 관련된 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있으며, 제2 시계열 데이터는 제2 종목과 관련된 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있다. 시계열 데이터 수신부(110)는 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신할 수 있다.

제1 시계열 데이터 및 제2 시계열 데이터는 각각 제1 종목의 일별 가격정보 및 제2 종목의 일별 가격정보를 포함한다.

제1 시계열 데이터는 제1 종목의 일별 가격정보를 포함할 수 있으며, 일별 가격정보를 기초로 시간의 함수로 표현되는 데이터 일 수 있다. 제2 시계열 데이터는 제2 종목의 일별 가격정보를 포함할 수 있으며, 일별 가격정보를 기초로 시간의 함수로 표현되는 데이터일 수 있다.

시계열 데이터 가공부(120)는 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성한다.

시계열 분석 데이터는 시계열 데이터가 가공된 데이터일 수 있으며, 이산 푸리에 변환하기 위한 데이터일 수 있다. 시계열 데이터 가공부(120)는 제1 종목에 대한 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이산 푸리에 변환하기 위한 데이터로 가공할 수 있다. 제1 시계열 분석 데이터는 제1 시계열 데이터를 가공한 데이터 일 수 있으며, 제2 시계열 분석 데이터는 제2 시계열 데이터를 가공한 데이터 일 수 있다.

시계열 데이터 가공부(120)는 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제1 종목의 일별 누적 수익률 값으로 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제2 종목의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성한다.

제1 시계열 데이터의 첫번째 일별 가격정보는 제1 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공부(120)는 제1 시계열 데이터의 1일째 되는 날인 첫번째 일별 가격정보를 기준으로 두 번째 일자부터 마지막 일자까지 일별 누적 수익률을 계산하고 그 값으로 제1 시계열 분석 데이터를 생성할 수 있다. 제2 시계열 데이터의 첫번째 일별 가격정보는 제2 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공부(120)는 제2 시계열 데이터를 기준으로 첫번째 날의 가격정보에 대한 일별 누적 수익률 값은 0일 수 있으며, 두 번째 날부터 마지막 날까지의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공부(120)는 제1 종목 및 제2 종목의 일별 가격정보를 기초로 특정 시작시점이 되는 첫번째 일별 가격정보로 누적수익률을 계산할 수 있다. 누적수익률을 계산하는 수식은

일 수 있다. (여기서 t는 날짜수를 의미하며, T는 특정 기간 동안의 총 영업일 수이다.)

예를 들면, 제1 시계열 데이터의 첫번째 일별 가격정보는 100원이며, 두번째 일별 가격정보는 90원, 세번째 일별 가격정보는 110원, 네번째 일별 가격정보는 120원, 다섯 번째 일별 가격정보는 130원일 수 있다. 시계열 데이터 가공부(120)는 첫 번째 일자 0을 시작으로 두 번째 일자의 누적 수익률 값을 -10%, 세번째 일자의 누적 수익률 값을 10%, 네번째 일자의 누적 수익률 값을 20%, 다섯 번째 일자의 누적 수익률 값을 30%로 배치하여 제1 시계열 분석 데이터로 생성할 수 있다.

시계열 데이터 가공부(120)는 제1 시계열 데이터 및 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터들로 구분한다.

시계열 데이터는 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있으며, 일정 시간 간격은 일별 일 수 있다. 각각 복수의 시간 구간은 일정 시간 간격으로 배치된 각각의 시간을 일정 구간으로 구분한 것일 수 있다. 복수의 서브 시계열 데이터는 복수의 구간으로 나누어진 제1 시계열 데이터 및 제2 시계열 데이터일 수 있다. 시계열 데이터 가공부(120)는 일정 시간 간격으로 배치된 데이터인 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 구간으로 나눌 수 있으며, 복수의 구간으로 나누어진 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 서브 시계열 데이터로 구분할 수 있다. 시계열 데이터 가공부(120)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터로 구분할 수 있으며, 구분한 서브 시계열 데이터는 제1 분석 데이터로 생성할 수 있다. 시계열 데이터 가공부(120)는 제2 시계열 데이터를 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터로 구분할 수 있으며, 구분한 서브 시계열 데이터는 제2 분석 데이터로 생성할 수 있다.

예를 들면, 제1 시계열 데이터 및 제2 시계열 데이터는 일정 기간인 1년(252영업일)의 가격정보를 일정 시간 간격인 일별 간격으로 배치된 시계열 데이터 일 수 있다. 시계열 데이터 가공부(120)는 252영업일의 제 1 시계열 데이터 및 제2 시계열 데이터를 6개로 구분할 수 있으며, 252영업일을 6개로 구분하기 위한 복수의 시간 구간은 42일 일 수 있다(252영업일)을 6개로 나누면 약 60일정도일 수 있지만, 주식 또는 금융상품의 특성상 휴일 또는 장이 쉬는 일자가 발생하기 때문에 시장이 발생하지 않는 날을 제외하면 약 42일 정도 일 수 있다.). 시계열 데이터 가공부(120)는 252영업일의 가격정보를 포함한 제 1 시계열 데이터 및 제2 시계열 데이터를 42일로 구분하여 제1 시계열 데이터 및 제2 시계열 데이터는 각각 6개의 서브 시계열 데이터들로 구분할 수 있다.

시계열 데이터 가공부(120)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터의 첫번째 일별 가격정보를 기초로 복수의 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터의 첫번째 일별 가격정보를 기초로 복수의 제2 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공부(120)는 각각 복수의 서브 시계열 데이터로 구분된 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성할 수 있다. 복수의 서브 시계열 데이터는 각각의 첫번째 일자의 가격정보가 있으며, 각각의 서브 시계열 데이터별 첫번째 일자의 가격정보를 기초로 각각의 서브 시계열 데이터의 일별 누적 수익률 값으로 각각의 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공부(120)는 제1 시계열 데이터를 복수의 구간으로 구분한 서브 시계열 데이터를 기준으로 각각 서브 시계열 데이터의 첫번째 일자가 되는 가격정보를 기초로 각 구간별 일별 누적 수익률을 계산하여 제1 시계열 데이터의 복수의 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공부(120)는 제2 시계열 데이터를 복수의 구간으로 구분한 서브 시계열 데이터를 기준으로 각각 서브 시계열 데이터의 첫번째 일자가 되는 가격정보를 기초로 각 구간별 일별 누적 수익률을 계산하여 제2 시계열 데이터의 복수의 시계열 분석 데이터를 생성할 수 있다.

예를 들면, 제1 시계열 데이터는 42일을 하나의 구간으로 하여 총 6개의 구간으로 구분하여 6개의 서브 시계열 데이터를 생성할 수 있으며, 각각의 구간은 1구간~6구간으로 구분할 수 있다. 제1 시계열 데이터의 1구간의 첫번째 일자의 가격정보는 100원, 두번째 일자의 가격정보는 110원, 2구간의 첫번째 일자 가격정보는 200원, 두번째 일자의 가격정보는 180원, 3구간의 첫번째 일자 가격정보는 150원, 두번째 일자의 가격정보는 180원, 4구간의 첫번째 일자 가격정보는 300원, 두번째 일자의 가격정보는 315원, 5구간의 첫번째 일자 가격정보는 300원, 두번째 일자의 가격정보는 330원, 6구간의 첫번째 일자 가격정보는 400원, 두번째 일자 가격정보는 400원일 수 있다. 총 6구간인 각각의 첫번째 일자의 가격정보는 각 구간의 기준이 되는 가격정보 일 수 있으며, 총 6구간의 첫번째 일자의 일별 누적 수익률은 0%일 수 있다. 각 구간의 두번째 일자의 누적 수익률을 보면, 1구간이 두번째 일자의 일별 누적 수익률은 10%, 2구간의 두번째 일자의 일별 누적 수익률은 -10%, 3구간의 두번째 일자의 일별 누적 수익률은 20%, 4구간의 두번째 일자의 일별 누적 수익률은 5%, 5구간의 두번째 일자의 일별 누적 수익률은 10%, 6구간의 두번째 일자의 일별 누적 수익률은 0%일 수 있다. 이처럼 각 구간의 첫번째 일자를 기준으로 각구간의 42일에 해당하는 모든 날짜별 일별 누적 수익률을 기초로 시계열 데이터 가공부(120)는 복수의 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공부(120)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터 중 제1 구간의 첫번째 일별 가격정보를 기초로 복수의 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터 중 제1 구간의 첫번째 일별 가격정보를 기초로 복수의 제2 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공부(120)는 각각 복수의 서브 시계열 데이터로 구분된 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성할 수 있다. 복수의 서브 시계열 데이터는 각각의 첫번째 일자의 가격정보가 있으며, 제1 시계열 데이터 및 제2 시계열 데이터의 첫번째 구간이 되는 첫번째 일자의 가격정보를 기초로 일별 누적 수익률 값을 계산할 수 있다. 즉, 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성하더라도 복수의 시계열 분석 데이터 중 첫번째 구간의 첫번째 일자를 기준으로 누적 수익률 값을 계산하여 복수의 시계열 분석 데이터를 생성할 수 있다.

예를 들면, 제1 시계열 데이터는 42일을 하나의 구간으로 하여 총 6개의 구간으로 구분하여 6개의 서브 시계열 데이터를 생성할 수 있으며, 각각의 구간은 1구간~6구간으로 구분할 수 있다. 제1 시계열 데이터의 1구간의 첫번째 일자의 가격정보는 100원, 두번째 일자의 가격정보는 110원, 2구간의 첫번째 일자 가격정보는 200원, 두번째 일자의 가격정보는 180원, 3구간의 첫번째 일자 가격정보는 150원, 두번째 일자의 가격정보는 180원, 4구간의 첫번째 일자 가격정보는 300원, 두번째 일자의 가격정보는 315원, 5구간의 첫번째 일자 가격정보는 300원, 두번째 일자의 가격정보는 330원, 6구간의 첫번째 일자 가격정보는 400원, 두번째 일자 가격정보는 400원일 수 있다. 1구간의 첫번째 일자의 일별 누적 수익률은 0%일 수 있으며, 2구간의 첫번째 일자의 일별 누적 수익률은 100%, 3구간의 첫번째 일자의 일별 누적 수익률은 50%, 4구간의 첫번째 일자의 일별 누적 수익률은 200%, 5구간의 첫번째 일자의 일별 누적 수익률은 200%, 6구간의 첫번째 일자의 일별 누적 수익률은 300%일 수 있다. 이처럼 각 구간의 모든 일별 누적 수익률의 기준이 되는 첫번째 일별 가격정보는 제1 시계열 데이터 및 제2 시계열 데이터의 첫번째 구간의 첫번째 일별 가격정보일 수 있으며, 이를 기초로 시계열 데이터 가공부(120)는 복수의 시계열 분석 데이터를 생성할 수 있다.

푸리에 변환부(130)는 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이산 푸리에 변환한다.

이산 푸리에 변환(discrete Fourier transform)은 이산적인 입력 신호에 대한 푸리에 변환일 수 있다. 푸리에 변환부(130)는 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이상 푸리에 변환할 수 있다.

푸리에 변환부(130)는 복수의 서브 시계열 데이터들 각각을 이산 푸리에 변환한다.

푸리에 변환부(130)는 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시간 구간으로 구분한 각각의 복수의 서브 시계열 데이터들을 각각 이산 푸리에 변환할 수 있다. 푸리에 변환부(130)는 제1 시계열 데이터를 복수의 시간 구간으로 구분한 복수의 서브 시계열 데이터를 이산 푸리에 변환할 수 있으며, 제2 시계열 데이터를 복수의 시간 구간으로 구분한 복수의 서브 시계열 데이터를 이산 푸리에 변환할 수 있다.

푸리에 변환부(130)는 아래 수식([수식2])를 이용하여 푸리에 변환을 수행한다.

일반적으로 두 시계열인 f[t]와 g[t]를 비교할때는

와 같은 값을 계산하여 이 값이 작으면 작을수록 두 시계열들이 서로 비슷하다고 판단을 내릴수가 있다. 그러나 다수의 투자자들의 심리가 주가에 반영되는 증권 또는 금융상품의 시계열 그래프의 경우 빠르게 진동하는 랜덤성분이 포함되어 있을 수 있다. 이 랜덤성품을 제거하고 두 주가 시계열들을 비교해야 더 정확한 비교가 가능할 수 있다. 빠르게 진동하는 랜덤성품을 시계열 데이터로부터 제거하는 방법으로 푸리에 변환을 수행할 수 있다. 푸리에 변환부(130)는 제1 시계열 데이터와 제2 시계열 데이터를 푸리에 변환하여 랜덤성분을 제거할 수 있다.

[수식2]

이 때,

는 푸리에 변환을 통해 도출된 푸리에 계수,

는 제1 시계열 분석 데이터 또는 제2 시계열 분석 데이터, T는 제1 시계열 데이터 및 제2 시계열 데이터의 총 시간단위수이다.

시계열

를

로 변환하는 것을 DST-3(Discrete Sine Transform III)이라고 부르며, DST-3는 누적수익률 시계열 Cx[t,t0]의 두 경계 조건들(boundary conditions) (1) Cx[0;t0]=0, (2) Cx[T]

Cx[T-1] 같이 푸리에 변환 자체에 반영될 수 있다. 두 경계 조건을 자동으로 만족하는 이산 푸리에 변환인 DST-3을 사용하면, 푸리에 계수의 값들이 들쑥날쑥할 가능성을 줄여주며, 특정 푸리에 계수

가 이외의

보다 압도적으로 커서

만으로 모든 것이 결정되는 경우를 피할 수 있다.

유사도 계산부(140)는 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도 값을 계산한다.

유사도 계산부(140)는 이산 푸리에 변환한 제1 시계열 분석 데이터와 이산 푸리에 변환한 제2 시계열 분석 데이터의 유사도를 계산할 수 있다. 유사도 계산부(140)는 이산 푸리에 변환한 제1 시계열 분석 데이터와 이산 푸리에 변환한 제2 시계열 분석 데이터로 도출된 푸리에 계수의 차이 값을 기초로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도 값을 계산할 수 있다. 유사도 값은 제1 시계열 분석 데이터와 제2 시계열 분석 데이터의 유사한 정도를 측정하는 척도일 수 있으며, 유사도가 낮을수록 비교대상이 되는 제1 시계열 분석 데이터와 제2 시계열 데이터의 차이가 크지 않다는 것으로 계산된 유사도가 낮을수록 유사성이 높은 것으로 확인할 수 있다. 반대로 유사도가 높을수록 비교대상이 되는 제1 시계열 분석 데이터와 제2 시계열 데이터의 차이가 크다는 것으로 계산된 유사도가 높을수록 유사성이 낮은 것으로 확인할 수 있다.

유사도 계산부(140)는 시간 구간별로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도를 각각 계산한 후, 종합하여 유사도를 구한다.

유사도 계산부(140)는 제1 시계열 데이터 및 제2 시계열 데이터에 해당하는 복수의 서브 시계열 데이터 별로 유사도를 구한 후에 각각의 복수의 서브 시계열 데이터를 종합하여 유사도 값을 계산할 수 있다. 각각 복수의 서브 시계열 데이터를 종합하여 계산한 유사도 값은 각각 복수의 서브 시계열 데이터의 유사도 합계 값 또는 평균 값일 수 있다.

예를 들면, 제1 시계열 데이터와 제2 시계열 데이터의 시간 구간별 유사도는 1구간 3.26, 2구간 2.95, 3구간 2.70, 4구간 5.46, 5구간, 3.85, 6구간 3.19일 수 있으며, 제1 시계열 데이터와 제2 시계열 데이터의 각 구간별 유사도를 종합하여 계산한 종합 유사도 값은 21.41일 수 있다.

유사도 계산부(140)는 아래 수식([수식1])을 통해 계산된 dkmax(f,g) 값을 유사도로 구한다.

유사도 계산부(140)는 dkmax(f,g) 값을 유사도 값으로 구함으로써 빠르게 진동하는 랜덤성분을 제거하고 비교할 수 있다.

[수식1]

이 때,

는 제1 시계열 분석 데이터의 푸리에 계수,

는 제2 시계열 분석 데이터의 푸리에 계수, T는 제1 시계열 데이터 및 제2 시계열 데이터의 총 시간단위수이다.

kmax는 제1 시계열 데이터 및 제2 시계열 데이터의 총 시간단위수의 80% 이하인 정수이다.

kmax 값은 커질수록 빠르게 진동하는 랜덤성분의 그래프를 포함할 수 있으며, kmax 값이 커질수록 빠르게 진동하는 랜덤성분을 반영할 수 있다. kmax 값을 조절함으로써 랜덤성분을 제거할지 여부를 결정할 수 있으며, kmax 값은 총 시간단위수의 80%이하인 정수일 수 있다.

도 2는 본 발명의 일실시예에 따른 일별 가격정보를 포함한 시계열 데이터를 기초로 일별 누적 수익률 값을 포함한 시계열 분석 데이터를 생성하는 일례를 도시한 도면이다.

시계열 데이터 가공부(120)는 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제1 종목의 일별 누적 수익률 값으로 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제1 종목의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성한다.

제1 시계열 데이터의 첫번째 일별 가격정보는 제1 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공부(120)는 제1 시계열 데이터의 1일째 되는 날인 첫번째 일별 가격정보를 기준으로 두 번째 일자부터 마지막 일자까지 일별 누적 수익률을 계산하고 그 값으로 제1 시계열 분석 데이터를 생성할 수 있다. 제2 시계열 데이터의 첫번째 일별 가격정보는 제2 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공부(120)는 제2 시계열 데이터를 기준으로 첫번째 날의 가격정보에 대한 일별 누적 수익률 값은 0일 수 있으며, 두 번째 날부터 마지막 날까지의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성할 수 있다.

예를 들면, A종목과 B종목의 2018년 7월 16일부터 2019년 7월 15일까지의 일별 가격정보를 포함한 A종목과 B종목의 시계열 데이터가 있다고 한다면 각각의 종목의 일별 누적 수익률을 값을 계산하여 A종목과 B종목의 시계열 분석 데이터를 생성할 수 있다.

도 3은 본 발명의 일실시예에 따른 시계열 데이터를 복수의 시간으로 구분하여 복수의 서브 시계열 데이터로 구분한 일례를 도시한 도면이다.

예를 들면, 제1 시계열 데이터 및 제2 시계열 데이터는 일정 기간인 1년(252영업일)의 가격정보를 일정 시간 간격인 일별 간격으로 배치된 시계열 데이터 일 수 있다. 시계열 데이터 가공부(120)는 252영업일의 제 1 시계열 데이터 및 제2 시계열 데이터를 6개로 구분할 수 있으며, 252영업일을 6개로 구분하기 위한 복수의 시간 구간은 42일 일 수 있다. 252영업일을 6개로 나누면 약 60일정도일 수 있지만, 주식 또는 금융상품의 특성상 휴일 또는 장이 쉬는 일자가 발생하기 때문에 시장이 발생하지 않는 날을 제외하면 약 42일 정도 일 수 있다.). 시계열 데이터 가공부(120)는 252영업일의 가격정보를 포함한 제 1 시계열 데이터 및 제2 시계열 데이터를 42일로 구분하여 제1 시계열 데이터 및 제2 시계열 데이터는 각각 6개의 서브 시계열 데이터들로 구분할 수 있다. 6개로 구분된 구간은 1구간~6구간으로 구분할 수 있다. A종목의 제1 시계열 데이터와 B종목의 제2 시계열 데이터는 1구간에서 6구간으로 구분할 수 있으며, 각각이 구간의 첫번째 일자가 각 구간의 기준이 되는 가격정보일 수 있다. 따라서 각 구간의 첫번째 일자의 누적 수익률은 모두 0%로 시작할 수 있으며 각 구간의 두번째 일자부 터는 각 구간의 첫번째 일자를 기준으로 누적수익률을 계산하여 복수의 시계열 분석 데이터를 생성할 수 있다.

도 4는 본 발명의 일실시예에 따른 복수의 서브 시계열 데이터 중 일부 구간을 푸리에 변환한 일례를 도시한 도면이다.

예를 들면, 푸리에 변환부(130)는 A종목과 B종목의 시계열 데이터를 6개의 서브 시계열 데이터(410)로 구분한 데이터가 있는 경우, A종목과 B종목의 1구간(2018년 7월 16일부터 2018년 9월 11일까지)의 푸리에 변환을 적용하여 계산한 푸리에 계수들의 그래프(420)를 생성할 수 있다.

도 5는 본 발명의 일실시예에 따른 kmax값을 반영하여 유사도를 비교하는 일례를 도시한 도면이다.

[수식1]

이 때,

는 제1 시계열 분석 데이터의 푸리에 계수,

kmax 값은 커질수록 빠르게 진동하는 랜덤성분의 그래프를 포함할 수 있으며, kmax 값이 커질수록 빠르게 진동하는 랜덤성분을 반영할 수 있다. kmax 값을 조절함으로써 랜덤성분을 제거할지 여부를 결정할 수 있으며, kmax 값은 총 시간단위수의 80%이하인 정수일 수 있다. 시간 단위수는 총영업일 또는 각 구간에 포함되어 있는 일별 가격정보의 개수일 있다.

예를 들면, 유사도 계산부(140)는 A종목과 B종목의 시계열 데이터를 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 유사도 값을 계산하고, C종목과 B종목의 시계열 데이터를 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 유사도 값을 계산할 수 있다. A종목과 B종목을 비교하고 C종목과 B종목을 비교하여 A종목과 C종목 중 B종목과 더 유사한 종목을 확인할 수 있다. A종목, B종목 및 C종목의 영업일은 42일로 42가 시간단위수 일 수 있으며, 3종목(A종목, B종목 및 C종목)의 kmax 값은 33(

42 X 0.8)일 수 있다. 푸리에 변환부(130)에서 이산 푸리에 결과 도출된 푸리에 계수의 차이값을 기초로 계산한 A종목과 B종목의 유사도 값은 3.26일 수 있으며, 푸리에 변환부(130)에서 이산 푸리에 결과 도출된 푸리에 계수의 차이값을 기초로 계산한 C종목과 B종목의 유사도 값은 3.50일 수 있다. 유사도 값이 작을수록 유사성이 높은것으로 판단할 수 있기 때문에 A종목은 C종목보다 B종목과 더 유사한 것으로 판단할 수 있다.

도 6은 본 발명의 일실시예에 따른 복수의 서브 시계열 데이터의 유사도 값을 계산한 일례를 도시한 도면이다.

예를 들면, A종목의 시계열 그래프인 제1 시계열 데이터와 B종목의 시계열 그래프인 제2 시계열 데이터의 시간 구간별 유사도는 1구간 3.26, 2구간 2.95, 3구간 2.70, 4구간 5.46, 5구간, 3.85, 6구간 3.19일 수 있으며, 제1 시계열 데이터와 제2 시계열 데이터의 각 구간별 유사도를 종합하여 계산한 종합 유사도 값은 21.41일 수 있다.

도 7은 본 발명의 일실시예에 따른 시계열 데이터 유사도 계산 방법의 순서도를 도시한 도면이다.

이상의 시계열 데이터 유사도 계산 시스템은 시계열 데이터 유사도 계산 방법으로 구현되어 실현될 수 있으며, 상기 시계열 데이터 유사도 계산 시스템의 기술적인 사상을 그대로 적용할 수 있다.

이와 같은, 시계열 데이터 유사도 계산 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

중앙처리장치 및 메모리를 구비하는 시계열 데이터 유사도 계산 시스템에서 동작하는 시계열 데이터 유사도 계산 방법에 있어서, 시계열 데이터 수신하는 단계(S710)는 시계열 데이터 수신부(110)에서 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신한다.

제1 시계열 데이터는 제1 종목과 관련된 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있으며, 제2 시계열 데이터는 제2 종목과 관련된 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있다. 시계열 데이터 수신하는 단계(S710)는 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신할 수 있다.

시계열 데이터 가공하는 단계(S720)는 시계열 데이터 가공부(120)에서 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성한다.

시계열 분석 데이터는 시계열 데이터가 가공된 데이터일 수 있으며, 이산 푸리에 변환하기 위한 데이터일 수 있다. 시계열 데이터 가공하는 단계(S720)는 제1 종목에 대한 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이산 푸리에 변환하기 위한 데이터로 가공할 수 있다. 제1 시계열 분석 데이터는 제1 시계열 데이터를 가공한 데이터 일 수 있으며, 제2 시계열 분석 데이터는 제2 시계열 데이터를 가공한 데이터 일 수 있다.

시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제1 종목의 일별 누적 수익률 값으로 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 제1 종목의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성한다.

제1 시계열 데이터의 첫번째 일별 가격정보는 제1 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터의 1일째 되는 날인 첫번째 일별 가격정보를 기준으로 두 번째 일자부터 마지막 일자까지 일별 누적 수익률을 계산하고 그 값으로 제1 시계열 분석 데이터를 생성할 수 있다. 제2 시계열 데이터의 첫번째 일별 가격정보는 제2 시계열 데이터가 시작되는 첫번째 날의 가격정보 일 수 있다. 시계열 데이터 가공하는 단계(S720)는 제2 시계열 데이터를 기준으로 첫번째 날의 가격정보에 대한 일별 누적 수익률 값은 0일 수 있으며, 두 번째 날부터 마지막 날까지의 일별 누적 수익률 값으로 제2 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공하는 단계(S720)는 제1 종목 및 제2 종목의 일별 가격정보를 기초로 특정 시작시점이 되는 첫번째 일별 가격정보로 누적수익률을 계산할 수 있다. 누적수익률을 계산하는 수식은

시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터 및 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터들로 구분한다.

시계열 데이터는 일정 기간의 가격정보를 일정 시간 간격으로 배치된 데이터들의 수열일 수 있으며, 일정 시간 간격은 일별 일 수 있다. 각각 복수의 시간 구간은 일정 시간 간격으로 배치된 각각의 시간을 일정 구간으로 구분한 것일 수 있다. 복수의 서브 시계열 데이터는 복수의 구간으로 나누어진 제1 시계열 데이터 및 제2 시계열 데이터일 수 있다. 시계열 데이터 가공하는 단계(S720)는 일정 시간 간격으로 배치된 데이터인 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 구간으로 나눌 수 있으며, 복수의 구간으로 나누어진 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 서브 시계열 데이터로 구분할 수 있다. 시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터로 구분할 수 있으며, 구분한 서브 시계열 데이터는 제1 분석 데이터로 생성할 수 있다. 시계열 데이터 가공하는 단계(S720)는 제2 시계열 데이터를 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터로 구분할 수 있으며, 구분한 서브 시계열 데이터는 제2 분석 데이터로 생성할 수 있다.

시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터의 첫번째 일별 가격정보를 기초로 복수의 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터의 첫번째 일별 가격정보를 기초로 복수의 제2 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공하는 단계(S720)는 각각 복수의 서브 시계열 데이터로 구분된 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성할 수 있다. 복수의 서브 시계열 데이터는 각각의 첫번째 일자의 가격정보가 있으며, 각각의 서브 시계열 데이터별 첫번째 일자의 가격정보를 기초로 각각의 서브 시계열 데이터의 일별 누적 수익률 값으로 각각의 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터를 복수의 구간으로 구분한 서브 시계열 데이터를 기준으로 각각 서브 시계열 데이터의 첫번째 일자가 되는 가격정보를 기초로 각 구간별 일별 누적 수익률을 계산하여 제1 시계열 데이터의 복수의 시계열 분석 데이터를 생성할 수 있다. 시계열 데이터 가공하는 단계(S720)는 제2 시계열 데이터를 복수의 구간으로 구분한 서브 시계열 데이터를 기준으로 각각 서브 시계열 데이터의 첫번째 일자가 되는 가격정보를 기초로 각 구간별 일별 누적 수익률을 계산하여 제2 시계열 데이터의 복수의 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공하는 단계(S720)는 제1 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터 중 제1 구간의 첫번째 일별 가격정보를 기초로 복수의 제1 시계열 분석 데이터를 생성하고, 제2 시계열 데이터를 복수의 시간 구간으로 구분하고, 복수의 서브 시계열 데이터로 구분된 각각의 시계열 데이터 중 제1 구간의 첫번째 일별 가격정보를 기초로 복수의 제2 시계열 분석 데이터를 생성할 수 있다.

시계열 데이터 가공하는 단계(S720)는 각각 복수의 서브 시계열 데이터로 구분된 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성할 수 있다. 복수의 서브 시계열 데이터는 각각의 첫번째 일자의 가격정보가 있으며, 제1 시계열 데이터 및 제2 시계열 데이터의 첫번째 구간이 되는 첫번째 일자의 가격정보를 기초로 일별 누적 수익률 값을 계산할 수 있다. 즉, 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시계열 분석 데이터로 생성하더라도 복수의 시계열 분석 데이터 중 첫번째 구간의 첫번째 일자를 기준으로 누적 수익률 값을 계산하여 복수의 시계열 분석 데이터를 생성할 수 있다.

이산 푸리에 변환하는 단계(S730)는 푸리에 변환부(130)에서 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이산 푸리에 변환한다.

이산 푸리에 변환(discrete Fourier transform)은 이산적인 입력 신호에 대한 푸리에 변환일 수 있다. 이산 푸리에 변환하는 단계(S730)는 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 이상 푸리에 변환할 수 있다.

이산 푸리에 변환하는 단계(S730)는 복수의 서브 시계열 데이터들 각각을 이산 푸리에 변환한다.

이산 푸리에 변환하는 단계(S730)는 제1 시계열 데이터 및 제2 시계열 데이터를 복수의 시간 구간으로 구분한 각각의 복수의 서브 시계열 데이터들을 각각 이산 푸리에 변환할 수 있다. 이산 푸리에 변환하는 단계(S730)는 제1 시계열 데이터를 복수의 시간 구간으로 구분한 복수의 서브 시계열 데이터를 이산 푸리에 변환할 수 있으며, 제2 시계열 데이터를 복수의 시간 구간으로 구분한 복수의 서브 시계열 데이터를 이산 푸리에 변환할 수 있다.

이산 푸리에 변환하는 단계(S730)는 아래 수식([수식2])를 이용하여 푸리에 변환을 수행한다.

일반적으로 두 시계열인 f[t]와 g[t]를 비교할때는

와 같은 값을 계산하여 이 값이 작으면 작을수록 두 시계열들이 서로 비슷하다고 판단을 내릴수가 있다. 그러나 다수의 투자자들의 심리가 주가에 반영되는 증권 또는 금융상품의 시계열 그래프의 경우 빠르게 진동하는 랜덤성분이 포함되어 있을 수 있다. 이 랜덤성품을 제거하고 두 주가 시계열들을 비교해야 더 정확한 비교가 가능할 수 있다. 빠르게 진동하는 랜덤성품을 시계열 데이터로부터 제거하는 방법으로 푸리에 변환을 수행할 수 있다. 이산 푸리에 변환하는 단계(S730)는 제1 시계열 데이터와 제2 시계열 데이터를 푸리에 변환하여 랜덤성분을 제거할 수 있다.

[수식2]

이 때,

는 푸리에 변환을 통해 도출된 푸리에 계수,

시계열

를

가 이외의

보다 압도적으로 커서

만으로 모든 것이 결정되는 경우를 피할 수 있다.

유사도 값을 계산하는 단계(S740)는 유사도 계산부(140)에서 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도 값을 계산한다.

유사도 값을 계산하는 단계(S740)는 이산 푸리에 변환한 제1 시계열 분석 데이터와 이산 푸리에 변환한 제2 시계열 분석 데이터의 유사도를 계산할 수 있다. 유사도 값을 계산하는 단계(S740)는 이산 푸리에 변환한 제1 시계열 분석 데이터와 이산 푸리에 변환한 제2 시계열 분석 데이터로 도출된 푸리에 계수의 차이 값을 기초로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도 값을 계산할 수 있다. 유사도 값은 제1 시계열 분석 데이터와 제2 시계열 분석 데이터의 유사한 정도를 측정하는 척도일 수 있으며, 유사도가 낮을수록 비교대상이 되는 제1 시계열 분석 데이터와 제2 시계열 데이터의 차이가 크지 않다는 것으로 계산된 유사도가 낮을수록 유사성이 높은 것으로 확인할 수 있다. 반대로 유사도가 높을수록 비교대상이 되는 제1 시계열 분석 데이터와 제2 시계열 데이터의 차이가 크다는 것으로 계산된 유사도가 높을수록 유사성이 낮은 것으로 확인할 수 있다.

유사도 값을 계산하는 단계(S740)는 시간 구간별로 제1 시계열 데이터 및 제2 시계열 데이터의 유사도를 각각 계산한 후, 종합하여 유사도를 구한다.

유사도 값을 계산하는 단계(S740)는 제1 시계열 데이터 및 제2 시계열 데이터에 해당하는 복수의 서브 시계열 데이터 별로 유사도를 구한 후에 각각의 복수의 서브 시계열 데이터를 종합하여 유사도 값을 계산할 수 있다. 각각 복수의 서브 시계열 데이터를 종합하여 계산한 유사도 값은 각각 복수의 서브 시계열 데이터의 유사도 합계 값 또는 평균 값일 수 있다.

유사도 값을 계산하는 단계(S740)는 아래 수식([수식1])을 통해 계산된 dkmax(f,g) 값을 유사도로 구한다.

유사도 값을 계산하는 단계(S740)는 dkmax(f,g) 값을 유사도 값으로 구함으로써 빠르게 진동하는 랜덤성분을 제거하고 비교할 수 있다.

[수식1]

이 때,

는 제1 시계열 분석 데이터의 푸리에 계수,

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CDROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다.

110: 시계열 데이터 수신부 120: 시계열 데이터 가공부
130: 푸리에 변환부 140: 유사도 계산부

Claims

제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신하는 시계열 데이터 수신부;
상기 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성하는 시계열 데이터 가공부;
상기 제1 시계열 분석 데이터 및 상기 제2 시계열 분석 데이터를 이산 푸리에 변환하는 푸리에 변환부; 및
상기 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 상기 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도 값을 계산하는 유사도 계산부
를 포함하는 시계열 데이터 유사도 계산 시스템.
제1항에 있어서,
상기 제1 시계열 데이터 및 상기 제2 시계열 데이터는 각각 상기 제1 종목의 일별 가격정보 및 상기 제2 종목의 일별 가격정보를 포함하고,
상기 시계열 데이터 가공부는
상기 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제1 시계열 분석 데이터를 생성하고, 상기 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제2 시계열 분석 데이터를 생성하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 시스템.
제1항에 있어서,
상기 시계열 데이터 가공부는
상기 제1 시계열 데이터 및 상기 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터들로 구분하고,
상기 푸리에 변환부는
상기 복수의 서브 시계열 데이터들 각각을 이산 푸리에 변환하고,
상기 유사도 계산부는
상기 시간 구간별로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도를 각각 계산한 후, 종합하여 유사도를 구하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 시스템.
제1항에 있어서,
상기 유사도 계산부는
아래 [수식1]을 통해 계산된 dkmax(f,g) 값을 유사도로 구하는 것을 특징으로 하는 시계열 데이터 유사도 계산 시스템.
[수식1]

이 때,
는 제1 시계열 분석 데이터의 푸리에 계수,
는 제2 시계열 분석 데이터의 푸리에 계수, T는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수임.
제4항에 있어서,
상기 kmax는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수의 80% 이하인 정수인 것
을 특징으로 하는 시계열 데이터 유사도 계산 시스템.
제1항에 있어서,
상기 푸리에 변환부는
아래 [수식2]를 이용하여 푸리에 변환을 수행하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 시스템.
[수식2]

이 때,
는 푸리에 변환을 통해 도출된 푸리에 계수,
는 상기 제1 시계열 분석 데이터 또는 상기 제2 시계열 분석 데이터, T는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수임.
중앙처리장치 및 메모리를 구비하는 시계열 데이터 유사도 계산 시스템에서 동작하는 시계열 데이터 유사도 계산 방법에 있어서,
시계열 데이터 수신부에서 제1 종목에 대한 제1 시계열 데이터 및 제2 종목에 대한 제2 시계열 데이터를 수신하는 시계열 데이터 수신하는 단계;
시계열 데이터 가공부에서 상기 수신한 제1 시계열 데이터 및 제2 시계열 데이터를 가공하여 제1 시계열 분석 데이터 및 제2 시계열 분석 데이터를 생성하는 시계열 데이터 가공하는 단계;
푸리에 변환부에서 상기 제1 시계열 분석 데이터 및 상기 제2 시계열 분석 데이터를 이산 푸리에 변환하는 단계; 및
유사도 계산부에서 상기 제1 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수 및 상기 제2 시계열 분석 데이터의 이산 푸리에 변환 결과 도출된 푸리에 계수의 차이 값을 기초로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도 값을 계산하는 단계
를 포함하는 시계열 데이터 유사도 계산 방법.
제7항에 있어서,
상기 제1 시계열 데이터 및 상기 제2 시계열 데이터는 각각 상기 제1 종목의 일별 가격정보 및 상기 제2 종목의 일별 가격정보를 포함하고,
상기 시계열 데이터 가공하는 단계는
상기 제1 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제1 시계열 분석 데이터를 생성하고, 상기 제2 시계열 데이터의 첫번째 일별 가격정보를 기초로 계산된 상기 제1 종목의 일별 누적 수익률 값으로 상기 제2 시계열 분석 데이터를 생성하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 방법.
제7항에 있어서,
상기 시계열 데이터 가공하는 단계는
상기 제1 시계열 데이터 및 상기 제2 시계열 데이터를 각각 복수의 시간 구간으로 구분하여 복수의 서브 시계열 데이터들로 구분하고,
상기 푸리에 변환하는 단계는
상기 복수의 서브 시계열 데이터들 각각을 이산 푸리에 변환하고,
상기 유사도 값을 계산하는 단계는
상기 시간 구간별로 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 유사도를 각각 계산한 후, 종합하여 유사도를 구하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 방법.
제7항에 있어서,
상기 유사도 값을 계산하는 단계는
아래 [수식1]을 통해 계산된 dkmax(f,g) 값을 유사도로 구하는 것을 특징으로 하는 시계열 데이터 유사도 계산 방법.
[수식1]

이 때,
는 제1 시계열 분석 데이터의 푸리에 계수,
는 제2 시계열 분석 데이터의 푸리에 계수, T는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수임.
제10항에 있어서,
상기 kmax는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수의 80% 이하인 정수인 것
을 특징으로 하는 시계열 데이터 유사도 계산 방법.
제7항에 있어서,
상기 푸리에 변환하는 단계는
아래 [수식2]를 이용하여 푸리에 변환을 수행하는 것
을 특징으로 하는 시계열 데이터 유사도 계산 방법.
[수식2]

이 때,
는 푸리에 변환을 통해 도출된 푸리에 계수,
는 상기 제1 시계열 분석 데이터 또는 상기 제2 시계열 분석 데이터, T는 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 총 시간단위수임.
제7항 내지 제12항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록한 기록매체.