KR20220080520A

KR20220080520A - 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치

Info

Publication number: KR20220080520A
Application number: KR1020200169723A
Authority: KR
Inventors: 정윤호; 최원영; 조재찬
Original assignee: 한국항공대학교산학협력단
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-14
Also published as: KR102433568B1

Abstract

본 발명의 일 실시예에 따른 고속으로 제약적 동적 시간 워핑 방법은 기 설정된 윈도우 영역의 해상도를 제1 처리(coarsening) 과정을 통해 1/2 데이터 길이 및 1/4의 데이터 길이를 갖는 멀티 해상도로 각각 형성하는 단계; 상기 1/2 데이터 길이를 갖는 멀티 해상도 중 낮은 해상도의 윈도우 영역을 SC-DTW의 제한된 윈도우 영역으로 한정하여 정렬을 진행하한 후, 상기 1/2 데이터 길이를 포함하는 해상도를 갖는 윈도우 영역의 선택적 워핑 경로를 추적하는 단계; 상기 1/2 데이터 길이를 포함하는 해상도를 갖는 윈도우 영역에서 추정된 선택적 워핑 경로와 설정 파라미터 r에 맞게 SC-DTW의 제한된 윈도우 영역 안에서 정렬 연산을 수행하는 윈도우 영역을 각각 제1 세그먼트 및 제2 세그먼트로 형성하는 단계; 상기 제한된 윈도우 영역 안에서 상기 제1 세그먼트 및 상기 제2 세그먼트를 정렬하는 단계; 정렬된 제1 세그먼트 및 제2 세그먼트 내에서 선택적 워핑 경로를 추정하는 단계; 및 추정된 1/2의 데이터 길이를 갖는 해상도의 선택적 워핑 경로를 활용해 상기 기 설정된 윈도우 영역의 해상도의 선택적 워핑 경로 및 DTW 거리를 연산하는 단계를 포함한다.

Description

시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치{Fast Constrained Dynamic Time Warping Method for Similarity Measure of Time Series Data, Computer readable recording media, Computing device}

본 발명은 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치에 관한 것이다.

시계열 데이터 마이닝(Time series data mining)은 클러스터링(clustering), 분류(classification), 오류감지(fault detections), 패턴인지(pattern recognition) 및 예측(prediction) 등 많은 분야들을 포함한다.

그 중, 두 time series data간의 유사도 측정은 가장 빈번하며, 중요한 업무이다. 시계열 데이터(Time series data)들 간의 유사도를 정확히 측정하기 위해서는 두 데이터를 시간 축 상에서 정렬하는 작업을 필요로 한다. 동적 시간 워핑(Dynamic time warping; 이하, DTW)는 두 데이터를 시간 축 상에서 왜곡(warp)하여, 가능한 모든 정렬들 중 가장 최적의 정렬을 찾아 유사도를 측정한다.

이에 따라, DTW는 제스쳐(gesture), 이미지(image), 음성인식(speech recognition), 침입감지(intrusion detection), 재정분석(financial analysis), 생체 및 의료 진단(biometrics and medical diagnosis) 등의 많은 분야에서 활용되고 있다. 하지만, 정렬 가능한 모든 경우의 수를 고려하는 DTW는 유사도를 측정하고자 하는 두 입력 데이터의 길이(length)에 따라 높은 연산량을 필요로 하는 문제를 갖는다.

DTW의 높은 연산 복잡도 측면에서의 한계를 극복하기 위해 다양한 알고리즘들이 제안되었으며, DTW 알고리즘 사용 횟수를 줄이는 인덱싱(indexing) 기법과, DTW 연산 복잡도를 감소시키는 제약적(constraints) 및 데이터 축약(data abstraction)기법 등이 있다.

여기서, 인덱싱(Indexing) 기법은 DTW에 비해 복잡도가 낮은 lower bounding 함수를 사용하여 비교하고자 하는 데이터 시퀀스들과 입력 데이터 시퀀스 사이의 유사할 가능성이 없는 비교 데이터 시퀀스들을 사전에 제거한다. 이후, 남은 비교 데이터 시퀀스들만 한정하여 DTW 연산을 진행해 높은 연산 시간을 개선하는 기법이다.

한정된 특정 범위 내에서만 정렬 작업들을 진행하는 제약 조건을 도입한 제약적(constraints) 기법은 모든 데이터 points들에 대해 동등한 정렬 작업을 수행하는 Sakoe-Chiba DTW (SC-DTW)와 시간 축 상에서 최근의 데이터 포인트(points)에 대해 더 많은 정렬 작업을 수행하는 incremental DTW (I-DTW) 등이 있다.

이러한 제약적(constraints) 기법은 고려해야 할 정렬들의 수를 줄여 연산량을 감소시킬 수 있으며, 서로 다른 라벨(label) 정보를 갖는 데이터들 간의 과도한 정렬 작업으로 인해 전체 분류 정확률을 낮출 수 있는 병리학적 정렬 문제(pathological alignment problem)을 억제하여 모든 정렬들을 고려하는 표준(standard) DTW에 비해 높은 정확률을 기대할 수 있다.

하지만, 이러한 제약적(constraints) 기법들은 유사도를 측정하고자 하는 두 입력 데이터의 상대적인 관계에 따라 달리 형성될 수 있는 최적의 정렬 위치를 고려하지 않고 항상 고정된 일정 범위의 정렬 연산들을 진행하며 또한, 데이터의 길이(length)에 따라 연산량이 여전히 이차적(quadratic)으로 증가하여 데이터의 길이(length)가 긴 경우, 높은 연산량을 요하게 된다.

데이터 축약(Data abstraction) 기법은 두 입력 데이터의 고려해야 할 차원을 줄인 데이터 표현을 활용해 높은 연산량을 개선하는 기법으로, piecewise aggregate DTW (P-DTW), blocked DTW (B-DTW) 그리고 fast DTW 등이 있다.

P-DTW는 유사도를 측정하고자 하는 두 데이터의 각 포인트들을 일정 비율로 나눈 뒤, 각 무리끼리 평균을 취해 새로운 데이터 표현을 만드는 기법으로, DTW 연산 시, 고려해야 할 데이터 points 수를 줄여 연산량을 감소시킬 수 있으나, 평균을 취하는 과정에서 중요한 특징을 갖는 포인트들을 놓칠 수 있는 한계를 갖는다.

데이터의 연속된 값들을 갖는 포인트들을 효율적으로 줄이는 기법을 활용한 B-DTW는 연산해야 할 데이터의 차원을 줄여 연산량을 개선시킬 수 있지만, 줄어든 데이터의 차원만큼 부정확한 유사도 측정 값을 갖게 된다.

Fast DTW 기법은 유사도를 측정하고자 하는 두 데이터의 해상도(resolution)을 계층적으로 줄여 멀티 해상도를 형성하고, 가장 낮은 계층에서부터 최적의 정렬 위치를 추적한 후, 이를 바로 위 계층의 대략적인 최적의 정렬 위치를 추정하는데 활용하는 방법을 사용하는 기술이다. 추정된 최적의 정렬 위치의 주변에 대한 정렬만 고려하는 방식으로 점층적으로 본래 해상도의 최적의 정렬 위치까지 추정하는 fast DTW 기법은 두 입력 데이터의 상대적인 관계에 따라 달리 형성되는 최적의 정렬 위치를 효율적으로 추정하여 연산 시간을 개선할 수 있다.

선형적인 연산량을 나타내는 fast DTW 알고리즘은 설계 파라미터의 값이 클수록 더 정확히 최적의 정렬 위치를 추적할 수 있으나, 이는 연산량 증가로 이어진다. 이에 따라, fast DTW는 유사도를 측정하고자 하는 두 데이터의 길이(length)에 의한 연산량의 증가가 fast DTW의 설계 파라미터에 의한 연산량의 증가보다 큰 경우에만 연산량 감소를 기대할 수 있으며, 병리학적 정렬 문제(pathological alignment problem)을 갖는 fast DTW 알고리즘은 제약적(constraints) 기법과 비교했을 때, 상대적으로 낮은 분류 정확률을 나타낸다.

이에 따라, 본 발명에서는 제약적(constraints) 기법의 제약 조건 안에서 fast DTW 알고리즘의 최적의 정렬 위치 추정 기법을 적용한 고속으로 제약적 동적 시간 워핑(fast constrained DTW) 방법을 제안한다.

본 발명의 고속으로 제약적 동적 시간 워핑(fast constrained DTW) 방법은 제약적 기법과 유사한 분류 정확률을 지원 가능하며, fast DTW 기법의 설계 파라미터 및 두 입력 데이터의 길이와 상관없이 항상 fast DTW 및 제약적 기법들과 비교해 낮거나 유사하며 선형적인 연산 시간이 소요된다는 특징이 있다.

W.-S. Han, J. Lee, Y.-S. Moon, S.-W. Hwang, and H. Yu, "A New Approach for Processing Ranked Subsequence Matching Based on Ranked Union," In Proc. of Int’l Conf. on Management of Data, ACM SIGMOD, Athens, Greece, pp.457-468, Jun. 2011.

본 발명은 제약적(Constrained) DTW 기법의 제한된 영역의 정렬들 내에서 fast DTW 기법의 두 데이터 간의 특성을 고려하는 기법을 적용하여 모든 데이터의 길이 구간에서 연산 복잡도 감소를 나타내며, 제약적(Constrained) DTW 기법과 유사한 분류 정확률을 나타내는 효율적인 방법인 고속으로 제약적 동적 시간 워핑 방법을 제공하는 데 그 목적이 있다.

또한, 본 발명은 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 기록매체을 제공하는 데 그 목적이 있다.

또한, 본 발명은 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 기록매체를 구비한 연산장치를 제공하는 데 그 목적이 있다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법은 기 설정된 윈도우 영역의 해상도를 제1 처리(coarsening) 과정을 통해 1/2 데이터 길이 및 1/4의 데이터 길이를 갖는 멀티 해상도로 각각 형성하는 단계; 상기 1/4 데이터 길이를 가지며, 멀티 해상도 중 가장 낮은 해상도의 윈도우 영역을 SC-DTW의 제한된 윈도우 영역으로 한정하여 정렬 연산을 진행해 추적한 최적 워핑 경로를, 제2 처리과정(projection)을 통해 상기 1/4 데이터 길이를 갖는 해상도의 윈도우 영역에서 발견된 최적 워핑 경로와 설정 파라미터 r에 기초하여 상기 SC-DTW의 제한된 윈도우 영역 안에서 1/2 데이터 길이를 갖는 해상도의 정렬 연산을 수행하는 윈도우 영역의 셀들을 각각 제1 세그먼트 및 제2 세그먼트로 형성하는 단계; 및 제3 처리과정(Refinement)을 통해 추정된 1/4 데이터 길이를 갖는 해상도의 최적 워핑 경로를 활용하여 형성된 1/2 데이터 길이를 갖는 해상도의 상기 제1 세그먼트 및 상기 제2 세그먼트 영역의 셀들을 연산한 후, 연산된 제1 세그먼트 및 제2 세그먼트 내에서 최적 워핑 경로 및 DTW 거리를 연산하는 단계를 포함한다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 기록매체는 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 저장매체일 수 있다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 연산장치는 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 기록매체를 구비하는 것을 특징으로 한다.

본 발명은 제약적(constraints) 기법의 특정 형태의 윈도우(window) 영역 내에서 fast DTW의 멀티 해상도(multi-resolution)을 활용한 선택적 워핑 경로(optimal warping path)의 위치 추정 방법을 적용하여 기존의 제약적(constraints) 및 fast DTW 기법들 보다 낮거나 유사하며 선형적인(linear) 연산량을 가지며, 병리학적 정렬 문제(pathological alignment problem)을 효율적으로 억압하여 제약적(constraints) 기법과 유사한 분류 정확률을 나타내는 고속으로 제약적인 동적 시간 워핑(fast constrained DTW) 방법이다.

상술한 고속으로 제약적 동적 시간 워핑(fast constrained DTW) 방법에 따르면, 19개의 UCR 시계열 데이터셋과 샘플링을 달리하여 다양한 데이터의 길이(length)를 갖는 한 주기의 사인파(sine wave)들을 활용하여 실험을 진행한 결과, 제약적(constraints) 기법들 중 가장 최근의 I-DTW 알고리즘의 윈도우(window)를 적용하여 제안된 fast I-DTW는 19개의 데이터셋(datasets)에서 기존의 I-DTW 및 fast DTW와 비교해, 약 52.2% 및 22.3%의 연산량 감소율을 가지며, I-DTW와 유사한 분류 정확률을 나타냈으며, 모든 사인파(sine wave)의 길이(length) 구간에서 유사하거나 낮으며 선형적인(linear) 연산 시간의 결과를 나타냄을 확인할 수 있다.

도 1은 본 발명의 일 실시예에 따른 시계열 데이터의 유사도 측정을 위한 제약된 동적 시간 워핑 방법을 설명한 흐름도이다.
도 2는 두 데이터 시퀀스의 정렬(화살표는 정렬된 포인트들을 나타낸다) 과정을 나타낸 도로서, (a)는 Euclidean distance, (b) DTW distance.
도 3은 코스트 매트릭스(cost matrix)를 나타낸 도이다.
도 4는 선택적 워핑 경로를 갖는 누적 코스트 매트릭스를 나타낸 도이다.
도 5는 (a) 유클리디언 거리와 (b) DTW 거리의 복잡도를 비교한 도이다.
도 6은 제약적 DTW의 누적 코스트 매트릭스를 나타낸 도이다.((a) SC-DTW, (b) I-DTW).
도 7은 fast -DTW 알고리즘에 대한 4가지 다른 해상도의 누적된 Cost 매트릭스를 나타낸 도로서, (a) 원본에 비해 데이터 길이가 1/8인 낮은 해상도, (b) 원본에 비해 데이터 길이가 1/4인 해상도, (c) 원본에 비해 데이터 길이가 1/2인 해상도, (d) 원본 해상도.
도 8은 최악의 경우에 fast DTW 알고리즘에 대한 2개의 다른 해상도를 갖는 누적된 Cost 매트릭스를 나타낸 도이다.
도 9는 fast SC DTW에 대한 3가지 다른 해상도의 누적 Cost 매트릭스를 나타낸 도로서, (a) 원본에 비해 데이터 길이가 1/4인 낮은 해상도, (b) 원본에 비해 데이터 길이가 1/2인 해상도, (c) 원래 해상도이다.
도 10은 fast SC-DTW 알고리즘의 수도 코드이다.
도 11은 fast SC-DTW와 fast DTW 간의 반경에 따른 분류 정확도를 비교한 도이다.
도 12는 fast SC-DTW와 SC-DTW 간의 반경에 따른 분류 정확도를 비교한 도이다.
도 13은 fast I-DTW와 fast-DTW 간의 반경에 따른 분류 정확도를 비교한 도이다.
도 14는 fast I-DTW와 I-DTW 간의 반경에 따른 분류 정확도를 비교한 도이다.
도 15는 fast DTW, SC-DTW, fast SC-DTW, I-DTW 및 fast I-DTW에 대한 계산된 복잡도를 비교한 도이다.
도 16은 제1 시계열(small)에서 표준 DTW, fast DTW, SC-DTW, fast SC-DTW, fast I-DTW 및 fast I-DTW의 경과 시간을 나타낸 도이다.
도 17은 제2 시계열(large)에서 표준 DTW, fast DTW, SC-DTW, fast SC-DTW, fast I-DTW 및 fast I-DTW의 경과 시간을 나타낸 도이다.

이하, 본 명세서의 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 명세서에 기재된 기술을 특정한 실시 형태에 대해 한정하는 것이 아니며, 본 명세서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 명세서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 명세서에서 사용된 "제 1," "제 2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 명세서에 기재된 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 명세서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.

예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 명세서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 명세서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 명세서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 명세서에서 정의된 용어일지라도 본 명세서의 실시예들을 배제하도록 해석될 수 없다.

이하, 첨부된 도면들에 기초하여 본 발명의 일 실시예에 따른 시계열 데이터의 유사도 측정을 위한 고속으로 제약적인 동적 시간 워핑 방법 및 장치를 보다 상세하게 설명하도록 한다.

먼저, 본 발명을 설명하기에 앞서, 동적 시간 워핑(Dynamic Time Warping; 이하, DTW)에 대해서 간략하게 설명하도록 한다.

DTW는 도 2의 (b)와 같이 비선형적인 방법의 정렬과정을 거쳐 두 데이터를 시간 축 상에서 일치시켜 DTW 거리(distance)를 계산한다.

이는 시간 의존(time-dependent)적인 특성을 갖는 데이터들 간의 유사도 측정에서, DTW 거리(distance) 측정 방식이 도 2의 (a)와 같은 유클리디언 거리(Euclidean distance) 측정 방식에 비해 더 좋은 성능을 나타낼 수 있게 한다.

두 데이터의 시퀀스를 최대한 완벽히 일치시키기 위해서는 가능한 모든 정렬들 중 최적의 정렬 작업을 수행해야 한다.

이러한 최적의 정렬을 찾기 위해서는 두 데이터의 서로 다른 두 점들 사이의 거리(distance)를 모두 연산하는 작업이 선행되어야 한다. 그리고 최적의 정렬을 찾기 위한 조건들을 만족시키면서 이 차이들을 누적함으로써 최적의 정렬 작업을 수행할 수 있게 된다. 이러한 두 데이터 간의 서로 다른 두 점 사이의 거리(distances)와 이에 대한 누적은 각각 코스트 매트릭스(cost matrix), 누적 코스트 매트릭스(accumulated cost matrix)로 표현된다.

두 데이터 x, y의 DTW 거리(distance)에 대한 코스트 매트릭스(cost matrix)

는 다음과 같다.

여기서 d₁, d₂는 데이터 길이를 나타내며, 도 3의 코스트 매트릭스(cost matrix)는 누적 코스트 매트릭스(accumulated cost matrix)를 연산하기 위해 사용된다.

누적 코스트 매트릭스(Accumulated cost matrix)를 연산하는 과정에서 최적의 정렬에 직접적인 영향을 준 인덱스(index)들의 집합인 선택적 워핑 경로(optimal warping path) p는 다음과 같이 정의된다.

여기서 L은 선택적 워핑 경로의 길이(length)를 의미한다.

누적 코스트 매트릭스(Accumulated cost matrix)의 선택적 워핑 경로(optimal warping path) p는 경계조건(boundary condition), 단조성 조건(monotonicity condition) 및 스텝 사이즈 조건(step size condition)을 만족시키며 도 4와 같이 연산된다.

1) 경계조건(Boundary condition)

선택적 워핑 경로(optimal warping path)의 시작점과 마지막 점은 다음과 같이 정의된다:

2) 단조성 조건(Monotonicity condition)

선택적 워핑 경로(optimal warping path)의 인덱스 값은 이전 인덱스 값보다 크거나 같아야 한다.

3) 스텝 사이즈 조건(Step size condition)

선택적 워핑 경로(optimal warping path)의 이웃 된 값들의 차이는 스텝 사이즈(step size)를 갖으며, 다음과 같이 표현될 수 있다.

누적 코스트 매트릭스(Accumulated cost matrix)

연산 공식은 다음과 같이 표현할 수 있다.

누적 코스트 매트릭스(Accumulated cost matrix)를 생성한 후, 선택적 워핑 경로(optimal warping path)는 도 4와 같이 A(d₁,d₂)에서 A(1,1) 방향으로 작은 값을 따라가는 역 추적 방식을 통해 연산될 수 있다.

선택적 워핑 경로(optimal warping path)의 인덱스 값들의 집합은 도 2의 정렬된 화살표와 일치하며, 이러한 과정을 통해 DTW는 두 시계열 데이터 간의 유사도를 측정할 수 있다. 유사도 측정 결과를 의미하는 DTW 거리(distance) 값은 다음과 같다.

이하에서는 제약적(Constrained) DTW 알고리즘을 설명한다.

도 5의 빨간 부분은 유클리디언 거리(Euclidean distance(ED))와 표준 DTW(standard DTW)의 연산량을 나타낸다.

ED는 유사도를 측정하고자 하는 두 데이터의 length가 n이라 할 때, O(n)만큼의 연산이 필요하지만, DTW는 o(n²) 만큼의 연산을 필요로 한다.

즉, 두 데이터 시퀀스의 길이가 길어지면, 유클리디언(Euclidean)은 선형적으로 연산량이 증가한다면, DTW는 이차적(quadratic)으로 증가하게 된다.

하지만, DTW를 연산하는데 있어, 반드시 모든 정렬에 대한 경우의 수를 다 감안한 선택적 워핑 경로(optimal warping path)를 추적할 필요는 없다.

제약적(constraints) 기법들 중 가장 대표적인 SC-DTW와 최근에 발표된 I-DTW에 대한 누적 코스트 매트릭스(accumulated cost matrix)는 도 6와 같다.

여기서 도 6의 빨간 부분은 유사도를 측정하고자 하는 두 데이터 간의 시간 축 상에서 일치하는 인덱스(index)들을 나타내며, 이를 기준으로 형성된 파란 부분은 모든 정렬들을 고려하는 것이 아닌, 특정 영역의 정렬들만을 고려하기 위한 윈도우 영역을 나타내며, 이는 연산량을 낮추고, 시간 축 상에서 멀리 떨어진 과도한 정렬들로 인해 분류 정확률을 낮출 수 있는 병리학적 정렬 문제점(pathological alignment problem)을 효율적으로 억압한다.

SC-DTW는 두 데이터의 인덱스(index)들이 일치하는 부분을 기준으로 가로 축 및 세로 축으로 항상 동일한 길이의 윈도우를 형성한다. 이때 윈도우의 길이는 윈도우 백분율 값(window percentage value) r',

에의해 결정된다.

윈도우의 길이 l은 하기의 식 (10)으로 연산될 수 있다.

d₁과 d₂는 두 데이터 시퀀스 각각의 길이를 의미한다.

도 6의 (a)에서는 가장 대표적으로 많이 사용되는 윈도우 백분율 값(window percentage value)인 r' = 0.1을 사용한 경우로 표준 DTW(standard DTW) 대비 연산량을 약 80% 줄일 수 있다.

I-DTW는 데이터의 처음 부분보다 historic 적으로 나중 부분이 더 중요하다는 데이터 특성을 이용하여, 도 6의 (b)와 같이, 두 데이터의 index들이 일치하는 빨간 부분을 중심으로 해서 두 데이터의 인덱스(index) 값이 커짐에 따라 윈도우의 길이를 점층적으로 증가시키는 방법이다.

I DTW의 윈도우 길이

는 하기의 식(11)을 통해 연산될 수 있다.

n_i과 m_i는 해당하는 index _i에 대한 두 데이터 각각의 길이를 의미한다.

SC-DTW 및 I-DTW는 두 데이터의 길이 가 N이라 할 때, 각각 N(2N·r'+1) 및 N(N·r'+1) 만큼의 연산을 필요로 함에 따라, 기존의 표준(standard) DTW에 비해 연산량 감소를 기대할 수 있다.

하지만, 제약적(constraints) 기법은 유사도를 측정하고자 하는 두 데이터 간의 관계를 전혀 고려하지 않는 고정된 형태의 윈도우를 가지며, 여전히 2차적(quadratic) 연산량을 가짐에 따라 두 데이터의 길이가 길어지면 높은 연산량을 필요로 한다.

이하에서는 Fast DTW 알고리즘을 간략하게 설명하도록 한다. 두 입력 데이터의 고려해야 할 차원을 줄인 데이터 representation을 활용해 높은 연산량을 개선하는 데이터 축약(data abstraction) 기법들 중 가장 대표적인 알고리즘인 fast DTW는 그림 7과 같이 멀티 해상도(multi-resolution)을 활용하여 하위의 해상도(resolution)로부터 추정된 대략적인 선택적 워핑 경로(optimal warping path)의 주변 영역에 대한 정렬들만을 고려함으로써 연산량을 감소시키는 기법이다. 이러한 fast DTW는 다음과 같은 순서를 통해 알고리즘 구현이 가능하다.

1) 제1 처리과정(Coarsening)

두 시계열 데이터(time series data)의 인접한 각 포인트들을 두 개씩 묶어 평균을 취하는 방식을 거듭하여 데이터(data) 포인트들을 축소해 계단식 멀티 해상도(hierarchical multi-resolution)을 만든다.

2) 제2 처리과정(Projection)

가장 낮은 해상도(resolution)에서부터 선택적 워핑 경로(optimal warping path)의 위치를 찾고, 이를 바로 위 해상도(resolution)의 대략적인 선택적 워핑 경로(optimal warping path)의 위치를 추정하는데 사용한다.

3) 제3 처리과정(Refinement)

바로 밑의 해상도(resolution)으로부터 추정된 대략적인 선택적 워핑 경로(optimal warping path)의 위치와 설계 파라미터(design parameter)로부터 설정된 반경(radius)만큼 추정된 선택적 워핑 경로(optimal warping path)의 주변을 고려해 현재 해상도(resolution)의 선택적 워핑 경로(optimal warping path)의 위치를 추적한다.

도 7은 fast DTW 알고리즘의 구현 과정을 나타낸다.

도 7 (d)의 가로 및 세로 축 각각 32 points의 데이터 길이를 갖는 본래 해상도(resolution)에서 본래와 비교하여 1/8의 데이터 길이를 갖는 낮은 해상도(lower resolution)까지 총 4개의 멀티-해상도(multi-resolution)을 형성한다.

가장 낮은 1/8의 데이터 길이를 갖는 해상도인 도 7의 (a)에서 모든 정렬(alignment)를 고려한 선택적 워핑 경로(optimal warping path)의 위치를 추적하면 도 7 (a)의 빨간 선과 같다.

이렇게 찾은 1/8의 데이터 길이를 갖는 해상도의 선택적 워핑 경로의 위치를 바로 위의 1/4의 데이터 길이를 갖는 해상도인 도 7의 (b)에 대략적인 선택적 워핑 경로의 위치를 추정하는데 사용한다.

1/4의 데이터 길이를 갖는 해상도에서는 추정된 선택적 워핑 경로의 위치와 그 주변을 추가적으로 반영한 영역이 각각 진한 회색 상자들과 연한 회색 상자들로 형성되어 있으며, 이 한정된 영역 내에서 정렬 작업들을 진행한 뒤, 다시 선택적 워핑 경로의 위치를 추적한다.

이 때, 추정된 선택적 워핑 경로의 주변 영역의 추가적인 반영은 설정 파라미터인 'r(radius)'에 의해 결정되며, 도 7에서는 r=1을 사용하였다.

이는 도 7의 (c)를 거쳐, 본래 해상도인 도 7 (d)의 선택적 워핑 경로와 DTW 거리를 연산할 때까지 반복된다.

DTW의 연산 결과는 DTW 거리 및 선택적 워핑 경로가 된다.

Fast DTW의 연산량을 선택적 워핑 경로를 제외한 DTW 거리만을 연산한다는 가정하에 표준 DTW와 비교하면, fast DTW는 가장 낮은 해상도로부터 본래의 해상도 까지 누적 코스트 매트릭스(accumulated cost matrix)를 각각 16, 44, 97 그리고 212개의 총 369 셀들을 연산하였고, 본래의 가로 및 세로 축 각각 32 points의 데이터 길이를 갖는 해상도에서 16, 8, 4 points의 데이터 길이를 갖는 멀티 해상도들을 형성하기 위해 총 2x(16+8+4)=56의 연산을 수행하였다.

마지막으로, 빨간 선으로 표시된 선택적 워핑 경로를 추적하기 위해 가장 낮은 해상도부터 본래의 해상도 까지 선택적 워핑 경로의 길이 만큼인 5, 11, 24, 49번의 연산을 각각 수행하였으며, DTW 거리 만을 연산한다고 가정하여 마지막 연산 수를 제외하면, 5+11+24=40의 연산을 수행하여, 총 369+56+40=465번의 연산을 수행하였다. 그리고, 표준 DTW는 DTW 거리만 연산한다고 가정하면, 32x32=1,024의 연산을 수행하게 된다. 즉, 약 45.41%만큼의 연산량 감소를 기대할 수 있다.

Fast DTW는 누적 코스트 매트릭스 연산, 멀티 해상도 형성 및 선택적 워핑 경로 추적의 총 3 부분에서 연산을 필요로 하며, 이론적으로 fast DTW의 연산량을 분석하면 다음과 같다.

간소화하여 계산하기 위해, 이하에서는 두 시계열 데이터(time series data)의 길이를 모두 N으로 가정할 것이며, 모든 분석은 최악의 경우(worst-case)로 가정하여 평가를 진행할 것이다.

도 8 (a)의 빨간 선과 같이, 두 데이터의 인덱스가 일치하는 부분에 선택적 워핑 경로가 형성되는 경우, 도 8의 (b)와 같은 정렬(alignment)를 수행해야 하는 영역이 형성되며, 이 경우가 가장 많은 영역의 셀들을 연산해야 하는 최악의 경우가 된다.

도 8의 (a)에서 추정된 선택적 워핑 경로에 의해 추정된 도 8 (b)의 진한 회색으로된 상자 부분은 한 line에 3개의 셀들을 포함하며, 데이터의 길이 N을 곱해주어 총 3N의 셀들을 형성한다. 또한, 추정된 선택적 워핑 경로의 주변 영역을 나타내는 도 8 (b)의 연한 회색으로된 상자 부분은 설정 파라미터 r(radius)이 '1'인 경우이며, 한 line에 4r개의 셀들을 포함하여 총 4Nr의 셀을 형성한다. 이에 따라, 본래 해상도에서의 총 셀들의 수는 이하의 식 (12)와 같이 된다.

모든 멀티 해상도들에 대한 데이터의 길이는 다음의 식(13)과 같다.

모든 멀티 해상도들에 대한 누적 코스트 매트릭스의 연산해야 되는 셀들의 수를 합하면 식 (14)와 같다.

무한 등비 급수(Infinite geometrical series)에 따라 수식 (14)을 정리하면 수식 (15)와 같다.

본래 해상도의 바로 밑 해상도인 N/2 길이의 데이터를 형성하기 위해서는 두 입력 데이터 각각 N/2의 연산량을 필요로 한다. 이에 따라, 모든 멀티 해상도를 형성할 때 필요한 연산량들을 계산해보면 식 (16)과 같다.

마지막으로, 선택적 워핑 경로(optimal warping path)를 추적하는데 필요한 연산량은 최악의 경우 두 데이터의 길이를 합친 2N만큼의 연산량을 필요로 한다.

모든 멀티 해상도(multi-resolution)들의 선택적 워핑 경로(optimal warping path)를 추적하는데 필요한 연산량을 계산하면 식 (17)과 같다.

최악의 경우로 가정했을 때, 식 (15), (16) 및 (17)의 합은 fast DTW의 시간 복잡도(time complexity)를 나타낸다.

최악의 경우를 가정하여 fast DTW의 이론적 시간 복잡도(time complexity)를 계산한 결과, 데이터의 길이 N에 따라 선형적(linear)인 연산량을 가짐을 확인할 수 있으며, 이는 o(N²)의 이차적(quadratic) 연산량을 갖는 표준 DTW 및 제한적 기법과 비교했을 때, 데이터의 길이가 8r+14 부분에 비해 충분히 크다면, 많은 연산량 감소를 기대할 수 있음을 의미한다.

하지만, 데이터의 길이가 8r+14 부분에 비해 작은 경우, 연산량 감소를 기대하기 어렵고, 병리학적 정렬 문제(pathological alignment problem)을 갖고 있어, 제약적(constraints) 기법과 비교했을 때, 상대적으로 낮은 분류 정확률을 나타낸다.

한정된 특정 형태의 윈도우 영역 내에서만 정렬 작업들을 진행하여 연산량을 감소시키며, 병리학적 정렬 문제(pathological alignment problem)을 억압시켜 분류 정확률을 높이는 제약적(constraints) 기법은 두 입력 데이터 간의 관계를 고려하지 않으며, 이차적(quadratic) 연산량을 갖는 한계를 갖는다.

반면, fast DTW 알고리즘은 멀티 해상도(multi-resolution)을 활용하여 유사도를 측정하고자 하는 두 데이터 간의 관계에 따라 달리 형성되는 선택적 워핑 경로(optimal warping path)를 추정하여 선형적인(linear) 연산량을 나타내지만, 두 입력 데이터의 길이에 의한 연산량의 증가가 설정 파라미터 r에 의한 연산량의 증가 보다 큰 경우 연산량 감소를 기대할 수 있으며, 병리학적 정렬 문제(pathological alignment problem)을 갖고 있어, 제약적(constraints) 기법에 비해 분류 정확률이 낮다.

이하에서는 제약적(constraints) 기법의 한정된 윈도우(window) 영역 내에서 fast DTW 알고리즘의 선택적 워핑 경로(optimal warping path) 추정 방법을 적용하여 추가적인 연산량 감소 및 선형적(linear)인 연산 시간을 나타내는 고속으로 제약적 동적 시간 워핑(fast constrained DTW, 이하 fcDTW) 방법을 제안하고자 한다.

도 1 참조, 본 발명의 일 실시예에 따른 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법(S700)은 제1 처리과정(coarsening)을 이용하여 기 설정된 윈도우 영역의 해상도를 1/2 데이터 길이 및 1/4 데이터 길이를 갖는 멀티 해상도로 각각 형성하는 단계(S710), 상기 1/4 데이터 길이를 가지며, 멀티 해상도 중 가장 낮은 해상도의 윈도우 영역을 SC-DTW의 제한된 윈도우 영역으로 한정하여 정렬 연산을 진행해 추적한 최적 워핑 경로를, 제2 처리과정(projection)을 통해 상기 1/4 데이터 길이를 갖는 해상도의 윈도우 영역에서 발견된 최적 워핑 경로와 설정 파라미터 r에 기초하여 상기 SC-DTW의 제한된 윈도우 영역 안에서 1/2 데이터 길이를 갖는 해상도의 정렬 연산을 수행하는 윈도우 영역의 셀들을 각각 제1 세그먼트 및 제2 세그먼트로 형성(S720)하는 단계 및 제3 처리과정(Refinement)을 통해 추정된 1/4 데이터 길이를 갖는 해상도의 최적 워핑 경로를 활용하여 형성된 1/2 데이터 길이를 갖는 해상도의 상기 제1 세그먼트 및 상기 제2 세그먼트 영역의 셀들을 연산한 후, 연산된 제1 세그먼트 및 제2 세그먼트 내에서 최적 워핑 경로 및 DTW 거리를 연산하는 단계(S730)를 포함한다.

여기서, 상기 제1 처리과정(coarsening)은 두 시계열 데이터의 인접한 각 포인트들을 두 개씩 묶어 평균을 취하는 방식을 거듭하여 데이터 포인트들을 축소해 계단식 멀티 해상도(hierarchical multi-resolution)로 만드는 과정일 수 있다.

상기 제2 처리과정(Projection)은 가장 낮은 해상도에서부터 선택적 워핑 경로의 위치를 찾고, 다음으로 낮은 해상도의 대략적인 선택적 워핑 경로의 위치를 추정하는 과정일 수 있다.

상기 상기 제3 처리과정(Refinement)은 바로 밑의 해상도으로부터 추정된 대략적인 선택적 워핑 경로의 위치와 설계 파라미터로부터 설정된 반경만큼 추정된 선택적 워핑 경로의 주변을 고려해 현재 해상도의 선택적 워핑 경로의 위치를 추정하는 과정일 수 있다.

한편, 상기 설정 파라미터는 상기 추정된 선택적 워핑 경로의 주변 영역의 추가적인 반영 반경 값인 것을 특징으로 한다.

또한, 상기 제1 세그먼트 및 제2 세그먼트는 서로 다른 해상도로 윈도우 영역의 셀로 표시된다. 즉, 본 발명의 일 실시예에 따른 S700은 적용된 제한적(constrained) DTW의 윈도우(window) 영역 내에서 fast DTW의 제1 처리과정(coarsening), 제2 처리과정(projection) 및 제3 처리과정(refinement)을 거쳐 구현된다. 먼저, 제약적(constraints) 기법들 중 가장 대표적인 SC-DTW 알고리즘을 적용한 fast SC-DTW의 구현 과정은 다음과 같다.

도 9에서 SC-DTW의 윈도우 백분율 값(window percentage value) r'은 0.2를 사용하였으며, 추정된 선택적 워핑 경로(optimal warping path) 주변 영역의 추가적인 반영 범위를 나타내는 설정 파라미터(parameter) r은 1을 사용하였다.

도 9 (c)의 본래의 해상도에서 제1 처리과정(coarsening)을 거쳐 1/2(b), 1/4(a)의 데이터 길이(length)를 갖는 해상도(resolution)의 멀티 해상도(multi-resolution)를 형성한다.

도 9 (a)의 낮은 해상도(lower resolution)에서는 SC-DTW의 제한된 윈도우(window) 영역에 한정하여 정렬(alignment)를 진행한 후, 선택적 워핑 경로(optimal warping path)를 추적하며, 이를 바로 위 해상도(resolution)인 1/2의 데이터 길이(length)를 갖는 해상도(resolution)의 대략적인 선택적 워핑 경로(optimal warping path)를 추정하는데 활용한다.

도 9 (b)의 1/2 데이터 길이(length)를 갖는 해상도(resolution)에서는 추정된 선택적 워핑 경로(optimal warping path)와 설정 파라미터(parameter) r에 맞게 SC-DTW의 제한된 윈도우(window) 영역 안에서 정렬 연산을 수행하는 영역을 각각 진한 회색 상자 및 연한 회색 상자와 같이 형성하고, 이 영역 안에서 정렬 작업들을 진행한 후, 선택적 워핑 경로(optimal warping path)를 추적한다.

마지막으로, 추정된 1/2의 데이터 길이를 갖는 해상도의 선택적 워핑 경로를 활용해 도 9 (c) 원래 해상도의 선택적 워핑 경로 및 DTW 거리를 연산한다.

DTW 거리만을 연산한다는 가정하에 제안된 fast SC-DTW와 기존의 SC-DTW의 연산량을 비교하면, fast SC-DTW는 가장 낮은 해상도(resolution)인 도9의 (a)부터 본래의 해상도인 도 9의 (c)까지 누적 코스트 매트릭스를 각각 44, 122 그리고 264개의 총 430 셀들을 연산하였고, 도 9 (c)의 가로 및 세로 축 각각 40 points의 데이터 길이를 갖는 해상도에서 도 9 (b), (a) 각각 20, 10 points의 데이터 길이를 갖는 멀티 해상도들을 형성하기 위해 총 2x(20+10)=60의 연산을 수행하였다.

마지막으로 도 9 (a), (b)의 빨간 선으로 표시된 선택적 워핑 경로의 길이는 각각 13, 26으로 총 39번의 선택적 워핑 경로를 위한 연산을 진행하여, 모든 연산량은 총 430+60+39=529이 된다.

도 8 (c)의 SC-DTW 윈도우 영역 안의 총 셀들의 수는 608이 된다.

즉, SC-DTW와 비교하여 fast SC-DTW은 도 9의 상황에서 약 (608-529)/608x100=12.99% 만큼의 연산량 감소를 기대할 수 있다.

정렬 가능한 모든 영역에서 선택적 워핑 경로(optimal warping path)를 추적하는 fast DTW와 비교하여 도 9와 같이 SC-DTW의 윈도우 영역 내에서의 선택적 워핑 경로를 추적하는 제안된 fast SC-DTW는 선택적 워핑 경로가 두 입력 데이터의 시간 축 상에서 일치하는 부분 근처에 위치하는 경우, fast DTW와 유사한 연산량을 가지며, 시간 축 상에서 멀리 떨어져 위치하는 경우, 제안된 fast SC-DTW는 SC-DTW 윈도우의 경계 부분에 워핑 경로가 형성되어, fast DTW 보다 더 짧은 워핑 경로에 따른 낮은 연산량을 갖게 된다.

그리고 기존의 fast DTW는 선택적 워핑 경로가 시간 축 상에서 멀리 떨어진 위치에 형성되는 경우, 병리학적 정렬 문제을 초래해 전체 분류 정확률을 저하시킬 수 있다.

이에 반해, 제안된 fast SC-DTW는 병리학적 정렬 문제을 효율적으로 억압하는 SC-DTW의 윈도우 영역 내에서 선택적 워핑 경로가 형성되어 전반적인 분류 정확률을 높일 수 있다.

본 발명에서 제안하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법(Fast SC-DTW)의 수도코드는 도 10과 같다.

라인 7-36은 제1 처리과정(coarsening)에 해당하며, 라인 8-30는 현재까지 생성한 멀티 해상도 중 낮은 해상도에 필요한 총 연산량과 추가 해상도을 형성할 경우, 추가 해상도에서부터 현재의 낮은 해상도 까지 필요한 총 연산량을 비교하여 멀티 해상도의 추가 생성 여부를 결정하는 과정에 해당한다.

라인 32-34은 현재의 낮은 해상도에 인접한 각 points들을 2개씩 묶어 평균을 취하는 방식으로 추가적인 멀티 해상도을 생성한다.

라인 38-47에서는 결정된 멀티 해상도을 기반으로 제2 처리과정(projection) 및 제3 처리과정(refinement)을 반복하며, 라인 42와 45에서 각각 모든 영역에서의 정렬을 고려하는 낮은 해상도와 추정된 선택적 워핑 경로 및 그 주변 영역에 대한 정렬을 고려하는 낮은 해상도를 제외한 다른 해상도들의 선택적 워핑 경로 및 DTW 거리를 계산한다.

다른 제약적 기법을 적용한 본원의 fast constrained DTW의 수도코드는 도 10의 fast SC-DTW의 수도코드에서 라인 9, 12, 19, 42, 45를 적용된 제약적 DTW에 적합하게 수정함으로써 구현할 수 있다.

이하에서는 UCR에서 제공하는 다양한 시계열 데이터셋들과 샘플링을 달리한 한 주기의 사인 파형(sine wave) 데이터를 사용하여 본원에서 제안하는 고속으로 제약적 동적 시간 워핑(fast constrained DTW) 알고리즘의 분류 정확률 및 시간 복잡도(time complexity)를 기존의 제약적(constraints) 기법 및 fast DTW와 비교한다.

하기의 테이블 1 참조, 실험을 위해 테이블 1에 제시된 총 19개의 시계열 데이터 셋들을 활용하였다.

각각의 데이터 셋들은 2~50개의 클래스 넘버, 24 ~ 1,000개의 훈련 사이즈(train size), 28 ~ 6,174개의 테스트 사이즈(test size) 그리고 60 ~ 637의 길이로 구성되어 있으며, 의학, 로봇, 필적 인식(handwriting recognition) 등의 분야를 포함한다. 19개의 데이터 셋들의 순서는 실험 결과 분석을 위해 길이에 따라 정리하였다.

테이블 1. UCR 시계열 데이터셋들의 정보를 나타낸 표이다.

DTW 알고리즘을 포함한 유사도 측정에서 주로 사용되는 가장 가까운 인접 기법을 사용하여 시계열 데이터 셋들의 분류를 진행하였다.

19개의 시계열 데이터 셋들의 각 테스트 데이터셋(test datasets)과 훈련 데이터셋은 질의 시퀀스(query sequences) 및 하위 시퀀스(sub-sequences)로 활용된다.

질의 시퀀스가 입력되면, 모든 하위 시퀀스들은 실험에서 활용된 알고리즘들을 활용해 유사도를 측정하며, 그 중 가장 작은 유사도 측정 값을 갖는 하위 시퀀스의 클래스 정보를 각 알고리즘들의 분류 결과로 출력한다.

추가적으로, 유사도 측정에 가장 전통적인 방법인 유클리디언 거리(Euclidean distance; 이하 ED)도 분류 성능 비교를 위해 함께 구현하였다.

테이블 2는 실험을 위해 구현된 7개의 알고리즘들의 19개의 데이터 셋들에 대한 분류 정확률을 나타내며, Avg는 모든 데이터 셋들에 대한 분류 정확률들의 평균을 의미한다.

두 입력 데이터 간의 정렬 과정을 거쳐 유사도를 측정하는 구현된 모든 DTW 알고리즘들은 전통적인 방식인 ED에 비해 높은 분류 정확률들을 나타내며, 병리학적 정렬 알고리즘을 효율적으로 억압하는 두 제약적 DTW 기법인 I-DTW 및 SC-DTW는 표준 DTW에 비해 전반적으로 높은 분류 정확률을 나타냄을 테이블 2의 (a)를 통해 확인할 수 있다.

테이블 2. 반경에 따른 분류 정확도

테이블 2 (b), (c) 그리고 (d)의 fast DTW, fast SC-DTW 그리고 fast I-DTW의 평균 분류 정확률은 설정 파라미터인 반경(radius)이 커짐에 따라 각각 표준 DTW, SC-DTW 그리고 I-DTW의 평균 분류 정확률과 유사하게 됨을 확인할 수 있다.

실험 결과에 대한 분석을 위해 제안된 fast SC-DTW와 기존의 fast DTW 그리고 SC-DTW의 분류 정확률을 각각 비교한 결과들은 도 11 및 12와 같다.

유사하게, 제안된 fast I-DTW는 fast DTW 및 I-DTW와 비교하면 도 13 및 14와 같다.

도 11의 빨간 점들은 19개의 데이터 셋에 대한 가로 축 및 세로 축에 배치된 두 알고리즘의 분류 정확률을 나타내며, 가로 축 및 세로 축이 일치하는 부분을 나타내는 파란 선을 기준으로 두 영역이 형성되고, 특정 영역에 점들이 많다면, 그 영역의 알고리즘은 다른 영역의 알고리즘에 비해 19개의 데이터 셋에 대해 전반적으로 더 높은 분류 정확률을 나타냈음을 의미한다.

Fast SC-DTW와 fast DTW의 분류 정확률을 비교하는 도 11은 모든 반경(radius)에서 제안된 fast SC-DTW의 영역에 위치한 빨간 점들이 fast DTW의 영역보다 많으며, 이는 19개의 데이터 셋에 대해서 제안된 fast SC-DTW가 전반적으로 더 높은 분류 정확율을 나타내고 있음을 의미한다.

도 12는 fast SC-DTW와 SC-DTW의 분류 정확률을 비교하고 있으며, radius가 0, 1, 2인 경우들은 두 알고리즘 간의 전반적인 분류 정확률의 차이가 존재하지만, radius가 3 이상인 경우에는 빨간 점들이 대부분 두 영역의 중간 지점인 파란 선 위에 위치하고 있으며, 이는 두 알고리즘의 분류 정확률이 19개의 데이터 셋에 대해 전반적으로 유사함을 의미한다.

실험 결과를 통해 SC-DTW의 윈도우 영역 내에서 동작하는 fast SC-DTW는 SC-DTW와 마찬가지로 병리학적 정렬 문제를 효율적으로 억압하고 있음을 확인할 수 있다.

또한, 도 13 및 14를 보면, fast I-DTW 역시 fast DTW에 비해 모든 반경(radius)에서 더 높은 정확률을 보이고 있으며, 반경(radius)이 3 이상일 때, I-DTW와 유사한 전반적인 분류 정확률을 나타냄을 확인할 수 있다.

테이블 3. 반경에 따라 검색된 셀의 수

테이블 4. 반지름에 따른 표준 DTW 대비 검색 셀 수의 비율

테이블 3의 (a)는 ED, DTW, SC-DTW 그리고 I-DTW, (c), (d), (e)는 각각 fast DTW, fast SC-DTW, fast I-DTW 알고리즘들에 대한 table 1의 19개의 데이터셋들 각각의 테스트 데이터들을 모두 처리하는데 연산된 셀들의 총 수를 나타낸다.

연산된 셀들의 총 수는 선택적 워핑 경로 추적 및 해상도을 줄이(shrink)기 위한 연산들을 포함한다. 실험 결과 분석을 위해 하기의 수식 (19)와 같이 각 알고리즘들의 모든 테스트 데이터셋들을 처리하는데 연산된 셀들의 총 수를 표준 DTW와 비교하여 비율(R_NSC)로 나타낸 결과는 테이블 4와 같으며, Avg는 19개의 데이터 셋에 대한 평균

을나타낸다.

하기의 수식 (19)에서 NSC _{standard DTW}는 표준 DTW의 연산된 셀들의 총 수를 의미하며, NSC _otherDTW는 구현된 다른 DTW 알고리즘들의 연산된 셀들의 총 수를 의미한다.

앞서 확인한 분류 정확률에서 제안된 fast SC-DTW 및 fast I-DTW는 설정 parameter인 radius가 3 이상에서 SC-DTW 및 I-DTW와 거의 수렴하는 분류 정확률을 나타냈다.

테이블 4에서 반경이 3일 때, 평균 R_NSC 11.4%fmf 갖는 제안된 fast SC-DTW 각각 16.3% 및 19.1%의

을 갖는 fast DTW 및 SC-DTW를 하기의 수식(20)을 활용하여 비교하면, 약 30.1% 및 40.3%의 연산량 감소율을 나타냄을 확인할 수 있다.

또한, 16.3% 및 10.1%의 R_NSC을 나타내는 DTW 및 I-DTW와 비교했을 때 7.8%의

을 갖는 fast I-DTW는 약 52.2% 및 22.9%의 연산량 감소율을 나타냄을 확인할 수 있다.

도 14는 19개의 데이터 셋에 대한 기존의 fast DTW 및 SC-DTW 그리고 제안된 fast SC-DTW의

을 radius에 따라 비교하며 또한, 제안된 fast I-DTW와 기존의 fast DTW 및 I-DTW에 대한

역시 함께 비교한다.

설정 파라미터인 반경과 관계가 없는 SC-DTW는 모든 반경에 대해 항상 일정한

을 도시한다. 실험에서 사용된 데이터셋들의 길이가 클수록, 반경(radius)이 작을수록 낮은

을 기대할 수 있는 fast DTW는 도 14에서 length가 짧은 데이터 셋들 보다 length가 긴 데이터 셋들이 더 낮은

을 나타내며, 범위(radius)이 작을수록 모든 데이터 셋들의

이 전반적으로 낮게 형성됨을 확인할 수 있다.

또한, 도 14를 보면 데이터의 길이가 길지 않은 데이터셋들의

이 반경(radius)에 더 민감하게 반응함을 확인할 수 있고, 19개의 데이터 셋들 중 가장 길이가 짧은 도 15 (k)의 첫 번째 데이터셋은 100%의

을 나타내고 있으며, 이는 연산량이 감소하지 않음을 의미한다.

즉, 범위(radius)이 10일 경우에, 60의 길이(length)를 갖는 첫 번째 데이터인 합성 제어(Synthetic Control)의 연산량은 기존의 표준 DTW와 동일하며, 이는 반경(radius)이 10이며, 데이터의 길이(length)가 60 이하인 경우와 데이터의 길이(length)가 60이며, 범위(radius)이 10 이상인 경우, fast DTW 알고리즘은 연산량 감소를 기대할 수 없음을 의미한다.

반면, 도 15에서 모든 반경 및 데이터 셋들에 대해 fast SC-DTW는 fast DTW 및 SC-DTW 보다 항상 같거나 낮은 을 나타낸다.

SC-DTW의 윈도우 내에서 fast DTW 알고리즘을 수행하는 제안된 fast SC-DTW는 SC-DTW보다 fast DTW의

이 낮은 경우, fast DTW와 유사하거나 낮은

을 나타내며, fast DTW의

이 SC-DTW 보다 큰 경우, SC-DTW와 유사하거나 낮은

을 나타냄을 도 15를 통해 확인할 수 있다. 유사하게, fast I-DTW의

역시 fast DTW 및 I-DTW 와 비교해 항상 유사하거나 낮음을 확인할 수 있다.

이하에서는 본 발명에서 제안하는 시계열 데이터(time series data)의 유사도 측정을 위한 동적 시간 워핑(DTW)의 연산 복잡도 감소를 위한 효율적인 알고리즘인 고속으로 제약적 동적 시간 워핑(fast constraints DTW)에 대한 실험 결과를 제시한다.

DTW 기법은 시간 의존적(time-dependent) 특성에 대응하기 위해 데이터들 간의 시간 축 상에서의 정렬 과정을 거치며, 가능한 모든 정렬들 중 가장 최적의 정렬을 찾아 유사도를 측정한다.

이에 따라, 다른 알고리즘들에 비해 우수한 분류 성능을 나타내지만, 높은 연산 복잡도에 의해 응용에 제약을 갖는다. 높은 연산 복잡도 문제를 해결하기 위해 제안된 제약적(constraints) 기법 기반의 DTW 알고리즘들은 한정된 범위에서만 정렬들을 수행하는 제약 조건을 도입하여 연산량을 감소시켰으나, 입력 데이터 간의 관계를 고려하지 않으며, 데이터의 길이(length)가 긴 경우 여전히 연산량이 높은 한계를 갖는다.

반면, 데이터 축약(data abstraction) 기법을 기반한 fast DTW는 제약적(constraints) 기법에 비해 낮은 분류 정확률을 나타내지만, 두 데이터 간의 관계에 따라 달리 형성되는 최적의 정렬 위치를 추정하는 기법을 활용하며, 데이터의 길이(length)가 길수록 더 많은 연산량 감소가 가능하다.

이에 본 발명에서는 기존의 제약적(constraints) 기반의 알고리즘들의 제약 조건 안에서 fast DTW 알고리즘의 최적의 정렬 위치를 추정하여 두 데이터 간의 관계를 고려하며, 모든 데이터의 길이 구간에서 낮은 연산량을 나타내는 fast constrained DTW를 제안하였다.

UCR에서 제공하는 19개의 시계열 데이터들을 통한 실험 결과, 제안하는 본원의 고속으로 제약적 동적 시간 워핑 알고리즘(fast constrained DTW)는 기존의 fast DTW 및 제약적(constraints) 기법에 비해 약 52.2% 및 22.3%의 연산량 감소율을 나타냈으며, 제약적(constraints) 기법과 유사한 분류 정확률을 나타냈다.

본 발명에서 제시하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터 가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하 게 추론될 수 있다

이상에서 본 발명은 실시예를 참조하여 상세히 설명되었으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 상기에서 설명된 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 부가 및 변형이 가능할 것임은 당연하며, 이와 같은 변형된 실시 형태들 역시 아래에 첨부한 특허청구범위에 의하여 정하여지는 본 발명의 보호 범위에 속하는 것으로 이해되어야 할 것이다.

S700: 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법

Claims

제1 처리과정(coarsening)을 이용하여 기 설정된 윈도우 영역의 해상도를 1/2 데이터 길이 및 1/4 데이터 길이를 갖는 멀티 해상도로 각각 형성하는 단계;
상기 1/4 데이터 길이를 가지며, 멀티 해상도 중 가장 낮은 해상도의 윈도우 영역을 SC-DTW의 제한된 윈도우 영역으로 한정하여 정렬 연산을 진행해 추적한 최적 워핑 경로를, 제2 처리과정(projection)을 통해 상기 1/4 데이터 길이를 갖는 해상도의 윈도우 영역에서 발견된 최적 워핑 경로와 설정 파라미터 r에 기초하여 상기 SC-DTW의 제한된 윈도우 영역 안에서 1/2 데이터 길이를 갖는 해상도의 정렬 연산을 수행하는 윈도우 영역의 셀들을 각각 제1 세그먼트 및 제2 세그먼트로 형성하는 단계; 및
제3 처리과정(Refinement)을 통해 추정된 1/4 데이터 길이를 갖는 해상도의 최적 워핑 경로를 활용하여 형성된 1/2 데이터 길이를 갖는 해상도의 상기 제1 세그먼트 및 상기 제2 세그먼트 영역의 셀들을 연산한 후, 연산된 제1 세그먼트 및 제2 세그먼트 내에서 최적 워핑 경로 및 DTW 거리를 연산하는 단계를 포함하는 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법.
제1항에 있어서,
상기 제1 처리과정(coarsening)은
두 시계열 데이터의 인접한 각 포인트들을 두 개씩 묶어 평균을 취하는 방식을 거듭하여 데이터 포인트들을 축소해 계단식 멀티 해상도(hierarchical multi-resolution)로 만드는 과정인 것을 특징으로 하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법.
제1항에 있어서,
상기 제2 처리과정(Projection)은
가장 낮은 해상도에서부터 선택적 워핑 경로의 위치를 찾고, 다음으로 낮은 해상도의 대략적인 선택적 워핑 경로의 위치를 추정하는 과정인 것을 특징으로 하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법.
제1항에 있어서,
상기 제3 처리과정(Refinement)은
바로 밑의 해상도으로부터 추정된 대략적인 선택적 워핑 경로의 위치와 설계 파라미터로부터 설정된 반경만큼 추정된 선택적 워핑 경로의 주변을 고려해 현재 해상도의 선택적 워핑 경로의 위치를 추정하는 과정인 것을 특징으로 하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법.
제1항 내지 4항 중 어느 하나의 항에 있어서,
상기 설정 파라미터는
상기 추정된 선택적 워핑 경로의 주변 영역의 추가적인 반영 반경 값인 것을 특징으로 하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법.
제1항에 있어서,
상기 제1 세그먼트 및 제2 세그먼트는 서로 다른 해상도로 윈도우 영역의 셀로 표시되는 것을 특징으로 하는 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법.
청구항 1 내지 청구항 6에 기재된 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 기록매체.
청구항 1 내지 청구항 6에 기재된 시계열 데이터의 유사도 측정을 위한 고속으로 제약적 동적 시간 워핑 방법의 각 단계를 실행하는 프로그램을 기록한 기록매체를 구비하는 연산장치.