KR20010064977A

KR20010064977A - 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법

Info

Publication number: KR20010064977A
Application number: KR1019990059467A
Authority: KR
Inventors: 황규영; 문양세
Original assignee: 윤덕용; 한국과학기술원
Priority date: 1999-12-20
Filing date: 1999-12-20
Publication date: 2001-07-11
Also published as: EP1250636A2; WO2001046771A3; AU2029501A; JP3648709B2; US6496817B1; KR100344530B1; JP2003518310A; WO2001046771A2

Abstract

본 발명의 시계열 데이터베이스에서의 서브시퀀스 매칭방법은, 윈도우를 구성하는 방법의 이원성을 사용하여 데이터 시퀀스를 디스조인트 윈도우로 나누기 때문에 다차원 색인에 저장해야 하는 점의 개수를 줄이고, 개별 점을 직접 색인에 저장할 수 있고, 질의 시퀀스를 나눈 슬라이딩 윈도우를 변환한 개별 점으로 색인을 검색하며, 질의에 사용된 점과 색인에 저장된 점을 비교함으로써 착오해답을 줄이고 성능을 향상시킬 수 있도록 하는 동시에, 데이터 시퀀스를 디스조인트 윈도우로 나누어 색인 구성 과정에서의 특성 추출 함수 사용을 줄임으로써 특성 추출 함수 사용에 필요한 CPU 연산을 대폭 단축하여 기존 방법에 비해 빠르게 색인을 구성할 수 있도록 한다.

이와 같은 본 발명은 윈도우를 구성하는 방법의 이원성을 이용하는 제1 과정; 상기 제1 과정에 기반하여 데이터 시퀀스를 디스조인트 윈도우로 나누는 제2 과정; 상기 제1 과정에 기반하여 질의 시퀀스를 슬라이딩 윈도우로 나누는 제3 과정; 및 상기 제2 과정과 제3 과정에서 나누어진 윈도우를 이용하여 서브시퀀스 매칭을 수행하는 제4 과정;을 포함하여 이루어지는 것을 특징으로 한다.

Description

시계열 데이터베이스에서의 서브시퀀스 매칭방법 { A Subsequence matching method in Time-series databases }

본 발명은 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 관한 것으로서, 보다 상세하게는 윈도우를 구성하는 방법의 이원성(duality)을 이용하여 서브시퀀스 매칭의 성능을 향상시킨 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 관한 것이다.

먼저, 이하의 설명에서 사용되는 용어를 정의하고자 한다.

길이 n인 "시퀀스"는 n개의 엔트리로 구성된 배열을 의미하고, "시계열 데이터"는 각 시간별로 측정한 실수 값을 가지는 엔트리의 시퀀스를 의미하고, "시계열 데이터베이스"는 시계열 데이터를 저장한 데이터베이스를 의미한다.

또한, "데이터 시퀀스＂는 시계열 데이터베이스에 저장된 시계열 데이터를 의미하고, "질의 시퀀스"는 사용자에 의하여 주어지는 시퀀스를 의미하며, "유사 시퀀스 매칭"이란 질의 시퀀스와 유사한 데이터 시퀀스를 검색하는 방법을 의미한다.

상기에서, 유사 시퀀스 매칭의 두 시퀀스간의 거리가 사용자가 제시한 "허용치"인 ε이하이면 두 시퀀스는 "유사"하다고 한다. 그리고, 시퀀스 X와 Y 사이의 거리가 ε이하이면 X와 Y는 ε-매치(ε-match)한다고 정의하며, 길이 n인 두 시퀀스의 거리를 계산하는 연산을 "n-차원 거리계산"이라 정의한다.

상기의 거리 계산에 있어서, 본 발명은 특정한 거리 계산 방법에 한정되지 않는다. 그러나, 본 발명의 기술에 대한 이해를 돕기 위하여 유클리디안 거리 계산 방법을 기반으로 설명한다. 길이가 n인 두 시퀀스 X = {x₀,x₁,...,x_n-1}과 Y = {y₀,y₁,...,y_n-1}의 "유클리디안 거리"는 ""의 식으로 정의한다.

시퀀스 S가 시퀀스 A를 포함하고 있는 경우, 즉 A가 S의 일부분인 경우 A는 S의 "서브시퀀스"라 한다. 이때, 유사 시퀀스 매칭은 전체 매칭과 서브시퀀스 매칭의 두 가지로 구분한다. 상기에서 "전체 매칭"은 데이터 시퀀스 S₁,...,S_N이 있고, 질의 시퀀스 Q와 허용치 ε이 주어졌을 때, Q와 ε-매치하는 모든 데이터 시퀀스를 찾는 방법이다. 이때, 데이터 시퀀스와 질의 시퀀스의 길이는 동일하다. 또한, 상기에서 "서브시퀀스 매칭"은 제각기 다른 길이를 가지는 데이터 시퀀스 S₁,...,S_N이 있고, 질의 시퀀스 Q와 허용치 ε이 주어졌을 때, Q와 ε-매치하는 서브시퀀스를 포함하는 데이터 시퀀스 S_i와 해당 서브시퀀스의 위치를 찾는 방법이다.

"윈도우"는 시퀀스를 분할하는 단위로서, 분할하는 방법에 따라 슬라이딩 윈도우와 디스조인트 윈도우로 구분한다. 상기 "슬라이딩 윈도우"는 시퀀스의 가능한 모든 위치를 시작 위치로 하여 구성한 윈도우를 의미하는데, 첨부도면 도 1a는 시퀀스를 크기 4인 슬라이딩 윈도우들로 나눈 예를 나타낸다. 상기 도 1a에서 참조번호 201은 시퀀스를 나타내며, 참조번호 202는 길이 4인 슬라이딩 윈도우들을 나타낸다. 또한, 상기 "디스조인트 윈도우"는 윈도우 크기의 배수가 되는 위치를 시작 위치로 하여 구성한 윈도우를 의미하는데, 첨부도면 도 1b는 시퀀스를 크기 4인 디스조인트 윈도우들로 나눈 예를 나타낸다. 상기 도 1b에서 참조번호 203은 시퀀스를 나타내며, 참조번호 204는 디스조인트 윈도우들을 나타낸다.

서브시퀀스 매칭에서의 "착오기각"은 주어진 질의 시퀀스와 ε-매치하는 서브시퀀스이나 착오로 인하여 기각되는 서브시퀀스를 의미하며, "착오해답"은 질의 시퀀스와 ε-매치하지 않으나 착오로 인하여 ε-매치하는 것으로 선택된 서브시퀀스를 의미한다. 상기 서브시퀀스 매칭에서는 착오기각과 착오해답이 발생하지 않아야 한다.

"특성 추출 함수"는 길이가 n인 시퀀스에 대해서 n보다 작은 개수의 특성 f개를 추출하는 함수를 의미하는데, 상기 특성 추출 함수를 유사 시퀀스 매칭에 사용하기 위해서는 이를 사용함으로 인한 착오기각이 없어야 한다. 상기 착오기각이 없음을 보장하기 위한 특성 추출 함수의 조건은 Agrawal, R., Faloutsos, C., and Swami, A., "Efficient Similarity Search in Sequence Databases," In Proc. the 4th Int'l Conf. on Foundations of Data Organization and Algorithms, Chicago, Illinois, pp. 69-84, Oct. 1993.[참고문헌 1] 및 Faloutsos, C., Ranganathan, M., and Manolopoulos, Y., "Fast Subseqeunce Matching in Time-Series Databases," In Proc. Int'l Conf. on Management of Data, ACM SIGMOD,Minneapolis, Minnesota, pp. 419-429, May 1994.[참고문헌 2]에 잘 나타나 있다.

또한, 이하의 설명에서 사용되는 표기법을 정의하고자 한다.

Len(S)는 시퀀스 S의 길이를 의미하고, S[k]는 시퀀스 S의 k번째 엔트리를 나타내며, S[i:j]는 시퀀스 S의 i번째 엔트리에서 j번째 엔트리까지로 구성된 서브시퀀스를 나타낸다. 이때, 상기 S[i:j]는 두 개의 서브시퀀스 S[i:k]S[k+1:j]로 표현할 수 있다. 또한, s_i는 시퀀스 S를 디스조인트 윈도우로 나누었을 때, i번째 디스조인트 윈도우를 의미하고, ω는 슬라이딩 윈도우 및 디스조인트 윈도우의 크기를 나타낸다.

최근에 주식 데이터, 기업의 성장률, 환율 변동 데이터, 의료 데이터, 날씨 변동 데이터 등과 같이 다양한 분야에서 많은 양의 시계열 데이터가 발생하고 있는데, 컴퓨터의 계산 및 저장 능력이 발전함에 따라 많은 양의 시계열 데이터를 활용하고자 하는 연구가 활발하게 이루어지고 있다. 특히, 시계열 데이터에 대한 유사 시퀀스 매칭은 데이터베이스의 새로운 응용분야인 데이터 마이닝의 중요한 분야로 자리잡고 있다.

이하, 종래 기술에서 시계열 데이터에 대한 유사 시퀀스 매칭방법을 설명하고자 한다.

[참고문헌 1]의 종래 기술에서는 데이터 시퀀스와 질의 시퀀스의 길이가 동일한 경우인 전체 매칭 문제를 해결하기 위하여 다음과 같은 과정을 수행한다.

우선, 특성 추출 함수를 사용하여 길이 n인 데이터 시퀀스를 f 차원의 점으로 변환하고, 이를 f 차원 색인에 저장한다. 이렇게 특성을 추출하는 이유는 다차원 색인의 고차원 문제(dimensionality curse)로 인하여 고차원인 시퀀스를 다차원 색인에 직접 저장하기 어렵기 때문이다. 그후, 질의 시퀀스 역시 동일한 함수를 사용하여 f 차원의 점으로 변환하고, 변환한 점과 허용치 ε을 사용하여 범위 질의(range query)를 구성한다. 그리고, 구성한 범위 질의로 다차원 색인을 검색하여 ε-매치하는 모든 점들을 찾아 후보집합(candidate set)을 구한다. 이렇게 후보집합을 구하면 착오기각은 발생하지 않지만, 시퀀스의 길이 n 대신에 f개의 특성만을 사용함으로 인하여 착오해답이 발생할 수 있다.

따라서, 다차원 색인에 대한 검색 결과로 얻은 각 점들에 대해서는 실제 데이터 시퀀스를 액세스하고 질의 시퀀스와의 거리를 조사하여 착오해답을 제거하는데, 이를 "후처리 과정"(post-processing step)이라 한다.

또한, [참고문헌 2]의 종래 기술에서는 [참고문헌 1]의 전체 매칭 문제를 일반화한 서브시퀀스 매칭 문제를 해결하기 위하여 다음과 같은 과정을 수행하였는데, 본 발명에서는 이 해결책을 저자들의 이름 첫글자들을 따서 "FRM"이라 부른다.

서브시퀀스 매칭에서, 질의 시퀀스와 유사한 서브시퀀스는 데이터 시퀀스의 어느 위치에나 나타날 수 있기 때문에 FRM에서는 모든 가능한 서브시퀀스를 조사하기 위하여 데이터 시퀀스의 모든 가능한 위치에 대해서 일정한 크기의 슬라이딩 윈도우를 구성하고, 질의 시퀀스를 슬라이딩 윈도우와 같은 크기의 디스조인트 윈도우로 나누는 방법을 사용하였다. FRM에서는 데이터 시퀀스를 나눈 각 슬라이딩 윈도우를 저차원 공간의 점으로 변환하였다. 그리고, 변환한 점의 개수가 너무 많아 각 점을 개별로 다차원 색인에 저장하기 어려우므로, 휴리스틱을 사용하여 여러 개의 점을 포함하는 최소 포함 사각형(MBR: minimum bounding rectangle)을 구성하고, 개별 점을 저장하는 대신 이들 MBR만을 다차원 색인에 저장하고, 이를 이용하여 다양한 길이의 질의 시퀀스에 대한 서브시퀀스 매칭을 시도하였다.

상기 FRM에서는 다양한 길이의 질의 시퀀스에 대한 서브시퀀스 매칭을 위하여 하기와 같은 두 가지 정리를 제시하고 사용하였다.

<정리 1>

동일한 길이의 시퀀스 S와 Q를 각각 p개의 디스조인트 윈도우 s_i와 q_i(1≤i≤p)로 나누었을 때, 시퀀스 S와 Q가 ε-매치하면, 적어도 하나 이상의 (s_i,q_i)쌍이-매치 한다.

<정리 2>

동일한 길이의 시퀀스 S와 Q가 ε-매치하면, (S[i:j], Q[i:j])인 어떠한 서브시퀀스 쌍도 ε-매치 한다.

상기 <정리 1>과 <정리 2>를 사용하여 FRM은 질의 시퀀스를 p개의 디스조인트 윈도우로 나누고, 각 윈도우를 f 차원의 점으로 변환한다. 그리고, 변환한 점과으로 범위 질의를 구성하고, 다차원 색인을 검색하여 후보집합을 구한다. 그후, 데이터베이스로부터 데이터 시퀀스를 읽어서 Len(Q)-차원 거리 계산을 통하여 후보집합에 포함된 착오해답을 제거하는 후처리 과정을 수행한다.

상기 서브시퀀스 매칭에서 색인 검색 결과로 구한 후보집합에 착오해답이 많이 포함되면 후처리 과정의 디스크 액세스와 CPU 연산이 증가하여 결국 성능이 크게 저하되기 때문에 착오해답을 줄여야 한다.

상기 FRM에서 색인 검색 결과로 구한 후보집합에 착오해답이 포함되는 가장 큰 원인은 개별 점을 다차원 색인에 직접 저장하지 않고, 여러 점을 포함하는 MBR을 구성하여 MBR만을 색인에 저장하기 때문이다. 즉, 동일한 범위 질의에 대해서 개별 점을 저장했을 때는 후보가 되지 않는 서브시퀀스가 MBR만을 구성하여 저장했을 때는 후보가 되는 경우가 많이 발생하기 때문이다.

그러나, FRM에서 개별 점을 직접 저장할 경우 데이터 시퀀스 길이 만큼의 많은 f 차원 점들이 생겨나고, 결국 원래 데이터 시퀀스 저장 공간보다 약 f배 많은 저장공간이 필요하다. 또한, 이를 저장하는 다차원 색인의 높이가 커져서 성능이 크게 떨어진다. 따라서, FRM에서는 MBR을 구성하여 저장하므로 개별 점을 직접 색인에 저장하고 이를 사용하여 점과 점 비교을 비교하여 착오해답을 줄이는 효과 즉, "점 여과 효과"(point-filetering effect)를 얻을 수 없으며, 그 결과 착오해답이 크게 증가하고 성능이 크게 저하되는 문제점이 있다.

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출한 것으로서, 그 목적은 데이터 시퀀스를 디스조인트 윈도우로 나누고 질의 시퀀스를 슬라이딩 윈도우로 나누는 윈도우 구성의 이원성을 이용한 듀얼매치(Dual Match:Duality-based subsequence Matching) 방법을 사용함으로써 착오해답을 크게 줄이고 성능을 개선한 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공하는데 있다.

또한, 본 발명의 다른 목적은 개별 점을 직접 색인에 저장하고 이를 통하여 점 여과 효과를 얻음으로써 착오해답을 현저히 줄이고 성능을 크게 향상시키는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공하는데 있다.

또한, 본 발명의 또다른 목적은 색인 구성 과정에서 CPU 오버헤드의 많은 부분을 차지하는 특성 추출 함수의 사용을 줄임으로써 빠르게 색인을 구성할 수 있는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공하는데 있다.

도 1a는 시퀀스를 슬라이딩 윈도우로 나누는 방법을 나타낸 예시도

도 1b는 시퀀스를 디스조인트 윈도우로 나누는 방법을 나타낸 예시도

도 2는 윈도우를 이용한 서브시퀀스와 질의 시퀀스의 표현 방법을 나타낸 예시도

도 3은 본 발명에 의한 서브시퀀스 매칭방법이 구현되는 시스템의 대략적인 구성을 나타낸 예시도

도 4는 본 발명에 의한 서브시퀀스 매칭방법에서 다차원 색인을 구성하는 색인 구성 알고리즘을 나타낸 도면

도 5는 본 발명에 의한 서브시퀀스 매칭방법에서 유사 서브시퀀스를 찾아내는 서브시퀀스 매칭 알고리즘을 나타낸 도면

도 6은 본 발명에 의한 서브시퀀스 매칭방법에서 유사 서브시퀀스를 찾되 범위 질의 회수를 줄이는 개선된 서브시퀀스 매칭 알고리즘을 나타낸 도면

< 도면의 주요 부분에 대한 부호의 설명 >

10 : 컴퓨터 메모리 15 : 컴퓨터 CPU

20 : 데이터베이스 관리 시스템 25 : 서브시퀀스 매칭 시스템

35 : 데이터베이스 저장장치 40 : 시계열 데이터베이스

45 : 다차원 색인

상기와 같은 목적을 달성하기 위한 본 발명의 제1 특징에 따르면, 윈도우를 구성하는 방법의 이원성을 이용하는 제1 과정; 상기 제1 과정에 기반하여 데이터 시퀀스를 디스조인트 윈도우로 나누는 제2 과정; 상기 제1 과정에 기반하여 질의 시퀀스를 슬라이딩 윈도우로 나누는 제3 과정; 및 상기 제2 과정과 제3 과정에서 나누어진 윈도우를 이용하여 서브시퀀스 매칭을 수행하는 제4 과정;을 포함하여 이루어지는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공한다.

이때, 본 발명의 부가적인 특징에 따르면, 상기 제4 과정에서는, 점 여과 효과를 얻고 착오해답을 줄이기 위하여 데이터 시퀀스를 나눈 디스조인트 윈도우를 변환한 개별 점을 직접 색인에 저장하고, 질의 시퀀스를 나눈 슬라이딩 윈도우를변환한 개별 점을 직접 범위 질의에 사용하는 단계를 포함할 수 있다.

이때, 범위 질의의 횟수를 줄이기 위하여 질의 시퀀스를 나눈 슬라이딩 윈도우를 변환한 개별 점으로 직접 질의하지 않고, 여러 개의 점을 포함하는 최소 포함 사각형(MBR)을 구성하여 질의하여 후보집합을 구하는 단계를 포함하는 것이 바람직하다.

또한, 본 발명의 다른 부가적인 특징에 따르면, 상기 제4 과정에서는, 색인 구성에 필요한 특성 추출 함수의 사용을 줄여서 빠르게 색인을 구성하기 위하여 데이터 시퀀스를 슬라이딩 윈도우로 나누지 않고 디스조인트 윈도우로 나누는 단계를 포함할 수 있다.

한편, 상기와 같은 목적을 달성하기 위한 본 발명의 제2 특징에 따르면, 서브시퀀스 매칭을 수행하기 위한 다차원 색인을 구성하는 색인 구성 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 색인 구성 과정은, f 차원 색인을 하나 생성하고 이를 초기화하는 제1 단계; 시계열 데이터베이스로부터 하나의 데이터 시퀀스를 읽는 제2 단계; 상기 제2 단계에서 읽은 데이터 시퀀스를 디스조인트 윈도우로 나누는 제3 단계; 상기 제3 단계에서 나눈 디스조인트 윈도우를 특성 추출 함수를 사용하여 f 차원의 점으로 변환하는 제4 단계; 상기 제4 단계에서 변환한 점과 해당 윈도우가 포함된 데이터 시퀀스의 식별자와 해당 윈도우의 시작 위치로 레코드를 구성하는 제5 단계; 상기 제5 단계에서 구성한 레코드를 f 차원 색인에 삽입하는 제6 단계; 모든 디스조인트 윈도우에 대해서 상기 제3, 제4 및 제5 단계를 반복한 후, 데이터베이스로부터 다음에 읽을 데이터 시퀀스가 있는지를 확인하는 제7 단계; 및 상기 제7 단계에서 더 이상 읽을 데이터 시퀀스가 없으면 색인 구성을 종료하고, 읽을 데이터 시퀀스가 있으면 데이터 시퀀스를 읽은 후 상기 제3 단계로 진행하도록 하는 제8 단계;를 포함하여 이루어지는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공한다.

또한, 상기와 같은 목적을 달성하기 위한 본 발명의 제3 특징에 따르면, 시계열 데이터베이스와 다차원 색인을 이용하여 사용자가 제시한 질의 시퀀스와 유사한 서브시퀀스를 찾는 서브시퀀스 매칭 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 서브시퀀스 매칭 과정은, 서브시퀀스에 포함된 최소 디스조인트 윈도우 개수를 구하는 제1 단계; 질의 시퀀스를 슬라이딩 윈도우로 나누는 제2 단계; 상기 제2 단계에서 나눈 슬라이딩 윈도우를 특성 추출 함수를 사용하여 f 차원의 점으로 변환하는 제3 단계; 상기 제3 단계에서 변환한 점과 상기 제1 단계에서 구한 최소 디스조인트 윈도우 개수와 사용자가 제시한 허용치를 사용하여 범위 질의를 구성하는 제4 단계; 상기 제4 단계에서 구성한 범위 질의를 사용하여 다차원 색인을 검색하고, 검색 결과를 사용하여 후보집합을 구성하는 제5 단계; 모든 슬라이딩 윈도우에 대해서 상기 제3, 제4, 및 제5 단계를 반복하여 후보집합이 구성된 후, 후보집합에 포함된 후보 서브시퀀스를 메모리로 읽어오는 제6 단계; 및 상기 제6 단계에서 읽어온 후보 서브시퀀스와 질의 시퀀스와의 거리 계산을 통하여 후보집합에 포함된 모든 후보 서브시퀀스에 대해서 착오해답 여부를 확인하는 제7 단계;를 포함하여 이루어지는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공한다.

또한, 상기와 같은 목적을 달성하기 위한 본 발명의 제4 특징에 따르면, 시계열 데이터베이스와 다차원 색인을 이용하여 사용자가 제시한 질의 시퀀스와 유사한 서브시퀀스를 찾되 범위 질의의 횟수를 줄이는 개선된 서브시퀀스 매칭 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 개선된 서브시퀀스 매칭 과정은, 서브시퀀스에 포함된 최소 디스조인트 윈도우 개수를 구하는 제1 단계; 질의 시퀀스를 슬라이딩 윈도우로 나누고, 특성 추출 함수를 사용하여 각 슬라이딩 윈도우들을 f 차원의 점들로 변환한 후, 여러 개의 점들을 포함하는 최소 포함 사각형(MBR)들을 구성하는 제2 단계; 상기 제2 단계에서 구성한 MBR과 상기 제1단계에서 구한 최소 디스조인트 윈도우 개수와 사용자가 제시한 허용치를 사용하여 범위 질의를 구성하는 제3 단계; 상기 제3 단계에서 구성한 범위 질의를 사용하여 다차원 색인을 검색하는 제4 단계; 상기 제3 단계에서 범위 질의 구성에 사용한 MBR에 포함된 각 점들과 제4 단계의 검색 결과로 찾은 각 점들간의 거리 계산을 통하여 후보집합을 구성하는 제5 단계; 모든 MBR에 대해서 상기 제3, 제4, 및 제5 단계를 반복하여 후보집합이 구성된 후, 후보집합에 포함된 후보 서브시퀀스 메모리로 읽어오는 제6 단계; 및 상기 제6 단계에서 읽어온 후보 서브시퀀스와 질의 시퀀스와의 거리 계산을 통하여 후보집합에 포함된 모든 후보 서브시퀀스에 대해서 착오해답 여부를 확인하는 제7 단계;를 포함하여 이루어지는 시계열 데이터베이스에서의 서브시퀀스 매칭방법을 제공한다.

본 발명의 상술한 목적과 여러 가지 장점은 이 기술분야에 숙련된 사람들에의해, 첨부된 도면을 참조하여 후술되는 본 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.

상기에서와 같이 본 발명의 듀얼매치는 데이터 시퀀스를 디스조인트 윈도우로 나누고, 질의 시퀀스를 슬라이딩 윈도우로 나누는 방법을 사용하는데, 종래 기술의 FRM에서는 데이터 시퀀스를 슬라이딩 윈도우로 나누고 질의 시퀀스를 디스조인트 윈도우로 나누는 방법을 사용한다. 결국, 듀얼매치는 종래 기술의 이원적 접근법을 사용하여 많은 착오해답을 제거하고 성능을 향상시킬 수 있게 된다.

상기 FRM은 색인에 필요한 저장공간을 줄이기 위하여 윈도우가 변환된 개별 점 대신 여러 개의 점을 포함하는 최소 포함 사각형(MBR) 만을 저장함으로 인하여 많은 착오해답을 발생시키는데 반하여, 본 발명의 듀얼매치는 FRM과 비슷한 크기의 저장공간으로 개별 점을 직접 색인에 저장함으로써 이 문제를 해결하고 있다.

또한, 본 발명에서는 상기와 같이 개별 점을 직접 색인에 저장하고, 저장된 개별 점을 사용하여 점과 점을 직접 비교함으로써 착오해답을 줄이는 점 여과 효과를 얻을 수 있다.

이하, 본 발명에 의한 듀얼매치가 착오기각을 발생하지 않고 서브시퀀스 매칭을 바르게 수행함을 보이기 위한 이론적 근거를 상세히 설명한다.

먼저, 본 발명에 의한 듀얼매치를 설명하기 위하여 용어를 정의하고자 한다.

시퀀스 S를 정해진 디스조인트 윈도우들로 나누었을 때, 이들 중 서브시퀀스 S[i:j]에 포함된 디스조인트 윈도우를 S[i:j]의 "포함 윈도우"라 정의한다. 그리고, 길이 Ｌ인 모든 서브시퀀스의 포함 윈도우 개수 중 최소값을 길이 Ｌ인 서브시퀀스의 "최소 포함 윈도우 개수"라 정의하고, 이를 p로 나타낸다. 길이 Ｌ인 서브시퀀스의 최소 포함 윈도우 개수가 p라 함은 길이 Ｌ인 모든 서브시퀀스는 그 위치에 관계없이 포함 윈도우 개수가 p 이상임을 의미한다. 최소 포함 윈도우 개수는 하기의 <정리 3>을 이용하여 구할 수 있다.

<정리 3>

시퀀스 S를 크기 ω인 디스조인트 윈도우로 나누었을 때, 길이 Ｌ인 S의 서브시퀀스의 최소 포함 윈도우 개수는 "[(L+1)/ω]-1"이다.

상기 <정리 3>에 의하면 길이 Len(Q)인 S의 서브시퀀스는 "[(Len(Q)+1)/ω]-1"개 이상의 디스조인트 윈도우를 포함한다. 이때, 상기 Q는 질의 시퀀스를 의미한다. 그리고, 듀얼매치는 하기의 <정리 4>에 기반하여 착오기각 없이 유사 서브시퀀스의 후보집합을 구할 수 있다.

<정리 4>

데이터 시퀀스 S를 크기 ω인 디스조인트 윈도우로 나누고, 질의 시퀀스 Q를 같은 크기의 슬라이딩 윈도우로 나누었을 때, 길이 Len(Q)인 S의 서브시퀀스 S[i:j]와 Q가 ε-매치하면, 적어도 하나 이상의 디스조인트 윈도우 S[i+k:i+k+ω-1] (0 ≤k ≤Len(Q)-ω)와 슬라이딩 윈도우 Q[k:k+ω-1]이-매치한다. 여기에서 p는 <정리 3>에 의해 구해지는 Len(Q)인 서브시퀀스의 최소 포함 윈도우 개수이다.

상기 <정리 4>는 도 2를 이용하여 다음과 같이 증명할 수 있다.

도 2에서 질의 시퀀스 Q와 서브시퀀스 S[i:j]가 ε-매치한다고 하자. 이때,최소 포함 윈도우 개수가 p이므로 S[i:j]는 p개 이상의 디스조인트 윈도우를 포함한다. 도 2에서 S[i:j]는 p개의 디스조인트 윈도우 s₁,...,s_p를 포함하고, 이들 디스조인트 윈도우의 앞뒤로 s_h(h는 head를 의미함)와 s_t(t는 tail를 의미함)의 서브시퀀스를 포함한다. 결국, S[i:j]는 s_hs_1....s_ps_t와 같이 나타낼 수 있다.

동일한 방법으로 질의 시퀀스 Q는 q_hq_1....q_pq_t와 같이 나타낼 수 있다. 이와 같이 나타냈을 때, S[i:j]와 Q가 ε-매치하면, <정리 2>에 의하여 s_1....s_p와 q_1....q_p가 ε-매치하게 된다. 그리고, 다시 <정리 1>에 의하여 s_1....s_p와 q_1....q_p가 ε-매치하면 최소한 하나의 윈도우 쌍 (s_k,q_k)가-매치한다. 결국, S[i:j]와 Q가 ε-매치하면, S[i:j]는 최소 포함 윈도우 개수(= p) 이상의 디스조인트 윈도우를 포함하고, 이 중 최소한 하나의 디스조인트 윈도우 s_k와 Q의 슬라이딩 윈도우 q_k가-매치한다.

질의 시에는 질의 시퀀스 Q에 대해 슬라이딩 윈도우를 구성하므로, 이들 중에는 <정리 4>의 윈도우 q_k가 포함되어 있다. 상기 <정리 4>에 의해서, 데이터 시퀀스를 나눈 디스조인트 윈도우와 질의 시퀀스를 나눈 임의의 슬라이딩 윈도우가-매치할 때, 즉, <정리 4>의 필요조건이 만족할 때, 해당 디스조인트 윈도우를 포함하는 서브시퀀스로 후보집합을 구성하면 착오기각 없이 모든 유사 서브시퀀스를 찾을 수 있다.

본 발명에 의한 듀얼매치의 최대 윈도우 크기는 하기의 <정리 5>를 사용하여 구할 수 있다.

<정리 5>

주어진 최소 질의 시퀀스 길이를 Min(Q)라 하면, 듀얼매치의 최대 윈도우 크기는 "[(Min(Q)+1)/ω]"이다.

이하, 본 발명에 따른 바람직한 일 실시예를 첨부도면을 참조하여 상세히 설명한다.

본 발명의 듀얼매치는 색인 구성과 서브시퀀스 매칭의 두 과정으로 이루어진다. 이때, 시계열 데이터의 저장 및 관리가 가능하고 다차원 색인 구조를 지원하는 데이터베이스 관리 시스템 기능이 필요하다.

본 발명에서 효율적인 서브시퀀스 매칭을 수행하기 위해서는 도 3에 도시되어 있는 시스템이 필요하다. 첨부도면 도 3에서 참조번호 10은 컴퓨터의 메모리를 나타내고, 15는 컴퓨터 CPU를 나타낸다. 이때, 상기 메모리(10)에는 데이터베이스 관리 시스템(20)과 서브시퀀스 매칭 시스템(25)이 구비되는데, 본 발명의 듀얼매치는 상기 서브시퀀스 매칭 시스템(25)으로 구현된다. 상기 데이터베이스 관리 시스템(20)은 데이터베이스 저장장치(35)에 저장된 시계열 데이터베이스(40)와 다차원 색인(45)을 관리한다. 또한, 상기 서브시퀀스 매칭 시스템(25)은 데이터베이스 관리 시스템(20)을 통하여 시계열 데이터베이스(40)와 다차원 색인(45)을 액세스 및 사용한다.

듀얼매치의 색인 구성 과정에서는 데이터 시퀀스들로 구성된 시계열 데이터베이스를 입력으로 받아서 서브시퀀스 매칭에 사용할 다차원 색인을 구성하는데, 도 4는 색인 구성 과정의 알고리즘을 나타낸다.

도 4를 참조하면, 제1 단계(S301)에서는 f 차원 색인 하나를 생성하고 초기화한다. 제2 단계(S302)에서는 데이터 베이스로부터 하나의 데이터 시퀀스를 메모리에 읽어온다. 제3 단계(S303)에서는 제2 단계(S302) 혹은 제8 단계(S308)에서 읽은 데이터 시퀀스를 디스조인트 윈도우로 나눈다. 그후, 제4 단계(S304)에서는 각 디스조인트 윈도우를 f 차원의 점으로 변환한다.

제5 단계(S305)에서는 윈도우를 변환한 점과 해당 윈도우가 포함된 데이터 시퀀스의 식별자, 그리고 이 데이터 시퀀스에서 해당 윈도우의 시작 위치로 레코드로 구성한다. 제6 단계(S306)에서는 디스조인트 윈도우를 변환한 점을 키로 하여 제5 단계(S305)에서 구성한 레코드를 제1 단계(S301)에서 구성한 다차원 색인에 삽입한다. 이와 같이 제4 단계(S304)부터 제6 단계(S306)까지를 반복하여 모든 디스조인트 윈도우에 대한 색인 구성을 수행한다.

제7 단계(S307)에서는 데이터베이스로부터 다음에 읽을 데이터 시퀀스가 있는 지 확인한다. 제7 단계(S307)의 확인 결과 다음에 읽을 데이터 시퀀스가 있는 경우는 제8 단계(S308)에서 이 데이터 시퀀스를 읽은 후 제3 단계(S303)로 돌아가 색인 구성을 계속한다. 그러나, 제7단계(S307)의 확인 결과 더 이상 읽을 데이터 시퀀스가 없는 경우는 색인 구성 과정을 종료한다.

한편, 서브시퀀스 매칭 과정에서는 질의 시퀀스 Q와 허용치 ε을 입력으로 받아서, 질의 시퀀스 Q와 유사한 서브시퀀스를 찾는 작업을 수행한다. 도 5는 서브시퀀스 매칭 과정의 알고리즘을 나타낸다.

도 5를 참조하면, 제1 단계(S501)에서는 <정리 3>에 의해 길이 Len(Q)인 서브시퀀스에 포함되는 최소 디스조인트 윈도우 개수 "p = [(Len(Q)+1)/ω]-1"을 구한다. 제2 단계(S502)에서는 질의 시퀀스를 슬라이딩 윈도우로 나눈다. 다음으로 각 슬라이딩 윈도우에 대해서 다음 제3 단계(S503)부터 제5 단계(S505)까지를 반복한다. 제3 단계(S503)에서는 특성 추출 함수를 사용하여 슬라이딩 윈도우를 f 차원의 점으로 변환한다. 제4 단계(S504)에서는 슬라이딩 윈도우를 변환한 점과으로 범위 질의를 구성한다.

그후, 제5 단계(S505)에서는 제4 단계(S504)에서 구성한 범위 질의로 다차원 색인을 검색하여, 슬라이딩 윈도우를 변환한 점과거리 내에 있는 모든 점들을 찾아낸다. 제5 단계(S505)에서는 슬라이딩 윈도우에 대한 검색 결과를 사용하여 후보집합을 구성하는데, 검색에 사용한 점이 i번째 슬라이딩 윈도우를 변환한 점이고, 검색 결과로 찾아낸 점이 데이터 시퀀스 S의 j번째 디스조인트 윈도우이면, 데이터 시퀀스 S의 (j-i)번째 엔트리에서 시작하는 서브시퀀스를 후보집합에 포함시킨다. 이와 같이 제3 단계(S503)에서 제5 단계(S505)의 과정을 모든 슬라이딩 윈도우에 대해서 반복하여 후보집합을 구한다.

상기의 과정에 의해 후보집합이 구해지면, 후보집합에 포함된 각 후보 서브시퀀스에 대해서 다음 제6 단계(S506) 및 제7 단계(S507)를 수행한다. 제6 단계(S506)에서는 각 후보 서브시퀀스를 데이터베이스로부터 메모리에 읽어온다.제7 단계(S507)에서는 읽어온 후보 서브시퀀스와 질의 시퀀스와의 Len(Q)-차원 거리를 계산하여, 그 거리가 ε보다 크면 착오해답이므로 해답에서 제외하고, ε이하이면 유사 서브시퀀스이므로 해답으로 출력한다.

상기와 같은 색인 구성 과정과 서브시퀀스 매칭 과정을 사용하면 FRM 방법에서 점 여과 효과의 결여로 발생했던 착오해답이 나타나지 않게 된다. 이는 색인 구성 과정에서 데이터 시퀀스를 변환한 개별 점을 직접 다차원 색인에 저장하고, 서브시퀀스 매칭 과정에서 질의 시퀀스를 변환한 개별 점으로 질의하기 때문이다. 즉, 색인 구성 및 검색에서 개별 점을 직접 저장 및 사용함으로써 점 여과 효과를 얻을 수 있고, 이를 통하여 착오해답을 크게 줄일 수 있다. 이와 같이 착오해답을 줄임으로써 후보 개수가 크게 줄어들고, 디스크 액세스와 Len(Q) 차원 거리 계산을 줄여 결국 성능을 향상 시킬 수 있다.

상기에서 질의 시퀀스를 슬라이딩 윈도우로 나누고, 이를 변환한 개별 점 각각에 대해서 범위 질의를 수행하기 때문에 나타날 수 있는 성능 저하의 문제점을 해결하기 위하여 본 발명에서는 하기와 같이 범위 질의의 횟수를 줄이는 개선된 서브시퀀스 매칭 과정이 수행될 수 있다.

개선된 서브시퀀스 매칭 과정에서도 질의 시퀀스와 허용치를 입력으로 받아 유사 서브시퀀스를 찾는 작업을 수행하는데, 도 6은 개선된 서브시퀀스 매칭 과정의 알고리즘을 나타낸다.

도 6을 참조하면, 제1 단계(S601)에서는 <정리 3>에 의해 길이 Len(Q)인 서브시퀀스에 포함된 최소 디스조인트 윈도우 개수 "p = [(Len(Q)+1)/ω]-1"을 구한다. 제2 단계(S602)에서는 질의 시퀀스를 슬라이딩 윈도우로 나눈 후, 특성 추출 함수를 사용하여 각 윈도우를 f 차원의 점으로 변환하고, 이러한 점을 여러 개 포함하는 MBR들을 구성한다.

상기 MBR을 구성하는 방법으로는 FRM 방법에서 사용한 휴리스틱 방법, 고정 개수의 점으로 MBR을 구성하는 방법, 그리고 모든 점을 하나의 MBR에 포함시키는 방법 등이 있는데, 질의 시퀀스가 짧은 경우(윈도우 크기의 3~4배 이하)에는 하나의 MBR을 구성하는 것이 효과적이고, 질의 시퀀스가 긴 경우(윈도우 크기의 5배 이상)에는 여러 개의 MBR을 구성하는 것이 효과적임을 확인하였다.

그후, 상기 구성한 각 MBR에 대해서 제3 단계(S603)부터 제5 단계(S605)까지를 반복한다. 제3 단계(S603)에서는 MBR과으로 범위 질의를 구성한다. 제4 단계(S604)에서는 구성한 범위 질의로 다차원 색인을 검색하여 MBR과거리 내에 있는 모든 점들을 찾아낸다. 제5 단계(S605)에서는 MBR에 포함된 각 점과 검색 결과 찾아낸 각 점의 거리 계산을 통하여 후보집합을 구성한다.

좀 더 자세히 설명하면, MBR에 포함된 한 점이 i번째 슬라이딩 윈도우를 변환한 점이고, 검색 결과로 찾아낸 한 점이 데이터 시퀀스 S의 j번째 디스조인트 윈도우라 할 때, 두 점 사이의 거리가이하이면 데이터 시퀀스 S의 (j-i)번째 엔트리에서 시작하는 서브시퀀스를 후보집합에 포함시킨다. 이와 같이 제3 단계(S603)에서 제5 단계(S605)의 과정을 모든 MBR에 대해서 반복하여 후보집합을 구한다. 후보집합이 구해지면, 후보집합에 포함된 각 후보 서브시퀀스에 대해서 다음 제6 단계(S606) 및 제7 단계(S607)를 수행한다. 제6 단계(S606)에서는 후보 서브시퀀스를 데이터베이스로부터 메모리에 읽어온다. 제7 단계(S607)에서는 읽어온 후보 서브시퀀스와 질의 시퀀스와의 Len(Q) 차원 거리를 계산하여, 그 거리가 ε보다 크면 착오해답이므로 해답에서 제외하고, ε이하이면 유사 서브시퀀스이므로 해답으로 출력한다.

이와 같이 개별 점 대신 MBR을 구성하여 검색하는 개선된 서브시퀀스 매칭 과정을 사용하면 범위 질의의 횟수를 점의 개수에서 MBR의 개수로 줄일 수 있으며, 그러면서도 개별 점을 직접 질의에 사용하는 서브시퀀스 매칭 과정과 동일한 후보집합을 구할 수 있다. 이는 MBR로 검색한 후에, MBR에 포함된 각 점과 검색 결과로 얻은 각 점간의 거리 계산을 수행하여, 두 점 사이의 거리가이하인 경우에만 두 점으로 구성되는 서브시퀀스를 후보집합에 포함시키는 "색인 수준 여과"(index-level filtering)를 수행하기 때문이다. 즉, MBR을 구성하여 질의함으로써 추가적인 후보 서브시퀀스가 발생할 수 있으나, MBR에 포함된 각 점과 검색 결과 얻은 각 점간의 f 차원 거리 계산을 수행함으로써 디스크 액세스와 Len(Q)-차원 거리 계산 이전에 추가적인 후보 서브시퀀스를 제거할 수 있다.

이와 같이 개선된 서브시퀀스 매칭 과정을 사용해서 FRM 방법에 비해 후보집합 크기를 줄이고 성능을 향상시킬 수 있다.

본 출원인에 의한 실험 결과 듀얼매치는 FRM에 비해 후보 개수를 최대 9,000배까지 줄이고 성능을 최대 160배까지 크게 향상시키는 것으로 나타났다. 또한, 듀얼매치는 데이터 시퀀스를 디스조인트 윈도우로 나눔으로써 데이터 시퀀스를 슬라이딩 윈도우로 나누는 FRM에 비하여 색인 구성이 14 내지 230배까지 빠른 특징을 가진다. 이러한 결과로 볼 때, 듀얼매치는 서브시퀀스 매칭의 일반적인 해결책으로 여겨졌던 FRM을 대신할 수 있게 됨을 알 수 있다.

이상에서 설명한 바와 같은 본 발명의 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 의한 듀얼매치는 윈도우를 구성하는 방법의 이원성을 사용하여 데이터 시퀀스를 디스조인트 윈도우로 나누기 때문에 색인에 저장해야 하는 점의 개수를 FRM의 1/ω(ω＞100)로 크게 줄임으로써, 개별 점을 직접 색인에 저장할 수 있고, 질의 시퀀스를 나눈 슬라이딩 윈도우를 변환한 개별 점으로 다차원 색인을 검색한다. 따라서, 듀얼매치는 질의에 사용된 점과 색인에 저장된 점을 비교함으로써, 점 여과 효과를 얻을 수 있고, 이를 통하여 착오해답을 대폭 줄이고 성능을 크게 향상시킬 수 있는 효과가 있다.

또한, 본 발명에서의 듀얼매치는 데이터 시퀀스를 디스조인트 윈도우로 나누기 때문에 색인 구성 과정에서의 특성 추출 함수 사용을 FRM의 약 1/ω(ω＞100) 이상으로 줄임으로써 특성 추출 함수 사용에 필요한 CPU 연산을 대폭 단축하여 FRM에 비해 빠르게 색인을 구성할 수 있는 효과가 있다.

Claims

윈도우를 구성하는 방법의 이원성을 이용하는 제1 과정;

상기 제1 과정에 기반하여 데이터 시퀀스를 디스조인트 윈도우로 나누는 제2 과정;

상기 제1 과정에 기반하여 질의 시퀀스를 슬라이딩 윈도우로 나누는 제3 과정; 및

상기 제2 과정과 제3 과정에서 나누어진 윈도우를 이용하여 서브시퀀스 매칭을 수행하는 제4 과정;을 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
제 1 항에 있어서,

상기 제4 과정에서는, 착오해답을 줄이고 점 여과 효과를 얻기 위하여 데이터 시퀀스를 나눈 디스조인트 윈도우를 변환한 개별 점을 직접 색인에 저장하고, 질의 시퀀스를 나눈 슬라이딩 윈도우를 변환한 개별 점을 직접 질의에 사용하는 단계를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
제 2 항에 있어서,

범위 질의의 횟수를 줄이기 위하여 질의 시퀀스를 나눈 슬라이딩 윈도우를 변환한 개별 점으로 직접 질의하지 않고, 여러 개의 점을 포함하는 최소 포함 사각형(MBR)을 구성하여 질의하여 후보집합을 구하는 단계를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
제 1 항에 있어서,

상기 제4 과정에서는, 색인 구성에 필요한 특성 추출 함수의 사용을 줄여서 빠르게 색인을 구성하기 위하여 데이터 시퀀스를 슬라이딩 윈도우로 나누지 않고 디스조인트 윈도우로 나누는 단계를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
서브시퀀스 매칭을 수행하기 위한 다차원 색인을 구성하는 색인 구성 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 색인 구성 과정은, f 차원 색인을 하나 생성하고 이를 초기화하는 제1 단계;

시계열 데이터베이스로부터 하나의 데이터 시퀀스를 읽는 제2 단계;

상기 제2 단계에서 읽은 데이터 시퀀스를 디스조인트 윈도우로 나누는 제3단계;

상기 제3 단계에서 나눈 디스조인트 윈도우를 특성 추출 함수를 사용하여 f 차원의 점으로 변환하는 제4 단계;

상기 제4 단계에서 변환한 점과 해당 윈도우가 포함된 데이터 시퀀스의 식별자와 해당 윈도우의 시작 위치로 레코드를 구성하는 제5 단계;

상기 제5 단계에서 구성한 레코드를 f 차원 색인에 삽입하는 제6 단계;

모든 디스조인트 윈도우에 대해서 상기 제3, 제4 및 제5 단계를 반복한 후, 데이터 베이스로부터 다음에 읽을 데이터 시퀀스가 있는지를 확인하는 제7 단계; 및

상기 제7 단계에서 더 이상 읽을 데이터 시퀀스가 없으면 색인 구성을 종료하고, 읽을 데이터 시퀀스가 있으면 데이터 시퀀스를 읽은 후 상기 제3 단계로 진행하도록 하는 제8 단계;를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
시계열 데이터베이스와 다차원 색인을 이용하여 사용자가 제시한 질의 시퀀스와 유사한 서브시퀀스를 찾는 서브시퀀스 매칭 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 서브시퀀스 매칭 과정은, 서브시퀀스에 포함된 최소 디스조인트 윈도우 개수를 구하는 제1 단계;

질의 시퀀스를 슬라이딩 윈도우로 나누는 제2 단계;

상기 제2 단계에서 나눈 슬라이딩 윈도우를 특성 추출 함수를 사용하여 f 차원의 점으로 변환하는 제3 단계;

상기 제3 단계에서 변환한 점과 상기 제1 단계에서 구한 최소 디스조인트 윈도우 개수와 사용자가 제시한 허용치를 사용하여 범위 질의를 구성하는 제4 단계;

상기 제4 단계에서 구성한 범위 질의를 사용하여 다차원 색인을 검색하고, 검색 결과를 사용하여 후보집합을 구성하는 제5 단계;

모든 슬라이딩 윈도우에 대해서 상기 제3, 제4, 및 제5 단계를 반복하여 후보집합이 구성된 후, 후보집합에 포함된 후보 서브시퀀스를 메모리로 읽어오는 제6 단계; 및

상기 제6 단계에서 읽어온 후보 서브시퀀스와 질의 시퀀스와의 거리 계산을 통하여 후보집합에 포함된 모든 후보 서브시퀀스에 대해서 착오해답 여부를 확인하는 제7 단계;를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.
시계열 데이터베이스와 다차원 색인을 이용하여 사용자가 제시한 질의 시퀀스와 유사한 서브시퀀스를 찾되 범위 질의의 횟수를 줄이는 개선된 서브시퀀스 매칭 과정이 포함되는 시계열 데이터베이스에서의 서브시퀀스 매칭방법에 있어서,

상기 개선된 서브시퀀스 매칭 과정은, 서브시퀀스에 포함된 최소 디스조인트윈도우 개수를 구하는 제1 단계;

질의 시퀀스를 슬라이딩 윈도우로 나누고, 특성 추출 함수를 사용하여 각 슬라이딩 윈도우들을 f 차원의 점들로 변환한 후, 여러 개의 점들을 포함하는 최소 포함 사각형(MBR)들을 구성하는 제2 단계;

상기 제2 단계에서 구성한 MBR과 상기 제1단계에서 구한 최소 디스조인트 윈도우 개수와 사용자가 제시한 허용치를 사용하여 범위 질의를 구성하는 제3 단계;

상기 제3 단계에서 구성한 범위 질의를 사용하여 다차원 색인을 검색하는 제4 단계;

상기 제3 단계에서 범위 질의 구성에 사용한 MBR에 포함된 각 점들과 제4 단계의 검색 결과로 찾은 각 점들간의 거리 계산을 통하여 후보집합을 구성하는 제5 단계;

모든 MBR에 대해서 상기 제3, 제4, 및 제5 단계를 반복하여 후보집합이 구성된 후, 후보집합에 포함된 후보 서브시퀀스를 메모리로 읽어오는 제6 단계; 및

상기 제6 단계에서 읽어온 후보 서브시퀀스와 질의 시퀀스와의 거리 계산을 통하여 후보집합에 포함된 모든 후보 서브시퀀스에 대해서 착오해답 여부를 확인하는 제7 단계;를 포함하여 이루어지는 것을 특징으로 하는 시계열 데이터베이스에서의 서브시퀀스 매칭방법.