KR102121304B1

KR102121304B1 - 시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법

Info

Publication number: KR102121304B1
Application number: KR1020180097619A
Authority: KR
Inventors: 김상욱; 송준호
Original assignee: 한양대학교 산학협력단
Priority date: 2018-04-04
Filing date: 2018-08-21
Publication date: 2020-06-11
Also published as: KR20190116032A

Abstract

본 발명에서 제공하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법은, 데이터 시퀀스에 대해 생성된 색인으로부터 질의 서브 시퀀스를 매칭하는 방법에 있어서, 주어진 질의 시퀀스를 복수의 질의 윈도우로 분할하고, 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리에 대응하는 질의 윈도우 수를 결정하는 단계; 상기 결정된 질의 윈도우 수에 대해 질의 비용을 계산하여 질의 윈도우를 선택하는 단계; 상기 선택된 질의 윈도우와 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 단계; 및 상기 재계산된 유사 허용 범위를 기반으로 구성된 범위 질의를 이용하여 상기 색인에서 질의 시퀀스에 매칭하는 답변 후보 서브 시퀀스를 검색하는 단계;를 포함하는 점에 그 특징이 있다.

Description

시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법{A NOVEL JOIN TECHNIQUE FOR SIMILAR-TREND SEARCHES SUPPORTING NORMALIZATION ON TIME-SERIES DATABASES}

본 발명의 시계열 데이터베이스에서의 서브시퀀스 매칭 방법은 색인을 구성하는 데이터 시퀀스와 주어진 질의 시퀀스를 정규화 변환하고, 유클리디안 거리를 사용해 유사도를 측정하여 검색의 정확도를 향상시키며, 후처리 과정에서 여러 정답 후보 집합의 교집합을 사용하여 착오해답을 줄일 수 있는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법에 관한 것이다.

질의 시퀀스에 대한 답변 시퀀스를 검색하는 방법은 질의 시퀀스와 데이터 시퀀스 간의 유사도에 따라 데이터 시퀀스 중에서 질의 시퀀스에 매칭될 답변 시퀀스를 검색하는 방법이다.

종래의 질의 시퀀스에 대한 답변 시퀀스를 검색하는 방법은 데이터 시퀀스와 질의 시퀀스의 유사도 척도를 계산하여 답변 시퀀스를 검색하고 있다.

그러나, 질의 시퀀스의 길이는 사용자의 입력에 따라 변경될 수 있으므로, 데이터베이스 시스템이 질의 시퀀스의 길이를 예측할 수 없다. 그러므로, 종래의 답변 시퀀스를 검색하는 방법은 질의 시퀀스의 다양한 길이 모두에 대한 색인을 구성하여 검색할 수 없는 실정이다.

따라서, 종래기술은 정규화 변환과 타임 워핑을 지원하는 서브시퀀스 매칭을 위하여 다양한 방법으로 최적화된 순차검색을 사용하였다.

그러나, 순차검색은 데이터 시퀀스의 모든 가능한 서브시퀀스와 질의 시퀀스를 일일이 비교해야 하므로 색인을 사용한 검색 보다 속도가 매우 느리다는 문제점이 있다.

한국특허공개공보 10-2004-0095802호

본 발명은 색인을 구성하는 데이터 시퀀스와 주어진 질의 시퀀스를 정규화 변환하고, 유클리디안 거리를 사용해 유사도를 측정하여 검색의 정확도를 향상시키며, 후처리 과정에서 여러 정답 후보 집합의 교집합을 사용하여 착오해답을 현저히 줄이는 동시에 성능을 향상시킬 수 있는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법을 제공하고자 한다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위하여, 본 발명에서 제공하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법은, 데이터 시퀀스에 대해 생성된 색인으로부터 질의 서브 시퀀스를 매칭하는 방법에 있어서, 주어진 질의 시퀀스를 복수의 질의 윈도우로 분할하고, 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리에 대응하는 질의 윈도우 수를 결정하는 단계; 상기 결정된 질의 윈도우 수에 대해 질의 비용을 계산하여 질의 윈도우를 선택하는 단계; 상기 선택된 질의 윈도우와 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 단계; 및 상기 재계산된 유사 허용 범위를 기반으로 구성된 범위 질의를 이용하여 상기 색인에서 질의 시퀀스에 매칭하는 답변 후보 서브 시퀀스를 검색하는 단계;를 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 질의 윈도우를 선택하는 단계이후, 상기 선택된 질의 윈도우를 정규화하는 단계를 더 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 유사 허용 범위를 재계산하는 단계이후, 상기 정규화된 질의 윈도우 및 상기 재계산된 유사 허용 범위를 이용하여 범위 질의를 구성하는 단계를 더 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 질의 윈도우를 선택하는 단계에서, 상기 질의 비용은 질의 비용 함수를 기반으로 질의 윈도우 유사도 및 질의 윈도우에 의해 계산되는 검색 범위를 반영하여 계산하는 점에 그 특징이 있다.

바람직하게는, 상기 답변 후보 서브 시퀀스를 검색하는 단계이후, 상기 질의 시퀀스를 이용하여 상기 답변 후보 서브 시퀀스를 검증하는 단계를 더 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 답변 후보 서브 시퀀스를 검증하는 단계는, 상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하는 단계; 및 상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 단계;를 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 정답 후보 집합을 검증하는 단계는, 상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 답변 후보 서브 시퀀스를 검증하는 단계이후, 상기 선택된 질의 윈도우들 중에서 마지막 질의 윈도우인지를 판단하여 상기 질의 윈도우를 선택하는 단계이후의 각 단계를 반복적으로 진행하는 점에 그 특징이 있다.

바람직하게는, 상기 생성된 색인에 대한 색인 단계는, 슬라이딩 윈도우를 이용하여 데이터 시퀀스를 복수의 데이터 윈도우들로 분할하는 단계; 상기 데이터 윈도우들의 스케일들이 동일하도록 상기 데이터 윈도우들을 정규화하는 단계; 상기 정규화된 데이터 윈도우들의 차원을 축소하는 단계; 상기 차원이 축소된 데이터 윈도우들의 레코드를 생성하는 단계; 및 상기 레코드를 다차원 색인 구조에 삽입하는 단계; 를 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 다차원 색인 구조는, 상기 차원 축소된 데이터 윈도우들을 최소 경계 사각형(MBR: Minimum Bounding Rectangle)들로 구성하고, 최소 경계 사각형들 중 상위 레벨의 최소 경계 사각형이 복수의 하위 레벨의 최소 경계 사각형들을 포함하도록 구성하여 생성된 계층적 트리 구조인 점에 그 특징이 있다.

또한, 상기 과제를 해결하기 위하여, 본 발명에서 제공하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템은, 데이터 시퀀스의 색인을 생성하는 색인 수단으로부터 질의 서브 시퀀스를 매칭하는 시스템에 있어서, 주어진 질의 시퀀스를 슬라이딩 윈도우를 이용하여 복수의 질의 윈도우로 분할하는 시퀀스 분할부; 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리를 위한 최적의 질의 윈도우 수를 계산하는 윈도우 계산부; 상기 계산된 질의 윈도우 수에 대해 최소의 질의 비용을 가지는 질의 윈도우를 선택하는 윈도우 선택부; 상기 정규화된 질의 윈도우 및 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 재산출부; 상기 정규화된 질의 윈도우 및 상기 재계산된 유사 허용 범위를 이용하여 범위 질의를 구성하는 질의 구성부; 및 상기 구성된 범위 질의를 이용하여 색인에서 질의 시퀀스에 매칭할 답변 후보 서브 시퀀스를 검색하는 질의 검색부;를 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 윈도우 선택부에서 선택된 질의 윈도우를 정규화하는 윈도우 정규화부를 더 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 질의 비용은 질의 비용 함수를 기반으로 질의 윈도우 유사도 및 질의 윈도우에 의해 계산되는 검색 범위를 반영하여 계산하는 점에 그 특징이 있다.

바람직하게는, 상기 질의 검색부에서 검색된 상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하는 추출부 및 상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 검증부를 포함하는 질의 후처리부를 더 포함하는 점에 그 특징이 있다.

바람직하게는, 상기 검증부는, 상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하는 점에 그 특징이 있다.

본 발명의 시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법에 따르면, 색인을 구성하는 데이터 시퀀스와 주어진 질의 시퀀스를 정규화 변환하고, 유클리디안 거리를 사용해 유사도를 측정하여 검색의 정확도를 향상시키며, 후처리 과정에서 여러 정답 후보 집합의 교집합을 사용하여 착오해답을 현저히 줄이는 동시에 성능을 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 서브 시퀀스 매칭 시스템의 구성을 개략적으로 도시한 도면이다.
도 2는 상기 도 1의 데이터 시퀀스 색인 수단의 구성을 개략적으로 도시한 도면이다.
도 3은 상기 도 1의 질의 시퀀스 매칭 수단의 구성을 개략적으로 도시한 도면이다.
도 4는 도 2의 질의 후처리부의 구성을 개략적으로 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 데이터 시퀀스에 대하여 색인을 생성하는 색인 과정을 설명하기 위한 순서도이다.
도 6은 본 발명의 일 실시예에 따른 색인으로부터 질의를 수행하여 결과를 도출하는 매칭 과정을 설명하기 위한 순서도이다.
도 7a 및 7b은 본 발명의 일 실시예에 따른 슬라이딩 윈도우와 디스조인트 윈도우를 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 서브 시퀀스 매칭 시스템의 구성을 개략적으로 도시한 도면이고, 도 2는 상기 도 1의 데이터 시퀀스 색인 수단의 구성을 개략적으로 도시한 도면이고, 도 3은 상기 도 1의 질의 시퀀스 매칭 수단의 구성을 개략적으로 도시한 도면이고, 도 4는 도 2의 질의 후처리부의 구성을 개략적으로 도시한 도면이다.

본 발명에서 "시퀀스"는 n개의 엔트리로 구성된 배열을 의미하며, "시계열 데이터"는 각 시간별로 측정한 실수 값을 가지는 엔트리의 시퀀스를 의미하고, "시계열 데이터베이스"는 시계열 데이터를 저장한 데이터베이스를 의미한다.

또한, "데이터 시퀀스"는 시계열 데이터베이스에 저장된 시계열 데이터를 의미하고, "질의 시퀀스"는 사용자에 의하여 주어지는 시퀀스를 의미한다. "서브시퀀스"란 데이터 시퀀스의 일부분을 의미하고, "서브시퀀스 매칭"이란 질의 시퀀스와 유사한 서브시퀀스의 데이터 시퀀스 상에서의 위치를 찾는 방법을 의미한다. 이때, 두 시퀀스간의 유사도(거리)가 사용자가 제시한 "허용치"인 ε 이하이면 ε-매치한다고 정의하며, 이를 "유사"하다고 정의한다.

도 1에 도시된 바와 같이, 본 발명에 따른 서브 시퀀스 매칭 시스템은, 데이터 시퀀스 색인 수단(110), 색인 데이터베이스(120) 및 질의 시퀀스 매칭 수단(130)를 포함하여 구성된다. 여기서, 상기 데이터 시퀀스 색인 수단(110)에서는 데이터 시퀀스를 슬라이딩 윈도우를 이용하여 데이터 시퀀스 윈도우로 분할하여 정규화 변환하여 데이터 시퀀스를 검색하기 위한 데이터 시퀀스의 색인을 생성할 수 있으며, 이를 상기 색인 데이터베이스(120)에 저장하게 된다. 이때, 시퀀스는 n개의 엔트리로 구성된 배열을 의미하며, 시계열 데이터는 각 시간 별로 측정한 실수 값을 가지는 엔트리의 시퀀스일 수 있다.

상기 색인 데이터베이스(120)는 데이터 시퀀스 및 데이터 시퀀스 색인 수단(110)이 생성한 데이터 시퀀스의 색인을 저장하고 관리할 수 있다. 이때, 데이터 시퀀스는 시계열 데이터일 수 있다. 예를 들어, 색인 데이터베이스(120)는 시계열 데이터를 저장한 시계열 데이터베이스일 수 있다.

상기 질의 시퀀스 매칭 수단(130)은 상기 색인 데이터베이스(120)에 저장된 데이터 시퀀스의 색인을 이용하여 질의 시퀀스에 매칭되는 답변 시퀀스를 검색하여 출력할 수 있다. 이때, 질의 시퀀스는 사용자로부터 입력되는 시퀀스이고, 서브 시퀀스는 데이터 시퀀스의 일부분일 수 있다.

그리고, 질의 시퀀스 매칭 수단(130)은 질의 시퀀스와 유사한 서브 시퀀스를 검색할 수 있다.

예를 들어, 질의 시퀀스로 주식의 동향 데이터가 입력될 수 있다. 이때, 질의 시퀀스 매칭 수단(130)은 종래의 주식의 동향 데이터들인 데이터 시퀀스들 중에서 질의 시퀀스로 입력된 주식의 동향 데이터와 유사한 동향을 가지는 데이터 시퀀스를 답변 시퀀스로 검색할 수 있다. 그리고, 사용자는 답변 시퀀스로 출력된 주식의 동향 데이터를 기초로 주식의 동향 변화를 예측할 수 있다.

그리고, 질의 시퀀스와 데이터 시퀀스의 답변 시퀀스 간의 유사도, 또는 거리가 사용자가 설정한 허용값인 ε 이하인 경우, 질의 시퀀스 매칭 수단(130)은 서브 시퀀스가 질의 시퀀스와 유사하다고 판단할 수 있다. 그리고, 질의 시퀀스 매칭 수단(130)가 검색한 서브 시퀀스를 포함한 데이터 시퀀스와 질의 시퀀스 간의 매칭을 ε-매칭으로 정의될 수 있다. 또한, 질의 시퀀스 매칭 수단(130)은 데이터 시퀀스 상에서 해당 서브시퀀스의 위치를 찾을 수 있다.

이때, 유사도는 두 시퀀스 간의 유사한 정도를 측정하는 단위이며, 유사도의 값은 거리(distance)로 나타낼 수 있다 그리고, 질의 시퀀스 매칭 수단(130)은 유클리디안 거리(Euclidean distance)를 이용하여 유사도를 계산할 수 있다.

예를 들어, 질의 시퀀스 매칭 수단는 길이가 n인 시퀀스

와

의 유클리디안거리를 하기 수학식 1을 이용하여 계산할 수 있다.

[수학식 1]

상기 데이터 시퀀스 색인 수단 및 상기 질의 시퀀스 매칭 수단에 대한 구체적인 구성 및 동작에 대해 이하 도 2 및 도 3을 참조로 하여 상세히 설명하기로 한다.

도 2에 도시된 바와 같이, 상기 데이터 시퀀스 색인 수단(110)은, 데이터 시퀀스 분할부(210), 데이터 시퀀스 윈도우 정규화부(220) 및 색인 생성부(230)를 포함할 수 있다.

상기 데이터 시퀀스 분할부(210)는 슬라이딩 윈도우를 이용하여 데이터 시퀀스를 복수의 데이터 윈도우들로 분할할 수 있다.

예를 들어, 데이터 시퀀스가

인 경우, 데이터 시퀀스 분할부(210)는 슬라이딩 윈도우 기법을 사용하여 데이터 시퀀스를 길이 w의 데이터 윈도우

로 분할할 수 있다.

상기 데이터 시퀀스 윈도우 정규화부(220)는 데이터 시퀀스 분할부(210)가 분할한 데이터 윈도우 들의 특성은 유지하면서 스케일들이 동일하도록 데이터 윈도우들을 정규화할 수 있다. 이때, 데이터 시퀀스 윈도우 정규화부(220)는 데이터 윈도우

의 원소들 각각에 정규화 기법을 사용하여

로 변환시킬 수 있다.

예를 들어, 데이터 시퀀스 윈도우 정규화부(220)는 하기 수학식 2와 같이 정의되는 Z-Score 기법으로 데이터 윈도우들을 정규화할 수 있다.

[수학식 2]

다만, 데이터 시퀀스 윈도우 정규화부(220)가 사용하는 정규화 기법은 Z-Score 기법으로 한정되지 않으며 다양한 정규화 기법 중에 하나를 시용하여 데이터 윈도우들을 정규화할 수 있다.

상기 색인 생성부(230)는 데이터 시퀀스 윈도우 정규화부(220)가 정규화한 데이터 윈도우들을 이용하여 데이터 시퀀스의 색인을 생성할 수 있다.

보다 구체적으로, 상기 색인 생성부(230)는 정규화된 데이터 윈도우들의 차원을 축소할 수 있다. 이때, 색인 생성부(230)는 정규화된 데이터 윈도우들의 차원을 축소함으로써, 다차원 색인 구조에서 색인하는 데이터의 차원이 일정 차원 이상일 경우 성능이 급격히 저하되는 차원 저주 현상(Curse of dimensionality)이 발생하는 것을 회피할 수 있다.

다음으로, 색인 생성부(230)는 차원이 축소된 데이터 윈도우들의 레코드를 생성할 수 있다. 이때, 색인 생성부(230)는 데이터 윈도우들 각각에 대하여 차원이 축소된 데이터 윈도우, 데이터 시퀀스 식별자, 및 윈도우 시작 위치 중 적어도 하나를 포함하는 레코드를 생성할 수 있다.

마지막으로, 색인 생성부(230)는 데이터 윈도우들의 레코드를 다차원 색인 구조에 삽입하여 데이터 시퀀스의 색인을 생성할 수 있다. 이때, 색인 생성부(230)는 데이터 윈도우들 각각에 대하여 차원이 축소된 데이터 윈도우를 키로 설정하여 레코드를 다차원 색인 구조에 삽입할 수 있다.

이때, 색인 생성부(230)가 사용하는 다차원 색인 구조는, 차원 축소된 데이터 윈도우들을 최소 경계 사각형(MBR: Minimum Bounding Rectangle)들로 구성하고, 최소 경계 사각형들 중 상위 레벨의 최소 경계 사각형이 복수의 하위 레벨의 최소 경계 사각형들을 포함하도록 구성하여 생성된 계층적 트리 구조일 수 있다.

이러한 상기 데이터 시퀀스 색인 수단(110)는 상기 색인 데이터베이스(120)에 포함된 모든 데이터 시퀀스의 색인이 생성될 때까지 상기 동작들을 반복할 수 있다.

또한, 도 3에 도시된 바와 같이, 질의 시퀀스 매칭 수단(130)은, 시퀀스 분할부(310), 윈도우 계산부(320), 윈도우 선택부(330), 윈도우 정규화부(340), 재산출부(350), 질의 구성부(360), 질의 검색부(370) 및 질의 후처리부(380)를 포함하여 구성될 수 있다.

상기 시퀀스 분할부(310)는 주어진 질의 시퀀스를 슬라이딩 윈도우를 이용하여 복수의 질의 윈도우로 분할한다. 예를 들어, 질의 시퀀스가

인 경우, 시퀀스 분할부(310)는 슬라이딩 윈도우 기법을 사용하여 질의 시퀀스를 색인에 사용된 길이 w의 윈도우

로 분할할 수 있다.

상기 윈도우 계산부(320)는 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리를 위한 최적의 질의 윈도우 수를 계산하게 된다. 여기서, 하기 수학식 3 이용하여 주어진 질의 시퀀스로부터 질의 처리를 위한 최적의 윈도우 수 n을 계산한다.

[수학식 3]

상기 윈도우 선택부(330)는 상기 계산된 질의 윈도우 수에 대해 최소의 질의 비용을 가지는 질의 윈도우를 선택하게 된다.

보다 구체적으로, 상기 계산된 질의 윈도우 수 n개에 대해 질의 비용 함수를 기반으로 최적의 성능을 예측하여 n개의 윈도우를 선택하게 된다. 이때, 질의 비용 함수는 윈도우의 유사도 및 윈도우에 의해 계산되는 검색 범위를 고려하여 하기 수학식 4에 의해 질의 비용을 계산하게 된다.

[수학식 4]

상기 윈도우 선택부(330)는 시퀀스 분할부(310)가 분할한 질의 윈도우들 중에서 질의 시퀀스의 특징을 가장 많이 포함한 질의 윈도우를 선택할 수 있다.

이때, 윈도우 선택부(330)는 시퀀스 분할부(310)가 분할한 질의 윈도우들 각각의 표준편차를 계산할 수 있다. 그리고, 윈도우 선택부(330)는 계산한 표준 편차의 크기 순으로 서로 디스조인트한 n개의 질의 윈도우를 선택할 수 있다 이때, n은 사용자가 정의한 양의 정수일 수 있다.

또한, 윈도우 선택부(330)는 표준 편차의 크기 순으로 윈도우를 선택함으로써, 질의 시퀀스의 특징을 가장 많이 포함하는 윈도우를 선택하여 검색 결과의 착오 해답을 감소시킬 수 있다.

상기 윈도우 정규화부(340)는 상기 윈도우 선택부(330)에서 선택된 질의 윈도우를 정규화하게 된다.

보다 구체적으로, 상기 윈도우 정규화부(340)는 윈도우 선택부(330)가 선택한 질의 윈도우를 정규화할 수 있다 윈도우 정규화부(340)는 윈도우 선택부(330)가 선택한 n개의 질의 윈도우

를 윈도우 정규화부(330)와 동일한 정규화 기법을 사용하여 질의 윈도우

로 변환시킬 수 있다.

상기 재산출부(350)는 상기 선택된 질의 윈도우를 윈도우 정규화부에서 정규화하여 기 설정된 유사 허용값을 이용하여 유사 허용 범위

를 하기 수학식 5를 이용하여 재계산하게 된다. 이때, 유사 허용 범위

는 질의 윈도우와 매칭될 답변 윈도우와 유사한 것으로 판단할 수 있는 유사도 값의 범위일 수 있다.

[수학식 5]

상기 질의 구성부(360)는 상기 정규화된 질의 윈도우 및 상기 재계산된 유사 허용 범위

를 이용하여 범위 질의를 구성하게 된다.

여기서, 상기 질의 구성부(360)는 상기 n개의 다차원 질의 윈도우의 차원 축소할 수 있으며, 차원 축소된 n개의 질의 윈도우 및 유사 허용 범위를 이용하여 범위 질의를 생성할 수 있다.

이때, 범위 질의는 선택된 질의 윈도우와 사용자가 정의한 유사 허용 범위를 이용하여 재계산된 유사 허용 범위를 이용하여, 질의 윈도우로부터 재계산된 유사 허용 범위 내의 데이터 윈도우를 색인을 통해 찾는 질의 방법일 수 있다. 예를 들어, 질의 구성부(360)가 생성한 범위 질의는 선택된 질의 윈도우와 재계산된 유사 허용범위를 쌍으로 매칭하여 생성된 <선택된 질의 윈도우, 재계산된 유사 허용범위>의 형태일 수 있다. 그리고, 질의 구성부(360)가 생성한 범위 질의는 색인을 통한 검색의 입력 변수로 사용될 수 있다.

상기 질의 검색부(370)는 상기 질의 구성부(360)에서 구성된 범위 질의를 이용하여 색인에서 질의 시퀀스에 매칭할 답변 후보 서브 시퀀스를 검색하게 된다.

여기서, 상기 질의 검색부(370)는 정규화된 질의 윈도우 및 유사 허용 범위를 이용하여 색인에서 질의 시퀀스에 매칭할 답변 후보 서브 시퀀스들을 검색하고, 검색된 답변 후보 서브 시퀀스들의 집합을 생성할 수 있다. 이때, 질의 검색부(370)는 윈도우 선택부(330)가 선택한 n개의 윈도우에 대한 답변 후보 서브 시퀀스들의 집합이 모두 생성될 때까지 상기 과정을 반복할 수 있다.

상기 질의 후처리부(380)는 도 4와 같이, 추출부(381)와 검증부(382)를 포함하여 구성될 수 있다.

상기 추출부(381)는 상기 질의 검색부(370)에서 검색된 상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하게 된다. 상기 검증부(382)는 상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 검증부를 포함하여 구성될 수 있다. 상기 검증부(382)는 상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하다.

한편, 도 7a 및 7b은 본 발명의 일 실시예에 따른 슬라이딩 윈도우와 디스조인트 윈도우를 설명하기 위한 도면이다. 도 7a 및 도 7b에 도시된 바와 같이, 윈도우는 시퀀스를 분할하는 단위로서, 분할 방법에 따라 슬라이딩 윈도우와 디스조인트 윈도우로 구분될 수 있다. 슬라이딩 윈도우는 시퀀스의 가능한 모든 위치를 시작 위치로 하여 구성한 윈도우이고, 디스조인트 윈도우는 시퀀스에서 윈도우 길이의 배수가 되는 위치를 시작 위치로 하여 구성한 윈도우일 수 있다. 도 7a은 시퀀스(710)를 길이 4인 슬라이딩 윈도우(720)로 나눈 예를 나타낸다. "디스조인트 윈도우"는 시퀀스에서 윈도우 길이의 배수가 되는 위치를 시작 위치로 하여 구성한 윈도우를 의미하며, 도 7b는 길이 4인 디스조인트 윈도우(730)의 예를 나타낸다.

색인 과정

도 5는 본 발명의 일 실시예에 따른 데이터 시퀀스에 대하여 색인을 생성하는 색인 과정을 설명하기 위한 순서도이다.

도 5에 도시된 바와 같이, 먼저 색인 생성부(230)는 다차원 색인 구조를 생성하여 초기화하는 단계(S510)를 수행한다. 이때, 색인 생성부(230)는 차원 축소된 데이터 윈도우들을 최소 경계 사각형(MBR)들로 구성하고, 최소 경계 사각형들 중 상위 레벨의 최소 경계 사각형이 복수의 하위 레벨의 최소 경계 사각형들을 포함하도록 구성하여 다차원 색인 구조를 생성할 수 있다.

그리고 슬라이딩 윈도우를 이용하여 데이터 시퀀스를 복수의 데이터 윈도우들로 분할하는 단계(S520)를 수행한다.

이어, 상기 데이터 윈도우들의 스케일들이 동일하도록 상기 데이터 윈도우들을 정규화하는 단계(S530)가 수행된다. 즉, 분할한 데이터 윈도우들의 특성은 유지하면서 스케일들이 동일하도록 데이터 윈도우들을 정규화할 수 있다.

그 다음, 상기 색인 생성부(230)에서는 상기 정규화된 데이터 윈도우들의 차원을 축소하는 단계(S540)가 수행되고, 차원이 축소된 데이터 윈도우들의 레코드를 생성할 수 있다(S550).

그리고 색인 생성부(230)는 데이터 윈도우들의 레코드를 상기 S510 단계에서 생성 및 초기화한 다차원 색인 구조에 삽입하여 데이터 시퀀스의 색인을 생성할 수 있다. 이때, 색인 생성부(230)는 데이터 윈도우들 각각에 대하여 차원이 축소된 데이터 윈도우를 키로 설정하여 레코드를 다차원 색인 구조에 삽입하는 단계(S560)를 수행하게 된다.

마지막으로, 색인 생성부(230)는 색인 데이터베이스(120)에 포함된 모든 데이터 시퀀스의 색인이 생성되었는지 여부를 확인할 수 있다. 색인 데이터베이스(120)에 포함된 모든 데이터 시퀀스의 색인이 생성된 경우, 색인 생성부(230)는 색인 생성 방법을 종료할 수 있다(S570).

또한, 색인 데이터베이스(120)에 포함된 데이터 시퀀스들 중 색인이 생성되지 않은 데이터 시퀀스가 존재하는 경우, 색인 생성부(230)는 색인이 생성되지 않은 데이터 시퀀스들 중 하나를 선택하여 S520를 반복적으로 수행할 수 있다.

매칭 과정

도 5는 본 발명의 일 실시예에 따른 색인으로부터 질의를 수행하여 결과를 도출하는 매칭 과정을 설명하기 위한 순서도이다. 여기서, 상기 도 3 및 도 4의 설명을 참조하여 동일한 설명에 대해 생략하기로 한다.

도 5에 도시된 바와 같이, 먼저, 주어진 질의 시퀀스를 슬라이딩 윈도우를 이용하여 복수의 질의 윈도우로 분할하는 단계(S610)가 수행된다. 여기서, 상기 시퀀스 분할부(310)는 주어진 질의 시퀀스를 슬라이딩 윈도우를 이용하여 복수의 질의 윈도우로 분할한다. 예를 들어, 질의 시퀀스가

로 분할할 수 있다.

이어서, 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리를 위한 질의 윈도우 수를 계산하는 단계(S620)가 수행된다. 여기서, 상기 윈도우 계산부(320)는 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리를 위한 최적의 질의 윈도우 수를 계산하게 된다.

그리고, 상기 계산된 질의 윈도우 수에 대해 질의 비용을 갖는 질의 윈도우를 선택하는 단계(S630)가 수행된다. 보다 구체적으로, 상기 윈도우 선택부(330)는 상기 계산된 질의 윈도우 수에 대해 최소의 질의 비용을 가지는 질의 윈도우를 선택하게 된다. 여기서, 상기 계산된 질의 윈도우 수 n개에 대해 질의 비용 함수를 기반으로 최적의 성능을 예측하여 n개의 윈도우를 선택하게 된다. 이때, 질의 비용 함수는 윈도우의 유사도 및 윈도우에 의해 계산되는 검색 범위를 고려하여 질의 비용을 계산하게 된다.

그 다음, 상기 선택된 질의 윈도우를 정규화하는 단계(S640)가 수행된다.

로 변환시킬 수 있다.

이어서, 상기 정규화된 질의 윈도우 및 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 단계(S650)가 수행된다. 여기서, 상기 재산출부(350)는 상기 선택된 질의 윈도우를 윈도우 정규화부에서 정규화하여 기 설정된 유사 허용값을 이용하여 유사 허용 범위

를 재계산하게 된다. 이때, 유사 허용 범위

그리고, 상기 정규화된 질의 윈도우 및 상기 재계산된 유사 허용 범위를 이용하여 범위 질의를 구성하는 단계(660)가 수행된다. 여기서, 상기 질의 구성부(360)는 상기 n개의 다차원 질의 윈도우의 차원 축소할 수 있으며, 차원 축소된 n개의 질의 윈도우 및 유사 허용 범위를 이용하여 범위 질의를 생성할 수 있다.

다음으로, 상기 구성된 범위 질의를 이용하여 색인에서 질의 시퀀스에 매칭할 답변 후보 서브 시퀀스를 검색하는 단계(670)가 수행된다.

이어, 상기 질의 시퀀스를 이용하여 상기 답변 후보 서브 시퀀스를 검증하는 단계(680)가 수행된다.

보다 구체적으로, 상기 추출부(381)는 상기 질의 검색부(370)에서 검색된 상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하게 된다. 상기 검증부(382)는 상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 검증부를 포함하여 구성될 수 있다. 상기 검증부(382)는 상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하다.

한편, 상기 선택된 질의 윈도우들 중에서 마지막 질의 윈도우인지를 판단(S690)하여 선택된 n 개의 윈도우가 남아있을 경우 반복적으로 상기 질의 윈도우를 선택하는 단계이후의 각 단계를 진행할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

110 --- 데이터 시퀀스 색인 수단 120 --- 색인 데이터 베이스
130 --- 질의 시퀀스 매칭 수단 210 --- 시퀀스 분할부
220 --- 윈도우 계산부 230 --- 윈도우 선택부
240 --- 윈도우 정규화부 250 --- 재산출부
260 --- 질의 구성부 270 --- 질의 검색부
280 --- 질의 후처리부 310 --- 추출부
320 --- 검증부 610 --- 시퀀스
620 --- 슬라이딩 윈도우 630 --- 디스조인트 윈도우

Claims

데이터 시퀀스에 대해 생성된 색인으로부터 질의 서브 시퀀스를 매칭하는 방법에 있어서,
주어진 질의 시퀀스를 복수의 질의 윈도우로 분할하고, 상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리에 대응하는 질의 윈도우 수를 결정하는 단계;
상기 결정된 질의 윈도우 수에 대해 질의 비용을 계산하여 최소의 질의 비용을 가지는 질의 윈도우를 선택하는 단계;
상기 선택된 질의 윈도우와 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 단계; 및
상기 재계산된 유사 허용 범위를 기반으로 구성된 범위 질의를 이용하여 상기 색인에서 질의 시퀀스에 매칭하는 답변 후보 서브 시퀀스를 검색하는 단계;
를 포함하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 질의 윈도우를 선택하는 단계이후,
상기 선택된 질의 윈도우를 정규화하는 단계를 더 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 유사 허용 범위를 재계산하는 단계이후,
상기 선택된 질의 윈도우 및 상기 재계산된 유사 허용 범위를 이용하여 범위 질의를 구성하는 단계를 더 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 질의 윈도우를 선택하는 단계에서,
상기 질의 비용은 질의 윈도우 유사도 및 질의 윈도우에 의해 계산되는 검색 범위를 반영하여 계산하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 답변 후보 서브 시퀀스를 검색하는 단계이후,
상기 질의 시퀀스를 이용하여 상기 답변 후보 서브 시퀀스를 검증하는 단계를 더 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제5항에 있어서,
상기 답변 후보 서브 시퀀스를 검증하는 단계는,
상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하는 단계; 및
상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 단계;를 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제6항에 있어서,
상기 정답 후보 집합을 검증하는 단계는,
상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 답변 후보 서브 시퀀스를 검증하는 단계이후,
상기 선택된 질의 윈도우들 중에서 마지막 질의 윈도우인지를 판단하여 상기 질의 윈도우를 선택하는 단계이후의 각 단계를 반복적으로 진행하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제1항에 있어서,
상기 생성된 색인에 대한 색인 단계는,
슬라이딩 윈도우를 이용하여 데이터 시퀀스를 복수의 데이터 윈도우들로 분할하는 단계;
상기 데이터 윈도우들의 스케일들이 동일하도록 상기 데이터 윈도우들을 정규화하는 단계;
상기 정규화된 데이터 윈도우들의 차원을 축소하는 단계;
상기 차원이 축소된 데이터 윈도우들의 레코드를 생성하는 단계; 및
상기 레코드를 다차원 색인 구조에 삽입하는 단계;
를 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
제9항에 있어서,
상기 다차원 색인 구조는,
상기 차원이 축소된 데이터 윈도우들을 최소 경계 사각형(MBR: Minimum Bounding Rectangle)들로 구성하고, 최소 경계 사각형들 중 상위 레벨의 최소 경계 사각형이 복수의 하위 레벨의 최소 경계 사각형들을 포함하도록 구성하여 생성된 계층적 트리 구조인 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 방법.
데이터 시퀀스의 색인을 생성하는 색인 수단으로부터 질의 서브 시퀀스를 매칭하는 시스템에 있어서,
주어진 질의 시퀀스를 슬라이딩 윈도우를 이용하여 복수의 질의 윈도우로 분할하는 시퀀스 분할부;
상기 분할된 질의 윈도우들 중에서 질의 시퀀스로부터 질의 처리를 위한 최적의 질의 윈도우 수를 계산하는 윈도우 계산부;
상기 계산된 질의 윈도우 수에 대해 최소의 질의 비용을 가지는 질의 윈도우를 선택하는 윈도우 선택부;
상기 선택된 질의 윈도우를 윈도우 정규화부에서 정규화하여 기 설정된 유사 허용값을 이용하여 유사 허용 범위를 재계산하는 재산출부;
상기 정규화된 질의 윈도우 및 상기 재계산된 유사 허용 범위를 이용하여 범위 질의를 구성하는 질의 구성부; 및
상기 구성된 범위 질의를 이용하여 색인에서 질의 시퀀스에 매칭할 답변 후보 서브 시퀀스를 검색하는 질의 검색부;
를 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템.
제11항에 있어서,
상기 윈도우 선택부에서 선택된 질의 윈도우를 정규화하는 윈도우 정규화부를 더 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템.
제11항에 있어서,
상기 윈도우 선택부는,
상기 질의 비용은 질의 윈도우 유사도 및 질의 윈도우에 의해 계산되는 검색 범위를 반영하여 계산하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템.
제11항에 있어서,
상기 질의 검색부에서 검색된 상기 답변 후보 서브 시퀀스들의 집합들 간의 교집합에 따라 정답 후보 집합을 추출하는 추출부 및 상기 질의 시퀀스를 이용하여 상기 정답 후보 집합을 검증하는 검증부를 포함하는 질의 후처리부를 더 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템.
제14항에 있어서,
상기 검증부는,
상기 질의 시퀀스와 상기 정답 후보 집합에 포함된 데이터 시퀀스 간의 유클리디안 거리를 계산하고, 계산된 거리가 상기 유사 허용 범위 이하인 경우, 상기 데이터 시퀀스를 상기 질의 시퀀스에 매칭할 답변 시퀀스의 정답 후보 집합에 포함하는 것을 특징으로 하는 시계열 데이터베이스의 서브 시퀀스 매칭 시스템.