KR20130075403A - 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체 - Google Patents

데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체 Download PDF

Info

Publication number
KR20130075403A
KR20130075403A KR1020110143758A KR20110143758A KR20130075403A KR 20130075403 A KR20130075403 A KR 20130075403A KR 1020110143758 A KR1020110143758 A KR 1020110143758A KR 20110143758 A KR20110143758 A KR 20110143758A KR 20130075403 A KR20130075403 A KR 20130075403A
Authority
KR
South Korea
Prior art keywords
sequence
data
minimum
data sequence
sequences
Prior art date
Application number
KR1020110143758A
Other languages
English (en)
Other versions
KR101327960B1 (ko
Inventor
송재종
이석필
양창모
박성주
신사임
송석일
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020110143758A priority Critical patent/KR101327960B1/ko
Publication of KR20130075403A publication Critical patent/KR20130075403A/ko
Application granted granted Critical
Publication of KR101327960B1 publication Critical patent/KR101327960B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에서는, 서로 유사한 데이터 시퀀스들을 그룹화하고, 각 그룹을 대표하는 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)를 정의하고, 정의된 MBS와 질의 시퀀스 사이의 최소 DTW 거리를 측정하는 거리 척도를 통해서 필터링 효과를 높여서 검색 속도 향상을 가능하게 한다.

Description

데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체{Method for indexing data Sequence and Recording medium having program source thereof}
본 발명은 데이터 시퀸스 색인 방법에 관한 것으로서, 상세하게는 데이터 시퀀스와 질의 시퀀스 사이의 유사도 측정을 위해 사용되는 동적 시간 교정(Dynamic Time Warping: DTW) 알고리즘의 복잡도가 높아 검색 속도가 늦어지는 문제를 해결하는 데이터 시퀸스 색인 방법에 관한 것이다.
기존의 데이터 시퀀스 색인 방법들 중 가장 대표적인 것으로서, 하한 거리(Lower Bound) 기법과 PAA(Piece-wise Aggregate Approximation) 기법이 있다. 하한 거리(Lower Bound) 기법은 질의 시퀀스에 상한 및 하한 범위를 부여해서, 유클리디언 거리 측정을 통해 후보 시퀀스를 걸러내는 기법이고, PAA(Piece-wise Aggregate Approximation) 기법은 시퀀스의 차원을 축소하는 기법이다.
도 1은 기존의 하한 거리 측정 기법을 도식적으로 나타낸 도면이다.
도 1을 참조하면, E. Keogh and C.A. Ratanamahatana의 발표된 선행문헌 1("Exact Indexing of Dynamic Time Warping," Knowledge and Information Systems, vol. 7, no. 3, pp. 358-386, 2005.)에서는, 하한 거리 측정 방법과 PAA를 제안하고, 이들 기법을 결합하여 검색 속도를 높이는 방안이 제안된다. 도 1에서, C는 데이터 시퀀스를 의미하고, Q는 질의 시퀀스이다. U와 L은 각각 Q에 대한 상한 및 하한 범위이다. 그리고, C 와 Q 사이의 거리는 아래의 수학식 1에 의해 계산될 수 있으며, 도 1에서 빗금 친 영역의 면적이 바로 데이터 시퀸스와 질의 시퀸스 간의 하한 거리가 된다.
Figure pat00001
PAA는 시퀀스의 차원을 축소하여 계산 시간을 더욱더 줄이기 위한 차원 축소 방안이다. PAA로 차원을 축소한 후 하한 거리 기법을 결합하여 필터링 속도를 높인다. 하한 거리에 의해서 선택된 데이터 시퀀스들은 최종 결과가 아니며, DTW 알고리즘을 이용해서 최종 결과가 만들어진다.
도 2는 기존의 다른 하한 거리 측정 기법을 도식적으로 나타낸 도면이다.
도 2를 참조하면, 선행문헌 2(Y. Sakurai, M. Yoshikawa and C. Faloutsos, "FTW : Fast Similiarity Search under the Time Warping Distance," Proceedings of ACM PODS, pp. 326-337, 2005.)에서는, 새로운 하한 거리 기법을 제안해서 검색 속도를 높이는 방안이 제안된다. 여기서, 질의 시퀀스와 데이터 시퀀스를 모두 도 2의 왼쪽(a-1)과 같이 구간을 나누고 구간별로 하한, 상한 범위를 부여한다. 그리고, 상한 및 하한 범위를 이용해서 두 시퀀스 간의 거리를 계산한다. 이 거리는 구간별 상한, 하한 범위에 의한 것이므로 근사값을 갖는다. 이를 통해서 선택된 데이터 시퀀스에 대해서 도 2의 오른쪽(b-1)과 같이 구간을 더 작게 나누어 다시 한 번 거리 계산을 통해 필터링을 수행한다.
또 다른 선행 문헌(V. Athitsos, P. Papapetrou, M. Potamias, G. Kollios and D. Gunopulos, “Approximate embedding-based subsequence matching of time series,” Proceedings of ACM SIGMOD, pp. 365-378, 2008.)에서는, 기존 방법과는 다른 접근방법을 사용하고 있다. 즉, 하한 거리를 통한 후보 집합 선정 및 최종 결과를 필터링하는 방법을 사용하지 않는다. 그 대신 위의 문헌에서는 다수의 참조 시퀀스를 선정하고 모든 데이터 시퀀스와 참조 시퀀스들 간의 DTW 거리를 계산하고, 각 시퀀스와 참조 시퀀스들간의 DTW 거리를 그 시퀀스의 특징으로 부여한다. 이와 같은 특징 변환 방식으로 DTW 거리 대신 유클리디언 거리를 이용해서 거리를 측정할 수 있도록 해서 처리 속도를 높인다.
이러한 기존 문헌들에서 제안하는 방법들 중 하한 거리 측정 방법은 질의 시퀀스와 모든 데이터 시퀀스를 비교해서 후보집합을 걸러내고, DTW를 이용한 refine 과정을 거쳐야한다. 특히, E. Keogh et al의 선행문헌에서 제안하는 하한거리는 거리 측정 방식의 한계로 인해 필터링 효과가 높지 않을 수 있다. V. Athitsos et al의 선행문헌에서 참조 시퀀스를 이용한 방법은 변환에 소요되는 시간이 매우 길다. 또한 참조 시퀀스의 선택 방법에 따라서 정확도에 차이가 있다는 문제가 있다.
그 밖에 에스케이텔레콤을 출원인으로 등록된 등록번호 10-0282555(음성인식 속도 향상을 위한 동적 시간 와핑 방법)에서는, 음성 인식 속도의 향상을 위해, 음성 인식의 핵심 연산인 DTW(Dynamic Time Warping) 연산에 제약 사항을 추가하여 연산속도를 향상하는 방법을 발명하고 있다. 입력된 음성의 특징 벡터와 기준이 되는 음성 특징 벡터 간의 DTW 연산을 수행할 때, 특정 값 이상인 경우에는 더 이상 연산을 수행하지 않는 방안을 발명하고 있다. 이 문헌에서는 이타쿠라(Itakura), 사코에(Sakoe) 및 치바(Chiba) 제약 조건을 추가로 이용하여 DTW 연산의 속도를 높이고 있다. "이 방법은 대량의 데이터 시퀀스에 대한 검색 성능을 높이기 위한 목적으로 발명된 것이 아니다." 여전히 질의 시퀀스와 모든 데이터 시퀀스 간의 DTW 연산을 수행해야 최종 결과를 얻을 수 있다.
한국과학기술원을 출원인으로 등록된 등록번호 10-0344530(시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀸스 매칭 방법)에서는, 시계열 데이터베이스에서 서브 시퀀스 매칭 속도를 높이는 색인 기법을 제안하고 있다. 이를 위해 먼저, 윈도우를 구성하는 방법의 이원성을 사용하여 데이터 시퀀스를 디스조인트 윈도우(disjoint windows)로 나누고, 질의 시퀀스는 슬라이딩 윈도우(sliding windows)로 나눈다. 그리고, 데이터 시퀀스를 나눈 디스조인트 윈도우들을 다차원 공간상의 한 점으로 사상하고 색인구조에 저장한다. 데이터 시퀀스를 슬라이딩 윈도우가 아닌 디스조인트 윈도우로 나누기 때문에 색인구조에 저장되는 점의 개수를 줄이고 이로 인한 검색 속도의 향상을 높인다. 질의의 처리는 질의가 사상된 점들과 유사한 색인 구조상의 점들을 비교하여 후보 집합을 검색하고, 후보 집합에 대한 DTW 연산을 통해 전체적인 검색 성능을 높이고 있다. 이 문헌에서는 "필터링 효과를 높이는 새로운 방법에 초점을 두기보다는" 색인을 구성하는 데이터의 개수를 줄여서 처리 속도를 향상시키는 방법을 개발한다. 시퀀스를 다차원 공간상의 한 점으로 변환할 때는 PAA를 사용하고 있으며 색인을 통해 선정된 후보 집합을 refine 할 때는 하한 거리 기법과 DTW를 이용한다.
따라서, 본 발명의 목적은 대용량의 데이터 시퀀스들 중 질의 시퀀스와 가장 유사한 시퀀스를 검색하는 방법을 개발하는 데 있는 것으로서, 기존과는 달리, 서로 유사한 시퀀스들을 그룹화해서 이를 대표하는 MBS(Minimum Bounding Sequence)를 정의하고, MBS와 질의 시퀀스 사이의 최소 DTW 거리를 측정하는 거리 척도를 개발함으로써, 필터링 효과를 높여서 검색 속도 향상을 가능하게 하는 시퀸스 데이터 색인 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 시퀸스 데이터 색인 방법은, 시간계열(time-series)로 나열된 n개의 요소들로 구성된 n 차원의 데이터 시퀀스(data sequence)들을 유사 정도에 따라 클러스터링하여, 유사한 데이터 시퀀스들끼리 그룹화된 복수의 데이터 시퀀스 그룹을 생성하는 단계와, 상기 복수의 데이터 시퀀스 그룹 각각을 대표하는 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)들로서, 각 데이터 시퀀스 그룹 내에서 동일한 차원의 요소들 중 최소값에 해당하는 요소들과 최대값에 해당하는 요소들로 구성된 상기 최소 경계 시퀀스를 정의하는 단계 및 상기 정의된 MBS들과 질의 시퀀스(query sequence) 간의 동적 시간 교정(Dynamic Time Warping: DTW) 기법에 따라 측정한 최소 DTW 거리로서, 상기 MBS로 대표되는 그룹에 속하는 각 데이터 시퀀스와 질의 시퀀스 간에 계산된 거리들 중 가장 작은 거리로 정의되는 상기 최소 DTW 거리에 기초하여 상기 데이터 시퀀스를 색인하는 단계를 포함한다.
본 발명의 프로그램 기록 매체는 상기 데이터 시퀀스 색인 방법의 각 단계의 전부 또는 일부를 컴퓨터로 실행시키기 위한 소스 프로그램을 기록한 것을 특징으로 한다.
본 발명에 의하면, 유사한 데이터 시퀀스 그룹을 대표하는 MBS(Minimum Bounding Sequence)와 질의 시퀀스 간의 거리측정을 통해 모든 시퀀스와 비교를 하지 않고, 그룹별 MBS와의 비교를 통해 후보 집합 선정이 가능하게 됨으로써, 필터링의 효과가 매우 높으며, 검석 속도를 향상시킬 수 있다.
도 1은 기존의 하한 거리 측정 기법을 도식적으로 나타낸 도면이다.
도 2는 기존의 하한 거리 측정 기법의 다른 예를 도식적으로 나타낸 도면이다.
도 3은 본 발명에서 제안하는 MBS의 개념을 설명하기 위한 도면이다.
도 4 및 도 5는 본 발명의 일실시예에 따른 최소 DTW인 MinDTWDist를 계산하는 예를 도식적으로 나타내는 도면이다.
본 발명에서는 데이터 시퀀스의 검색 속도를 향상시키기 위한 색인 방법에 관한 것으로서, 대용량의 데이터 시퀀스들 중, 질의 시퀀스와 가장 유사한 시퀀스를 검색하는 방법이 기술된다.
이러한 본 발명에서는 기존과는 달리, 서로 유사한 시퀀스들을 그룹화하고, 그룹을 대표하는 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)를 정의하고, 정의된 MBS와 질의 시퀀스 사이의 최소 DTW 거리를 측정하는 거리 척도가 기술된다. 이러한 거리 척도를 통해서 필터링 효과를 높여서 검색 속도 향상을 가능하게 한다.
이하, 첨부된 도면을 참조하여 본 발명의 일실시예에 대해 상세히 설명하기로 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
먼저, 아래의 실시예에서 기술되는 용어들이 정의된다.
'시계열 데이터(time-series data)'는 각 시간별로 측정한 실수 값의 연속을 의미한다.
'데이터 시퀀스(data sequence)'은 시계열 데이터베이스에 저장된 시계열 데이터를 의미한다.
'질의 시퀀스(query sequence)'은 사용자에 의해서 주이진 시퀀스를 의미한다.
'유사 시퀀스 검색(similar sequence matching)'은 데이터 시퀀스들 중 질의 시퀀스와 가장 유사한 데이터 시퀀스를 검색하는 방법을 의미한다.
'데이터 시퀀스 그룹'은 여러 데이터 시퀀스들의 집합으로 정의된다.
'최소 경계 시퀀스(Minimum Bounding Sequence: MBS)'은 데이터 시퀀스 그룹의 상한 및 하한 경계로 정의된다. 즉, 그룹에 속하는 데이터 시퀀스들의 각 시간별 최소 및 최대값의 시퀀스로 정의된다.
'최소 DTW(Dynamic Time Warping) 거리'는 질의 시퀀스와 MBS 간에 측정할 수 있는 최소 거리로서, MBS로 대표되는 그룹에 속하는 각 데이터 시퀀스와 질의 시퀀스 간의 거리 들 중 가장 작은 거리로 정의된다.
이들 중 본 발명에서 제안하는 상기 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)"와 "최소 DTW 거리"에 대한 개념을 더욱 상세히 설명하면 다음과 같다.
"최소 DTW 거리"는 데이터 시퀀스 그룹에 대한 거리 측정을 위한 것이다. 이러한 데이터 시퀀스 그룹에 대한 거리 측정을 위해, 대용량의 데이터 시퀀스로부터 적절한 시퀀스 클러스터링 방법을 통해 유사한 데이터 시퀀스 그룹을 생성한다. 시퀀스 클러스터링 방법에는 널리 알려진 어떠한 방법도 사용이 가능하다.
이때, 생성한 시퀀스 그룹과 질의 시퀀스 사이의 유사도를 측정할 수 있다면, 가장 가까운 시퀀스 그룹 내의 데이터 시퀀스와 질의 시퀀스를 우선적으로 비교하여 유사한 시퀀스를 빠르게 검색할 수 있다.
본 발명에서 제안하는 최소 DTW 거리는 유사한 시퀀스들의 그룹과 질의 시퀀스 사이의 최소 거리를 구기 위한 거리 측정 방법이다.
시퀀스 그룹과의 거리를 측정하기 위해서, 본 발명에서 제안하는 시퀀스 그룹에 대한 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)를 정의한다. 앞서 정의된 바와 같이, MBS는 그룹내 데이터 시퀀스들에 대해서 각 시간별 최소 값과 최대 값의 시퀀스로 정의된다.
도 3은 본 발명에서 제안하는 MBS의 개념을 설명하기 위한 도면이다.
도 3에서, 위쪽은 유사한 시퀀스들을 모아 놓은 시퀀스 그룹들을 도식적으로 나타낸 것이고, 아래쪽은 유사한 시퀀스 그룹들에 대한 MBS를 도시적으로 나타낸 것이다. 이러한 MBS는 아래의 수학식 (2)로 정의될 수 있다.
Figure pat00002
MBS(SG)와 질의 시퀀스 Q 와의 최소 DTW 거리는 아래의 수학식 (3)과 같이 정의한다.
Figure pat00003
질의 시퀀스 Q 와 MBS(SG)의 i 번째 요소인 (qi, mbsi) 간의 최소 거리인 MinDisti(qi, mbsi)를 먼저 정의한다. 최소 DTW 거리인 MinDTWDist는 기본적으로 DTW와 동일하게 계산하며 단지, 질의 시퀀스 Q 와 MBS(SG)의 각 요소간 거리를 MinDist 형태로 계산한다는 것이 다르다.
최소 DTW 거리를 시퀀스 그룹들을 필터링 하는데 사용하기 위해서는 어떤 시퀀스 그룹과의 거리는 그룹 내의 모든 데이터 시퀀스들과의 거리보다 항상 작거나 같아야 한다.
보조 정리 1. 질의 시퀀스 Q와 시퀀스 그룹 SG={S0, S1, ..., Sl-1}의 MBS(SG)와의 거리 MinDTWDist(Q, MBS(SG) 는, SG에 포함되는 각 시퀀스 Si 와 Q 의 DTW(Si, Q) 보다 항상 작거나 같다.
증명: DTW를 계산하기 위해서는 두 시퀀스를 구성하는 각 요소들 간의 거리를 계산하여 매트릭스를 구성한 후 최소값을 갖는 경로를 찾게 된다. Q 와 Si (i = 0, 1, ... l-1) 간의 매트릭스를 M(Q, S) 이라 하고, 이 매트릭스의 각 요소를 (m, n) 이라 하자. 또한, Q 와 MBS(SG) 간의 매트릭스를 M(Q, MBS) 라 하고, 각 요소를 (m, n)이라 하자. 이때, M(Q, MBS)의 (m, n)이 M(Q, S)의 (m, n) 보다 항상 작거나 같다면 MinDTWDist(Q, MBS(SG))는 DTW(Si, Q)보다 항상 작거나 같다.
본 발명에서 제안하는 MinDTWDist 는 MBS의 각 요소와 Q의 각 요소간에 구할 수 있는 거리 중 가장 가까운 거리를 취하므로, M(Q, MBS)의 (m, n)이 M(Q, S) 의(m, n)보다 항상 작거나 같다. 따라서, MinDTWDist(Q, MBS(SG)) 는 DTW(Si, Q)보다 항상 작거나 같다.
도 4 및 도 5는 본 발명의 일실시예에 따른 최소 DTW인 MinDTWDist를 계산하는 예를 도식적으로 나타내는 도면이다.
도 4를 참조하면 총 6개의 시퀀스 S1, S2, S3, S4, S5, S6가 있으며, 이들 6개의 시퀀스들은 두 개의 데이터 시퀀스 그룹 SG1 와 SG2로 나뉘어져 테이블 형태로 도시된다. SG1을 나타내는 테이블에는 S1, S2, S3가 포함되어 있고, SG2를 나타내는 테이블에는 S4, S5, S6가 포함되어 있다. 그리고, 각 테이블의 아랫쪽에는 SG1에 대한 MBS(SG1)와 SG2에 대한 MBS(SG2)가 각각 계산되어, 테이블 형태로 표시되어 있다.
도 5에서, 위쪽에 나타나는 매트릭스는 MBS(SG1)와 질의 시퀀스 Q와의 MinDTWDist(Q, MBS(SG1))를 구하는 것을 보여주고 있고, 아래쪽 매트릭스는 MBS(SG2)와 질의 시퀀스 Q와의 MinDTWDist(Q, MBS(SG2)) 구하는 것을 보여주는 것이다.
도 5에 도시된 바와 같이, MinDTWDist(Q, MBS(SG1)은 0이고, MinDTWDist(Q, MBS(SG2)은 31이다. 이러한 결과로부터 질의 시퀀스 Q와 보다 유사한 시퀀스들은 SG1에 있으며, Q 와 S1, S2, S3 사이의 DTW 거리가 모두 31 보다 작다면 Q 와 가장 가까운 시퀀스는 SG1에 있는 것을 확인할 수 있다.
이상 설명한 본 발명에서 정의된 MBS와 최소 DTW 거리인 MinDTWDist를 이용한 검색 방법에 대해 상세히 기술한다.
MinDTWDist를 이용해서 불필요한 DTW 계산을 줄이고 검색 속도를 향상하기 위해서는 유사한 데이터 시퀀스들을 군집화(클러스터링)하는 것이 전제되어야 한다는 점은 앞서 설명한 바와 같다.
클러스터링이 잘 될수록 필터링 효과가 높아진다. 즉, 클러스터링된 데이터 시퀀스들의 유사도가 높을수록 필터링 효과가 높아진다.
유사한 데이터 시퀀스들을 하나의 그룹으로 클러스터링하는 방법은 특별히 한정하는 것은 아니지만, K-means 클러스터링 기법을 포함해서 매우 다양하며 본 발명의 검색 방법은 어떠한 클러스터링 방법과도 결합해서 사용할 수 있다.
K-means 클러스터링 기법과 같은 시퀀스 클러스터링 방법을 이용하여, 데이터 시퀀스들을 클러스터링하면, 다수의 데이터 시퀀스 그룹을 얻어낼 수 있다.
데이터 시퀀스 그룹이 생성되면, 생성된 그룹별로 MBS를 구하여, 부가정보와 함께 저장 매체에 적절한 자료구조의 형태로 저장한다.
적절한 자료구조에는 다양한 형태의 구조가 예시될 수 있으며, 고차원의 데이터 시퀀스에 대한 MBS를 저장하기 위해서는, 플랫 파일 구조인 VA-파일(Vector Approximation-file) 형태의 자료 구조가 바람직하다. 여기서, VA-파일은 특정 데이터로부터 추출한 특징 벡터와 이 특징 벡터와의 근사치를 바탕으로 유사 검색을 수행하기 위한 자료 구조이다.
하나의 그룹에 속해 있는 데이터 시퀀스나 MBS는 연속된 디스크 페이지에 저장된다. 바람직하게는 하나의 데이터 시퀀스 그룹은 하나의 디스크 페이지에 저장 할수 있도록 한다.
각 데이터 시퀀스 그룹은 각 그룹에 포함된 데이터 시퀀스를 저장하는 페이지 ID 와 그룹의 MBS를 쌍으로 하는 엔트리(pid, mbs)가 설정된다. 이 엔트리들을 VA-파일에 저장하여 검색에 활용한다.
K-NN 질의는 질의 시퀀스 Q와 가장 유사한 시퀀스 K개를 찾아내는 질의 처리 기법이다. K-NN 질의는 다음과 같은 과정을 거쳐서 처리된다.
먼저 VA-파일을 순차 검색하여 질의 시퀀스 Q와 각 그룹의 mbs와의 MinDTWDist를 구하여, 그룹에 대한 엔트리와 함께 우선 순위 큐(Priority Queue)에 넣는다.
그리고, 우선 순위 큐에서 MinDTWDist가 가장 작은 그룹의 엔트리를 꺼내서 디스크 페이지로부터 그룹에 속한 데이터 시퀀스를 읽어온다.
읽어온 데이터 시퀀스들과 Q와의 DTW를 거리를 계산하여 가장 가까운 K 개의 시퀀스를 결과 집합에 저장한다.
우선 순위 큐에서 그 다음으로 가까운 그룹의 엔트리와 거리를 꺼내서 결과 집합의 K 번째 데이터와의 거리와 비교한다.
만일 K 번째의 거리가 그룹과의 거리보다 작다면 더 이상 검색을 진행할 필요가 없다.
그렇지 않다면, 두 번째 그룹에 속한 시퀀스를 디스크에서 읽어와서 각 시퀀스와 Q 와의 거리를 계산하고, 기존에 결과집합에 있었던 K개와 함께 정렬을 해서 다시 K 개의 결과집합을 찾아낸다.
다음에는, 세 번째로 가까운 그룹 엔트리와 거리를 우선 순위 큐에서 읽어온 후, K 번째 시퀀스 거리와 그룹과의 거리를 비교하여 위와 같은 처리를 반복한다.
특정 거리(범위)가 주어지면 질의 시퀀스 Q 와 데이터 시퀀스 간의 거리가 범위보다 작은 데이터 시퀀스를 검색하는 질의를 범위질의라 한다.
범위 질의는 상대적으로 처리가 간단하다. VA-파일에서 순차검색을 통해 모든 그룹과 Q 사이의 MinDTWDist를 계산한다. 이들 중, 질의로 주어진 거리보다 작은 그룹들을 걸러내고, 각 그룹에 포함되어 있는 모든 데이터 시퀀스들을 읽어온 후 실제 DTW 거리를 계산하여 최종적으로 주어진 거리보다 거리가 작은 데이터 시퀀스들을 찾아내어 검색한다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (7)

  1. 시간계열(time-series)로 나열된 n개의 요소들로 구성된 n 차원의 데이터 시퀀스(data sequence)들을 유사 정도에 따라 클러스터링하여, 유사한 데이터 시퀀스들끼리 그룹화된 복수의 데이터 시퀀스 그룹을 생성하는 단계;
    상기 복수의 데이터 시퀀스 그룹 각각을 대표하는 최소 경계 시퀀스(Minimum Bounding Sequence: MBS)들로서, 각 데이터 시퀀스 그룹 내에서 동일한 차원의 요소들 중 최소값에 해당하는 요소들과 최대값에 해당하는 요소들로 구성된 상기 최소 경계 시퀀스를 정의하는 단계; 및
    상기 정의된 MBS들과 질의 시퀀스(query sequence) 간의 동적 시간 교정(Dynamic Time Warping: DTW) 기법에 따라 측정한 최소 DTW 거리로서, 상기 MBS로 대표되는 그룹에 속하는 각 데이터 시퀀스와 질의 시퀀스 간에 계산된 거리들 중 가장 작은 거리로 정의되는 상기 최소 DTW 거리에 기초하여 상기 데이터 시퀀스를 색인하는 단계;
    를 포함하는 시퀸스 데이터 색인 방법.
  2. 제1항에 있어서, 상기 최소 경계 시퀀스는,
    Figure pat00004
    로 정의되며,
    상기
    Figure pat00005
    는 시퀀스 그룹이고, 상기
    Figure pat00006
    이고, 상기
    Figure pat00007
    는 상기
    Figure pat00008
    의 최소 경계 시퀀스이고, 상기
    Figure pat00009
    는 상기
    Figure pat00010
    를 구성하는 요소들 중 상기 최소 값에 해당하는 요소이고, 상기
    Figure pat00011
    Figure pat00012
    를 구성하는 요소들 중 상기 최대 값에 해당하는 요소인 것인 시퀸스 데이터 색인 방법.
  3. 제1항에 있어서, 상기 최소 DTW 거리는,
    Figure pat00013

    로 정의되며,
    상기
    Figure pat00014
    는 질의 시퀀스이고, 상기
    Figure pat00015
    는 상기
    Figure pat00016
    Figure pat00017
    의 i 번째 요소인
    Figure pat00018
    Figure pat00019
    간의 최소거리인 것인 시퀸스 데이터 색인 방법.
  4. 제1항에 있어서, 상기 복수의 시퀀스 그룹을 생성하는 단계는,
    K-means 클러스터링 기법에 따라 상기 데이터 시퀀스들을 클러스터링하여, 그룹화된 상기 복수의 데이터 시퀀스 그룹을 생성하는 것인 시퀸스 데이터 색인 방법.
  5. 제1항에 있어서, 상기 최소 경계 시퀀스를 정의하는 단계에서,
    상기 정의된 최소 경계 시퀀스들을 플랫 파일 구조(Flat file structure)형태로 메모리에 저장하는 단계를 포함하고,
    상기 시퀀스를 색인하는 단계는,
    상기 플랫 파일 구조 형태로 저장된 최소 경계 시퀀스들을 참조하여 상기 질의 시퀀스와의 동적 시간 교정(Dynamic Time Warping: DTW)에 따라 최소 DTW 거리를 측정하는 단계를 포함하는 것인 시퀸스 데이터 색인 방법.
  6. 제5항에 있어서, 상기 메모리에 저장하는 단계는,
    상기 정의된 최소 경계 시퀀스들을 상기 플랫 파일 구조인 VA-파일(Vector Approximation-file) 구조로 상기 메모리에 저장하되,
    하나의 시퀀스 그룹에 속해 있는 상기 데이터 시퀀스나 최소 경계 시퀀스는 상기 메모리 내의 하나의 디스크 페이지에 저장되고,
    각 데이터 시퀀스 그룹에 포함된 데이터 시퀀스를 저장하는 페이지 식별자(ID)와 상기 최소 경계 시퀀스를 한 쌍으로 하는 엔트리 정보를 상기 VA-파일구조에 저장하는 단계를 포함하는 것인 시퀸스 데이터 색인 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 기재된 데이터 시퀀스 색인 방법의 각 단계의 전부 또는 일부를 컴퓨터로 실행시키기 위한 소스 프로그램을 기록한 것을 특징으로 하는 프로그램 기록매체.



KR1020110143758A 2011-12-27 2011-12-27 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체 KR101327960B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110143758A KR101327960B1 (ko) 2011-12-27 2011-12-27 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110143758A KR101327960B1 (ko) 2011-12-27 2011-12-27 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체

Publications (2)

Publication Number Publication Date
KR20130075403A true KR20130075403A (ko) 2013-07-05
KR101327960B1 KR101327960B1 (ko) 2013-11-12

Family

ID=48989301

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110143758A KR101327960B1 (ko) 2011-12-27 2011-12-27 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체

Country Status (1)

Country Link
KR (1) KR101327960B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101899241B1 (ko) * 2017-03-27 2018-09-14 고려대학교 세종산학협력단 근접 돼지의 분리를 위한 외곽선 분할 방법 및 장치
WO2019132564A1 (en) * 2017-12-29 2019-07-04 Samsung Electronics Co., Ltd. Method and system for classifying time-series data
KR20220055228A (ko) * 2020-10-26 2022-05-03 광운대학교 산학협력단 세미-스트림 서브시퀀스 매칭을 이용한 온라인 머신러닝 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100517167B1 (ko) * 2003-04-28 2005-09-26 정보통신연구진흥원 의미정보를 이용한 다차원 데이터 시퀀스의 유사성 척도제공방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101899241B1 (ko) * 2017-03-27 2018-09-14 고려대학교 세종산학협력단 근접 돼지의 분리를 위한 외곽선 분할 방법 및 장치
WO2019132564A1 (en) * 2017-12-29 2019-07-04 Samsung Electronics Co., Ltd. Method and system for classifying time-series data
US11720814B2 (en) 2017-12-29 2023-08-08 Samsung Electronics Co., Ltd. Method and system for classifying time-series data
KR20220055228A (ko) * 2020-10-26 2022-05-03 광운대학교 산학협력단 세미-스트림 서브시퀀스 매칭을 이용한 온라인 머신러닝 장치 및 방법

Also Published As

Publication number Publication date
KR101327960B1 (ko) 2013-11-12

Similar Documents

Publication Publication Date Title
CN104199827B (zh) 基于局部敏感哈希的大规模多媒体数据的高维索引方法
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
Tao et al. Mining distance-based outliers from large databases in any metric space
US11157550B2 (en) Image search based on feature values
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN108280187B (zh) 一种基于卷积神经网络深度特征的分级图像检索方法
Kashyap et al. Scalable knn search on vertically stored time series
JP2002109536A (ja) データクラスタリング方法とアプリケーション
JPWO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
US20080215566A1 (en) Method for using one-dimensional dynamics in assessing the similarity of sets of data
JP6434162B2 (ja) データ管理システム、データ管理方法およびプログラム
JP2015049574A (ja) インデックス生成装置及び検索装置
JP2017138866A (ja) 情報処理装置、データ比較方法、およびデータ比較プログラム
KR101327960B1 (ko) 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
Song et al. Brepartition: Optimized high-dimensional knn search with bregman distances
Takahashi et al. Mixture of subspaces image representation and compact coding for large-scale image retrieval
Heo et al. Shortlist selection with residual-aware distance estimator for k-nearest neighbor search
CN110008994A (zh) 基于Spark平台运行的P-CFSFDP密度聚类方法
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
CN115878564A (zh) 一种文档检索方法及装置
Nguyen et al. Integrating spatial information into inverted index for large-scale image retrieval
Grebhahn et al. Challenges in Finding an Appropriate Multi-Dimensional Index Structure with Respect to Specific Use Cases.
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
Geler Role of Similarity Measures in Time Series Analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant