KR20000059547A

KR20000059547A - 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법

Info

Publication number: KR20000059547A
Application number: KR1019990007228A
Authority: KR
Inventors: 이주홍; 김덕환; 정진완
Original assignee: 윤덕용; 한국과학기술원
Priority date: 1999-03-05
Filing date: 1999-03-05
Publication date: 2000-10-05
Also published as: KR100313198B1; US6311181B1

Abstract

본 발명은 데이터베이스 관리 시스템(Database Management System)에서 데이터베이스 질의 최적화기(Database Query Optimizer)가 사용자 질의(User Query)를 가장 효율적으로 실행하는 실행계획(Execution Plan)을 찾을 때 필요로 하는 질의의 선택율 추정(Selectivity Estimation)을 하기 위한 방법에 관한 것으로서, 특히 압축 히스토그램 정보를 사용한 다차원 선택율 추정 방법에 관한 것으로서, 같은 테이블(Table)의 두 개 이상의 애트리뷰트(Attribute)가 질의에 포함되는 경우에, 애트리뷰트가 서로 종속적이면 질의의 선택율은 애트리뷰트들의 죠인트 데이터 분포(Joint Data Distribution)에 의해 결정된다. 또한 멀티미디어 데이터베이스에서는 멀티미디어 데이터의 특징(Feature)을 다차원 벡터로 저장하므로 다차원 데이터에 대하여 선택율을 추정하여야 한다. 이러한 경우의 선택율 추정을 다차원 선택율 추정이라고 하는데, 본 발명에서는 다차원 데이터 분포에 대한 히스토그램 정보를 압축하여 저장하고 선택율 추정을 위한 통계 자료로 사용하므로써 작은 크기의 히스토그램을 사용할 수 있기 때문에 에러율이 감소되고, 많은 수의 히스토그램을 압축함으로써 저장 공간의 필요성을 획기적으로 감소할 수 있는 장점이 있다. 또한 주기적으로 통계 자료를 재구성시 갱신(Update)된 자료만으로 통계 자료를 갱신해 주므로 처음부터 통계 자료를 다시 만들 필요가 없다는 장점이 있다.

Description

압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법 {Multi-dimensional Selectivity Estimation Using Compressed Histogram Information}

본 발명은 데이터베이스 관리 시스템(Database Management System)의 한 기능 모듈인 데이터베이스 질의 최적화기(Database Query Optimizer)가 사용자 질의(User Query)를 가장 효율적으로 실행하는 실행계획 (Execution Plan)을 찾을 때 필요로 하는 질의의 선택율 추정(Selectivity Estimation)을 하기 위한 방법에 관한 것으로서, 특히 다차원 데이터 분포에 대한 압축(Compression)된 히스토그램(Histogram) 정보를 스키마 관리자를 통해서 저장하고 선택율 추정에 사용하므로써 작은 크기의 히스토그램을 사용할 수 있기 때문에 에러율이 감소되고, 많은 수의 히스토그램을 압축하여 사용하기 때문에 저장 공간의 필요성을 획기적으로 감소할 수 있는 압축 히스토그램 정보를 사용한 다차원 선택율 추정 방법에 관한 것이다.

일반적으로, 도 1에 도시된 데이터베이스 관리 시스템에서 데이터베이스 질의 최적화기는 사용자 질의의 가장 효율적인 실행 계획을 구하기 위해서 질의의 선택율 추정이 필요하다. 선택율 추정 분야는 크게 일차원 선택율 추정 분야와 다차원 선택율 추정 분야로 나뉘어 진다. 일차원 선택율 추정 분야의 기법은 질의에 애트리뷰트(Attribute)가 한 개가 있는 경우이거나 여러개의 애트리뷰트가 서로 독립적일 때 적용될 수 있는 기법으로서 히스토그램 방법이 실용적으로 사용되고 있다.

데이터 분포에 관한 정보를 근사시켜서 저장하기 위해서 데이터 분포를 작은 크기의 서로 겹치지 않는 버켓(Bucket)으로 나누고, 버켓의 구간과 버켓 안의 데이터 개수 등의 통계 데이터를 저장한 것을 히스토그램이라고 한다. 히스토그램을 사용한 선택율 추정 방법은 다음과 같이 실행된다. 먼저 질의와 겹치는 모든 버켓을 구한다. 구해진 각각의 버켓의 정보를 이용해서 질의를 만족하는 데이터의 개수를 구한 후 모두 합하여 선택율을 구한다. 히스토그램은 데이터 분포를 여러개의 작은 버켓으로 분할하는 방법에 따라서 Equi-width, Equi-depth, V-Optimal 등의 방법이 있다.

Equi-width 방법에서는 데이터 분포를 일정한 길이의 버켓으로 분할하여 버켓 안에 들어가는 데이터 개수가 데이터 분포를 근사시킨다. Equi-depth 방법에서는 각 버켓이 같은 개수의 데이터를 갖도록 데이터 분포를 분할한다. 따라서 버켓의 폭이 일정하지 않지만 Equi-width 방법에 비해서 데이터가 한곳으로 치우치는 정도인 데이터의 편중도(Skewness)가 큰 경우에 적합하다. V-Optimal 방법은 버켓 안의 값들의 가중 분산(Weighted Variance)의 합이 최소가 되도록 데이터 분포를 분할하여 버켓을 만드는 방법이며 Equi-width 나 Equi-depth 보다 성능이 좋다고 평가되고 있다[참고 문헌: Y. Ioannidis, V. Poosala. Balancing Optimality and Practicality for Query Result Size Estimation. ACM SIGMOD 1995.].

같은 테이블의 여러개의 애트리뷰트를 포함하는 데이터베이스 질의에서는 애트리뷰트의 분포가 서로 종속적이면 그 선택율이 애트리뷰트들의 죠인트 데이터 분포에 의해서 정해지기 때문에 다차원 선택율 추정 기법이 필요하다.

다차원 선택율 추정방법은 여러 가지 방법이 개발되었다.

첫째, Bellusi등은 지리 정보 시스템의 데이터 질의에 사용될 수 있도록 Correlation Fractal Dimension 방법을 개발하였다[참고문헌: A.Belussi, C. Faloutsos. Estimating the Selectivity of Spatial Queries Using the 'Correlation' Fractal Dimension. VLDB 1995.]. 이 방법은 간단한 수식에 의해서 선택율이 계산되지만 같은 모양과 같은 크기의 모든 질의들에 대한 평균 선택율 추정 결과만을 계산할 수 있고 질의가 달라지면 달라지는 선택율을 반영하지 못하는 단점이 있으며 2차원 정도에서만 사용할 수 있는 방법이다.

두 번째, MLGF(Multi-Level Grid File) 이라는 다차원 색인 파일을 사용하는 방법이 있다[참고문헌: K.Y. Whang, S.W. Kim, G. Wiederhold. Dynamic Maintenance of Data Distribution for Selectivity Estimation, VLDB Journal. Vol.3, No.1, p29-51, 1994.]. 이 방법은 다차원의 데이터 공간을 그리드(Grid)라고 불리는 서로 중복되지 않는 노드로 분할하고 이것을 히스토그램 버켓으로 사용한다. 각 그리드에는 카운트(count)라는 필드(field)를 추가하여 그리드안의 데이터 개수를 저장한다. 선택율은 질의와 겹쳐지는 모든 그리드를 검색하여 계산된다. 이 방법은 MLGF 자체가 동적인 색인 구조이므로 데이터의 동적인 갱신을 즉시 선택율 추정을 위한 히스토그램 자료의 갱신에 반영하여 준다. 따라서 동적인 데이터의 갱신이 자주 일어나는 환경에서도 주기적으로 히스토그램 정보를 갱신시켜 주는 부담이 없다. 그러나 MLGF 방법은 고차원에서 심각한 성능 저하가 일어나는 차원 저주(dimensionality curse) 현상[참고문헌: S. Berchtold, C. Bohm, H. Kriegel. The Pyramid Technique: Towards Breaking the Curse of Dimensionality. ACM SIGMOD 1998.]이 일어나기 때문에 3차원 보다 높은 차원에서는 사용할 수 없다는 단점이 있다.

셋째, SVD(Singular Value Decomposition) 방법이 있다. 이 방법은 죠인트 데이터 분포 J를 세 개의 Matrix U,D,V의 곱으로 분해한다. 즉, J=UDV 이다. Matrix D에서 큰 값을 가지는 대각선 엔트리(diagonal entry)가 U의 좌측 Singular 백터(left singular vector)와 V의 우측 Singular 백터(right singular vector)와 함께 선택되고 이들 Singular 백터(singular vector)들이 각각 1차원 히스토그램 방법에 의해서 분할된다. 이러한 SVD 방법은 효율적인 알고리즘이 있다는 장점이 있지만 2차원에서만 사용할 수 있다는 단점이 있다.

넷째, Hilbert Numbering 방법이 있다. 이 방법은 다차원의 죠인트 데이터 분포를 Hilbert 변환을 이용하여 1차원의 분포로 변환하고 1차원 히스토그램 방법을 사용하여 여러 개의 버켓 들로 분할한다. 이 방법으로 만든 버켓은 사각형이 아닐 수 있으므로 질의와 겹치는 버켓을 찾기가 여럽고 다차원의 인접성(Proximity)이 1차원으로 변화된 후 보존되지 않기 때문에 정확성이 떨어지는 단점이 있다.

다섯째, PHASED 방법과 MHIST 방법이 있다. PHASED 방법은 임의의 차원을 선정하여 그 차원에서 Equi-depth 방법을 적용하여 다차원의 공간을 분할하고, 다시 임의의 다른 차원에서 마찬가지 방법으로 분할한다. 이 과정을 모든 차원에 대해서 분할할 때까지 반복한다. MHIST 방법은 PHASED 방법을 개선한 방법으로서 분할하는 차원을 임의로 선택하지 않고 가장 중요한 차원을 선택하여 먼저 분할한다. 즉 V-Optimal방법을 적용하여 분할한다면, 가장 큰 분산 값을 가지는 차원이 먼저 선택되어 분할된다. 실험에 의하면[참고문헌: V. Poosala, Y.E. Ioannidis. Selectivity Estimation Without the Attribute Value Independence Assumption. VLDB 1997.] MHIST 방법이 히스토그램 방법에 기반한 여러 가지 다차원 선택율 추정 방법 중에서 가장 성능이 좋은 것으로 평가되고 있다. 그러나 MHIST 방법도 2차원에서는 좋은 성능을 보이지만 3차원 이상으로 올라가면 에러율이 급격히 증가하는 단점이 있다.

한편, 히스토그램 방법에서 낮은 에러율을 보이려면 히스토그램 버켓의 크기를 작게 하여야 한다. 그러나 차원이 증가하면 낮은 에러율을 달성할 수 있는 버켓의 개수는 기하급수적으로 증가한다. 이 것은 아래 수학식 1로 표현된 대로 히스토그램 버켓의 개수는 분할된 다차원 버켓의 정규화된 1차원 길이의 차원 승에 역비례하기 때문이다.

여기서, 0〈d〈1, d는 버켓의 한변의 평균 길이를 나타낸다.

이것은 심각한 저장 공간의 부담을 초래하여 에러율이 충분히 작아지도록 버켓의 크기를 충분히 작게 하지 못하는 요인이 된다. 따라서 고차원에서 작은 에러율을 보이면서 적은 저장 공간을 가지는 히스토그램을 만드는 것은 불가능하다. 또한 에러율이 작아지도록 히스토그램 버켓을 효율적으로 분할하는 것이 매우 어렵다. 실용적인 관점에서 보면 이러한 방법들은 3차원 보다 높은 차원에서는 사용할 수가 없다.

또 다른 문제점으로는 MLGF 방법을 제외하고 모든 방법들이 데이터의 동적인 갱신 정보를 선택율 추정을 하기 위한 통계 자료에 즉각 반영할 수 없기 때문에 통계 자료를 주기적으로 재구성하여야 하는 부담이 있다는 단점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 데이터베이스의 질의 최적화기(Query Optimizer)에 사용되는 질의 선택율 추정(Query Selectivity Estimation) 방법으로서, 다차원 데이터 분포에 대한 히스토그램(Histogram) 정보를 압축(Compression)하여 저장하고 선택율 추정에 사용하므로써 작은 크기의 히스토그램을 사용할 수 있기 때문에 에러율이 감소되고, 많은 수의 히스토그램을 압축하여 사용하기 때문에 저장 공간의 필요성을 획기적으로 감소할 수 있도록 하여 텍스트 기반의 데이터베이스나 멀티미디어 데이터베이스의 질의 최적화기를 설계하고 구현하는데 적용할 수 있는 압축 히스토그램 정보를 사용한 다차원 선택율 추정 방법을 제공하는데 있다.

도 1은 데이터베이스 관리시스템(Database Management System) 기능 모듈과 질의 최적화기의 관계를 도시한 블럭도

도 2a, 2b, 2c는 각각 2차원에서의 삼각 샘플링, 상반 샘플링, 구 샘플링 설명을 위한 도면

도 3은 압축 히스토그램의 생성과 유지 순서 예시도

도 4는 초기에 많은 데이터를 가진 경우의 히스토그램 생성 유지 순서 예시도

도 5는 본 발명에 따른 k차원의 범위 질의의 선택율 추정 과정을 도시한 순서 예시도

도 6은 Sun Ultra II에서의 선택율 계산 시간에 관한 도표

도 7은 정규 분포, 6차원, 한 차원의 분할 수=10 인 경우의 에러율에 대한 그래프

도 8은 Zipf 분포, 6차원, 한 차원의 분할 수=10 인 경우의 에러율에 대한 그래프

도 9는 군집 분포, 6차원, 한 차원의 분할 수=10 인 경우의 에러율에 대한 그래프

도 10은 군집 15분포, DCT 계수 100개일 때의 에러율에 대한 그래프

도 11은 군집 15분포, DCT 계수 500개일 때의 에러율에 대한 그래프

도 12는 군집 15분포, DCT 계수 2000개일 때의 에러율에 대한 그래프

도 13은 DCT 계수 100개 일때 차원과 분포에 따른 에러율에 대한 그래프

도 14는 DCT 계수 500개 일때 차원과 분포에 따른 에러율에 대한 그래프

도 15는 DCT 계수 2000개 일때 차원과 분포에 따른 에러율에 대한 그래프

도 16은 3차원, 중형 질의 크기, 군집 5분포에서 공간 분할 정도에 따른 에러율에 대한 그래프

도 17은 5차원, 중형 질의 크기, 군집 5분포에서 공간 분할 정도에 따른 에러율에 대한 그래프

도 18은 7차원, 중형 질의 크기, 군집 5분포에서 공간 분할 정도에 따른 에러율에 대한 그래프

도 19는 10차원, 중형 질의 크기, 군집 5분포에서 공간 분할 정도에 따른 에러율에 대한 그래프

상기와 같은 목적을 달성하기 위한 본 발명에 따른 압축 히스토그램 정보를 사용한 다차원 선택율 추정 방법은, 다음과 같은 해결책을 갖는 방법을 제시하는 것을 특징으로 한다.

1. 많은 수의 작은 크기의 다차원 히스토그램 버켓들로부터 압축된 히스토그램 정보가 DCT(Discrete Cosine Transform)이라는 압축 기술로 유지된다. DCT는 정보를 압축하는 능력이 탁월하며 주로 2차원 영상 압축에 사용되는 기술인데 본 발명에 사용될 수 있도록 일반적인 n차원으로 확장하였다.

2. 낮은 에러율은 작은 크기의 버켓을 사용함으로써 달성되었다.

3. 적은 저장 공간 사용율은 많은 수의 히스토그램 버켓을 압축함으로써 달성되었다.

4. 압축 기술인 DCT의 선형성을 이용하여 동적인 데이터 갱신을 압축 히스토그램 정보에 곧바로 반영함으로써 선택율 추정을 위한 통계 자료를 재구성하는 부담을 제거하였다.

본 발명의 상술한 목적과 여러 가지 장점은 이 기술 분야에 숙련된 사람들에 의해 첨부된 도면을 참조하여 후술되는 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.

본 발명에 사용되는 압축 기술은 DCT(Discrete Cosine Transform)이다. DCT는 데이터의 분포의 상관도(correlation), 즉 인접한 데이터의 값이 비슷한 정도가 높으면, 변환된 인접한 계수들 사이의 상관도를 줄인다. 즉 데이터의 분포를 DCT로 변환하면 주파수 성분의 계수를 얻게 되는데, 낮은 주파수 성분의 계수는 큰 값을 가지고 높은 주파수의 계수는 작은 값을 가지게 된다. 따라서 원래의 데이터 분포를 심각하게 왜곡시키지 않고도 높은 주파수의 계수들을 버리고 낮은 주파수의 계수들 만을 사용할 수 있다. 이 것이 데이터를 압축하는 원리이다.

DCT는 정보를 압축하는 능력이 우수하여 주로 2차원 영역인 이미지와 신호 처리 분야에서 폭 넓게 사용되고 있다. 그러나 본 발명에서는 히스토그램 정보를 압축하기 위해서 다차원 DCT를 사용하기 때문에 1차원 DCT와 2차원 DCT의 정의를 간략히 기술하고 다차원 DCT로 확장한다.

일련의 일차원 데이터=(f(0), f(1), ... , f(N-1))에 대해서, DCT계수,=(g(0), g(1), ... , g(N-1))는 다음과 같이 수학식 2로 정의된다.

여기서, u=0 인 경우 k_u=1/√2, u≠0인 경우 k_u=1, u=0, ... , N-1

=(f(0),f(1),,f(N-1))는 역DCT에 의해서 다음과 같이 수학식 3으로 복구된다.

여기서, n = 0, ... , N-1

일차원 DCT는 다음과 같이 2차원 DCT로 확장되며, [F]₂를 2차원 데이터를 나타내는 M×N 매트릭스라고 하고, [G]₂를 [F]₂의 2차원 DCT계수라고 하면, [G]₂의 한 원소 g(u,v)는 다음과 같이 수학식 4로 주어진다.

그 역은 다음의 수학식 5와 같다.

이제 k차원의 DCT를 다음과 같이 재귀적으로 확장한다.

[F]_k를 N₁×N₂×...×N_k인 k차원의 데이터라고 하자. u_i= 0, ... ,N_i-1,n_i= 0, ... , N_i-1, 1≤i≤k 이고 1≤t≤k 에 대해서 u(t) = { u_i| 1≤i≤t}이고 n(t) = { n_i| 1≤i≤t} 라고 하자. [G]_k를 [F]_k의 DCT계수라고 하자. G(u(t)), F(u(t))를 다음과 같이 정의한다.

그러면 k차원의 DCT계수는 g(u₁, ... , u_k) = G(u(k))로 되고 역 DCT는 f(u₁, ... , u_k) = F(u(k))가 된다.

본 발명은 DCT를 사용하는 일종의 커브 휫팅 방법이다. 이 방법에서는 일정한 크기의 그리드(Grid)를 다차원 공간의 히스토그램 버켓으로 사용한다. 이제부터 이 그리드를 균일 히스토그램 버켓이라고 부른다. 데이터 분포가 상관된 정도가 높은 경우(highly correlated), 즉 인접한 데이터의 값이 유사한 경우에는 DCT를 사용하여 전체 데이터 분포를 압축하여 약간의 데이터가 전체 데이터 분포를 근사적으로 나타내도록 할 수 있다. 따라서 역 변환을 사용하면 원래의 분포를 적은 에러율로 복구시킬 수 있다. 이 방법은 작은 크기의 다차원 히스토그램 버켓을 사용함과 동시에 많은 히스토그램 버켓을 압축함으로써 고차원에서 높은 에러율과 높은 저장 공간 사용율의 문제를 해결한다.

DCT를 사용하여 다차원 선택율을 추정하기 위해서는 계수 샘플링, 데이터 분포, 동적인 데이터 갱신(Dynamic Data Update) 그리고 선택율 계산 방법 등의 여러가지 고려할 사항들이 있다.

첫째 고려 사항은 큰 값을 가지는 낮은 주파수의 계수를 선택하는 효율적인 샘플링 방법에 대한 것이다. 두번째는 히스토그램 정보를 효율적으로 압축하기 위해서 데이터 분포에 어떤 제약 조건이 있어야 하는지에 관한 사항이다. 셋째는 동적인 데이터 갱신이 일어날 때 그 것을 통계 자료에 어떻게 곧바로 반영하는지에 관한 사항이다. 넷째는 선택율 추정치를 어떻게 계산하는지에 관한 사항이다.

계수 샘플링 방법으로서 기하학적인 영역 샘플링(Geometric Zonnal Sampling) 방법에 대해 기술하면 다음과 같다. 고차원에서 작은 에러율을 달성하려면 히스토그램 버켓의 크기가 충분히 작아야 한다. 그러나 변환되는 DCT계수의 개수는, 균일 히스토그램 버켓의 개수와 같으므로, 차원이 증가함에 따라서 기하 급수적으로 증가한다. 만약에 모든 계수들을 다 계산한 후에 적절한 계수들을 선택한다면 엄청난 계산량이 필요하게 된다. 따라서 큰 값을 가질 것으로 예측되는 계수만을 선택하여 계산하여야 한다. DCT의 압축 원리에 따르면 데이터 분포의 상관도가 높으면 낮은 주파수 성분의 계수가 큰 값을 가지게 되므로 낮은 주파수의 영역을 기하학적으로 정하고 그 안에 들어가는 계수만을 계산하고 나머지 계수들은 0으로 간주한다.

이러한 과정은 저주파수 필터링(Filtering)의 원리와 같다. 기하학적인 영역 샘플링 방법으로는 삼각 샘플링 방법(Trangular Sampling), 상반 샘플링 방법(Reciprocal Sampling), 구 샘플링 방법(Spherical Sampling) 등의 3가지로 나눌 수 있다. 도 2a, 도 2b, 도 2c는 2차원의 경우를 각각 보여 준다.

삼각 샘플링 방법은 계수의 위치 인덱스 u_i가를 만족하는 DCT 계수 g(u₁,...,u_n)들 만을 선택한다. 상반 샘플링 방법은 계수의 위치 인덱스 u_i가를 만족하는 DCT 계수 g(u₁,...,u_n)들 만을 선택한다. 구 샘플링 방법은 계수의 위치 인덱스 u_i가를 만족하는 DCT 계수 g(u₁,...,u_n)들 만을 선택한다.

데이터 분포에 관한 고려 사항은 다음과 같다. DCT를 사용하여 많은 양의 히스토그램 버켓을 압축하여 적은 양의 정보만을 가지고도 작은 에러율을 달성하려면 데이터 분포의 상관도가 높아야 한다. 즉, 데이터 분포의 주파수 스펙트럼에서 낮은 주파수의 계수가 큰 값을 가지고 높은 주파수의 계수들이 작은 값을 가져야 한다[참고문헌: R. Agrawal, C. Faloutsos, A. Swami. Efficient Similarity Search In Sequence Databases. Foundations of Data Organizations and Algorithms Conference, 1993.].

만약, 데이터의 분포가 이와 같은 특성을 가지지 않고 인접한 데이터 간에 상관도가 낮아서 독립적이라면 정보를 압축할 수 없게 된다. 그러나 실제의 데이터 분포는 대부분의 경우에 높은 상관도를 보이고 있다. 즉 한개의 테이블에서 애트리뷰트들간의 죠인트 데이터 분포는 대부분 군집(Cluster)을 가진다. 실제로 데이터 마이닝과 같은 연구 영역에서는 대규모 데이터베이스에서 유용한 지식을 추출하기 위해서 군집을 찾는 방법들이 많이 개발되었다.[참고문헌: S. Guha, R. Rastogi, K. Shim. CURE: An Efficient Clustering Algorithm for Large Databases. ACM SIGMOD 1998.].

군집 효과는 이미지나 공간 데이터와 같은 멀티미디어 데이터베이스에서도 발견된다[참고문헌: G. Sheikholeslami, W. Chang, A. Zhang. Semantic Clustering and Querying Heterogeneous Features for Visual Data. ACM Multimedia 1998.]. 군집에서 큰 모양은 큰 값의 저주파 계수에 대응하고 군집안의 작은 진동들은 작은 값의 고주파 계수에 대응된다. 이러한 관찰로부터 다차원 히스토그램의 정보의 양을 획기적으로 감소시킬 수 있다. 일반적으로 데이터 분포의 편중도(Skewness)가 증가하거나 군집의 개수가 증가하면 고주파 성분의 계수의 값들도 증가하는 경향이 있다. 이때에는 작은 에러율을 달성하기 위해서 필요한 계수의 개수가 증가한다.

데이터가 자주 삽입되고 삭제되는 환경에서 데이터의 동적인 갱신을 선택율 추정을 위한 통계 자료에 곧바로 반영하지 못하면, 통계 자료를 주기적으로 재구성해야 한다. 본 발명은 적은 부담으로 동적인 데이터의 갱신을 선택율 추정을 위한 통계 자료인 DCT 계수들에 곧바로 반영할 수 있다. 그 과정은 다음과 같다. 즉 DCT의 선형성을 이용하여 데이터가 새로 삽입되면 삽입된 데이터의 DCT계수들을 계산하여 현재의 DCT계수들에 더하고, 데이터가 삭제되면 삭제된 데이터의 DCT계수들을 계산하여 현재의 DCT계수들에서 뺀다. 그러면 데이터가 삭제되거나 삽입된 사항이 DCT계수에 바로 반영될 수 있다. 실예를 간단히 예를 들면 다음과 같다.

2차원인 경우를 예로 든다. [F]₂를 현재의 균일한 히스토그램 버켓의 정보라고 하자. [G]₂를 [F]₂의 DCT 계수라 하자. [F']₂를 (0,1)위치에서 1개, (1,2)위치에서 2개가 삭제되고 (2,0)위치에서 2개의 데이터가 삽입되었다는 것을 나타내는 정보라고 하자. [G']₂를 [F']₂의 DCT 계수라고 하고 [F"]₂를 최종적인 균일 히스토그램 정보라고 하고 [G"]₂를 [F"]₂의 DCT 계수라고 하자. 그러면 [F"]₂=[F]₂+[F']₂이고 [G"]₂=[G]₂+[G']₂이다. 즉 [G"]₂를 [F"]₂로 부터 생성하면 많은 시간이 소요되지만 [G']₂를 간단히 생성한 후 [G]₂에 더하면 간단히 [G"]₂를 생성할 수 있다.

범위 질의의 선택율 계산방법에는 두가지가 있다. 첫째 방법은 역 DCT를 사용하여 범위 질의안의 모든 히스토그램 버켓을 구한 후 통상적인 히스토그램 방법에 의해서 선택율을 구한다. 두번째 방법은 역 DCT함수가 코사인(cosine)의 연속 함수라는 사실을 이용하여 cosine의 적분으로 선택율을 구하는 방법이다.

첫째 방법은 모든 히스토그램들에 대한 역 DCT계산이 필요하여 계산량이 매우 많은 데 반해서, 두번째 방법은 범위 질의의 영역에 대한 역 DCT함수의 적분만을 계산하면 되므로 단순하고 계산량이 적다. 또한 역 DCT함수는 인접한 히스토그램 버켓 사이의 연속적인 보간(Interpolation)을 해주므로 비교적 정확한 결과를 얻을 수 있다는 장점도 있다.

다음은 범위 질의의 선택율을 계산하는 적분식이다. 먼저 2차원의 경우를 기술하고 그것을 다차원의 경우로 확장한다.

q₂를 2차원 질의라고 하자. q₂의 범위는 a≤x≤b, c≤y≤d 이다. 데이터 공간이 (0,1)²로 정규화 되어 있다고 하고 x 좌표는 N개의 영역으로 분할되어 있고 y 좌표는 M개의 영역으로 분할 되어 있다고 하자. x의 i번째 위치x_i와 y의 j번째 위치 y_j는 다음과 같은 수학식 10으로 표시된다.

따라서, 상술한 수학식 5를 다음과 같이 쓸 수 있다.

수학식 11을 사용하여 질의 q2의 선택율을 계산하는 식은 다음과 같은 수학식 12로 표현된다.

여기서, Z 는 기하학적 영역 샘플링으로 선택된 계수들의 집합이다.

이제 상술한 수학식 12의 적분식을 k차원의 경우로 확장한다. q_k를 k차원의 범위 질의라고 하자. q_k의 범위를 a_i≤x_i≤b_i, 1≤i≤k 이다. 데이터 공간이 (0,1)ⁿ로 정규화 되어 있다고 하고 x_i좌표는 N_i개의 영역으로 분할된다고 하면 q_k의 선택율은 다음과 같은 수학식 13과 같다.

도 5는 상기의 k차원의 선택율을 계산하는 순서도를 보여 준다.

한편, 상기와 같이 기술된 압축 히스토그램 정보는 다음과 같이 두가지 방법으로 생성하고 유지된다.

첫번째 방법에서는 도 3에 도시된 바와 같이, 데이터가 삽입되는 처음부터 DCT계수를 계산하는 경우에 적용된다. 먼저 샘플링 방법, 데이터 공간의 차원, 각 차원 별 분할 개수, 샘플링할 때의 바운드 값 b들을 입력으로 준다. 이 입력을 바탕으로 해당 샘플링 방법을 적용하여 샘플링되는 DCT계수들의 위치 인덱스를 저장하여 둔다. DCT계수들의 초기 값은 0으로 둔다. 다음 부터는 데이터가 추가되거나 삭제될 때마다 그 데이터에 대해서 샘플링된 위치의 DCT계수들을 계산하고 원래의 DCT계수에 더하거나(데이터 추가인 경우) 뺀다(데이터 삭제인 경우).

두번째 방법에서는 도 4에 도시된 바와 같이, 상당한 양의 데이터가 이미 있는 경우에 적용된다. 첫번째 방법과 같이 입력을 주고, 이 입력을 바탕으로 해당 샘플링 방법을 적용하여 샘플링되는 DCT계수들의 위치 인덱스를 저장하여 둔다. DCT계수들의 초기 값은 0으로 둔다. 이미 있는 모든 각각의 데이터에 대해서 히스토그램 버켓에 들어가는 데이터의 개수를 카운트(count)한다. 히스토그램 버켓 count가 0이 아닌 것에 대해서 저장된 위치의 DCT계수들을 계산한다. 다음 부터는 데이터가 추가되거나 삭제될 때마다 그 데이터에 대해서 샘플링된 위치의 DCT계수들을 계산하고 원래의 DCT계수에 더하거나(데이터 추가인 경우) 뺀다(데이터 삭제인 경우).

질의의 선택율 추정에 대한 본 발명의 정확도를 측정하기 위해서 여러가지 크기의 질의와 여러가지 데이터 분포에 대해서 실험하였다. 모든 데이터는 정규화된 데이터 공간 (0,1)ⁿ에서 생성되었다. 2차원에서 10차원까지 여러가지 분포에 대하여 각각 5만개의 데이터를 만들었다. 데이터 분포는 다음의 3가지를 사용하여 만들었다.

1. 정규 분포 : 데이터 분포는 N(0,σ²)를 따르도록 만들었으며 2~4차원에 대해서는 σ=0.4 이고 5~10차원에 대해서는 σ=1.0이며, 결과를 [-1,1]에서 [0,1]로 사상시켰다.

2. Zipf 분포 : 데이터 분포는 Zipf 분포를 따르도록 만들었으며 2~5차원에 대해서는 z=0.3 이고, 6~10차원에 대해서는 z=0.2 이다. Zipf 분포는 다음과 같은 수학식 14로 정의 된다.

3. 군집 분포 : 5~15 개의 정규 분포가 서로 겹쳐진다.

본 발명으로 계산되는 선택율 추정은 (a₁≤X₁≤b₁)＆...＆(a_n≤X_n≤b_n), 0≤a_i, b_i≤1형태의 범위 질의에 대해서 계산되었다. 각각 30개의 질의를 포함하고 서로 다른 선택율을 가지는 대형(≒0.3), 중형(≒0.067), 소형(≒0.0067), 초소형(≒0.0013) 등과 같은 4가지 종류의 질의들을 만들었다.

질의 모형에는 질의의 확율적 분포에 따라 임의 모델, 편중 모델의 2가지가 있다[참고문헌: A.Belussi, C. Faloutsos. Estimating the Selectivity of Spatial Queries Using the 'Correlation' Fractal Dimension. VLDB 1995.]. 임의 모델은 질의가 데이터 공간에서 균일하게 분포한다고 가정하는 모델이고, 편중 모델은 데이터의 밀도가 높은 곳에서 질의의 빈도가 높다고 가정하는 모델이다.

실제로 대부분의 응용은 편중 모델을 따른다. 예를 들면 GIS 응용에서는 사용자가 사막 지역에 대해 질의하기보다는 도시와 같이 밀집된 영역에 대해서 더 많이 질의할 것이다. 이미지 데이터베이스에서는 대부분의 사용자가 데이터베이스에서 이미지를 탐색하다가 가장 적합한 한 이미지를 선택하고 다시 그 이미지와 유사한 이미지를 검색한다. 이 것은 데이터의 밀도가 높은 지역에 질의의 빈도가 높다는 것을 의미한다. 따라서 편중 모델을 적용한 실험을 하는 것이 실제 상황에 부합되기 때문에 편중 모델로 실험하였다. 30개의 질의를 실행하여 그 결과와 선택율을 DCT 계수로 추정한 값들과 비교하였다. 선택율 추정의 정확도는 퍼센트 에러를 사용하였으며, 퍼센트 에러는 다음의 수학식 15과 같이 주어진다.

질의 최적화기에 사용하기 위해서는 저장 공간의 필요양이 적어야 되고 선택율 계산 시간도 작아야 한다. 본 발명에서 필요한 저장 공간의 양은 다음과 같다. 필요한 저장 공간의 양은 영역 샘플링으로 선택되는 DCT 계수의 개수에 비례한다. DCT 계수의 값을 저장하는 데는 4바이트가 필요하고 위치 인덱스는 다차원 인덱스를 일차원의 값으로 변환하여 저장하면 그 역변환도 가능하므로 4바이트로 저장할 수 있다. 따라서 한 개의 DCT를 저장하려면 8바이트가 필요하다. 만약 100개의 DCT 계수를 사용한다면 800바이트정도가 필요하다. 상술한 수학식 13으로부터 선택율 계산 시간은 다음과 같다.

k가 차원이고 α가 sine 함수를 계산하는 시간이라면 선택율 계산 시간은 2×k×α×(선택된 DCT 계수의 개수)로 주어진다. Sun Ultra II에서 α는 대략 1μsec 로 측정되었으며, 도 6은 전형적인 선택율 계산 시간을 보여주는 표이다.

기하학적 영역 샘플링 방법들에 대한 성능은 도 7, 도 8, 도 9에서 보여 준다. 기하학적 영역 샘플링의 효율성은 분포의 영향을 일부 받으므로 3가지 분포에 대하여 6차원에서 그 성능이 평가 되었다. 대체로 상반 샘플링 방법이 좋게 나왔으나 어떤 경계선을 지나면 별 차이가 없다. 따라서 적은 개수의 DCT를 사용할 때에만 상반 샘플링이 좋다고 할 수 있다.

차원과 질의 크기도 선택율 추정의 정확성에 영향을 미친다. 도 10, 도 11, 도 12는 여러 차원에서 4가지 크기의 질의에 대한 정확성 결과를 보여 준다. 데이터 분포는 군집15 분포(정규 분포가 15개 겹쳐져 있슴)에 대해서 실험하였고 상반 샘플링을 사용하였다. 차원이 증가함에 따라서 에러율은 약간 증가하는 경향을 보이나 평균 에러는 10%미만이었다. 따라서 이 실험 결과는 본 발명이 10차원에서도 사용될 수 있다는 것을 입증하여 준다.

데이터 분포도 선택율 추정의 정확성에 영향을 미친다. 도 13, 도 14, 도 15는 데이터 분포에 따른 실험 결과를 보여 준다. 차원이 증가하면 Zipf 분포의 편중도는 점차 높아진다. 정규 분포와 군집 5 분포는 차원이 증가함에 따라서 편중도가 증가하는 정도가 Zipf분포 보다 적다. 실험 결과는 편중도가 높아질수록 에러율의 증가율이 높다는 것을 보여 준다. 그러나 DCT 계수를 많이 사용할 수록 에러율이 작아진다는 사실도 보여 준다. 실제 상황에서는 군집 분포가 일반적인 현상이므로 실험 결과는 본 발명이 실제 상황에서 잘 사용될 수 있다는 사실을 보여 준다.

다차원 공간이 분할되는 정도도 선택율 추정의 정확도에 영향을 미친다. 도 16, 도 17, 도 18, 도 19은 다차원 공간이 분할되는 정도에 따른 실험 결과를 보여 준다. 다차원 공간을 모든 차원에서 똑같이 p번 분할하였다. 선택된 DCT 계수의 값들을 내림 차순으로 정렬하고 실험하였다. 데이터 공간의 분할을 많이 하면 정확도가 증가한다. 또한 DCT 계수를 많이 사용하면 역시 정확도가 증가하게 된다.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 않는 범위에서 다양한 변경 및 수정 실시가 가능함을 알 수 있을 것이다.

이상 설명한 바와 같이 본 발명에 따르면, 데이터 베이스 질의 최적화기에 적용하면 여러개의 애트리뷰트를 포함하는 질의에 대한 선택율을 더욱 정확하게 추정할 수 있음으로써 질의 최적화기가 보다 정확한 사용자 질의 실행 계획을 찾아 내도록 해 준다. 또한, 본 발병은 데이터가 자주 갱신되는 환경에서도 선택율 추정을 하기 위한 자료를 주기적으로 재구성하는 부담을 제거하여 주는 효과가 있다.

Claims

데이터베이스 질의의 선택율을 추정하기 위하여 데이터 분포를 근사시키는 통계 자료를 구함에 있어서,

데이터 분포를 크기가 작은 다수개의 다차원 히스토그램 버켓을 생성하는 단계;

생성된 다차원 히스토그램 버켓들로부터 히스토그램 정보를 다차원 이산 여현 변환(DCT)을 이용하여 압축하여 저장하는 단계;

상기 압축 저장된 히스토그램 정보를 통계 자료로 사용하여 질의의 선택율을 추정하는 단계로 이루어진 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.
제 1 항에 있어서, 상기 다차원 이산 여현 변환을 이용한 압축단계에서, 이산 여현 변환 후, DCT 계수중 큰 계수를 선택하여 저장되는 정보의 양을 줄이는 기하학적인 영역 샘플링시 DCT 계수의 위치 인덱스의 합이 주어진 샘플링 바운드값 보다 작은 DCT 계수 만을 선택하는 삼각 샘플링 방법(Triangular Sampling)을 이용하는 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.
제 1 항에 있어서, 상기 다차원 이산 여현 변환을 이용한 압축단계에서, 이산 여현 변환 후, DCT 계수중 큰 계수를 선택하여 저장되는 정보의 양을 줄이는 기하학적인 영역 샘플링시 DCT 계수의 위치 인덱스에 1을 더한 값들을 곱한 값이 주어진 샘플링 바운드값보다 작은 DCT 계수 만을 선택하는 상반 샘플링 방법(Reciprocal Sampling)을 이용하는 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.
제 1 항에 있어서, 상기 다차원 이산 여현 변환을 이용한 압축단계에서, 이산 여현 변환 후, DCT 계수중 큰 계수를 선택하여 저장되는 정보의 양을 줄이는 기하학적인 영역 샘플링시 DCT 계수의 위치 인덱스의 제곱의 합이 주어진 샘플링 바운드값보다 작은 DCT 계수 만을 선택하는 구 샘플링 방법(Spherical Sampling)을 이용하는 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.
제 1 항 내지는 제 4 항중 어느 한 항에 있어서, 데이터의 삽입과 삭제가 자주 있는 환경에서 동적인 데이터 갱신 정보를 질의의 선택율 추정을 위한 상기 통계 자료에 곧바로 반영하기 위하여,

상기 이산 여현 변환의 선형성을 이용하여 데이터가 새로 삽입되면 삽입된 데이터의 DCT 계수들을 계산하여 현재의 DCT 계수들에 가산하고, 데이터가 삭제되면 삭제된 데이터의 DCT계수들을 계산하여 현재의 DCT 계수들에서 감산하는 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.
제 1 항 내지는 제 4 항중 어느 한 항에 있어서, 상기 선택율을 추정하는 단계는 q_k를 k차원의 범위 질의, q_k의 범위를 a_i≤x_i≤b_i, 1≤i≤k, 데이터 공간이 (0,1)ⁿ로 정규화 되어 있다고 하고, x_i좌표는 N_i개의 영역으로 분할된다고 하면 q_k의 선택율은의 수학식에 의해 추정하는 것을 특징으로 하는 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법.