KR100398142B1

KR100398142B1 - 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법

Info

Publication number: KR100398142B1
Application number: KR10-2000-0050418A
Authority: KR
Inventors: 나종범; 송병철
Original assignee: 한국과학기술원
Priority date: 2000-08-29
Filing date: 2000-08-29
Publication date: 2003-09-19
Also published as: US20030149679A1; KR20020017219A; US7188097B2

Abstract

본 발명은 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 관한 것이다. 종래의 클러스터 기반 기법들은 최적 검색을 보장하지 못하며, 탐색 속도가 만족 할만한 검색 정확도를 얻기에는 충분히 빠르지 못하였다.

이에 본 발명은 1) 가능성이 있는 클러스터와 가능성이 없는 클러스터를 정확하게 구분하는 부등식을 유도하고 이를 이용한 최적의 탐색 기법을 구현토록 한다. 2) 고속 처리를 위한 다해상도 데이터 구조에 기반한 부등식을 유도하고 이를 이용한 고속 최적 탐색 기법을 구현토록 한다.

본 발명에 따른 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법은 1) 데이터베이스 내의 모든 데이터들을 일정 수의 클러스터(유사한 특징을 갖는 클러스터)들로 나눈다. 2) 각 클러스터와 문의자간 거리의 하계(lower bound)를 구하여 가능성이 없다고 판단될 경우 그 클러스터를 제거하고 최종적으로 가능성이 있다고 판단된 클러스터들에 속한 데이터들 중에서 최적 정합자를 찾는다. 3) 보다 많은 계산량 감소를 위해 탐색 과정에서 불필요한 특징 정합 연산을 줄이기 위한 다해상도 데이터 구조에 기반한 거리부등식 성질을 유도한다.

Description

대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법{METHOD FOR OPTIMAL RETRIEVAL OF MULTI-RESOLUTION BY HIGH SPEED ON THE GREAT CAPACITY DATABASE}

본 발명은 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 관한 것이다. 특히, 데이터베이스에서 매우 빠른 속도로 원하는 정보를 정확하고 빠르게 탐색할 수 있는 부등식을 유도하고, 이를 이용하여 고속으로 최적의 탐색방법을 구현토록 하는 기술에 관한 것이다.

특정 데이터베이스에서 문의자(query)의 최적 정합자(the best match)를 찾기 위해서는 데이터베이스 안의 모든 데이터들에 대해 유사도 측정자(similarity measure)에 기반한 전역 탐색을 수행하여야 한다. 통상의 전역 탐색기법(Exhaustive Search Algorithm : ESA)은 계산량이 많기 때문에 최근 여러 고속 탐색 기법들이 개발된 바 있다.

Berman과 Shapiro는 탐색 과정에서 최적일 가능성이 전혀 없는 후보들을 적은 계산량으로 제거하기 위해 삼각형 부등식을 도입하였다. 이는 추가적인 계산량 감소를 위해 여러 가지 거리 측정자들과 대표 데이터들을 동시에 사용하기도 했지만, 탐색 속도가 대표 데이터들에 따라 변화가 크고, 대용량 데이터베이스에서 만족할만한 성능을 보이지 못했다.

최근 트라이앵글 트리(Triangle Trie)라는 데이터 구조를 적용하여 성능을 개선 하였지만 탐색 속도는 여전히 대표 데이터들의 트리 깊이, 문턱값 등에 많은 영향을 받는다.

한편, Krishnamachari과 Mottaleb는 데이터베이스에 있는 데이터들을 계층적 클러스터링 기법으로 비슷한 특징을 갖는 클러스터들로 분할하는 클러스터 기반 색인 기법을 새롭게 제안하였다.

이는 탐색 과정에서 문의자 데이터를 데이터베이스의 모든 데이터들과 비교하지 않고, 전체 데이터 수보다 휠씬 적은 클러스터들의 중심값들과 비교하기 때문에 계산량을 현저히 줄일 수 있다.

또한, 이런 클러스터 기반 기법들은 원하는 검색 정확도(retrieval accuracy)를 얻기 위한 비교 횟수가 데이터베이스 크기와 선형적으로 비례하지 않기 때문에 대용량 데이터베이스에 적합하다고 할 수 있다.

도 1은 종래 클러스터 기반에서의 탐색 기법들에 의해 발생되는 문제점을 나타낸 도면이다.

도 1에 도시된 바와 같이, 예를들어 네개의 클러스터(Cluster)들이 존재하고 그 중심점들을 각각 C₁, C₂, C₃, C₄라고 하자. 일반적으로 중심점은 해당 클러스터의 데이터들의 평균값 혹은 중간값 등을 택한다. 중심점들 중 C₂가 문의자Q에 거리(유사도 측정자에 의한 값)가 가장 가깝기 때문에 클러스터(Cluster) 2는 후보로 선택된다. 클러스터 2에 속한 각 원소와Q와의 거리를 계산함으로써 X₂를 최적 정합자로 선택한다. 그러나, 실제 문의자 Q에 가장 적은 거리를 가지는, 즉 가장 유사한 최적 정합자는 클러스터 1의X ₈이다.

이런 문제가 발생하는 이유는 실제 최적 정합자가 속한 클러스터의 중심점이 항상 문의자Q와 가장 가깝지 않기 때문이다. 따라서, 문의자Q와 가까운 여러 개의 클러스터들을 동시에 탐색하는 방법이 시도되었지만, 여전히 최적 검색은 보장하지 못했다.

또한, 기존 클러스터 기반 기법들은 최적 검색(optimal retrieval)을 보장하지 못하며, 탐색 속도가 만족 할만한 검색 정확도를 얻기에는 충분히 빠르지 않다는 단점이 있다.

따라서, 본 발명은 상기한 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 가능성이 있는 클러스터와 가능성이 없는 클러스터를 정확하게 구분하는 부등식을 유도하고 이를 이용한 최적의 탐색 기법을 구현토록 하는 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법을 제공하는데 있다.

본 발명의 다른 목적은 고속 처리를 위한 다해상도 데이터 구조에 기반한 부등식을 유도하고 이를 이용한 고속 최적 탐색 기법을 구현토록 하는 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법을 제공하는데 있다.

상기한 본 발명의 목적을 달성하기 위한 기술적 사상으로써 본 발명에 따른 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법은 1) 데이터베이스 내의 모든 데이터들을 일정 수의 클러스터(유사한 특징을 갖는 클러스터)들로 나눈다. 각 클러스터 안의 원소들은 유사한 특징을 가진다. 2) 각 클러스터와 문의자 Q간 거리의 하계(lower bound)를 구하여 가능성이 없다고 판단될 경우 그 클러스터를 제거하고 최종적으로 가능성이 있다고 판단된 클러스터들의 데이터들 중에서 최적 정합자를 찾는다. 3) 보다 많은 계산량 감소를 위해 탐색 과정에서 불필요한 특징 정합 연산을 줄이기 위한 다해상도 데이터 구조에 기반한 거리부등식 성질을 유도한다. 따라서, 단일 최적 정합자 뿐만 아니라 다수의 상위 최적 정합자들도 정확하게 찾을 수 있게 된다.

도 1은 종래 클러스터에 기반한 탐색 방법들의 본질적인 문제점을 설명하기 위한 도면

도 2는 본 발명에 따라 한 클러스터에 대한 거리의 부등식 특징을 설명하기 위한 도면

도면 3은 본 발명에 따라 2 ^L 빈을 갖는 밝기 히스토그램X의 다 해상도 데이터 구조를 나타낸 도면

도면 4는 본 발명에 따라 상위 M개의 최적 정합자들의 최소 거리 배열을 나타낸 모식도

도 5는 본 발명에 따라 최적 정합자들을 정확하게 못하게 되는 그릇된 판정의 예를 설명하기 위한 도면

이하, 본 발명의 실시예에 대한 구성 및 그 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.

도 2는 본 발명에 따른 한 클러스터에 대한 거리 부등식 특징을 나타낸 모식도이다.

본 발명에 따른 한 클러스터에 대한 거리 부등식 특징을 설명하기 전에 데이터베이스의 클러스터링 과정을 살펴보면 다음과 같다.

먼저, 비슷한 특징을 갖는 데이터들이 하나의 클러스터를 이루도록 MacQueenK-평균 클러스터링을 이용하여 정해진 수만큼의 클러스터들로 데이터베이스를 분할한다.

여기서, 사용할 수 있는 특징을 예로 들면, 영상 데이터의 경우는 색깔, 텍스쳐, 윤곽선 같은 정보이며, 음성 데이터의 경우는 피치(pitch)와 같은 정보가 가능하다.K개의 클러스터들은 각자의 평균 중심점을 갖는다.본 발명에서는 일 실시예로 영상 데이터베이스를 예로 들며, 특징으로는 영상의 색깔에 기반한 히스토그램을 사용한다고 가정한다. 각 데이터는 하나의 히스토그램을 가진다.

클러스터링을 위한 연산은 실제 탐색과는 무관하게 이루어지므로 클러스터링에 걸리는 시간은 문의자 Q에 대해 정합자를 찾는 탐색 시간에 포함되지 않는다. 데이터베이스의 클러스터링은 다음과 같이 이루어진다.

단계 1) 클러스터의 갯수 (K;K<N)를 정한다. 여기서 N은 데이터베이스 내의 모든 데이터의 갯수이다.

단계 2) K개 클러스터들에 대한 중심점의 히스토그램들 C₁, C₂.... C_k을 초기화 한다. 즉 데이터베이스 내의 모든 데이터, 즉 데이터베이스 내의K개 데이터들을 임의로 선택하고 그들의 히스토그램들이 C₁, C₂.... C_k이다. 효율적으로 초기화하기 위해 두 중심점들 간 최소 거리가 문턱값 보다 작지 않게 한다.

단계 3) 단계 2에서 초기 중심점들로 선택된 데이터들을 제외한 나머지 데이터들 각각에 대해 가장 가까운 클러스터 중심점을 찾아 해당 클러스터에 포함시키고, 다음 수학식에 의해 각 클러스터의 중심점을 갱신한다.

결국 누적해서 새로운 평균값을 구하는 것이다.

여기서, X_i는 클러스터k에 추가될i번째 원소이며, Φ_k는 클러스터k를, n(Φ_k)는 Φ_k에 속한 원소들의 갯수 이다.

단계 4) 데이터베이스 안의 모든 원소들에 대해 수렴할 때까지 상기 단계 3을 반복 한다. 최종적으로 각 클러스터의 중심점 집합이 얻어진다.

도 2를 참조하여, 종래의 도 1에 도시된 클러스트에 기반에서 발생되는 본질적인 문제점의 해결 방안을 제시한다.

먼저, 수학식 2에 의해 문의자 Q와 가장 가까운 클러스터를 구한 후,에 속하는 원소들중에서Q와 가장 최소 거리를 가지는 원소와의 거리d _min,0를 수학식 2에 의해 구한다.

d(X,Y)는 두 특징X와Y의 L₁-놈 거리를 의미한다. 종래의 도면 1에서d _min,0는 d(X₂,Q)이다. 여기서,를 제외한 각각의 클러스터에 대하여 클러스터 중심점과 가장 먼 원소를 찾고, 그 거리를 다음과 같이 정의한다.

각 클러스터의 δ는 미리 계산되어 저장된다.d _min,0와값들을 이용하여 각 클러스터가 최적 검색을 위해 탐색될 필요가 있는지 없는지를 판단한다. 이 결정을 위한 성질 1은 다음과 같다.

성질 1이 기재되어 있는 수학식 5의 증명은 아래와 같다.

삼각형 부등식에 의해,

또한, 수학식 4와 6으로부터,

다음의 부등식이 수학식 7과 8로부터 얻어진다.

만약이면,

따라서, 수학식 5가 성립됨을 증명할 수 있다.

상기와 같이 성질 1에서,은Q와 클러스터k내 원소 간 거리의 하계 (lower bound)를 의미한다. 즉, 본 발명의 핵심인 수학식 5에 도시된 바와 같이, 만약 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차가 현재까지의 최소 거리값 보다 크면(수식으로는 ), 클러스터k에는보다 작은 거리를 갖는 원소가 존재할 수 없으므로, 클러스터k는 더 이상 고려할 필요 없다.

따라서, 성질 1을 적용하면 효과적으로 가능성이 전혀 없는 모든 클러스터들을 정확하게 제거할 수 있다.

그러나, 가장 가까운 클러스터를 찾는 과정과 최적 정합자를 찾는 과정은 여전히 상당한 계산량을 요구한다. 이 계산량을 줄이기 위해 다 해상도 데이터 구조에 바탕을 둔 또다른 부등식 성질을 유도하고, 이를 이용한 고속에 의한 최적의 탐색방법을 제안한다.

도 3은 본 발명에 따라 2 ^L 빈을 갖는 밝기 히스토그램X의 다 해상도 데이터 구조를 나타낸 모식도이다.

도 3에 도시된 다 해상도 데이터 구조를 살펴보면, 편의상B(B=2^L)빈을 갖는 정규화된 밝기 히스토그램이 특징이라고 가정한다. 히스토그램X의 다 해상도 데이터 구조는 히스토그램열로 정의될 수 있다.

여기서이다.는개의 빈들을 가지며,로부터 1/2비율로 해상도를 줄임으로써 얻어진다.

현재 계층의 각 화소값은 인접한 상위 계층의 두 화소값을 더해 얻어진다. 즉,이의m번째 빈 값이라 할 때,은 다음과 같이 얻어진다.

이어서, 다 해상도 특징 공간에서의 고속 최적 검색을 위한 성질 2를 살펴보기로 한다.

여기서,는 계층l에서의 두 히스토그램X와Y의 L₁-놈 거리, 즉을 의미한다.

성질 2가 기재되어 있는 수학식 12의 증명은 아래와 같다.

계층l+1에서 두 히스토그램X와Y의 L₁-놈 차는 다음과 같이 구해진다.

와는 모두개의 빈을 가지며,은의 m번째 빈의 값이다.

한편, 수학식 11을 사용하여 계층l에서의 거리를 다음과 같이 표현할 수 있다.

이므로,

수학식 13, 14, 15로부터,

상기의 수학식 16으로부터 수학식 12가 성립되므로써 성질 2를 증명할 수 있다.

본 발명의 또 다른 핵심 성질은 상기의 성질 2(수학식 13에 기반)는 계층 l에서의 두 특징점간의 거리이 특정 값보다 크면, 가장 높은 해상도에서의 두 원소간의 거리은 항상 그 특정 값보다 큼을 의미한다.

상위 계층에서의 거리 계산이 하위 계층에서의 거리 계산보다 많은 연산을 필요로 하고, 하위 계층들에서 가능성이 전혀 없는 후보들을 많이 제거할 수 있기 때문에 이 성질을 탐색 과정에 적용하면 탐색을 위한 계산량을 상당히 줄일 수 있다.

N은 데이터베이스의 데이터 갯수이며,는 데이터들의 특징 집합이라고 하자. 각 데이터의 다 해상도 특징은 미리 계산되어 저장되어 있다.

상기 성질 2에 기반한 고속 다 해상도 전역 탐색 기법 (MSA_S)이 다음과 같이 요약될 수 있다.

단계 1) 문의자 특징Q의 다 해상도 구조를 구한다.

단계 2) 초기 최소거리을 무한대로 설정한다.

단계 3) 처음으로는i와l는 모두 1로 한다.

단계 4)l=L이면, 단계 6으로 간다. 모든 원소에 대해 탐색을 끝냈으면 (i>N),단계 7로 간다.

단계 5) 임의의 저해상도 계층 l에서 문의자 히스트그램과 i번째 히스토그램과의 거리을 구한다. 그 거리이 현재까지의 최소거리보다 크면, 현재 후보 i번째 히스토그램를 제거하고,i와l을 각각i+1과 1로 갱신하여 다음 후보를 검사한다. 그렇지 않으면,l을l+1로 갱신한 후 단계 3으로 간다.

단계 6)이보다 크면, 현재 후보를 제거한다. 그렇지 않으면,을로 갱신한다. 다음 후보의 탐색을 위해i와l을 각각i+1과 1로 갱신한 후 단계 4로 간다.

단계 7) 최종을 갖는 데이터를 최적 정합자로 선택한다.

단계 5에서의 값을 l이 1에서 L에 대해 구한다. 그러나 적은 값일 때 인 경우가 많이 발생하므로 그 만큼 적은 계산량만으로 빨리 불필요한 후보를 제거할 수 있게 된다.이상에서와 같이 데이터베이스에 있는 각 데이터의 다 해상도 특징은 미리 계산되어 저장된다. 그러나, 문의자 데이터의 다 해상도 특징은 탐색 시간동안 얻어져야 하므로 그 계산량을 고려 해야만 한다.

정규화된 밝기 히스토그램 특징을 예로 들면, 계층 수가 8이므로 다 해상도 히스토그램을 얻기 위해서는 단지 254번의 덧셈 연산만이 필요하다. 1회의 정합 과정을 위해 511번의 덧셈 연산과 256번의 절대값 연산이 소요됨을 감안할 때 다 해상도 밝기 히스토그램을 위한 계산량은 무시할 만하다.

한편, 다 해상도 히스토그램들을 저장하기 위한 추가 메모리가 필요하나, 히스토그램의 크기가 데이터 크기보다 훨씬 작기 때문에 추가적인 메모리 증가는 무시할 만하다. 다른 특징들에 대해서도 상황은 마찬가지이다.

이어서, 성질 1의 클러스터 최적 제거 조건과 성질 2에 기반한 MSA_S를 이용하여, 고속 최적 탐색을 위한 새로운 클러스터 기반에서의 다 해상도 탐색 기법 (Cluster-based Multi-resolution Search Algorithm; CMSA)에 대하여 설명하기로 한다.

먼저, 문의자가 주어지면 MSA_S를 통해 문의자와 가장 근접한 클러스터 중심점을 찾고, 그 클러스터 내에서 초기 최적 정합자와의 거리를 구한다.

그리고나서, 성질 1의 클러스터 제거 조건에 따라 가능성이 있다고 판단된 클러스터들에 MSA_S를 적용하여 최적 정합자(들)를 찾는다. 가장 가까운 클러스터 중심점을 찾을 때 MSA_S를 사용하기 때문에, 클러스터 제거 과정에서 모든값들이 존재하지는 않는다.

왜냐하면이보다 크면,l _k 보다 큰 계층들에서의 거리들이 계산되지 않기 때문이다.

결국, 수학식 5의 성질 1을 클러스터 제거 과정에 도입하기 위해 다시을 계산해야 하는 문제점이 발생한다.

따라서,의 관계를 이용해 성질 1을 다음과 같이 성질1.1로 변형시킨다.

여기서,

상기의 성질 1.1에 따르면, 만약 l_k에서 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차이 현재까지의 최소 거리보다 클 경우, 클러스터k를 손실없이 제거할 수 있다.

반대로이보다 작으면, 최적 정합자가 클러스터k에 존재할 수 있으므로, 클러스터k를 탐색한다. 모든k에 대해과는 이미 알려져 있기 때문에, 이러한 결정을 위한 추가적인 계산량은 없다.

이상에서와 같이, 상기 성질들을 바탕으로 출력 최적 정합자 수에 따른 두 가지 CMSA를 제시한다.

첫째는 하나의 최적 정합자를 출력하는 CMSA_S이며, 둘째는 다수의 상위 최적 정합자들을 출력하는 CMSA_M이다.

상기한 CMSA_S는 크게 세 단계로 구성된다. 먼저, MSA_S를 이용하여 문의자 Q와 가장 거리가 적은 클러스터의 중심점를 찾는다. 그리고나서, 구한 클러스터안의 원소들 중, 문의자 Q와 가장 가까운 거리를 가지는 원소와의 거리을 구한다. 마지막으로, 상기 성질 1.1에 의해 후보 클러스터를 선택한 후, 선택된 후보 클러스터들에 대해서만 성질 2를 이용한 MSA_S을 다시 적용하여 최적 정합자를 찾는다. 상기 CMSA_S의 탐색 과정을 요약하면 다음과 같다.

단계 1) 각 클러스터 중심점에 대해 MSA_S를 수행하여, 최소 거리를 갖는 클러스터k _min을 찾는다.

단계 2) 초기d _min을라고 하고, MSA_S를 단계 1에서 찾은 클러스터에 적용하여을 갱신한다.

단계 3-1)k를 1로 한다.

단계 3-2)k=k _min이면,k를k+ 1로 갱신한다. kK(즉 모든 클러스터에 대해 탐색을 완료한 경우)에는 단계 3-4으로 간다.

단계 3-3)이보다 크면, 클러스터k를 제거한다. 그렇지 않으면, MSA_S를에 적용하여,을 갱신한다.다음 클러스터 탐색을 위해k를k+1로 갱신한 후, 단계 3-2로 간다.

단계 3-4) 최종를 갖는 데이터를 최적 정합자로 선택한다.

상기의 CMSA_M의 경우도 CMSA_S과 동일한 방법으로을 먼저 찾는다. 그리고, 상위M개의 최적 정합자들의 거리 값들을 저장하기 위한 도면 4의 배열을 다음 규칙에 따라 채운다.

도 4는 본 발명에 따라 상위 M개의 최적 정합자들의 최소 거리 배열을 나타낸 모식도이다.

먼저,, 즉 클러스터에 속하는 원소의 개수가 M보다 크면,내의 상위M최적 정합자들을 작은 값 순서로 배열에 채운다.

만약,이면,내 모든 원소의 거리들을 계산하고, 값이 작은 순서로 배열에 저장한다. 남은 배열 값들에는 무한대 값을 저장한다. MSA_S를 수정하여,내의 상위M최적 정합자들을 찾을 수 있다. 이 수정된 기법을 MSA_M라고 하고, 다음과 같이 요약한다.

단계 1) 문의자Q의 다 해상도 특징을 구한다.

단계 2)안의 모든 원소들을 무한대 값으로 초기화한다.

단계 3)i과l을 모두 1로 한다.

단계 4)l=L이면, 단계 6으로 간다. 클러스터에 속하는 모든 원소를 탐색한 경우()이면, 단계 7로 간다.

단계 5)을 계산한다.이 현재까지 얻은 상위 M 최적 정합자들중 M번째 정합자와의 거리보다 크다면 (), 현재 후보를 제거하고,i과l를 각각i+1과 1로 갱신한 후 단계 3으로 간다. 그렇지 않으면,l을l+1로 갱신한 후 단계 3으로 간다.

단계 6)이면, 현재 후보를 제거한다. 그렇지 않으면,을로 갱신한다. 그리고,을 작은 값 순서로 정렬한다. 다음 후보의 탐색을 위해i과l을 각각i+1과 1로 갱신한 후 단계 4로 간다.

단계 7) 최종적으로에 남은M개의 데이터들을 최상위M최적 정합자들로 선택한다.

이상에서와 같이, MSA_M를에 적용하여을 채운 후, 나머지 클러스터들 중 성질 1.1에 따라 선택된 각 클러스터에 MSA_M을 적용하는 방식으로을 갱신한다.

최종적으로,에 대응하는 데이터들을 상위M최적 정합자들로 선택한다. 그러나, 이 탐색 기법을 통해 실제 상위M최적 정합자들을 정확하게 찾지 못할 경우도 있다.

도 5는 본 발명에 따라 최적 정합자들을 정확하게 못하게 되는 그릇된 판정의 예를 설명하기 위한 도면이다.

도면 5에서,X ₈,X ₄,X ₂가 상위 3개의 최적 정합자들로 선택되었지만, 실제 3번째 최적 정합자는X ₂가 아니라X ₉이다. 따라서, 다음과 같이d _min를d _min[M-1]로 대치함으로써 성질 1.1에서 완화된 클러스터 제거 조건인 아래의 성질 1.2를 유도할 수 있다.

상기와 같은 성질을 본 발명이 제시하는 기법의 후처리 과정에 이용함으로써 항상 상위M최적 정합자들을 정확하게 찾을 수 있다. 상기 성질들을 이용한 최종적인 CMSA_M를 요약하면 다음과 같다.

단계 1) CMSA_S의 단계 1과 같이, 최소 거리을 갖는 클러스터k _min을 찾는다.

단계 2)이면, MSA_M으로 상위M최적 정합자들을 찾아 그 거리값들을에 저장한다.이면,개의 거리값들이 작은 값 순서로 에채워지며, 나머지는 무한대값으로 채운다.

단계 3-1)k를 1로 한다.

단계 3-2)k=k _min이면,k를k+ 1로 갱신한다. 모든 클러스터에 대해 탐색을 끝낸 경우(k>K)이면, 단계 3-5으로 간다.

단계 3-3)이면, 클러스터k를 제거하고,k를k+1로 갱신한 후 단계 3-2로 간다.

단계 3-4) MSA_M을 단계 3-3에서 제거되지 않은에 적용함으로써을 갱신한다.k를k+1로 갱신한 후 단계 3-2로 간다.

단계 3-5)에 대응하는 데이터들이 상위 M 최적 정합자들로 구성하게 하는 데이터 베이스 재검색ㅇ르 위해k를 1로 한다.

단계 3-6) 클러스터k가 단계 3-4에서 이미 조사되었으면,k를k+ 1로 갱신한다.k K이면,단계 3-9로 간다.

단계 3-7)이면, 클러스터k를 제거하고k를k+1로 갱신한 후 단계 3-6으로 간다.

단계 3-8) MSA_M를 단계 3-7에서 제거되지 않은 클러스터에 적용함으로써를 갱신한다.k를k+1로 갱신한 후 단계 3-6으로 간다.

단계 3-9) 최종에 대응하는M개의 데이터들을 최적 정합자들로 선택한다.

이상에서와 같이 본 발명에 의한 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 따르면 다음과 같은 이점이 있다.

첫째, 대용량 데이터베이스에서의 고속 최적 탐색을 위한 모든 시스템 즉, 영상, 동영상 데이터베이스에 대한 탐색 엔진의 핵심 모듈로 사용할 수 있다.

둘째, 영상이나 음성 등의 다 해상도 구조가 가능한 모든 멀티미디어 데이터베이스에 적용시킴으로써 매우 빠른 속도로 원하는 정보를 데이터베이스에서 정확하고 빠르게 찾을 수 있다.

Claims

대용량의 영상 및 음성 정보들과 탐색을 위한 그들의 특징 정보들이 저장된 데이터베이스에서 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,

데이터베이스에 저장된 문의자 특징Q의 다 해상도 구조를 구하는 제 1단계와;

상기 구조에서 문의자 특징Q와 가장 근접한 초기의 최소거리을 무한대로 설정하는 제 2단계와;

초기의 데이터베이스i와 계층l를 모두 1로 설정하는 제 3단계와;

임의의 저해상도 계층l에서 문의자 히스토그램과i번째 히스토그램과의 거리을 구하는 제 4단계와;

임의의 고해상도 계층L에서 문의자 히스토그램과i번째 히스토그램과의 거리을 구하는 제 5단계와;

상기의 연산 결과, 최종의 최소거리을 갖는 데이터를 최적 정합자로 선택하는 제 6단계로 구성된 것을 특징으로 하는 최적 탐색방법.
청구항 1에 있어서, 상기 제 4단계에서 상기이 현재까지의 최소거리보다 크면, 현재i번째 히스토그램를 제거함과 더불어i와l을 각각i+1과 1로 갱신하여 다음 후보를 검사하고, 그렇지 않으면l을l+1로 갱신하는 과정을 거치는 것을 특징으로 하는 최적 탐색방법.
청구항 1에 있어서, 상기 제 5단계에서 상기이 현재까지의 최소거리보다 크면, 현재i번째 히스토그램를 제거하고, 그렇지 않으면 상기을로 갱신함과 더불어 다음 후보의 탐색을 위해i와l을 각각i+1과 1로 갱신하는 과정을 거치는 것을 특징으로 하는 최적 탐색방법.
청구항 1에 있어서, 상기 다 해상도 데이터 베이스에서의 고속 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.

: 계층l에서의 두 히스토그램X와Y의 L₁-놈 거리
클러스터 기반에서 하나의 최적 정합자를 출력하는 다 해상도 탐색 기법(CMSA_S)을 이용하여 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,

각 클러스터 중심점에 대해 고속 다 해상도 탐색방법(MSA_S)을 수행하여 최소 거리를 갖는 클러스터k _min을 찾는 제 1단계와;

상기 초기의 최소 거리d _min을로 하고, 상기 MSA_S를 상기 제 1단계에서 찾은 클러스터에 적용하여을 갱신하는 제 2단계와;

l_k에서 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차값인을 구하는 제 3단계와;

상기의 연산 결과, 최종의 최소 거리를 갖는 데이터를 최적 정합자로 선택하는 제 4단계로 구성된 것을 특징으로 하는 최적 탐색방법.
청구항 5에 있어서, 상기 CMSA_S방식을 이용한 다 해상도 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.

단,
청구항 5에 있어서, 상기은

k는1로 하며,k=k _min이면k를k+ 1로 갱신하는 것을 특징으로 하는 최적 탐색방법.
청구항 5 또는 청구항 6에 있어서, 상기 제 3단계에서값이보다 크면 클러스터k를 제거하고, 그렇지 않으면 MSA_S를에 적용하여,을 갱신함과 더불어 다음의 클러스터 탐색을 위해k를k+1로 갱신하는 것을 특징으로 하는 최적 탐색방법.
클러스터 기반에서 다수의 상위 최적 정합자를 출력하는 다 해상도 탐색 기법(CMSA_S)을 이용하여 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,

고속 다 해상도 탐색방법(MSA_S)을 수행하여 최소 거리를 갖는 클러스터k _min을 찾는 제 1단계와;

이면, 수정된 고속 다 해상도 탐색방법(MSA_M)으로 상위M최적 정합자들을 찾아 그 거리값들을에 저장하는 제 2단계와;

k를 1로 설정 하여k=k _min이면,k를k+ 1로 갱신하는 제 3단계와;

이면, 클러스터k를 제거하고k를k+1로 갱신하는 제 4단계와;

MSA_M을 상기 제 4단계에서 제거되지 않은 클러스터에 적용하여을 갱신하고,k를k+1로 갱신하는 제 5단계와;

상기에 대응하는 데이터들이 상위M최적 정합자들로 구성되도록 데이터베이스 재검색을 위해k를 1로 설정하여 클러스터k가 이미 조사되었으면,k를k+ 1로 갱신하는 제 6단계와;

이면, 클러스터k를 제거하고,k를k+1로 갱신하는 제 7단계와;

MSA_M를 상기 제 7단계에서 제거되지 않은 클러스터에 적용하여를 갱신하고,k를k+1로 갱신하는 제 8단계와;

최종에 대응하는M개의 데이터들을 최적 정합자들로 선택하는 제 9단계로 구성되는 것을 특징으로 하는 최적 탐색방법.
청구항 9에 있어서, 상기 CMSA_M방식을 이용한 다 해상도 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.
청구항 9에 있어서, 상기 제 2단계에서이면,개의 거리값들이 작은 값 순서로에 채워지며, 나머지는 무한대값으로 채워지는 것을 특징으로 하는 최적 탐색방법.