KR100398142B1 - 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법 - Google Patents

대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법 Download PDF

Info

Publication number
KR100398142B1
KR100398142B1 KR10-2000-0050418A KR20000050418A KR100398142B1 KR 100398142 B1 KR100398142 B1 KR 100398142B1 KR 20000050418 A KR20000050418 A KR 20000050418A KR 100398142 B1 KR100398142 B1 KR 100398142B1
Authority
KR
South Korea
Prior art keywords
cluster
resolution
search
distance
updating
Prior art date
Application number
KR10-2000-0050418A
Other languages
English (en)
Other versions
KR20020017219A (ko
Inventor
나종범
송병철
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR10-2000-0050418A priority Critical patent/KR100398142B1/ko
Priority to US09/781,291 priority patent/US7188097B2/en
Publication of KR20020017219A publication Critical patent/KR20020017219A/ko
Application granted granted Critical
Publication of KR100398142B1 publication Critical patent/KR100398142B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 관한 것이다. 종래의 클러스터 기반 기법들은 최적 검색을 보장하지 못하며, 탐색 속도가 만족 할만한 검색 정확도를 얻기에는 충분히 빠르지 못하였다.
이에 본 발명은 1) 가능성이 있는 클러스터와 가능성이 없는 클러스터를 정확하게 구분하는 부등식을 유도하고 이를 이용한 최적의 탐색 기법을 구현토록 한다. 2) 고속 처리를 위한 다해상도 데이터 구조에 기반한 부등식을 유도하고 이를 이용한 고속 최적 탐색 기법을 구현토록 한다.
본 발명에 따른 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법은 1) 데이터베이스 내의 모든 데이터들을 일정 수의 클러스터(유사한 특징을 갖는 클러스터)들로 나눈다. 2) 각 클러스터와 문의자간 거리의 하계(lower bound)를 구하여 가능성이 없다고 판단될 경우 그 클러스터를 제거하고 최종적으로 가능성이 있다고 판단된 클러스터들에 속한 데이터들 중에서 최적 정합자를 찾는다. 3) 보다 많은 계산량 감소를 위해 탐색 과정에서 불필요한 특징 정합 연산을 줄이기 위한 다해상도 데이터 구조에 기반한 거리부등식 성질을 유도한다.

Description

대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법{METHOD FOR OPTIMAL RETRIEVAL OF MULTI-RESOLUTION BY HIGH SPEED ON THE GREAT CAPACITY DATABASE}
본 발명은 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 관한 것이다. 특히, 데이터베이스에서 매우 빠른 속도로 원하는 정보를 정확하고 빠르게 탐색할 수 있는 부등식을 유도하고, 이를 이용하여 고속으로 최적의 탐색방법을 구현토록 하는 기술에 관한 것이다.
특정 데이터베이스에서 문의자(query)의 최적 정합자(the best match)를 찾기 위해서는 데이터베이스 안의 모든 데이터들에 대해 유사도 측정자(similarity measure)에 기반한 전역 탐색을 수행하여야 한다. 통상의 전역 탐색기법(Exhaustive Search Algorithm : ESA)은 계산량이 많기 때문에 최근 여러 고속 탐색 기법들이 개발된 바 있다.
Berman과 Shapiro는 탐색 과정에서 최적일 가능성이 전혀 없는 후보들을 적은 계산량으로 제거하기 위해 삼각형 부등식을 도입하였다. 이는 추가적인 계산량 감소를 위해 여러 가지 거리 측정자들과 대표 데이터들을 동시에 사용하기도 했지만, 탐색 속도가 대표 데이터들에 따라 변화가 크고, 대용량 데이터베이스에서 만족할만한 성능을 보이지 못했다.
최근 트라이앵글 트리(Triangle Trie)라는 데이터 구조를 적용하여 성능을 개선 하였지만 탐색 속도는 여전히 대표 데이터들의 트리 깊이, 문턱값 등에 많은 영향을 받는다.
한편, Krishnamachari과 Mottaleb는 데이터베이스에 있는 데이터들을 계층적 클러스터링 기법으로 비슷한 특징을 갖는 클러스터들로 분할하는 클러스터 기반 색인 기법을 새롭게 제안하였다.
이는 탐색 과정에서 문의자 데이터를 데이터베이스의 모든 데이터들과 비교하지 않고, 전체 데이터 수보다 휠씬 적은 클러스터들의 중심값들과 비교하기 때문에 계산량을 현저히 줄일 수 있다.
또한, 이런 클러스터 기반 기법들은 원하는 검색 정확도(retrieval accuracy)를 얻기 위한 비교 횟수가 데이터베이스 크기와 선형적으로 비례하지 않기 때문에 대용량 데이터베이스에 적합하다고 할 수 있다.
도 1은 종래 클러스터 기반에서의 탐색 기법들에 의해 발생되는 문제점을 나타낸 도면이다.
도 1에 도시된 바와 같이, 예를들어 네개의 클러스터(Cluster)들이 존재하고 그 중심점들을 각각 C1, C2, C3, C4라고 하자. 일반적으로 중심점은 해당 클러스터의 데이터들의 평균값 혹은 중간값 등을 택한다. 중심점들 중 C2가 문의자Q에 거리(유사도 측정자에 의한 값)가 가장 가깝기 때문에 클러스터(Cluster) 2는 후보로 선택된다. 클러스터 2에 속한 각 원소와Q와의 거리를 계산함으로써 X2를 최적 정합자로 선택한다. 그러나, 실제 문의자 Q에 가장 적은 거리를 가지는, 즉 가장 유사한 최적 정합자는 클러스터 1의X 8이다.
이런 문제가 발생하는 이유는 실제 최적 정합자가 속한 클러스터의 중심점이 항상 문의자Q와 가장 가깝지 않기 때문이다. 따라서, 문의자Q와 가까운 여러 개의 클러스터들을 동시에 탐색하는 방법이 시도되었지만, 여전히 최적 검색은 보장하지 못했다.
또한, 기존 클러스터 기반 기법들은 최적 검색(optimal retrieval)을 보장하지 못하며, 탐색 속도가 만족 할만한 검색 정확도를 얻기에는 충분히 빠르지 않다는 단점이 있다.
따라서, 본 발명은 상기한 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 가능성이 있는 클러스터와 가능성이 없는 클러스터를 정확하게 구분하는 부등식을 유도하고 이를 이용한 최적의 탐색 기법을 구현토록 하는 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법을 제공하는데 있다.
본 발명의 다른 목적은 고속 처리를 위한 다해상도 데이터 구조에 기반한 부등식을 유도하고 이를 이용한 고속 최적 탐색 기법을 구현토록 하는 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법을 제공하는데 있다.
상기한 본 발명의 목적을 달성하기 위한 기술적 사상으로써 본 발명에 따른 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법은 1) 데이터베이스 내의 모든 데이터들을 일정 수의 클러스터(유사한 특징을 갖는 클러스터)들로 나눈다. 각 클러스터 안의 원소들은 유사한 특징을 가진다. 2) 각 클러스터와 문의자 Q간 거리의 하계(lower bound)를 구하여 가능성이 없다고 판단될 경우 그 클러스터를 제거하고 최종적으로 가능성이 있다고 판단된 클러스터들의 데이터들 중에서 최적 정합자를 찾는다. 3) 보다 많은 계산량 감소를 위해 탐색 과정에서 불필요한 특징 정합 연산을 줄이기 위한 다해상도 데이터 구조에 기반한 거리부등식 성질을 유도한다. 따라서, 단일 최적 정합자 뿐만 아니라 다수의 상위 최적 정합자들도 정확하게 찾을 수 있게 된다.
도 1은 종래 클러스터에 기반한 탐색 방법들의 본질적인 문제점을 설명하기 위한 도면
도 2는 본 발명에 따라 한 클러스터에 대한 거리의 부등식 특징을 설명하기 위한 도면
도면 3은 본 발명에 따라 2 L 빈을 갖는 밝기 히스토그램X의 다 해상도 데이터 구조를 나타낸 도면
도면 4는 본 발명에 따라 상위 M개의 최적 정합자들의 최소 거리 배열을 나타낸 모식도
도 5는 본 발명에 따라 최적 정합자들을 정확하게 못하게 되는 그릇된 판정의 예를 설명하기 위한 도면
이하, 본 발명의 실시예에 대한 구성 및 그 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명에 따른 한 클러스터에 대한 거리 부등식 특징을 나타낸 모식도이다.
본 발명에 따른 한 클러스터에 대한 거리 부등식 특징을 설명하기 전에 데이터베이스의 클러스터링 과정을 살펴보면 다음과 같다.
먼저, 비슷한 특징을 갖는 데이터들이 하나의 클러스터를 이루도록 MacQueenK-평균 클러스터링을 이용하여 정해진 수만큼의 클러스터들로 데이터베이스를 분할한다.
여기서, 사용할 수 있는 특징을 예로 들면, 영상 데이터의 경우는 색깔, 텍스쳐, 윤곽선 같은 정보이며, 음성 데이터의 경우는 피치(pitch)와 같은 정보가 가능하다.K개의 클러스터들은 각자의 평균 중심점을 갖는다.본 발명에서는 일 실시예로 영상 데이터베이스를 예로 들며, 특징으로는 영상의 색깔에 기반한 히스토그램을 사용한다고 가정한다. 각 데이터는 하나의 히스토그램을 가진다.
클러스터링을 위한 연산은 실제 탐색과는 무관하게 이루어지므로 클러스터링에 걸리는 시간은 문의자 Q에 대해 정합자를 찾는 탐색 시간에 포함되지 않는다. 데이터베이스의 클러스터링은 다음과 같이 이루어진다.
단계 1) 클러스터의 갯수 (K;K<N)를 정한다. 여기서 N은 데이터베이스 내의 모든 데이터의 갯수이다.
단계 2) K개 클러스터들에 대한 중심점의 히스토그램들 C1, C2.... Ck을 초기화 한다. 즉 데이터베이스 내의 모든 데이터, 즉 데이터베이스 내의K개 데이터들을 임의로 선택하고 그들의 히스토그램들이 C1, C2.... Ck이다. 효율적으로 초기화하기 위해 두 중심점들 간 최소 거리가 문턱값 보다 작지 않게 한다.
단계 3) 단계 2에서 초기 중심점들로 선택된 데이터들을 제외한 나머지 데이터들 각각에 대해 가장 가까운 클러스터 중심점을 찾아 해당 클러스터에 포함시키고, 다음 수학식에 의해 각 클러스터의 중심점을 갱신한다.
결국 누적해서 새로운 평균값을 구하는 것이다.
여기서, Xi는 클러스터k에 추가될i번째 원소이며, Φk는 클러스터k를, n(Φk)는 Φk에 속한 원소들의 갯수 이다.
단계 4) 데이터베이스 안의 모든 원소들에 대해 수렴할 때까지 상기 단계 3을 반복 한다. 최종적으로 각 클러스터의 중심점 집합이 얻어진다.
도 2를 참조하여, 종래의 도 1에 도시된 클러스트에 기반에서 발생되는 본질적인 문제점의 해결 방안을 제시한다.
먼저, 수학식 2에 의해 문의자 Q와 가장 가까운 클러스터를 구한 후,에 속하는 원소들중에서Q와 가장 최소 거리를 가지는 원소와의 거리d min,0를 수학식 2에 의해 구한다.
d(X,Y)는 두 특징XY의 L1-놈 거리를 의미한다. 종래의 도면 1에서d min,0는 d(X2,Q)이다. 여기서,를 제외한 각각의 클러스터에 대하여 클러스터 중심점과 가장 먼 원소를 찾고, 그 거리를 다음과 같이 정의한다.
각 클러스터의 δ는 미리 계산되어 저장된다.d min,0값들을 이용하여 각 클러스터가 최적 검색을 위해 탐색될 필요가 있는지 없는지를 판단한다. 이 결정을 위한 성질 1은 다음과 같다.
성질 1이 기재되어 있는 수학식 5의 증명은 아래와 같다.
삼각형 부등식에 의해,
또한, 수학식 4와 6으로부터,
다음의 부등식이 수학식 7과 8로부터 얻어진다.
만약이면,
따라서, 수학식 5가 성립됨을 증명할 수 있다.
상기와 같이 성질 1에서,Q와 클러스터k내 원소 간 거리의 하계 (lower bound)를 의미한다. 즉, 본 발명의 핵심인 수학식 5에 도시된 바와 같이, 만약 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차가 현재까지의 최소 거리값 보다 크면(수식으로는 ), 클러스터k에는보다 작은 거리를 갖는 원소가 존재할 수 없으므로, 클러스터k는 더 이상 고려할 필요 없다.
따라서, 성질 1을 적용하면 효과적으로 가능성이 전혀 없는 모든 클러스터들을 정확하게 제거할 수 있다.
그러나, 가장 가까운 클러스터를 찾는 과정과 최적 정합자를 찾는 과정은 여전히 상당한 계산량을 요구한다. 이 계산량을 줄이기 위해 다 해상도 데이터 구조에 바탕을 둔 또다른 부등식 성질을 유도하고, 이를 이용한 고속에 의한 최적의 탐색방법을 제안한다.
도 3은 본 발명에 따라 2 L 빈을 갖는 밝기 히스토그램X의 다 해상도 데이터 구조를 나타낸 모식도이다.
도 3에 도시된 다 해상도 데이터 구조를 살펴보면, 편의상B(B=2L)빈을 갖는 정규화된 밝기 히스토그램이 특징이라고 가정한다. 히스토그램X의 다 해상도 데이터 구조는 히스토그램열로 정의될 수 있다.
여기서이다.개의 빈들을 가지며,로부터 1/2비율로 해상도를 줄임으로써 얻어진다.
현재 계층의 각 화소값은 인접한 상위 계층의 두 화소값을 더해 얻어진다. 즉,m번째 빈 값이라 할 때,은 다음과 같이 얻어진다.
이어서, 다 해상도 특징 공간에서의 고속 최적 검색을 위한 성질 2를 살펴보기로 한다.
여기서,는 계층l에서의 두 히스토그램XY의 L1-놈 거리, 즉을 의미한다.
성질 2가 기재되어 있는 수학식 12의 증명은 아래와 같다.
계층l+1에서 두 히스토그램XY의 L1-놈 차는 다음과 같이 구해진다.
는 모두개의 빈을 가지며,의 m번째 빈의 값이다.
한편, 수학식 11을 사용하여 계층l에서의 거리를 다음과 같이 표현할 수 있다.
이므로,
수학식 13, 14, 15로부터,
상기의 수학식 16으로부터 수학식 12가 성립되므로써 성질 2를 증명할 수 있다.
본 발명의 또 다른 핵심 성질은 상기의 성질 2(수학식 13에 기반)는 계층 l에서의 두 특징점간의 거리이 특정 값보다 크면, 가장 높은 해상도에서의 두 원소간의 거리은 항상 그 특정 값보다 큼을 의미한다.
상위 계층에서의 거리 계산이 하위 계층에서의 거리 계산보다 많은 연산을 필요로 하고, 하위 계층들에서 가능성이 전혀 없는 후보들을 많이 제거할 수 있기 때문에 이 성질을 탐색 과정에 적용하면 탐색을 위한 계산량을 상당히 줄일 수 있다.
N은 데이터베이스의 데이터 갯수이며,는 데이터들의 특징 집합이라고 하자. 각 데이터의 다 해상도 특징은 미리 계산되어 저장되어 있다.
상기 성질 2에 기반한 고속 다 해상도 전역 탐색 기법 (MSAS)이 다음과 같이 요약될 수 있다.
단계 1) 문의자 특징Q의 다 해상도 구조를 구한다.
단계 2) 초기 최소거리을 무한대로 설정한다.
단계 3) 처음으로는il는 모두 1로 한다.
단계 4)l=L이면, 단계 6으로 간다. 모든 원소에 대해 탐색을 끝냈으면 (i>N),단계 7로 간다.
단계 5) 임의의 저해상도 계층 l에서 문의자 히스트그램과 i번째 히스토그램과의 거리을 구한다. 그 거리이 현재까지의 최소거리보다 크면, 현재 후보 i번째 히스토그램를 제거하고,il을 각각i+1과 1로 갱신하여 다음 후보를 검사한다. 그렇지 않으면,ll+1로 갱신한 후 단계 3으로 간다.
단계 6)보다 크면, 현재 후보를 제거한다. 그렇지 않으면,로 갱신한다. 다음 후보의 탐색을 위해il을 각각i+1과 1로 갱신한 후 단계 4로 간다.
단계 7) 최종을 갖는 데이터를 최적 정합자로 선택한다.
단계 5에서의 값을 l이 1에서 L에 대해 구한다. 그러나 적은 값일 때 인 경우가 많이 발생하므로 그 만큼 적은 계산량만으로 빨리 불필요한 후보를 제거할 수 있게 된다.이상에서와 같이 데이터베이스에 있는 각 데이터의 다 해상도 특징은 미리 계산되어 저장된다. 그러나, 문의자 데이터의 다 해상도 특징은 탐색 시간동안 얻어져야 하므로 그 계산량을 고려 해야만 한다.
정규화된 밝기 히스토그램 특징을 예로 들면, 계층 수가 8이므로 다 해상도 히스토그램을 얻기 위해서는 단지 254번의 덧셈 연산만이 필요하다. 1회의 정합 과정을 위해 511번의 덧셈 연산과 256번의 절대값 연산이 소요됨을 감안할 때 다 해상도 밝기 히스토그램을 위한 계산량은 무시할 만하다.
한편, 다 해상도 히스토그램들을 저장하기 위한 추가 메모리가 필요하나, 히스토그램의 크기가 데이터 크기보다 훨씬 작기 때문에 추가적인 메모리 증가는 무시할 만하다. 다른 특징들에 대해서도 상황은 마찬가지이다.
이어서, 성질 1의 클러스터 최적 제거 조건과 성질 2에 기반한 MSAS를 이용하여, 고속 최적 탐색을 위한 새로운 클러스터 기반에서의 다 해상도 탐색 기법 (Cluster-based Multi-resolution Search Algorithm; CMSA)에 대하여 설명하기로 한다.
먼저, 문의자가 주어지면 MSAS를 통해 문의자와 가장 근접한 클러스터 중심점을 찾고, 그 클러스터 내에서 초기 최적 정합자와의 거리를 구한다.
그리고나서, 성질 1의 클러스터 제거 조건에 따라 가능성이 있다고 판단된 클러스터들에 MSAS를 적용하여 최적 정합자(들)를 찾는다. 가장 가까운 클러스터 중심점을 찾을 때 MSAS를 사용하기 때문에, 클러스터 제거 과정에서 모든값들이 존재하지는 않는다.
왜냐하면보다 크면,l k 보다 큰 계층들에서의 거리들이 계산되지 않기 때문이다.
결국, 수학식 5의 성질 1을 클러스터 제거 과정에 도입하기 위해 다시을 계산해야 하는 문제점이 발생한다.
따라서,의 관계를 이용해 성질 1을 다음과 같이 성질1.1로 변형시킨다.
여기서,
상기의 성질 1.1에 따르면, 만약 lk에서 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차이 현재까지의 최소 거리보다 클 경우, 클러스터k를 손실없이 제거할 수 있다.
반대로보다 작으면, 최적 정합자가 클러스터k에 존재할 수 있으므로, 클러스터k를 탐색한다. 모든k에 대해는 이미 알려져 있기 때문에, 이러한 결정을 위한 추가적인 계산량은 없다.
이상에서와 같이, 상기 성질들을 바탕으로 출력 최적 정합자 수에 따른 두 가지 CMSA를 제시한다.
첫째는 하나의 최적 정합자를 출력하는 CMSAS이며, 둘째는 다수의 상위 최적 정합자들을 출력하는 CMSAM이다.
상기한 CMSAS는 크게 세 단계로 구성된다. 먼저, MSAS를 이용하여 문의자 Q와 가장 거리가 적은 클러스터의 중심점를 찾는다. 그리고나서, 구한 클러스터안의 원소들 중, 문의자 Q와 가장 가까운 거리를 가지는 원소와의 거리을 구한다. 마지막으로, 상기 성질 1.1에 의해 후보 클러스터를 선택한 후, 선택된 후보 클러스터들에 대해서만 성질 2를 이용한 MSAS을 다시 적용하여 최적 정합자를 찾는다. 상기 CMSAS의 탐색 과정을 요약하면 다음과 같다.
단계 1) 각 클러스터 중심점에 대해 MSAS를 수행하여, 최소 거리를 갖는 클러스터k min을 찾는다.
단계 2) 초기d min라고 하고, MSAS를 단계 1에서 찾은 클러스터에 적용하여을 갱신한다.
단계 3-1)k 1로 한다.
단계 3-2)k=k min이면,kk+ 1로 갱신한다. kK(즉 모든 클러스터에 대해 탐색을 완료한 경우)에는 단계 3-4으로 간다.
단계 3-3)보다 크면, 클러스터k를 제거한다. 그렇지 않으면, MSAS에 적용하여,을 갱신한다.다음 클러스터 탐색을 위해kk+1로 갱신한 후, 단계 3-2로 간다.
단계 3-4) 최종를 갖는 데이터를 최적 정합자로 선택한다.
상기의 CMSAM의 경우도 CMSAS과 동일한 방법으로을 먼저 찾는다. 그리고, 상위M개의 최적 정합자들의 거리 값들을 저장하기 위한 도면 4의 배열을 다음 규칙에 따라 채운다.
도 4는 본 발명에 따라 상위 M개의 최적 정합자들의 최소 거리 배열을 나타낸 모식도이다.
먼저,, 즉 클러스터에 속하는 원소의 개수가 M보다 크면,내의 상위M최적 정합자들을 작은 값 순서로 배열에 채운다.
만약,이면,내 모든 원소의 거리들을 계산하고, 값이 작은 순서로 배열에 저장한다. 남은 배열 값들에는 무한대 값을 저장한다. MSAS를 수정하여,내의 상위M최적 정합자들을 찾을 수 있다. 이 수정된 기법을 MSAM라고 하고, 다음과 같이 요약한다.
단계 1) 문의자Q의 다 해상도 특징을 구한다.
단계 2)안의 모든 원소들을 무한대 값으로 초기화한다.
단계 3)il을 모두 1로 한다.
단계 4)l=L이면, 단계 6으로 간다. 클러스터에 속하는 모든 원소를 탐색한 경우()이면, 단계 7로 간다.
단계 5)을 계산한다.이 현재까지 얻은 상위 M 최적 정합자들중 M번째 정합자와의 거리보다 크다면 (), 현재 후보를 제거하고,il를 각각i+1과 1로 갱신한 후 단계 3으로 간다. 그렇지 않으면,ll+1로 갱신한 후 단계 3으로 간다.
단계 6)이면, 현재 후보를 제거한다. 그렇지 않으면,로 갱신한다. 그리고,을 작은 값 순서로 정렬한다. 다음 후보의 탐색을 위해il을 각각i+1과 1로 갱신한 후 단계 4로 간다.
단계 7) 최종적으로에 남은M개의 데이터들을 최상위M최적 정합자들로 선택한다.
이상에서와 같이, MSAM에 적용하여을 채운 후, 나머지 클러스터들 중 성질 1.1에 따라 선택된 각 클러스터에 MSAM을 적용하는 방식으로을 갱신한다.
최종적으로,에 대응하는 데이터들을 상위M최적 정합자들로 선택한다. 그러나, 이 탐색 기법을 통해 실제 상위M최적 정합자들을 정확하게 찾지 못할 경우도 있다.
도 5는 본 발명에 따라 최적 정합자들을 정확하게 못하게 되는 그릇된 판정의 예를 설명하기 위한 도면이다.
도면 5에서,X 8,X 4,X 2가 상위 3개의 최적 정합자들로 선택되었지만, 실제 3번째 최적 정합자는X 2가 아니라X 9이다. 따라서, 다음과 같이d mind min[M-1]로 대치함으로써 성질 1.1에서 완화된 클러스터 제거 조건인 아래의 성질 1.2를 유도할 수 있다.
상기와 같은 성질을 본 발명이 제시하는 기법의 후처리 과정에 이용함으로써 항상 상위M최적 정합자들을 정확하게 찾을 수 있다. 상기 성질들을 이용한 최종적인 CMSAM를 요약하면 다음과 같다.
단계 1) CMSAS의 단계 1과 같이, 최소 거리을 갖는 클러스터k min을 찾는다.
단계 2)이면, MSAM으로 상위M최적 정합자들을 찾아 그 거리값들을에 저장한다.이면,개의 거리값들이 작은 값 순서로 에채워지며, 나머지는 무한대값으로 채운다.
단계 3-1)k 1로 한다.
단계 3-2)k=k min이면,kk+ 1로 갱신한다. 모든 클러스터에 대해 탐색을 끝낸 경우(k>K)이면, 단계 3-5으로 간다.
단계 3-3)이면, 클러스터k를 제거하고,kk+1로 갱신한 후 단계 3-2로 간다.
단계 3-4) MSAM을 단계 3-3에서 제거되지 않은에 적용함으로써을 갱신한다.kk+1로 갱신한 후 단계 3-2로 간다.
단계 3-5)에 대응하는 데이터들이 상위 M 최적 정합자들로 구성하게 하는 데이터 베이스 재검색ㅇ르 위해k를 1로 한다.
단계 3-6) 클러스터k가 단계 3-4에서 이미 조사되었으면,kk+ 1로 갱신한다.k K이면,단계 3-9로 간다.
단계 3-7)이면, 클러스터k를 제거하고kk+1로 갱신한 후 단계 3-6으로 간다.
단계 3-8) MSAM를 단계 3-7에서 제거되지 않은 클러스터에 적용함으로써를 갱신한다.kk+1로 갱신한 후 단계 3-6으로 간다.
단계 3-9) 최종에 대응하는M개의 데이터들을 최적 정합자들로 선택한다.
이상에서와 같이 본 발명에 의한 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적 탐색방법에 따르면 다음과 같은 이점이 있다.
첫째, 대용량 데이터베이스에서의 고속 최적 탐색을 위한 모든 시스템 즉, 영상, 동영상 데이터베이스에 대한 탐색 엔진의 핵심 모듈로 사용할 수 있다.
둘째, 영상이나 음성 등의 다 해상도 구조가 가능한 모든 멀티미디어 데이터베이스에 적용시킴으로써 매우 빠른 속도로 원하는 정보를 데이터베이스에서 정확하고 빠르게 찾을 수 있다.

Claims (11)

  1. 대용량의 영상 및 음성 정보들과 탐색을 위한 그들의 특징 정보들이 저장된 데이터베이스에서 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,
    데이터베이스에 저장된 문의자 특징Q의 다 해상도 구조를 구하는 제 1단계와;
    상기 구조에서 문의자 특징Q와 가장 근접한 초기의 최소거리을 무한대로 설정하는 제 2단계와;
    초기의 데이터베이스i와 계층l를 모두 1로 설정하는 제 3단계와;
    임의의 저해상도 계층l에서 문의자 히스토그램과i번째 히스토그램과의 거리을 구하는 제 4단계와;
    임의의 고해상도 계층L에서 문의자 히스토그램과i번째 히스토그램과의 거리을 구하는 제 5단계와;
    상기의 연산 결과, 최종의 최소거리을 갖는 데이터를 최적 정합자로 선택하는 제 6단계로 구성된 것을 특징으로 하는 최적 탐색방법.
  2. 청구항 1에 있어서, 상기 제 4단계에서 상기이 현재까지의 최소거리보다 크면, 현재i번째 히스토그램를 제거함과 더불어il을 각각i+1과 1로 갱신하여 다음 후보를 검사하고, 그렇지 않으면ll+1로 갱신하는 과정을 거치는 것을 특징으로 하는 최적 탐색방법.
  3. 청구항 1에 있어서, 상기 제 5단계에서 상기이 현재까지의 최소거리보다 크면, 현재i번째 히스토그램를 제거하고, 그렇지 않으면 상기로 갱신함과 더불어 다음 후보의 탐색을 위해il을 각각i+1과 1로 갱신하는 과정을 거치는 것을 특징으로 하는 최적 탐색방법.
  4. 청구항 1에 있어서, 상기 다 해상도 데이터 베이스에서의 고속 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.
    : 계층l에서의 두 히스토그램XY의 L1-놈 거리
  5. 클러스터 기반에서 하나의 최적 정합자를 출력하는 다 해상도 탐색 기법(CMSAS)을 이용하여 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,
    각 클러스터 중심점에 대해 고속 다 해상도 탐색방법(MSAS)을 수행하여 최소 거리를 갖는 클러스터k min을 찾는 제 1단계와;
    상기 초기의 최소 거리d min로 하고, 상기 MSAS를 상기 제 1단계에서 찾은 클러스터에 적용하여을 갱신하는 제 2단계와;
    lk에서 문의자와 클러스터 k의 중심점(대표 히스토그램)과의 거리와 중심점과 해당 클러스터에서 가장 멀리 떨어져 있는 히스토그램과의 거리의 차값인을 구하는 제 3단계와;
    상기의 연산 결과, 최종의 최소 거리를 갖는 데이터를 최적 정합자로 선택하는 제 4단계로 구성된 것을 특징으로 하는 최적 탐색방법.
  6. 청구항 5에 있어서, 상기 CMSAS방식을 이용한 다 해상도 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.
    단,
  7. 청구항 5에 있어서, 상기
    k는1로 하며,k=k min이면kk+ 1로 갱신하는 것을 특징으로 하는 최적 탐색방법.
  8. 청구항 5 또는 청구항 6에 있어서, 상기 제 3단계에서값이보다 크면 클러스터k를 제거하고, 그렇지 않으면 MSAS에 적용하여,을 갱신함과 더불어 다음의 클러스터 탐색을 위해kk+1로 갱신하는 것을 특징으로 하는 최적 탐색방법.
  9. 클러스터 기반에서 다수의 상위 최적 정합자를 출력하는 다 해상도 탐색 기법(CMSAS)을 이용하여 원하는 정보를 고속으로 찾기 위한 탐색방법에 있어서,
    고속 다 해상도 탐색방법(MSAS)을 수행하여 최소 거리를 갖는 클러스터k min을 찾는 제 1단계와;
    이면, 수정된 고속 다 해상도 탐색방법(MSAM)으로 상위M최적 정합자들을 찾아 그 거리값들을에 저장하는 제 2단계와;
    k 1로 설정 하여k=k min이면,kk+ 1로 갱신하는 제 3단계와;
    이면, 클러스터k를 제거하고kk+1로 갱신하는 제 4단계와;
    MSAM을 상기 제 4단계에서 제거되지 않은 클러스터에 적용하여을 갱신하고,kk+1로 갱신하는 제 5단계와;
    상기에 대응하는 데이터들이 상위M최적 정합자들로 구성되도록 데이터베이스 재검색을 위해k를 1로 설정하여 클러스터k가 이미 조사되었으면,kk+ 1로 갱신하는 제 6단계와;
    이면, 클러스터k를 제거하고,kk+1로 갱신하는 제 7단계와;
    MSAM를 상기 제 7단계에서 제거되지 않은 클러스터에 적용하여를 갱신하고,kk+1로 갱신하는 제 8단계와;
    최종에 대응하는M개의 데이터들을 최적 정합자들로 선택하는 제 9단계로 구성되는 것을 특징으로 하는 최적 탐색방법.
  10. 청구항 9에 있어서, 상기 CMSAM방식을 이용한 다 해상도 탐색은 다음과 같은 성질의 부등식에 의해 유도되는 것을 특징으로 하는 최적 탐색방법.
  11. 청구항 9에 있어서, 상기 제 2단계에서이면,개의 거리값들이 작은 값 순서로에 채워지며, 나머지는 무한대값으로 채워지는 것을 특징으로 하는 최적 탐색방법.
KR10-2000-0050418A 2000-08-29 2000-08-29 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법 KR100398142B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2000-0050418A KR100398142B1 (ko) 2000-08-29 2000-08-29 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법
US09/781,291 US7188097B2 (en) 2000-08-29 2001-02-13 Optimal high-speed multi-resolution retrieval method on large capacity database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0050418A KR100398142B1 (ko) 2000-08-29 2000-08-29 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법

Publications (2)

Publication Number Publication Date
KR20020017219A KR20020017219A (ko) 2002-03-07
KR100398142B1 true KR100398142B1 (ko) 2003-09-19

Family

ID=19685848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0050418A KR100398142B1 (ko) 2000-08-29 2000-08-29 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법

Country Status (2)

Country Link
US (1) US7188097B2 (ko)
KR (1) KR100398142B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190137427A (ko) * 2018-06-01 2019-12-11 한국전력공사 최적해 도출 장치 및 최적해 도출 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100485819B1 (ko) * 2001-08-09 2005-04-28 삼성전자주식회사 디지털 데이터의 고속 전역 탐색 장치 및 방법
US20050108384A1 (en) * 2003-10-23 2005-05-19 Lambert John R. Analysis of message sequences
US20070118510A1 (en) * 2005-11-18 2007-05-24 Microsoft Corporation Optimization of leaf-level multi-dimensional calculation using scripts
US20070255684A1 (en) * 2006-04-29 2007-11-01 Yahoo! Inc. System and method using flat clustering for evolutionary clustering of sequential data sets
US8930365B2 (en) * 2006-04-29 2015-01-06 Yahoo! Inc. System and method for evolutionary clustering of sequential data sets
TR200802779A2 (tr) * 2008-04-22 2009-11-23 T�B�Tak- T�Rk�Ye B�L�Msel Ve Teknoloj�K Ara�Tirma Kurumu Zaman içerisinde değişen bir şekilde alt kümelendirilen bir evrensel kümelendirme yöntemi kullanılarak suçbilim veri tabanlarında karşılaştırma süresinin azaltılması.
US20100082623A1 (en) * 2008-09-19 2010-04-01 Aditya Arora Item clustering
US20100082571A1 (en) 2008-09-19 2010-04-01 Gurudatta Horantur Shivaswamy Text conversion
US9576021B2 (en) 2008-09-19 2017-02-21 Ebay Inc. Item matching
WO2010051547A2 (en) * 2008-10-31 2010-05-06 University Of Southern California Distance quantization in computing distance in high dimensional space
US10248697B2 (en) * 2009-07-24 2019-04-02 Raytheon Company Method and system for facilitating interactive review of data
KR101794910B1 (ko) * 2011-06-07 2017-11-07 삼성전자주식회사 다차원 데이터에 관한 영역 질의의 선택도를 계산하는 장치 및 방법
US8768921B2 (en) * 2011-10-20 2014-07-01 International Business Machines Corporation Computer-implemented information reuse
US8949224B2 (en) * 2013-01-15 2015-02-03 Amazon Technologies, Inc. Efficient query processing using histograms in a columnar database
US11010630B2 (en) * 2017-04-27 2021-05-18 Washington University Systems and methods for detecting landmark pairs in images

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002550A1 (en) * 2000-02-10 2002-01-03 Berman Andrew P. Process for enabling flexible and fast content-based retrieval

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190137427A (ko) * 2018-06-01 2019-12-11 한국전력공사 최적해 도출 장치 및 최적해 도출 방법
KR102517741B1 (ko) * 2018-06-01 2023-04-05 한국전력공사 최적해 도출 장치 및 최적해 도출 방법

Also Published As

Publication number Publication date
US20030149679A1 (en) 2003-08-07
KR20020017219A (ko) 2002-03-07
US7188097B2 (en) 2007-03-06

Similar Documents

Publication Publication Date Title
KR100398142B1 (ko) 대용량 데이터베이스에서의 고속에 의한 다해상도의 최적탐색방법
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN107085607B (zh) 一种图像特征点匹配方法
US7295718B2 (en) Non-linear quantization and similarity matching methods for retrieving image data
CN103336795B (zh) 基于多特征的视频索引方法
US6148295A (en) Method for computing near neighbors of a query point in a database
KR20090065130A (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN104142946A (zh) 一种同款业务对象聚合、搜索的方法和系统
US6910030B2 (en) Adaptive search method in feature vector space
KR100319151B1 (ko) 다중레벨 이미지 데이터 생성 방법과 다중레벨 이미지 데이터를 이용한 이미지 검색방법
EP1207464A2 (en) Database indexing using a tree structure
CN113255610B (zh) 特征底库构建、特征检索方法以及相关装置
Egas et al. Adapting kd trees to visual retrieval
JP2001134593A (ja) 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
KR101052220B1 (ko) 검색어를 포함하는 스카이라인 질의 수행장치 및 방법
JP2001134594A (ja) 類似特徴量の検索方法,その検索装置およびその検索プログラム記録媒体
KR100485819B1 (ko) 디지털 데이터의 고속 전역 탐색 장치 및 방법
JP3639480B2 (ja) 類似データ検索方法,類似データ検索装置,および類似データ検索用プログラム記録媒体
KR20050100729A (ko) 대략적 최대 흐름 정합을 기반으로 하는 고속 영상 비교,검색 시스템 및 방법
KR101153966B1 (ko) 고차원 데이터의 색인/검색 시스템 및 그 방법
CN110874419B (zh) 一种人脸数据库快速检索技术
Sara BALANCED LINKED LIST: BaLL
CN106777131A (zh) 一种高维空间数据的查询方法、装置及计算机可读介质
CN115408545A (zh) 一种结合硬盘与内存的近邻图向量检索方法及装置
Daoudi et al. Vector Approximation based Indexing for High-Dimensional Multimedia Databases.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090828

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee