KR100446639B1 - 셀 기반의 고차원 데이터 색인 장치 및 그 방법 - Google Patents

셀 기반의 고차원 데이터 색인 장치 및 그 방법 Download PDF

Info

Publication number
KR100446639B1
KR100446639B1 KR10-2001-0042482A KR20010042482A KR100446639B1 KR 100446639 B1 KR100446639 B1 KR 100446639B1 KR 20010042482 A KR20010042482 A KR 20010042482A KR 100446639 B1 KR100446639 B1 KR 100446639B1
Authority
KR
South Korea
Prior art keywords
signature
cell
feature vector
dimensional
dimensional data
Prior art date
Application number
KR10-2001-0042482A
Other languages
English (en)
Other versions
KR20030006638A (ko
Inventor
박수준
장재우
김현진
박성희
장명길
박상규
한성근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2001-0042482A priority Critical patent/KR100446639B1/ko
Publication of KR20030006638A publication Critical patent/KR20030006638A/ko
Application granted granted Critical
Publication of KR100446639B1 publication Critical patent/KR100446639B1/ko

Links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 셀 기반의 고차원 데이터 색인 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 각각의 객체(고차원 데이터)를 시그니쳐 및 거리 정보를 이용하여 셀 단위로 구성하여 색인하고, 이후에 시그니쳐 및 거리 정보를 이용한 필터링에 의하여 데이터를 검색하도록 함으로써, 차원이 증가함에 따라 발생하는 기존 트리 기반 색인 기법의 비효율성을 극복하고 검색 성능을 향상시키기 위한, 셀-기반의 고차원 데이터 색인 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 셀 기반의 고차원 데이터 색인 장치에 있어서, 객체로부터 추출된 N-차원 특징 벡터를 입력받아 상기 N-차원 특징 벡터가 속하는 셀을 구한 후, 이 셀을 표시하기 위한 특징 벡터 시그니쳐와 상기 N-차원 특징 벡터가 속하는 셀의 중심점에서 주어진 상기 N-차원 특징 벡터까지의 거리 시그니쳐를 생성하고 상기 특징 벡터 시그니쳐와 상기 거리 시그니쳐를 병합한 병합 시그니쳐를 생성하기 위한 시그니쳐 생성 수단; 상기 N-차원 특징 벡터와 상기 생성된 병합 시그니쳐를 서로 대응되도록 저장하기 위한 저장 수단; 및 상기 N-차원 특징 벡터 및 상기 병합 시그니쳐의 저장과 검색시, 록킹(Locking)개념을 이용하여 다수의 사용자를 지원하기 위한 동시성 제어 수단을 포함함.
4. 발명의 중요한 용도
본 발명은 고차원 데이터의 색인 등에 이용됨.

Description

셀 기반의 고차원 데이터 색인 장치 및 그 방법{Apparatus And Method of Cell-based Indexing of High-dimensional Data}
본 발명은 셀 기반의 고차원 데이터 색인 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 각각의 객체(고차원 데이터)를 시그니쳐 및 거리 정보를 이용하여 셀 단위로 구성하여 색인하고, 이후에 시그니쳐 및 거리 정보를 이용한 필터링에 의하여 데이터를 검색하도록 함으로써, 차원이 증가함에 따라 발생하는 기존 트리 기반 색인 기법의 비효율성을 극복하고 검색 성능을 향상시키기 위한, 셀-기반의 고차원 데이터 색인 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로 이미지나 비디오와 같은 멀티미디어 객체로부터 추출되는 특징 벡터(feature vector)는 멀티미디어 객체의 내용-기반 검색에 사용된다. 이를 위해 고차원 특징 벡터를 효율적으로 저장하기 위한 다수의 고차원 데이터 색인 기법들이 제안되어 왔다.기존 고차원 색인 기법은 데이터 공간상에 흩어져 있는 객체들을 효율적으로 검색하기 위해, 근접한 객체들의 집합인 최소경계사각형(MBR)을 검색 단위로 사용하였다. 그러나, 데이터 차원이 증가할수록 최소경계사각형 사이에 겹침 영역이 확대됨으로 인해 검색 성능이 기하급수적으로 떨어지는 차원 저주(dimensional curse) 문제가 발생하여 이에 대한 개선이 요구되고 있다.
즉, 기존의 고차원 데이터 색인 기법들은 객체 사이의 유사 거리를 계산하기 위하여 객체를 포함하는 최소경계사각형(MBR : Minimum Bounding Rectangle)을 사용한다. 그러나, 차원이 증가할수록 최소경계사각형 사이에 겹침 영역(overlap)이 급격하게 발생함으로써 검색 성능을 떨어뜨리는 문제를 안고 있다. 이와 같이, 기존에 제시된 대부분의 고차원 데이터 색인 기법들은 10차원 이하의 저차원 데이터에 대해서는 검색 성능이 우수하지만, 차원이 증가함에 따라 검색 성능이 기하급수적으로 떨어지는 문제점이 있다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 각각의 객체(고차원 데이터)를 시그니쳐 및 거리 정보를 이용하여 셀 단위로 구성하여 색인하고, 이후에 시그니쳐 및 거리 정보를 이용한 필터링에 의하여 데이터를 검색하도록 함으로써, 차원이 증가함에 따라 발생하는 기존 트리 기반 색인 기법의 비효율성을 극복하고 검색 성능을 향상시키기 위한, 셀-기반의 고차원 데이터 색인 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 셀 기반의 고차원 데이터 색인 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 새로운 최소거리(MINDIST) 및 최대거리(MAXDIST)에 대한 정의도.
도 3 은 본 발명에 따른 N차원 벡터를 시그니쳐로 변환하는 일실시예 구조도.
도 4 는 본 발명에 따른 시그니쳐 및 벡터의 저장을 위한 일실시예 구조도.
도 5 는 본 발명에 따른 시그니쳐 및 벡터 검색을 위한 일실시예 구조도.
도 6 은 본 발명에 따른 k-최근접 질의에 대한 처리 예시도.
도 7 은 본 발명에 따른 주어진 범위내의 포함된 모든 객체를 검색하는 범위 질의에 대한 처리 예시도.
도 8 은 본 발명에 따른 셀 기반의 고차원 데이터 색인 방법의 일실시예 동작 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
11 : 이미지 12 : 객체 저장기
13 : 이미지 데이터베이스 14 : 특징 벡터 추출기
15 : N-차원 특징 벡터 16 : 셀-기반 색인 장치
17 : 사용자 101 : 시그니쳐 생성 모듈
102 : 저장 모듈 103 : 동시성 제어 모듈
104 : 검색 모듈 105 : 시그니쳐 데이터베이스
106 : 특징 벡터 데이터베이스
상기 목적을 달성하기 위한 본 발명은, 셀 기반의 고차원 데이터 색인 장치에 있어서, 객체로부터 추출된 N-차원 특징 벡터를 입력받아 상기 N-차원 특징 벡터가 속하는 셀을 구한 후, 이 셀을 표시하기 위한 특징 벡터 시그니쳐와 상기 N-차원 특징 벡터가 속하는 셀의 중심점에서 주어진 상기 N-차원 특징 벡터까지의 거리 시그니쳐를 생성하고 상기 특징 벡터 시그니쳐와 상기 거리 시그니쳐를 병합한 병합 시그니쳐를 생성하기 위한 시그니쳐 생성 수단; 상기 N-차원 특징 벡터와 상기 생성된 병합 시그니쳐를 서로 대응되도록 저장하기 위한 저장 수단; 및 상기 N-차원 특징 벡터 및 상기 병합 시그니쳐의 저장과 검색시, 록킹(Locking)개념을 이용하여 다수의 사용자를 지원하기 위한 동시성 제어 수단을 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 셀 기반의 고차원 데이터 색인 장치에 사용되는 고차원 데이터 색인 방법에 있어서, 특징 벡터 추출기를 통해 멀티미디어 객체로부터 N-차원 특징 벡터를 추출하는 제 1 단계; 상기 추출된 N-차원 특징 벡터로부터 특징 벡터 시그니쳐와 셀 중심에서 객체까지의 거리 값을 사용한 거리 시그니쳐를 생성하는 제 2 단계; 상기 생성된 특징 벡터 시그니쳐와 거리 시그니쳐를 하나의 시그니쳐로 병합(concatenation)하여 병합 시그니쳐를 생성하는 제 3 단계; 및 상기 생성된 병합 시그니쳐와 상기 특징 벡터를 서로 대응되도록 저장하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 프로세서를 구비한 고차원 데이터 색인 장치에, 시그니쳐 생성 수단이 객체로부터 추출된 N-차원 특징 벡터를 입력받아 특징 벡터 시그니쳐 및 셀 중심에서 객체까지의 거리 값에 따른 거리 시그니쳐를 생성하는 시그니쳐 생성 기능; 상기 시그니쳐 생성 수단이 상기 생성한 특징 벡터 시그니쳐 및 거리 시그니쳐를 하나의 시그니쳐로 병합(concatenation)하여 병합 시그니쳐를 생성하는 병합 시그니쳐 생성 기능; 및 저장 수단이 상기 생성한 병합 시그니쳐와 상기 N-차원 특징 벡터를 서로 대응되도록 저장하는 데이터 색인 기능 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
고차원 데이터 검색을 지원하는 종래의 색인 기술의 단점은 근접 객체 집합인 최소경계사각형의 겹침 영역 발생의 문제와 객체와 최소경계사각형 사이의 거리 개념 정의의 비효율성이다. 본 발명에서는 고차원 데이터 공간을 셀로 나누고 시그니쳐로 표현함으로써, 셀 사이의 겹침을 제거하고, 객체와 셀 중심 사이의 새로운 거리 개념을 사용함으로써 필터링 효과를 증대하여 고차원 데이터에 대한 검색 효율을 최대화한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 셀 기반의 고차원 데이터 색인 시스템의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 셀 기반의 고차원 데이터 색인 시스템은 이미지(11)를 식별자(ID)에 상응하도록 이미지 데이터베이스(13)에 저장하기 위한 객체 저장기(12), 이미지(11)의 N-차원 특징 벡터를 추출하기 위한 특징 벡터 추출기(14), 객체 저장기(12)로부터의 식별자(ID)와 특징 벡터 추출기(14)를 통해 추출된 N-차원 특징 벡터(15)에 따라 고차원 데이터를 색인하기 위한 셀-기반 고차원 데이터 색인 장치(16)를 구비한다.
도 1 에 도시된 블록 중 셀-기반 색인 장치(16)를 좀 더 상세히 살펴보기로 한다.상기 셀-기반 색인 장치(16)는 특징 벡터 추출기(14)를 통하여 객체로부터 추출된 N-차원 특징 벡터를 이용하여, 상기 N-차원 특징 벡터가 속하는 셀을 구하고 이 셀을 표시하기 위한 특징 벡터 시그니쳐와 상기 N-차원 특징 벡터가 속하는 셀의 중심점에서 주어진 상기 N-차원 특징 벡터까지의 거리 시그니쳐를 생성한 후, 상기 특징 벡터 시그니쳐와 상기 거리 시그니쳐를 병합한 병합 시그니쳐를 생성한다.즉, 상기 셀-기반 색인 장치(16)는 특징 벡터 추출기(14)에서 추출된 N-차원 특징 벡터(15)를 이용하여, N-차원 특징 벡터(15)가 속하는 셀을 구하고, 이 셀을 표시하기 위한 셀 식별자를 1과 0의 비트 패턴으로 표현되는 시그니쳐로 변환하며, 아울러 N-차원 특징 벡터(15)가 속하는 셀의 중심점에서 N-차원 특징 벡터(15)까지의 거리 값을 구하기 위한 시그니쳐 생성 모듈(101), N-차원 특징 벡터(15)를 특징 벡터 데이터베이스(106)에 저장하고, 시그니쳐 및 셀의 중심점에서 N-차원 특징 벡터(15)까지의 거리 값을 시그니쳐 데이터베이스(105)에 저장하기 위한 저장 모듈(102), N-차원 특징 벡터(15) 및 시그니쳐의 저장과 검색 시, 록킹(Locking)개념을 이용하여 다수의 사용자를 지원하기 위한 동시성 제어 모듈(103) 및 사용자의 질의에 따라 시그니쳐 데이터베이스(105)를 검색하여 사용자의 질의를 만족하지 않는 시그니쳐를 필터링하고, 사용자의 질의를 만족하는 시그니쳐에 상응하는 N-차원 특징 벡터(15) 및 식별자(ID)를 특징 벡터 데이터베이스(106)로부터 추출하여 제공하는 검색 모듈(104)을 구비한다.
도 2 는 본 발명에 따른 새로운 최소거리(MINDIST) 및 최대거리(MAXDIST)에 대한 정의도이다.
본 발명에서는 셀-기반으로 필터링을 수행하기 위해 새로운 거리 개념을 정의하여 사용한다. 본 발명에서 사용하는 새로운 거리 개념은 도 2 에 도시된 최소거리(MINDIST)(202)와 최대거리(MAXDIST)(201)이다.
본 발명에서는 객체를 저장할 때, 셀 중심과 객체 사이의 거리(RADIUS)를 미리 계산하여 저장하며, 이 값을 사용하여 사용자로부터 주어진 질의 객체(Q)와의 최소, 최대 거리를 다음의 <수학식1>, <수학식2>와 같이 정의하여 사용한다.
<수학식1>에서 정의된 최소거리(MINDIST)(202)는 질의 객체와 셀 내에 저장된 객체와의 가장 가까운 거리이며, 질의 객체와 셀 중심과의 거리(CENTERDIST)에서 미리 계산되어 저장된 셀 중심과 객체 사이의 거리(RADIUS)를 뺀 값이다.
그리고, <수학식2>에서 정의된 최대거리(MAXDIST)(201)는 질의 객체와 셀 내에 저장된 객체와의 가장 먼 거리이며, 질의 객체와 셀 중심과의 거리(CENTERDIST)에 셀 중심과 객체 사이의 거리(RADIUS)를 더한 값이다.
상기의 질의 객체로부터 구해진 최소거리와 최대거리를 사용하면, 데이터베이스에 저장된 모든 객체를 접근하지 않고 필터링을 통하여 원하는 객체를 빨리 탐색할 수 있다. 즉, 새롭게 정의된 최소, 최대 거리는 하나의 셀에 저장된 객체들의 영역을 최적화하여 표현함으로써 필터링 효과를 증대시킨다.
도 3 은 본 발명에 따른 N차원 벡터를 시그니쳐로 변환하는 일실시예 구조도이다.
셀-기반 필터링에서는 데이터 공간이 셀로 분할되며, 메인 메모리 사용의 최적화를 위해 각각의 셀은 시그니쳐로 표현된다. 이때, 셀이라 함은 구간을 나눈 결과로 이루어지는 한 부분을 말하며, 시그니쳐는 셀을 1과 0의 비트 패턴으로 표현한 것을 말한다.
고차원 공간상의 객체의 특징 벡터는 그 객체를 포함하는 셀의 시그니쳐로 변환되어 저장된다. 또한, 필터링 효과를 증대하기 위해 셀 중심에서 객체까지의 거리 값을 계산하며, 이 값 또한 시그니쳐로 변환하여 저장한다. 도 3 은 이와 같은 시그니쳐를 생성하는 과정을 나타낸다. 차원이 N인 특징 벡터를 시그니쳐로 변환하기 위해서 다음과 같은 <수학식3>을 사용한다.
여기서, b는 특징 벡터의 각 차원마다 할당할 시그니쳐 비트 수
F는 0이상 1.0미만의 값을 갖는 특징 벡터
s는 생성되는 시그니쳐
<수학식3>에 따르면, N차원 특징 벡터에 대한 N차원 시그니쳐의 전체 크기는bits 가 된다. 아울러, 셀 중심에서 객체까지의 거리값 또한 1바이트의 시그니쳐로 표현한다. 이렇게 생성된 특징 벡터의 시그니쳐와 거리 시그니쳐는 하나의시그니쳐로 병합되어 시그니쳐 파일에 저장된다.
도 4 는 본 발명에 따른 시그니쳐 및 벡터의 저장을 위한 일실시예 구조도이다.
시그니쳐 생성 모듈에 의해 N차원 특징 벡터(41)로부터 생성된 특징 벡터 시그니쳐(401)와 거리 시그니쳐(402)를 병합한 병합 시그니쳐(403)는 저장 모듈을 통해 시그니쳐 파일(42)에 순차적으로 저장된다.
그러나, 객체의 삭제나 갱신과 같은 연산이 시스템에서 발생하였다면, 참조 파일(reference file)(44)을 참조하여 현재 시그니쳐 파일(42)에서 빈 레코드 영역의 위치를 알아내어 그 위치에 시그니쳐를 저장한다.
시그니쳐를 저장한 후, 실제 객체의 특징 벡터를 시그니쳐와 같은 위치(인덱스)의 데이터 파일(data file)(43)에 저장한다. 이와 같이, 시그니쳐와 특징 벡터를 같은 위치(인덱스)에 저장함으로써, 검색시 부가적인 연산을 줄일 수 있다.
도 5 는 본 발명에 따른 시그니쳐 및 벡터 검색을 위한 일실시예 구조도이다.
저장된 객체들을 검색하기 위해 사용자 질의가 주어지면 사용자 질의 벡터(51)로부터 시그니쳐 생성 모듈을 통해 질의 시그니쳐(501)를 구한다. 그리고, 사용자 질의 벡터(51) 및 질의 시그니쳐(501) 정보를 이용하여 시그니쳐 파일(52)을 순차 탐색한다. 이 때, 시그니쳐 파일(52)을 순차 탐색하여 얻어진 후보 셀 리스트(54)를 이용하여 특징 벡터로부터의 데이터 파일(53)을 검색할 수 있다.
즉, 시그니쳐 파일(52)을 순차 탐색하여 본 발명에서 새롭게 정의한 최소 거리와 최대 거리에 따른 필터링을 수행한다. 이와 같이, 본 발명에 따라 새롭게 정의된 최소 거리와 최대거리를 사용하여 해당 데이터 레코드들만을 액세스함으로써 불필요한 데이터 액세스를 줄일 수 있어 검색 속도가 향상된다.
이하 도 6 내지 도 7 를 통해 본 발명에 따른 특징 벡터 검색 방법을 좀 더 상세히 살펴보기로 한다.
도 6 은 본 발명에 따른 k-최근접 질의에 대한 처리 예시도이다.
본 발명에 따른 k-최근접 질의라 함은 사용자의 질의에 가장 유사한 k개의 객체를 검색하는 방법이다. 도 6 에 도시된 바와 같이 차원의 수는 2이며, 차원마다 2비트 시그니쳐를 사용한다고 가정한다.
사용자 질의(Q)가 (0.4, 0.2)로 주어졌을 경우, 우선 시그니쳐 파일에 저장된 모든 시그니쳐들(A, B, C, D, E)을 순차적으로 탐색하여 후보 셀들을 얻는다. 즉, 각각의 시그니쳐들을 순차적으로 탐색하면서 현재까지 얻어진 k-번째 최대 거리(MAXDIST)와 현재 탐색 중인 셀의 최소 거리(MINDIST)를 비교하여 필터링을 수행한다.
좀 더 자세히 살펴보면, 도 6 에서 시그니쳐들을 탐색하면서 얻어진 k-번째 최대 거리 값은 질의 점(Q)과 셀 D 사이의 거리이다. 따라서, 이 값보다 큰 최소 거리를 갖는 셀들(B, C, E)은 후보 셀로부터 제외되며, 이 값보다 작은 최소 거리를 갖는 셀들(A, D)은 후보 셀로 선택된다. 이렇게 선택된 후보 셀들에 대해서, 데이터 파일을 접근하여 객체의 특징 벡터와 질의 점(Q) 사이의 거리를 비교하여 가장 가까운 거리를 갖는 객체 D(0.6, 0.4)를 최종적으로 검색하여 반환한다.
다시 보면, 사용자 질의 Q(0.4, 0.2) (k=1)가 주어지면 시그니쳐 화일을 순차적으로 탐색하여 Q 로부터 가장 짧은 최대 거리를 보관(예컨대, 도 6 의 현재 D 가 속한 셀 부분)하고 이보다 길이가 긴 최소 거리를 가진 셀들은 필터링되어 더 이상 고려의 대상이 되지 않는다(예컨대, 도 6 의 B, C, E 를 포함하는 셀). 따라서, 현재는 A, D 를 담고 있는 셀만이 고려의 대상이 되므로 박스(BOX)화하여 나타내었고, 실제 데이터 화일에서는 이에 해당하는 2개만을 고려 대상으로 선택하고 최근접(1-NN) 셀을 찾으므로 최종 결과는 객체 D(0.6,0.4)가 된다.
도 7 은 본 발명에 따른 주어진 범위내의 포함된 모든 객체를 검색하는 범위 질의에 대한 처리 예시도이다.
본 발명에 따른 주어진 범위내의 포함된 모든 객체를 검색하는 범위 질의를 처리하기 위해 먼저, 후보 셀들을 찾기 위해서 시그니쳐 파일을 순차적으로 탐색한다. 이때, 사용자 질의(Q)를 중심으로 주어진 거리 값(반경 : radius)보다 큰 최소 거리 값을 갖는 셀들은 후보 리스트로부터 제외된다. 즉, 도 7 에서 객체 A, E의 최소 거리가 중심으로부터의 반경보다 크기 때문에 후보 리스트에서 제외된다. 선택된 후보 셀들에 대해서 데이터 파일을 액세스하게 되는데 최종적으로 주어진 거리 값(반경) 안에 포함되는 객체 B, C, D가 검색되어 결과 값으로 반영된다.
즉, 도 7 에 도시된 바와 같이, 사용자 질의 Q(0.4, 0.2)(radius=O.3)가 주어지면, 시그니쳐 화일을 순차적으로 탐색하여 사용자 질의(Q)로부터 반경 범위 내의 셀(B, C, D)만이 고려대상이고 반경 범위 밖의 셀들은 필터링되어 더 이상 고려 대상이 되지 않는다(예컨대, A, E 를 포함하는 셀). 따라서, 현재는 B, C, D 를 담고 있는 셀만이 고려 대상이 되므로 박스(BOX)화하여 나타내었고, 실제 데이터 화일에서는 이에 해당하는 3개만을 고려 대상으로 놓고 범위 질의를 찾으니 최종 결과는 2개로써 (0.1,0.8)과 (0.7,0.85)가 된다.
도 8 은 본 발명에 따른 셀 기반의 고차원 데이터 색인 방법의 일실시예 동작 흐름도이다.
먼저, 특징 벡터 추출기를 통해 멀티미디어 객체로부터 N-차원 특징 벡터를 추출하고(801), 추출된 N-차원 특징 벡터로부터 본 발명의 시그니쳐 생성 모듈을 통해 특징 벡터에 대한 시그니쳐와 셀 중심에서 객체까지의 거리 값을 사용한 거리 시그니쳐를 생성한다(802).
그리고, 생성된 특징 벡터 시그니쳐와 거리 시그니쳐를 하나의 시그니쳐로 병합(concatenation)하여 병합 시그니쳐를 생성하고(803), 생성된 병합 시그니쳐를 저장 모듈을 통해 시그니쳐 데이터베이스(signature DB)에 저장한다(804). 아울러, 멀티미디어 객체의 특징 벡터 정보를 저장 모듈을 통해 특징 벡터 데이터베이스(feature vector DB)에 저장한다(805).
한편, 사용자는 검색 모듈을 통해 다양한 질의(즉, 점(point) 질의, 범위(range) 질의, k-최근접 질의)를 사용하여 저장된 객체의 특징 벡터에 대한 검색을 수행할 수 있다(806).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 고차원 공간상의 데이터를 저장하기 위해 고차원 데이터를 셀로 나누어 시그니쳐로 표현함으로써 셀간의 겹침을 방지할 수 있으며, 셀 중심과 저장된 객체 사이의 거리 값을 이용하여 보다 효과적인 필터링을 수행함으로써 고차원 데이터를 효율적으로 검색할 수 있는 효과가 있다.

Claims (15)

  1. 셀 기반의 고차원 데이터 색인 장치에 있어서,
    객체로부터 추출된 N-차원 특징 벡터를 입력받아 상기 N-차원 특징 벡터가 속하는 셀을 구한 후, 이 셀을 표시하기 위한 특징 벡터 시그니쳐와 상기 N-차원 특징 벡터가 속하는 셀의 중심점에서 주어진 상기 N-차원 특징 벡터까지의 거리 시그니쳐를 생성하고 상기 특징 벡터 시그니쳐와 상기 거리 시그니쳐를 병합한 병합 시그니쳐를 생성하기 위한 시그니쳐 생성 수단;
    상기 N-차원 특징 벡터와 상기 생성된 병합 시그니쳐를 서로 대응되도록 저장하기 위한 저장 수단; 및
    상기 N-차원 특징 벡터 및 상기 병합 시그니쳐의 저장과 검색시, 록킹(Locking)개념을 이용하여 다수의 사용자를 지원하기 위한 동시성 제어 수단
    을 포함하는 셀 기반의 고차원 데이터 색인 장치.
  2. 제 1 항에 있어서,
    사용자의 질의에 대해 상기 저장된 시그니쳐를 이용해서 사용자의 질의를 만족할 가능성이 없는 것을 필터링하고, 필터링되지 않는 것에 대해 상기 저장된 특징 벡터를 찾아 출력하기 위한 검색 수단
    을 더 포함하는 셀 기반의 고차원 데이터 색인 장치.
  3. 제 2 항에 있어서,
    상기 검색 수단은,
    사용자의 질의에 대해 정확히 일치하는 시그니쳐를 검색하여, 이에 대한 특징 벡터를 출력하는 것을 특징으로 하는 셀 기반의 고차원 데이터 색인 장치.
  4. 제 2 항에 있어서,
    상기 검색 수단은,
    사용자의 질의에 대해 가장 유사한 소정의 수의 객체를 검색하여, 이에 대한 특징 벡터를 것을 특징으로 하는 셀 기반의 고차원 데이터 색인 장치.
  5. 제 2 항에 있어서,
    상기 검색 수단은,
    사용자의 질의에 대해 주어진 범위내의 포함된 모든 객체를 검색하여, 이에 대한 특징 벡터를 것을 특징으로 하는 셀 기반의 고차원 데이터 색인 장치.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 셀은 구간을 나눈 결과로 이루어지는 한 부분을 말하며, 상기 시그니쳐는 상기 셀을 2진수의 비트 패턴으로 표현한 것을 특징으로 하는 셀 기반의 고차원 데이터 색인 장치.
  7. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 저장 수단은,
    상기 N-차원 특징 벡터를 저장하기 위한 특징 벡터 저장 수단; 및
    상기 생성된 병합 시그니쳐를 저장하기 위한 시그니쳐 저장 수단
    을 포함하는 셀 기반의 고차원 데이터 색인 장치.
  8. 셀 기반의 고차원 데이터 색인 장치에 사용되는 고차원 데이터 색인 방법에 있어서,
    시그니쳐 생성 수단이 객체로부터 추출된 N-차원 특징 벡터를 입력받아 특징 벡터 시그니쳐 및 셀 중심에서 객체까지의 거리 값에 따른 거리 시그니쳐를 생성하는 시그니쳐 생성 단계;
    상기 시그니쳐 생성 수단이 상기 생성한 특징 벡터 시그니쳐 및 거리 시그니쳐를 하나의 시그니쳐로 병합(concatenation)하여 병합 시그니쳐를 생성하는 병합 시그니쳐 생성 단계; 및
    저장 수단이 상기 생성한 병합 시그니쳐와 상기 N-차원 특징 벡터를 서로 대응되도록 저장하는 데이터 색인 단계
    를 포함하는 셀 기반의 고차원 데이터 색인 방법.
  9. 제 8 항에 있어서,
    검색 수단이 상기 저장한 병합 시그니쳐를 이용하여 사용자의 질의에 만족하는 N-차원 특징 벡터를 검색하여 그 결과를 출력하는 특징 벡터 검색 단계
    를 더 포함하는 셀 기반의 고차원 데이터 색인 방법.
  10. 제 9 항에 있어서,
    상기 특징 벡터 검색 단계는,
    상기 검색 수단이 사용자의 질의에 따라 상기 저장된 병합 시그니쳐를 순차적으로 검색하여 상기 사용자의 질의와 일치하는 시그니쳐를 검색하는 시그니쳐 검색 단계; 및
    상기 검색한 시그니쳐에 대응하는 N-차원 특징 벡터를 검색하여 출력하는 특징 벡터 출력 단계
    를 포함하는 셀 기반의 고차원 데이터 색인 방법.
  11. 제 9 항에 있어서,
    상기 특징 벡터 검색 단계는,
    상기 검색 수단이 사용자의 질의에 따라 상기 저장된 병합 시그니쳐들을 순차적으로 검색하여 후보 셀들을 얻는 후보셀 획득 단계;
    상기 검색 수단이 상기 후보 셀들로부터 상기 사용자 질의로부터 소정의 순서에 해당하는 최대 거리를 가진 셀을 찾는 최대 거리 셀 검색 단계;
    상기 최대 거리 셀 검색 단계에서 찾은 셀의 최대 거리보다 긴 최소 거리를 가진 셀을 필터링하는 제 1 필터링 단계;
    상기 제 1 필터링 단계에서 필터링된 셀들을 제외한 나머지 셀 중 최근접한 셀을 찾는 최근접 셀 검색 단계; 및
    상기 최근접 셀에 대응하는 특징 벡터를 출력하는 제 1 특징 벡터 출력 단계
    를 포함하는 셀 기반의 고차원 데이터 색인 방법.
  12. 제 9 항에 있어서,
    상기 특징 벡터 검색 단계는,
    사용자의 질의로부터 상기 저장된 시그니쳐를 순차적으로 검색하여 상기 사용자 질의로부터 소정의 범위내에 포함된 셀을 찾아 소정의 범위 보다 최소 거리가 긴 셀들을 필터링하는 제 2 필터링 단계;
    상기 제 2 필터링 단계에서 필터링된 셀들을 제외한 나머지 셀 중 상기 고정의 범위 내의 셀을 검색하는 셀 검색 단계; 및
    상기 검색한 셀에 대응하는 특징 벡터를 출력하는 제 2 특징 벡터 출력 단계
    를 포함하는 셀 기반의 고차원 데이터 색인 방법.
  13. 제 8 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 셀은 구간을 나눈 결과로 이루어지는 한 부분을 말하며, 상기 시그니쳐는 상기 셀을 2진수의 비트 패턴으로 표현되는 것을 특징으로 하는 셀 기반의 고차원 데이터 색인 방법.
  14. 프로세서를 구비한 고차원 데이터 색인 장치에,
    시그니쳐 생성 수단이 객체로부터 추출된 N-차원 특징 벡터를 입력받아 특징 벡터 시그니쳐 및 셀 중심에서 객체까지의 거리 값에 따른 거리 시그니쳐를 생성하는 시그니쳐 생성 기능;
    상기 시그니쳐 생성 수단이 상기 생성한 특징 벡터 시그니쳐 및 거리 시그니쳐를 하나의 시그니쳐로 병합(concatenation)하여 병합 시그니쳐를 생성하는 병합 시그니쳐 생성 기능; 및
    저장 수단이 상기 생성한 병합 시그니쳐와 상기 N-차원 특징 벡터를 서로 대응되도록 저장하는 데이터 색인 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  15. 제 14 항에 있어서,
    검색 수단이 상기 저장한 병합 시그니쳐를 이용하여 사용자의 질의에 만족하는 N-차원 특징 벡터를 검색하여 그 결과를 출력하는 특징 벡터 검색 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2001-0042482A 2001-07-13 2001-07-13 셀 기반의 고차원 데이터 색인 장치 및 그 방법 KR100446639B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0042482A KR100446639B1 (ko) 2001-07-13 2001-07-13 셀 기반의 고차원 데이터 색인 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0042482A KR100446639B1 (ko) 2001-07-13 2001-07-13 셀 기반의 고차원 데이터 색인 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030006638A KR20030006638A (ko) 2003-01-23
KR100446639B1 true KR100446639B1 (ko) 2004-09-04

Family

ID=27715096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0042482A KR100446639B1 (ko) 2001-07-13 2001-07-13 셀 기반의 고차원 데이터 색인 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100446639B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912371B1 (ko) * 2007-12-17 2009-08-19 한국전자통신연구원 클러스터 환경에서 고확장성을 지원하는 대용량 고차원데이터 색인 장치 및 방법
KR100903961B1 (ko) * 2007-12-17 2009-06-25 한국전자통신연구원 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
KR101994871B1 (ko) * 2017-02-28 2019-07-01 서울과학기술대학교 산학협력단 다차원 데이터에 대한 색인 생성 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139493A (ja) * 1997-07-15 1999-02-12 Samsung Electron Co Ltd 距離及び方向に鑑みたパターン整合装置及びその方法
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
KR20010109067A (ko) * 2000-05-31 2001-12-08 윤종용 특징 벡터 데이터 공간의 인덱싱 방법
KR20020037436A (ko) * 2000-11-14 2002-05-21 윤종용 특징 벡터 공간내에서의 적응적 검색 방법
KR20020038438A (ko) * 2000-11-15 2002-05-23 윤종용 특징 벡터 공간의 인덱싱 방법 및 검색 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139493A (ja) * 1997-07-15 1999-02-12 Samsung Electron Co Ltd 距離及び方向に鑑みたパターン整合装置及びその方法
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
KR20010109067A (ko) * 2000-05-31 2001-12-08 윤종용 특징 벡터 데이터 공간의 인덱싱 방법
KR20020037436A (ko) * 2000-11-14 2002-05-21 윤종용 특징 벡터 공간내에서의 적응적 검색 방법
KR20020038438A (ko) * 2000-11-15 2002-05-23 윤종용 특징 벡터 공간의 인덱싱 방법 및 검색 방법

Also Published As

Publication number Publication date
KR20030006638A (ko) 2003-01-23

Similar Documents

Publication Publication Date Title
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US6084595A (en) Indexing method for image search engine
KR100344530B1 (ko) 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법
US20100106713A1 (en) Method for performing efficient similarity search
US20080133565A1 (en) Device and method for constructing inverted indexes
KR20090048624A (ko) 데이터 구조를 가지는 하나 이상의 장치 판독가능 매체, 및장치 실행가능 명령어를 구비한 하나 이상의 장치 판독가능 매체
Brisaboa et al. Similarity search using sparse pivots for efficient multimedia information retrieval
Yu High-dimensional indexing: transformational approaches to high-dimensional range and similarity searches
WO2014047214A1 (en) Hierarchical ordering of strings
CN116450656B (zh) 数据处理方法、装置、设备及存储介质
Mohamed et al. Quantized ranking for permutation-based indexing
JP2012079186A (ja) 画像検索装置、画像検索方法及びプログラム
JP6434162B2 (ja) データ管理システム、データ管理方法およびプログラム
Bohm et al. Probabilistic ranking queries on gaussians
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
Mohamed et al. Quantized ranking for permutation-based indexing
Skopal et al. Answering Metric Skyline Queries by PM-tree.
KR101327960B1 (ko) 데이터 시퀸스 색인 방법 및 그 소스 프로 그램을 기록한 기록 매체
Schuh et al. Improving the Performance of High-Dimensional k NN Retrieval through Localized Dataspace Segmentation and Hybrid Indexing
JP2001134593A (ja) 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
Han et al. A new high-dimensional index structure using a cell-based filtering technique
Shishibori et al. An improved method to select candidates on metric index vp-tree
Shishibori et al. A method to Improve metric index VP-tree for multimedia databases
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee