KR20090065130A - 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 - Google Patents

시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 Download PDF

Info

Publication number
KR20090065130A
KR20090065130A KR1020070132582A KR20070132582A KR20090065130A KR 20090065130 A KR20090065130 A KR 20090065130A KR 1020070132582 A KR1020070132582 A KR 1020070132582A KR 20070132582 A KR20070132582 A KR 20070132582A KR 20090065130 A KR20090065130 A KR 20090065130A
Authority
KR
South Korea
Prior art keywords
signature
feature vector
query
file
level
Prior art date
Application number
KR1020070132582A
Other languages
English (en)
Other versions
KR100903961B1 (ko
Inventor
이훈순
이미영
김명준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070132582A priority Critical patent/KR100903961B1/ko
Priority to US12/107,419 priority patent/US8032534B2/en
Publication of KR20090065130A publication Critical patent/KR20090065130A/ko
Application granted granted Critical
Publication of KR100903961B1 publication Critical patent/KR100903961B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 2 레벨 시그니처를 기반으로 한 고차원의 특징 벡터 데이터를 이용한 멀티미디어 객체에 대한 내용 기반 검색 방법 및 그 시스템에 관한 것이다.
본 발명에 따른 시그니처 파일을 이용한 고차원 데이터의 검색 방법은, 질의 특징 벡터를 이용하여 1단계 질의 시그니처 및 2단계 질의 시그니처를 연산하는 단계, 2단계 시그니처 파일을 탐색하여 1차 후보 집합을 구하는 1차 필터링 단계 및 1차 후보 셀 집합에서 유사도가 높은 2차 후보 집합을 구하는 2차 필터링 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 질의를 빠르고 정확하게 처리하게 할 수 있으며, 질의 특징 벡터에 대한 시그니처를 보강하여 검색에 이용함으로써 검색의 정확도를 높일 수 있다.
멀티미디어 데이터 검색, 고차원 데이터 색인, 시그니처 검색, 보정된 시그니처 검색

Description

시그니처 파일을 이용한 고차원 데이터 색인 및 검색 방법과 그 시스템 {Indexing And Searching Method For High-Demensional Data Using Signature File And The System Thereof}
본 발명은 고차원의 특징 벡터 데이터를 이용한 멀티미디어 객체에 대한 내용 기반 검색 방법 및 그 시스템에 관한 것으로서, 특히 2 레벨 시그니처를 이용하여 질의를 빠르고 정확하게 처리하게 하는 것에 대한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호:2007-S-016-01, 과제명: 저비용 대규모 글로벌 인터넷 서비스 솔루션 개발].
컴퓨팅 기술 및 미디어 기술의 발달로 인해 정보들은 문자뿐 아니라 이미지, 오디오, 비디오를 포함하는 멀티미디어 형태로 표현된다. 이러한 멀티미디어 정보를 다루는데 있어서 주된 문제는 검색의 효율성이다. 즉, 얼마나 빠르고 정확하게 사용자가 원하는 정보를 포함하고 있는 멀티미디어 데이터를 찾을 수 있는가가 문 제된다. 일반적으로 이미지, 오디오, 비디오와 같은 멀티미디어 객체로부터 검색을 수행하는 방법으로 고차원의 특징 벡터 데이터를 추출하여 이를 이용하여 검색을 수행하는 내용 기반 검색 방법이 있다.
이러한 멀티미디어 객체에 대해 내용 기반 검색을 하는 대표적인 질의 (Query) 유형으로는 범위 질의(Range Query)와 k-최근접 질의(k-Nearest Neighbor Query)가 있다.
범위 질의는 일정 범위의 유사도를 만족하는 것을 찾는 질의이고, k-최근접 질의는 유사도가 높은 k개를 찾는 질의이다. 이러한 질의에서 유사도에 대한 계산은 일반적으로 유클리디언 거리 (Euclidean Distance)를 계산하는 방법이 많이 사용된다.
이러한 고차원 데이터에 대한 검색시 빠른 검색을 보장하기 위해서는 유사도 계산과 데이터 읽기를 줄이는 것이 중요하다. 이를 위하여 고차원 데이터에 대한 색인기법을 사용하고 있으며, 이는 크게 트리 기반 색인을 구축하는 방법과 필터링 기반 방법으로 나누어서 제안되고 있다.
트리 기반 고차원 색인 기법들 (예컨대, R-Tree, X-Tree, SR-Tree, M-Tree)은 데이터 공간에 흩어져 있는 객체들을 효율적으로 검색하기 위해, 근접한 객체들의 집합을 나타내는 사각형이나 원을 검색 단위로 사용하였다. 그러나, 데이터의 차원이 증가할수록 근접한 객체들의 집합을 나타내는 사각형이나 원 사이에 겹침 영역이 확대됨으로 인해 검색 성능이 기하급수적으로 떨어져서 순차 검색보다도 성능이 나빠지는 차원의 저주(dimensional curse) 문제가 발생하여 이에 대한 개선이 요구된다.
종래의 필터링 기반 방법 (예컨대, VA-File, CBF) 은 시그니처(signature)와 특징 벡터를 사용하여 필터링을 수행함으로써 고차원 데이터에 대한 검색 성능을 개선한 방법으로, 시그니처 파일을 모두 순차적으로 읽어서 1차 필터링을 한 후에 특징 벡터를 읽는 방법이다.
그러나, 이 방법은 시그니처를 위한 비트의 크기를 적게 하면 정확도가 떨어지고 시그니처 비트의 크기를 크게 하면 읽어야 하는 데이터의 크기가 많아지는 문제가 존재한다.
본 발명은 멀티미디어 객체에 대한 내용 기반 검색을 하는데 있어서, 고차원의 특징 벡터 데이터를 이용하여 사용자의 질의를 빠르고 정확하게 처리하게 하는 방법 및 시스템을 제공하는데 그 목적이 있다.
전술한 목적을 이루기 위하여, 본 발명은 고차원 데이터의 특징 벡터 및 객체 식별자를 포함하는 색인 생성 관련 정보를 입력받는 단계와, 상기 특징 벡터와 상기 객체 식별자를 포함하는 특징 벡터 파일을 생성하는 단계와, 상기 특징 벡터로부터 1단계 시그니처를 구하고 이를 1단계 시그니처 파일에 저장하는 단계와, 상기 1단계 시그니처 정보와 상기 특징 벡터를 이용하여, 2단계 시그니처를 구하고 이를 2단계 시그니처 파일에 저장하는 단계를 포함하는 시그니처 파일을 이용한 고차원 데이터의 색인 생성 방법을 제공한다.
본 발명의 다른 면에 따라, 질의 특징 벡터 및 특징 벡터 파일 식별자를 포함하는 검색 입력정보를 입력받는 단계와, 상기 질의 특징 벡터를 이용하여 1단계 질의 시그니처 및 2단계 질의 시그니처를 연산하는 단계와, 2단계 시그니처 파일을 탐색하여 상기 2단계 질의 시그니처와 유사도가 높은 것을 하나 이상 포함하는 1차 후보 셀 집합을 구하는 1차 필터링 단계와, 상기 1차 후보 셀 집합에 포함된 1단계 시그니처 엔트리 식별자 정보를 이용하여, 1단계 시그니처 파일에서 상기 1단계 질 의 시그니처와 유사도가 높은 것을 하나 이상 포함하는 2차 후보 셀 집합을 구하는 2차 필터링 단계와, 상기 2차 후보 셀 집합의 엔트리 특징 벡터와 질의 특징 벡터의 유사도를 계산하여 검색결과를 연산하고 이를 반환하는 단계를 포함하는시그니처 파일을 이용한 고차원 데이터의 검색 방법을 제공한다.
본 발명의 또 다른 면에 따라, 보정값 cv를 구하는 단계와, 보정값을 더한 시그니처 U(Si) 및 보정값을 뺀 시그니처 L(Si)를 구하는 단계, 상기 시그니처 U(Si)와 상기 시그니처 L(Si)를 비교하는 단계와, 상기 시그니처 U(Si)와 상기 시그니처 L(Si)이 같은 경우 두 값을 보정된 시그니처 값으로 하고, 상기 두 값이 다른 경우 상기 보정값을 더한 시그니처 U(Si)를 보정된 시그니처 값으로 정하는 단계를 포함하는 보정된 질의 시그니처 Sc i 값을 구하는 방법을 제공한다.
본 발명의 또 다른 면에 따라, 멀티미디어 객체로부터 특징 벡터를 추출하는 특징 벡터 추출수단과, 멀티미디어 객체를 저장소에 저장하고 객체 식별자를 반환하는 객체 저장 수단과, 상기 특징 벡터 추출기가 추출한 특징 벡터를 이용하여 색인을 생성하는 색인 생성 수단과, 상기 멀티미디어 객체로부터 상기 특징 벡터 추출기가 추출한 질의 특징 벡터를 이용하여 저장된 객체를 검색하는 검색 수단을 포함하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템을 제공한다.
본 발명에 따르면, 2 레벨 시그니처 파일을 이용한 고차원 색인 구조를 이용함으로써 데이터 읽기는 적은 비트를 사용하는 시그니처를 이용하는 색인과 유사하고, 정확도는 많은 비트를 사용하는 시그니처를 이용하는 색인과 유사한 효과를 얻을 수 있다.
또한, 본 발명에서의 검색 방법은 시그니처를 이용한 고차원 데이터에 대한 색인을 통한 검색을 함에 있어서, 질의 특징 벡터에 대한 시그니처를 보강하여 검색에 이용함으로써 검색의 정확도를 높일 수 있다.
이하에서는, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명에 따른 고차원 색인 시스템의 일실시예를 도시한 구성도이다.
본 발명이 적용되는 고차원 색인 시스템은 도 1에 도시된 바와 같이, 멀티미디어 객체(110)를 저장소(160)에 저장하고 객체 식별자(121)를 반환하는 객체 저장기(120), 멀티미디어 객체(110)로부터 특징 벡터(131)를 추출하는 특징 벡터 추출기(130), 객체 저장기(120)로부터 객체를 저장소(160)에 저장 후 얻은 멀티미디어 객체를 식별할 수 있는 식별자(121)와 특징 벡터 추출기(130)를 통해 추출한 특징 벡터(131)를 이용하여 색인을 생성하는 색인 생성기(140), 사용자가 입력한 멀티미 디어 객체(110)로부터 특징 벡터 추출기(130)를 통해 추출한 특징 벡터(131)를 이용하여 저장소(160)에 저장된 유사한 객체를 검색하는 검색기(150)를 포함한다.
도 2는 본 발명에 따른 N차원 벡터를 시그니처로 변환하는 일실시예를 도시한 개략도이다.
시그니처란, 공간을 나눈 여러 조각 중 특정 셀을 고유하게 지칭할 수 있도록 0과 1의 조합으로 표현한 것을 의미한다.
필터링 기반 색인에서 데이터 공간은 여러 개의 셀로 분할되며, 각 셀은 메모리 사용의 최적화를 위해 시그니처로 표현된다. 이때, 고차원 공간 상에서 멀티미디어 객체의 특징을 표현하는 특징 벡터는 그 벡터를 포함하는 셀의 시그니처로 변환되어 저장된다.
N 차원의 특징 벡터를 각 차원마다 b 비트를 가지는 시그니처로 변환하기 위해서는 다음의 수학식 1에 의해 각 차원의 특징 벡터를 변환해야 한다.
Figure 112007090718691-PAT00001
이때, F i 는 i-번째 차원의 특징 벡터 값을 나타내는데, 이 값은 0.0 이상이고 1.0 미만의 값을 가진다. S i 는 i-번째 차원의 특징 벡터에 대한 시그니처를, b 는 특징 벡터 각 차원마다 할당되는 시그니처 비트 수를, 그리고 [ ]는 소수자리 버림을 나타낸다.
N 차원의 특징 벡터를 각 차원마다 b 비트를 가지는 시그니처로 변환한다면, 전체 시그니처는 b * N 비트로 표현된다. 예를 들어 5차원의 특징 벡터 (0.124, 0.352, 0.314, 0.5, 0.435)는 시그니처 비트의 수(b)가 4라고 할 때, 20 비트의 시그니처 (0001 0101 0101 1000 0110)으로 변환되는 것을 알 수 있다..
도 3은 본 발명에 따른 2레벨 시그니처 파일을 이용한 필터링 기반 색인을 도시화한 개략도이다.
본 발명이 적용되는 필터링 기반 색인은 1단계 시그니처 파일(320), 2단계 시그니처 파일(310)로 구성된다. 2단계 시그니처 파일(310)은 1 단계 시그니처 파일(320)보다 더 많이 요약된 형태의 시그니처 값을 가진다.
예를 들어, 1단계 시그니처가 8비트로 구성된다면, 2단계 시그니처는 4비트로 구성한다. 1단계 시그니처 파일을 구성하는 엔트리(321)들은 실제 특징 벡터에 대한 시그니처 값과 실제 특징 벡터 식별자 값을 가진다.
2단계 시그니처 파일에 들어있는 엔트리(311)는 특징 벡터에 대한 비트 수가 적은 시그니처와 1단계 시그니처 파일의 동일한 특징 벡터에 대한 시그니처 엔트리를 가리킨다.
도 4는 본 발명에 따른 2 레벨 시그니처 파일을 이용한 고차원 데이터 색인 방법의 순서도이다.
고차원 데이터에 대한 색인을 생성하기 위해 특징 벡터, 객체 식별자, 1단계 시그니처 파일 식별자, 2단계 시그니처 파일 식별자의 정보를 포함하는 색인 생성 관련 정보를 입력으로 받는다 (S401).
특징 벡터 추출기(130)에 의해 추출된 특징 벡터(131)와 객체 저장기(120)에 의해 멀티미디어 객체(110)로부터 생성된 객체 식별자(121) 정보를 특징 벡터 파일(410)에 저장한다 (S402). 특징 벡터(131)로부터 1단계 시그니처를 생성한 (S403) 후 이를 1단계 시그니처 파일(420)에 저장한다 (S404). 특징 벡터(131)로부터 시그니처를 생성하는 방법은 상기 도 2에서 도시된 실시예를 적용하는 것이 바람직하다.
특징 벡터(131)와 1단계 시그니처 엔트리 식별자 정보(421)를 이용하여 1단계 시그니처 비트보다 적은 비트로 구성된 2단계 시그니처를 생성한다 (S405). 생성한 2단계 시그니처를 파일(430)에 저장한다 (S406).
특징 벡터(131)의 각각의 엔트리마다 상기 S401 내지 S406의 과정을 수행한다.
도 5는 본 발명에 따른 2 레벨 시그니처 파일을 이용한 검색 방법을 나타내는 순서도이다.
본 발명에 따른 검색 방법은 2 레벨의 시그니처를 이용함으로써 2번에 걸쳐서 질의 결과에 포함되는 데이터를 줄이고, 최종적으로 질의 결과를 생성한다.
사용자가 입력한 멀티미디어 객체와 유사한 것을 검색하기 위해서 사용자 질의한 멀티미디어 객체로부터 추출한 사용자 질의 특징 벡터, 특징 벡터 파일 식별 자, 1단계 시그니처 파일 식별자, 2단계 시그니처 파일 식별자 등을 포함하는 검색 입력정보를 입력으로 받는다 (S501).
상기 입력받은 사용자 질의 특징 벡터를 이용하여 1단계 질의 시그니처와 2 단계 질의 시그니처를 생성한다 (S502). 생성된 2단계 질의 시그니처를 이용하여 2 단계 시그니처 파일을 탐색하면서 2단계 질의 시그니처와의 유사도를 계산하여 유사도가 높은 것을 찾아 1차 후보 셀 집합을 구성하는 1차 필터링을 수행한다 (S503). 이때 2단계 시그니처 파일을 탐색하는 기법으로 순차탐색을 통하는 것이 바람직하나, 기타 다양한 탐색기법이 사용될 수 있다.
이때 k-최근접 질의를 적용하는 경우, 시그니처를 이용한 검색이 요약된 정보로부터 유사한 것을 찾는 것이므로, 찾고자 하는 것이 모두 포함되지 않을 가능성이 있다. 따라서 이를 보정하기 위해 찾고자 하는 것이 모두 포함될 수 있도록, k의 2배 혹은 4배수로 후보 셀 집합을 구성하는 것이 바람직하다.
1차 후보 셀 집합에 포함된 1단계 시그니처 엔트리에 대한 식별자 정보를 이용하여 1단계 질의 시그니처와 유사도를 계산하여 유사도가 높은 것으로 2차 후보 셀 집합을 구성하는 2차 필터링을 수행한다 (S504).
k-최근접 질의의 경우, 2차 후보 셀 집합을 구하는데 있어서도 요약 정보를 이용함으로써 발생하는 문제를 보강하기 위해 k의 1.5배 혹은 2배 수가 되도록 적절히 늘려서 구성한다.
2차 후보 셀 집합의 엔트리가 가리키는 특징 벡터와 질의의 특징 벡터를 이용하여 유사도를 계산하여 검색 결과를 구성하고, 질의의 결과를 반환한다 (S505).
범위 질의의 경우, k-최근접 질의와 마찬가지로 후보 셀 집합을 구할 때는 범위에 해당하는 값을 늘려서 구하고, 실제 특징 벡터와 비교를 할 때 범위를 엄격히 적용하는 것이 바람직하다.
이러한 시그니처를 이용한 탐색은 시그니처가 요약 정보이므로 잘못된 데이터가 검색 결과에 포함되거나 (false hit), 검색 결과에 포함되어야 하는 데이터가 포함되지 않을 (miss hit) 가능성이 있어서 정확도가 떨어진다.
상기에서는, 정확도 향상을 위해 시그니처에 대한 탐색시 원래 검색해야 하는 개수보다 많은 것을 후보 집합에 포함함으로써, 즉 탐색 개수를 증가시킴으로 의해 탐색시 보정하는 방법을 설명하였다.
그러나, 탐색 개수 증가에 의한 보정뿐만 아니라 질의 특징 벡터에 대한 시그니처 생성시 여러 개를 생성함으로써, 즉 질의 보정을 함으로써 정확도를 향상 시킬 수도 있다. 질의 보정은 질의 시그니처 생성시 특징 벡터가 시그니처 값의 경계가 되는 곳에 근접해 있으면 두 개의 시그니처 값을 갖도록 함으로써 보정하는 것으로서, 이에 대하여 이하에서 도 6을 참고하여 상세히 설명한다.
도 6은 보정된 질의 시그니처 생성 방법에 대한 개략적인 흐름도이다.
시그니처 값을 보정하기 위한 보정값 cv를 하기의 수학식 2 에 의해 구한다 (S601). 이때, Fi i-번째 차원의 사용자 질의 특징 벡터, b는 시그니처 비트 수, c는 보정 상수를 나타낸다. 상기 보정 상수 c는 0보다 크고 0.5보다 작거나 같은 값으로, 적용되는 응용에 따라 달리 부여한다. 즉, 학습에 의해 구해지는 값이다.
Figure 112007090718691-PAT00002
상기 보정값 cv가 구해지면, 질의 특징 벡터의 i-번째 차원 값에 상기 보정값 cv 을 더한 시그니처 U(Si)를 수학식 3을 이용해 구하고, 보정값을 뺀 시그니처 L(Si)를 수학식 4를 이용해 구한다 (S602).
Figure 112007090718691-PAT00003
Figure 112007090718691-PAT00004
만약 특징 벡터가 경계선 근처에 있었다면 상기 시그니처 U(Si)와 시그니처 L(Si)값이 다를 것이고, 그렇지 않다면 두 값이 같을 것이다. 경계선 근처에 특징 벡터가 위치하는지를 알아보기 위해 두 값이 같은지 비교한다 (S603).
만약 상기 두 시그니처 값이 같으면 특징벡터는 경계선 근처에 있는 것이 아니므로, U(Si)를 질의 특징 벡터의 i-번째 차원의 보정된 질의 시그니처 값으로 한 다 (S605).
만약 상기 두 시그니처 값을 비교한 결과 두 값이 다르면, U(Si)와 L(Si) 두 값 모두를 질의 특징 벡터의 i-번째 차원의 보정된 질의 시그니처 값으로 한다 (S604).
상기와 같이, 각 차원의 보정된 시그니처 Sc i 값들을 구한 후에 이들을 이용하여 질의 특징 벡터에 대한 시그니처를 생성한다. 만약 경계선 근처에 있는 값이 있어서 2개의 보정된 시그니처 값을 갖는 차원이 하나 이상 존재한다면, 해당 차원에 대한 시그니처 값이 다른, 질의 특징 벡터에 대한 보정된 질의 시그니처가 2개 이상 생성된다.
도 7은 본 발명에 따른 보정된 질의 시그니처 생성의 일실시예를 도시한 개략도이다.
5차원의 특징 벡터 (0.124, 0.352, 0.314, 0.5, 0.435)가 존재한다고 가정하고, 이것을 시그니처 추출을 위한 전술한 수학식 1을 통하여 연산하면, (0001 0101 0101 1000 0110)의 값의 시그니처 Si가 추출된다.
여기에 보정 상수c를 0.2로 하여 전술한 수학식 2, 수학식 3과 수학식 4를 적용하여 보정한다.
즉, 시그니처 Si (0001 0101 0101 1000 0110)을 기초로, 시그니처 U(Si) (0001 0101 0101 1000 0110)와 시그니처 L(Si) (0001 0101 0101 0111 0110)을 구할 수 있다.
상기 보정의 결과, 1 내지 3 및 5번째 차원은 모두 U(Si)와 L(Si) 의 값은 같지만, 4번째 차원의 특징 벡터에 대한 U(Si)와 L(Si)의 값은 0111과 1000으로 다르다. 이는 4번째 차원의 특징 벡터 값인 0.5가 시그니처를 위한 경계선 근처 값이기 때문이다.
이러한 경우, 즉 특정 차원의 특징 벡터에 대한 보정을 위한 두 시그니처 값 U(Si)와 L(Si)이 다른 경우에는, 해당 차원에 대한 시그니처 값이 2개 존재하는 것으로 하여 질의 특징 벡터에 대한 시그니처를 생성한다.
도 7의 예에서는 4번째 차원의 시그니처 값이 다른 (0001 0101 0101 0111 0110) 과 (0001 0101 0101 1000 0110)의 두 개가 보정된 질의 시그니처로 추출된다.
보정된 질의 시그니처를 이용한 검색 방법은 도 5에서 전술한 방법과 동일하다. 다만, 보정된 질의 시그니처를 생성한 후에 보정된 질의 시그니처 모두에 대해 시그니처 파일에 대한 탐색(S503, S504)을 수행한다. 각각에 대한 후보 셀 집합을 구한 후에 이들 집합에 대해 합집합 연산을 하여 모두 질의 결과 후보 셀 집합에 포함시킨다.
보정된 질의 시그니처가 많은 경우에는 질의 시그니처에 대한 탐색 소요 시간이 많이 증가하므로, 질의 시그니처 보정을 통한 탐색이 아닌 개수에 의한 보정 방법을 이용하는 것이 적합하다. 또한, 개수에 의한 보정과 질의 시그니처 보정을 통한 보정의 두 가지 방법을 모두 사용하여 검색 결과의 정확도를 높일 수도 있다.
본 발명의 보정된 질의 시그니처 생성 방법과 보정된 질의 시그니처를 이용한 탐색 방법은, 본 발명의 색인 구조뿐 아니라 시그니처를 이용한 요약 정보에 기반한 고차원 데이터 색인 장치 및 방법에 모두 적용될 수 있음은 자명한 사실일 것이다.
이상, 바람직한 실시예와 첨부도면의 참조하여 본 발명의 구성에 대하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서 본 발명의 기술적 사상의 범주내에서 다양한 변형과 변경이 가능함은 물론이다.
따라서, 본 발명의 권리범위는 이하의 특허청구범위의 기재에 의하여 정하여 져야 할 것이다.
도 1은 본 발명에 따른 고차원 색인 시스템의 일실시예를 도시한 구성도.
도 2는 본 발명에 따른 N차원 벡터를 시그니처로 변환하는 일실시예를 도시한 개략도.
도 3은 본 발명에 따른 2레벨 시그니처 파일을 이용한 필터링 기반 색인을 도시화한 개략도
도 4는 본 발명에 따른 2 레벨 시그니처 파일을 이용한 고차원 데이터 색인 방법의 순서도.
도 5는 본 발명에 따른 2 레벨 시그니처 파일을 이용한 검색 방법을 나타내는 순서도.
도 6은 보정된 시그니처 생성 방법에 대한 개략적인 흐름도.
도 7은 본 발명에 따른 보정된 질의 시그니처 생성의 일실시예를 도시한 개략도.

Claims (12)

  1. 고차원 데이터에 대한 필터링 기반 색인 방법에 있어서,
    고차원 데이터의 특징 벡터, 객체 식별자, 단계 시그니처 파일 식별자 및 2단계 시그니처 파일 식별자를 포함하는 색인 생성 관련 정보를 입력받는 단계와,
    상기 특징 벡터와 상기 객체 식별자를 포함하는 특징 벡터 파일을 생성하는 단계와,
    상기 특징 벡터로부터 1단계 시그니처를 구하고 이를 1단계 시그니처 파일에 저장하는 단계와,
    상기 1단계 시그니처 정보와 상기 특징 벡터를 이용하여, 2단계 시그니처를 구하고 이를 2단계 시그니처 파일에 저장하는 단계
    를 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터의 색인 생성 방법.
  2. 고차원 데이터에 대한 필터링 기반 색인 방법에 있어서,
    질의 특징 벡터, 특징 벡터 파일 식별자, 1단계 시그니처 파일 식별자 및 2단계 시그니처 파일 식별자를 포함하는 검색 입력정보를 입력받는 단계와,
    상기 질의 특징 벡터를 이용하여 1단계 질의 시그니처 및 2단계 질의 시그니처를 연산하는 단계와,
    2단계 시그니처 파일과 상기 2단계 질의 시그니처와 유사도를 연산하는 단계와,
    상기 2단계 질의 시그니처와 유사도가 높은 것을 하나 이상 포함하는 1차 후보 셀 집합을 구하는 1차 필터링 단계와,
    상기 1차 후보 셀 집합에 포함된 1단계 시그니처 엔트리 식별자 정보를 이용하여, 1단계 시그니처 파일과 상기 1단계 질의 시그니처의 유사도를 연산하는 단계와,
    상기 1단계 질의 시그니처와 유사도가 높은 것을 하나 이상 포함하는 2차 후보 셀 집합을 구하는 2차 필터링 단계와,
    상기 2차 후보 셀 집합의 엔트리 특징 벡터와 질의 특징 벡터의 유사도를 계산하여 검색결과를 연산하고 이를 반환하는 단계
    를 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터의 검색 방법.
  3. 고차원 데이터에 대한 필터링 기반 색인 방법에 있어서,
    (a) 보정값 cv를 구하는 단계와,
    (b) 보정값을 더한 시그니처 U(Si) 및 보정값을 뺀 시그니처 L(Si)를 구하는 단계,
    (c) 상기 시그니처 U(Si)와 상기 시그니처 L(Si)를 비교하는 단계와,
    (d) 상기 시그니처 U(Si)와 상기 시그니처 L(Si)이 같은 경우 두 값을 보정된 시그니처 값으로 하고, 상기 두 값이 다른 경우 상기 보정값을 더한 시그니처 U(Si)를 보정된 시그니처 값으로 정하는 단계
    를 포함하는 것을 특징으로 하는 보정된 질의 시그니처 Sc i 값을 구하는 방법.
  4. 제3항에 있어서, 상기 (a) 단계는,
    다음 수식을 이용하여, 상기 보정값 cv 를 구하는 것
    Figure 112007090718691-PAT00005
    (이때, 상기 b는 시그니처 비트 수, c는 보정 상수 임)
    을 특징으로 하는 보정된 질의 시그니처 Sc i 값을 구하는 방법.
  5. 제3항에 있어서, 상기 (b) 단계는,
    다음 수식을 이용하여, 상기 보정값을 더한 시그니처 U(Si)를 구하는 것
    Figure 112007090718691-PAT00006
    (이때, 상기 Fi는 i번째 차원의 특징 벡터 값, b는 시그니처 비트 수, cv 는 보정값, [X]는 X에 대한 소수자리 버림 임)
    을 특징으로 하는 보정된 질의 시그니처 Sc i 값을 구하는 방법.
  6. 제3항에 있어서, 상기 (b) 단계는,
    다음 수식을 이용하여, 상기 상기 보정값을 뺀 시그니처 L(Si)를 구하는 것
    Figure 112007090718691-PAT00007
    (이때, 상기 Fi는 i번째 차원의 특징 벡터 값, b는 시그니처 비트 수, cv 는 보정값, [X]는 X에 대한 소수자리 버림 임)
    을 특징으로 하는 보정된 질의 시그니처 Sc i 값을 구하는 방법.
  7. 고차원 데이터에 대한 필터링 기반 색인 방법에 있어서,
    질의 특징 벡터, 특징 벡터 파일 식별자, 1단계 시그니처 파일 식별자 및 2단계 시그니처 파일 식별자를 포함하는 검색 입력정보를 입력받는 단계와,
    상기 질의 특징 벡터를 이용하여, 상기 3 내지 6항 중 어느 한 항에 기재된 보정된 시그니처 값을 구하는 방법을 이용하여, 보정된 1단계 질의 시그니처 및 보정된 2단계 질의 시그니처를 연산하는 단계와,
    상기 보정된 2단계 질의 시그니처에 대해 시그니처 파일을 탐색하여 후보 셀 집합을 구한 후에 이들 집합에 대하여 합집합 연산을 하여 후보 셀 집합을 구하는 보정된 1차 필터링 단계와,
    상기 1차 후보 셀 집합에 포함된 1단계 시그니처 엔트리 식별자 정보를 이용하여, 1단계 시그니처 파일에서 상기 보정된 1단계 질의 시그니처와 유사도가 높은 것을 포함하는 2차 후보 셀 집합을 구성하는 보정된 2차 필터링 단계와,
    상기 2차 후보 셀 집합의 엔트리 특징 벡터와 질의 특징 벡터의 유사도를 계산하여 검색결과를 연산하고 이를 반환하는 단계
    를 포함하는 것을 특징으로 하는 보정된 질의 시그니처를 이용한 고차원 데이터 검색 방법.
  8. 고차원 데이터에 대한 필터링 기반 색인 시스템에 있어서,
    멀티미디어 객체로부터 특징 벡터를 추출하는 특징 벡터 추출 수단과,
    멀티미디어 객체를 저장소에 저장하고 객체 식별자를 반환하는 객체 저장 수 단과,
    상기 특징 벡터 추출기가 추출한 특징 벡터를 이용하여 색인을 생성하는 색인 생성 수단과,
    상기 멀티미디어 객체로부터 상기 특징 벡터 추출기가 추출한 질의 특징 벡터를 이용하여 저장된 객체를 검색하는 검색 수단과,
    상기 객체 저장수단으로부터 멀티미디어 객체를 받아 저장하고, 색인 생성기 및 검색기와 연동하여 검색을 수행하는 저장수단
    을 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템.
  9. 제8항에 있어서, 상기 색인 생성수단은,
    상기 객체 저장수단으로부터 받은 객체 식별자와 상기 특징 벡터 추출수단이 추출한 특징 벡터를 포함하여 특징 벡터 파일을 생성하고,
    상기 특징 벡터로부터 1단계 시그니처를 구하여 이를 1단계 시그니처 파일에 저장하고, 상기 1단계 시그니처와 상기 특징 벡터를 이용하여 2단계 시그니처를 구하고 이를 2단계 시그니처 파일에 저장하는 것
    을 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템.
  10. 제8항에 있어서, 상기 검색 수단은,
    질의 특징 벡터를 이용하여 1단계 질의 시그니처 및 2단계 질의 시그니처를 연산하고,
    2단계 시그니처 파일을 탐색하여 상기 2단계 질의 시그니처와 유사도가 높은 1차 후보 셀 집합을 구하는 1차 필터링을 수행하고,
    상기 1차 후보 셀 집합에 포함된 1단계 시그니처 정보를 이용하여, 1단계 시그니처 파일에서 상기 1단계 질의 시그니처와 유사도가 높은 것을 포함하는 2차 후보 셀 집합을 구하는 2차 필터링을 수행하는 것
    을 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템.
  11. 제10항에 있어서, 상기 질의 시그니처 값을 연산하는 것은,
    보정값 cv 를 구하고, 보정값을 더한 시그니처 U(Si) 및 보정값을 뺀 시그니처 L(Si)를 구하여 이를 비교하고, 상기 시그니처 U(Si)와 상기 시그니처 L(Si)이 같은 경우 두 값을 보정된 시그니처 값으로 하고, 상기 두 값이 다른 경우 상기 보정값을 더한 시그니처 U(Si)를 보정된 시그니처 값으로 정하는 것
    을 더 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템.
  12. 제11항에 있어서,
    다음 수식들을 이용하여 상기 보정값 cv, 시그니처 U(Si), 시그니처 L(Si)를 구하는 것
    Figure 112007090718691-PAT00008
    Figure 112007090718691-PAT00009
    Figure 112007090718691-PAT00010
    (이때, 상기 b는 시그니처 비트 수, c는 보정 상수, Fi는 i번째 차원의 특징 벡터 값, b는 시그니처 비트 수, [X]는 X에 대한 소수자리 버림 임)
    을 포함하는 것을 특징으로 하는 시그니처 파일을 이용한 고차원 데이터 검색 시스템.
KR1020070132582A 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 KR100903961B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US12/107,419 US8032534B2 (en) 2007-12-17 2008-04-22 Method and system for indexing and searching high-dimensional data using signature file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템

Publications (2)

Publication Number Publication Date
KR20090065130A true KR20090065130A (ko) 2009-06-22
KR100903961B1 KR100903961B1 (ko) 2009-06-25

Family

ID=40754552

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템

Country Status (2)

Country Link
US (1) US8032534B2 (ko)
KR (1) KR100903961B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101607224B1 (ko) 2008-03-03 2016-03-29 아비길론 페이턴트 홀딩 2 코포레이션 동적 물체 분류 방법 및 장치
TWI362596B (en) * 2008-07-23 2012-04-21 Inst Information Industry Intermediary apparatus, intermediary method, computer program product for storing a data in a storage apparatus, and data storage system comprising the same
WO2010143573A1 (ja) * 2009-06-10 2010-12-16 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、作成装置および作成処理プログラム
US8898177B2 (en) * 2010-09-10 2014-11-25 International Business Machines Corporation E-mail thread hierarchy detection
US8788500B2 (en) 2010-09-10 2014-07-22 International Business Machines Corporation Electronic mail duplicate detection
KR20130049111A (ko) * 2011-11-03 2013-05-13 한국전자통신연구원 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
US20130263059A1 (en) * 2012-03-28 2013-10-03 Innovative Icroms, S.L. Method and system for managing and displaying mutlimedia contents
US9075846B2 (en) * 2012-12-12 2015-07-07 King Fahd University Of Petroleum And Minerals Method for retrieval of arabic historical manuscripts
CN103514263B (zh) * 2013-08-21 2016-12-28 中国传媒大学 一种采用双key值的高维索引结构构建方法和检索方法
CN103793507B (zh) * 2014-01-26 2016-10-05 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
DK178764B1 (en) * 2015-06-19 2017-01-09 Itu Business Dev As A computer-implemented method for carrying out a search without the use of signatures
CN105183711B (zh) * 2015-08-17 2019-12-31 福建天晴数码有限公司 寻找相近语义汉字对的方法和装置
CN105279288B (zh) * 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832131A (en) * 1995-05-03 1998-11-03 National Semiconductor Corporation Hashing-based vector quantization
KR100319761B1 (ko) * 2000-01-21 2002-01-05 오길록 시그니처 파일을 이용한 데이터베이스 검색시스템에서의프레임 분할 병렬 처리 방법
KR100333636B1 (ko) 2000-01-21 2002-04-22 오길록 소프트웨어 유지보수를 위한 제어흐름 그래프 자동 생성방법
US20030006638A1 (en) * 2001-07-03 2003-01-09 Paul Tyler Heated kneeling tray
KR100446639B1 (ko) * 2001-07-13 2004-09-04 한국전자통신연구원 셀 기반의 고차원 데이터 색인 장치 및 그 방법
US7167574B2 (en) * 2002-03-14 2007-01-23 Seiko Epson Corporation Method and apparatus for content-based image copy detection
JP2005071115A (ja) 2003-08-25 2005-03-17 Japan Science & Technology Agency P2p環境におけるオブジェクトの登録検索方法及びプログラム
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US20060268298A1 (en) * 2005-05-27 2006-11-30 Sidharth Wali Color space conversion by storing and reusing color values
JP2008009859A (ja) 2006-06-30 2008-01-17 Canon Inc 検索インデックス作成装置及び検索インデックス作成方法
US20080065606A1 (en) * 2006-09-08 2008-03-13 Donald Robert Martin Boys Method and Apparatus for Searching Images through a Search Engine Interface Using Image Data and Constraints as Input

Also Published As

Publication number Publication date
US8032534B2 (en) 2011-10-04
US20090157601A1 (en) 2009-06-18
KR100903961B1 (ko) 2009-06-25

Similar Documents

Publication Publication Date Title
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US8171029B2 (en) Automatic generation of ontologies using word affinities
Roshdi et al. Information retrieval techniques and applications
US8161036B2 (en) Index optimization for ranking using a linear model
KR101266358B1 (ko) 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법
US20100106713A1 (en) Method for performing efficient similarity search
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
CN101019121A (zh) 对存储在数据库中的文档编制索引和进行检索的方法和系统
US7406462B2 (en) Prediction of query difficulty for a generic search engine
Brisaboa et al. Similarity search using sparse pivots for efficient multimedia information retrieval
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
US9298757B1 (en) Determining similarity of linguistic objects
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN111026787A (zh) 网点检索方法、装置及系统
US7583845B2 (en) Associative vector storage system supporting fast similarity search based on self-similarity feature extractions across multiple transformed domains
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
CN110941730B (zh) 基于人脸特征数据偏移的检索方法与装置
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
KR101153966B1 (ko) 고차원 데이터의 색인/검색 시스템 및 그 방법
Shishibori et al. An improved method to select candidates on metric index vp-tree
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
WO2024069941A1 (ja) 情報処理装置、検索方法、及び検索プログラム
Debole et al. Enriching image feature description supporting effective content-based retrieval and annotation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee