KR100718586B1 - 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템 - Google Patents

웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템 Download PDF

Info

Publication number
KR100718586B1
KR100718586B1 KR1020020073654A KR20020073654A KR100718586B1 KR 100718586 B1 KR100718586 B1 KR 100718586B1 KR 1020020073654 A KR1020020073654 A KR 1020020073654A KR 20020073654 A KR20020073654 A KR 20020073654A KR 100718586 B1 KR100718586 B1 KR 100718586B1
Authority
KR
South Korea
Prior art keywords
query
databases
database
selectivity
regional
Prior art date
Application number
KR1020020073654A
Other languages
English (en)
Other versions
KR20040045796A (ko
Inventor
김덕환
이석룡
정진완
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020020073654A priority Critical patent/KR100718586B1/ko
Publication of KR20040045796A publication Critical patent/KR20040045796A/ko
Application granted granted Critical
Publication of KR100718586B1 publication Critical patent/KR100718586B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자의 질의에 대해 웹 상의 이질적인 지역 이미지 데이터베이스들을 검색하는 메타서버에서 유용한 질의 결과를 많이 찾을 수 있는 데이터베이스들을 선택하기 위한 복합추정 방법 및 검색 시스템에 관한 것으로,
지역 이미지 데이터베이스들로부터 표본 객체와 히스토그램 정보를 수집하는 단계; 및 회귀분석을 사용하여 표본 객체로부터 유사성 분포에 대한 통계 데이터를 계산하는 단계;로 구성되는 전처리 과정과, 통계 데이터를 사용하여 질의에 포함된 전역 임계값을 각 지역 이미지 데이터베이스의 지역 임계값으로 변환하는 단계; 히스토그램 정보와 지역 임계값을 사용하여 각 지역 이미지 데이터베이스에 대한 선택률을 추정하는 단계; 및 표본 객체를 사용하여 메타서버와 지역 이미지 데이터베이스들의 유사성 측정 기준의 차이로 인한 선택률의 오차를 보정한 후, 보정된 선택률에 따라 지역 이미지 데이터베이스들의 순위를 결정하는 단계;로 구성되는 데이터베이스 순위결정 과정을 포함하는 것을 특징으로 하는 복합추정 방법 및 이를 이용한 검색 시스템을 제공하여,
정확도가 높고 메타서버의 기억장소를 효과적으로 유지하고 네트웍 전송 비용을 줄일 수 있도록 하였다.
메타서버, 이미지 검색, 복합추정, 히스토그램, 표본 객체

Description

웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한 복합추정 방법 및 이를 이용한 검색 시스템 {HYBRID ESTIMATION METHOD FOR SELECTING HETEROGENEOUS IMAGE DATABASES ON THE WEB AND RETRIEVAL SYSTEM THEREOF}
도 1은 본 발명에 따른 데이터베이스 선택 방법의 개요를 나타내는 도면,
도 2는 본 발명에 따른 검색 시스템의 구조를 나타내는 도면,
도 3는 전역 유사도와 지역 유사도간의 산포도를 나타내는 도면,
도 4는 표본 크기와 질의 크기 추정의 정확도 사이의 관계를 기존의 방법과 비교 도시한 도면,
도 5는 표본 객체들을 사용하여 지역 유사도값 x와 전역 유사도값 y의 이변량 분포로부터 회귀 직선을 추정할 수 있음을 나타내는 도면,
도 6은 구형 유사성 질의의 질의 결과를 추정하기 위하여 이산 여현 변환을 이용한 히스토그램 정보에 기초한 두가지 선택률 추정 방법(단일 사각형 근사, 다중 사각형 근사)을 설명하는 도면,
도 7은 데이터베이스 히스토그램 정보의 생성 시간과 선택률 추정 시간을 표로 도시한 도면,
도 8은 3차원과 6차원 데이타에 대하여 각각 단일 사각형 근사, 다중 사각형 근사 선택률 추정 방법의 상대 오차를 나타내는 도면,
도 9는 표본 비율의 변화에 따른 주어진 질의에 대하여 표본 선택률 보상 결과를 표시한 도면,
도 10은 표본 비율의 변화에 따른 질의 결과의 크기 예측에 대한 정확성을 표시한 도면,
도 11은 단일 사각형 근사와 다중 사각형 근사를 사용하는 복합추정 방법에 의한 데이터베이스 순위 결정의 성능(순위 결정 오차와 상대적 성능)을 나타내는 도면,
도 12는 10개의 지역 데이터베이스들에 대하여 선택률 추정 방법들에 의해 예측된 전역 질의 결과의 크기를 나타내는 도면.
본 발명은 웹 상의 메타서버에서 유사성 질의에 대하여 유용한 결과를 많이 찾을 수 있는 이미지 데이터베이스들을 효율적으로 선택하는 방법 및 검색 시스템에 관한 것으로, 보다 상세하게는 메타서버의 검색 시간을 줄이기 위해 서로 다른 특징 추출 방법과 유사성 측정 함수를 지원하는 이질적인 이미지 데이터베이스들을 포함하는 분산 환경에서 질의에 적합한 데이터베이스들을 선택할 수 있는 복합추정 방법(Hybrid Estimation Method)과 이를 이용한 검색 시스템에 관한 것이다.
인터넷의 발전과 더불어 사용자 질의가 주어졌을 때 인터넷 상에 있는 많은 데이터베이스들 중에 질의에 적합한 데이터베이스들을 선택하는 것이 중요한 문제가 되었다. 일반적으로 사용자들은 인터넷 상의 모든 데이터베이스에 직접 질의를 하기보다는 분산 질의 처리를 수행하는 메타서버에 질의를 보낸다. 메타서버는 사용자 질의를 분배하기 위하여 모든 데이터베이스를 검색하는 경우 질의 처리 시간이 너무 오래 걸리기 때문에 질의에 적합한 후보 데이터베이스들을 선택하여 검색 범위를 줄여야 한다.
특히 멀티미디어 정보를 검색하기 위해서 내용기반 질의를 사용하는데, 내용기반 질의의 처리 시간은 키워드 검색 질의에 비하여 질의 처리 부담이 크기 때문에 질의 결과에 해당하는 멀티미디어 정보를 많이 저장하고 있는 후보 데이터베이스들을 선택하는 것이 더욱 중요하다.
그라바노 등은 주어진 질의에 적합한 데이터베이스의 문서 개수를 추정하는 블리언과 벡터-공간 검색 모델에 기초한 키워드 기반 분산 데이터베이스 중개 시스템을 제안하였다 [L. Gravano, H. Garcia-Molina, A. Tomasic. The Effectiveness of GlOSS for the Text Database Discovery Problem. Proceedings of ACM SIGMOD Intl Conference on Management of Data, pages 126-137, May 1994 / L. Gravano, H. Garcia-Molina. Merging Ranks from Heterogeneous Internet Sources. Proceedings of Twenty-third Intl Conference on Very Large Data Bases, pages 14-25, August 1997].
칼란 등은 추론 네트웍에 기반한 정보 검색의 확률 모델을 제안했다 [J. Callan, Z. Lu, and W. Croft. Searching Distributed Collection with Inference Networks. Proceedings of the Eighteenth Annual Intl ACM/SIGIR Conference, pages 21-28, 1995].
멩 등은 또한 확률 모델에 기초하여 텍스트 데이터베이스들의 유용성을 추정하는 방법을 제안했다 [W. Meng, K. L. Liu, C. Yu, X. Wang, Y. Chang, N. Rishe. Determining Text Databases to Search in the Internet. Proceedings of Intl Conference on Very Large Data Bases, pages 14-25, Aug. 1998 / W.Meng, K. L. Liu, C. Yu, W.Wu, L.Rishe. Estimating the Usefulness of Search Engines. Proceedings of Intl Conference on Data Engineering, pages 146-153, Mar. 1999].
그러나, 텍스트 데이터베이스의 벡터와 이미지 데이터베이스의 특징 벡터 간에 의미적 차이가 존재하기 때문에 텍스트 데이터베이스 선택을 위한 전통적인 방법들이 이미지 데이터베이스에 직접 적용될 수는 없다.
웹 상에는 (ⅰ) QBIC [M. Flickner H. Sawhney, W. Niblack et al. Query by image and video content: The QBIC system. IEEE Computer Magazine, Vol.28, No.9, pages 23-32, Sep. 1995],
(ⅱ) Virage [J. R. Bach, C. Fuller, A. Gupta, A. Hampapur, B.Horowitz, R.Humphrey, R.Jain and C. Shu. The virage image search engine: An open framework for image management. SPIE Storage and Retrieval for Still Image and Video Databases IV, pages 76-87, 1996],
(ⅲ) WebSEEk [J. R. Smith, S. F. Chang. Visually Searching the Web for Content. IEEE Multimedia, pages 12-20, Summer, 1997],
(ⅳ) VisualSEEk [J.R. Smith, S. F. Chang. VisualSEEk: A Fully Automated Content-Based Image Query System. Proceedings of the ACM Intl Multimedia Conference, pages 87-98, Nov. 1996] 등과 같은 상이한 이미지 데이터베이스들이 있다.
이미지 데이터베이스의 선택에 대한 최근의 연구는 창 등에 의하여 이루어졌다 [W. Chang, G. Sheikholeslami, J. Wang, A. Zhang. Data Resource Selection in Distributed Visual Information Systems. IEEE Transactions on Knowledge and Data Engineering, Vol.10, No.6, pages 926-946, Nov. 1998]. 여기서는 지역 데이터베이스들의 이미지 클러스터의 대표 이미지인 템플릿에 대한 질의의 시각적 유사도와 템플릿과 관련된 클러스터의 통계 데이터를 이용하는 평균기반과 히스토그램기반 선택 방법을 제안하였다.
평균기반 방법은 주어진 시각적 질의에 대한 클러스터의 가능성(likelihood)을 결정하기 위하여 (ⅰ) 표본의 개수와 (ⅱ) 템플릿에 대한 데이터베이스 이미지들의 유사도 분포의 평균과 분산을 이용한다.
히스토그램기반 방법은 히스토그램으로 표현되는 데이터베이스 이미지들의 유사도 분포의 통계값뿐만 아니라 이미지 클러스터내의 이미지들의 위치에 기반을 둔다.
그러나, 상기 방법들은 이미지 데이터베이스들이 메타서버와 같은 특징 추출방법과 거리 함수들을 사용한다고 가정한다. 따라서, 웹상의 데이터베이스들이 상이한 유사성 측정 함수들을 사용하므로 이 방법은 실제 환경에서 제한적으로 사용될 수 있다.
한편, 베니츠 등은 MetaSEEk라는 이미지들을 위한 내용기반 메타검색엔진을 제안하였다 [A. B. Benitez, M. Beigi, S-F. Chang. A Content-Based Image Meta-Search Engine using Relevance Feedback. IEEE Internet Computing, Vol 2, No.4, pages 59-69, Jul./Aug. 1998].
질의가 주어질 때, MetaSEEk는 사용자들에 의해 만들어진 적합성 피드백의 과거 데이터를 이용하여 이미지 데이터베이스들의 순위를 결정한다. 그러나, 이 방법은 특정 데이터베이스가 많이 변경되면, 과거 데이터가 동적으로 변경되지 못하므로 과거의 정보가 더 이상 유효하지 못하며 부정확하게 데이터베이스를 선택하게 된다는 문제가 있다.
본 발명은 상기 문제점을 해결하고 인터넷에서 멀티미디어 데이터를 찾기 위해 널리 사용되는 방법인 내용기반 이미지 검색을 효과적으로 지원하기 위해 개발된 것으로, 디지털 도서관, 전자 상거래, 원격 교육, 의료진단 시스템, 분산 출판 등 다양한 분야에서 이미지 데이터베이스 검색을 위해 활용 가능하며 특히, 오늘날과 같이 시각적 객체를 검색하는 것이 중요해지는 환경에 적합하도록 한 이질적인 이미지 데이터베이스들을 선택하기 위한 복합추정 방법 및 이를 이용한 효율적인 검색 시스템을 제공함을 목적으로 한다.
본 발명은 상기 목적의 달성을 위하여, 사용자의 질의에 대해 웹 상의 이질적인 지역 이미지 데이터베이스들을 검색하는 메타서버에서 유용한 질의 결과를 찾을 수 있는 데이터베이스들을 선택하기 위한 복합추정 방법에 있어서, 상기 지역 이미지 데이터베이스들로부터 표본 객체와 히스토그램 정보를 수집하는 단계; 및 회귀분석을 사용하여 상기 표본 객체로부터 유사성 분포에 대한 통계 데이터를 계산하는 단계;로 구성되는 전처리 과정과, 상기 통계 데이터를 사용하여 상기 질의에 포함된 전역 임계값을 상기 각 지역 이미지 데이터베이스의 지역 임계값으로 변환하는 단계; 상기 히스토그램 정보와 상기 지역 임계값을 사용하여 상기 각 지역 이미지 데이터베이스에 대한 선택률을 추정하는 단계; 및 상기 표본 객체를 사용하여 상기 메타서버와 상기 지역 이미지 데이터베이스들의 유사성 측정 기준의 차이로 인한 상기 선택률의 오차를 보정한 후, 상기 보정된 선택률에 따라 상기 지역 이미지 데이터베이스들의 순위를 결정하는 단계;로 구성되는 데이터베이스 순위결정 과정을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 특징은 상기 히스토그램 정보를 이산 여현 변환(Discrete Cosine Transform) 기법에 의해 압축하여 사용하고, 상기 지역 이미지 데이터베이스의 데이터 변경시는 상기 이산 여현 변환 기법의 선형 성질을 이용하여 변경된 부분만을 수정하여 상기 히스토그램 정보를 재구성하는 것이다.
또한, 상기 선택률의 오차 보정에는 표본 선택률 보상 기법이 사용되고, 상기 선택률의 추정에는 단일 사각형 근사 방법이나 다중 사각형 근사 방법이 사용되는 것도 그 특징이다.
나아가, 본 발명은 상기의 복합추정 방법에 의해 지역 이미지 데이터베이스들의 순위를 결정하고, 일정 순위에 드는 데이터베이스들을 선택하여 사용자 질의를 송신하는 메타서치 에이전트; 및 상기 선택된 데이터베이스들로부터 질의 결과를 수집하여 사용자에게 보여주는 수집융합 에이전트;를 구비한 메타서버를 포함하는 것을 특징으로 하는 검색 시스템을 제공한다.
먼저 일반적인 멀티미디어 검색 과정을 살펴보자. 멀티미디어 데이터베이스들은 유사성 질의라고 불리는 내용기반 검색 방법을 사용하여 시각적인 객체들을 검색한다. 유사성 질의는 두 시각적 객체 qx 사이의 유사도를 [0, 1] 범위의 실수로 사상하는 유사성 측정함수 sim(q, x)를 사용하여 질의 객체 q와 유사한 시각 객체들을 검색한다. 웹과 같은 분산 환경에서의 유사성 질의를 분산 유사성 질의라고 한다. 사용자가 질의 객체와 전역 임계값 GT(Global Threshold)를 메타서버에 전달하면, 메타서버는 사용자 질의를 이미지 데이터베이스들에 보낸다. 질의가 이미지 데이터베이스에서 실행된 후, 메타서버는 질의 결과를 통합하고 정렬하 여 사용자에게 보여준다.
문제는 분산 유사성 질의에 대하여 웹 상의 모든 데이터베이스들을 검색한다면 질의를 완료하는 데 너무 많은 시간이 걸린다는 것이다. 그와 같은 소모적인 과정을 피하기 위하여 메타서버는 적은 수의 후보 데이터베이스들로 검색 범위를 좁히는 방법을 제공해야 한다.
본 발명의 기본적인 아이디어는 이미지 데이터베이스들의 압축된 히스토그램 정보와 적은 수의 표본 객체들을 사용하는 복합 추정에 기반하여, 웹 상의 많은 이미지 데이터베이스들 중 질의에 유사한 객체들을 보다 많이 가지고 있는 데이터베이스들을 선택하는 것이다.
본 발명에 따르면 구형 영역 질의에 대한 선택률(selectivity)을 추정하기 위하여 히스토그램 정보를 사용하며, 유사성 측정 기준의 차이로 인한 선택률 오차를 표본 객체들을 이용하여 보정한다.
이러한 아이디어를 적용한 본 발명의 실시예를 첨부 도면을 참조하여 구체적으로 설명하면 다음과 같다.
도 1은 본 발명에 따른 복합추정 방법을 사용하여 데이터베이스를 선택하는 과정을 도시한 것으로, 도 1a는 전처리 과정을 도 1b는 데이터베이스 순위결정 과정을 보인다.
먼저, 전처리 과정에서 메타서버는 지역 데이터베이스들로부터 표본 객체와 압축된 히스토그램 정보를 수집하고(101), 표본 객체의 특징 벡터를 추출하고 회귀 분석을 사용하여 표본 객체들의 유사도 분포에 대한 통계 데이터(상관계수, 평균, 표준편차)를 수집한다(102). 표본 객체들의 특징 벡터들은 (ⅰ) 회귀분석을 이용하여 사용자의 주어진 전역 임계값(GT)을 지역 이미지 데이터베이스의 지역 임계값(LT)으로 변환하기 위해 표본 객체의 유사도 분포를 구할 때와, (ⅱ) 표본 선택률 보상(Sample Selectivity Compensation, 이하 SSC)시 표본 객체의 유사도를 구하기 위해 사용된다.
지역 이미지 데이터베이스들에 대하여 이미지 객체들의 특징 벡터들로부터 다차원 히스토그램을 만들 수 있고, 특징 벡터들의 데이터 공간은 여러개의 버켓들로 분할되며 버켓과 관련된 빈도수는 이산 여현 변환(Discrete Cosine Transform, 이하 DCT) 기법을 이용하여 압축된다. 또한, 이미지 데이터베이스의 데이터 변경시, DCT의 선형 성질을 이용하면 변경된 데이터만 적용하여 히스토그램을 재구성할 수 있다.
다음으로 데이터베이스 순위결정 과정을 설명한다. 사용자 질의가 입력되면, 메타서버는 질의 객체의 특징 벡터를 계산한다(103). 이미지 데이터베이스들은 이질적인 환경에서 자신의 유사성 측정 함수를 사용하기 때문에, 주어진 사용자의 전역 임계값(GT)은 상기 통계 데이터를 사용하여 각 이미지 데이터베이스의 지역 임계값(Local Threshold, 이하 LT)으로 변환된다(104). 그리고, 메타서버는 DCT에 의해 압축된 히스토그램 정보와 LT를 사용하여 각 이미지 데이터베이스에 대하여 질의 결과의 크기(선택률)를 추정한다(105). 이때, 각 이미지 데이터베이스 의 지역 유사성 측정함수에 의해 추정된 선택률은 메타서버의 전역 유사성 측정함수에 의해 측정된 것과 다를 수 있다. 따라서, 보정이 필요한데, 표본 선택률 보상(Sample Selectivity Compensation) 기법을 사용하여 선택률의 차이를 보정할 수 있다. 이렇게 보정된 선택률에 의하여, 전역 유사성 측정함수에 의해 추정된, 질의 결과의 크기가 큰 순서에서 작은 순서로 각 이미지 데이터베이스들의 순위를 결정하고(106), 일정 순위에 드는 이미지 데이터베이스들을 검색 후보로 선정한다.
상기와 같은 방법에 의하면, 종래 기술에 비해 작은 크기의 표본 객체들과 적은 수의 DCT 계수들로 질의에 적합한 객체의 수를 효율적이고 효과적으로 추정할 수 있다.
또한, 메타서버의 유사성 측정함수와 지역 유사성 측정함수가 다르더라도, 적은 수의 표본 객체들을 사용하는 표본 선택률 보상 기법은 추정된 질의 결과의 크기 차이를 정확하게 보상할 수 있다.
도 2는 상술한 복합추정 방법을 사용하는 검색 시스템의 구조를 도시한 것으로, 메타서버(202)는 메타서치 에이전트(MetaSearch Agent, 205)와 수집융합 에이전트(Collection Fusion Agent, 206)로 구성되고, 메타 데이터베이스(203)를 가지고 있으며, 인터넷을 통해 복수의 지역 이미지 데이터베이스(201) 및 클라이언트 뷰어(Client Viewer, 204)에 연결된다.
메타서치 에이전트(205)는 질의 객체와 전역 임계값(GT)이 주어질 때 복합 추정방법을 사용하여 질의에 적합한 데이터베이스들을 선택하고 상기 선택된 데이 터베이스에 질의를 보내는 역할을 한다.
수집융합 에이전트(206)는 각 이미지 데이터베이스로부터 구해진 질의 결과를 점진적으로 수집하고 전역 유사성 함수에 맞게 순위를 다시 매기어 사용자에게 질의 결과를 보여주는 역할을 한다.
메타 데이타베이스(203)는 지역 데이터베이스로부터 수집된 히스토그램 정보와 표본 객체들 및 상기 객체의 특징 벡터, 통계적 데이터를 저장한다.
도 3은 전역 유사도와 지역 유사도 간의 산포도를 보인 것으로, 메타서버(202)와 이미지 데이터베이스(201)의 유사성 측정함수가 다를 지라도 일부의 유사성 측정함수 쌍의 유사도값의 분포가 직선의 형태로 나타남을 보인다.
도 4는 표본 크기와 질의 추정의 정확도 사이의 관계를 나타낸 것으로 종래의 방법과 비교 도시하였다. 본 발명에 따른 복합추정 방법을 사용하면 종래의 순수한 표본추출 기반 추정 방법을 사용할 때보다 정확도가 높고, 더 적은 수의 표본으로도 높은 정확도를 얻을 수 있음을 볼 수 있다.
도 5는 표본 객체들을 사용하여 지역 유사도값 x와 전역 유사도값 y의 이변량 분포로부터 회귀 직선
Figure 112002038948693-pat00001
을 추정할 수 있음을 보여주고 있다. 추정된 회귀직선을 이용하여 전역 임계값(GT)을 각 지역 이미지 데이터베이스의 지역 임계값(LT)으로 변환할 수 있다.
도 6은 구형 유사성 질의의 질의 결과를 추정하기 위하여 DCT를 이용한 히스토그램 정보에 기초한 두가지 선택률 추정 방법인 단일 사각형 근사(single rectangle approximation)와 다중 사각형 근사 방법을 설명하는 것으로, 이를 통해 실제 데이터 공간에서 구형 유사성 질의의 질의 결과를 추정할 수 있다.
단일 사각형 근사(Single Rectangle Approximation, 이하 SRA)는 구형 질의의 선택률을 추정하기 위하여 질의의 초평면-구(Hyper-Sphere)와 같은 볼륨과 중심을 갖고 있는 초평면-사각형(Hyper-Rectangle)의 선택률로부터 구해진다. 근사된 단일 초평면-사각형은 도 6a에 점선으로 표현된다.
다중 사각형 근사(Multiple Rectangle Approximation, 이하 MRA)는 중심이 (0,…,0)이고 반경이 1인 초평면-구안에 v개의 초평면-사각형 R i , i=1,…v 을 미리 생성한다. 초평면-사각형들을 효율적으로 생성하기 위하여, 겹쳐진 영역은 많아야 두개의 초평면-사각형들로부터 만들어진다는 조건을 준다. 겹쳐진 영역은 다른 초평면-사각형으로 고려한다. s i 는 초평면-사각형 R i 의 선택률이고 λ i 는(초평면-구와 R i 의 공통영역)/(R i 의 볼륨)이며, ρ는 (초평면-구의 볼륨)/(R i 의 내부 영역들의 전체 볼륨)이다. 새로운 사각형의 λ i 값이 미리 주어진 값 τ보다 크도록 조정한다. 3차원일 때는 0.7, 6차원일 때 0.5가 되도록 실험적으로 선택하며 실험에서 MRA방법이 이 값들을 사용할 때 성능이 좋았다. 이 초평면-사각형들은 질의 영역(Query Range) 내에 위치하도록 적절한 비율로 확대 및 변환되고 각 사각형의 선택률 s i , ρλ i 이 계산된다. 구형질의의 선택률은
Figure 112002038948693-pat00002
이다. 두 가지 경우에, 초평면-구의 볼륨과 초평면-사각형과 초평면-구의 공통부분의 볼륨은 몬테-카를로(Monte-Carlo) 방법을 적용하여 다음과 같이 근사적으로 계산할 수 있다: 초평면-구의 볼륨 = 초평면-구를 외접하는 초평면-사각형의 볼륨 × (초평면-구 내의 난수들의 개수 / 초평면-사각형 내의 난수들의 전체 개수).
도 7은 데이터베이스의 히스토그램 정보의 생성 시간과 선택률 추정 시간을 보인 것으로, 두가지의 다른 크기의 입력 데이터(샘플크기 S=4000 과 S=8000)와 히스토그램 정보에 사용되는 두가지 다른 값(3차원과 6차원에서의 DCT 계수의 개수, D)에 대한 실제 수행 시간을 보여준다.
SRA의 히스토그램 생성 비용에는 DCT 계수의 계산 시간이 포함되어 있다. MRA의 경우에는 사용되는 사각형들을 생성하는 시간을 고려해야 한다. 도 9에 도시된 바와 같이 사각형들의 생성 시간이 매우 길지만, 준비 단계에서 단 한번만 실행하면 되는 것이므로 문제가 되지 않는다. 그리고 샘플의 개수는 히스토그램 정보의 생성 시간에 영향이 적다는 사실을 보여 준다. DCT 계수를 더 많이 사용하면 생성 시간은 더 길긴 하지만 합당한 수준이며 SRA와 MRA 간에 큰 차이가 없음을 알 수 있다. 또한 선택률 추정시간은 데이터베이스 히스토그램 생성 시간에 비해서 훨씬 작다는 것을 알 수 있다.
도 8은 같은 데이터베이스상에서 각각 RGB, YCbCr, HSV 색상 공간과 같이 다른 유사성 측정함수와 3차원, 6차원 특징 데이터를 사용할 때, 표본 비율의 변화에 따른 히스토그램을 이용한 선택률 추정방법(단일 사각형근사, 다중 사각형 근사)의 상대 오차를 보이고 있다.
3차원 또는 6차원일 때 같은 범위의 표본 비율에 대한 다중사각형 근사의 상대 오차는 단일 사각형 근사의 상대 오차보다 좋은 결과를 보여준다.
도 9는 같은 데이터베이스상에서 각각 RGB, YCbCr, HSV 색상 공간과 같이 다른 유사성 측정함수를 사용할 때 표본 비율의 변화에 따른 주어진 질의에 대하여 표본 선택률 보상(SSC) 결과를 보인다.
표본 비율이 매우 작을 때 선택률 보상의 변동이 많으나 표본 비율이 증가하면 선택률 보상(SSC)이 일정한 값에 확률적으로 수렴함을 보인다. 따라서 선택률 보상(SSC)을 이용하여 전역 선택률과 지역 선택률의 차이를 상당히 줄일 수 있음을 알 수 있다.
도 10은 표본추출 기반 방법, 히스토그램 기반 방법, 단일 사각형 근사(SRA)와 표본을 사용한 복합추정 방법 그리고 다중 사각형 근사(MRA)와 표본을 사용한 복합추정 방법을 비교하기 위하여 표본 비율의 변화에 따른 질의 결과의 크기 예측시 정확성을 보여준다.
순수 표본추출 기반 방법과 비교할 때 도 10은 질의 결과의 크기를 추정하는 방법의 정확성이 표본 크기가 작을 때조차도 복합추정 방법에 의해 상당히 개선됨을 보여준다. 결과는 또한 복합추정 방법이 동일한 정확성을 제공할 때 필요한 표본의 크기가 작아도 됨을 보여준다.
도 11은 3차원, 6차원 데이터에 대해 선택된 데이터베이스들의 개수를 변화시킬 때 단일 사각형 근사와 다중 사각형 근사를 사용하는 복합추정 방법에 의한 데이터베이스 순위 결정의 성능(순위 결정 오차와 상대적 성능)을 나타낸다.
복합 추정 방법들은 임의(random) 데이터베이스 선택보다 항상 성능이 좋으며 다중 사각형 근사(MRA)는 단일 사각형 근사(SRA)보다 성능이 좋게 나타났다.
도 12는 3차원, 6차원 데이터에 대해 단일 사각형 근사와 다중 사각형 근사를 이용한 복합 추정 방법들과 최적의 추정 방법을 사용할 때 10개의 지역 데이터베이스들에 대하여 예측된 전역 질의 결과의 크기를 나타낸다.
다중 사각형 근사는 3차원, 6차원일 때 각각 단일 사각형 근사보다 좋게 나타난다.
본 발명은 상기와 같이 히스토그램 정보와 적은 수의 표본 객체들을 이용하는 복합 추정자(hybrid estimator)를 사용하여 정확하게 데이터베이스를 선택하고 순위를 매기는 효율적인 알고리즘을 제안한다. 본 발명의 장점을 다음과 같이 정 리 할 수 있다.
첫째, 메타 서버의 유사성 측정 함수와 이미지 데이터베이스의 유사성 측정 함수가 다르더라도 적은 수의 표본 객체와 히스토그램 정보를 사용하는 복합 추정자를 이용하여 질의 결과의 크기를 정확하게 예측할 수 있다. 따라서, 이질적인 이미지 데이터베이스들을 선택하는데 효율적이다.
둘째, 순수하게 표본만을 이용하는 방법(Pure Sampling Method)이나 히스토그램 방법과 비교할 때 정확도가 더 높다(도 4 참조).
세째, 적은 수의 표본을 사용하고 압축된 히스토그램 정보를 사용하므로 메타서버의 기억장소를 훨씬 적게 요구하며 네트웍 전송비용을 줄일 수 있다. 또한 DCT의 선형 성질을 이용하여 변경된 데이터만 적용하여 히스토그램을 재구성할 수 있어 적은 부담으로 동적인 데이터 변경을 지원할 수 있다.
네째, 이미지 데이터베이스는 전역 특징이 아닌 지역 특징의 히스토그램을 제공하기 때문에 이미지 데이터베이스의 유사성 측정함수로 구한 질의(지역 질의)의 결과 크기와 메타서버의 유사성 측정함수로 구한 질의(전역 질의)의 결과 크기가 다를 수 있는 바, 본 발명은 질의 결과 크기의 차이를 보상하는 표본 선택률 보상 방법을 제안하여 정확한 데이터베이스 선택이 가능하도록 하였다.
지금까지 이질적인 분산 환경에서 정확한 질의 결과의 크기를 예측하는 복합추정 방법을 제안한 것은 본 발명이 처음이며, 폭넓은 실험을 통해서 제안한 방법이 정확도가 높고 효율적임을 증명하였다.

Claims (7)

  1. 메타서치 에이전트, 수집 융합 에이전트 및 메타 데이터베이스를 구비한 메타서버가 사용자의 질의에 대해 웹 상에 연결된 이질적인 지역 이미지 데이터베이스들을 검색하여 질의 결과를 찾을 수 있는 데이터베이스들을 선택하기 위한 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색 방법에 있어서,
    상기 메타 서치 에이전트가 상기 지역 이미지 데이터베이스들로부터 표본 객체와 상기 표본 객체의 색상 또는 질감 히스토그램 정보를 수집하여 메타 데이터베이스에 저장하는 단계; 및
    상기 메타 서치 에이전트가 상기 수집된 표본객체의 특징벡터를 상기 히스토그램 정보로부터 추출하고 회귀분석을 사용하여 상기 표본 객체들의 유사성 분포에 대한 상관계수, 평균, 표준편차와 같은 통계 데이터를 계산하여 상기 메타 데이터베이스에 저장하는 단계;
    상기 메타 서치 에이전트가 사용자로부터 질의 객체와 전역 임계값을 입력받는 단계;
    상기 수집 융합 에이전트가 상기 메타 데이터베이스에 저장된 상기 통계 데이터를 기반으로 회귀분석을 사용하여 상기 전역 임계값을 상기 각 지역 이미지 데이터베이스의 지역 임계값으로 변환하는 단계;
    상기 수집 융합 에이전트가 상기 히스토그램 정보와 상기 변환된 지역 임계값을 사용하여 상기 각 지역 이미지 데이터베이스에 대한 선택률을 추정하는 단계; 및
    상기 수집 융합 에이전트가 표본 객체를 이용한 표본 선택률 보상 기법을 사용하여 메타서버와 지역 이미지 데이터베이스들의 유사성 측정 기준 차이로 인한 상기 추정된 선택률의 오차를 보정한 후, 상기 보정된 선택률에 따라 상기 지역 이미지 데이터베이스들의 순위를 결정하는 단계;를 포함하여 이루어지는 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색방법.
  2. 제 1 항에 있어서,
    상기 히스토그램 정보는 이산 여현 변환(Discrete Cosine Transform) 기법에 의해 압축된 것임을 특징으로 하는 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색방법.
  3. 제 2 항에 있어서,
    상기 지역 이미지 데이터베이스들의 데이터 변경시는 상기 이산 여현 변환 기법의 선형 성질을 이용하여 변경된 부분만을 수정하여 상기 히스토그램 정보를 재구성하는 것을 특징으로 하는 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색방법.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 선택률의 추정에는 단일 사각형 근사 방법이 사용되는 것을 특징으로 하는 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색방법.
  6. 제 1 항에 있어서,
    상기 선택률의 추정에는 다중 사각형 근사 방법이 사용되는 것을 특징으로 하는 복합추정 방법을 이용한 웹상의 이미지 데이터베이스 검색방법.
  7. 삭제
KR1020020073654A 2002-11-25 2002-11-25 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템 KR100718586B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020073654A KR100718586B1 (ko) 2002-11-25 2002-11-25 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020073654A KR100718586B1 (ko) 2002-11-25 2002-11-25 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템

Publications (2)

Publication Number Publication Date
KR20040045796A KR20040045796A (ko) 2004-06-02
KR100718586B1 true KR100718586B1 (ko) 2007-05-16

Family

ID=37341553

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020073654A KR100718586B1 (ko) 2002-11-25 2002-11-25 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템

Country Status (1)

Country Link
KR (1) KR100718586B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064256B1 (ko) * 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
KR102519997B1 (ko) 2018-05-14 2023-04-11 인포보스 주식회사 이종 데이터 웹기반 분석 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010002386A (ko) * 1999-06-15 2001-01-15 정선종 이미지 데이터베이스 구축 및 검색 방법
JP2001202523A (ja) * 1999-12-03 2001-07-27 Canon Inc 画像処理方法及びその装置
KR20010081894A (ko) * 2000-02-18 2001-08-29 구자홍 이종 시스템간의 내용기반 멀티미디어 검색을 가능하게하는 칼라 히스토그램 변환방법, 멀티미디어 검색 방법,데이터 구조 및 멀티미디어 검색 시스템
KR20030022663A (ko) * 2001-09-10 2003-03-17 한국과학기술원 영역-합 질의를 위한 동적 업데이트 큐브와 하이브리드질의 검색방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010002386A (ko) * 1999-06-15 2001-01-15 정선종 이미지 데이터베이스 구축 및 검색 방법
JP2001202523A (ja) * 1999-12-03 2001-07-27 Canon Inc 画像処理方法及びその装置
KR20010081894A (ko) * 2000-02-18 2001-08-29 구자홍 이종 시스템간의 내용기반 멀티미디어 검색을 가능하게하는 칼라 히스토그램 변환방법, 멀티미디어 검색 방법,데이터 구조 및 멀티미디어 검색 시스템
KR20030022663A (ko) * 2001-09-10 2003-03-17 한국과학기술원 영역-합 질의를 위한 동적 업데이트 큐브와 하이브리드질의 검색방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정보과학회논문지: 데이타베이스 제 27권 제 4호, 2000.12) *

Also Published As

Publication number Publication date
KR20040045796A (ko) 2004-06-02

Similar Documents

Publication Publication Date Title
US6240423B1 (en) Method and system for image querying using region based and boundary based image matching
US7516129B2 (en) Method of indexing digitized entities in a data collection to facilitate searching
Guntzer et al. Towards efficient multi-feature queries in heterogeneous environments
Nabil et al. Picture similarity retrieval using the 2D projection interval representation
US7860317B2 (en) Generating search results based on duplicate image detection
US7111002B2 (en) Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US6084595A (en) Indexing method for image search engine
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
US7818279B2 (en) Event detection based on evolution of click-through data
US7401073B2 (en) Term-statistics modification for category-based search
Chang et al. Data resource selection in distributed visual information systems
Zhang et al. Improving cbir by semantic propagation and cross modality query expansion
KR100718586B1 (ko) 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템
Park et al. Majority based ranking approach in web image retrieval
Stanchev Content-based image retrieval systems
Zhang et al. Relevance Feedback in Content-based Image Search.
Zhang et al. NetView: integrating large scale distributed visual databases
Kim et al. Heterogeneous image database selection on the Web
Natsev et al. CAMEL: concept annotated image libraries
Chang et al. Metadata for Distributed Visual Database Access.
Shah et al. A cluster‐based approach for efficient content‐based image retrieval using a similarity‐preserving space transformation method
Meng et al. Performance analysis of three text-join algorithms
Sheth et al. Searching Distributed and Heterogeneous Digital Media: The VisualHarness Approach
Leung et al. Multimedia data mining and searching through dynamic index evolution
Piamsa-nga et al. A parallel algorithm for multi-feature content-based multimedia retrieval

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110502

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee