KR101622360B1

KR101622360B1 - 이미지들의 유사성 검색을 위한 시스템 및 방법

Info

Publication number: KR101622360B1
Application number: KR1020157023226A
Authority: KR
Inventors: 동-킹 장; 라잔 조쉬; 아나 비. 베니테즈; 잉 루오; 주 구오
Original assignee: 톰슨 라이센싱
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2016-05-19
Also published as: BRPI0822771A2; EP2300941A1; CN102057371A; WO2009148422A1; JP5774985B2; CA2726037A1; KR20150104646A; KR20110027666A; KR101582142B1; US20110085739A1; JP2011523137A

Abstract

분류 구성을 갖는 이미지들의 효율적인 의미상의(semantic) 유사성 검색에 대한 시스템 및 방법이 제공된다. 이 시스템 및 방법은 복수의 이미지들에 대한 의미상의 분류-검색 트리를 구축(202)하는 것으로서, 이 분류 트리는 적어도 2개의 이미지 카테고리를 포함하며, 이미지들의 각 카테고리는 복수의 이미지들의 서브셋(subset)을 나타내는 분류-검색 트리를 구축(202)하는 것과, 질의 이미지를 수신(204)하는 것, 적어도 2개의 이미지 카테고리 중 하나의 카테고리를 선택하기 위하여 질의 이미지를 분류(208) 하는 것, 질의 이미지를 사용하는 관심 이미지를 적어도 2개의 이미지 카테고리 중 선택된 하나의 카테고리로 검색을 제한(210)하는 것을 제공한다.

Description

이미지들의 유사성 검색을 위한 시스템 및 방법{SYSTEM AND METHOD FOR SIMILARITY SEARCH OF IMAGES}

본 개시물은 일반적으로 컴퓨터 그래픽 처리 및 디스플레이 시스템들에 관한 것이고, 더 구체적으로, 이미지들의 유사성 검색을 위한 시스템 및 방법에 관한 것이다.

질의(query) 이미지와 유사한 이미지의 검출 및 검색은 다양한 실사회 응용들에서 매우 유용하다. 이러한 개시물에 서술된 기술은 이미지 데이터 베이스를 질의하여 바람직하게는 의미상의(semantic) 레벨(즉, 동일한 객체들 및 배경을 내포하지만 아마도 약간의 변화를 포함하는 이미지들)에서 질의 이미지와 유사한 이미지들을 찾는 문제를 다룬다. 이 문제는 예를 들어, 모바일 디바이스들에 대한 위치-인식(location-aware) 서비스와 같은 다양한 응용들에서 나타나는데, 이러한 서비스에서 사용자가 랜드마크(landmark)의 사진을 찍으면, 모바일 디바이스는 사용자에게 위치와 랜드마크에 대한 설명을 알려줄 수 있다. 다른 응용으로, 사용자는 상점에서 하나 이상의 제품들의 사진을 찍으면, 모바일 디바이스는 대응하는 가격으로 다른 소매상에 의해 제공되는 동일한 상품이 나타난 웹페이지를 반환할 수 있다. 저작권 침해 검출의 배경으로, 이 모바일 디바이스는 인터넷을 통하여 이미지들의 불법 사용을 검색함으로써, 저작권 위반을 식별할 수 있다. 멀티미디어 콘텐츠 관리에서, 이미지 복제물들 및 유사-복제물(near-duplicate)들을 검출하는 것은 다중-소스(multi-source) 비디오에서의 기사, 신문에서의 기사, 웹페이지에서의 기사를 연결하는 것에 도움을 줄 수 있다.

이러한 개시물에서 서술된 기술이 일반적인 이미지 또는 비디오의 검색 또는 검색에 적용될 수 있지만, 본 개시물은 색, 텍스처(texture) 등과 같은 저 레벨 특징들에 기초하는 시각적 검색보다는, 의미상의 레벨로의 이미지 및 비디오 검색에 초점을 맞춘다. 저-레벨 특징에 기초하는 이미지 또는 비디오 검색은 잘 연구되어, 매우 효율적인 검색 알고리즘들이 큰-규모의 데이터베이스들에 이용가능하다. 의미상의 레벨에서 이미지 또는 비디오 검색은 저-레벨 특징 검색에 비해 매우 어려운데, 이는 이미지 또는 비디오에 내포된 객체의 비교를 수반하기 때문이다. 위에 논의된 상기 응용들과 같은 다수의 실사회 응용에 대하여, 일반적으로 저-레벨 특징에 기초 된 검색은 불충분한데, 왜냐하면, 상이한 객체를 내포하는 이미지들이 유사한 색 및 텍스처를 가질 수 있기 때문이다.

의미상의 레벨에서 이미지 또는 비디오 검색은 이미지들에서 객체들의 비교를 요구한다. 이런 점으로 정의된 유사한 이미지들은 동일한 객체들 및 배경을 내포해야만 하나, 객체의 움직임, 조명 변화 등과 같은 일부의 변화들을 가질 수 있다. 이러한 문제는, 컴퓨터들 및 계산 디바이스들 등이 이미지들을 이해하거나 또는 의미상의 레벨에서 이미지들을 나타내기 어렵기에, 매우 도전적인 문제이다. 의미상의 레벨에서 이미지들 또는 비디오들의 검색 시 수행되는 일부의 초기 작업이 존재한다. 예를 들어, 기계 학습 방법들을 사용하여 정확한 유사-복제물 검출 및 검색을 위한 부분-기반의 유사성 수단이, ACM 멀티미디어(2004년 10월, 미국, 뉴욕)에서 "학습을 통한 확률론적 상관 그래프 매칭에 의한 유사-복제물 이미지의 검출(Detecting Image Near-Duplicate by Stochastic Attributed Relational Graph Matching with Learning)"로, D. Q. Zhang 및 S. F. Chang에 의해 서술되었다. Zhang 등에 의해 서술된 유사성 수단은 실질적으로 매우 정확한 결과들을 얻은 이미지들 내의 객체들을 비교한다. 하지만, 이러한 방법은 (예를 들어, 색 히스토그램(histogram))에 의해 저-레벨 특징들을 사용하여 전형적인 검색 방법들과 비교하여 매우 느리고, 실사회 응용들에 적용될 수 없다.

그러므로, 의미상의 레벨에서 이미지들의 효율적인 검색에 대한 기술들의 필요성이 존재한다. 더욱이, 이미지 유사성 수단이 이용가능할 때조차, 이미지 검색의 가속화에 대한 필요성도 존재한다.

분류 구성을 갖는 이미지들의 효율적인 의미상의 유사성 검색에 대한 시스템 및 방법이 제공된다. 이 시스템 및 방법은 이미지 데이터베이스를 질의하여 의미상의 레벨에서 질의 이미지와 유사한 이미지들, 즉 가능한 일부 변형들을 제외한, 질의 이미지와 같은 동일한 객체들 및 배경을 내포하지만 일부 변화를 갖는 이미지들을 검색하는 것을 가능하게 한다. 본 개시물의 기술들은 특정 클래스들 또는 카테고리들 내에 이미지들의 의미상의 유사성 검색을 제한하여, 유사성 계산이 크게 줄어든다. 먼저, 데이터베이스에서 모든 이미지들에 대한 분류-검색 트리가 구축된다. 그런 후에, 각 유입되는 질의 이미지에 대하여, 질의 이미지는 하나 이상의 카테고리들(전형적으로, 사람들, 실내, 실외 등과 같은 의미상의 카테고리들)로 분류되었고, 이 카테고리들은 전체의 이미지 공간, 즉, 이미지들의 데이터베이스의 서브셋(subset)을 나타낸다. 그런 후에, 이미지 유사성 계산은 이러한 서브셋 내에서 제한된다.

본 개시물의 제 1 양상에 따라, 관심 이미지를 위해 복수의 이미지들을 검색하는 방법이 제공된다. 본 방법은 복수의 이미지를 위한 분류 구성으로서, 각각이 복수의 이미지의 서브셋을 나타내는 적어도 2개의 이미지의 카테고리를 포함하는 분류 구성을 구축하는 단계, 질의 이미지를 수신하는 단계, 적어도 2개의 이미지의 카테고리 중 하나의 카테고리를 선택하도록 질의 이미지를 분류하는 단계, 및 관심 이미지의 이미지 검색을, 적어도 2개의 이미지 카테고리 중 선택된 하나의 카테고리로 제한하는 단계를 포함한다.

다른 양상에 따라, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템은, 이미지들 중 적어도 2개의 의미상의 카테고리들로 구성된 복수의 이미지들을 포함하는 데이터베이스로서, 여기에서 이미지들의 각 의미상의 카테고리는 복수의 이미지들의 서브셋을 나타내는 데이터베이스와, 적어도 하나의 질의 이미지를 취득하기 위한 수단과, 적어도 2개의 이미지 의미상의 카테고리 중 하나의 카테고리를 선택하기 위하여 질의 이미지를 분류하기 위한 이미지 분류기 모듈, 및 질의 이미지를 사용하여 관심 이미지의 검색을 위한 이미지 검색기 모듈을 포함하고, 검색은 적어도 2개의 의미상의 이미지 카테고리 중 하나의 카테고리로 제한된다.

추가 양상에 따라, 기계에 의해 판독가능한 프로그램 저장 디바이스가 제공되는데, 이러한 저장 디바이스는, 관심 이미지에 대한 복수의 이미지를 검색하기 위한 방법의 단계들을 수행하기 위해 기계에 의해 실행가능한 지령들의 프로그램을 명백히 구현한다. 본 방법은 복수의 이미지들을 위한 분류 구성을 구축하는 단계로서, 여기에서 이 분류 구성은 적어도 2개의 이미지 카테고리를 포함하며, 이미지들의 각 카테고리는 복수의 이미지들의 서브셋을 나타내는 분류 구성을 구축하는 단계와, 질의 이미지를 수신하는 단계, 적어도 2개의 이미지 카테고리 중 하나의 카테고리를 선택하기 위하여 질의 이미지를 분류하는 단계와, 관심 이미지의 검색을, 적어도 2개의 이미지 카테고리 중 선택된 하나의 카테고리로 제한하는 단계를 포함한다.

본 개시물의 이러한 및 다른 양상들, 특징들, 및 장점들이 첨부 도면들과 함께 읽혀져야 할 바람직한 실시예들의 다음의 상세한 설명으로부터 서술되거나 또는 명백해질 것이다.

도면들에서, 유사한 참조 번호들은 도면 전체에 걸쳐 유사한 요소를 나타낸다.

본 발명은 분류-검색 기법을 이용한 유사성 검색기법으로, 찾고자 하는 이미지를 검색하는데 보다 효율적인 방법 및 시스템을 제공한다.

도 1은 본 개시물의 양상에 따른 이미지들의 유사성 검색을 위한 시스템의 예시적인 도면.
도 2는 본 개시물의 양상에 따른 이미지들의 유사성 검색을 위한 예시적인 방법의 흐름도.
도 3은 본 개시물에 따른, 분류-검색 트리를 도시하는 도면.
도 4는 본 개시물에 따른 분류-검색 트리에서 수행되는 간단한 검색을 도시하는 도면.
도 5는 본 개시물에 따른 분류-검색 트리에서 수행되는 중복(redundant) 검색을 도시하는 도면.
도 6은 본 개시물의 양상에 따른 분류-검색 트리를 구축 또는 생성하기 위한 방법을 도시하는 도면.
도 7은 태깅된 키워드들을 갖는 이미지를 위한 특징 벡터를 도시하는 도면.
도 8은 본 개시물의 양상에 따른, 새로운 이미지를 분류-검색 데이터베이스에 추가하기 위한 방법을 도시하는 도면.

도면(들)은 본 개시물의 개념들을 설명하기 위한 목적이고, 본 개시물의 설명을 위해 가능한 유일한 구성은 아니라는 점이 이해되어야 한다.

도면들에서 도시되는 요소들은 하드웨어, 소프트웨어 또는 이들의 혼합의 다양한 형식으로 구현될 수 있다는 점이 이해되어야 한다. 바람직하게, 이러한 요소들은 처리기, 메모리, 및 입/출력 인터페이스들을 포함할 수 있는 적절하게 프로그래밍 된 하나 이상의 일반적인-목적의 디바이스들 상에서 하드웨어 및 소프트웨어의 혼합으로 구현될 수 있다.

본 서술은 본 개시물의 원리들을 설명한다. 따라서, 당업자라면 본 명세서에서 명백하게 서술되거나 또는 도시되지 않았음에도 불구하고, 본 개시물의 원리들을 구현하고, 본 개시물의 사상 및 범주 내에 포함되는 다양한 방식들을 안출할 수 있음을 인식할 수 있을 것이다.

본 명세서에서 언급되는 모든 예시들 및 조건부 언어는 교육적인 목적으로, 독자들에게 본 개시물의 원리들, 및 발명자에 의해 기술을 진전시키는데 기여된 개념들의 이해를 도우려는 것이고, 이러한 명백하게 언급된 예시들 및 조건들에 대해 제한 없이 해석되어야 한다.

더욱이, 본 명세서의 특정 예시들만이 아니라, 원리들, 양상들 및 실시예들을 언급하는 모든 설명들은 이들의 구조적이고 기능적인 등가물을 포함하려 의도된다. 추가로, 이러한 등가물은 현재 알려진 등가물뿐 아니라 미래에 개발될 등가물 모두를, 즉, 구조에 관계없이 동일한 기능을 수행하는 개발된 임의의 요소들을 포함하는 것으로 의도된다.

따라서, 예를 들어, 당업자라면 본 명세서에 제공된 블록도들이 본 개시물의 원리들을 구현하는 예시적인 회로의 개념적인 도면들을 나타내는 것이라고 인식될 것이다. 마찬가지로, 임의의 흐름 차트(chart)들, 흐름도들, 및 상태천이도들, 의사코드 등은 컴퓨터 또는 처리기가 명시적으로 도시되었는지에 관계없이, 컴퓨터가 판독할 수 있는 매체에 실질적으로 제공될 수 있고 컴퓨터 또는 처리기에 의해 실행될 수 있는, 다양한 프로세스를 나타내는 것임을 인식할 것이다.

도면들에서 도시되는 다양한 요소들의 기능들은 적합한 소프트웨어에 관한 소프트웨어를 실행할 수 있는 하드웨어뿐만이 아니라, 전용 하드웨어의 사용을 통하여 제공될 수 있다. 처리기에 의해 기능들이 제공될 때, 기능들은 단일 전용의 처리기에 의해, 단일 공유된 처리기에 의해, 또는 일부가 공유될 수 있는 복수의 개별적인 처리기들에 의해 제공될 수 있다. 더욱이, 용어 "처리기" 또는 "제어기"의 명백한 사용은 소프트웨어를 실행할 수 있는 하드웨어에 배타적으로 참조하는 것으로 해석이 되어선 안 되고, 제한 없이, 디지털 신호 처리기("DSP") 하드웨어, 소프트웨어를 저장하기 위한 읽기 전용 메모리("ROM"), 랜덤 액세스 메모리("RAM"), 및 비 휘발성의 저장장치를 암묵적으로 포함할 수 있다.

다른 종래의 및/또는 맞춤형(custom) 하드웨어 또한 포함될 수 있다. 마찬가지로, 도면들에 도시된 임의의 스위치들도 오직 개념적이다. 이들의 기능은 프로그램 로직(logic)의 동작을 통하여, 전용 로직을 통하여, 프로그램 제어 및 전용 로직의 상호작용을 통하여, 심지어 수동으로 수행될 수 있고, 이러한 특정 기술은 이러한 배경으로부터 명확히 이해될 시, 구현자에 의해 선택될 수 있다.

본 명세서의 청구항에서, 특정 기능을 수행하기 위한 수단으로서 표현된 임의의 요소는 이러한 기능을 수행하기 위한 임의의 방식을 포함하려는 것이고, 이 기능은 예를 들어, a) 이러한 기능을 수행하는 회로 요소의 혼합, 또는 b) 임의의 형식의, 그러므로, 기능을 수행하기 위하여 이러한 소프트웨어를 실행하는 적합한 회로 소자와 결합 된 펌웨어(firmware), 마이크로 코드 등을 포함하는 소프트웨어를 포함한다. 이러한 청구항들에 의해 정의된 본 개시물은 다양하게 언급된 수단에 의해 제공된 기능들이 청구항들이 요구하는 방식으로 결합 되어, 함께 초래된다는 특징을 갖는다. 따라서, 이러한 기능들을 제공할 수 있는 임의의 수단이 본 명세에서 나타난 수단에 상응한다고 여겨진다.

질의 이미지와 유사한 이미지의 검출 및 검색은 다양한 실사회 응용들에서 매우 유용하다. 문제는 의미상의 레벨에서 질의 이미지와 유사한(즉, 이미지들이 동일한 광경(scene)으로부터 촬영(shot)되어, 동일한 객체들을 갖는) 이미지들을 효율적으로 찾는 것이다. 일부 이전의 작업은 저속으로 의미상의 이미지 검색에 대한 매우-정확한 알고리즘들을 제안했다. 효율성 문제는, 만일 이미지 데이터베이스가 큰 경우, 특히 중요하다. 보통, 이미지 데이터베이스를 검색하기 위한 시간은 데이터베이스의 크기에 선형적으로 증가한다. 본 개시물의 시스템 및 방법은 이미지들의 의미상의 의미뿐만이 아니라, 이미지 데이터베이스 구성의 장점을 취함으로써, 검색을 가속시킨다.

계층적 처리를 사용하는 이미지들 및 비디오들의 효율적인 검색을 위한 시스템 및 방법이 제공된다. 고-품질 이미지 또는 비디오 유사성 알고리즘 또는 기능들이 이미 이용가능하다고 가정하면, 알고리즘들의 속도는 전형적인 특징-기반의 유사성 계산 알고리즘들에 비해 매우 느리다. 그러므로, 본 개시물의 시스템 및 방법은 가속화 처리를 제공함으로써, 이미지 또는 비디오 데이터베이스에서 의미상의 검색을 가속화한다. 축약(abbreviation)을 위하여, 본 개시물은, 동일한 기술들이 영상, 즉 일련의 이미지들에 적용될 수 있음에도 불구하고, 이미지 검색에 초점을 맞춘다. 본 시스템 및 방법은 이미지 콘텐츠 공간 구성의 이점을 취함으로써, 검색 알고리즘을 가속화한다. 본 개시물의 기술들은 특정 클래스들 또는 카테고리들 내에서 시각적인 유사성 검색을 제한하여, 유사성 계산이 매우 감소 된다. 처음에, 분류 트리와 같은 하지만 이에 제한적이지 않은, 데이터베이스의 모든 이미지들에 대한 분류 구성이 구축된다. 그런 후에, 각 유입되는 질의 이미지에 대하여, 이미지는, 전체 이미지 공간의 서브셋을 나타내는 하나 이상의 카테고리들(사람, 실내, 실외 등과 같은, 전형적으로 의미상의 카테고리들)로 분류된다. 그런 후에, 이미지 유사성 계산은 이러한 서브셋 내로 제한된다.

지금부터 도면들을 참조하면, 본 개시물의 실시예에 따른 예시적인 시스템 요소들(100)이 도 1에 도시된다. 스캐닝(scanning) 디바이스(103)는 카메라-원본의 네거티브 필름(film)과 같은 필름(104)을, 시네온-포맷(Cineon-Format) 또는 미국영화 텔레비전 기술인협회("SMPTE: Society of Motion Picture and Television Engineers") 디지털 픽쳐 교환("DPX: Digital Picture Exchange") 파일들과 같은 디지털-포맷으로 스캐닝하기 위해 제공된다. 스캐닝 디바이스(103)는 예를 들어, 텔레시네(telecine) 또는, 비디오 출력단을 갖는 Arri LocPro^TM 과 같은 필름으로부터 비디오 출력을 생성하는 임의의 디바이스를 포함할 수 있다. 대안으로, 제작 후처리 또는 디지털 시네마로부터의 파일들(106)(예를 들어, 이미 컴퓨터가-판독할 수 있는 형식인 파일들)이 직접 사용될 수 있다. 컴퓨터가-판독할 수 있는 파일들의 잠정적인 소스들은 AVID^TM 에디터들, DPX 파일들, D5 테입들 등이다.

디지털 이미지들 또는 스캔 된 필름 프린트들은 처리 후 디바이스(102), 예를 들어 컴퓨터에 입력된다. 컴퓨터는 하나 이상의 중양 처리 장치(CPU), 랜덤 액세스 메모리(RAM) 및/또는 읽기 전용 메모리(ROM)와 같은 메모리, 및 키보드, 커서 제어 디바이스(예를 들어, 마우스 또는 조이스틱), 및 디스플레이 디바이스와 같은 입/출력(I/O) 사용자 인터페이스(들)와 같은 하드웨어를 갖는, 알려진 다양한 컴퓨터 플랫폼들 중 임의의 것으로 구현된다. 또한 컴퓨터 플랫폼은 운영 체제 및 마이크로 명령 코드를 포함한다. 본 명세서에서 서술된 다양한 처리들 및 기능들은 마이크로 명령 코드의 부분일 수도 있고, 또는 운영체제를 통하여 실행되는 소프트웨어 응용 프로그램(또는 이들의 혼합)의 부분일 수 있다. 일 실시예에서, 소프트웨어 응용 프로그램은 처리 후 디바이스(102)와 같은 임의의 적합한 기계에 업로드 되어, 이 기계에 의해 실행될 수 있는 프로그램 저장 디바이스 상에 명백하게 구현된다. 게다가, 다양한 다른 주변 디바이스들은 병렬 포트, 직렬 포트, 또는 범용 직렬 버스(USB)와 같은 다양한 인터페이스들 및 버스 구성에 의해, 컴퓨터 플랫폼에 연결될 수 있다. 다른 주변 디바이스들은 추가의 저장 디바이스들(124) 및 프린터(128)를 포함할 수 있다.

대안으로, 이미 컴퓨터가-판독할 수 있는 형식의 파일/필름(106)(예를 들어, 외장 하드 드라이브(124)에 저장될 수 있는, 디지털 시네마)은 컴퓨터(102)에 직접 연결될 수 있다. 본 명세서에서 사용된 용어 "필름"은 필름 또는 디지털 시네마를 참조할 수 있다는 점이 주목된다.

소프트웨어 프로그램은 질의 이미지를 기초로 하는 관심 이미지의 효율적인 검색을 위한 메모리(110)에 저장된 유사성 검색 모듈(114)을 포함한다. 이 유사성 검색 모듈(114)은 질의 이미지를 적어도 하나의 카테고리로 분류하기 위한 복수의 분류기들 및 서브-분류기들을 생성하기 위해 구성되는 이미지 분류기 모듈(116)을 더 포함한다. 특징 추출기(118)는 이미지들로부터 특징들을 추출하기 위하여 제공된다. 특징 추출기들은 종래 기술에 알려져 있고, 텍스처, 선 방향, 테두리 등을 포함하지만 이에 제한되지 않는, 특징들을 추출한다. 일 실시예에서, 이 분류기들은 추출된 특징들을 기초로 하는 질의 이미지를 분류하는 패턴(pattern) 인식 기능을 포함한다.

유사성 검색 모듈(114)은 이미지들의 데이터베이스의 이미지 서브셋(122)에서 검색을 위해 각각 구성되는, 복수의 이미지 검색기들을 포함하는 이미지 검색기 모듈(119)을 더 포함한다. 각 이미지 검색기는 질의 이미지로부터 관심 이미지를 결정하기 위한 유사성 수단을 사용한다.

키워드 태거(tagger)(120)는 특징을 갖는 데이터베이스의 각 이미지를 태깅(tagging) 하기 위해 제공된다. 일 실시예에서, 키워드 태거(120)는 N 키워드들의 사전을 포함하고, 키워드 태거(120)는 키워드들로부터 특징 벡터를 생성하는데 사용될 수 있다. 태깅된 특징들은 이미지들을 복수의 서브셋들에 저장하는데 사용될 수 있다. 더욱이, 일 실시예에서, 이미지 분류기 모듈(116)은 분류기들을 생성하기 위하여 키워드들을 사용한다.

더욱이, 유사성 검색 모듈(114)은 데이터베이스에서 이미지들의 객체들을 인식하기 위한 객체 인식기(121)를 포함한다. 인식된 객체들을 사용함으로써, 이미지 분류기 모듈(116)은 객체들로부터 학습할 수 있고, 객체들을 기초로 하는 분류기들을 생성할 수 있다.

도 2는, 본 개시물의 양상에 따른 분류-검색 트리와 같은, 하지만 이에 제한되지 않는, 분류 데이터 구성을 갖는 이미지들의 유사성 검색을 위한 예시적인 방법의 흐름도이다. 처음에, 단계(202)에서, 아래에서 상세히 서술될 분류-검색 트리가 구축된다. 그런 후에, 단계(204)에서, 처리 후 디바이스(102)는 적어도 하나의 2-차원(2D) 이미지, 예를 들어 질의 이미지를 취득한다. 처리 후 디바이스(102)는 예를 들어, 소비자 등급 카메라를 통하여 컴퓨터가-판독할 수 있는 포맷의 디지털 이미지 파일을 얻음으로써, 질의 이미지를 취득할 수 있다. 본 개시물의 기술들이 이미지, 이미지들의 시퀀스, 예를 들어, 비디오의 형태로 서술되었음에도 불구하고, 본 개시물의 기술들을 활용할 수 있다. 디지털 비디오 파일은 디지털 카메라를 사용하여 동영상의 시간의 시퀀스를 캡쳐함으로써, 취득될 수 있다. 대안으로, 비디오 시퀀스는 종래의 필름-타입 카메라에 의해 캡쳐될 수 있다. 이러한 시나리오에서, 필름은 스캐닝 디바이스(103)를 통하여 스캔된다.

트리 또는 트리의 가지(branch)의 최하위 레벨에 도달될 때까지, 단계(206)에서 질의 이미지는 분류기들에 의해 분류되고, 후속적으로 서브-분류기들에 의해 분류된다, 단계(208). 단계(210)에서, 유사성 검색은 전체 이미지 공간 또는 데이터베이스 보다는 데이터베이스의 이미지 서브셋(122) 내의 검색기에 의해 수행된다. 분류-검색 트리의 구축 또는 생성 및 트리 내의 검색 수행의 세부사항들은 이제부터 아래에 서술된다.

본 개시물의 시스템 및 방법은 데이터베이스의 작은 서브셋 내에서 이미지 비교를 제한하기 위한 트리-기반의 검색을 사용한다. 트리-기반의 검색은 아래에 서술될 이미지 분류에 기초한다. 분류 트리는 자동으로 구축되거나, 또는 키워드들을 갖는 이미지들을 수동으로 태깅함으로써 구축된다.

본 개시물의 시스템 및 방법은 분류-검색 트리의 가지를 따라 관심 이미지에 대한 검색을 제한함으로써, 검색 처리를 가속화한다. 이러한 검색을 수행할 시, 고도의-정확한 유사성 수단 S(I_q, I_d)이 이용가능하다고 가정되고, 여기에서 I_q는 질의 이미지이고, I_d는 데이터베이스의 이미지들이다. 유사성 수단은, 2개의 이미지가 얼마나 유사한지를 나타내는 수이고, 예를 들어, 1.0은 2개의 이미지가 서로 동일하다는 것을 의미하고, 0.0은 2개의 이미지가 완전히 다르다는 것을 의미한다. 보통, 거리(distance)는 유사상의 역으로 인식될 수 있다. 유사성의 하나의 예시는 2개의 이미지의 컬러 히스토그램들의 역 거리이다. 유사성 수단들은 종래 기술에 알려져 있고, 이는 또한, 이러한 이미지 유사성 수단이 특정 카테고리에 대해 "학습할 수 있는" 것으로 보이므로, 유사성 검색이 카테고리 내에서 최적화된다. 또한, 이러한 유사성 수단이 특정 이미지 카테고리들에 대해 수동으로 설계되는 것으로 보인다. 둘 중 어느 경우라도, 이미지 카테고리(C)에 적응하는 유사성 수단이 S_c(I_q, I_d)로 나타난다.

분류-검색 트리는 트리의 각 중간 노드가, 이미지들의 하나 이상의 카테고리들을 검출하거나 또는 분류하기 위하여 분류기를 사용하는 트리이다. 트리의 각 가지는 카테고리를 나타낸다. 오직 검출된 카테고리들의 가지들만이 후에, 트리에서 횡단 될 수 있다. 도 3에 도시되는 것처럼, 트리의 각 잎 노드(302, 304, 306, 308, 310)는 특정 카테고리에 대응하는 이미지들을 나타낸다. 분류-검색 트리는 다수의 계층 또는 레벨들을 가질 수 있다. 예를 들어, 도 3에서 트리는 3개의 레벨들을 갖는다. 더욱이, 도 3에서 볼 수 있는 것처럼, 분류-검색 트리는 분류기들 및 검색기들을 포함한다.

분류기는 질의 이미지를 카테고리들로 분류하기 위하여 사용된다. 일 실시예에서, 분류기들은 자동으로 추출된 특징들, 예를 들어, 다른 특징들 중 색 및 텍스처를 기초로 하는 패턴 인식 또는 기계 학습 알고리즘들 또는 기능들이다. 분류의 일반적인 절차는, 특징 벡터가 이미지로부터 추출되어, 패턴 인식 알고리즘 또는 기능이 특징 벡터를 취하고, 선택적인 신용 점수(confidence score)(예를 들어, 클래스 ID들 및 점수들)를 갖는 하나 이상의 클래스 라벨들(label)을 출력하고, 이 클래스 라벨들은 하나 이상의 특정 이미지 카테고리들을 나타낸다. 일반적으로, 패턴 인식 알고리즘은 입력으로서 특징 벡터를 취하여, 클래스의 ID를 나타내는 정수 번호를 출력하는 기능을 갖는다; 대안으로, 패턴 인식 기능은 추출된 벡터를 저장된 벡터들로 비교한다. 다른 패턴 인식 알고리즘들 또는 기능들은 종래 기술에 알려져 있다. 또한, 분류기들은 2진수일 수 있다. 이러한 경우에서, 분류기는 개별적으로 이미지가 특정 카테고리에 속하는지를 나타내는, 예 또는 아니오 라벨을 출력한다. 분류기들은 예시 데이터로부터 수동적으로 설계되거나 또는 자동으로 구축될 수 있다.

검색기는 이미지들의 유사성을 계산하여, 질의 이미지로의 최대 유사성으로 관심 이미지를 찾기 위하여 사용되는 프로그램이다.

단일 분류-검색의 경우, 질의 이미지는 각 레벨에서 유일한 하나의 카테고리로 분류되고; 잎 카테고리는 카테고리(C)라고 가정한다. 분류가 완료된 이후, 즉, 질의 이미지가 분류-검색 트리의 최하위(잎 계층)에 도달 이후, 유사성 수단 S_C(I_q, I_d) 계산은 도 4에 도시되는 것처럼, 이미지 카테고리 C에 대응하는 데이터베이스 서브셋 내의 이미지들을 검색하기 위하여 수행된다. 도 4 및 나머지 도면들에서, 검색 동안 횡단 된 가지 또는 잎 노드들은 실선으로 나타나는 반면에, 횡단 되지 않은 분류기들 및 검색기들은 점선으로 도시된다. 예를 들어, 도 4에서, 질의 이미지는 수신되어, 분류기 0에 제출된다. 분류기 0에서, 이미지가 분류기 0.1, 예를 들어, 서브-분류기에서 더 분류될지가 결정된다. 분류기 0.1로부터, 질의 이미지는 분류기 0.1.1에 제출되는데, 여기에서, 이미지 서브셋 0.1.1.2의 질의 이미지에 유사한 이미지의 검색을 위하여 검색기 0.1.1.2를 사용하는 것이 결정된다. 이미지 서브셋 0.1.1.2에 관심 이미지에 대한 검색을 제한함으로써, 검색은 더욱 효율적이고 빠르게 수행될 것으로 판단된다.

이러한 경우에서, 분류기의 출력은 2진수 또는 n-진수일 수 있다. 만일 출력이 2진 분류기라면, 분류기의 출력은 질의 이미지가 카테고리에 속한다고 나타낸다. 마찬가지로, 만일 출력이 n진 분류기라면, 분류기의 출력은 질의 이미지가 어떤 카테고리에 속하는지를 나타내는 정수 값일 수 있다. 만일, 분류-검색 트리의 모든 분류기들이 2진수인 경우, 트리는 2진 트리일 것이고, 만일 그렇지 않으면, 트리는 비-2진 분류-검색 트리일 것이다.

단일 분류-검색의 한 가지 문제점은, 만일 분류 오류가 존재하면, 질의 이미지는 완전히 잘못된 카테고리로 이동될 수 있으므로, 잘못된 검색 결과들을 초래한다. 이러한 문제는 중복 검색에 의해 해결될 수 있고, 여기에서 하나의 카테고리가 아닌 다수의 카테고리가 검색된다.

도 5를 참조하면, 중복 분류-검색의 경우, 질의 이미지는 하나 이상의 잎 카테고리, 예를 들어 분류기 0.1, 및 분류기 0.2로 분류된다. 분류가 완료된 이후 즉, 질의 이미지가 분류-검색 트리의 최하위(잎 계층), 예를 들어, 분류기 0.1.1 및 분류기 0.2에 도달한 후에, 유사성 수단 S_C(I_q, I_d) 계산은 선택된 이미지 카테고리들(C)에 대응하는 데이터베이스 서브셋들 내의 이미지들의 검색을 위하여 수행된다; 도 5의 예시에서, 검색기 0.1.1.2는 이미지 서브셋 0.1.1.2를 검색하고, 검색기 0.2.1은 이미지 서브셋 0.2.1을 검색한다.

중복 분류-검색을 실현하기 위하여, 분류기들의 출력은, 대응하는 카테고리가 질의 이미지에 존재한다는 확신을 나타내는 클래스 라벨들 및 플로트 값들의 리스트가 되어야한다. 그런 후에, 임계 절차는 분류기 출력들이 임계치보다 더 큰 카테고리의 리스트를 취하기 위하여 사용될 수 있다. 질의 이미지는 카테고리들의 결과 리스트에 속하도록 결정될 수 있다. 트리의 최하위 레벨에 도달한 이후, 카테고리들의 리스트로부터 각 이미지에 대한 유사성 점수가 결정되어, 최대 유사성 점수를 갖는 이미지는 관심 이미지로 선택된다.

이미지들의 효율적인 검색을 위하여, 분류-검색 트리는 이미지 공간을 구성하여 모든 이미지들이 항상 검색되지는 않도록 구축될 것이다. 도 6을 참조하면, 분류-검색 트리의 구축 또는 생성은 2가지 단계를 포함한다. 제 1 단계에서, 트리의 모든 가지들은 구축되고, 이들 가지들은 모든 분류기들을 구축하는 단계 및 분류-검색 트리가 다수의 계층을 갖는 경우, 트리에 이 분류기들을 조직하는 단계를 포함한다. 제 2 단계에서, 데이터베이스에서 이미지들은, 데이터 베이스에서 이미지들의 서브셋들을 형성하기 위하여 카테고리들에 분류된다. 더욱이, 검색기들은 이미지들의 각 서브셋 내에서 검색을 위해 정의된다.

분류-검색 트리를 구축하기 위하여, 트리의 중간 노드들에서 분류기들은 먼저 구축되어야 한다. 각 분류기는 하나의 의미상의 클래스(예를 들어, 외부 광경, 나무들, 사람들의 얼굴들 등)에 대응한다. 의미상의 클래스들은 사람에 의해 수동으로 결정되거나 또는 클러스터링 알고리즘들 또는 기능들을 사용하여 자동으로 결정될 수 있다. 이들 분류기들(즉, 트리 구성) 사이의 관계는 인간 설계자에 의해 정의될 수 있다.

일단 의미상의 클래스들이 정의되면, 의미상의 분류기들은 중간 노드들, 예를 들어 서브-분류기들(304, 306, 308, 310)을 위해 구축되어야 한다. 각 분류기 또는 서브-분류기는 상이한 방법론을 가지고 하나씩 구축될 수 있다. 일 실시예에서, "일반적인" 분류기가 제공되므로, "일반적인" 분류기는 각 이미지 카테고리의 예시적인 이미지들로부터 학습한다. 이러한 방법론은 본 개시물의 시스템 및 방법이, 각 분류기의 특정 설계 없이 다수의 의미상의 분류기들을 구축할 수 있게 한다. 이러한 타입의 분류기는 학습-기반 광경 또는 객체 인식기라 불린다. 예시적인 학습-기반 광경 또는 객체 인식기는 R.Fergus, P.Perona, 및 A.Zisserman에 의해, 컴퓨터 시각 및 패턴 인식(Computer Vision and Pattern Recognition)에 대한 IEEE 회의의 회보(2003)의, "자율 크기-불변 학습에 의한 객체 클래스 인식(Object Class Recognition by Unsupervised Scale-Invariant Learning"에서 발표되었다. Fergus 등의 논문에서, 크기-불변 방식으로, 라벨이 없고, 세그먼트(segment)가 없는 클러스터링된 광경들로부터 객체 클래스 모델들을 학습하고 인식하기 위한 방법이 서술되었다. 이러한 방법에서, 객체들은 부분들의 융통성이 있는 집단(constellation)으로 모델링된다. 개연론적인 표현은 객체; 형태, 외관, 차단(occlision) 및 관련 크기의 모든 양상들을 위해 사용된다. 엔트로피(entropy)-기반의 특징 검출기는 이미지 내에서 영역 및 이들의 크기를 선택하기 위하여 사용된다. 학습시, 크기-불면 객체 모델의 파라미터들이 산출된다. 이는 최대-우도 세팅으로 기대치-최대화(expectation-maximization)를 사용하여 완료된다. 인식시, 이러한 모델은 이미지들을 분류하기 위하여 베이시안(Bayesian) 방식으로 사용된다.

분류기들을 정의 및 구축하는 다른 방식은, 이미지 사용자들에 의해 "키워드 태깅"을 사용하는 것이다. "키워드 태깅"에 대하여, 이미지 사용자들은 "나무들", "얼굴들", "파란 하늘" 등과 같은 이미지들에 키워드들을 수동으로 할당한다. 이러한 수동으로 태깅된 키워드들은 이미지 특징의 한 타입으로 여겨질 수 있으므로, 분류 목적을 위해 사용될 수 있다. 예를 들어, 분류기를 스폿(spot)하는 키워드가, 일단 분류기가 특정 키워드들을 스폿 하면, 이미지들을 특정 클래스들로 분류하도록 구축될 수 있다. 더 세련되게는, 태깅된 키워드들은 특징의 타입으로 다루어질 수 있고, 특징 벡터들로 변환될 수 있다. 이러한 분류기는 "용어 벡터(term vector)"라 불리는 이미지 검색에서 사용된 기술에 의해 실현될 수 있다. 기본적으로, N 키워드들을 갖는 사전이 구축되어, 키워드들로 태깅된 각 이미지에 대하여, N 차원인 키워드 특징 벡터는 이미지에 할당된다. 이미지가 사전에서 i번째 키워드로 태깅되면, 용어 벡터의 i번째 요소에 '1'이 설정되고, 만일 그렇지 않으면 0이 설정된다. 그 결과, 각 이미지에 대한 용어 벡터는 이미지의 의미상의 수단을 나타내기 위하여 제공된다. 이러한 용어 벡터는, 도 7에서 도시되는 것처럼, 이미지 분류를 위한 새로운 특징 벡터를 형성하기 위하여, 위에서 서술된 정규의 특징 벡터들과 연결될 수 있다.

각 이미지 서브셋에 대하여, 이미지 검색기는 수동으로 설계되거나 또는 학습된다. 이 이미지 검색기는, 데이터베이스의 서브셋들 내에서 유사성 검색을 수행하기 위하여 사용된다.

분류기들이 정의되어 구축된 이후, 데이터베이스에서 이미지들은 서브셋들로 분류된다. 이미지 서브셋들의 구축 방식은 분류-검색 처리와 매우 유사하다. 이미지가 데이터베이스에 삽입될 때, 이미지가 분류 트리의 최하위 레벨에 도달할 때까지, 이는 분류 트리에서 자동으로 분류되고, 여기에서 이미지는 도 8에서 도시되는 것처럼, 최하위 레벨 분류기 중 하나에 대응하는 이미지 풀에 삽입된다.

잠정적인 문제는 이미지들이 2개보다 많은 의미상의 객체들, 예를 들어, 사람들 및 나무들을 내포하는 이미지를 포함할 수 있다. 분류 트리에서, 2개의 의미상의 클래스들, 예를 들어 "사람들" 및 "나무들"이 존재하면, 이러한 이미지를 하나의 클래스로 분류하는 애매함이 존재할 것이다. 이러한 문제는 위에서 서술된 중복 분류에 의해 해결될 수 있다. 즉, 유입되는 이미지는 2개의 서브셋들로 분류될 수 있다.

본 개시물의 교지들을 통합하는 실시예들이 본 명세서에서 상세히 도시되고 서술되었다 할지라도, 당업자라면, 이러한 교지들을 통합하는 다수의 다른 변형된 실시예들을 손쉽게 고안할 수 있다. (실예가 되고, 제한적이지 않게 의도되는) 분류-검색 트리로, 이미지들의 효율적이고 의미상의 유사성 검색을 위한 시스템 및 방법에 대한 바람직한 실시예들이 서술되었으므로, 당업자에 의해 수정들 및 변형들이 위의 교지들에 대한 관점으로 생성될 수 있다. 그러므로, 변화들이, 첨부되는 청구항들에 의해 나타나는 본 개시물의 범위 내에 드는 개시되는 본 개시물의 특정 실시예들로 구성될 수 있다는 점이 이해되어야 한다.

102 : 컴퓨터 103 : 스캐닝 디바이스
104 : 필름 106 : 디지털 이미지
110 : 메모리 114 : 유사성 검색 모듈
116 : 이미지 분류기 모듈 119 : 이미지 검색기 모듈
118 : 특징 추출기 120 : 키워드 태거(tagger)
121 : 객체 인식기 126 : 프린터
124 : 저장 디바이스 112 : 사용자 인터페이스
122 : 이미지 서브셋들의 데이터베이스
202 : 분류-검색 트리를 구축
204 : 질의 이미지를 수신
206 : 질의 이미지를 분류
208 : 질의 이미지의 서브-클래스를 결정
210 : 데이터베이스의 내에서 유사한 이미지에 대한 검색

Claims

관심 이미지를 위한 복수의 이미지들을 검색하는 방법으로서,
복수의 이미지들에 대한 분류 구성을 구축하는 단계(202)로서, 분류 구성은 이미지들의 적어도 2개의 카테고리를 포함하고, 이미지들의 각 카테고리는 복수의 이미지의 서브셋(subset)을 나타내고, 분류 구성을 구축하는 단계는 이미지들의 적어도 2개의 카테고리의 복수의 이미지들의 각 이미지로부터 객체를 인식하는 단계와, 각 이미지의 인식된 객체에 기초하는 이미지들의 각 카테고리에 대한 분류기를 결정하는 단계로서, 분류기는 이미지를 적어도 2개의 카테고리 중 하나의 카테고리로 분류하는, 결정 단계를 더 포함하는, 분류 구성을 구축하는 단계(202),
질의 이미지를 수신하는 단계(204),
이미지들의 적어도 2개의 카테고리 중 하나의 카테고리를 선택하기 위하여, 이미지들의 적어도 2개의 카테고리 중 적어도 2개의 카테고리에서 질의 이미지를 분류하는 단계(206),
이미지들의 적어도 2개의 카테고리 중 선택된 하나의 카테고리 안에 있는 복수의 이미지의 서브셋에 관심 이미지의 이미지에 대한 검색을 제한하는 단계(210),
이미지들의 적어도 2개의 카테고리에서의 질의 이미지를 사용하여 관심 이미지를 검색하는 단계,
적어도 2개의 카테고리 각각에서 발견된 각 이미지에 대한 유사성 점수를 결정하는 단계, 및
관심 이미지로서 가장 높은 유사성 점수를 갖는 이미지를 선택하는 단계를
포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 분류 구성은 의미상의(semantic) 분류 검색 트리인, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 질의 이미지를 분류하는 단계는,
질의 이미지로부터 특징을 추출하는 단계, 및
추출된 특징에 기초하는 적어도 2개의 카테고리 중 하나의 카테고리를 식별하는 단계를
포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 질의 이미지를 분류하는 단계는 패턴(pattern) 인식 기능에 의해 수행되는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 분류 구성을 구축하는 단계는 이미지들의 각 카테고리에 대한 분류기를 결정하는 단계를 포함하고, 분류기는 이미지를 적어도 2개의 카테고리 중 하나의 카테고리로 분류하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 5항에 있어서, 분류기를 결정하는 단계는 클러스터링(clustering) 기능을 복수의 이미지들에 적용함으로써 수행되는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 5항에 있어서, 각 결정된 분류기에 대한 적어도 하나의 서브-분류기를 결정하는 단계를 더 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 5항에 있어서,
결정된 분류기에 기초하는 복수의 이미지들의 각 이미지를 분류하는 단계, 및
복수의 이미지들의 각 이미지를 복수의 이미지들 중 적어도 하나의 서브셋에 저장하는 단계를
더 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 분류 구성을 구축하는 단계는,
복수의 이미지들의 각 이미지를 특징 키워드로 태깅(tagging)하는 단계, 및
복수의 이미지들의 각 이미지를 특징 키워드에 기초하는 복수의 이미지들 중 적어도 하나의 서브셋에 저장하는 단계를
포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 9항에 있어서, 특징 키워드에 기초하는 이미지들의 각 카테고리에 대한 분류기를 결정하는 단계를 더 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
제 1항에 있어서, 관심 이미지에 대한 검색은 유사성 수단에 의해 수행되는, 관심 이미지를 위한 복수의 이미지들을 검색하는 방법.
관심 이미지를 위한 복수의 이미지들을 검색하는 시스템(100)으로서,
이미지들의 적어도 2개의 의미상 카테고리로 구성된 복수의 이미지들을 포함하는 데이터베이스(122)로서, 이미지들의 각 의미상 카테고리는 복수의 이미지들의 서브셋을 나타내는, 데이터베이스(122),
적어도 하나의 질의 이미지를 취득하는 수단(103, 104, 106, 124),
이미지들의 적어도 2개의 의미상 카테고리들 중 하나의 의미상 카테고리를 선택하기 위하여 질의 이미지를 분류하기 위한 이미지 분류기 모듈(116)과,
질의 이미지를 사용하여 관심 이미지를 검색하기 위한 이미지 검색기 모듈(119)로서, 검색은 이미지들의 적어도 2개의 의미상 카테고리 중 선택된 하나의 의미상 카테고리 안에 있는 복수의 이미지의 서브셋에 제한되는, 이미지 검색기 모듈(119)과,
이미지들의 적어도 2개의 카테고리의 복수의 이미지들의 각 이미지로부터 객체를 인식하기 위한 객체 인식기(121)로서, 이미지 분류기 모듈(116)은 각 이미지의 인식된 객체에 기초하는 이미지들의 각 카테고리에 대한 분류기를 결정하는, 객체 인식기(121)를
포함하며,
이미지 분류기 모듈(116)은 이미지들의 적어도 2개의 카테고리 중 적어도 2개의 카테고리에서 질의 이미지를 분류하고, 이미지 검색기 모듈(119)은 이미지들의 적어도 2개의 카테고리에서 질의 이미지를 사용하여 관심 이미지를 검색하며, 적어도 2개의 카테고리의 각 카테고리에서 발견된 각 이미지에 대한 유사성 점수를 결정하여, 가장 높은 유사성 점수를 갖는 이미지를 관심 이미지로 선택하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 12항에 있어서, 질의 이미지로부터 특징을 추출하기 위한 특징 추출기(118)를 더 포함하고, 이미지 분류 모듈(116)은 추출된 특징에 기초하는 적어도 2개의 카테고리 중 하나의 카테고리를 식별하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 12항에 있어서, 이미지 분류기 모듈(116)은 패턴 인식 기능을 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 12항에 있어서, 이미지들의 각 카테고리에 대한 분류기를 포함하는 의미상의 분류-검색 트리를 구축하는 수단을 더 포함하고, 분류기는 이미지를 적어도 2개의 카테고리 중 하나의 카테고리로 분류하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 15항에 있어서, 이미지 분류기 모듈(116)은 클러스터링 기능을 복수의 이미지들에 적용함으로써 분류기를 결정하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 15항에 있어서, 이미지 분류기 모듈(116)은 각 결정된 분류기에 대한 서브-분류기를 결정하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 15항에 있어서, 이미지 분류기 모듈(116)은 결정된 분류기에 기초하는 복수의 이미지들의 각 이미지를 분류하여, 복수의 이미지들의 각 이미지를 데이터베이스에서 복수의 이미지들의 서브셋에 저장하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 15항에 있어서, 복수의 이미지들의 각 이미지를 특징 키워드로 태깅하여, 복수의 이미지들의 각 이미지를 특징 키워드에 기초하는 데이터베이스의 복수의 이미지들의 서브셋에 저장하기 위한 키워드 태거(120)를 더 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 19항에 있어서, 이미지 분류기 모듈(116)은 특징 키워드에 기초하는 이미지들의 각 카테고리에 대한 분류기를 결정하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
제 12항에 있어서, 이미지 검색기 모듈(119)은 유사성 수단을 포함하는, 관심 이미지를 위한 복수의 이미지들을 검색하는 시스템.
기계에 의해 판독 가능한 프로그램 저장 디바이스로서, 이 디바이스는 관심 이미지를 위한 복수의 이미지들을 검색하는 방법 단계들을 수행하기 위해, 기계에 의해 실행될 수 있는 지령들의 프로그램을 명백하게 구현하는데, 방법은,
복수의 이미지들에 대한 분류 구성을 구축하는 단계(202)로서, 분류 구성은 이미지들의 적어도 2개의 카테고리를 포함하고, 이미지들의 각 카테고리는 복수의 이미지의 서브셋을 나타내고, 분류 구성을 구축하는 단계는 이미지들의 적어도 2개의 카테고리의 복수의 이미지들의 각 이미지로부터 객체를 인식하는 단계와, 각 이미지의 인식된 객체에 기초하는 이미지들의 각 카테고리에 대한 분류기를 결정하는 단계로서, 분류기는 이미지를 적어도 2개의 카테고리 중 하나의 카테고리로 분류하는, 결정 단계를 더 포함하는, 분류 구성을 구축하는 단계(202),
질의 이미지를 수신하는 단계(204),
이미지들의 적어도 2개의 카테고리 중 하나의 카테고리를 선택하기 위하여, 이미지들의 적어도 2개의 카테고리 중 적어도 2개의 카테고리에서 질의 이미지를 분류하는 단계(206),
이미지들의 적어도 2개의 카테고리 중 선택된 하나의 카테고리 안에 있는 복수의 이미지의 서브셋에 관심 이미지의 이미지에 대한 검색을 제한하는 단계(210),
이미지들의 적어도 2개의 카테고리에서의 질의 이미지를 사용하여 관심 이미지를 검색하는 단계,
적어도 2개의 카테고리 각각에서 발견된 각 이미지에 대한 유사성 점수를 결정하는 단계, 및
관심 이미지로서 가장 높은 유사성 점수를 갖는 이미지를 선택하는 단계를
포함하는, 기계에 의해 판독 가능한 프로그램 저장 디바이스.