KR20140109463A

KR20140109463A - 이미지들을 비교하는 방법 및 시스템

Info

Publication number: KR20140109463A
Application number: KR1020147021287A
Authority: KR
Inventors: 지안루카 프란치니; 스키알흐 렙소이
Original assignee: 텔레콤 이탈리아 소시에떼 퍼 아찌오니
Priority date: 2012-01-02
Filing date: 2012-01-02
Publication date: 2014-09-15
Also published as: WO2013102488A1; US9245204B2; BR112014016301A8; US20150016723A1; BR112014016301B1; CN104115161A; EP2801054A1; CN104115161B; JP5848833B2; KR101833953B1; EP2801054B1; BR112014016301A2; AR089532A1; JP2015504215A

Abstract

제1 이미지를 제2 이미지와 비교하는 방법은, 상기 제1 이미지의 제1 키포인트들 및 상기 제2 이미지의 제2 키포인트들을 식별하는 단계; 각각의 제1 키포인트를 해당하는 제2 키포인트와 연관시킴으로써 제1 및 제2 키포인트들 간의 매치들을 형성하는 단계; 각각의 제1 거리 비율은 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율에 기반하여 이루어지는 복수 개의 제1 거리 비율을 연산하는 단계; 상기 제1 거리 비율들의 값들의 개별 간격에 각각 해당하는 복수 개의 순서화된 빈(ordered bin)들을 지니는 히스토그램에서 상기 연산된 복수 개의 제1 거리 비율들의 값들의 분포를 배열하는 단계로서, 상기 히스토그램은 각각의 빈에 대하여 상기 개별 간격 내에 포함된 값들을 지니는 분포의 해당하는 개수의 제1 거리 비율들을 열거(enumeration)하는, 단계; 상기 제1 및 제2 이미지들에서의 키포인트 쌍들의 임의 선택에 해당하는 복수 개의 제2 거리 비율들의 통계적 분포를 나타내는 아웃라이어 밀도 함수를 생성하는 단계로서, 상기 복수 개의 제2 거리 비율들은 상기 제1 이미지의 제1 키포인트들의 쌍들 간의 거리 및 상기 제2 이미지의 해당하는 임의 선택된 제2 키포인트들의 쌍들 간의 거리의 비율에 기반하여 이루어지는, 단계; 상기 빈 각각에 대하여 해당하는 아웃라이어 확률 밀도 값을 생성함으로써 상기 아웃라이어 밀도 함수를 이산화(discretizing)하는 단계;를 포함한다. 상기 방법은, 각각의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트들에 의해 형성되는 정확한 키포인트 매치들의 개수를 결정하는 단계를 부가적으로 포함하며, 상기 정확한 키포인트 매치들의 개수를 결정하는 단계는, 행렬을 결정하는 단계로서, 상기 행렬의 각각의 요소는 개별적인 키포인트 매치들의 쌍에 해당하며 상기 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 아웃라이어 확률 밀도 값 간의 차에 해당하는 값을 지니고, 상기 아웃라이어 확률 밀도 값은 모수(β)에 의해 가중되는, 단계; 상기 키포인트 매치들의 쌍이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니며 상기 키포인트 매치들의 쌍이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(r)와 상기 행렬의 우위 고유벡터(dominant eigenvector)가 동일하도록 상기 모수(β)의 값을 결정하는 단계; 정확한 키포인트 매치들의 개수를 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 결정하는 단계;를 부가적으로 포함하며, 상기 제1 이미지를 상기 제2 이미지와 비교하기 위해 결정된 개수의 정확한 키포인트 매치들이 이용된다.

Description

이미지들을 비교하는 방법 및 시스템{Method and system for comparing images}

본 발명은 이미지 분석 분야에 관한 것이다.

이미지 분석 분야에서는, 2개의 이미지를 비교하여 2개의 이미지 양자 모두가 동일한 씬(scene) 또는 동일한 대상(object) 중 적어도 일부분을 포함하는 경우에 2개의 이미지 간에 이루어지는 관련성을 찾고자 하는 것이 공통된 작업으로 제공된다.

다수의 애플리케이션 중에서는, 다중 카메라 시스템에 속하는 비디오 카메라들을 교정하기 위해, 비디오 촬영의 2개의 프레임 간에 이루어지는 움직임을 평가하기 위해, 그리고 이미지(예컨대, 화상)에 내재하는 대상을 인식하기 위해, 이미지 비교가 가장 중요하다. 후자의 애플리케이션은 소위 시각 검색 엔진들에서 채용되도록 특별히 설계된 대상 인식 알고리즘들, 즉 한 화상에서부터 출발하여, 상기 화상 내부에 나타나게 되는 대상(들)을 식별하고 식별된 대상(들)에 관련된 정보를 제공할 수 있는 자동화 기반 서비스(automated service)들에 대한 최근의 발전 때문에 현재 점점 더 큰 중요성을 띠고 있다. 이러한 타입의 공지된 서비스들에 대한 예들에는 구글 고글스(Google Goggles), 노키아 포인트 & 파인드(Nokia Point & Find), 및 쿠아바 스마트 비주얼즈(kooaba Smart Visuals)가 있다. 한 대상 인식 애플리케이션에는 인식될 대상을 나타내는, 전문 용어로는 "쿼리 이미지(query image)"라고 언급되는 제1 이미지를 각각의 참조 이미지가 공지된 개별 대상을 나타내는 복수 개의 참조 이미지들과 비교하는 기능이 제공되는데, 이는 상기 쿼리 이미지에 나타나게 되는 대상과 상기 참조 이미지들에 나타나게 되는 대상들 간의 비교를 수행하는 것을 허용한다.

상기 참조 이미지들은 적절한 참조 데이터베이스에 배치되어 있는 것이 전형적이다. 상기 데이터베이스 내에 포함되어 있는 참조 이미지들의 개수가 많으면, 그만큼 수행하게 될 비교 작업들의 횟수가 많아진다. 몇몇 경우에는, 참조 데이터베이스가 매우 크게 되기 때문에, 상기 대상 인식 프로세스의 효율에 부정적인 영향을 줄 수 있게 된다. 예를 들면, 각각의 참조 이미지가 온라인 상점에 의해 제공되는 아이템(예컨대, 책표지, DVD 표지 및/또는 CD 표지의 화상)에 대응하는 경우에 상기 대상 인식이 온라인 쇼핑 시나리오에서 이용되는 경우에, 참조 이미지들의 개수는 수 백만개의 개체를 초과할 수 있다. 더욱이, 그러한 거대한 분량의 데이터를 효율적으로 관리하기 위하여는, 충분한 처리 능력이 구비된 처리 유닛에 의해 비교 작업들이 수행되어야 한다.

최근 10년 동안에, 대상 인식을 수행하는데 소요되는 시간을 감소시키기 위한 서로 다른 알고리즘들이 제안되어 왔다. 이러한 알고리즘들에는 상기 쿼리 이미지에 나타나게 되는 대상을 포함하고 있는 후보인 참조 이미지들의 개수를 많이 감소시키는 기능이 제공된다.

2개의 이미지 간의 비교 작업들을 수행하는 매우 효율적인 방법에는 제1 이미지에서 전문 용어로는 키포인트들이라고 언급되는 포인트들을 한 세트 선택한 다음에 상기 한 세트의 각각의 키포인트를 제2 이미지에서 해당하는 키포인트와 매칭하는 것이 제공된다. 상기 제1 이미지의 어느 포인트가 키포인트가 되어야 하는지의 선택은 상기 포인트 자체를 에워싸는 이미지의 영역의 로컬 특징들을 고려함으로써 수행된다. 이와 관련하여,「"Distinctive image features from scale-invariant keypoints" by David G. Lowe, International Journal of computer vision , 2004」를 참조하기 바란다.

상기 제1 이미지의 키포인트 및 상기 제2 이미지의 해당하는 키포인트 양자 모두가 (2개의 이미지 양자 모두에 나타나게 되는) 동일한 대상의 동일한 포인트에 해당한다는 점에서 상기 제1 이미지의 키포인트 및 상기 제2 이미지의 해당하는 키포인트 간의 매칭이 정확한 경우에, 그러한 키포인트 매치는 "인라이어(inlier)"라고 언급된다.

이와는 반대로, 2개의 키포인트, 즉 상기 제1 이미지의 키포인트 및 상기 제2 이미지의 해당하는 키포인트가 동일한 대상의 동일한 포인트에 해당하지 않는다는 점에서 상기 제1 이미지의 키포인트 및 상기 제2 이미지의 해당하는 키포인트 간의 매칭이 부정확한 경우에, 그러한 키포인트 매치는 "아웃라이어(outlier)"라고 언급된다.

그러므로, 신뢰성 있는 결과를 획득하기 위하여, 상기 아웃라이어들과 상기 인라이어들을 구분할 수 있는 절차는 상기 키포인트 매치들이 결정된 다음에 수행되는 것이 바람직하다.

이러한 타입의 절차들의 몇 가지 예들이 당업계에 이미 공지되어 있다.

가장 많이 사용된 절차는「"Random sample consensus: A paradigm for outlier fitting with applications to image analysis and automated cartography" by Martin A. Fischler and Robert C. Bolles, Communications of the ACM , 24(6):381-395, June 1981」에 개시된 RANSAC 알고리즘을 이용한다. 그러나, 이러한 알고리즘은 시간 소모가 큰 데, 그 이유는 상기 알고리즘이 반복 접근법에 기반하여 이루어지기 때문이다.

「"Fast geometric re-ranking for image-based retrieval" by Sam S. Tsai, Davide Chen, Gabriel Takacs, Vijay Chandrasekhar, Ramakrishna Vedantham, Radek Grzeszczuk, Bernd Girod, International Conference on Image Processing, October 2010」에 개시되어 있고 국제 특허출원 WO2009/130451에 개시되어 있는 알고리즘들은 키포인트들의 거리들 간의 비율이 이동(translation), 회전(rotation), 및 크기변환(scaling)에 대하여 불변량이라는 사실에 기반하여 이루어진다. 이러한 타입의 부가적인 알고리즘들은 또한 「"Adding Affine Invariant Geometric Constraint for Partial-Duplicate Image Retrieval" by Zhipeng Wu, Qianqian Xu, Shuqiang Jiang, Qingming Huang, Peng Cui, Liang Li, International Conference on Pattern Recognition, August 2010, pages 842 - 845」에 개시되어 있으며, 「"Using Local Affine Invariants to Improve Image Matching" by Daniel Fleck, Zoran Duric, 20th International Conference on Pattern Recognition, 2010, pages 1844 - 1847」에 개시되어 있다.

더욱이, US2010/0135527 A1에는 키포인트들에 기반한 비교 및 영역에 기반한 비교를 포함하는 이미지 인식 알고리즘이 개시되어 있다. 상기 알고리즘을 사용하여 타깃 이미지를 식별하는 방법은, 처리 장치에서 상기 타깃에 관련된 데이터를 포함하는 입력을 수신하고; 이미지 데이터베이스로부터 한 이미지를 검색하는 것을 포함하는 검색 단계를 수행하며, 상기 이미지가 승인 또는 거부될 때까지, 상기 이미지를 후보 이미지로서 지정하고; 상기 처리 장치를 사용하여 상기 타깃 및 후보 이미지들에 대한 이미지 인식 알고리즘을 수행함으로써, 이미지 인식 알고리즘 출력을 획득하며; 그리고 상기 이미지 인식 알고리즘 출력이 사전에 선택된 범위 내에 있는 경우에, 상기 후보 이미지를 상기 타깃 이미지로서 승인하고 상기 이미지 인식 알고리즘 출력이 사전에 선택된 범위 내에 있지 않은 경우에, 상기 후보 이미지를 거부하는 것을 포함하는 비교 단계를 수행하고 상기 검색, 이미지 인식, 및 비교 단계들을 반복하는 것을 포함한다.

US2010/0183229 A1에는 이미지를 매칭하는 방법, 시스템 및 컴퓨터 프로그램 제품이 언급되어 있다. 매칭될 이미지들은 특징 포인트들 및 상기 특징 포인트들에 연관된 특징 벡터들 및 방향(orientation)들에 의해 나타나게 된다. 먼저, 추정되는 대응들은 특징 벡터들을 사용하여 결정된다. 추정되는 대응들의 서브세트가 선택되고 상기 서브세트의 위상 동형(位相同形; topological equivalence)이 결정된다. 위상적으로 동형인 추정되는 대응들의 서브세트는 움직임 추정 모델을 확립하는데 사용된다. 방향 일관성(orientation consistency) 테스트는 실행 불가능한 변환을 회피하도록 상기 추정되는 대응들 및 결정되는 해당 움직임 추정 변환에 대해 수행된다. 커버리지(coverage) 테스트는 방향 일관성 테스트를 충족시키는 매치들에 대해 수행된다. 상기 이미지들 중 하나의 이미지의 상당 부분을 커버(cover)하지 못하는 후보 매치들은 거부된다. 다수의 이미지가 모든 테스트 요건들을 충족시키는 경우에 최종 매치 이미지들이 매칭 감소 순서로 제공된다.

「"An Evaluation of Affine Invariant-Based Classification for Image Matching" by Daniel Fleck et al, 30 November 2009, ADVANCES IN VISUAL COMPUTING, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, page(s) 417-429」에는 광폭 베이스라인 이미지 매칭(wide baseline image matching)을 위해 아핀 불변량(affine invariant)들을 사용하는 접근법의 세부 평가가 개시되어 있다. 특히, 상기 접근법에서는 형상들의 영역들의 비율들이 아핀 변환에 대하여 일정한 아핀 불변 속성이 이용된다. 따라서, 이미지 쌍에서 해당하는 형상들을 임의로 샘플링함으로써, 영역들의 비율들의 히스토그램(histogram)이 생성될 수 있다. 이때, 최대 히스토그램 값에 기여하는 매치들은 후보 인라이어들이다.

「"Affine Invariant-Based Classification of Inliers and Outliers for Image Matching" by Daniel Fleck et al, 6 July 2009, IMAGE ANALYSIS AND RECOGNITION, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, page(s) 268-277」에는 광폭 베이스라인 이미지 매칭 동안 일시적 특징 매치들을 인라이어들 또는 아웃라이어들로서 분류하는 접근법이 개시되어 있다. 특히, 상기 접근법에서는 형상의 영역들의 비율들이 아핀 변환에 대하여 일정한 아핀 불변 속성이 이용된다. 따라서, 이미지 쌍에서 해당하는 형상들을 임의로 샘플링함으로써, 영역들의 비율들의 히스토그램이 생성될 수 있다. 이때, 최대 히스토그램 값에 기여하는 매치들은 후보 인라이어들이다. 그리고나서, 상기 후보 인라이어들은 상기 히스토그램에서 잡음 레벨 미만의 주파수를 가진 것이면 어느 것이든 제거하도록 필터링된다. 결과적으로 획득된 인라이어들의 세트는 상기 이미지들 간에 매우 정확한 변환 모델을 생성하는데 사용된다.

더욱이,「"Statistical modelling of outliers for fast visual search", by S. Lepsoy, G. Francini, G.　Cordara, P.P.B. de Gusmao, IEEE International Conference on Multimedia and Expo (ICME), 2011」에는 2개의 이미지에 존재하는 키포인트들의 매칭이 다수의 매치들이 부정확할 수 있는 불확정 프로세스(uncertain process)임이 개시되어 있다. 부정확한 매치들의 쌍들에 대한 로그 거리 비율(log distance ratio)의 통계적 특성들은 정확한 매치들에 대한 로그 거리 비율의 통계적 특성들과 전혀 다르다. 통계적 모델에 기반하여, 2개의 이미지가 동일한 대상의 뷰(view)들을 포함하는지를 확립하도록 적합도 테스트(goodness-of-fit test)가 제안된다. 이는 시각 검색에 대한 신속한 기하학적 형태의 일관성 검사(geometric consistency check)로서 사용될 수 있다.

본원 출원인은 대상 인식 서비스들을 구현하는 위에서 언급한 접근법들 대부분이 여러 결점에 의해 영향을 받고 있음을 알게 되었다. 특히, 이러한 접근법들은 시간 소모가 크며, 반복적 절차들에 기반하여 이루어지고 그리고/또는 처리될 거대한 분량의 데이터를 필요로 한다.

본원 출원인은 시간 소모 및 처리될 데이터 분량에 대하여 이러한 접근법들을 어떻게 개선해야 할지에 대한 과제를 해결하였다.

특히, 본원 출원인은 데이터 처리에 대하여 신뢰성을 주며 시간 소모에 대하여 양호한 성능을 가지는 이미지 비교 방법을 제공하도록 하는 과제를 해결하였다.

본원 출원인은 제1 이미지(쿼리 이미지) 상에서 생성되며 해당하는 한 세트의 키포인트 매치들을 형성하도록 제2 이미지(참조 이미지) 상에서 생성되는 해당하는 한 세트의 키포인트들에 연관되는 한 세트의 키포인트들에서부터 출발하여, 본 발명에 따른 이미지 비교 방법이 전체 집합의 키포인트 매치들 중에서 얼마나 많은 키포인트 매치들이 인라이어들인지를 평가할 수 있음을 알게 되었다.

본 발명에 따른 이미지 비교 방법은 또한 어느 키포인트 매치들이 인라이어들인지, 그리고 어느 키포인트 매치들이 아웃라이어들인지를 명확히 식별할 수 있다.

좀더 구체적으로 기술하면, 본 발명의 한 실시태양에 의하면, 제1 이미지를 제2 이미지와 비교하는 방법은, 상기 제1 이미지의 제1 키포인트들 및 상기 제2 이미지의 제2 키포인트들을 식별하는 단계; 각각의 제1 키포인트를 해당하는 제2 키포인트와 연관시킴으로써 제1 및 제2 키포인트들 간의 매치들을 형성하는 단계; 각각의 제1 거리 비율은 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율에 기반하여 이루어지는 복수 개의 제1 거리 비율들을 연산하는 단계; 및 상기 제1 거리 비율들의 값들의 개별 간격에 각각 해당하는 복수 개의 순서화된 빈(ordered bin)들을 지니는 히스토그램에서 상기 연산된 복수 개의 제1 거리 비율들의 값들의 분포를 배열하는 단계로서, 상기 히스토그램은 각각의 빈에 대하여 상기 개별 간격 내에 포함된 값들을 지니는 분포의 해당하는 개수의 제1 거리 비율들을 열거(enumeration)하는, 단계; 상기 제1 및 제2 이미지들에서의 키포인트 쌍들의 임의 선택에 해당하는 복수 개의 제2 거리 비율들의 통계적 분포를 나타내는 아웃라이어 밀도 함수를 생성하는 단계로서, 상기 복수 개의 제2 거리 비율들은 상기 제1 이미지의 제1 키포인트들의 쌍들 간의 거리 및 상기 제2 이미지의 해당하는 임의 선택된 제2 키포인트들의 쌍들 간의 거리의 비율에 기반하여 이루어지는, 단계; 상기 빈 각각에 대하여 해당하는 아웃라이어 확률 밀도 값을 생성함으로써 상기 아웃라이어 밀도 함수를 이산화(discretizing)하는 단계;를 포함한다. 상기 방법은 각각의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트들에 의해 형성되는 정확한 키포인트 매치들의 개수를 결정하는 단계를 부가적으로 포함하며, 정확한 키포인트 매치들의 개수를 결정하는 단계는, 행렬을 결정하는 단계로서, 상기 행렬의 각각의 요소는 개별적인 키포인트 매치들의 쌍에 해당하며 상기 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 아웃라이어 확률 밀도 값 간의 차에 해당하는 값을 지니고, 상기 아웃라이어 확률 밀도 값은 모수(β)에 의해 가중되는, 단계; 상기 키포인트 매치들의 쌍이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니며 상기 키포인트 매치들의 쌍이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(r)와 상기 행렬의 우위 고유벡터(dominant eigenvector)가 동일하도록 상기 모수(β)의 값을 결정하는 단계; 정확한 키포인트 매치들의 개수를 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 결정하는 단계;를 포함한다. 상기 제1 이미지를 상기 제2 이미지와 비교하기 위해 결정된 개수의 정확한 키포인트 매치들이 이용된다.

바람직하게는, 상기 정확한 키포인트 매치들의 개수를 우위 고유값의 표현으로서 결정하는 단계는, 정확한 키포인트 매치들의 개수를, 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 아웃라이어 확률 밀도 값 간의 차의 최대값 및 상기 우위 고유값 간의 비율의 표현으로서 결정하는 단계로서, 상기 아웃라이어 확률 밀도 값은 상기 결정된 모수(β)에 의해 가중되는, 단계;를 포함한다.

바람직하게는, 상기 정확한 키포인트 매치들의 개수를 상기 우위 고유값의 표현으로서 결정하는 단계는, 정확한 키포인트 매치들의 개수를 상기 최대값 및 상기 우위 고유값 간의 상기 비율에 1을 더한 값으로서 결정하는 단계;를 포함한다.

유리한 점으로는, 상기 방법은, 최고 절대값들을 지니는 상기 우위 고유벡터의 요소들의, 상기 정확한 키포인트 매치들의 개수와 동일한, 개수를 식별함으로써 어느 키포인트 매치들이 정확한 키포인트 매치들일 확률이 가장 높은지를 식별하는 단계;를 부가적으로 포함한다.

바람직하게는, 상기 복수 개의 제1 거리 비율들은 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율의 로그값에 해당한다.

바람직하게는, 상기 모수(β)는 상기 이산화된 아웃라이어 밀도 함수 상에의 상기 히스토그램의 형상화의 결과이다.

본 발명의 다른 한 실시태양에 의하면, 제1 이미지를 제2 이미지와 비교하는 장치는, 상기 제1 이미지의 제1 키포인트들 및 상기 제2 이미지의 제2 키포인트들을 식별하도록 구성된 제1 식별 유닛; 각각의 제1 키포인트를 해당하는 제2 키포인트와 연관시킴으로써 제1 및 제2 키포인트들 간의 매치들을 형성하도록 구성된 연관 유닛; 각각의 제1 거리 비율이 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율에 기반하여 이루어지는, 복수 개의 제1 거리 비율들을 연산하도록 구성된 연산 유닛; 상기 제1 거리 비율들의 값들의 개별 간격에 각각 해당하는 복수 개의 순서화된 빈들을 지니는 히스토그램에서 상기 연산된 복수 개의 제1 거리 비율들의 값들의 분포를 배열하도록 구성된 배열 유닛으로서, 상기 히스토그램은 각각의 빈에 대하여 상기 개별 간격 내에 포함된 값들을 지니는 분포의 해당하는 개수의 제1 거리 비율들을 열거(enumeration)하는, 배열 유닛; 상기 제1 및 제2 이미지들에서의 키포인트 쌍들의 임의 선택에 해당하는 복수 개의 제2 거리 비율들의 통계적 분포를 나타내는 아웃라이어 밀도 함수를 생성하도록 구성된 생성 유닛으로서, 상기 복수 개의 제2 거리 비율들은 상기 제1 이미지의 제1 키포인트들의 쌍들 간의 거리 및 상기 제2 이미지의 해당하는 임의 선택된 제2 키포인트들의 쌍들 간의 거리의 비율에 기반하여 이루어지는, 생성 유닛; 각각의 빈에 대하여 해당하는 아웃라이어 확률 밀도 값을 생성함으로써 상기 아웃라이어 밀도 함수를 이산화(discretizing)하도록 구성된 이산화 유닛;을 포함한다. 상기 장치는, 각각의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트들에 의해 형성되는 정확한 키포인트 매치들의 개수를 결정하도록 구성된 결정 유닛을 부가적으로 포함하며, 상기 결정 유닛은, 행렬을 결정하도록 구성된 제1 결정 서브-유닛으로서, 상기 행렬의 각각의 요소는 개별적인 키포인트 매치들의 쌍에 해당하며 상기 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 아웃라이어 확률 밀도 값 간의 차에 해당하는 값을 지니고, 상기 아웃라이어 확률 밀도 값은 모수(β)에 의해 가중되는, 제1 결정 서브-유닛; 상기 키포인트 매치들의 쌍이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니며 상기 키포인트 매치들의 쌍이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(r)와 상기 행렬의 우위 고유벡터(dominant eigenvector)가 동일하도록 상기 모수(β)의 값을 결정하도록 구성된 제2 결정 서브-유닛; 정확한 키포인트 매치들의 개수를 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 결정하도록 구성된 제3 결정 서브-유닛;을 부가적으로 포함한다. 상기 장치는 상기 결정된 개수의 정확한 키포인트 매치들을 이용하여 상기 제1 이미지를 상기 제2 이미지와 비교하도록 구성된 비교 유닛을 부가적으로 포함한다.

바람직하게는, 상기 장치는 최고 절대값들을 지니는 상기 우위 고유벡터의 요소들의, 상기 정확한 키포인트 매치들의 개수와 동일한, 개수를 식별함으로써 어느 키포인트 매치들이 정확한 키포인트 매치들일 확률이 가장 높은지를 식별하도록 구성된 식별 유닛;을 부가적으로 포함한다.

본 발명의 부가적인 실시태양에서는 쿼리 이미지를 수신하고 상기 이미지에서 해당하는 제1 키포인트들을 식별하도록 구성된 키포인트 검출 유닛; 해당하는 제1 로컬 기술자(local descriptor)들을 통해 상기 제1 키포인트들의 로컬 애스펙트(local aspect)를 기술하도록 구성된 특징 연산 유닛; 복수 개의 참조 이미지들을 저장하는 참조 데이터베이스로서, 각각의 참조 이미지에 대해, 참조 데이터베이스는 해당하는 제2 키포인트들 및 상기 제2 키포인트들의 해당하는 제2 로컬 기술자들을 부가적으로 저장하는, 참조 데이터베이스; 적어도 한 그룹의 참조 이미지들의 각각의 참조 이미지에 대하여, 상기 제1 로컬 기술자들을 상기 참조 이미지의 제2 로컬 기술자들과 비교하고 결과적으로는 상기 제1 키포인트들을 상기 참조 이미지의 제2 키포인트들과 연관시켜 해당하는 한 세트의 키포인트 매치들을 생성하도록 구성된 특징 매칭 유닛; 상기 특징 매칭 유닛에 의해 수행된 비교들에 기반하여 참조 형상(reference figure)들의 서브세트를 선택하도록 구성된 선택 유닛; 및 상기 쿼리 이미지 및 상기 서브세트의 참조 이미지를 포함하는 각각의 쌍에 대하여, 위에서 언급한 장치를 사용하여 정확한 키포인트 매치들의 개수를 연산하도록 구성된 최적화 유닛;을 포함하는 시스템이 제공된다.

바람직하게는, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버에 쿼리 이미지들을 제공하도록 구성된 복수 개의 단말기들을 포함하며, 상기 시각 검색 서버는 상기 키포인트 검출 유닛, 상기 특징 연산 유닛, 상기 참조 데이터베이스, 상기 특징 매칭 유닛, 상기 선택 유닛 및 상기 최적화 유닛을 포함한다.

바람직하게는, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버에 쿼리 이미지들을 제공하도록 구성된 복수 개의 단말기들을 포함하며, 상기 시각 검색 서버는 상기 참조 데이터베이스, 상기 특징 매칭 유닛, 상기 선택 유닛 및 상기 최적화 유닛을 포함하고, 각각의 단말기는 개별 키포인트 검출 유닛 및 개별 특징 연산 유닛을 포함한다.

바람직하게는, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버와 데이터를 교환하도록 구성된 복수 개의 단말기들을 부가적으로 포함하며, 상기 시각 검색 서버는 상기 참조 데이터베이스를 포함하고, 각각의 단말기는 개별 키포인트 검출 유닛, 개별 특징 연산 유닛, 개별 특징 매칭 유닛, 개별 선택 유닛, 개별 최적화 유닛 및 개별 로컬 데이터베이스를 포함하며, 각각의 단말기는 상기 시각 검색 서버로부터 상기 참조 데이터베이스 내에 저장된 제2 키포인트들 및 상기 제2 키포인트들의 해당하는 제2 로컬 기술자들의 개별 세트를 수신하도록 구성되고, 상기 단말기의 로컬 데이터베이스는 상기 수신된 세트의 제2 키포인트들 및 제2 로컬 기술자들을 저장하도록 구성되며, 상기 저장된 세트의 제2 키포인트들 및 제2 로컬 기술자들은 적어도 한 그룹의 참조 이미지들을 구성하는 참조 이미지들에 해당한다.

본 발명의 제4 실시태양에 의하면, 이미지 검색 방법은 쿼리 이미지를 수신하고 상기 이미지에서 해당하는 제1 키포인트들을 식별하는 단계; 상기 쿼리 이미지를 복수 개의 참조 이미지들과 비교하는 단계로서, 제2 키포인트들은 각각의 참조 이미지와 연관되고, 결과적으로는 상기 제1 키포인트들을 상기 참조 이미지의 제2 키포인트들과 연관시켜 해당하는 한 세트의 키포인트 매치들을 생성하는, 단계; 위에서 언급한 방법에 기반하여 상기 쿼리 이미지 및 상기 복수 개의 참조 이미지들 각각 간의 정확한 키포인트 매치들의 개수를 결정하는 단계; 상기 정확한 키포인트 매치들의 개수가 미리 결정된 문턱값을 초과하는 참조 이미지들로서 참조 이미지들의 서브세트를 선택하는 단계를 포함한다.

본 발명의 이들 및 다른 특징들은 첨부도면들과 연관지어 고려된 이하 본 발명의 몇몇의 전형적이며 비-제한적인 실시예들의 설명에 의해 자명해질 것이다.

도 1a는 2개의 이미지의 키포인트들이 키포인트 매치들을 형성하도록 서로 연관되어 있는 일례를 예시하는 도면이다.
도 1b는 단지 인라이어들만이 나타나게 되는 도 1a의 일례를 예시하는 도면이다.
도 1c는 도 1a의 일례에 해당하는 LDR 히스토그램을 예시하는 도면이다.
도 2는 본 발명의 한 실시예에 따른 아웃라이어 밀도 함수의 형상을 예시하는 도면이다.
도 3a 내지 도 3f는 취리히 건물(Zurich Building) 이미지 데이터베이스로부터 취해진 이미지들의 쌍으로부터 생성된 LDR 히스토그램들의 몇 가지의 예를 예시하는 도면들이다.
도 4는 쿼리 이미지 및 참조 이미지가 전혀 다른 각도들에서 본 동일한 평면 대상을 나타내는 전형적인 경우를 예시하는 도면이다.
도 5a 및 도 5b는 거의 평면에 가까운 대상들이 적정한 시야각들의 차들로 도시되어 있는 2가지 전형적인 경우를 예시하는 도면들이다.
도 6은 본 발명의 방법의 주요 단계들을 예시하는 흐름도이다.
도 7a 내지 도 7f는 본 발명의 방법에 의해 수행된 시도의 결과들을 보여주는 도면들이다.
도 8은 본 발명의 한 실시예에 따른 방법이 시각 검색 서비스를 구현하기 위해 이용될 수 있는 예상가능한 시나리오를 개략적으로 예시하는 도면이다.
도 9a는 본 발명의 한 실시예에 따른 시각 검색 서비스를 구현하는 시스템을 예시하는 도면이다.
도 9b는 본 발명의 다른 한 실시예에 따른 시각 검색 서비스를 구현하는 시스템을 예시하는 도면이다.
도 9c는 본 발명의 또 다른 한 실시예에 따른 시각 검색 서비스를 구현하는 시스템을 예시하는 도면이다.
도 10은 본 발명의 한 실시예에 따른 자동 비디오 카메라 교정 방법의 주요 단계들을 예시하는 흐름도이다.

위에서 이미 언급한 바와 같이, 2개의 이미지 간의 비교에는 상기 제1 이미지의 키포인트들을 상기 제2 이미지의 해당하는 키포인트들과 매칭하는 기능이 제공된다. 상기 2개의 이미지의 해당하는 키포인트들이 (상기 2개의 이미지 양자 모두에 나타나게 되는) 동일한 대상의 동일한 포인트에 해당하는 경우에 키포인트 매치는 정확한 것(인라이어(inlier))이라고 말하여지고, 이와는 반대로 상기 2개의 키포인트가 동일한 대상의 동일한 포인트에 해당하지 않는 경우에 키포인트 매치는 부정확한 것(아웃라이어(outlier))이라고 말하여진다. 각각의 이미지가 동일한 대상(교회)의 화상인 도 1a에 예시된 예에서는, 각각의 키포인트 매치는 개별 실선으로 나타나 있다. 도 1a의 전형적인 경우로 예시된 키포인트 매치들은 인라이어들 및 아웃라이어들 양자 모두를 포함한다. 그 대신에, 도 1b에는 아웃라이어들이 제거되어 있는 동일한 전형적인 경우의 버전이 나타나 있다.

이하 본 발명의 설명에서는 이미지 비교 방법이 설명될 것이다. 쿼리 이미지, 또는 간단히 쿼리라고 언급되고 해당하는 한 세트의 키포인트 매치들을 형성하도록 참조 이미지라고 언급되는 제2 이미지상에서 생성되는 해당하는 한 세트의 키포인트들에 연관되어 있는 제1 이미지상에서 생성되는 한 세트의 키포인트들에서부터 출발하여, 제안된 방법은 전체 세트의 키포인트 매치들 중에서 얼마나 많은 키포인트 매치들이 인라이어들인지를 평가하고 또한 어느 키포인트 매치들이 인라이어들인지 그리고 어느 키포인트 매치들이 아웃라이어들인지를 명확하게 식별할 수 있다.

본 발명의 설명의 섹션 1에서는 부정확한 매치 및 정확한 매치 양자 모두에 대해 이러한 방법에서 사용되는 특정 통계 속성들, 및 로그 거리 비율의 개념이 도입될 것이다. 이하 2가지 섹션(섹션 2-3)에는 상기 제안된 방법의 스테이지들의 수학적 및 통계적 측면들이 개시되어 있다. 섹션 4에는 상기 방법의 스테이지들의 주요 단계들이 개시되어 있다. 마지막 섹션(섹션 5)은 상기 제안된 방법의 전형적인 애플리케이션들에 관한 것이다.

섹션 1 - 로그 거리 비율

한 세트의 N 개의 매칭된 키포인트들(매치들), 즉

(1)

을 고려해보기로 하는데, 여기서 x _i 는 상기 쿼리 이미지에서 i-번째 키포인트의 좌표들을 포함하고 y _i 는 상기 참조 이미지에서 자신의 매칭 키포인트의 좌표들을 포함한다. 한 쌍(x _i ,y _i )은 2개의 키포인트들이 정확하게 매칭되는 경우에 인라이어(inlier)라고 불린다. 이와는 반대로, 한 쌍은 상기 키포인트들이 부정확하게 매칭되는 경우에 아웃라이어(outlier)라고 불린다. 개수(N )는 초기에 수행되는 매칭 프로세스의 결과인 것이 전형적이다. N의 전형적인 값들은 5와 500 사이의 범위에 걸쳐 있으며 바람직하게는 20과 400 사이의 범위에 걸쳐 있다. 매치들의 개수가 위의 문턱값들을 초과하거나 또는 이와는 달리 매치들의 개수가 본 발명에 따른 인라이어 선택 프로세스를 수행하는데 필요한 연산 자원들과 비교해 볼 때 비교적 많다고 생각되는 경우에, 당업자라면 매치들의 개수를 N' < N인 것으로 선택함으로써 본 발명의 방법을 수행하는데 사용되는 매치들의 개수를 줄일 수 있다.

상기 제안된 방법은 위에서 인용된 Tsai 와 그의 동료 명의의 논문에서 제안된 소위 로그 거리 비율(log distance ratio; 간단히 말해 LDR)을 이용한다.

(2)

상기 키포인트들은 별개의 것들이어야 하는데, 다시 말하면

이며, 상기 LDR 은 i = j 에 대하여 정의되어 있지 않다. 상기 LDR 은 길이 비율의 함수, 즉 닮음꼴들에 대해 불변량이다. 로그 연산자(logarithm operator)의 존재 때문에, 상기 쿼리 이미지가 상기 참조 이미지로 교체되는 경우에(x 가 y 로 되고 역으로 y 가 x 로 되는 경우에), 상기 LDR 은 부호가 반전된다.

상기 쿼리 이미지상에는 N 개의 키포인트들(x _i )을 포함하고 상기 참조 이미지상에는 대응하는 N 개의 키포인트들(y _i )을 포함하는 한 세트의 N 개의 매칭된 키포인트들(x _i ,y _i )이 주어지면, 별개의 로그 거리 비율들의 개수

가 존재한다. 그러한 로그 거리 비율들의 통계적 분포는 본원 명세서에서 "LDR 히스토그램(LDR histogram)"이라 언급되는 해당하는 히스토그램의 형태로 나타나게 된다. 상기 LDR 히스토그램은 어레이

로 나타나게 된다. h 는 이하에서는 빈(bin)들로서 언급되는 K 개의 미리 정의된 간격들 T ₁ , …, T _K 각각 내에 포함되어 있는 관측된 로그 거리 비율들을 계수(count)할 때 생기는 빈도(frequency)들의 어레이이다. 예를 들면, 그러한 빈들은 하한값 -2.5 및 상한값 2.5 사이에 0.2와 동일한 폭의 25 개의 간격, 다시 말하면,

일 수 있다.

도 1c에는 도 1a의 경우에 해당하는 LDR의 일례가 예시되어 있다.

여기서 유념할 점은 h 에서의 모든 요소들의 합이 별개의 매치들의 쌍들의 개수,

이라는 점이다. h 는 여러 쌍의 키포인트 매치들의 LDR을 대표하는 확률 밀도 함수(p _Z (z))로 임의 변수(Z)의 n 개의 값들을 측정함으로써 구해지는 것처럼 간주할 수 있다. p _Z (z) 는 전체 밀도 함수( overall density function)라고 불릴 수 있다. 이러한 방식으로, LDR 히스토그램에서 하나의 빈에 걸쳐 기대되는 값은,

(3)

이며, 이 경우에 p _Z _,k 는 상기 LDR 값이 간격( T _k ) 내에 포함될 확률이다. p _Z _, _k 의 최대 우도 추정값(maximum likelihood estimate)은 관측 횟수로 나눠진 히스토그램 값, 즉

(4)

이며, 예를 들면「"An introduction to Mathematical Statistics and its Applications" by R.J. Larsen and M.L. Marx, New Jersey, page 338, Prentice-Hall, second edition, 1986」을 참조하기 바란다.

1.1 히스토그램 및 확률 밀도 함수의 2개의 성분

키포인트 매치들의 쌍들은 2개의 카테고리로 순서화되는데, 양자 모두의 매치들이 인라이어들이거나 양자 모두의 매치들 중 적어도 하나가 아웃라이어이다(이러한 제2 카테고리는 믹싱된 아웃라이어 쌍들이라 불리게 된다). 그러므로, 상기 히스토그램은 각각의 성분이 하나의 카테고리에서 쌍들에 대해 관측된 LDR 값들에 기인하는 2개의 성분의 합이다. 인라이어 쌍들에 대한 히스토그램 성분은 h _in = {h _in (1), . . . , h _in (K)} 로 나타나게 되며 믹싱된 아웃라이어 쌍들에 대한 히스토그램 성분은 h _out = { h _out (1), . . . , h _out (K)} 로 나타나게 된다. 이때,

(5)

이다.

상기 LDR의 통계치들은 다음 섹션에서 논의되겠지만, 상기 카테고리에 의존한다. 상기 LDR 히스토그램에 대해 동일한 방식으로, 2개의 조건부 확률 밀도의 합으로서 전체 확률 밀도 함수가 표기된다. P _in 은 소정의 쌍이 2개의 인라이어를 포함하는 확률을 나타낸다고 하고 P _out 은 상기 쌍 내에 적어도 하나의 아웃라이어가 존재하는 확률을 나타낸다고 하자. 상기 조건부 확률 밀도 함수들은 인라이어 매치들에 대해 p(z| in ) 로 나타나게 되며 믹싱된 아웃라이어 매치들에 대해 p(z| out ) 으로 나타나게 된다. 이때, z 에 대한 전체 밀도 함수는 합, 다시 말하면

(6)

이다.

식 (4)에서와 같이, 우변 상의 항들은 2개의 히스토그램 성분의 기대값을 구하도록 적분될 수 있다.

(7)

(8)

상기 확률 밀도 함수들 및 이들의 적분들(E(h(k)), E( h _in (k)), E( h _out (k)))은 유용한 추상적 개념(useful abstraction)들이다. 단지 관측된 수량은 LDR 히스토그램이지만, 이는 전체 밀도 함수에 대한 정보를 제공한다. 이하의 원리, 즉

전체 밀도 함수(p _Z (z))는 기대된 LDR 히스토그램이 관측된 LDR 히스토그램과 동일하도록 이루어진다는 원리는 식(4)의 최대 우도 추정과 함께 적용된다.

그러므로,

(9)

이다.

다음 섹션에서는 양자 모두의 카테고리들에 대한 조건부 확률 밀도 함수들이 논의되어 있다.

1.2 조건부 확률들

상기 LDR은 2개의 일반 키포인트 쌍들, 다시 말하면 (x _i , y _i ) 및 (x _j , y _j )의 함수이다. 3가지 예상가능한 조건이 이루어질 수 있는데, 양자 모두의 쌍들이 아웃라이어들일 수도 있으며, 양자 모두의 쌍들이 인라이어들일 수도 있고, 하나의 쌍이 인라이어이고 나머지 하나의 쌍이 아웃라이어일 수 있다.

1.2.1 양자 모두의 쌍들이 아웃라이어들인 경우의 LDR

상기 매칭 프로세스는 상기 이미지들을 이루는 씬의 기하학적 형태에 대한 임의의 지식에 의해 제한되지 않는데, 그 이유는 상기 매칭이 수행되기 전에 그러한 지식이 이용가능하지 않기 때문이다. 비록 2개의 이미지가 동일한 대상들을 보여준다 하더라도, 잘못된 매치들을 방지하는 메커니즘이 존재하지 않는다. 2개의 이미지가 동일하거나 매우 닮은 대상들을 보여주지 않는 경우에, 어떠한 매칭도 부정확한 것으로 간주하여야 한다.

비록 상기 매칭 프로세스가 확정적이라 하더라도, 부정확하게 매칭된 키포인트들의 위치들은 예측할 수 없다. 일반적으로는 아웃라이어들에 대하여 임의의 기하학적 패턴을 발견하는 것이 불가능하며, 그러한 패턴이 추론될 수 있는 원리가 존재하지 않는다. 그러므로, 상기 부정확한 매칭은 임의 프로세스로서 간주하며, 아웃라이어들의 거동(behavior)은 아웃라이어 밀도 함수라고 언급되는 적절한 밀도 함수를 통해 모델링된다.

아웃라이어 밀도 함수의 정의

A 및 B가 직사각형들이라 한다. 여기서 가정한 점은

및

가 임의 변수( random variable )들(X _i , X _j 및 Y _i , Y _j )에 해당하는, 임의로 나타나게 되는 포인트들이라는 점이다. 상기 임의 변수(Z)가 LDR 이라 하면,

이 된다.

상기 아웃라이어 밀도 함수는 Z에 대한 확률 밀도 함수(

)이며 이는 아래와 같이 조건부 확률 밀도 함수로서 사용되게 된다.

2가지 타입의 키포인트 분포들, 즉 정규 및 균일 타입의 키포인트 분포들에 대해 상기 아웃라이어 밀도 함수가 나타나게 될 수 있다.

정규 분포된 키포인트 좌표들

상기 키포인트들이 정규 분포되어 있다는 가정은 실제 사례들에 대한 양호한 접근법인 아웃라이어 밀도 함수의 간단한 공식 표시로 이끈다.

여기서 추정되는 점은 상기 쿼리 이미지의 키포인트들이 독립적이고 동일하게 분포(i.i.d.)되어 있으며 다음과 같이 평균 μ 및 분산((1/2)I)을 가지고 정규 분포되는 임의 변수(X)로서 거동한다는 점이다.

(10)

여기서 가정된 점은 상기 키포인트들이 전체 이미지에 걸쳐 분포되도록 상기 좌표들이 적절히 크기변환되었다는 점이다(여기서 유념할 점은 상기 분산이 수평 및 수직 방향으로 동일하다는 점이다). 이때, 2개의 키포인트 간의 차는 또한 다음과 같이 정규 분포를 지닌다.

(11)

여기서 가정하기로 한 점은 상기 참조 이미지의 키포인트들{Y _n }이 {X _n }과 동일한 통계치들을 지니고 키포인트(X _n )이 키포인트(Y _n )에 매칭된다는 점이다. 이때, 제곱 거리 비율(squared distance ratio)은, 예컨대,「"An introduction to Mathematical Statistics and its Applications" by R.J. Larsen and M.L. Marx, New Jersey, page 338, Prentice-Hall, second edition, 1986」에 나타나 있는 바와 같이, (2,2) 자유도를 갖는 F-분포를 지닌다.

(12)

상기 확률 밀도 함수(F(2,2))는

(13)

이며, 이 경우에 식(12)의 임의 변수(

)에 대한 기호는 간략성을 위해 S로 대체되었다. (상기 제곱 거리 비율이 아니라) 상기 로그 거리 비율이 고려되고 있기 때문에, 제곱근 및 로그는 임의 변수(

)에 적용된다. 더군다나, 2개의 이미지의 서로 다른 크기들 또는 2개의 이미지에서의 키포인트들의 서로 다른 확산을 설명하기 위하여, 상기 함수가 2개의 이미지에서의 키포인트들의 표준 편차의 비, 다시 말하면

(14)

에 해당하는 모수(

)로 상기 임의 변수를 곱함으로써 그러한 경우에까지 확장된다. 상기 F(2,2) 확률 밀도 함수 대한 이러한 변경들은 다음과 같은 아웃라이어 밀도 함수를 초래한다.

아웃라이어 밀도 함수

2개의 이미지가 임의 키포인트들 { X _n } 및 { Y _n }을 지닌다고 하고, 상기 임의 키포인트들 { X _n } 및 { Y _n } 모두가 제1 이미지에서 분산들(

)을 갖고 제2 이미지에서

를 갖는 이변량 ( bivariate ) 정규 분포를 지닌다.

이 다음과 같이 상기 분산들의 비이라고 한다.

본원 출원인은 상기 로그 거리 비율이 다음과 같은 확률 밀도 함수를 지닌다는 점을 알아내었다.

(15)

도 2에는 사례

에 대한 아웃라이어 밀도 함수의 형상이 예시되어 있다. 여기서 유념해야 할 점은 수평 및 수직 분산들이 동일하다고 가정되어 있기 때문에 이러한 아웃라이어 밀도 함수가 직사각형 이미지들의 애스펙트 비율을 설명하지 못한다는 점이다.

도 3a 내지 도 3f에는 여러 예가 예시되어 있으며, 각각의 예에는 (각각의 뷰가 201 개의 건물로 이루어진 5 개의 뷰에서, 1005 개의 이미지로 이루어지는) 취리히 건물 이미지 데이터베이스로부터 취해진 개별 쌍의 이미지들(쿼리 이미지-참조 이미지)이 나타나 있다. 라인들이 나머지 이미지에서 매치된 키포인트들의 위치들을 나타내지만, 상기 키포인트들은 원들로 나타나 있다. 각각의 이미지 쌍에 대하여는, 상기 LDR 히스토그램 및 해당하는 아웃라이어 밀도 함수가 식(15)의 공식 표시로 예시되어 있다. 여기서 유념해야 할 점은 이미지들이 서로 다른 건물들을 나타내기 때문에 키포인트 매치들 모두가 아웃라이너들로서 고려해야 한다는 점이다. 이러한 예들로부터, 모든 매치들이 아웃라이어들일 때마다 상기 아웃라이어 밀도 함수가 상기 LDR 히스토그램에 충분히 접근한다는 점이 고려될 수 있다.

"이산화된 아웃라이너 밀도 함수"의 개념이 또한 도입된다.

상기 빈들, 다시 말하면 상기 LDR 히스토그램을 구성하는데 사용되는 LDR 값들에 대한 간격들이

로 나타나게 된다고 한다. 이산화된 아웃라이어 밀도 함수는 다음과 같이 확률 값들을

개의 빈 각각에 할당함으로써,

다음과 같이 각각의

번째 빈에서 상기 확률 값이 그러한 빈에 걸쳐 상기 아웃라이어 밀도 함수의 적분과 동일하게 되고,

(15a)

각각의 값(

)은 "아웃라이어 확률(outlier probability)"이라 불린다.

1.2.2 - 양자 모두의 쌍들이 인라이어들인 경우의 LDR

일반적으로, 키포인트 매치들 모두가 인라이어들인 사례에 대한 LDR 히스토그램은 종종 아웃라이어들에 대한 LDR 히스토그램과는 전혀 다르다. 다수의 실제 사례들에서는, 단지 인라이어들만에 대한 LDR 히스토그램이 단지 아웃라이어들만에 대한 LDR 히스토그램보다 좁은데, 다시 말하면 단지 인라이어들만에 대한 LDR 히스토그램은 LDR 아웃라이어 히스토그램이 비-제로(nonzero)인 경우에 빈들(특히 측면 빈들)의 개수에 걸쳐 제로(zero)와 동일하다.

2개의 이미지에서 연관된 키포인트들

및

가 보이게 되는 대상 상의 동일한 포인트의 매핑을 통해 연관되어 있기 때문에, 확률적 모델링을 사용하는 대신에 상기 LDR 히스토그램들의 상계(upper bound) 및 하계(lower bound)를 고려하는 것이 바람직하다. 여기서 가정된 점은 하나의 이미지에서의 2개의 개별 키포인트들이 결코 서로에 대해 그다지 근접해 있지 않고 적어도 상기 이미지들 중 단지 하나의 이미지에서만 이루어진 것이 아니라는 점이다. 이때, (얼마나 많은 길이들이 2개의 이미지 사이에 축소 및 확대될 수 있는지에 의존하여) 개수들(

,

)이 그다지 많지도 않게나 그다지 적지도 않게 존재함으로써,

(16)

인 관계가 성립하게 된다. 이러한 사례에서 LDR은 간격

(17)

으로 제한된다.

또한, 대부분의 평면들의 쌍들에서는, 키포인트들 간의 거리들이 그다지 축소되지도 않고 확대되지도 않는다. SIFT(Scale-Invariant Feature Transform) 및 SURF(Speeded Up Robust Feature)와 같은 특징들은 닮음꼴 변환들에 대해 불변하지만 호모그래피(homography)들은 커녕, 아핀 변환들에 대해서는 불변하지 않는다. 이것이 의미하는 것은

가 이론적으로 광폭일 수 있을 정도로 원근 왜곡(perspective distortion)이 심각한 경우에, 극한 LDR 값들을 생성할 수 있는 키포인트들은 상기 키포인트들의 특징들이 서로 다른 기술자들을 지니게 되기 때문에 연관되어 있지 않게 된다는 것이다. 따라서, 정확하게 연관된 키포인트들에 대한 인라이어 히스토그램들은 비교적 좁은 간격에 있을 가능성이 있다.

도 4에는 상기 쿼리 이미지 및 상기 참조 이미지가 전혀 다른 각도들(논의되고 있는 예에서는, -75 및 0 도들)에서 본 동일한 평면 대상(직사각형)을 보여주는 전형적인 사례가 예시되어 있다. 도 4의 하부 도면에는 상기 이미지 쌍으로부터 연산된 아웃라이어 밀도 함수 및 LDR 히스토그램이 나타나 있다.

도 5a 및 도 5b에는 거의 평면인 대상들(건물 면들)이 적정한 시야각들의 차들로 나타나 있는 2가지 전형적인 사례가 예시되어 있다. 도 5a 및 도 5b의 하부 도면들에는 해당하는 LDR 히스토그램들 및 아웃라이어 밀도 함수들이 나타나 있다.

1.2.3 - 양자 모두의 타입들의 쌍들을 지니는 LDR

제3 변형예에는 쌍

가 인라이어이고

가 아웃라이어임(또는 쌍

가 아웃라이어이고

가 인라이어임)이 제공되어 있다. 또한 이러한 사례에서 가정된 점은 알려져 있지 않은 이미지에 포함된 키포인트들의 위치를 제한하는 임의의 기하학적 패턴 또는 규칙을 사전에 알 수 없기 때문에 한 이미지의 키포인트들이 임의로 분포된다는 점이다.

그러므로, 각각의 키포인트는 예를 들면 식(10)에서와 같이 정규 분포를 갖는 임의 변수로 나타나게 될 수 있다. 2개의 키포인트 간의 차분 벡터(difference vector)는 식(11)에서와 같이 모델링되는데, 그 이유는 하나가 인라이어인 것으로 취해지고 나머지가 아웃라이어인 것으로 취해지고, 그들 간에 어떠한 상관 관계도 존재하지 않을 수 있기 때문이다.

그러나, 식(12)의 F-분포는 그대로 유지하지 않는데, 그 이유는 분자(numerator) 및 분모(denominator)가 상기 F-분포에 대한 가설(hypothesis)과는 반대로, 독립적이지 않기 때문이다. 한 인라이어/아웃라이어 쌍의 사례에서의 키포인트들은,

이며, 이 경우에

는 (비록 알려져 있지 않더라도) 한 이미지의 인라이어 키포인트를 나머지 이미지상에 매핑하는 것이다. 상기 제곱 거리 비율을 나타내는 임의 변수는 이러한 사례에서

(18)

이게 되며, 이 경우에 분자 및 분모 모두가

의 함수들이기 때문에 분자 및 분모가 분명히 독립적이지 않다. 식(12)에서 변수에 대한 확률 밀도 함수를 구하는 것은 상당히 어렵지만, 상기 제안된 방법에 있어서는 그러한 것이 필요하지 않을 수 있다. 경험을 통해 가정된 점은 오차가 적으면, 동일한 모델 확률들, 즉 식(15)의 아웃라이어 함수를 갖는 이러한 2가지 사례(인라이어/아웃라이어 쌍과는 대조적으로 양자 모두의 인라이어 쌍들)에 대한 LDR의 히스토그램을 모델링하는 것이 가능하다는 점이다.

1.3 아웃라이어들에 대한 비- 모수적 확률 밀도 함수

아웃라이어들에 대한 로그 거리 비율은 2개의 임의 선분의 길이들의 비율(의 로그값)로서 보일 수 있다. 상기 아웃라이어들이 예측 불가능한 매칭 오차들에 의해 형성되기 때문에, 상기 선분들의 엔드포인트(endpoint)들은 독립 임의 변수(independent random variable)들로서 모델링된다. 더욱이, 하나의 이미지에 내재하는 엔드포인트들은 동일하게 분포되어 있다. 이전에는, 상기 엔드포인트들이 평면에서 정규 분포를 지니는 것으로 고려되었는데, 여기서 상기 엔드포인트들이 키포인트들(정확도에 관계없이, 매칭 후에 존재하는 키포인트들)의 세트로 제한된다는 가정에 기반하여 변형적인 아웃라이어 확률 밀도 함수가 도입된다. 이러한 변형 절차의 목적은 아웃라이어들에 대한 LDR 히스토그램의 피크(peak)를 좀더 양호하게 식별하는 것이다. 대부분의 경우에, 이는 이미지들을 비교하고 인라이어들을 발견하고자 하는 성능을 개선시킬 수 있다.

여기서 가정된 점은 모든 선분들이 다음과 같이 동일한 확률을 가진다는 점이고,

이 경우에

는 하나의 이미지에서의 엔드포인트들에 대한 임의 변수들을 나타내고

는 나머지 이미지에서의 엔드포인트들에 대한 임의 변수들을 나타낸다. 임의 LDR은 다음과 같이 차분으로서 나타나게 될 수 있음으로써,

(19)

2개의 항 각각에 대한 확률들이 개별적으로 추정될 수 있게 된다. 이러한 목적으로, 히스토그램 빈들이 다음과 같이 확장 세트의 서브세트를 형성하도록 히스토그램 빈들에 대한 확장이 도입되는데,

이때에는,

인 경우

이도록 인덱스들이 정렬된다.

상기 선분들에 대한 모든 예상가능한 엔드포인트들을 고려함으로써, 항들이 소정의 빈들 내에 포함될 확률들은,

및

인 것으로 추정될 수 있다.

상기 함수(

)는 인수(argument)(예컨대,

)가 참값일 때 1 이고 상기 인수가 거짓값일 때 0 이다.

상기 빈들은 다음과 같이 스칼라 양자화기(scalar quantizer;

)

을 의미함으로써,

이게 된다.

상기 양자화기는 식(19)의 항들을 정수값을 가지는 임의 변수들로 변환시킨다.

첫 번째 항은

이 되고

이때 이산 확률 함수는 다음과 같은 관계

를 이루게 되며

두 번째 항은

이 되고

이때 이산 확률 함수는 다음과 같은 관계

를 이루게 된다.

차분에 대한 이산 확률 함수는 차분들에 대한 컨벌루션 공식(convolution formula)

(20)

에 의해 구해진다.

식(20)의 함수는 이산 아웃라이어 확률 밀도 함수의 변형적인 공식 표시로서 사용될 수 있다.

섹션 2 - 인라이어들의 계수 및 식별

2.1 아웃라이어 법선( outlier normal )

상기 제안된 방법에 의하면, 지금부터 LDR 값들을 분석함으로써 인라이어 매치들을 식별하는 방식이 설명될 것이다. 정확한 인라이어 세트를 기대값으로서 산출하는 스펙트럼 클러스터링 알고리즘이 개발되었다.

식(2)의 LDR은 다음과 같이 각각의 쌍의 키포인트 매치들에 대해 알려지게 된다.

(21)

소정의 LDR 값이 한 쌍의 인라이어 매치들을 나타내는 지에 대한 정보를 전달하는 함수가 본원 출원인에 의해 추구되었다. 본원 출원인은 연산 비용이 적은 알고리즘을 통해 인라이어 매치들의 식별을 허용하는 함수가 다음과 같은 형태

(22)

를 지녀야 함을 알게 되었는데, 여기서

는 여러 쌍의 키포인트 매치들의 LDR 을 대표하는 전체 확률 밀도 함수이고,

는 아웃라이어 확률 밀도이며

는 모수(parameter)이다. LDR 히스토그램의 빈들을 걸친 적분에 의해,

(빈 인덱스)의 함수가 다음과 같이 구해진다.

(23)

첫 번째 항은 빈(

)에서의 전체 LDR 히스토그램의 기대값에 비례한다. 두 번째 항에서의 아웃라이어 확률 밀도 함수의 적분은

로서 표기될 수 있다.

식(23)은 현재

(24)

(25)

로서 표기될 수 있는데, 그 이유는 여기서 상기 히스토그램이 상기 히스토그램의 기대값과 동일하도록 전체 확률 밀도 함수가 이루어져 있는 것으로 가정되어 있기 때문이다.

및

를 대입함으로써, 결국에는 인라이어들을 식별하기 위해 사용되는 함수

(26)

가 구해진다.

2.2 인라이어 증거 행렬( inlier evidence matrix )

식들(21, 26)은 인라이어 증거 행렬( inlier evidence matrix )이라 불리는 매우 유용한 행렬을 야기한다. 인덱스에 LDR 값을 매핑하는, 히스토그램 빈들에 의해 나타나게 되는 상기 양자화기(

)에 의해 링크가 다음과 같이 제공된다.

이때, 식(21)의 LDR 값들은 요소

에서 값(

)을 가지는 행렬,

으로 순서화되어 있다. 대각선(diagonal)은 0 으로 임의 결정되어 있다. 이때,

는 동일한 크기의 행렬

에 매핑됨으로써,

(27)

인 관계가 성립하게 되는데, 이 경우에 대각선 값들은 또 0 으로 설정된다. 이는 상기 인라이어들을 나타내도록 분석되는 행렬이다. 이하에서는, 합성(

) 대신에

가 표기될 것이다.

상기 알고리즘을 전개하기 위해,

의 비-대각선(off-diagonal) 요소들에서 양자화된 LDR 값들은, 독립 임의 변수들의 값들인 것처럼 고려된다. 이러한 변수들 중 어느 변수라도 하나가 인라이어 쌍들의 매치들에 대한 것이고 다른 하나가 믹싱된/ 아웃라이어 쌍들의 매치들에 대한 것인 2개의 밀도 함수들 중 하나에 의해 특징화된다. 인라이어 매치들의 쌍들을 모델링하기 위해, 다음과 같이 조건부 밀도 함수(

)(식(15) 참조)로 독립적이고 동일하게 분포된 임의 변수들(

)가 정의되는데,

(28)

(29)

이 경우에

이다. 상기 확률 밀도 함수(

)는 정의되어 있지 않게 된다.

마찬가지로, 아웃라이어 또는 믹싱된 매치들의 쌍들에 대하여는, 상기 아웃라이어 밀도 함수(

)에 의해 제공되는 밀도 함수를 가지는 독립적이고 동일하게 분포된(i.i.d.) 변수들(

)은 다음과 같이 정의되는데,

(30)

(31)

이 경우에,

는 식(25)의 이산 확률 밀도 함수이다. 어느 쌍들이 인라이어들이고 어느 것들이 믹싱되거나 아웃라이어 쌍들인지를 확립하는 것이 가능할 경우에, 위에서 언급한 정의들은 다음과 같이 요소들을 갖는 임의 행렬(

)을 산출한다(상기 임의 행렬의 대각선 요소들은 0 이다).

(32)

2.3 고유값 및 고유벡터에 의해 나타나게 되는 인라이어들

위의 목적은,

(33)

이도록 벡터(

)로서 정의되는 참값의 인라이어 지시 벡터(indicator vector)를 결정하는 것이다.

본원 출원인이 유념했던 점은 β의 특정 선택에 대하여,

에 대한 기대값의 우위 고유벡터가 상기 참값의 인라이어 지시 벡터와 동일하다는 점이다. 더군다나, 본원 출원인이 유념했던 점은 관측된 행렬(

)이 인라이어들을 식별하는데 사용될 수 있도록 상기 관측된 행렬(

)이 인라이어 지시 벡터와 매우 유사한 우위 고유벡터를 지닌다는 점이다.

특히, (식 26)의) β는 예상된 적(expected product;

)이 다음과 같이 인라이어 벡터(

) 자체에 비례하는 방식으로 결정된다.

(34)

먼저, 소정의 적(

)의 특정 사례가 검사된다.

여기서 가정된 점은 5개의 키포인트 쌍이 존재하며 인라이어 지시 벡터가

이라는 점이다.

제1, 제2, 및 제4 요소들은 인라이어 매치들을 나타낸다. 행렬(

)는 다음과 같다.

상기 적은,

이다.

여기서 알 수 있는 점은 상기 적(

)에 있는 몇몇 요소가 2개의 항의 합들이라는 점인데, 다시 말하면 1, 2, 및 4 중 임의의 행(

)에 대하여,

상에서의 제로(0)가 요소(

)와 승산됨으로써 결과적으로 획득된 내적에서 한 항이 "누락(missing)"되게 한다. 행들

및

인 경우에,

의 대각선 상에서의 제로(0)가

과 승산되고

의 행에서의 비-제로 요소들은 모두 지시 벡터(

)의 비-제로 요소들로 승산됨으로써, 어떠한 항도 누락되지 않는다.

일반적인 경우에 가정된 점은

개의 인라이어가 존재한다는 점이다. 벡터(

)의

번째 요소는 상기 벡터(

) 및

의

번째 행의 내적에 대한 기대값이다.

번째 매치가 인라이어 쌍인 경우에,

의 행은, 대각선에서를 제외하고,

의 비-제로 위치들(인라이어 위치들)에서

를 포함하므로, 이는

개의 요소의 합이다.

번째 매치가 아웃라이어인 경우에, 이러한 내적은

개의 요소들(

)의 합이다.

가 동일하게 분포되어 있기 때문에, 기대값은

에 의존하지 않으며, 따라서

가 된다. 동일한 이유로,

가 된다.

(35)

위의 식이 단지 2개의 값만을 지닌다는 사실은 상기 고유벡터(

)가 참값의 인라이어 지시 벡터이라는 사실과 양립한다.

모수 (β)

의 아웃라이어 행에 대한

의 기대 요소가 먼저 고려된다. 이러한 요소의 기대값은

(36)

에 비례한다.

현재 도입되는 점은 이러한 요소가 다음과 같이 (

에서 해당하는 요소의 값인) 제로(0)와 동일하다는 점이다.

(37)

(38)

본원 출원인이 유념했던 점은 식(38)이 중요한 결과이라는 점인데, 다시 말하면, 인자(β)는 이산화된 아웃라이어 확률 밀도 함수 상에 전체 LDR 히스토그램을 형상화하는 것으로부터 초래된다. 그러므로, 식(26)의 항(

)은 상기 히스토그램의 아웃라이어 성분이라 불릴 수 있다. 함수(

)는 ('표면 법선(surface normal)'이 표면에 대하여 수직인 벡터인 동일한 방식으로) 상기 아웃라이어 성분, 결과적으로는 명목상의 아웃라이어 법선과 직교한다.

이는 상기 고유벡터(

)의 요소들의 2개의 값 중 하나가 제로(0)임을 확인시켜 준다. 상기 고유벡터(

)의 요소들의 2개의 값 중 나머지 하나가 식(35)에 따라 상수값이다. 그러므로, 상기 고유벡터(

)는 참값의 인라이어 지시 벡터이다.

인라이어들의 개수

현재

의 인라이어 행에 대한

의 기대 요소가 고려된다. 이러한 요소는

에서 해당하는 요소의 값인

와 동일하여야 한다. 이는 다음과 같은 기대값

(39)

을 고려함으로써 개시되는데, 이 경우에 빈(

)에 걸친 인라이어 확률 밀도 함수의 적분은

로 나타나게 된다. 이는 다음과 같은 인라이어들의 개수에 대한 식으로 이끈다.

(40)

(41)

이러한 식에 존재해 있는 분모는 알려져 있지 않은데, 그 이유는 적분된 확률 밀도 함수(

)(식(39) 참조)가 이용가능하지 않기 때문이다. 본원 출원인은 다음과 같이 알려져 있지 않은 분모(

)를 상기 아웃라이어 법선(

)(식 26) 참조)으로 대체하는 것을 제안한다.

(42)

이러한 값은 알려져 있는데, 그 이유는 모든 항들, 다시 말하면 LDR 히스토그램(

), 형상화 계수(projection coefficient; β), 및 적분된 아웃라이어 확률 밀도 함수(

)가 이용가능하기 때문이다. 다음과 같은 관계식이 구해진다.

(43)

본원 출원인이 알아냈던 점은 이러한 개수(

)가 인라이어들의 개수(

)를 약간 과소평가한다는 점이다. 특히, 본원 출원인이 알아냈던 점은 상기 고유벡터(

)의

개의 최고 요소들에 해당하는 키포인트 매치들로서 상기 인라이어들을 선택하는 것이 심지어 연산용으로 사용된 행렬(

)의 통계적 특성에 그리고 동일한 행렬(

)의 한정된 차원(

)에 관련된 잡음의 존재에서도 상기 아웃라이어들에 대한 인라이어들의 개선된 선택을 이룬다는 점이다.

우위 고유값

식(34)에서 상정되었고 식(40)에서 지정된 고유값은 실제로 우위적이다.

행렬(

)의 요소(

)의 기대값은 식들(32,37)에 따라 다음과 같이 구해진다.

(44)

그러므로, 상기 행렬은 다음과 같이 표기될 수 있는데,

(45)

이 경우에

은 식(42)의 인라이어 지시 벡터이다. 행렬(

)은 대각선 상에

을 지니며 다른 모든 요소들은 제로(0)이다.

의 고유값들은 다음과 같다.

(46)

(47)

(48)

고유값(

)은 식(40)의

와 동일하며, 이는 인라이어들(

)의 개수가 3보다 크거나 같은 경우에 우위적이다.

2.4 고속 고유벡터 연산

임의 행렬()은 인라이어 증거 행렬(

)에 관련되어 있다. 상기 행렬(

)은 잡음에 해당하는 항(

) 및 행렬(

)의 합(

)으로서 표기될 수 있다.

본원 출원인이 알아냈던 점은 잡음 성분(

)의 존재가 본 발명의 목적들을 위해 무시될 수 있으며 인라이어 증거 행렬(

)이 연산을 위해 이용될 수 있다는 점이다. 특히, 본원 출원인이 알아냈던 점은 상기 인라이어 증거 행렬(

)이 상기 인라이어 지시 벡터와 매우 유사한 우위 고유벡터를 지닌다는 점이다. 그러므로, 상기 인라이어 증거 행렬(

)의 우위 고유벡터는 인라이어들을 식별하는데 사용될 수 있다.

추정된 인라이어들은

의 우위 고유벡터의

개의 최대 요소에 해당한다. 위의 목적은 또한 어느 정도의 정확도를 희생하여 가능한 한 신속하게 고유벡터 연산을 유지하는 것이다. 상기 우위 고유벡터를 발견하는 방법들은 당업계에 공지되어 있다(예를 들면「"Numerical Linear Algebra" by L. Tredethen and D. Bau, The Society for Industrial and Applied Mathematics, 1997」에 개시된 멱승 반복(power iteration) 및 레일리 몫 반복(Rayleigh quotient iteration)을 참조하기 바람).

양자 모두의 방법들은 반복적이며 우위 고유벡터의 초기 추정(initial guess)에 의존하고, 졸속(拙速) 후보(rough-and-ready candidate)는

와 같은 행렬의 우위 고유벡터에 대한 근사치인 평균 컬럼(mean column)이다.

섹션 3 - 제안된 방법의 주요 단계들

앞서 설명한 방법의 주요 단계들은 도 6을 통해 지금부터 설명될 것이다.

특히, 도 6은 제안된 방법의 주요 단계들을 예시하는 흐름도이다.

여기서 가정된 점은 비교하게 될 한 쌍의 이미지들, 다시 말하면

개의 키포인트(

)를 포함하는 제1 이미지(쿼리 이미지) 및

개의 키포인트(

)를 포함하는 제2 이미지(참조 이미지)에서부터 출발한다는 점이다. 상기 쿼리 이미지상의 각각의 키포인트(

)는 개별 키 포인트 매치(

)를 정의하도록 상기 참조 이미지상의 해당하는 키포인트(

)에 연관된다.

이때, 닮음꼴들에 대해 불변하는 거리 비율의 함수를 사용하는 상기 키포인트 매치들(

)로부터의 거리 비율 히스토그램이 생성된다. 예를 들면, 로그 거리 비율(Log Distance Ratio; LDR) 히스토그램이 식(2)을 사용하여 상기 키포인트 매치들(

)로부터 생성된다(블록 602).

부가적인 단계(블록 604)에서는, 아웃라이어 밀도 함수가 상기 제1 및 제2 이미지에서 임의로 선택된 제1 및 제2 키포인트들 간의 거리 비율들을 사용하여 연산된다(식(15) 참조)(블록 604).

다른 한 단계는 예를 들면 식(15a)을 사전에 연산된 아웃라이어 밀도 함수에 적용함으로써 사전에 연산된 아웃라이어 밀도 함수를 이산화하여 상기 사전에 연산된 아웃라이어 밀도 함수의 이산화된 버전을 구하는 단계로 이루어진다. 상기 제안된 방법의 다음 단계들은 전체 세트의 키포인트 매치들 중에서 얼마나 많은 키포인트 매치들이 인라이어들인지를 평가하고 선택적으로는 어느 키포인트 매치들이 인라이어들인지 그리고 어느 키포인트 매치들이 아웃라이어들인지를 명확하게 식별하는 것을 허용한다. 좀더 구체적으로 기술하면, 제안된 방법의 부가적인 단계(블록 608)에는 행렬을 결정함(블록 610)으로써 (하나의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트에 의해 형성되는) 정확한 키포인트 매치들의 개수를 결정하는 단계로서, 상기 행렬의 각각의 요소는 개별 쌍의 키포인트 매치들에 해당하고 상기 개별 쌍의 키포인트 매치들의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 이산화된 아웃라이어 밀도 함수의 값 간의 차에 해당하는 값을 지니고, 상기 이산화된 아웃라이어 밀도 함수의 값은 모수(β)에 의해 가중되는, 단계가 제공된다. 상기 제안된 방법은, 상기 쌍의 키포인트 매치들이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니고 상기 쌍의 키포인트 매치들이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(

)와 상기 행렬의 우위 고유벡터가 동일하도록 상기 모수(β)의 값을 결정하는 단계 및 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 정확한 키포인트 매치들의 개수를 결정하는 단계를 부가적으로 포함한다. 그리고나서, 상기 결정된 개수의 정확한 키포인트 매치들은 상기 제1 이미지를 상기 제2 이미지와 비교하기 위해 이용된다.

특히, 위에서 언급한 방법에 의해 결정되는 정확한 키포인트 매치들의 개수는 상기 비교된 이미지들이 공통으로 하나 이상의 대상들을 지니는지를 확립하는데 사용될 수 있다. 다음과 같은 상기 인라이어들의 식별은 예를 들면 2개의 이미지의 동일한 대상의 국소화(localization), 스테레오 비전(stereo vision), 2개의 이미지의 동일한 대상의 움직임의 연산과 같은 쿼리 이미지 및 참조 이미지 간의 공간적 관계(spatial relationship)들에 기반한 동작을 수행하는데 사용될 수 있다.

증강 현실(augmented reality)과 같은 몇몇 애플리케이션들에 대해 사용되는 경우에, 상기 방법은 선택적으로

- 최고 절대값들을 지니는 상기 우위 고유벡터의 요소들의, 상기 정확한 키포인트 매치들의 개수와 동일한, 개수를 식별함으로써 어느 키포인트 매치들이 정확한 키포인트 매치들일 확률이 가장 높은지를 식별하는 단계(블록 618);

를 부가적으로 포함할 수 있다.

이러한 섹션에서 설명한 상기 방법의 단계들은 구조 및 기능이 정해지는 특정한 애플리케이션 분야에 의존하는 구조 및 기능을 지니는 적절한 처리 유닛들에 의해 수행될 수 있다. 예를 들면, 각각의 처리 유닛은 상기 방법의 하나 이상의 단계들을 수행하도록 특별히 설계된 하드웨어 유닛일 수 있다. 더욱이, 상기 방법의 단계들은 해당하는 세트의 명령어들의 제어 하에서 프로그램가능한 기계(예컨대, 컴퓨터)에 의해 수행될 수 있다.

섹션 4 - 실험 결과들

도 7a에는 거의 평면에 가까운 대상들이 적정한 시야각들의 차들 및 서로 다른 주밍(zooming)을 지니는 것으로 나타나 있는 한 예가 도시되어 있다. 라인들이 나머지 이미지에서 매치된 키포인트들의 위치들을 나타내지만, 키포인트 선택 스테이지에서 식별된 45 개의 키포인트는 원들로 나타나 있다.

도 7c에는 도 7a에 도시된 키포인트 매치들에 해당하는 식(27)에 따라 (45 x 45) 행렬(

)의, 그레이 스케일로 나타나게 되는 값들이 도시되어 있다. 위에서 언급한 방법에 의해 행렬(

) 상에서 결정되는 인라이어들의 개수는 9이다.

도 7d에는 실선으로 LDR 히스토그램(

)이 도시되어 있으며 점선으로 이산화된 아웃라이어 밀도 함수(

)가 도시되어 있고 일점쇄선으로 아웃라이어 법선 함수(

)가 도시되어 있다. 상기 아웃라이어 법선 함수(

)는 대략 1.4의 LDR 값에 해당하는 피크(peak)를 지닌다. 이러한 피크는 정확한 인라이어들이 놓여 있는 영역에 해당한다. 여기서 주목해야 할 점은 이러한 피크가 상기 LDR 히스토그램의 주(main) 피크에 해당하지 않고 상기 LDR 히스토그램의 부(secondary) 피크에 해당한다는 점이다.

도 7e에는 위에서 언급한 방법에 따라 결정되는, 도 7c의 행렬(

)의 우위 고유벡터가 도시되어 있다.

도 7f에는 내림차순으로 배열된 동일한 벡터의 요소들이 도시되어 있다. 상기 방법의 이전 스테이지들에서 결정되는 바와 같은 인라이어들의 개수, 다시 말하면 9를 앎으로써, 인라이어들에 해당하는 우위 고유벡터의 요소들의 동일한 개수, 다시 말하면 (절대값을 취한 경우) 우위 고유벡터의 9 개의 최대 요소를 식별하는 것이 가능하다.

도 7b에는 위에서 언급한 방법에 의해 식별된 도 7a의 2 개의 이미지 간의 정확한 키포인트 매치들(인라이어들)이 도시되어 있다.

섹션 5 - 상기 방법의 몇몇 전형적인 애플리케이션들

도 8에는 위에서 언급한 방법이 본 발명의 실시예들에 따른 시각 검색 서비스를 구현하기 위해 이용될 수 있는 예상가능한 시나리오가 개략적으로 예시되어 있다. 참조번호 800으로 나타나 있는 도 8의 시나리오는 클라이언트-서버 배치에 따라 구성되어 있는데, 이 경우에 시각 검색 서버(810)는 MAN, WAN, VPN, 인터넷 또는 전화 통신 네트워크와 같은 외부 통신 네트워크(830)를 통해 데이터를 교환하기 위해 복수 개의 단말기들(820)과 상호작용하도록 구성되어 있다. 각각의 단말기(820)는 개인용 컴퓨터, 노트북, 랩톱, 개인 휴대 정보 단말기, 스마트폰일 수도 있고, 디지털 이미지를 관리할 수 있는 전자 장치이면 어느 것이든 취할 수도 있다.

도 9a에 예시된 본 발명의 한 실시예에 의하면, 상기 시각 검색 서비스의 모든 주요 동작들이 상기 시각 검색 서버(810)에 의해 수행된다.

한 화상에 나타나게 되는 대상에 관련된 정보를 요구하는 단말기(820)의 사용자는 (쿼리 이미지가 되는) 상기 화상을 상기 네트워크(830)를 통해 상기 시각 검색 서버(810)에 전송한다.

상기 시각 검색 서버(810)는 상기 단말기(820)로부터/상기 단말기(820)로 데이터를 수신/전송하기 위해 상기 네트워크(830)와 상호작용하도록 구성된 서버 인터페이스(902)를 포함한다. 상기 서버 인터페이스(902)를 통해, 상기 시각 검색 서버(810)는 분석하게 될 쿼리 이미지를 수신한다.

상기 쿼리 이미지는 상기 이미지에 포함된 키포인트들을 식별하도록 구성된 키포인트 검출 유닛(904)에 제공된다.

일단 상기 키포인트들이 생성되면, 상기 키포인트들의 로컬 애스펙트(local aspect)가 특징 연산 유닛(906)에 의해 기술된다. 이러한 동작은 SIFT(Scale-Invariant Feature Transform) 및 SURF(Speeded Up Robust Feature)와 같은 공지된 로컬 기술자(local descriptor)들을 사용하여 상기 특징 연산 유닛(906)에 의해 수행된다.

상기 시각 검색 서버(810)는 이미지 인식을 위해 이용되는 참조 이미지들을 저장하는 참조 데이터베이스(910)와 결합된 특징 매칭 유닛(908)을 부가적으로 포함한다. 상기 쿼리 이미지로부터 추출된 로컬 기술자들 및 상기 참조 데이터베이스에 저장된 참조 이미지들의 로컬 이미지들 간의 비교는 예를 들면 기술자들 중 유클리디언 거리(Euclidean distance)들에 기반하여 이루어지는 공지된 이미지 특징 비교 기법들을 사용하여 상기 특징 매칭 유닛(908)에 의해 수행된다. 상기 특징 매칭 유닛(908)은 상기 참조 데이터베이스의 각각의 참조 이미지에 대하여, 해당하는 세트의 키포인트 매치들을 포함하는 해당하는 리스트를 출력한다. 이러한 리스트는 상기 쿼리 이미지들에 나타나게 되는 대상들이 임의의 참조 이미지에 나타나게 되는 임의의 대상에 해당하지 않는 경우에 비어있을 수 있다.

상기 특징 매칭 유닛(908)에 의해 생성된 리스트에 기반하여, 선택 유닛(912)은 상기 쿼리 이미지와 최고 개수의 키포인트 매치들을 공유하는 제1의

개의 참조 이미지들을 선택한다. 이러한 참조 이미지들은 상기 쿼리 이미지에 나타나게 되는 대상을 포함시키기 위한 최선의 후보자들인 것으로 되어 있다.

본 발명의 한 실시예에 의하면, 상기 시각 검색 서버(810)는 위에서 언급한 방법을 구현하도록 구성된 최적화 유닛(914)을 부가적으로 포함한다. 상기 최적화 유닛(914)은 상기 선택 유닛(912)에 의해 선택되는

개의 참조 이미지들의 세트에 해당하는 키포인트 매치들에 상기 방법을 적용하는데, 상기 쿼리 이미지 및 상기 세트의 참조 이미지로 이루어지는 각각의 쌍에 대하여, 상기 최적화 유닛(914)이 정확한 키포인트 매치들(인라이어들)의 개수를 연산한다. 이러한 연산은 본 발명의 방법에 따라 수행된다. 상기 쿼리 이미지들의 해당하는 키포인트들과 정확하게 매칭되는 충분한 키포인트들의 개수를 포함하게 하는 상기 세트의 참조 이미지들은 적어도 상기 쿼리 이미지에 나타나게 되는 동일한 대상(의 일부)을 포함하는 것으로 간주한다. 이러한 후자의 참조 이미지들은 그 후에 아마도 계수된 인라이어들의 개수에 기반하여 순서화되는 시각 검색 요구의 결과로서 상기 네트워크(830)를 통해 상기 단말기(820)에 다시 전송된다.

도 9b에 예시된 본 발명의 부가적인 실시예에 의하면, 상기 키포인트 검출 유닛(904) 및 상기 특징 연산 유닛(906)은 상기 시각 검색 서버(810)에 포함되는 대신에 상기 단말기들(820)에 포함된다. 이러한 경우에, 상기 쿼리 이미지를 상기 시각 검색 서버(810)에 전송하는 대신에, 각각의 단말기(820)는 상기 쿼리 이미지로부터 국소적으로 생성된 로컬 기술자들을 직접 전송할 수 있다.

앞서 언급한 실시예와 비교해 보면, 이러한 해결방안은 보다 적은 양의 데이터(전체 쿼리 이미지 대신에 로컬 기술자)의 전송을 필요로 한다. 더욱이, 이러한 실시예에 의하면, 상기 시각 검색 서버(810)에 의해 관리하게 될 연산 부하(computational load)가 낮아지게 됨으로써, 후자가 더 많은 이미지 검색 요구들을 동시에 관리하는 것을 허용하게 된다.

도 9c에 예시된 본 발명의 또 다른 실시예에 의하면, 상기 시각 검색 서비스의 거의 모든 주요 동작들이 단지 상기 키포인트들 및 상기 참조 이미지들의 로컬 기술자들을 저장하고 이들의 선택된 서브세트들을 단말기들의 사용자들에 의해 요구되는 특정한 시각 검색에 기반하여 상기 단말기들에 전송하는 시각 검색 서버(810)를 사용하여, 상기 단말기들(820)에 의해 수행된다. 예를 들면, 상기 단말기(820)가 GPS 시스템이 장착된 스마트폰이고 상기 쿼리 이미지가 상기 스마트폰 자체의 카메라로 촬영된 화상인 경우에, 상기 시각 검색 서버(810)에 의해 전송되는 키포인트들 및 로컬 기술자들의 선택은 상기 단말기(820)의 실제의 위치에 기반하여 이루어질 수 있는데, 이러한 해결방안은 모뉴먼트 인식 서비스(monument recognition service)들과 같은 몇몇 시각 검색 서비스들에 대해 유리하게 이용될 수 있다.

이미지 비교 동작들을 관리할 수 있게 하기 위해, 상기 단말기(820)에는 로컬 참조 데이터베이스(916) 및 업데이터 유닛(920)이 구비되어 있으며, 후자는 상기 시각 검색 서버(810)에 의해 전송된 키포인트들 및 로컬 기술자들을 수신하고 결과적으로는 전자를 업데이트하도록 구성되어 있다. 여기서 이해해야 할 점은 내부에 이미 저장된 키포인트들 및 로컬 기술자들을 이용하기만 하면 충분하기 때문에 이미지 비교가 수행되어야 할 때마다 상기 로컬 참조 데이터베이스(916)를 매번 업데이트하는 것이 절대로 필요하지는 않다는 점이다. 예를 들면, 상기 로컬 참조 데이터베이스(916)는 하루에 한번만 상기 시각 검색 서버(810)에 의해 업데이트될 수 있다.

위에서 언급한 실시예들과 비교해 보면, 이러한 해결방안은 신속한데, 그 이유는 전송하게 될 데이터량이 매우 감소하게 되기 때문이다. 그러므로, 이러한 해결방안은 증강 현실 애플리케이션들에 특히 적합하다.

제안된 방법의 예상가능한 부가적인 애플리케이션은 입체 카메라(stereoscopic camera) 시스템에 속하는 비디오 카메라들의 자동 교정이다. 상기 교정의 목적은 소위 기초 행렬(fundamental matrix), 다시 말하면 포착 시스템의 내부 및 외부 파라미터들을 기술하는 행렬의 생성이다. 상기 내부 파라미터들은 카메라 설정들(예컨대, 초점거리)을 기술하고, 상기 외부 파라미터들은 공간 내에서의 상기 카메라의 위치를 기술한다.

도 10의 개략적인 흐름도에 예시되어 있는 바와 같이, 제1 카메라(1002)는 제1 이미지를 포착하고(블록 1004), 상기 제1 이미지는 해당하는 제1 키포인트들을 식별(블록 1006)하도록 처리된다. 일단 상기 제1 키포인트들이 식별되면, 상기 제1 키포인트들의 로컬 애스펙트는 해당하는 제1 로컬 기술자를 통해 기술된다(블록 1008). 마찬가지로, 제2 카메라(1010)는 제2 이미지를 포착하고(블록 1012), 상기 제2 이미지는 해당하는 제2 키포인트들을 발견(블록 1014)하도록 처리된다. 이때, 상기 키포인트들의 로컬 애스펙트는 해당하는 제2 로컬 기술자들을 통해 기술된다(블록 1016).

상기 제1 로컬 기술자들을 상기 제2 로컬 기술자들과 비교함으로써, 상기 제1 및 제2 이미지들 간의 키포인트 매치들이 생성된다(블록 1018). 그리고나서, 본 발명의 방법을 적용함으로써, 인라이어들인 키포인트 매치들이 식별된다(블록 1020).

일단 상기 인라이어들이 식별되면, 상기 기초 행렬을 추정(블록 1022)하여 새로운 키포인트 매치들을 발견(블록 1024)하도록 반복 절차가 수행된다. 이러한 동작들은「"In defense of the Eight-Point Algorithm" by R.Hartley, IEEE Transactions on pattern analysis and machine intelligence, Vol 19, No. 6, June 1997」에 기재된 절차에 따라 수행될 수 있다. 그리고나서, 상기 새로운 키포인트 매치들은 상기 인라이어들을 식별(블록 1026)하도록 본 발명의 방법으로 다시 처리된다. 이러한 절차(즉, 블록들(1022, 1024 및 1026)에 해당하는 절차)는 인라이어들의 개수가 안정적일 때 다시 반복된다.

앞서 언급한 내용은 본 발명의 여러 실시예를 구체적으로 제시 및 논의한 것이지만, 그럼에도 위에서 설명한 실시예들에 대한 여러 변경과 아울러, 다른 본 발명의 실시예들이 첨부된 청구항들에 의해 정의된 범위로부터 벗어나지 않고 구현가능하다.

예를 들면, 비록 본 발명의 내용에서 로그 거리 비율(LDR)에 대한 참조가 이루어졌지만, 로그를 취하지 않고 평면 거리 비율과 같은 차분(difference) 거리 비율로 히스토그램들이 구성되는 경우에 유사한 고려들이 적용되며, 상기 로그 거리 비율의 배수들 및/또는 멱승(power)들로 히스토그램들이 구성되는 경우에 유사한 고려들이 적용된다.

더욱이, 비록 상기 히스토그램들의 빈들의 폭들이 서로 다르다 하더라도 본 발명들의 개념들이 적용될 수 있다.

Claims

제1 이미지를 제2 이미지와 비교하는 방법으로서,
- 상기 제1 이미지의 제1 키포인트들 및 상기 제2 이미지의 제2 키포인트들을 식별하는 단계;
- 각각의 제1 키포인트를 해당하는 제2 키포인트와 연관시킴으로써 제1 및 제2 키포인트들 간의 매치들을 형성하는 단계;
- 각각의 제1 거리 비율은 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율에 기반하여 이루어지는 복수 개의 제1 거리 비율을 연산하는 단계;
- 상기 제1 거리 비율들의 값들의 개별 간격에 각각 해당하는 복수 개의 순서화된 빈(ordered bin)들을 지니는 히스토그램에서 상기 연산된 복수 개의 제1 거리 비율들의 값들의 분포를 배열하는 단계로서, 상기 히스토그램은 각각의 빈에 대하여 상기 개별 간격 내에 포함된 값들을 지니는 분포의 해당하는 개수의 제1 거리 비율들을 열거(enumeration)하는, 단계;
- 상기 제1 및 제2 이미지들에서의 키포인트 쌍들의 임의 선택에 해당하는 복수 개의 제2 거리 비율들의 통계적 분포를 나타내는 아웃라이어 밀도 함수를 생성하는 단계로서, 상기 복수 개의 제2 거리 비율들은 상기 제1 이미지의 제1 키포인트들의 쌍들 간의 거리 및 상기 제2 이미지의 해당하는 임의 선택된 제2 키포인트들의 쌍들 간의 거리의 비율에 기반하여 이루어지는, 단계; 및
상기 빈 각각에 대하여 해당하는 아웃라이어 확률 밀도 값을 생성함으로써 상기 아웃라이어 밀도 함수를 이산화(discretizing)하는 단계;
를 포함하는, 제1 이미지를 제2 이미지와 비교하는 방법에 있어서,
상기 방법은,
- 각각의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트들에 의해 형성되는 정확한 키포인트 매치들의 개수를 결정하는 단계를 포함하며, 상기 정확한 키포인트 매치들의 개수를 결정하는 단계는,
- 행렬을 결정하는 단계로서, 상기 행렬의 각각의 요소는 개별적인 키포인트 매치들의 쌍에 해당하며 상기 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 아웃라이어 확률 밀도 값 간의 차에 해당하는 값을 지니고, 상기 아웃라이어 확률 밀도 값은 모수(β)에 의해 가중되는, 단계;
- 상기 키포인트 매치들의 쌍이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니며 상기 키포인트 매치들의 쌍이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(r)와 상기 행렬의 우위 고유벡터(dominant eigenvector)가 동일하도록 상기 모수(β)의 값을 결정하는 단계; 및
- 정확한 키포인트 매치들의 개수를 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 결정하는 단계;
를 포함하며,
상기 제1 이미지를 상기 제2 이미지와 비교하기 위해 결정된 개수의 정확한 키포인트 매치들이 이용되는 것을 특징으로 하는, 제1 이미지를 제2 이미지와 비교하는 방법.
제1항에 있어서, 상기 정확한 키포인트 매치들의 개수를 우위 고유값의 표현으로서 결정하는 단계는,
- 정확한 키포인트 매치들의 개수를, 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 아웃라이어 확률 밀도 값 간의 차의 최대값 및 상기 우위 고유값 간의 비율의 표현으로서 결정하는 단계로서, 상기 아웃라이어 확률 밀도 값은 상기 결정된 모수(β)에 의해 가중되는, 단계;
를 포함하는, 제1 이미지를 제2 이미지와 비교하는 방법.
제2항에 있어서, 상기 정확한 키포인트 매치들의 개수를 상기 우위 고유값의 표현으로서 결정하는 단계는, 정확한 키포인트 매치들의 개수를 상기 최대값 및 상기 우위 고유값 간의 상기 비율에 1을 더한 값으로서 결정하는 단계;
를 포함하는, 제1 이미지를 제2 이미지와 비교하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 방법은, 최고 절대값들을 지니는 상기 우위 고유벡터의 요소들의, 상기 정확한 키포인트 매치들의 개수와 동일한, 개수를 식별함으로써 어느 키포인트 매치들이 정확한 키포인트 매치들일 확률이 가장 높은지를 식별하는 단계;를 부가적으로 포함하는, 제1 이미지를 제2 이미지와 비교하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 복수 개의 제1 거리 비율들은 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율의 로그값에 해당하는, 제1 이미지를 제2 이미지와 비교하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 모수(β)는 상기 이산화된 아웃라이어 밀도 함수 상에의 상기 히스토그램의 형상화의 결과인, 제1 이미지를 제2 이미지와 비교하는 방법.
제1 이미지를 제2 이미지와 비교하는 장치로서,
상기 장치는,
- 상기 제1 이미지의 제1 키포인트들 및 상기 제2 이미지의 제2 키포인트들을 식별하도록 구성된 제1 식별 유닛;
- 각각의 제1 키포인트를 해당하는 제2 키포인트와 연관시킴으로써 제1 및 제2 키포인트들 간의 매치들을 형성하도록 구성된 연관 유닛;
- 각각의 제1 거리 비율이 한 쌍의 상기 제1 키포인트들 간의 거리 및 상기 한 쌍의 제1 키포인트들과 매칭하는 해당하는 한 쌍의 상기 제2 키포인트들 간의 거리의 비율에 기반하여 이루어지는, 복수 개의 제1 거리 비율들을 연산하도록 구성된 연산 유닛;
- 상기 제1 거리 비율들의 값들의 개별 간격에 각각 해당하는 복수 개의 순서화된 빈들을 지니는 히스토그램에서 상기 연산된 복수 개의 제1 거리 비율들의 값들의 분포를 배열하도록 구성된 배열 유닛으로서, 상기 히스토그램은 각각의 빈에 대하여 상기 개별 간격 내에 포함된 값들을 지니는 분포의 해당하는 개수의 제1 거리 비율들을 열거(enumeration)하는, 배열 유닛;
- 상기 제1 및 제2 이미지들에서의 키포인트 쌍들의 임의 선택에 해당하는 복수 개의 제2 거리 비율들의 통계적 분포를 나타내는 아웃라이어 밀도 함수를 생성하도록 구성된 생성 유닛으로서, 상기 복수 개의 제2 거리 비율들은 상기 제1 이미지의 제1 키포인트들의 쌍들 간의 거리 및 상기 제2 이미지의 해당하는 임의 선택된 제2 키포인트들의 쌍들 간의 거리의 비율에 기반하여 이루어지는, 생성 유닛; 및
- 각각의 빈에 대하여 해당하는 아웃라이어 확률 밀도 값을 생성함으로써 상기 아웃라이어 밀도 함수를 이산화(discretizing)하도록 구성된 이산화 유닛;
을 포함하는, 제1 이미지를 제2 이미지와 비교하는 장치에 있어서,
상기 장치는,
- 각각의 정확한 키포인트 매치가 상기 제1 및 제2 이미지들에 나타나게 되는 동일한 대상의 동일한 포인트에 해당하는 제1 및 제2 키포인트들에 의해 형성되는 정확한 키포인트 매치들의 개수를 결정하도록 구성된 결정 유닛;
을 포함하며, 상기 결정 유닛은,
행렬을 결정하도록 구성된 제1 결정 서브-유닛으로서, 상기 행렬의 각각의 요소는 개별적인 키포인트 매치들의 쌍에 해당하며 상기 개별적인 키포인트 매치들의 쌍의 거리 비율을 포함하는 상기 빈에서의 상기 히스토그램의 값 및 상기 빈에 해당하는 상기 아웃라이어 확률 밀도 값 간의 차에 해당하는 값을 지니고, 상기 아웃라이어 확률 밀도 값은 모수(β)에 의해 가중되는, 제1 결정 서브-유닛;
상기 키포인트 매치들의 쌍이 정확한 키포인트 매치인 경우에 제1 값의 요소를 지니며 상기 키포인트 매치들의 쌍이 부정확한 키포인트 매치인 경우에 제2 값의 요소를 지니는 벡터(r)와 상기 행렬의 우위 고유벡터(dominant eigenvector)가 동일하도록 상기 모수(β)의 값을 결정하도록 구성된 제2 결정 서브-유닛; 및
정확한 키포인트 매치들의 개수를 상기 우위 고유벡터에 연관된 우위 고유값의 표현으로서 결정하도록 구성된 제3 결정 서브-유닛;
을 포함하고,
상기 장치는 상기 결정된 개수의 정확한 키포인트 매치들을 이용하여 상기 제1 이미지를 상기 제2 이미지와 비교하도록 구성된 비교 유닛을 부가적으로 포함하는 것을 특징으로 하는, 제1 이미지를 제2 이미지와 비교하는 장치.
제7항에 있어서, 상기 장치는,
- 최고 절대값들을 지니는 상기 우위 고유벡터의 요소들의, 상기 정확한 키포인트 매치들의 개수와 동일한, 개수를 식별함으로써 어느 키포인트 매치들이 정확한 키포인트 매치들일 확률이 가장 높은지를 식별하도록 구성된 식별 유닛;
을 부가적으로 포함하는, 제1 이미지를 제2 이미지와 비교하는 장치.
시스템에 있어서,
- 쿼리 이미지를 수신하고 상기 이미지에서 해당하는 제1 키포인트들을 식별하도록 구성된 키포인트 검출 유닛;
- 해당하는 제1 로컬 기술자(local descriptor)들을 통해 상기 제1 키포인트들의 로컬 애스펙트(local aspect)를 기술하도록 구성된 특징 연산 유닛;
- 복수 개의 참조 이미지들을 저장하는 참조 데이터베이스로서, 각각의 참조 이미지에 대해, 참조 데이터베이스는 해당하는 제2 키포인트들 및 상기 제2 키포인트들의 해당하는 제2 로컬 기술자들을 부가적으로 저장하는, 참조 데이터베이스;
- 적어도 한 그룹의 참조 이미지들의 각각의 참조 이미지에 대하여, 상기 제1 로컬 기술자들을 상기 참조 이미지의 제2 로컬 기술자들과 비교하고 결과적으로는 상기 제1 키포인트들을 상기 참조 이미지의 제2 키포인트들과 연관시켜 해당하는 한 세트의 키포인트 매치들을 생성하도록 구성된 특징 매칭 유닛;
- 상기 특징 매칭 유닛에 의해 수행된 비교들에 기반하여 참조 형상(reference figure)들의 서브세트를 선택하도록 구성된 선택 유닛; 및
- 상기 쿼리 이미지 및 상기 서브세트의 참조 이미지를 포함하는 각각의 쌍에 대하여, 정확한 키포인트 매치들의 개수를 연산하도록 구성된 최적화 유닛으로서, 최적화 유닛이 청구항 제7항 또는 제8항 중 어느 한 항에 따른 장치를 포함하는, 최적화 유닛;
을 포함하는, 시스템.
제9항에 있어서, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버에 쿼리 이미지들을 제공하도록 구성된 복수 개의 단말기들을 부가적으로 포함하며,
- 상기 시각 검색 서버는 상기 키포인트 검출 유닛, 상기 특징 연산 유닛, 상기 참조 데이터베이스, 상기 특징 매칭 유닛, 상기 선택 유닛 및 상기 최적화 유닛을 포함하는, 시스템.
제9항에 있어서, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버에 쿼리 이미지들을 제공하도록 구성된 복수 개의 단말기들을 부가적으로 포함하며,
- 상기 시각 검색 서버는 상기 참조 데이터베이스, 상기 특징 매칭 유닛, 상기 선택 유닛 및 상기 최적화 유닛을 포함하고,
- 각각의 단말기는 개별 키포인트 검출 유닛 및 개별 특징 연산 유닛을 포함하는, 시스템.
제9항에 있어서, 상기 시스템은 시각 검색 서버 및 네트워크를 통해 상기 시각 검색 서버와 데이터를 교환하도록 구성된 복수 개의 단말기들을 부가적으로 포함하며,
- 상기 시각 검색 서버는 상기 참조 데이터베이스를 포함하고,
- 각각의 단말기는 개별 키포인트 검출 유닛, 개별 특징 연산 유닛, 개별 특징 매칭 유닛, 개별 선택 유닛, 개별 최적화 유닛 및 개별 로컬 데이터베이스를 포함하며,
- 각각의 단말기는 상기 시각 검색 서버로부터 상기 참조 데이터베이스 내에 저장된 제2 키포인트들 및 상기 제2 키포인트들의 해당하는 제2 로컬 기술자들의 개별 세트를 수신하도록 구성되고,
- 상기 단말기의 로컬 데이터베이스는 상기 수신된 세트의 제2 키포인트들 및 제2 로컬 기술자들을 저장하도록 구성되며, 상기 저장된 세트의 제2 키포인트들 및 제2 로컬 기술자들은 적어도 한 그룹의 참조 이미지들을 구성하는 참조 이미지들에 해당하는, 시스템.
이미지 검색 방법에 있어서,
- 쿼리 이미지를 수신하고 상기 이미지에서 해당하는 제1 키포인트들을 식별하는 단계;
- 상기 쿼리 이미지를 복수 개의 참조 이미지들과 비교하는 단계로서, 제2 키포인트들은 각각의 참조 이미지와 연관되고, 결과적으로는 상기 제1 키포인트들을 상기 참조 이미지의 제2 키포인트들과 연관시켜 해당하는 세트의 키포인트 매치들을 생성하는, 단계;
- 청구항 제1항 내지 제6항 중 어느 한 항의 방법에 기반하여 상기 쿼리 이미지 및 상기 복수 개의 참조 이미지들 각각 간의 정확한 키포인트 매치들의 개수를 결정하는 단계;
- 상기 정확한 키포인트 매치들의 개수가 미리 결정된 문턱값을 초과하는 참조 이미지들로서 참조 이미지들의 서브세트를 선택하는 단계;
를 포함하는, 이미지 검색 방법.