KR101742115B1

KR101742115B1 - 건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법

Info

Publication number: KR101742115B1
Application number: KR1020160111049A
Authority: KR
Inventors: 안하은; 유지상
Original assignee: 광운대학교 산학협력단
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-05-31

Abstract

멀티뷰(multi-view) 영상에서 건물의 호모그래피(homography를) 기반으로 정확히 정합된 특징점인 인라이어(inlier)만을 선택하되, 조명 변화에 민감한 영역에서 임의로 추출된 특징점들은 영역 기반 특징을 추출하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 관한 것으로서, (a) 멀티뷰 영상의 각 영상에서 특징점을 추출하는 단계; (b) 추출된 특징점들을 대상으로, 각 영상 간에 정합을 수행하여, 정합된 특징점 쌍을 획득하는 단계; (c) 다수의 특징점 쌍들로부터 호모그래피 행렬을 획득하는 단계; (d) 상기 호모그래피 행렬을 이용하여 특징점 중에서 인라이어를 선택하는 단계; (e) 상기 멀티뷰 영상에서 특징영역을 추출하는 단계; (f) 상기 특징영역에서 덴스 특징점(dense feature)들을 추출하는 단계; 및, (g) 상기 덴스 특징점들을 인라이어로 추가 선택하는 단계를 포함하는 구성을 마련한다.
상기와 같은 방법에 의하여, 조명 변화에 민감한 영역에 대해서는 특징영역을 추출하여 인라이어를 선택함으로써, 가려짐 영역과 배경에서 너무 많은 특징점이 추출되어 다수의 아웃라이어를 인라이어로 오정합하는 문제점을 해결하고, 이를 통해, 도시 환경에서의 건물 인식률을 향상시킬 수 있다.

Description

건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법 { An inlier selection and redundant removal method for building recognition of multi-view images }

본 발명은 멀티뷰(multi-view) 영상에서 건물의 호모그래피(homography를) 기반으로 정확히 정합된 특징점인 인라이어(inlier)만을 선택하되, 조명 변화에 민감한 영역에서 임의로 추출된 특징점들은 영역 기반 특징을 추출하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 관한 것이다.

또한, 본 발명은 인식하고자 하는 건물과의 상관관계가 적은 잉여 영상들을 DB에서 제거하여 건물을 인식하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 관한 것이다.

도시 환경에서 여러 가지 사물을 인식하는 기술은 다양한 컴퓨터 비전 응용에 적용될 수 있는 핵심 기술이다. 최근에는 사물 인식 기반 증강현실(augmented reality)의 형태로 사물의 정보를 사용자에게 제공하는 서비스가 크게 주목받고 있다. 건물은 도시 환경에서 가장 많이 존재하는 객체 중 하나이며 따라서 건물 인식과 관련된 연구가 많이 진행되었으며 지금도 인식률을 높이기 위한 연구가 활발하게 진행되고 있다.

건물 인식은 주로 여러 가지 종류의 특징(feature)을 이용하는 특징 기반(feature-based)으로 연구되어 왔다[비특허문헌 1]. 영상에서 직선 성분(line feature)을 찾아서 건물을 인식하는 방법은 일반적으로 건물들이 사각형의 형태로 이루어져 있다고 가정한다[비특허문헌 2]. 이러한 방법은 시스템 구현이 용이하다는 장점이 있지만 다른 기법들에 비하여 인식률이 저조한 문제점이 있다. [비특허문헌 3]은 건물의 면(facet)을 이용하여 인식하는 방법을 제안하였다. 건물마다 고유한 면(facet)을 정의하여 인식하는데 이용함으로써 다중 건물(multiple building) 영상에 대하여 높은 인식률을 보여준다. 하지만 반복 패턴을 가지고 있는 건물 영상에 대해서는 여전히 저조한 인식률을 보인다. [비특허문헌 4,5]에서는 영상의 색상정보와 특징점 매칭 방법을 이용하였다. 영상을 영역별로 나누어 히스토그램을 생성하고, 각 영역(local region)에 대해 특징점을 매칭하여 건물을 인식하는 방법이다. 이 방법은 조명 변화나 가려짐 영역이 있을 경우 성능이 급격히 떨어지는 문제가 있다. 이러한 문제를 해결하고자 Gist 특징(feature)을 이용하는 방법도 연구되었다[비특허문헌 6].

최근에는 SIFT[비특허문헌 8]와 같은 특징점 추출 방법과 어휘 트리(vocabulary tree)를 이용하여 건물을 인식하고 공간 일치성(spatial consistency)을 측정하여 인식률을 향상시키는 방법[비특허문헌 7], 추출된 특징(feature)을 바탕으로 기계학습을 이용하는 방법[비특허문헌 9] 등이 제안되었다. 이러한 방법은 대규모 데이터베이스(large-scale database)에 적용될 경우 기존 기법들보다 우수한 인식률을 보인다. 하지만 가려짐 영역이 발생하거나 건물 이외의 객체가 다수 포함된 경우 특징점이 오정합된 아웃라이어(outlier)가 많이 발생하여 인식률이 낮아지는 문제가 있다.

특징점 기반의 건물인식 방법에서는 강건한 특징점을 추출하는 것이 인식률 향상에 가장 중요한 요소이다. 특징점이 너무 많이 추출되는 경우, 인식이나 학습단계에서의 프로세싱 시간이 증가되는 원인이 된다. 또한 중요하지 않은 특징점(배경이나 가려짐 영역에서 추출된 특징점)이나 임의로(arbitrarily) 추출된 특징점(텍스트 영역 등에서 추출된 특징점)은 인식률 저하에 영향을 미친다. 특히나 상업단지나 도시 환경에서 촬영된 건물 영상은 가려짐 영역이나 배경에서 많은 특징점이 추출된다. 특정 상표나 간판에 존재하는 텍스트 영역이 많아 제멋대로 임의로 특징점도 많다. 이렇게 추출된 특징점들은 인식률을 저하시키는 중요한 원인이 된다.

이러한 문제들을 해결하기 위하여 [비특허문헌 10]에서는 노이즈에 강건한 특징을 추출하는 것을 제안하였고 [비특허문헌 11,12]에서는 바이너리 패턴에 대하여 디스크립터(descriptor)를 찾는 방법을, [비특허문헌 13]에서는 기계학습을 위한 코너점을 찾는 방법을 제안하였다. 하지만 여전히 가려짐 영역이나 건물 이외의 객체가 다수 포함된 경우에 대하여 특징점의 오정합이 많이 발생하는 문제를 해결하지 못하였다. [비특허문헌 14]에서는 특징영역을 추출하여 건물을 인식하는 방법을 제안하였다. 특징점보다 강건한 특징영역을 추출함으로써 인식률을 크게 증가시켰고 영역특징을 트래킹 하는 방법들도 제안되었다[비특허문헌 15].

요약하면, 특징점 기반 건물인식 시스템에서는 강건한 특징점을 추출하는 것이 인식률 향상에 바로 직결되는 중요한 요소이다. 영상에서 특징점들이 너무 많이 추출되는 경우 인식이나 학습단계에서의 알고리즘 수행 시간을 증가시키는 원인이 된다. 또한, 중요하지 않은 특징점(배경이나 가려짐 영역, 기타 객체에서 추출된 특징점)이나 조명 변화에 민감한 영역에서 임의로(arbitrarily) 추출된 특징점은 인식률을 저하시키는 문제를 발생시킨다. 특히 도시환경에서 촬영된 영상의 특징점을 추출할 때 이러한 문제 현상들이 빈번하게 발생한다.

1. J. Li, W. Huang, L. Shao and N. Allinson, "Building recognition in urban environments: A survey of state-of-the-art and future challenges", Information Sciences, vol. 277, no. 1, pp. 406-420, Sept. 2014 Y. Li and L. G. Shapiro, "Consistent line clusters for building recognition in CBIR", Pattern Recognition, 2002. Proceedings. 16th International Conference, vol. 3, pp. 952-956, 2002 H. Trinh, D. N. Kim and K. H. Jo, "Facet-based multiple building analysis for robot intelligence", Mathematics and Computation, vol. 205, no. 2, pp. 537-549, November. 2008 J. H. Heo and M. C. Lee, "Building recognition using image segmentation and color features", Journal of Korea Robotics Society, vol. 8, no. 2, pp. 82-91, June. 2013 W. Zahng and J. Kosecka, "Localization based on building recognition", IEEE Computer Society Conference, June. 2005 C. Zhao and C. Liu, "Multi-scale gist feature representation for building recognition", 2010 Chinese Conference on Pattern Recognition, pp. 1-5, Oct. 2010. S. H. Said, I. Boujelbane and T. Zaharia, "Recognition of urban buildings with spatial consistency and a small-sized vocabulary tree", 2014 IEEE Fourth International Conference on Consumer Electronics, Berlin, pp. 350-354, Sept. 2014. D. Lowe, "Distinctive image features from scale-invariant keypoints", International Journal of Computer Vision, vol. 60, no. 2, pp. 91-110, Nov. 2004 J. Li and N. Allinson, "Building recognition using local oriented features", Industrial Informatics, vol. 0, no. 3, pp. 1697-1704, Aug. 2013. H. Bay, A. Ess, T. Tuytelaars and L. V. Gool, "Speeded-up robust feature", Computer Vision and Image Understanding, vol. 10, no. 3, pp. 346-359, June. 2008. Y. Li, J. Tan, J. Zhong and Q. Chen, "Compact descriptor for local feature using dominating centre-symmetric local binary pattern", Computer Vision, vol. 10, no. 1, pp. 36-42, Feb, 2016. A. Desai, D. J. Lee and C. Wilson, "Using affine feature for an efficient binary feature descriptor", Image Analysis and Interpretation, San Diego, pp. 49-52, April. 2014. E. Rosten and T. Drummond, "Machine learning for high-speed corner detection", European Conference on Computer Vision, Graz, Austria, pp. 430-443, May. 2006 Building Recognition Using Sketch-Based Representations and Spectral Graph Matching M. Donoser and H. Bischof, "Efficient maximally stable extremal region (MSER) tracking", Computer Vision and Pattern Recognition, vol. 1, pp.17-22, June. 2006 Anubhav Agarwal, C. V. Jawahar, and P. J. Narayanan, "A Survey of Planar Homography Estimation Techniques," International Institute of Information Technology, Hyderabad. S. W. Seo, S. W. Jeong and S. K. Lee, "Efficient homography estimation method for panorama", Frontiers of Computer Vision, Incheon, pp. 209-212, Jan. 2013. R. Luo and H. Min, "Multi-scale maximally stable extremal regions for object recognition", 20140 IEEE International Conference on Information and Automation, Harbin, pp. 20-23, June. 2010. M. Faraji, J. Shanbehzadeh, K. Nasrollahi and T. B. Moeslund, "Extremal regions detection guided by maxima of gradient magnitude", Image Processing, vol. 24, no. 12, pp. 5401-5415, Dec. 2015. J. Matas, O. Chum, M. Urban, T. Pajdla1, "Robust Wide Baseline Stereo from Maximally Stable Extremal Regions", Proceedings of the British Machine Vision Conference 2002, BMVC 2002, Cardiff, UK, 2-5 September 2002.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 멀티뷰(multi-view) 영상에서 건물의 호모그래피(homography를) 기반으로 정확히 정합된 특징점인 인라이어(inlier)만을 선택하되, 조명 변화에 민감한 영역에 대해서는 특징영역을 추출하여 인라이어(inlier)를 선택하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 제공하는 것이다.

도 1은 도시 환경에서 촬영한 두 장의 영상에서 특징점을 추출한 뒤 특징점 정합(mathcing)을 수행한 결과이다. 도 1(a)는 가려짐 영역과 배경에서 너무 많은 특징점이 추출되었기 때문에 다수의 아웃라이어(outlier)를 인라이어(inlier)로 오정합하고 있다. 본 발명에서는 기존의 건물 인식 기법들의 다양한 문제점들을 해결하고 도시 환경에서의 건물 인식률을 향상시키기 위해 인라이어(inlier)만을 선택하는 방법을 제공한다. 본 발명에 따른 방법에서는 멀티뷰(multi-view) 영상 간에 같은 객체의 호모그래피(homography) 변환을 활용하여 인라이어(inlier)만을 선택하게 된다. 텍스트 영역이나 반복적인 건물의 패턴을 가지는 영역에서는 특징점 추출의 반복성(repeatability)이 떨어지기 때문에 해당 영역에 대해서는 영역 기반 특징점 추출 방법을 이용한다.

또한, 본 발명의 목적은 건물과의 상관관계가 적은 잉여(redundant) 영상들을 DB에서 제거하여 건물을 인식하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 관한 것으로서, (a) 멀티뷰 영상의 각 영상에서 특징점을 추출하는 단계; (b) 추출된 특징점들을 대상으로, 각 영상 간에 정합을 수행하여, 정합된 특징점 쌍을 획득하는 단계; (c) 다수의 특징점 쌍들로부터 호모그래피 행렬을 획득하는 단계; (d) 상기 호모그래피 행렬을 이용하여 특징점 중에서 인라이어를 선택하는 단계; (e) 상기 멀티뷰 영상에서 특징영역을 추출하는 단계; (f) 상기 특징영역에서 덴스 특징점(dense feature)들을 추출하는 단계; 및, (g) 상기 덴스 특징점들을 인라이어로 추가 선택하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 방법은, (h) 상기 선택된 인라이어들로 BoF(bag-of-feature)를 구성하되, 상기 인라이어의 개수에 따라 BoF를 구성하는 단계를 더 포함하는 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 (a)단계에서, SIFT(scale invariant feature transform)의 DOG(difference of gaussian) 방법을 이용하여 특징점을 추출하는 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 (c)단계에서, 상기 특징점 쌍들 각각에 대하여 정합도를 다음 수식 1에 의해 계산하고, 정합도에 따라 상기 특징점 쌍들을 정렬하여, 정합이 가장 잘된 사전에 정해진 개수의 특징점 쌍들을 선택하고, 선택된 특징점 쌍들에 대하여 변환 관계를 만족하는 호모그래피를 획득하는 것을 특징으로 한다.

[수식 1]

단, Distanceⁱ는 i번째 특징점 쌍의 정합도, D는 특징점 디스크립터 벡터(descriptor vector)의 차원, pⁱ _d와 qⁱ _d는 각 멀티뷰 영상에서 추출된 i번째 특징점 디스크립터 벡터의 d번째 요소를 나타냄.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 (d)단계에서, 특징점 쌍을 이루는 2개의 멀티뷰 영상에 대하여, 하나의 멀티뷰 영상(이하 제1 멀티뷰 영상)의 특징점(이하 제1 특징점)을 호모그래피에 의해 변환하여 다른 멀티뷰 영상(이하 제2 멀티뷰 영상)의 투영점을 구하고, 상기 투영점에서 사전에 정해진 범위 내의 영역 내에 위치한 특징점들을 검출하여 후보군으로 설정하고, 상기 후보군의 특징점들 각각과 상기 제1 특징점간의 디스크립터 벡터를 비교하여 가장 유사한 특징점(이하 제2 특징점)을 검출하고, 상기 제1 특징점과 상기 제2 특징점 간의 정합도가 사전에 정해진 기준값 보다 작거나 같으면 인라이어로 판단하는 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 사전에 정해진 기준값은 상기 호모그래피를 구할 때 사용된 특징점 쌍들의 정합도들의 평균값으로 설정되는 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 (e)단계에서, 상기 특징영역은 MSER(maximally stable extremal region) 방법에 의하여 구한 영역인 것을 특징으로 한다.

또, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서, 상기 (f)단계에서, 상기 특징영역에서 타원을 피팅(fitting)시킨 후 이를 감싸는 사각형을 로컬 패치(local patch)로 지정하여 덴스(dense) SIFT를 계산하여, 특징점들을 추출하는 것을 특징으로 한다.

또한, 본 발명은 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

상술한 바와 같이, 본 발명에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 의하면, 조명 변화에 민감한 영역에 대해서는 특징영역을 추출하여 인라이어를 선택함으로써, 가려짐 영역과 배경에서 너무 많은 특징점이 추출되어 다수의 아웃라이어를 인라이어로 오정합하는 문제점을 해결하고, 이를 통해, 도시 환경에서의 건물 인식률을 향상시킬 수 있는 효과가 얻어진다.

또한, 본 발명에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 의하면, 인라이어(inlier)가 적은 잉여(redundant) DB를 제거함으로써, 효율적인 인식 시스템을 구성할 수 있는 효과가 얻어진다.

도 1은 도심 환경 영상에서 수행한 특징점 정합 결과 영상으로서, (a) 기존 방법, (b) 본발명 방법에 따른 영상.
도 2는 본 발명을 실시하기 위한 전체 시스템의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 설명하는 흐름도.
도 4는 본 발명의 일실시예에 따라 정합이 가장 잘된 특징점 쌍을 나타낸 예시 영상.
도 5는 본 발명의 일실시예에 따른 특징점이 임의로 추출되는 영역의 예시 영상.
도 6은 본 발명의 일실시예에 따른 조명변화에 민감한 영역에서 추출된 MSER의 예시 영상.
도 7은 본 발명의 일실시예에 따른 MSER에서 덴스(dense) SIFT를 추출하는 방법을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 건물인식 방법을 설명하는 구성도.
도 9은 본 발명의 실험에 따라 사용한 명동 DB 촬영 지도.
도 10는 본 발명의 실험에 따른 명동 DB 샘플 영상으로서, (a) 참조(reference) 영상들, (b) 질의(query) 영상들.
도 11은 본 발명의 실험에 따른 빌딩별 평균 리콜(Recall)를 나타낸 표.
도 12는 본 발명의 실험에 따른 빌딩 인덱스와 DB 사용률(utilization rate)에 대한 Top-5 에러율(error rate)을 나타낸 표.
도 13은 본 발명의 실험에 따른 빌딩 인덱스와 DB 사용률(utilization rate)에 대한 Top-3 에러율(error rate)을 나타낸 표.
도 14는 본 발명의 실험에 따른 빌딩 인덱스와 DB 사용률(utilization rate)에 대한 Top-1 에러율(error rate)을 나타낸 표.
도 15는 본 발명의 실험에 따른 DB 사용률(utilization rate)에 대한 top-k 에러율(error rate)을 나타낸 그래프로서, 붉은색 점선은 무작위로 선택한 DB에 의한 에러율을 나타내고 검은색 점선은 본 발명에 따라 선택한 DB에 의한 에러율을 나타낸 그래프.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 2를 참조하여 설명한다.

도 2에서 보는 바와 같이, 본 발명에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법은 멀티뷰 영상(또는 이미지)(10)을 입력받아 상기 영상(또는 이미지)에 대하여 특징점을 추출하고 분류하는 컴퓨터 단말(20) 상의 프로그램 시스템으로 실시될 수 있다. 즉, 상기 특징점 분류 방법은 프로그램으로 구성되어 컴퓨터 단말(20)에 설치되어 실행될 수 있다. 컴퓨터 단말(20)에 설치된 프로그램은 하나의 프로그램 시스템(30)과 같이 동작할 수 있다.

한편, 다른 실시예로서, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 영상에서 특징점을 분류하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(20)로 개발될 수도 있다. 이를 특징점 분류 장치(40)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.

한편, 멀티뷰 영상(10)은 건물에 대해 일정한 간격을 두고 획득한 영상을 의미한다. 즉, 일정한 간격으로 획득한 영상이다. 그래서 대상 건물에 대해 다수 또는 N개의 참조 영상이 있다는 의미이다.

또한, 영상(10)은 시간상으로 연속된 프레임(이미지)으로 구성된다. 하나의 프레임은 하나의 이미지를 갖는다. 또한, 영상(10)은 하나의 프레임(또는 이미지)을 가질 수도 있다. 즉, 영상(10)은 하나의 이미지인 경우에도 해당된다.

다음으로, 본 발명의 일실시예에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 설명한다.

도 3에서 보는 바와 같이, 본 발명에 따른 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법은 (a) 멀티뷰 영상에서 특징점을 추출하는 단계(S10), (b) 특징점 쌍을 추출하는 단계(S20), (c) 호모그래피 행렬을 획득하는 단계(S30), (d) 인라이어와 아웃라이어를 분류하는 단계(S40), (e) 멀티뷰 영상에서 특징영역을 추출하는 단계(S50), (f) 특징영역에서 덴스특징점들을 추출하는 단계(S60), 및, 최종 인라이어를 선택하는 단계(S70)로 구성된다. 추가적으로 BoF를 구성하여 건물을 인식하는 단계(S80)를 더 포함하여 구성한다.

대부분의 특징점 기반 건물인식 시스템들은 양질의 특징점을 얼마나 많이 이용하는지에 따라 인식률이 좌우된다. 인식 시스템을 구성할 때 사용되는 BoF(bag-of-feature)에 배경이나 가려짐 영역 그리고 건물 이외의 객체에서 추출된 특징점이 다수 포함될 경우 시스템의 인식률은 낮아지게 된다. 본 발명에서는 이러한 문제를 해결하기 위하여 멀티뷰(multi-view) 영상에서 객체간의 호모그래피(homography) 변환 관계를 이용하여 정합된 특징점이 정확히 정합되었는지 확인한다. 멀티뷰(multi-view) 영상은 동일한 건물을 촬영 각도와 촬영 거리를 달리하여 촬영한 개별적인 영상들을 조합을 의미한다. 호모그래피 추정 방법들은 주어진 소스들과 용도에 맞는 다양한 방법들이 존재한다[비특허문헌 16]. 본 발명에 따른 방법에서는 효율성을 위하여 [비특허문헌 17]의 방법을 이용하여 호모그래피 변환 관계를 추정하였다.

도 3과 같이, 본 발명에서는 인라이어(inlier)들을 선택하기 위하여 특징점 추출과 영역(또는 특징영역) 추출을 동시에 수행한다(S10,S50). 먼저 멀티뷰(multi-view) 영상에 대하여 SIFT(scale invariant feature transform)를 이용하여 특징점을 추출한 후(S10), 기본적인 특징점 정합을 수행한다(S20). 정합 쌍(Matching pair/correspondence)의 정합도를 측정하여 가장 정합도가 높은 정합 쌍을 선별하여 호모그래피(homography) 변환 행렬을 찾게 된다(S30). 호모그래피(homography) 변환 행렬을 이용하여 특징점 정합쌍이 정확하게 정합되었는지 확인하여 인라이어(inlier)와 아웃라이어(outlier)를 구분한다(S40). 여기서 오 정합되었다고 판단되는 아웃라이어(outlier)들은 조명 변화에 따른 밝기 값 변화가 민감한 부분이기 때문에 해당 영역의 MSER(Maximally stable extremal region)[비특허문헌 18]을 추출하여 덴스(dense) SIFT를 추출한다(S60). 본 발명에서는 [비특허문헌 19]의 방법을 이용하여 MSER을 추출하였다. 최종적으로 선택된 인라이어(inlier)와 덴스(dense) SIFT를 이용하여 건물 인식 시스템을 구성하게 된다(S70).

특징점 정합을 하는 경우, 2개의 영상에 대하여 특징점 정합을 수행한다. 멀티뷰 영상에서 참조영상의 개수가 N개(N은 2 이상의 자연수)라고 하면, 모든 2개 영상의 조합에 대하여 모두 정합을 수행한다. 즉, N개의 영상에서 2개의 영상을 정합할 때 가능한 모든 경우에 대하여 수행한다. 예를들어 5개의 참조 영상에서 2개의 영상을 선택하여 특징점 정합을 수행할 경우, 총 10번의 특징점 정합을 수행한다.

[수학식]

5 Combination 2 = (5×4) / (2×1) = 10)

또한, 새로 촬영된 하나의 영상(질의영상)과 구축된 DB에서 매칭을 통해 건물 인식을 수행하게 됩니다. 이때, 구축된 DB는 참조 영상에서 건물의 인라이어(inlier)라고 판단된 특징점들의 집합을 의미한다.

다음으로, 호모그래피 변환 행렬을 찾는 단계(S30)를 보다 구체적으로 설명한다.

도시환경에서 촬영된 건물 영상들은 일반적으로 다른 건물들, 가로수, 각종 표지판 등 복잡한 배경과 오토바이, 자동차, 보행자 등 건물 이외의 객체를 포함하고 있다. 특히 상가건물인 경우 보행자, 오토바이, 표지판, 가로수, 간판 등 원하지 않는 객체가 많이 존재한다, 따라서 이런 경우 추출되는 아웃라이어(outlier)들은 건물의 인식률을 저하시키는 원인이 된다. 본 발명에 따른 방법에서는 멀티뷰(multi-view) 영상에서 추출된 특징점들의 정합 쌍을 찾고 이들을 이용하여 건물의 호모그래피(homography) 변환 행렬을 구한다. 특징점 정합 쌍에는 가려짐 영역이나 배경에서 추출된 아웃라이어(outlier)들에 의해 오정합된 쌍들도 다수 존재하기 때문에 건물의 정확한 호모그래피(homography) 변환 행렬을 구하는 것이 쉽지 않다. 최적의 호모그래피(homography) 변환 행렬을 구하기 위하여 전체 정합쌍 중에서 4개의 쌍을 무작위로 선택하여 호모그래피(homography)를 정의하는 방법은 초기 호모그래피(homography)를 구하는데 너무 많은 시간을 소요하게 된다. 또한 정합 쌍(matching pair)에 대한 호모그래피(homography) 정확도가 높지 않기 때문에 인라이어(inlier)들을 아웃라이어(outlier)로 잘못 판단하는 오류도 발생할 수 있다.

본 발명에 따른 방법에서는 양질의 정합 쌍만을 선별하여 호모그래피(homography)를 정의한 뒤 이를 이용하여 멀티뷰(multi-view) 영상에서 추출된 특징점들의 정합 쌍을 다시 정의하게 된다. 여기서 양질의 정합 쌍은 정합된 특징점 쌍의 두 특징점의 디스크립터 벡터(descriptor vector)가 서로 유사한 경우로서 대체적으로 영상에서 건물 객체 등 중요한 영역에서 추출되는 특징점들이 이에 해당되며 특징점 추출의 반복성(repeatability)이 강한 특징을 가지고 있다. 이러한 특징점들을 이용하여 호모그래피(homography)를 정의할 경우 객체 영역에서의 변환관계를 잘 표현할 수 있고 동시에 배경이나 가려짐 영역 그리고 기타 객체들이 존재하는 영역을 배제(rejection)하여 인라이어(inlier)들이 존재할만한 후보 영역만을 찾을 수 있다.

수학식 1에서 정의된 정합된 특징점 쌍의 정합도(distance)를 계산함으로써 양질의 정합 쌍을 찾을 수 있다.

[수학식 1]

여기서, Distanceⁱ는 i번째 특징점 쌍의 정합도, D는 특징점 디스크립터 벡터(descriptor vector)의 차원, pⁱ _d와 qⁱ _d는 각 멀티뷰(multi-view) 영상에서 추출된 i번째 특징점 디스크립터 벡터(descriptor vector)의 d번째 요소(element)를 나타낸다.

p와 q는 각기 다른 참조 영상에서 추출된 특징점 벡터를 의미한다. p벡터와 q벡터가 수학적으로 유사할 경우 특징점 쌍으로 매칭하게 되고, 유사하지 않을 경우에는 특징점 쌍으로 매칭하지 않는다.

또한, 상기 특징점 디스크립터 벡터는 일반적으로 쓰이는 특징점에 대한 디스크립터 벡터를 사용한다. 여기서, 디스크립터 벡터란 추출된 특징점을 수학적으로 표현해주는 128차원의 벡터를 의미한다. 특징점 주위의 픽셀들의 그래디언트(gradient) 성분들의 히스토그램을 구한 뒤 이를 벡터로 나타낸 것이다[비특허문헌 8].

본 발명에 따른 방법에서는 Distanceⁱ 배열에 대하여 정렬(sorting) 과정을 수행한 후 정합이 가장 잘된 특징점 쌍들을 선택하여 호모그래피(homography)를 찾는다. 실험을 통하여 평균적으로 상위 30개의 정합 쌍을 사용하였을 때 정확도가 높은 호모그래피(homography)를 찾을 수 있다는 것을 확인하였다. 이 이상의 정합 쌍을 사용하면 호모그래피(homography)의 정합도가 포화상태(saturation)가 된다.

도 4의 직선은 정합 과정을 거친 특징점 정합 쌍 중 정합이 가장 잘된 양질의 특징점 쌍들을 보여주고 있다. 이들을 변환 관계를 정의하는 호모그래피(homography) 행렬 H는 수학식 2를 만족한다.

[수학식 2]

여기서, Qⁱ _(x,y)와 Pⁱ _(x,y)는 Distanceⁱ 배열의 값이 가장 적은 상위 i번째 특징점 쌍의 x, y 좌표를 나타낸다. 특징점이 정확하게 정합되었다는 것은 특징점 정합 쌍의 디스크립터 벡터(descriptor vector)가 서로 유사하다는 것을 의미한다. 이는 각 특징점 정합 쌍의 특징점들이 객체의 동일한 위치에서 추출된 경우이다.

다음으로, 호모그래피 행렬을 이용하여 인라이어와 아웃라이어를 분류하는 단계(S40)를 보다 구체적으로 설명한다.

본 발명에서는 앞서 특징에 착안하여 멀티뷰(multi-view) 영상에서 추출된 특징점에 대하여 보다 신뢰도 높은 특징점 정합 쌍을 찾는 방법을 제안한다. 첫 번째 멀티뷰(multi-view) 영상에서 추출된 특징점(P^k _(x,y))을 두 번째 멀티뷰(multi-view) 영상 좌표계로 투영(projection) 한 위치에서 추출되는 특징점은 P^k _(x,y)점과 정합 쌍일 가능성이 높다. 본 발명에 따른 방법에서는 첫 번째 멀티뷰(multi-view) 영상에서 추출된 특징점 P^k _(x,y)점을 두 번째 영상으로 투영(projection)한 뒤 투영 좌표의 주변영역에서 추출되는 특징점들을 정합 쌍 후보군(candidate)으로 설정한다. 특징점 P^k _(x,y)와 후보군들의 디스크립터 벡터(descriptor vector)를 비교하여 유사한 값을 가지는 경우에 대하여 특징점 정합 쌍을 정의한다. 후보군들 중 특징점 P^k _(x,y)와 가장 유사한 디스크립터 벡터(descriptor vector)를 가지는 특징점을 찾아서 해당 특징점이 P^k _(x,y)의 올바른 특징점 정합 쌍인지 확인(verification)하는 작업을 수학식 3을 통해 수행한다.

[수학식 3]

여기서, Distance는 수학식 2의 특징점 정합도를 나타내고 N은 호모그래피(homography)를 찾을 때 사용된 특징점의 개수를 나타낸다. 올바른 정합 쌍으로 판별되는 경우에는 이를 인라이어(inlier)로 정의한다. 아웃라이어(outlier)로 판별된 특징점들이 밀집된 영역에서는 영역 기반 특징점 추출 방법을 적용한다. 아웃라이어(outlier)로 판별되는 특징점들이 밀집된 영역은 난반사가 심한 유리 외벽, 외부 조명이 존재하는 영역이나 텍스트가 존재하는 영역, 조명 변화에 따른 화소 값 변화가 심한 영역 등이며 이러한 영역에서는 특징점이 임의로(arbitrary) 추출되는 문제가 존재한다. 본 발명에 따른 방법에서는 이러한 영역에 대해 덴스(dense) SIFT를 이용하여 특징을 추출하는 방법을 제안한다.

첫번째 멀티뷰 영상에서 두번째 멀티뷰 영상으로 투영한다는 의미는, 정합 쌍인 두 영상 간에 호모그래피 행렬에 의해 변환시킨다는 의미이다. 즉, 첫번째 멀티뷰 영상에서 추출된 특징점 위치(x,y)를 두 영상 간에 호모그래피 행렬에 의하여 두번째 멀티뷰 영상의 위치(x',y')로 변환한다는 의미이다.

다음으로, 조명변화에 민감한 영역에서 인라이어(inlier)를 선택하는 단계들, 즉, 멀티뷰 영상에서 특징영역을 추출하는 단계(S50) 및, 덴스 특징점들을 추출하는 단계(S60)를 도 5 내지 도 7을 참조하여 구체적으로 설명한다.

도 5는 조명변화에 민감한 영역이나 상업 단지의 상표, 표지판 등 텍스트 영역에서 추출된 특징점을 보여준다. 이러한 영역에서는 특징점이 임의로 추출되기 때문에 정합이 제대로 이루어지지 않는다. 특히 건물에서 추출되는 특징점 임에도 불구하고 특징점들의 디스크립터 벡터(descriptor vector)가 서로 상이하기 때문에 아웃라이어(outlier)로 분류된다. 본 발명에 따른 방법에서는 이러한 문제를 해결하기 위하여 특징점이 임의로 추출되는 영역에서는 MSER(maximally stable extremal region)을 기반으로 덴스(dense) SIFT 방법을 이용하여 특징을 추출한다.

먼저, MSER 방법[비특허문헌 15]을 이용하여 특징영역을 추출한다(S50).

도 6은 MSER[비특허문헌 15]을 이용하여 추출된 영역들을 보여준다. 특징점이 임의로 추출되는 영역에서는 특징점들의 디스크립터 벡터(descriptor vector)가 서로 다르기 때문에 특징점 정합이 발생할 수 없다. 따라서 본 발명에 따른 방법에서는 MSER을 추출한 뒤 해당 영역에 타원을 피팅(fitting)하여 덴스(dense) SIFT를 추출하여 인라이어(inlier)들을 선택하게 된다.

즉, 조명 변화에 민감함 영역에 대하여 MSER를 이용하여 특징 영역을 추출한다.　멀티뷰 영상에서 건물의 동일한 위치에서 추출된 특징점들은 비슷한 디스크립터 벡터값을 가져야 하지만 조명변화에 민감한 영역에서는 특징점 추출의 반복성(repeatability)이 떨어진다. 그렇기 때문에 해당영역에서 추출된 특징점들의 디스크립터 벡터값이 서로 상이하다.　이는 해당영역에서 추출된 특징점들이 인라이어(inlier)임에도 불구하고 아웃라이어(outlier)로 판단되는 문제점을 야기한다. 이런 문제를 해결하기 위해서 조명 변화에 민감한 영역에서는 먼저 영역을 추출하고 해당 영역에 대한 덴스(dense) SIFT를 추출한다.　덴스(dense) SIFT를 추출하는 방법에서도 동일한 차원의 디스크립터 벡터를 구할 수 있기 때문에 특징점 정합을 수행할 수 있고 해당 영역에 대한 특징 추출의 반복성을 높일 수 있다는 장점이 있다[비특허문헌 20].　본 발명에서 사용한 MSER 추출 방법은 [비특허문헌 20]을 사용한다.

다음으로, MSER 또는 특징영역에서 인라이어를 선택한다(S60).

도 7은 MSER에서 덴스(dense) SIFT를 추출하기 위하여 로컬 패치(local patch)를 지정하는 방법이다. SIFT에서 특징점의 지배적인 방향(dominant orientation)으로 로컬 패치(local patch)를 지정하는 것과 유사하게 MSER에 타원을 피팅(fitting)시킨 후 이를 감싸는 사각형을 로컬 패치(local patch)로 지정하여 덴스(dense) SIFT를 계산한다. MSER은 특징점보다 저조한 특징 추출 반복성(repeatability)을 가지기 때문에 각 MSER마다 계산된 덴스(dense) SIFT들은 별도의 특징 정합과정 없이 인라이어(inlier)로 선택할 수 있다.

MSER에 의하여 추출되는 영역은 픽셀들의 집합이다. 이 픽셀 집합의 모양을 표현하기 위하여 타원을 피팅(fitting)하게 된다. 픽셀 집합의 모양을 가장 근사하게 표현하는 타원을 피팅(fitting)하고 해당 타원을 기준으로 덴스(dense) SIFT를 추출한다. 덴스(dense) SIFT를 추출하는 과정은 특징점에서 디스크립터 벡터를 구하는 과정과 유사하다. 특징점에서 디스크립터 벡터를 구하는 과정은 다음과 같다. 추출된 특징점을 중심으로 고정크기의 로컬패치(예를 들어, 64×64크기의 로컬패치) 내에서 픽셀들의 그래디언트(gradient)의 히스토그램을 구한 뒤 이를 벡터로 표현한다. 이때 특징점의 지배적인 방향에 따라 로컬패치를 회전시킨다. 특징점의 지배적인 방향은 특징점 픽셀의 그래디언트(gradient)로 결정이 된다. 특징 영역에서 디스크립터 벡터를 구하기 위해서는 사전에 할당한 타원을 감싸는 사각형을 로컬 패치로 지정하여 동일한 작업을 수행한다. 특징 영역을 추출하여 해당 영역을 이루는 픽셀들에 타원을 할당하는 과정은 특징점에서 로컬패치의 지배적인 방향을 구하는 작업과 일맥상통하다. 로컬 패치의 크기가 각 특징 영역마다 달라질 수 있지만 영역들의 픽셀들의 그래디언트(gradient)의 히스토그램을 구하기 때문에 스케일(scale)과 회전(rotation)에 불변(invariant)한 특징을 지닌다.

다음으로, 앞서 호모그래피 행렬을 통해 분류한 인라이어와, 특징영역(또는 MSER)에서 선택한 인라이어들을 건물 인식을 위한 특징점들로 최종 선택한다(S70).

즉, 앞서 호모그래피를 통한 인라이어 선택한 특징점들과, MSER을 통해 선택한 인라이어의 특징점들을 합하여, 최종적인 특징점들(인라이어)로 선택한다.

앞서 도 3을 통하여 아웃라이어라고 판단되는 특징점들이 밀집되어 있는 지역에서는 MSER를 추출하여 덴스(dense) SIFT를 추출한다. 추출된 덴스(dense) SIFT에서 특징점과 동일하게 디스크립터 벡터를 계산한다. 계산된 디스크립터 벡터를 기반으로 특징점 매칭과 동일하게 도 3의 매칭과정을 수행한다. 이 때 매칭되는 디스크립터 벡터들은 모두 특징 영역에서 생성된 디스크립터 벡터이다. 인라이어라고 판단될 경우 해당 디스크립터 벡터를 BoF에 저장하게 된다.

다음으로, 멀티뷰 영상의 모든 참조영상에 대하여, 앞서 단계들을 반복하여 참조영상 별로 인라이어를 선택하고, 참조영상들의 인라이어들로 BoF(bag-of-feature)를 구성하되, 인라이어의 개수에 따라 BoF를 구성한다(S80). 그리고 구성된 BoF를 이용하여 어휘 트리를 구성하여 건물을 인식한다.

도 8은 본 발명의 일실시예에 따른 건물인식 시스템 구성 방법을 보여준다. 멀티뷰(multi-view) 참조 영상에서 추출된 특징점들 중에서 인라이어(inlier)들을 선택하여 BoF(bag-of-feature)를 구성한 후 이를 기반으로 어휘 트리(vocabulary tree)를 생성한다. 인라이어(inlier)들이 적게 선택되는 참조 영상은 인식률에 큰 영향을 미치지 못하기 때문에 어휘 트리(vocabulary tree) 생성 시 이용하지 않는다. 본 발명에 따른 방법에서는 비교적 적은 양의 DB를 가지고도 동일한 수준의 인식률을 가지는 시스템을 구성 할 수 있다.

일반적으로 DB 크기의 증가는 인식률 개선에 도움이 된다고 알려져 있지만 과도하게 방대한 양의 DB에서 특징을 추출하여 인식 시스템을 구성하는 것은 효율적이지 않은 방법이다. 또한 인식하고자 하는 건물과 상관관계가 떨어지는 영상들은 DB에서 제거하는 것이 시스템 구성 시 시간적인 측면이나 메모리 관리 측면에서 유리하다.

인라이어(inlier)가 많이 선택되는 영상은 인식하고자 하는 건물에서 양질의 특징점이 다량 검출 되었다는 것을 의미한다. 동시에 인라이어(inlier)가 적게 선택되는 영상들은 건물보다 배경이나 기타 객체에서 특징점들이 추출되었음을 의미하고, 인식률 증가에 큰 영향을 미치지 못한다. 따라서 본 발명에 따른 방법에서는 인라이어(inlier)가 적게 선택되는 영상은 DB에서 제거하여 인식 시스템을 구성한다. 참조 멀티뷰(multi-view) 영상에서 선택되는 인라이어(inlier)들의 개수를 파악하여 소팅(sorting)한 후 DB 활용율(utilization rate)을 조절하여 인식 시스템을 구성한다. 본 발명에서는 DB 활용율에 따른 top-k 에러율(error rate)을 측정하는 실험을 진행하였다. DB 활용율이 80%인 경우는 전체 DB 중에서 선택된 인라이어(inlier)의 개수가 많은 상위 80% 참조 영상만을 사용하여 인식 시스템을 구성했다는 의미이다.

인라이어는 참조 영상에서 추출된 특징 중 건물 영역에서만 추출된 특징을 의미한다.　BoF는 특정 건물의 모든 참조 영상에서 추출된 인라이어들의 집합을 의미한다.　모든 건물은 고유의 건물 인덱스(index)를 가진다. A라는 건물에 대해서는 A만의 BoF가 존재하고 다른 건물들도 해당 건물만의 BoF를 가진다.　DB는 이 BoF들의 집합을 의미한다.　멀티뷰 영상의 개수와 상관없이 단 한개의 BoF가 형성된다.　BoF는 멀티뷰 영상에서 추출된 수많은 인라이어의 집합을 의미한다.

또한, 잉여 DB제거 혹은 잉여 영상 제거라는 의미는 전체 참조영상(DB)에서 인라이어(inlier)들이 적게 선택되는 참조 영상들은 어휘 트리(vocabulary)를 생성할 때 사용하지 않는다는 의미이다.　전체 참조영상(DB)가 포함하고 있는 무의미한 영상들(배경이 너무 많이 촬영된 영상이나 사람이나 나무등에 의해 건물의 상당 부분이 가려진 영상등)을 제거하여 BoF(bag-of-feature)를 구성한 후　이를 기반으로 어휘 트리(vocabulary tree)를 생성한다.　잉여 영상을 전체 참조영상(DB)에서 제거하는 판단 기준은 영상에서 추출된 인라이어(inlier)의 개수에 의존한다.　영상에서 추출된 인라이어(inliier)의 개수가 문턱값(threshold)보다 작을 경우에는 의미없는 영상으로 판단하여 DB에서 제거된다.　여기서 문턱값은 하이퍼 파라미터(hyper-parameter)로써 사용자에 의해 휴리스틱(heuristic)하게 결정된다.　문턱값 변화에 따른 건물 인식 시스템의 인식률이 [도 15]에 표시되고 있다.

다음으로, 본 발명의 효과를 실험을 통하여 설명한다.

먼저, 실험 대상 영상에 대하여 설명한다.

본 발명에서 사용한 DB는 서울의 명동 일대(총면적 약 38910m2)를 촬영한 영상으로서 ETRI에서 제공을 받은 영상이다. 도 9은 구글 지도에서의 명동 DB 촬영 장소이다. DB는 총 10개의 서로 다른 건물 객체들로 구성되어 있으며 참조(reference) 영상은 452장, 질의(query) 영상은 1071장으로 구성된다.

도 10는 본 발명에서 사용한 질의 영상과 참조 영상의 일부이다. 참조 영상은 인식 시스템을 구성할 때 사용되는 영상으로써 하나의 건물 객체에 대하여 촬영 각도와 촬영 거리를 다양하게 변화시켜 여러 장의 영상을 촬영하였다. 서울시내 명동 일대는 상가건물 밀집 지역으로서 건물 외벽에 존재하는 텍스트(text) 영역, 조명변화에 민감한 유리 벽면이나 가로수, 가로등, 표지판 등에 의해 가려진 영역 혹은 보행자나 오토바이와 같은 이동 객체 등 특징점 기반 인식 시스템의 인식률을 저하시키는 요소들을 많이 포함하고 있다는 특징이 있다.

다음으로, 실험 방법에 대하여 설명한다.

실험은 크게 두 가지 방법으로 수행하였다. 첫 번째 방법은 참조 멀티뷰(multi-view) 영상에서 선택된 인라이어(inlier)들과 질의 영상에서 추출된 특징점과의 리콜(recall) 측정을 통하여 제안하는 인라이어(inlier) 선택 알고리즘의 성능을 확인한다. 두 번째 방법은 인라이어(inlier) 개수에 따른 DB 활용률(DB utilization rate) 조절에 따른 건물 인식 시스템의 Top-k 에러율(error rate)을 측정한다. 또한 무작위로 DB 활용률을 조절한 경우와 본 발명에 따른 방법으로 DB 활용률을 조절한 경우의 오류율을 비교하며 본 발명에 따른 방법의 우수성을 보인다.

리콜(Recall) 지표의 결과에 대하여 설명한다.

리콜(Recall) 지표는 두 영상에서 발생한 특징점 정합 쌍들이 얼마나 정확하게 정합되었는지를 보여주는 지표이다. 전체 특징점 정합 쌍 개수 대비 정확하게 정합된 정합 쌍 개수를 백분율로 나타내며 수학식 4와 같이 구할 수 있다.

[수학식 4]

여기서, N_{correctmatches}와 N_{correspondences}는 각각 정확하게 정합된 특징점 쌍의 개수와 전체 특징점 정합 쌍의 개수를 의미한다.

도 11의 표는 전체 건물 객체에 대하여 본 발명에서 본 발명에 따른 방법으로 생성한 특징점 정합 쌍에 대한 평균 리콜(Recall) 값을 보여준다. 한 종류의 건물에서 무작위로 50장의 질의 영상을 선택하여 특징점을 추출하고 참조 영상의 인라이어(inlier)들과 특징점을 정합하여 실험을 진행하였다. 참조 영상의 인라이어(inlier)들은 건물 객체에서만 추출된 양질의 특징점이기 때문에 전체 평균 82.8% 의 우수한 리콜(Recall)을 획득하였다.

다음으로, 인식률(Recognition rate)에 대하여 설명한다.

앞서 도 8과 같이, 본 발명에 따른 건물인식 시스템을 구성한다. 즉, 멀티뷰(multi-view) 참조 영상에서 추출된 특징점들 중에서 인라이어(inlier)들을 선택하여 BoF(bag-of-feature)를 구성한 후 이를 기반으로 어휘 트리(vocabulary tree)를 생성한다. 인라이어(inlier)들이 적게 선택되는 참조 영상은 인식률에 큰 영향을 미치지 못하기 때문에 어휘 트리(vocabulary tree) 생성 시 이용하지 않는다. 본 발명에 따른 방법에서는 비교적 적은 양의 DB를 가지고도 동일한 수준의 인식률을 가지는 시스템을 구성 할 수 있다.

즉, 참조 멀티뷰(multi-view) 영상에서 선택되는 인라이어(inlier)들의 개수를 파악하여 소팅(sorting)한 후 DB 활용율(utilization rate)을 조절하여 인식 시스템을 구성한다. 본 발명에서는 DB 활용율에 따른 top-k 에러율(error rate)을 측정하는 실험을 진행하였다. DB 활용율이 80%인 경우는 전체 DB 중에서 선택된 인라이어(inlier)의 개수가 많은 상위 80% 참조 영상만을 사용하여 인식 시스템을 구성했다는 의미이다.

도 12, 도 13, 도 14의 표들은 DB 사용률(utilization rate) 변화에 따른 top-k 에러율(error rate)을 각각 보여준다. 도 15는 본 발명에 따른 방법을 이용하여 DB 사용률(utilization rate)를 조정한 결과와 무작위로 DB 사용률(utilization rate)을 조정한 후 인식률의 차이를 보여준다. 도 15의 검은색 점선(black dash line)은 본 발명에 따른 방법을 이용하여 인라이어(inlier)의 개수가 적고 건물의 특징을 잘 반영하지 못하는 DB를 우선적으로 제거하여 구성한 인식 시스템의 에러율(error rate)을 보여준다. 붉은색 점선(Red dash line)은 무작위로 DB를 감소시켜 구성한 인식 시스템의 에러율(error rate)이다. 두 점선(dash line)의 차이는 본 발명에 따른 방법을 이용하여 구성한 인식 시스템의 전체 top-k 에러율(error rate)이 무작위로 DB를 감소시켜 구성한 시스템의 에러율(error rate) 보다 적다는 것을 명확하게 보여준다,

본 발명에서는 멀티뷰(multi-view) 영상에서 배경이나 가려짐 영역 혹은 외부 객체에서 추출되는 아웃라이어(outlier)들을 제거하고, 건물 객체에서 추출되는 인라이어(inlier)를 효율적으로 선택한다. 멀티뷰(multi-view) 영상에서 높은 신뢰도를 가지는 특징점 정합 쌍을 이용하여 호모그래피(homography)변환 행렬을 구하고 이를 이용하여 특징점 정합 쌍을 새로 정의하였다. 또한 벽면의 유리와 벽이나 텍스트(text) 영역같이 조명 변화에 따라 화소 값의 변화가 심한 영역에서는 MSER(maximally stable extremal regions) 기반 덴스(dense) SIFT를 추출하여 특징의 반복성(repeatability)을 높이는 효과를 보였고 리콜(recall) 측정을 통하여 이를 확인하였다. 참조 영상에서 획득한 인라이어(inlier)들을 이용하여 건물 인식 시스템을 구성하고 본 발명에 따른 방법을 이용하여 DB 활용율(utilization rate)을 조절한 결과와 무작위로 DB 활용율을 조절한 결과를 비교하여 본 발명에 따른 방법이 우수하다는 것을 확인하였다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 멀티뷰 영상 20 : 컴퓨터 단말
30 : 프로그램 시스템

Claims

멀티뷰 영상에서 특징점을 추출하는, 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법에 있어서,
(a) 멀티뷰 영상의 각 영상에서 특징점을 추출하는 단계;
(b) 추출된 특징점들을 대상으로, 각 영상 간에 정합을 수행하여, 정합된 특징점 쌍을 획득하는 단계;
(c) 다수의 특징점 쌍들로부터 호모그래피 행렬을 획득하는 단계;
(d) 상기 호모그래피 행렬을 이용하여 특징점 중에서 인라이어를 선택하는 단계;
(e) 상기 멀티뷰 영상에서 특징영역을 추출하는 단계;
(f) 상기 특징영역에서 덴스 특징점(dense feature)들을 추출하는 단계; 및,
(g) 상기 덴스 특징점들을 인라이어로 추가 선택하는 단계를 포함하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제1항에 있어서, 상기 방법은,
(h) 상기 선택된 인라이어들로 BoF(bag-of-feature)를 구성하되, 상기 인라이어의 개수에 따라 BoF를 구성하는 단계를 더 포함하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제1항에 있어서,
상기 (a)단계에서, SIFT(scale invariant feature transform)의 DOG(difference of gaussian) 방법을 이용하여 특징점을 추출하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제1항에 있어서,
상기 (c)단계에서, 상기 특징점 쌍들 각각에 대하여 정합도를 다음 수식 1에 의해 계산하고, 정합도에 따라 상기 특징점 쌍들을 정렬하여, 정합이 가장 잘된 사전에 정해진 개수의 특징점 쌍들을 선택하고, 선택된 특징점 쌍들에 대하여 변환 관계를 만족하는 호모그래피를 획득하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
[수식 1]

단, Distanceⁱ는 i번째 특징점 쌍의 정합도, D는 특징점 디스크립터 벡터(descriptor vector)의 차원, pⁱ _d와 qⁱ _d는 각 멀티뷰 영상에서 추출된 i번째 특징점 디스크립터 벡터의 d번째 요소를 나타냄.
제4항에 있어서,
상기 (d)단계에서, 특징점 쌍을 이루는 2개의 멀티뷰 영상에 대하여, 하나의 멀티뷰 영상(이하 제1 멀티뷰 영상)의 특징점(이하 제1 특징점)을 호모그래피에 의해 변환하여 다른 멀티뷰 영상(이하 제2 멀티뷰 영상)의 투영점을 구하고, 상기 투영점에서 사전에 정해진 범위 내의 영역 내에 위치한 특징점들을 검출하여 후보군으로 설정하고, 상기 후보군의 특징점들 각각과 상기 제1 특징점간의 디스크립터 벡터를 비교하여 가장 유사한 특징점(이하 제2 특징점)을 검출하고, 상기 제1 특징점과 상기 제2 특징점 간의 정합도가 사전에 정해진 기준값 보다 작거나 같으면 인라이어로 판단하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제5항에 있어서,
상기 사전에 정해진 기준값은 상기 호모그래피를 구할 때 사용된 특징점 쌍들의 정합도들의 평균값으로 설정되는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제1항에 있어서,
상기 (e)단계에서, 상기 특징영역은 MSER(maximally stable extremal region) 방법에 의하여 구한 영역인 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제7항에 있어서,
상기 (f)단계에서, 상기 특징영역에서 타원을 피팅(fitting)시킨 후 이를 감싸는 사각형을 로컬 패치(local patch)로 지정하여 덴스(dense) SIFT를 계산하여, 특징점들을 추출하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제2항에 있어서,
상기 (h)단계에서, 하나의 참조영상에서 추출된 인라이어의 개수가 사전에 정해진 문턱값 보다 작을 경우, 상기 추출된 인라이어를 상기 BoF에서 제외하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제9항에 있어서,
각 참조영상에 의한 인라이어의 개수를 기준으로 참조영상들을 정렬(sorting)하고, 인라이어 개수가 상위인 참조영상들의 인라이어들을 순차적으로 BoF로 구성하여 DB활용율을 조절하고, DB활용율에 따른 인식율을 측정하여 인식율이 최대인 DB활용율을 기준으로 상기 문턱값을 설정하는 것을 특징으로 하는 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법.
제1항 내지 제10항 중 어느 한 항의 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.