KR20150031333A

KR20150031333A - 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치

Info

Publication number: KR20150031333A
Application number: KR1020157003489A
Authority: KR
Inventors: 스타브로스 파스칼라키스; 미로슬로우 보버
Original assignee: 시스벨 테크놀로지 에스.알.엘.
Priority date: 2012-07-09
Filing date: 2013-07-01
Publication date: 2015-03-23
Also published as: JP6292454B2; BR112014031268A2; CN108520265B; JP2015522194A; EP2870568B1; JP2017224337A; RU2015104066A; US10713523B2; TWI532012B; JP6714669B2; TW201407542A; CN104428793A; CN108520265A; CN104428793B; JP6429134B2; WO2014009198A1; HK1259139A1; US20150332116A1; US9454710B2; EP3702965A1

Abstract

복수의 히스토그램 빈들(histogram bins)(h_i)을 포함하는 그라디언트 히스토그램(gradient histogram)(h)에 기초하여, 이미지 기술자를, 값들(v_j)의 세트를 포함하는 변환된 그라디언트 히스토그램 기술자(v)로 변환(transforming)하기 위한 방법이 설명되며, 상기 값들(v_j)의 세트를 계산하기 위해 적어도 하나의 기준(criterium)을 적용하는 단계가 제공되며, 상기 적어도 하나의 기준은 상기 히스토그램 빈들(h_i)의 위치 기준을 포함한다. 본 발명은 또한 방법을 수행하기에 적합한 이미지 프로세싱 디바이스에 관한 것이다.

Description

그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치{METHOD FOR TRANSFORMING AN IMAGE DESCRIPTOR BASED ON A GRADIENT HISTOGRAM AND RELATIVE IMAGE PROCESSING APPARATUS}

본 발명은 강건(robust)하고, 차별적이고, 스케일러블(scalable)하고 간결한 이미지 기술자들(image descriptors)의 계산에 관한 것이다.

보다 구체적으로, 본 발명은 로컬 영역들 내의 서브영역(subregion)들의 그라디언트(gradient)들의 히스토그램들(histograms)을 계산함으로써 이미지 관심 지점들 주위의 상기 로컬 영역들에서 계산되는 이미지 기술자들에 관한 것이다.

이미지 기술자들은 몇 개만 말하자면, 객체 인식, 콘텐츠-기반 이미지 리트리브, 및 이미지 등록을 포함하는 다수의 컴퓨터 비전 애플리케이션들에서 넓은 응용성을 발견하였다. 이러한 부류의 이미지 기술자들 중 가장 널리 알려진 예들 중 하나는 SIFT(Scale Invariant Feature Transform) 기술자이다.

간략히, SIFT 방법에 있어서, 로컬 이미지 기술자들은 다음과 같이 형성되는데, 우선, 다수의 이미지 스케일들 및 위치들에 걸친 검색은 스케일 및 배향에 대해 불변인 안정된 이미지 키포인트들을 식별 및 로컬화하도록 수행되고; 이어서 각각의 키포인트에 대해, 하나 또는 그 초과의 지배적인 배향들이 로컬 이미지 그라디언트들에 기초하여 결정되어, 후속 로컬 기술자 계산이 각각의 키포인트의 할당된 배향, 스케일 및 크기에 대해 수행되도록 허용되며, 이에 따라 이들 변환들(transformations)에 대한 불변성을 달성한다.

이어서, 키포인트 주위의 로컬 이미지 기술자들은 다음과 같이 형성되는데, 우선, 그라디언트 크기 및 배향 정보가 키포인트 주위의 영역의 이미지 샘플 지점들에서 계산되고; 이어서 이들 샘플들은 nxn 서브영역들 상의 콘텐츠들을 요약하는 배향 히스토그램들로 누적된다.

단지 예시로서, 키포인트 기술자의 예는 도 1a 및 도 1b에서 도시되며, 여기서 도 1a는 4x4 서브영역들(SR)로의 로컬 영역(R)의 세분을 도시하고, 도 1b는 각각의 배향 히스토그램(h)에 대한 8개의 빈들(h)로 360도 범위의 배향들의 세분을 도시하며, 각각의 화살표의 길이는 그 히스토그램 엔트리의 크기에 대응한다.

따라서, 도 1a에서 예시된 로컬 이미지 기술자는 4x4x8=128 엘리먼트들을 갖는다. SIFT 방법은 David G.Lowe의 "Distinctive image features from scale-invariant keypoints"(International Journal of Computer Vision, 60, 2(2004), 91-110쪽)에서 더 상세히 제시된다.

안정된 이미지 키포인트들의 검출을 위한 상이한 매커니즘들, 키포인트들 주위의 로컬 영역으로의 세분에 대한 상이한 접근법 및 서브영역 그라디언트 히스토그램의 계산에 대한 상이한 접근법을 이용하는 다수의 SIFT 방법의 대안들 및 변동들이 존재한다.

예를 들어, 도 2a 및 도 2b는 SIFT 방법에서 이용되는 데카르트 공간 세분(Cartesian spatial subdivision)에 대한 대안으로서, K.Mikolajczyk 및 C.Schmid의 "A performance evaluation of local descriptors"(IEEE Transactions of Pattern Analysis and Machine Intelligence 27(10):1615-1630)에서 설명된 GLOH(Gradient Location Orientation Histogram) 및 Chandrasekhar 등의 "Compressed Histogram of Gradients: A Low-Bitrate Descriptor"(International Journal on Computer Vision, Vol.94, No.5, 2011, 5월)에서 설명된 UHoG(Uncompressed Histogram of Gradients)와 같은 다른 기법들의 로그-폴라 공간 세분 특성을 각각 도시한다.

다른 예로서, 도 3은 SIFT 방법에서 이용되는, 빈들로의 360도 범위의 그라디언트 배향들의 세분에 대한 대안으로서, UHoG의 특성인, 빈들로의 그라디언트들의 x 및 y 컴포넌트들의 2-차원 공간의 세분에 기초하여 그라디언트 히스토그램들의 계산에 대한 접근법들을 도시한다.

위에서 언급된 종래 기술의 기법들은 이미지 기술자들을 생성하는 기법들의 예로서만 단지 여기서 고려되며, 이 이미지 기술자들에 기초하여 본 발명은 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산을 수행한다.

이러한 이미지 기술자들은 앞서 논의된 바와 같이 다수의 컴퓨터 비전 애플리케이션들에서 넓은 응용성을 발견하였지만, 그의 바이트의 크기들에 의해 정의되는 바와 같은 그의 저장 및 전송 비용들은 공통적으로, 특정한 애플리케이션 지역들에서 높은 것으로 간주된다. 이는, 이미지 내의 키포인트에 대한 로컬 이미지 기술자의 크기가 상대적으로 낮을 수 있을지라도, 전체 이미지 기술자는 수백 개의 이러한 키포인트들 및 연관된 로컬 기술자들을 포함할 것이기 때문이며, 이는 전체 이미지 기술자가, 그것이 추출된 실제 이미지의 JPEG 압축 버전에 비견 가능한 크기를 가질 수 있다는 것을 의미한다.

기술자 크기의 레벨이 문제가 있는 것으로 고려되는 하나의 이러한 애플리케이션 지역은 모바일 단말들을 이용한 비주얼 검색이다. 상이한 아키텍처들이 이 애플리케이션 지역에서 실용적이지만, 하나의 통상적인 아키텍처는 모바일 전화와 같은 모바일 단말 클라이언트에 의한 관심의 객체의 이미지의 캡처, 클라이언트에 의한 이미지 기술자의 자동 추출, 이미지 기술자를 프로세싱하고 적절한 응답(이를 테면, 관심의 객체에 대한 아이덴티티 또는 부가적인 정보)을 제공할 서버로 무선 통신 네트워크를 통한 이미지 기술자의 전송, 클라이언트로의 상기 응답의 리턴을 수반한다. 따라서, 무선 네트워크를 통해 클라이언트로부터 서버로 전송된 정보의 양의 최소화가 바람직하다는 것이 명백하다. 이러한 애플리케이션들의 이익을 위해, 이러한 이미지 기술자들의 압축에 있어 상당한 양의 개발이 되어왔다.

키포인트 기술자에 기초하여 그라디언트의 히스토그램을 압축하는 것에 관한 가장 단순한 접근법은 히스토그램 빈 값들의 스칼라 양자화(scalar quantisation)에 의한 것이며, 이는 각각의 빈 값의 표현에 개별적으로 이용되는 비트들의 수를 감소시키는 것을 의미한다. 실제로, 이러한 접근법은 기술자의 차별적 파워를 상당히 위험하게 함(compromising) 없이, 매우 높은 압축 레이트를 달성하는 것이 어렵기 때문에, 일반적으로 이용되진 않는다. 예를 들어, 빈 당 8개의 비트들을 갖는 SIFT 기술자 히스토그램 빈들의 인코딩이 일반적으로 이용되지만, 이미지 기술자들을 초래하며, 이 이미지 기술자들의 바이트들의 크기는 일반적으로 무선 네트워크들 상의 전송에 대해 너무 큰 것으로 고려된다. 한편, 빈 당 단지 소수, 예를 들어, 단지 하나 또는 2개의 비트들에 대한 스칼라 양자화는 이미지 기술자의 차별적 파워를 위험하게 하는 것으로 발견되었다.

그러므로 보다 복잡한 압축 방식이 제안되었다. 이러한 방식들의 리뷰는 V.Chandrasekhar 등에 의한 "Survey of SIFT compression schemes"(Proceedings of International Conference on Pattern Recognition (ICPR), 이스탄불, 터키, 2010년 8월)에서 제시된다.

간략히, 벡터 양자화를 위주로 다루는 방식들(그에 의해, 빈 값들을 유한개의 대표적 벡터 중심(centroid) 중 하나에 맵핑함으로써 빈 값들이 공동으로 양자화됨)은 특히 인기가 있고, 트리-구조 및 프러덕트(product) 벡터 양자화와 같은 다양한 형태들로 조사되었다. 이러한 접근법들의 단점은, 이들이 비교적 높은 계산 복잡도 및 중심들의 저장을 위해 수백 킬로바이트 내지 수 메가바이트 또는 그 초과의 꽤 상당한 메모리 요건들을 수반한다는 것이며, 중심들의 수는 수천 내지 수백만개의 범위에 있을 수 있고, 그의 결정은 또한 계산적으로 복잡한 트레이닝 단계를 요구한다.

타입 코딩을 위주로 다루는 방식들은 또한, 철저히 조사되었고, 그에 의해, 빈 값들은, 모든 가능한 입력 벡터들을 포함하는 공간 내의 균일한 격자 타입들을 형성함으로써 그리고 임의의 주어진 입력 벡터에 대해, 그것에 가장 근접한 타입의 인덱스로 그것을 인코딩함으로써 재차 공동으로 양자화된다. 이러한 접근법들의 메모리 요건들은 벡터 양자화 접근법에 비해 감소되지만, 그것은 또한, 결과적인 압축 기술자들이 높은 압축 레이트들에서의 인식 성능의 견지들에서, 벡터 양자화된 기술자들에 도저히 비교되지 않는다는 것이 또한 발견되었다. 전체적으로, 타입 코딩과 연관되는 계산 비용들은 단순한 스칼라 양자화에 대한 것보다 상당히 더 높다.

다른 압축 방식들은 키포인트 기술자들, 예를 들어, 128-차원적 SIFT 키포인트 기술자들 상에서 PCA와 같은 알려진 차원성(dimensionality) 감소 방법들을 활용하고, 이어서 결과적인 차원들의 스칼라 양자화가 이어진다. 이러한 접근법들에 있어서의 핵심적인 문제는, 이들이 높은 계산 복잡도 및 오버트레이닝(overtraining)의 높은 위험을 수반한다는 것이다.

요약해서, 그라디언트 기반 기술자들의 히스토그램의 압축 및 강건하고, 차별적이고, 스케일러블하며 간결한 이미지 기술자들의 생성에 대한 기존의 접근법들은 특정한 단점들을 나타낸다.

기술자 엘리먼트들의 스칼라 양자화와 같은 단순한 접근법은 매우 낮은 계산 복잡도 및 메모리 요건들의 이익을 갖지만, 높은 압축 레이트에서의 기술자들의 차별적 파워를 위험하게 하는 것으로 발견되었다.

보다 복잡한 접근법들은 높은 압축 레이트에서 더 양호한 성능을 달성하는 것으로 보이지만, 상이한 단점들을 겪는다. 벡터 양자화 접근법들은 계산 복잡도 및 메모리 요건들을 상당히 증가시킨다. 타입 코딩 접근법은 증가된 복잡도를 수반하고, 벡터 양자화 접근법의 메모리 요건에 의한 부담은 갖지 않지만, 이러한 접근법에 비해 성능이 떨어지는(underperform) 것으로 또한 발견된다. 또한, 벡터 양자화 또는 타입 코딩 접근법들 어느 것도 압축된 도메인에서 차원성 감소에 매우 적합하진 않다. PCA와 같은 알려진 차원성 감소 기법들에 기초한 접근법들이 또한 이용되지만, 높은 계산 복잡도 및 오버트레이닝의 높은 위험을 또한 겪는다.

그러므로, 본 발명의 목적은 이미지 기술자의 크기를 감소시키도록 허용하는, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.

본 발명의 추가의 목적은 특히, 모바일 단말 애플리케이션들에서 무선 네트워크를 통한 이미지 기술자의 저장 및 전송의 비용들을 감소시키도록 허용하기 위해, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.

본 발명의 추가의 목적은, 이미지 키포인트를 둘러싸는 서브영역에 관련된 복수의 그라디언트 히스토그램에 의해 구성되는 이미지 기술자의 크기를 감소시키도록 허용하는, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.

본 발명의 이들 및 다른 목적들은 첨부된 청구항들에서 청구된 바와 같이 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치를 통해 달성되며, 첨부된 청구항들은 본 설명의 통합 부분이다.

종합적으로, 본 발명은 상기 그라디언트의 히스토그램들의 변환에 기초하여 그라디언트들의 히스토그램들을 이용하는 이미지 기술자들로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산에 관한 것이며, 여기서 상기 변환은 그들의 빈 값들 간의 관계 및 분배들의 형상의 형태로 거기에 포함되는 두드러지고 강건한 정보를 캡처한다. 보다 구체적으로, 본 발명은 히스토그램 빈들 간의 관계에 대응하는 값들을 계산함으로써 그라디언트들의 히스토그램들을 변환한다.

본 발명에 따른 방법은 또한 이미지 키포인트를 둘러싸는 서브영역들에 관련된 그라디언트들의 히스토그램들을 핸들링하는 상이한 접근법들에 기초한 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산에 관한 것이다.

본 발명의 추가의 특징들은 본 설명의 통합 부분으로서 의도되는 첨부된 청구항들에서 제시된다.

위의 목적들은, 특히 첨부 도면들을 참조하여, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법의 이어지는 상세한 설명으로부터 더 자명하게 될 것이다.

도 1a 및 도 1b는 종래 기술의 키포인트 기술자의 예를 도시한다.
도 2a 및 도 2b는 GLOH 및 UHoG 종래 기술 기법들에서 각각 이용되는 공간적 세분 방식들을 도시한다.
도 3은 UHoG 기법의 그라디언트 히스토그램들의 계산을 위한 접근법들을 도시한다.
도 4a 및 도 4b는 본 발명에 따른 키포인트 기술자의 예를 도시한다.
도 5 내지 도 7은 이미지 키포인트를 둘러싸는 서브영역들에 대응하는 그라디언트들의 히스토그램들을 핸들링하는 상이한 방식들을 도시한다.
도 8 내지 도 13은 본 발명의 6개의 실시예들에 따른 흐름도들을 표현한다.
도 14는 도 2b의 공간적 세분 방식을 이용함으로써 본 발명에 따른 이미지 기술자의 프로세싱을 예시한다.
도 15는 도 3a의 그라디언트 히스토그램 세분 방식을 이용함으로써 본 발명에 따른 이미지 기술자의 프로세싱을 예시한다.
도 16은 본 발명에 따른 방법을 수행하기에 적합한 이미지 프로세싱 디바이스를 예시한다.

임의의 제한이 아닌 예로서, 본 발명의 양상들은 이미지 기술자, 특히 도 4에서 예시된 SIFT 이미지 기술자로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산을 위해 제시되며, 도 4a는 4x4 서브영역들(SR)로의 로컬 영역(R)의 예시적인 세분을 예시하고, 도 4b는 서브영역에 대한 예시적인 8-빈 그라디언트 히스토그램을 예시한다.

h는 도 4b의 그라디언트 히스토그램을 나타낸다고 하면, 빈들은 h_i이며, 여기서 i는 빈 인덱스이고, i=0...n-l이다. 본 발명에 따른 그라디언트 히스토그램 변환은 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(v_j)을 계산한다.

관계들에 대응하는 값들이 계산되는 빈들은 그의 위치 및 근접도에 따라 선택될 수 있으며, 이는 도 4b의 그라디언트 히스토그램의 경우에, 그의 각도 분리(angular separation)로 치환된다.

그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들의 예로서, 아래의 (1)에서 도시되는 바와 같은 이웃하는 빈 차이들은 히스토그램의 전체적인 형상 및 극값의 위치(extrema location)들을 캡처한다:

(1)

아래의 (2)에서 도시된 바와 같이 90도, 또는 보다 일반적으로, 그라디언트 히스토그램 특성들 및 빈 입도(bin granularity)가 허용할 때 거의 90도의 각도 차이를 갖는 그라디언트들에 대응하는 빈들 간의 차이들은 실질적으로 서로에 대해 직각의 그라디언트들 간의 관계에 관한 정보를 캡처한다:

(2)

아래의 (3)에서 도시된 바와 같이 180도의 각도 차이, 보다 일반적으로 그라디언트 히스토그램 특성들 및 빈 입도가 허용할 때 거의 180도의 각도 차이를 갖는 그라디언트들에 대응하는 빈들 간의 차이들은 배향들 내의, 예컨대, 수평 배향 내의 그리고 수직 배향 내의 그라디언트들 간의 관계에 관한 중요한 고레벨 정보를 캡처한다:

(3)

아래의 (4)에서 도시된 함수들은 2개 초과의 그라디언트 빈들을 결합하고 특정한 배향들 간의 그라디언트들의 관계, 예컨대, 어느 한 방향의 수직 그라디언트들에 대한 어느 한 방향의 수평 그라디언트들에 관한 정보를 캡처한다.

(4)

아래의 (5)에서 도시된 함수들은 전체 히스토그램의 형상을 대표하는 차별적 값들을 생성하기 위해 그라디언트 히스토그램의 모든 빈들을 결합한다:

(5)

관계들에 대응하는 값들이 계산되는 빈들이 또한 상이한 기준들에 따라 선택될 수 있다. 예를 들어, 관계들에 대응하는 값들이 계산되는 빈들은 결과적인 값들의 차별적 파워를 증가시키도록 선택될 수 있다. 이러한 함수들은 예를 들어, 아래의 (6)에서 도시된 함수들의 형태를 취할 수 있다:

(6)

다른 예로서, 관계들에 대응하는 값들이 계산되는 빈들은 랜덤 선택 프로세스를 통해 선택될 수 있다. 이러한 함수들의 예들은 아래의 (7)에서 도시된다:

(7)

히스토그램 변환의 다른 예로서, 아래의 (8)에서 도시된 함수들의 세트는 총 히스토그램 카운트를 대표하는 인버터블 변환(invertible transform)을 구성하며, 여기서 v₇은 총 히스토그램 카운트를 대표하는 값이다.

(8)

(1) 내지 (8)의 함수들은 빈들 간의 합 또는 차이, 또는 빈들의 합들 간의 차이로서 계산되는 그라디언트 히스토그램 빈들 간의 관계들을 도시하지만, 이는 제한적이지 않으며, 빈들 간의 비들, 또는 빈들의 합들 간의 비들 또는 빈들의 프러덕트들 간의 비들 또는 빈들의 프러덕트들 간의 차이 등과 같은 상이한 선형 또는 비-선형 동작들이 이용될 수 있다.

일반적으로, 그라디언트 히스토그램은 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(v_j)을 계산함으로써 변환될 수 있으며, 상기 그라디언트 히스토그램 빈들의 선택은, 결과적인 값들의 차별적 파워 또는 그의 근접도 또는 그의 기준들의 결합과 같은 하나 또는 그 초과의 기준들에 의존한다.

또한, 빈들이 그의 근접도에 따라 선택될 때, 그라디언트 히스토그램은 예를 들어, (1)에서와 같이 단지 이웃하는 빈들 간의 관계들에만 기초하여, 또는 (3)에서와 같이 단지 180도 분리된 빈들 간의 관계들에만 기초하여, 기타 등에 기초하여 단일 각도 분리를 나타내는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(v_j)을 계산함으로써 변환될 수 있다. 대안적으로, 그라디언트 히스토그램은 또한 예를 들어, (1)에서 도시된 바와 같은 몇몇 관계들, (2)에서 도시된 바와 같은 몇몇 관계들 등에 기초하여 복수의 각도 분리들을 나타내는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(v_j)을 계산함으로써 변환될 수 있다. 전체적으로, 변환 선택 프로세스는 상당히 중요한데, 그 이유는 그것이 k=n 또는 k<n 또는 k>n에 의해 서로 관련될 수 있는, 그라디언트 히스토그램의 차원성(n)에 비교되는 결과적인 변환된 기술자의 차원성(k)에 대한 상이한 타입들의 정보의 혼합에 대해 특정한 타입의 정보의 양을 밸런싱하기 때문이다.

그 후, 그라디언트 히스토그램(h)의 변환으로부터 계산된 값들(v_j)(j=0...k-l)은 k 엘리먼트들의 변환된 그라디언트 히스토그램 기술자(v)로서 집합적으로 지칭될 것이다.

위에서 알 수 있는 바와 같이, 단일 이미지 기술자(H)는, 각각이 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 대응하는 그라디언트의 다수의 히스토그램들을 포함할 수 있다. 도 4a는 각각의 그라디언트들의 히스토그램(h_p)에 의해 설명되는 4x4 서브영역들(SR)로의 로컬 영역(R)의 세분의 예를 예시한다. 이러한 이미지 기술자는 위에서 설명된 바와 같이 변환된 그라디언트 히스토그램 기술자(v_p)로의 각각의 서브영역(SR)의 그라디언트 히스토그램의 개별 변환에 의해 새로운 이미지 기술자(V)로 변환될 수 있다.

위에서 설명된 그라디언트 히스토그램 변환 프로세스는 간결한 이미지 기술자를 생성하는데 있어 다수의 이점들을 갖는다. 제 1 이점은, 변환의 적절한 선택을 통해, 위에서 설명된 프로세스는 예를 들어, 앞서 도시된 (3) 및 (4)의 결합된 6개의 엘리먼트들로 8개의 그라디언트 빈들을 대체함으로써 원래의 그라디언트 히스토그램보다 더 적은 엘리먼트들을 이용하여 그라디언트 히스토그램의 두드러지는 형상 특성들 및 차별적 정보를 인코딩하는 것을 가능하게 한다는 것이며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 이미지 기술자를 발생시킨다.

다른 이점은, 원래의 그라디언트 히스토그램과 달리, 변환된 그라디언트 히스토그램 기술자는 단순한 대강의 스칼라 양자화(simple coarse scalar quantisation)(그에 의해 각각의 기술자 엘리먼트는 단지 몇 개의 비트들, 심지어 1 또는 2만큼 낮은 비트들로 개별적으로 양자화됨)에 의한 압축에 적합하다는 것이며, 이는 사실상 특정한 그라디언트 빈들 간의 관계 또는 다른 특정한 빈들보다 특정한 빈들의 탁월성(dominance)의 대강의 측정만을 제공한다. 그러나, 상기 대강의 측정은 강건하고, 차별적이며 간결한 이미지 기술자를 여전히 제공하며, 이는 동일한 스칼라 양자화 조건들 하에서, 그리고 또한 벡터 양자화 및 타입 코딩과 같은 보다 복잡한 압축 방식들 하에서 원래의 그라디언트 히스토그램 기반 기술자보다 더 높은 인식 성능을 달성하고 시각적 대응성들을 설정 또는 검증하는데 성공적이다.

예를 들어, 스칼라 양자화를 이용하여, 값들(v_j)은 q 레벨들(예를 들어, q=2 또는 q=3 또는 q=4 등)로 개별적으로 양자화되지만, 이것은 제한적이지 않고 상이한 수의 양자화 레벨들이 결과적인 기술자의 원하는 간결성을 달성하는데 이용될 수 있다. 이러한 양자화는 임계치들의 세트에 대해 각각의 값(v_j)의 값을 비교함으로써 수행될 수 있다. 양자화 임계치들을 결정하는데 있어 다수의 옵션들이 있다. 양자화 임계치들은 예를 들어, 각각의 v_j의 동적 범위의 균일한 분할에 의해 결정될 수 있다. 대안적으로, 양자화 임계치들은 q 양자화 레벨들 간의 값들의 특정한 장기 분배(long-term distribution), 예를 들어, 균일한 분배를 달성하도록 세팅될 수 있다. 또한, 양자화 임계치들은 모든 서브영역들(SR)에서 계산된 모든 값들(v_j)에 대해 동일할 수 있거나, 또는 이들은 모든 서브영역들(SR)에 걸친 동일한 인덱스(j)에 대해 동일할 수 있거나, 또는 이들은 모든 j에 걸친 각각의 서브영역(SR)에 대해 동일할 수 있거나, 또는 이들은 각각의 서브영역(SR) 및 각각의 인덱스(j)에 대해 상이할 수 있다.

따라서, 위에서 설명된 그라디언트 히스토그램 변환 프로세스는, 유사하거나 개선된 성능 특성들을 달성하면서, 전체 계산 복잡도 및 메모리 요건들의 연관된 감소와 더불어, 앞서 보여준 방식들과 같은 복잡한 압축 방식들에 대한 필요성을 제거한다.

결과적인 제 3 이점은, 변환된 그라디언트 히스토그램 기술자의 차원성은 압축 이전 뿐만 아니라 압축 이후에도 고도로 스케일러블하지 않고, 전송 채널 특성들 또는 애플리케이션에 의해 요구되는 경우, 그의 개별적으로 양자화된 엘리먼트들 중 하나 또는 그 초과를 단순히 제거함으로써 추가로 쉽게 감소될 수 있다는 것이며, 이는 벡터 양자화 또는 타입 코딩과 같은 보다 복잡한 압축 기법들로 쉽게 달성되지 않는다.

반면에, 위에서 설명된 바와 같은 각각의 서브영역의 그라디언트 히스토그램의 개별 변환 및 압축은, 요구되는 경우, 이것이 하나 또는 그 초과의 개별적으로 변환되고 양자화된 서브영역 히스토그램들을 단순히 제거함으로써 전체 변환된 이미지 기술자의 스케일러빌리티(scalability)를 용이하게 하기 때문에 매우 유리하다.

그러나 위에서 설명된 변환된 그라디언트 히스토그램 기술자는 앞서 논의된 보다 복잡한 압축 방식들, 또는 그라디언트 히스토그램 기반 기술자의 원래의 히스토그램에 응용 가능한 임의의 압축 방식들에 호환 가능하지 않고, 이것은 요구되는 경우, 임의의 이러한 압축 방식들과 함께 여전히 이용될 수 있다는 것이 또한 강조되어야 한다.

위에서 알 수 있는 바와 같이, 그라디언트 기반 이미지 기술자(H)의 단일 히스토그램은 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 각각 대응하는 그라디언트들의 다수의 히스토그램들을 포함할 수 있고, 이러한 이미지 기술자(H)는 위에서 설명된 바와 같이 각각의 서브영역(SR)의 그라디언트 히스토그램의 개별 변환에 의해 변환될 수 있다. 보다 구체적으로, 각각의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램으로 동일한 방식으로 변환될 수 있지만, 대안적으로 적어도 하나의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램들로 상이하게 변환될 수 있다.

예를 들어, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 그라디언트들의 임의의 히스토그램의 변환 함수들은 그의 공간적으로 이웃하는 그라디언트들의 히스토그램들 중 적어도 일부에서 이용되는 변환 함수들과 적어도 부분적으로 상이해야 한다는 요건이 이미지 기술자 변환 프로세스에 부과될 수 있다. 이는 도 5에서 예시된다.

보다 구체적으로, 도 5A 및 도 5B는 서로 완전히 또는 부분적으로 상이한 변환 함수들의 세트들을 참조한다. 예를 들어, (1)의 함수를 A로 취하고 (2)의 함수들을 B로 취하는 것은 완전히 상이한 함수들의 세트들을 초래하는 반면에, (3)의 함수들 및 (1)로부터의 짝수 엘리먼트들을 A로 취하고, (3)의 함수들 및 (1)로부터의 홀수 엘리먼트들을 B로 취하는 것은 부분적으로 상이한 함수들의 세트들을 초래한다. 도 5에서, 변환 함수들(A 및 B)이 서브영역 히스토그램들에 적용되어서, A(또는 대안적으로 B)에 의해 변환되는 각각의 서브영역 히스토그램에 대해, 그의 4개의 수평 및 수직 이웃 히스토그램들은 B(또는 대안적으로 A)에 의해 변환되게 된다. 변환 함수들의 다수의 세트들의 이러한 활용은 구현 복잡도를 약간 증가시키지만, 모든 서브영역 히스토그램들에서 동일한 변환 함수들의 활용보다 상당한 이점을 갖는다. SIFT 기술자들은 물론, 그라디언트 기반 이미지 기술자들의 다른 히스토그램에 있어서, 특히 수평으로 또는 수직으로 연결되는 이웃하는 그라디언트 히스토그램들은, 변환된 그라디언트 히스토그램 기술자들에서 또한 유지되는 상당한 상관성을 나타낸다는 것이 당업자들에게 알려져 있다. 임의의 후속적인 대강의 양자화와 결합하여 이러한 이웃하는 히스토그램에서 동일한 변환을 적용하는 것은 동일한 엘리먼트들을 갖는 이웃하는 히스토그램들의 가능성을 증가시킨다. 이 문제는, 엔트로피(entropy) 및 결과적으로 기술자의 차별적 파워를 증가시키는, 위에서 설명된 바와 같은 상이한 변환 함수들의 활용에 의해 완화된다.

다른 예로서, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들은, 키포인트 주위의 영역 또는 중앙에 대한 서브영역 위치와 같은 특정한 결정적인 팩터들에 따라 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들에 대한 상이한 수의 엘리먼트들을 포함할 수 있다.

도 6은 이것의 일 예를 예시하며, 여기서 이미지 키포인트(KP)를 직접 둘러싸는 중앙의 4개의 서브영역들(SR_c)은 위에서 설명된 바와 같이 k_c 엘리먼트로 변환되는 반면에, 12개의 경계 서브영역들(SR_b)은 위에서 설명된 바와 같이 k_b 엘리먼트로 변환되며 여기서 k_c>k_b이다. 그러므로, 이는 전체의 변환된 이미지 기술자들에 대한 중앙 서브영역들(SR_c)의 정보 콘텐츠를 증가시키며, 상기 서브영역들(SR_c)은 시각적 대응성을 설정 또는 검증하는데 보다 중요한 것으로서 당업자에게 의해 공통적으로 고려된다.

다른 예로서, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들은, 키포인트 주위의 영역의 중앙에 대한 서브영역 위치와 같은 특정한 결정적 팩터들에 따라 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들로 상이하게 압축될 수 있다.

도 7은 이것의 일 예를 예시하며, 여기서 이미지 키포인트(KP)를 직접 둘러싸는 중앙의 4개의 서브영역들(SR_c)은 위에서 설명된 바와 같이 변환되고 q_c 레벨들로 양자화되는 반면에, 12개의 경계 서브영역들(SR_b)은 위에서 설명된 바와 같이 변환되고 q_b 레벨들로 양자화되며, 여기서 q_c>q_b이다. 그러므로, 이는 전체 변환된 이미지 기술자 내의 중앙 서브영역들(SR_c)의 표현 정확도를 증가시키며, 상기 서브영역들(SR_c)은 시각적 대응성들을 설정 또는 검증하는데 보다 중요한 것으로서 당업자들에게 공통적으로 고려된다.

또한, 상이한 압축 특성들은 또한 특정한 엘리먼트들의 변환 함수 또는 그의 근본적인 통계들과 같은 결정적인 팩터들에 따라, 변환된 그라디언트 히스토그램 기술자들의 특정한 엘리먼트들에만 적용될 수 있다.

전체적으로, 상이한 서브영역들에 대한 적절한 변환 함수들의 선택 및 상이한 서브영역들 및/또는 서브영역 엘리먼트들에 대한 적절한 압축 파라미터들의 선택과 같은 팩터들은, 이들이 기술자의 복잡도 및 저장/전송 비용에 대해 기술자의 정보 콘텐츠 및 차별적 파워를 제어하기 때문에 상당히 중요하다.

본 발명의 실시예들은 도 8 내지 도 13의 도움으로 이제 설명된다.

제 1 실시예

본 발명의 제 1 실시예는 도 8에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그들의 근접도에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 그의 차원성을 감소시키도록 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱된다.

보다 구체적으로, 도 8에서, 각각의 히스토그램(h_p)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S100)에서, p는 0으로 세팅된다.

이어서, 단계(S110)에서, n(n=8)개의 빈들의 히스토그램(h_p)은, 이웃하는 빈들 간의 관계들을 캡처하는 단일 각도 분리를 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (9)의 함수들에 의해 k(k=4)개의 엘리먼트들의 기술자(v_p)로 변환되며, 여기서 k < n이다:

(9)

대안적으로, (9)의 함수들은 90도만큼 분리된 빈들 간의 관계를 캡처하는 함수들과 같이, 다른 단일 각도 분리를 갖는 빈들 간의 관계를 캡처하는 상이한 함수들, 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(v_p)를 발생시키는 함수들에 의해 대체될 수 있지만, 여전히 k < n이다.

이어서, 단계(S120)에서, p의 값이 검사되고 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S130)에서 1만큼 증가되고, 프로세싱은 단계(S110)로 리턴한다.

따라서, 결과적인 기술자(V)는 H보다 상당히 더 적은 엘리먼트들을 이용하여 H의 차별적 정보 및 두드러지는 형상 특성들을 인코딩하며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 기술자를 발생시킨다.

선택적으로, V의 개별 엘리먼트들의 값들은, 예를 들어, 이들을 비-음의 값들에 및/또는 특정한 동적 범위, 예를 들어, 8-비트에 맵핑하기 위해 적절히 스케일링 및 시프트될 수 있다.

2개의 기술자들이 상이한 이미지들의 동일한 키포인트로부터 추출되었는지를 결정하고 이미지들 간의 시각적 대응성들을 설정하기 위해 결과적인 기술자들의 후속 프로세싱은 본 발명의 범위를 초과하며, 예를 들어, David G.Lowe의 "Distinctive image features from scale-invariant keypoints"(International Journal of Computer Vision, 60, 2 (2004), pp.91-110)에서 설명된 바와 같이, 또는 임의의 다른 적합한 방식으로 원래의 그라디언트 히스토그램 기술자들에 대한 것과 유사한 방식으로 진행될 수 있다.

제 2 실시예

본 발명의 제 2 실시예는 도 9에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램들(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그의 근접도에 관한 복수의 기준들에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계에 대응하는 값들을 계산하여 그의 차원성을 감소시키도록, 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱된다.

보다 구체적으로, 도 9에서, 각각의 히스토그램(h_p)(p=0...N-1(N=16))이 이번에 프로세싱된다. 단계(S200)에서, p는 0으로 세팅된다.

이어서, 단계(S210)에서, n(n=8)개의 빈들의 히스토그램(h_p)은 180도만큼 분리되는 빈들 간의 관계들 및 이웃하는 빈들 간의 관계들을 캡처하는, 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (10)의 함수들에 의해 k(k=6)개의 엘리먼트들의 기술자(v_p)로 변환되며, 여기서 k < n이다:

(10)

대안적으로, (10)의 함수들은 90도만큼 분리된 빈들 간의 관계들 및 180도만큼 분리된 빈들 간의 관계들을 캡처하는 함수들과 같이, 다른 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하는 상이한 함수들 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(v_p)를 발생시키는 함수들에 의해 대체될 수 있지만, 여전히 k < n이다.

이어서, 단계(S220)에서, p의 값이 검사되고, 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S230)에서 1만큼 증가되고, 프로세싱은 단계(S210)로 리턴한다.

따라서, 결과적인 기술자(V)는 H보다 더 적은 엘리먼트들을 이용하여 H의 차별적 정보 및 상이한 타입들의 두드러지는 형상 특성들을 인코딩하며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 기술자를 발생시킨다.

결과적인 기술자의 후속적인 프로세싱은 이어서 제 1 실시예와 유사한 방식으로 진행될 수 있다.

제 3 실시예

본 발명의 제 3 실시예는 도 10에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그들의 근접도에 관한 복수의 기준들에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱된다.

보다 구체적으로, 도 10에서, 각각의 히스토그램(h_p)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S300)에서, p는 0으로 세팅된다.

이어서, 단계(S310)에서, n(n=8)개의 빈들의 히스토그램(h_p)은, 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (11)의 함수들에 의해 k(k=8)개의 엘리먼트들의 기술자(v_p)로 변환된다:

(11)

대안적으로, (11)의 함수들은 다른 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하는 상이한 함수들 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(v_p)를 발생시키는 함수들에 의해 대체될 수 있으며, k=n 또는 k<n 또는 k>n이다.

이어서, 단계(S320)에서, K개의 엘리먼트들의 기술자(v_p)의 각각의 엘리먼트는 q 레벨들로 개별적으로 양자화되며, 이는 양자화된 기술자(v,^~ _p)를 제공한다. 이 실시예에서, 우리는 q=3으로 세팅하지만, 이는 제한적이지 않으며, 예를 들어, q=2, q=4 등의 상이한 수의 양자화 레벨들이 결과적인 기술자에서 원하는 간결성을 달성하는데 이용될 수 있다. 이러한 양자화는 각각의 엘리먼트의 값(v_pj)을 임계치들의 세트에 비교함으로써 수행될 수 있다. 양자화 임계치들을 결정하는데 있어 다수의 옵션들이 있다. 양자화 임계치들은 예를 들어, v_pj의 동적인 범위의 균등한 분할에 의해 결정될 수 있다. 대안적으로, 양자화 임계치들은 q 양자화 레벨들 간의 값들의 특정한 장기 분배, 예를 들어, 균일한 분배를 달성하도록 세팅될 수 있다. 또한, 양자화 임계치들은 모든 엘리먼트(v_pj)에 대해 동일할 수 있거나, 또는 이들은 모든 p에 걸친 동일한 인덱스(j)에 대해 동일할 수 있거나, 또는 이들은 모든 j에 걸친 동일한 인덱스(p)에 대해 동일할 수 있거나, 또는 이들은 각각의 v_pj에 대해 상이할 수 있다.

이어서, 단계(S330)에서, p의 값이 검사되고 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S340)에서 1만큼 증가되고, 프로세싱은 단계(S310)로 리턴한다.

명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,^~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 10에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.

따라서, 결과적인 기술자(V,^~)는 H의 차별적 정보 및 상이한 타입들의 두드러지는 형상 특성들을 인코딩한다. 각각의 기술자 엘리먼트가 특정한 그라디언트 빈들 간의 관계 또는 다른 특정한 빈들보다 특정한 빈들의 탁월성의 대강의 측정만을 제공하는, 단지 소수의 레벨들로 개별적으로 양자화되는 대강의 스칼라 양자화는 동일한 스칼라 양자화 조건들 하에서 그리고 또한 보다 복잡한 압축 방식들 하에서 원래의 그라디언트 히스토그램 기반 기술자보다 더 높은 인식 성능을 달성하고 시각적 대응성들을 설정하거나 검증하는데 성공적인 강건하고 차별적인 간결한 이미지 기술자를 발생시킨다.

결과적인 기술자의 후속적인 프로세싱은 이어서 이전의 실시예들과 유사한 방식으로 진행될 수 있다.

제 4 실시예

본 발명의 제 4 실시예는 도 11에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 이웃하는 h_p인 그라디언트 히스토그램들 중 일부의 프로세싱에 이용되는 변환 함수들의 세트에 대해 차이를 나타내는 변환 함수의 세트로 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱된다.

보다 구체적으로, 도 11에서, 각각의 히스토그램(h_p)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S400)에서, p는 0으로 세팅된다.

이어서, 단계(S410)에서, p의 값은 h_p의 프로세싱에 대한 적절한 함수의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 5에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 A 및 B로 지정된 변환들의 2개의 세트들이 이용되며, A는 p=0,2,5,7,8,10,13,15일 때 선택되고, B는 p=l,3,4,6,9,ll,12,14일 때 선택된다. 그러나 이는 제한적이지 않으며, 변환 함수들의 상이한 수의 세트들 및 상이한 공간적 배열은 그라디언트 히스토그램의 프로세싱에 이용되는 변환 함수들의 세트가 상기 히스토그램에 이웃하는 그라디언트 히스토그램들 중 일부의 프로세싱에 이용되는 변환 함수들의 세트들에 대해 차이를 나타내도록 이용될 수 있다.

이어서, 단계(420)에서, n(n=8)개의 빈들의 히스토그램(h_p)은, 변환 함수들의 적합하게 선택된 세트를 이용하여 k(k=8)개의 엘리먼트들의 기술자(v_p)로 변환된다. 변환 함수들의 세트들(A 및 B)은 각각 아래에서 도시된 (12) 및 (13)에 따라 정의될 수 있으며, 여기서 함수들의 각각의 세트는 복수의 각도 분리들을 갖는 빈들 간의 관계를 캡처하도록 선택되고, A와 B 간의 공통적인 함수들은 없다:

(12)

(13)

대안적으로, (12) 및 (13)에서 도시된 바와 같은 함수들 중 어느 하나 또는 둘 다는 다른 복수의 각도 분리들을 갖는 빈들 간의 관계를 캡처하는 상이한 함수들, 또는 상이한 수(k)의 엘리먼트들을 갖는 기술자를 발생시키는 함수들에 의해 대체될 수 있으며, 여기서 k=n 또는 k<n 또는 k>n이다. 또한, 함수들의 세트들(A 및 B)은 어떠한 공통 함수들도 포함하지 않을 수 있거나 몇몇 공통 함수들을 포함할 수 있다. 또한, 관계들에 대응하는 값들이 계산되는 빈들은 함수들의 세트들(A 및 B) 중 하나 또는 둘 다에 대한 상이한 기준들에 따라 선택될 수 있다. 위에서 알 수 있는 바와 같은 이러한 기준들은 결과적인 값들의 차별적 파워를 증가시키도록 관계들에 대응하는 값들이 계산되는 빈들을 선택하는 것, 또는 랜덤 선택 프로세스를 통해 관계들에 대응하는 값들이 계산되는 빈들을 선택하는 것을 포함할 수 있다. 또한, 상기 기준들의 임의의 혼합이 또한 함수들의 세트(A 및 B) 중 어느 하나 또는 둘 다의 선택에 있어 이용될 수 있다.

이어서, 단계(S430)에서, k개의 엘리먼트들의 기술자(v_p)의 각각의 엘리먼트는 제 3 실시예에 대해서와 유사한 방식으로 q 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,^~ _p)를 제공한다.

이어서, 단계(S440)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S450)에서 1만큼 증가되고, 프로세싱은 단계(S410)로 리턴한다.

명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,^~)를 생성하기 위해 양자화를 진행함으로써, 본 발명의 범위로부터 벗어남 없이 도 11에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.

따라서, 결과적인 기술자(V,^~)는 H의 차별적 정보를 인코딩한다. 이 실시예에 따라 변환 함수들의 다수의 세트들의 활용은 모든 서브영역 히스토그램들에서 동일한 변환 함수들의 활용에 비해 상당한 이점을 갖는다. 그라디언트 기반 이미지 기술자들의 히스토그램에 있어서, 이웃하는 그라디언트 히스토그램들은 변환된 그라디언트 히스토그램 기술자들에서 유지되는 상당한 상관을 나타내며, 대강의 스칼라 양자화와 결합하여, 동일한 엘리먼트들을 갖는 이웃하는 변환된 히스토그램들의 가능성을 증가시킨다는 것이 당업자들에게 알려져 있다. 이 문제는 엔트로피 및 결과적으로 기술자의 차별적 파워를 증가시키는, 이 실시예에 따라 상이한 변환 함수들의 활용에 의해 완화된다.

제 5 실시예

본 발명의 제 5 실시예는 도 12에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산하여 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱되고 그리고 이에 따라 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들이 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들에 대해 상이한 수의 엘리먼트들을 포함하게 된다.

보다 구체적으로, 도 12에서, 각각의 히스토그램(h_p)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S500)에서, p는 0으로 세팅된다.

이어서, 단계(S510)에서, p의 값은 h_p의 프로세싱에 대한 적절한 차원성의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 6에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 p=5,6,9,10를 갖는 중앙 서브영역 히스토그램들은 결과적인 기술자가 k_c(k_c=3) 엘리먼트들을 각각 갖도록 변환된 것이고, p=0,1,2,3,4,7,8,11,12,13,14,15를 갖는 경계 서브영역 히스토그램들은 결과적인 기술자가 k_b(k_b=2) 엘리먼트들을 각각 갖도록 변환될 것이다. 그러나 이는 제한적이지 않고, 상이한 수의 가능한 차원성들 및 상이한 공간적 어레인지먼트들이 더불어 이용될 수 있다.

이어서 단계(520)에서, n(n=8)개의 빈들의 히스토그램(h_p)은 아래에서 도시된 (14)의 함수들에 따라 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 기술자(v_p)로 변환된다:

(중앙 및 경계 서브영역들 둘 다를 위해 이용됨)

(중앙 및 경계 서브영역들 둘 다를 위해 이용됨) (14)

(중앙 서브영역들만을 위해 이용됨)

명백히, 이 실시예는 임의의 이전의 실시예와 결합될 수 있고, (14)의 변환 함수들은 위에서 알 수 있는 바와 같은 선택 기준들의 임의의 혼합에 따라 선택된 변환 함수들에 의해 대체될 수 있고 및/또는 변환 함수들의 상이한 세트들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있다.

이어서, 단계(S530)에서, k개의 엘리먼트들의 기술자(v_p)의 각각의 엘리먼트는 제 3 및 제 4 실시예에 대해서와 유사한 방식으로 q 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,^~ _p)를 제공한다.

이어서, 단계(S540)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S550)에서 1만큼 증가되고, 프로세싱은 단계(S510)로 리턴한다.

명백히, 대안적인 구현들은 예를 들어, 먼저 전체 기술자(V)를 계산하고, 이어서 양자화된 기술자(V,^~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 12에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.

따라서, 결과적인 기술자(V,^~)는, 이러한 부분들에 대한 증가된 차원성의 표현을 허용함으로써, 시각적 대응성, 예컨대, 중앙 서브영역 히스토그램들 대 경계 서브영역 히스토그램들을 설정 또는 검증하는데 있어 보다 중요하게 될 수 있는, H의 그러한 부분들에 보다 많은 우월성을 제공하는 방식으로 H의 차별적 정보를 인코딩한다.

제 6 실시예

본 발명의 제 6 실시예는 도 13에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(h_p)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산하여 각각의 그라디언트 히스토그램(h_p)을 변환함으로써 프로세싱되고 그리고 이에 따라 몇몇 변환된 그라디언트 히스토그램 기술자 엘리먼트들은 다른 변환된 그라디언트 히스토그램 기술자 엘리먼트과 상이한 수의 레벨들로 양자화되게 된다.

보다 구체적으로, 도 13에서, 각각의 히스토그램(h_p; p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S600)에서, p는 0으로 세팅된다.

이어서, 단계(S610)에서, n(n=8)개의 빈들의 히스토그램(h_p)은 아래의(15)에서 도시된 바와 같이 빈들 간의 관계를 캡처하도록 선택된 함수들의 세트에 의해 k(k=8)개의 엘리먼트들의 기술자(v_p)로 변환된다:

(15)

명백히, 이 실시예는 임의의 이전의 실시예와 결합될 수 있고, (15)의 변환 함수들은 위에서 알 수 있는 바와 같은 선택 기준들의 임의의 혼합에 따라 선택된 변환 함수들에 의해 대체될 수 있고 및/또는 변환 함수들의 상이한 세트들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있고 및/또는 상이한 변환된 기술자 차원성들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있다.

이어서, 단계(S620)에서, p의 값은 각각의 엘리먼트(v_pj)의 양자화에 대한 적절한 수의 양자화 레벨들의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 7에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 p=5,6,9,10을 갖는 중앙 서브영역 기술자는 q_c(q_c=4) 레벨들로 양자화될 것이고, q_c=0,l,2,3,4,7,8,ll,12,13,14,15를 갖는 경계 서브영역 기술자들은 q_b(q_b=2) 레벨들로 양자화될 것이다. 그러나 이는 제한적이지 않으며, 상이한 수의 가능한 양자화 레벨들이 상이한 공간 어레인지먼트와 더불어 이용될 수 있다. 또한, 도 13에서 도시되지 않았지만, 각각의 엘리먼트(v_pj)에 대한 양자화 레벨들의 수는 p, 즉 엘리먼트의 서브영역 위치의 값 대신 또는 이에 추가하여, j의 값에 따라, 즉 특정한 타입의 기술자 엘리먼트에 따라 결정될 수 있다.

이어서, 단계(S630)에서, k개의 엘리먼트들의 기술자(v_p)의 각각의 엘리먼트는 제 3, 제 4 및 제 5 실시예에 대해서와 유사한 방식으로 적절한 수의 양자화 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,^~ _p)를 제공한다.

이어서, 단계(S640)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S650)에서 1만큼 증가되고, 프로세싱은 단계(S610)로 리턴한다.

명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,^~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 13에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.

따라서, 결과적인 기술자(V,^~)는 시각적 대응성들을 설정 또는 검증하는데 보다 중요할 수 있는, H의 이러한 부분들에 또는 V의 그러한 엘리먼트들에 더 높은 표현 정확도를 제공하는 방식으로 H의 차별적 정보를 인코딩한다.

본 발명의 양상들 및 실시예들이 도 4에서 예시된 바와 같이 SIFT 이미지 기술자로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자의 계산을 위해 상세히 제시되었지만, 본 발명은 그라디언트들의 히스토그램들에 기초하여 다른 이미지 기술자들에 응용 가능하다. 예를 들어, 도 14는 본 발명의 제 4 실시예와 유사한 방식으로 그의 이웃하는 그라디언트 히스토그램들의 프로세싱에 이용되는 변환 함수들의 세트들에 대해 차이들을 나타내는 변환 함수들의 세트를 통해 및 변환 함수들의 상기 세트들에 대응하는 도 14의 심볼들(A, B, 및 C)을 통해 그의 그라디언트 히스토그램들 각각을 변환함으로써 로그-폴라 공간 세분(log-polar spatial subdivision)을 이용한 그라디언트 히스토그램 기반 기술자의 프로세싱을 예시한다. 다른 예로서, 도 15에서 예시된 바와 같이 빈들로의 그라디언트들의 x 및 y 컴포넌트들의 2-차원 공간의 세분에 기초한 그라디언트들의 히스토그램을 위해, 본 발명의 이전의 실시예와 유사한 방식의 변환 함수들의 하나의 적합한 세트는 다음과 같다:

(16)

또한, 본 발명은 그라디언트 기반 이미지 기술자들의 적합하게 프로세싱된 히스토그램에 또한 응용 가능하다. 이러한 적합한 프로세싱은 예를 들어, 본 발명에 따른 프로세싱 이전의 서브영역 그라디언트 히스토그램들의 결합을 수반할 수 있다.

단지 예시적인 목적을 위해, 도 4a를 참조하면, 서브영역 히스토그램들(h_p)(p=0...15)을 포함하는 그라디언트 히스토그램 기술자(H)에 대해, p=0,l,4,5를 갖는 히스토그램들은 그의 빈 값들의 평균화에 의해 단일 서브영역 히스토그램으로 결합될 수 있고, 유사한 결합이 p=2,3,6,7 및 p=8,9,12,13 및 p=10,ll,14,15를 갖는 히스토그램들에 대해 수행될 수 있으며, 이는 본 발명의 임의의 이전의 실시예에 따라 추후에 프로세싱될 수 있는 감소된 차원성을 갖는 그라디언트 히스토그램 기술자를 발생시킨다. 그라디언트 히스토그램들은 또한 합(sum)과 같은 그의 빈 값들의 대안적인 함수에 의해 결합될 수 있다.

대안적으로 또는 부가적으로, 이러한 적합한 프로세싱은 예를 들어, 서브영역 그라디언트 히스토그램들 내의 빈들의 병합(merging)을 포함할 수 있다. 예시 목적을 위해, 도 4b를 참조하면, 그라디언트 히스토그램(h)에 대해, 이웃하는 빈들은 평균화, 부가 또는 중간값 또는 임의의 적합한 함수에 의해 단일 빔으로 병합될 수 있으며, 이는 본 발명의 임의의 이전의 실시예에 따라 추후에 프로세싱될 수 있는 감소된 차원성을 갖는 그라디언트 히스토그램 기술자를 발생시킨다.

단지 예로서, 도 16이 본 발명에 따른 방법을 수행하기 위한 개념적인 프로세싱 장치를 예시한다. 보다 구체적으로, 프로세싱 장치(1100)는, 입력 장치(1000)로부터 이미지 또는 비디오 데이터와 같은 시각적 데이터를 포함하는 입력, 그라디언트들의 히스토그램들에 기초한 미리-계산된 기술자들, 본 발명의 방법에 따른 미리-계산된 간결한 기술자들, 프로그래밍 명령들, 또는 사용자 입력을 수신하며, 이 입력 장치(1000)는 사용자 입력 장치, 미디어 판독기, 또는 전송된 신호들의 수신기의 형태를 취할 수 있다. 프로세싱 장치(1100)는 다른 프로세싱 블록들의 동작을 제어하는 중앙 처리 장치(1110)의 메인 프로세싱 블록들, 휘발성 메모리(1120), 비-휘발성 메모리(1130), 선택적으로 그라디언트들의 히스토그램들에 기초하여 기술자들을 생성하도록 구성된 기술자 추출기 블록(1140), 본 발명에 따른 방법을 수행하도록 구성된 간결한 기술자 추출기 블록(1150), 및 선택적으로 예를 들어, 시각적 대응성들을 설정하거나 검증하기 위해 상기 간결한 기술자들을 프로세싱하도록 구성된 간결한 기술자 프로세서 블록(1160)을 포함한다. 프로세싱 장치(1100)는 시각적 디스플레이 유닛, 미디어 기록기 또는 신호들의 전송기의 형태를 취할 수 있는 출력 장치(1900)에 연결되며, 이는 이미지 또는 비디오 데이터와 같은 주석이 달린(annotated) 시각적 데이터, 설정되거나 검증된 시각적 대응성과 같은 프로세싱 정보 또는 본 발명의 방법에 따른 계산된 간결한 기술자들을 포함할 수 있는 출력을 제공한다. 도 16에서 도시된 프로세싱 블록들 및 아키텍처는 단지 개념적이며 본 발명에 따른 방법을 구현하는 각각의 장치에 정확하게 대응하지 않을 수 있다는 것이 이해되어야 한다.

예로서 본 명세서에서 설명되는 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치는 창의적인 아이디어의 신규한 사상으로부터 벗어남 없이 다수의 가능한 변동들에 처해질 수 있고; 본 발명의 실제 구현에서, 예시된 세부사항들은 상이한 형상들을 갖거나 다른 기술적으로 등가의 엘리먼트들로 대체될 수 있다는 것이 또한 자명하다.

그러므로, 본 발명은 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치로 제한되는 것이 아니라, 아래의 청구항들에서 명확하게 특정되는 바와 같은 창의적인 아이디어로부터 벗어남 없이 등가의 부분들 및 엘리먼트의 다수의 변형들, 개선들 또는 대체들이 처해질 수 있다는 것이 쉽게 이해될 수 있다.

Claims

복수의 히스토그램 빈들(histogram bins)(h_i)을 포함하는 그라디언트 히스토그램(gradient histogram)(h)에 기초하여, 이미지 기술자를, 값들(v_j)의 세트를 포함하는 변환된 그라디언트 히스토그램 기술자(v)로 변환(transforming)하기 위한 방법으로서,
상기 값들(v_j)의 세트를 계산하기 위해 적어도 하나의 기준(criterium)을 적용하는 단계가 제공되며,
상기 적어도 하나의 기준은 상기 히스토그램 빈들(h_i)의 위치 기준을 포함하는,
변환하기 위한 방법.
제 1 항에 있어서,
상기 위치 기준은 단일 각도 분리(single angular separation)를 나타내는 그라디언트 히스토그램 빈들(h_i) 간의 값들(v_j)을 계산하는 것을 제공하는,
변환하기 위한 방법.
제 1 항에 있어서,
상기 위치 기준은 복수의 각도 분리들을 나타내는 그라디언트 히스토그램 빈들(h_i) 간의 값들(v_j)을 계산하는 것을 제공하는,
변환하기 위한 방법.
제 2 항 또는 제 3 항에 있어서,
상기 값들(v_j) 중 적어도 하나는 가까운 히스토그램 빈들(h_i) 간에 계산되는,
변환하기 위한 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 값들(v_j)은 복수의 레벨들(q)로 개별적으로 양자화되고, 상기 복수의 레벨들은 각각의 값(v_j)에 대해 동일할 수 있거나, 또는 적어도 2개의 값들(v_j)에 대해 상이할 수 있는,
변환하기 위한 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 값들(v_j)은 다음의 동작들: 히스토그램 빈들(h_i) 간의 합들 또는 차이들; 히스토그램 빈들(h_i)의 합들 간의 차이들; 히스토그램 빈들(h_i) 간의 선형 또는 비-선형 동작들; 히스토그램 빈들(h_i) 간의 비들; 히스토그램 빈들(h_i)의 합들 간의 비들(ratios); 히스토그램 빈들(h_i)의 프러덕트들(products) 간의 비들; 히스토그램 빈들(h_i)의 프러덕트들 간의 차이들 중 하나 또는 그 초과에 따라 계산되는,
변환하기 위한 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성(dimensionality)을 갖고, 상기 값들(v_j)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들과 동일한,
변환하기 위한 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성을 갖고, 상기 값들(v_j)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들보다 더 큰,
변환하기 위한 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성을 갖고, 상기 값들(v_j)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들보다 더 낮은,
변환하기 위한 방법.
복수의 그라디언트 히스토그램들(h_p)에 기초하여 이미지 기술자(H)를 변환된 이미지 기술자(V)로 변환하기 위한 방법으로서,
상기 복수의 그라디언트 히스토그램들(h_p) 각각은 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 관련되고, 상기 그라디언트 히스토그램들(h_p) 각각은 제 1 항 내지 제 9 항 중 어느 한 항에 따라 변환된 그라디언트 히스토그램 기술자(V)로 변환되는 복수의 히스토그램 빈들(h_i)을 포함하는,
변환하기 위한 방법.
제 10 항에 있어서,
적어도 하나의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램들로 상이하게 변환되는,
변환하기 위한 방법.
제 11 항에 있어서,
복수의 서브영역 그라디언트 히스토그램은, 특히 그들의 빈 값들을 합 또는 평균화함으로써 단일 서브영역 히스토그램으로 결합되는,
변환하기 위한 방법.
제 11 항에 있어서,
상기 적어도 하나의 변환된 서브영역 그라디언트 히스토그램을 획득하기 위해 이용되는 동작들은 그의 이웃하는 서브영역들 중 적어도 하나의 변환된 서브영역 그라디언트 히스토그램들을 획득하기 위해 이용되는 동작들과 적어도 부분적으로 상이한,
변환하기 위한 방법.
제 11 항에 있어서,
상기 적어도 하나의 변환된 서브영역 그라디언트 히스토그램은 그의 이웃하는 서브영역들 중 적어도 하나의 변환된 서브영역 그라디언트 히스토그램들과 상이한 수의 엘리먼트들을 포함하는,
변환하기 위한 방법.
제 14 항에 있어서,
상기 이미지 키포인트(KP)를 직접 둘러싸는 서브영역들(SR_c)에 대하여 변환된 서브영역 그라디언트 히스토그램들은, 잔여 서브영역들(SR_b)의 변환된 그라디언트 히스토그램들의 엘리먼트들(k_b) 보다 더 많은 엘리먼트들(k_c)을 포함하는,
변환하기 위한 방법.
제 15 항에 있어서,
상기 이미지 키포인트(KP)를 직접 둘러싸는 서브영역들(SR_c)의 상기 변환된 그라디언트 히스토그램들의 엘리먼트들은 잔여 서브영역들(SR_b)의 변환된 그라디언트 히스토그램들이 양자화되는 레벨들의 수(q_b) 보다 더 큰 레벨들의 수(q_c)로 양자화되는,
변환하기 위한 방법.
제 16 항에 있어서,
상기 양자화는 상기 서브영역 그라디언트 히스토그램들의 특정한 엘리먼트들에만 적용되는,
변환하기 위한 방법.
제 10 항에 있어서,
상기 변환된 이미지 기술자(V)는 양자화된 변환된 이미지 기술자(V,^~)를 생성하기 위해 양자화 프로세스에 처해지는,
변환하기 위한 방법.
제 1 항 내지 제 18 항에 따른 청구항들을 수행하기 위한 수단을 포함하는 이미지 프로세싱 장치.