KR101565265B1

KR101565265B1 - 피쳐 위치 정보의 코딩

Info

Publication number: KR101565265B1
Application number: KR1020147006300A
Authority: KR
Inventors: 유리 레즈닉; 오누어 씨 함시키; 선딥 바다디; 존 에이치 홍; 총 유 리
Original assignee: 퀄컴 인코포레이티드
Priority date: 2011-08-10
Filing date: 2012-07-31
Publication date: 2015-11-02
Also published as: WO2013022656A2; CN103843011A; KR20140045585A; EP2742486A2; JP5911578B2; US20130039566A1; WO2013022656A3; US8571306B2; CN103843011B; JP2014524693A

Abstract

피쳐 위치들의 코딩을 위한 방법들 및 디바이스들이 개시된다. 하나의 실시형태에서, 이미지의 피쳐 위치 정보를 코딩하는 방법은, 복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하는 단계, 그 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하는 단계, 각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하는 단계, 및 각각의 육각형 셀에서의 피쳐 위치들의 출현들에 따라 히스토그램을 인코딩하는 단계를 포함한다. 히스토그램을 인코딩하는 방법은, 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하는 단계를 포함하며, 그 콘텍스트 정보는 인코딩될 후속 육각형 셀의 제 1 순서 이웃들로부터의 콘텍스트 정보와 인코딩될 후속 육각형 셀의 제 2 순서 이웃들로부터의 콘텍스트 정보를 포함한다.

Description

피쳐 위치 정보의 코딩{CODING OF FEATURE LOCATION INFORMATION}

관련 출원들에 대한 상호 참조

본 출원은 2011년 9월 9일자로 출원된 미국 출원 제13/229,654호 "Coding of Feature Location Information" 의 혜택을 주장하며, 본 출원은 차례로 2011년 8월 10일자로 출원된 미국 가출원 제61/522,171호 "Coding of Feature Location Information" 의 혜택을 주장한다. 앞서 언급된 미국 출원들은 이로써 전부 참조에 의해 본원에 원용된다.

분야

본 개시는 디지털 이미지 데이터를 프로세싱하는 분야에 관한 것이다. 특히, 본 개시는 이미지의 피쳐 위치 정보의 코딩에 관한 것이다.

카메라-폰들 및 개인휴대 정보단말 (PDAs) 이 시장에서 널리 채택되며, 그것들은 시각적 검색 및 이동 증강 현실 애플리케이션들을 위한 유비쿼터스 플랫폼들이 되고 있다. 이미지 비교를 요구하는 애플리케이션을 지원하기 위해, 정보는 이동 디바이스로부터 서버로 업로드되거나, 또는 서버로부터 이동 디바이스로 다운로드될 필요가 있다. 무선 네트워크를 통해 송신되거나 및/또는 수신될 데이터의 양은 이러한 애플리케이션들의 성능 및 사용 용이성에 중요하게 되었다.

기존의 피쳐 기반 취출 시스템들은 통상 위치 정보를 코딩하기 위해 간단한 체계를 채용한다. 이러한 시스템들에서, 각각의 피쳐의 (x, y) 좌표들은 얼마간의 고정된 해상도, 이를테면 피쳐 위치 당 8 비트로 양자화된다. 그 다음에 이러한 양자화된 (x, y) 쌍들은 저장되고 송신된다. 예를 들어, 일천 개의 피쳐들을 갖고 8-비트 해상도가 이용되는 이미지로, 이 체계는 이미지 당 약 2K 바이트의 데이터를 필요로 한다. 이러한 데이터 코딩 체계는 큰 양의 데이터가 무선 네트워크를 통해 송신될 필요가 있게 하며, 이는 차례로 시각적 검색 및 이동 증강 현실 애플리케이션들을 위한 성능 및 사용 용이성에 악영향을 미친다.

그러므로, 기존의 시스템들의 위의 문제들을 다룰 수 있는 피쳐 위치 정보를 코딩하는 시스템들 및 방법들이 요망된다.

본 개시는 이미지의 피쳐 위치 정보의 코딩에 관련된다. 본 개시의 실시형태들에 따르면, 이미지의 피쳐 위치 정보를 코딩하는 방법은, 복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하는 단계, 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하는 단계, 각각의 육각형 셀에서의 피쳐 위치들의 출현을 기록하기 위해 히스토그램을 생성하는 단계, 및 각각의 육각형 셀에서의 피쳐 위치들의 출현 수에 따라 히스토그램을 인코딩하는 단계를 포함한다.

육각형 그리드를 생성하는 방법은, 피쳐 위치 정보의 미리 결정된 양자화 레벨에 따라 육각형 셀들의 사이즈를 결정하는 단계를 포함한다. 피쳐 위치들을 양자화하는 방법은, 2차원 평면으로부터 3차원 공간으로의 각각의 피쳐 위치의 좌표들의 변환을 수행하는 단계, 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하는 단계, 및 3차원 공간에서 육각형 평면에 속하는지 변환된 좌표들을 검증하는 단계를 포함한다. 변환이 가역적임에 유의한다. 3차원 공간에서 육각형 평면에 속하는지 변환된 좌표들을 검증하기 위해, 그 방법은 변환된 좌표들의 합을 컴퓨팅하고, 변환된 좌표들의 합이 0과 같다는 것을 검증한다.

히스토그램을 생성하는 방법은, 각각의 육각형 셀에서 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하는 단계, 및 각각의 육각형 셀에서 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하는 단계를 포함한다. 히스토그램을 인코딩하는 방법은, 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하는 단계를 포함하며, 그 콘텍스트 정보는 인코딩될 후속 육각형 셀의 제 1 순서 이웃들로부터의 콘텍스트 정보와 제 2 순서 이웃들로부터의 콘텍스트 정보를 포함할 수도 있다.

다른 실시형태에서, 이동 디바이스가 이미지를 획득하도록 구성된 이미지 모듈, 이미지의 인코딩된 피쳐 위치 정보를 생성하도록 구성된 시각적 검색 모듈, 및 이미지의 인코딩된 피쳐 위치 정보를 무선 네트워크를 통해 서버로 통신하도록 구성된 제어기를 구비한다. 이동 디바이스의 시각적 검색 모듈은, 복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하기 위한 로직, 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하기 위한 로직, 각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하기 위한 로직, 및 각각의 육각형 셀에서의 피쳐 위치들의 출현들에 따라 히스토그램을 인코딩하기 위한 로직을 포함한다.

본 개시의 앞서 언급된 특징들 및 이점들, 뿐만 아니라 그것의 부가적인 특징들 및 이점들은, 다음의 도면들에 연계하여 본 개시의 실시형태들의 상세한 설명을 읽은 후에 더욱 명백하게 이해가능할 것이다.
도 1a 및 도 1b는 본 개시의 일부 양태들에 따른 피쳐 위치 히스토그램을 생성하는 방법을 예시한다.
도 2는 본 개시의 일부 양태들에 따른 피쳐 위치 히스토그램을 생성하는 다른 하나의 방법을 예시한다.
도 3a는 본 개시의 일부 양태들에 따른 3차원 (3D) 공간에서 육각형 평면을 갖는 피쳐 위치 정보를 표현하는 방법을 예시한다.
도 3b는 본 개시의 일부 양태들에 따른 육각형 셀의 특성들을 예시한다.
도 4a 및 도 4b는 본 개시의 일부 양태들에 따른 히스토그램 값들의 적응적 통계 인코딩을 위해 콘텍스트 구성들을 적용하는 것을 예시한다.
도 5는 본 개시의 일부 양태에 따른 정사각형 격자 및 육각형 격자를 활용하는 피쳐 위치 코딩 체계들의 비교를 예시한다.
도 6a는 본 개시의 일부 양태들에 따른 시각적 검색을 수행하도록 구성된 이동 디바이스의 블록도를 예시한다.
도 6b는 본 개시의 실시형태들에 따른 이미지 취출을 위한 방법을 예시한다.
도 6c는 본 개시의 실시형태들에 따른 이미지의 피쳐 위치 정보를 코딩하는 방법을 예시한다.
도 7a 및 도 7b는 본 개시의 실시형태들에 따른 시각적 검색 기능의 예시적인 구현예들을 도시한다.
도 8a 내지 도 8b는 본 개시의 실시형태들에 따른 피쳐 위치 인덱싱 시에 어휘 트리 및 연관된 반전된 인덱스를 이용함을 예시한다.

피쳐 위치 정보를 코딩하는 실시형태들이 개시된다. 다음의 설명들은 당업자가 본 개시를 제작하고 사용하는 것이 가능하게 제공된다. 특정 실시형태들 및 애플리케이션들의 설명들은 예들로서만 제공된다. 본원에서 설명되는 예들의 다양한 변경들 및 조합들이 당업자들에게 쉽게 명확해질 것이고, 본원에서 정의된 일반 원리들은 본 개시의 사상 또는 범위로부터 벗어남 없이 다른 예들 및 애플리케이션들에 적용될 수도 있다. 따라서, 본 개시는 본원에서 설명되고 도시된 예들로 한정하도록 의도된 것이 아니라, 본원에서 개시된 원리들 및 특징들과 일치하는 가장 넓은 범위가 부여되야 한다.

도 1a는 국제 이동 멀티미디어 통신 컨퍼런스의 프로시딩, 2009년 9월 호 중에서 Tsai 등에 의한 "Location coding for mobile image retrieval systems"에 설명된 바처럼 직사각형 그리드들을 이용하여 피쳐 위치 히스토그램을 생성하는 방법을 도시한다. 이 참고문헌은 전부 참조에 의해 본원에 원용된다. 102에서, 흑색 도트들이 이미지의 피쳐 (feature) 들을 표현한다. 104에서, 이미지는, 다수의 정사각형 셀들을 포함하는 정사각형 그리드로 오버레이된다. 애플리케이션에 따라, 각각의 정사각형 셀의 사이즈는 2x2 정사각형 픽셀들로부터 32x32 정사각형 픽셀들로 변화될 수 있다. 106에서, 이미지의 피쳐들의 위치들을 보이는 히스토그램 맵이 생성된다. 흑색 도트들을 포함하는 히스토그램 맵에서의 셀들은 회색으로 도시되고, 흑색 도트들을 포함하지 않는 셀들은 백색으로 도시된다. 피쳐가 2 개의 정사각형 셀들 사이의 경계 상에 놓이는 경우에, 피쳐의 더 큰 면적을 포함하는 정사각형 셀이 선택된다. 피쳐가 2 개의 셀들 사이에 동등하게 분배되는 경우에, 셀들 중 어느 하나가 선택될 수 있다. 108에서, 히스토그램 카운트가 106의 히스토그램 맵에 기초하여 생성된다. 정사각형 셀에서의 숫자는 106의 히스토그램 맵에서 그 셀에 속하는 피쳐들의 수를 나타낸다.

본 개시의 실시형태들에 따르면, n 이 이미지의 피쳐들의 수를 나타내는 것으로 하고, m 이 히스토그램에서의 셀들의 수를 나타내는 것으로 한다. 그 다음에, 비디오 그래픽스 어레이 (VGA) 이미지가 주어지면 그리고 SIFT (Scale-Invariant Feature Transform) 또는 SURF (Speed Up Robust Feature) 을 사용하여, n=1000 에 대해, m=640*480/w² 이며, 여기서 w 는 셀의 사이즈 (픽셀 단위) 이다.

맴버들이 한번보다 많이 나타나는 것이 허용되는 멀티세트의 개념이, 피쳐 위치 정보의 히스토그램을 표현하는데 사용될 수도 있다는 것에 유의한다. 원소가 멀티세트에 속하는 횟수는 그 맴버의 중복도 (multiplicity) 이다. 반복되는 맴버들을 포함하여 멀티세트에서의 원소들의 총 수는, 멀티세트의 카디널리티 (cardinality) 이다. 예를 들어, 멀티세트 {a, a, b, b, b, c} 에서 맴버들 (a, b, 및 c) 의 중복도들은 각각 2, 3, 및 1이고, 멀티세트의 카디널리티는 6 이다.

도 1a에 도시된 예에서, 원소들이 카디널리티 m의 유한 집합으로부터 취해지는 카디널리티 n의 멀티세트들의 수는, 멀티세트 계수 또는 멀티세트 수이다. m 개의 셀들 및 n 의 총수를 갖는 가능한 히스토그램들의 수는 다음 멀티세트 계수에 의해 주어진다:

결과적으로, 모든 히스토그램들의 동일한 확률을 가정하면, 그것은 약 다음

비트들을 취하여 그것을 인코딩할 수도 있다. 위의 표현식들에서, O 는 빅오 표기법 (Big O notation) 을 나타내며, 이는 인수 (argument) 가 특정 값 또는 무한대를 향하는 경향이 있을 경우의 함수의 극한 거동 (limiting behavior) 을, 보통 더 간단한 함수들의 식으로 설명한다. 빅오 표기법은 동일한 성장 레이트를 갖는 상이한 함수들이 동일한 빅오 표기법을 이용하여 표현될 수도 있도록 함수들을, 그 함수들의 성장 레이트들에 따라 특성화한다. 또한, α 는 상수이고

는 다음 엔트로피 함수라고 가정한다:

이 공식을 이용하는 것에 의해 획득된 수가 n=1000 및, m=640*480/w² 에 대해 나타내어지고, 여기서 w 는 위치 히스토그램 블록 사이즈를 나타낸다. 피쳐 위치 당 비트수 (bits-per-feature-location) 대 위치 히스토그램 블록 사이즈 w 의 플롯이 도 1b에 도시된다. 이 플롯에서, 블록 사이즈가 작은 (예컨대 2 개의 픽셀들인) 경우, 피쳐 위치 정보의 코딩의 레이트는 크다 (약 8 비트/피쳐). 블록 사이즈가 증가함에 따라, 피쳐 위치 정보의 코딩의 레이트는 감소한다. 블록 사이즈가 약 30 픽셀인 경우, 코딩 레이트는 약 1 비트/피쳐이다. 도 1b는 Tsai 등에서 보고된 경험적 엔트로피 추정치들을 포함한다. 경험적 엔트로피 추정값들은 모델 정보의 송신의 비용을 설명하지 않고, 그러므로 그것들은 위의 공식에 의해 예측된 곡선보다 약간 아래로 떨어진다는 것에 유의한다. 대체로, 그것들은 위치 히스토그램 블록 사이즈 w 에 대해 유사한 경향을 따른다.

또한, 이 체계에 의해 도입된 (반경을 커버하는) 왜곡은 블록 사이즈 w 에 정비례할 수 있고 주어진 포인트 q 및 그것의 대응하는 재구성된 포인트 q' 에 대해, 다음과 같다는 것에 또한 유의한다:

,

.

위의 관계들을 이용하여, (예컨대 L₂ 개 놈 (norm) 들에 대해) 히스토그램 위치 코딩을 위한 레이트 왜곡 특성은 다음과 같이 표현될 수 있으며:

여기서 W 및 H 는 입력 이미지의 폭 및 높이를 나타내며, n 은 피쳐들의 수이고, 우변의 점근식 (asymptotic expression) 은 높은 피델리티 (ε→0) 레짐 (regime) 에 대해 획득된다.

도 2는 본 개시의 일부 양태들에 따른 피쳐 위치 히스토그램을 생성하는 다른 하나의 방법을 예시한다. 202에서, 흑색 도트들은 이미지의 피쳐들을 표현한다. 204에서, 그 이미지는 육각형 그리드 (육각형 격자로도 지칭됨) 로 오버레이되며, 육각형 그리드는 다수의 육각형 셀들을 포함한다. 206에서, 이미지의 피쳐들의 위치들을 보이는 히스토그램 맵이 형성될 수 있다. 이 예에서, 흑색 도트들을 포함하는 히스토그램 맵에서의 셀들은 회색으로 도시되고, 흑색 도트들을 포함하지 않는 셀들은 백색으로 도시된다. 피쳐가 2 개의 육각형 셀들 사이의 경계 상에 놓이는 경우에, 피쳐의 더 큰 면적을 포함하는 육각형 셀이 선택된다. 피쳐가 2 개의 셀들 사이에 동등하게 분배되는 경우에, 셀들 중 어느 하나가 선택될 수 있다. 208에서, 히스토그램 카운트가 206의 히스토그램 맵에 기초하여 생성될 수 있다. 육각형 셀에서의 숫자는 206의 히스토그램 맵에서 그 셀에 속하는 피쳐들의 수를 나타낸다. 육각형 셀들의 상이한 사이즈들은 피쳐 위치 정보에 대한 상이한 양자화 레벨들, 이를테면 피쳐 당 4, 5, 또는 6 개 비트들을 낳도록 채용될 수 있다는 것에 유의한다. 예를 들어, 육각형 그리드에서 육각형 셀의 일측은 2, 4, 8, 16, 또는 32 개 픽셀들의 사이즈를 가질 수 있다. 육각형 셀의 각각의 사이즈에 대해, 히스토그램 맵의 엔트로피는 피쳐 당 상이한 비트 레이트들과 이미지 당 상이한 비트 레이트들을 가질 수 있고, 히스토그램 카운트의 엔트로피는 피쳐 당 상이한 비트 레이트들을 가질 수 있으며, 여기서 비트 레이트들은 상이한 이미지들에 대해 가변할 수 있다. 마찬가지로, 육각형 셀의 각각의 사이즈, 즉 2, 4, 8, 16, 또는 32 개 픽셀들이, 피쳐 위치 정보에 대한 상이한 양자화 레벨들을 낳을 수 있다. 히스토그램 맵 및 히스토그램 카운트는 따로따로 인코딩될 수 있고, 이웃하는 육각형 셀들의 피쳐들의 공간적 관계는 히스토그램 맵을 코딩하는 경우에 이용될 수 있다.

도 2에 도시된 방법은 공간적 피쳐 위치들의 정사각형 격자 구획 (lattice partition) 을 육각형 격자 구획으로 대체한다. 이 접근법으로, 육각형 격자로 양자화된 피쳐 위치들의 히스토그램이 컴퓨팅되고, 그 다음에 컴퓨테이션의 결과는 인코딩된다. 피쳐 위치 히스토그램을 생성하는 목적은 각각의 피쳐의 위치 정보를 인코딩하는데 필요한 비트들의 수를 감소시키는 것이다. 각각의 피쳐의 위치 정보를 코딩하는 대신, 하나의 접근법은 피쳐들의 위치 정보를 위치 히스토그램으로 전환하고, 위치 히스토그램을 코딩하는 것이다. 위치 정보를 위치 히스토그램으로 전환하고 그 히스토그램을 코딩하는데에는 이점들이 있다. 첫째, 코딩된 아이템들의 순서에 기초하지 않은 코딩 방법들이 허용되고, 이에 따라 코딩의 비트 레이트를 감소시킨다. 덧붙여서, 피쳐들이 이미지에서의 구조적 포인트들이 될 수 있으므로, 피쳐들 간의 공간적 구조 관계는 코딩 프로세스에서 이용될 수 있다.

도 3a는 본 개시의 일부 양태들에 따른 3차원 (3D) 공간에서 육각형 평면을 갖는 피쳐 위치 정보를 표현하는 방법을 예시한다. 도 3a에 도시된 바와 같이, 3D 공간은 u 축, v 축, 및 w 축에 의해 정의된 큐브 (302) 로서 도시된다. 305, 306, 307, 308, 309, 및 310에 있는 꼭짓점 (vertex) 들로 도시된 육각형 평면 (304) 이 형성될 수도 있다. 이 예에서 육각형 평면 (304) 의 중심 (312) 은 또한 좌표들 (0.0, 0.0, 및 0.0) 을 갖는 큐브 (302) 의 중심이다.

본 개시의 실시형태들에 따르면, 육각형 평면으로 피쳐 위치 정보를 표현하는 방법은 이미지 피쳐의 좌표들 (x, y) 을 2차원 (2D) 공간으로부터 3D 공간의 육각형 평면 (304) 으로 투영할 수 있다. 3D 공간에서의 포인트는 육각형 평면 상에 있고 그것의 u, v, 및 w 좌표들의 합이 다음 조건을 만족한다.

.

하나의 예시적인 접근법에서, 다음의 매트릭스는 2D 공간에서의 포인트를 3D 공간으로 변환하는데 이용되며:

,

그리고 위의 매트릭스는 다음의 조건을 만족한다:

.

이는 다음의 변환:

이 다음과 같이 가역적일 수 있다는 것을 의미한다:

그러한 변환의 일 예는 도 3a에서 도시된다. 평면

상의 육각형 격자는 정수 좌표들을 갖는 포인트들 (314a 및314b) 과 같은 포인트들의 세트이다:

본 개시의 실시형태들에 따르면, 3D 공간에서 변환된 포인트를 양자화하는 방법은 다음의 컴퓨테이션들을 포함한다.

3D 공간에서 다음의 좌표들을 갖는 포인트 q가 주어진다고 하면

는

다음의 포인트를 정의하고:

여기서

는 실수 x 에 가장 가까운 정수를 나타낸다.

합을 컴퓨팅하고 양자화된 포인트가 육각형 평면 상에 있는지 다음과 같이 검증된다:

양자화된 포인트가 육각형 평면 상에 있음을 의미하는 Δ=0 이면, 이 프로세스는 완료된다. 다르게 말하면, q' 은 육각형 평면

에 속하고, 그러므로 그것은 유효한 격자 포인트이다.

에러들을 다음과 같이 계산하며:

그리고 그 에러들을 다음과 같이 정렬한다:

Δ > 0 이면, 에러들 δ_i 중 최고 값들을 갖는 q' 의 Δ 성분들로부터 1을 감산한다. Δ < 0 이면, 에러들 δ_i 중 최소 값들을 갖는 q' 의 |Δ| 성분들에 1을 가산한다. 이미지 피쳐 위치들 (x, y) 의 격자 포인트들로의 매핑의 조도 (coarseness) 를 제어하기 위하여, 스케일 파라미터 σ 가 도입될 수 있다. 전체 양자화 프로세스는 다음의 변환들의 시리즈로서 설명될 수 있다는 것에 유의한다:

복원된 값들 (x', y') 은 다음과 같이 획득된다:

본 개시의 실시형태들에 따르면, 격자 포인트들이 열거되고 인코딩될 수 있는 여러 기법들이 있다. 하나의 접근법은 그 방법이 이미지 좌표들 (x, y) 의 래스터 스캔을 수행함에 따라 육각형 셀들이 나타나는 순서를 따르는 것이다. 대안으로, 그 방법은 그것들의 좌표들의 값들의 사전식 순서에 따라 육각형 셀들을 열거한다.

일부 구현예들에서, 그 방법은 이미지 좌표들을 포함하는 셀들을 스캔하고, 각각의 셀에 매핑되는 피쳐들의 수를 카운트한다. 히스토그램이 컴퓨팅된 후, 그것은 고유 인덱스에 매핑된 다음 인코딩될 수 있다. 위에서 나타낸 바와 같이, m 개의 셀들 및 n 총수를 갖는 가능한 히스토그램들의 수는 다음 멀티세트 계수에 의해 주어지며:

그리고 히스토그램 인덱스를 표현하는데 필요한 레이트는 다음과 같다:

비트.

본 개시의 실시형태들에 따르면, 다양한 코딩 기법들이 도 2의 히스토그램 맵 (206) 및 히스토그램 카운트 (208) 를 코딩하는데 채용될 수도 있다. 하나의 접근법에서, 히스토그램은 고유 사전적 인덱스로 전환되고, 그 다음에 R(m, n) 개 비트를 갖는 고정 길이 코드를 이용하여 인코딩될 수 있다. m 개의 빈 (bin), n 총 카운트, 및 각각의 빈에서의 개개의 카운트들 (k₁, ..., k_m) 을 갖는 히스토그램이 주어진다고 하면, 고유 인덱스 I(k₁, ..., k_m) 은 다음과 같이 획득될 수도 있으며, 이는 Y. A. Reznik의 "An Algorithm for Quantization of Discrete Probability Distributions" 데이터 압축 컨퍼런스의 프로시딩 (DCC'11), 2011년 3월호 페이지 333-343에 기재되어 있고, 이는 그것의 전부가 참조로 본원에 통합된다:

이 공식은 (m=2, 3, ...으로 시작하여) 유도되고 유형들의 사전식 열거를 구현한다. 예를 들면 다음과 같다:

다른 접근법에서, 히스토그램 맵에서의 빈 블록 (empty block) 들은 래스터 스캔 순서에서 런 길이들로 전환될 수 있다. 런 길이들은 그 다음에 엔트로피 코더를 사용하여 코딩된다. 엔트로피 코더는 골롬-라이스 (Golomb-Rice) 코드들, 허프만 코드들, 또는 산술 코드들 중 적어도 하나를 채용할 수도 있다. 다른 접근법에서, 그 방법은 키 포인트들의 공간적 분포들의 속성들을 캡처하는 가변 길이 코딩 체계를 채용한다. 또 다른 접근법에서, 여러 주변 육각형 셀들에서의 히스토그램 값들은 콘텍스트들로서 이용된다. 이러한 콘텍스트 구성들은 도 4a 및 도 4b와 연계하여 추가로 설명된다.

도 4a 및 도 4b는 본 개시의 일부 양태들에 따른 히스토그램 값들의 적응 통계적 인코딩을 위한 콘텍스트 구성들을 적용하는 것을 예시한다. 도 4a에서, 육각형 그리드에서의 육각형 셀 X 를 인코딩하기 위해, 제 1 순서 이웃들 (A, B, 및 C) 로부터의 콘텍스트 정보가 육각형 히스토그램 맵 및 히스토그램 카운트를 인코딩하는데 이용될 수 있다. 이 예에서, 제 1 순서 이웃들 (A, B, 및 C) 은 이전에 인코딩된 육각형 셀들이고, 육각형 셀 X 는 인코딩될 후속 육각형 셀이다. 유사하게 도 4b에서, 육각형 그리드에서의 육각형 셀 Y 를 인코딩하기 위해, 제 1 및 제 2 순서 이웃들 (A, B, C, D, E, F, G, H, 및 I) 로부터의 콘텍스트 정보가 육각형 히스토그램 맵 및 히스토그램 카운트를 인코딩하는데 이용될 수 있다. 제 1 순서 및 제 2 순서 이웃들 (A, B, C, D, E, F, G, H, 및 I) 은 이전에 인코딩된 육각형 셀들이고, 육각형 셀 Y 는 인코딩될 후속 육각형 셀이다.

정사각형 격자와 비교하여, 육각형 격자는 콘텍스트들로서 이용될 수 있는 포인트들의 보다 나은 배치를 제공한다는 것에 유의한다. 예를 들어, 도 4a에서, 3 개의 제 1 순서 이웃 육각형 셀들 (A, B, 및 C) 은 콘텍스트들로서 이용될 수 있다. 정사각형 격자에서는, 스캔 방향들이 좌에서 우로 그리고 위에서 아래로 향한다고 가정하면, 2 개의 이러한 제 1 순서 이웃 정사각형 셀들, 즉 위의 정사각형 셀 및 좌측의 정사각형 셀만이 이용가능하다.

육각형 격자는 정사각형 격자에 비해 2차원 (2D) 공간의 보다 얇은 커버링을 생성한다는 것에 유의한다. 이는 피쳐 위치 표현의 정확도를 개선시킨다. 도 4a 및 도 4b에 도시된 바와 같이, 육각형 공간으로의 매핑은 콘텍스트 모델링 및 엔트로피 코딩 관점에서 유익하다. 이미지 피쳐 위치들을 육각형 공간으로 옮기는 방법은 실제 픽셀 값들을 변경하지 않으며, 이는 컴퓨테이션 자원들의 측면에서 효과적인 방식으로 수행될 수 있다는 것을 의미한다는 것에 유의한다.

다음의 섹션들은 육각형 격자를 활용하여 피쳐 위치 정보를 코딩하는 이점을 분석한다. 하나의 접근법은 제안된 체계의 레이트 왜곡 특성을 추정하고 정사각형 격자를 활용하여 피쳐 위치 정보를 코딩하는 체계와 비교하는 것이다.

다음의 2 개의 격자 포인트들 (0,0,0) 및 (0,1,1) 을 고려하고 그것들을 픽셀 도메인로 다시 전환한다. 이러한 전환은 다음의 매핑에 의해 행해진다는 것을 상기하며:

여기서 σ는 스케일 파라미터이다. 이는 다음을 만든다:

; 및

픽셀 도메인에서 이들 포인트들 사이의 거리는 다음과 같다:

.

도 3b에 도시된 바와 같은 육각형 셀의 높이에 대응하는 격자 도메인에서의 동일한 거리는 다음과 같다:

.

픽셀 도메인에서의 셀 반경은 다음으로 표현될 수 있다:

마찬가지로, 단일 육각형 셀에 의해 점유된 면적은 다음으로 표현될 수 있다:

H x W 픽셀들을 갖는 이미지가 주어지면, 그것을 커버하기 위하여 적어도 다음

의 육각형 셀들을 필요로 한다. 이 경우에서 L2-놈 기반 양자화 에러는 다음의 커버링 (covering) 반경과 같다:

.

이는 추가로 다음의 관계:

뿐만 아니라 다음의 레이트 왜곡 함수를 생성한다:

비교 시, 정사각형 격자에 대한 레이트 왜곡 함수는 다음과 같다:

그러므로, 제안된 양자화 체계는 동일한 워스트 케이스 (worst-case) 정밀도를 유지하면서, 대략

비트들/피쳐 포인트 (bits/feature point) 를 절약할 수 있다.

도 5는 본 개시의 일부 양태에 따른 정사각형 격자 및 육각형 격자를 활용하는 피쳐 위치 코딩 체계들의 비교를 예시한다. 플롯 (502) 은 육각형 격자 코딩 체계를 이용하여 양자화 에러에 대한 피쳐 위치 당 비트들을 표현한다. 플롯 (504) 은 정사각형 격자 코딩 체계를 이용하여 양자화 에러에 대한 피쳐 위치 당 비트들을 표현한다. 양쪽 모두의 플롯들은 약 일천 개의 피쳐들을 갖는 VGA 이미지들을 이용한다. 이 예에서 보인 바와 같이, 위치 코딩이 5 비트/피쳐의 비트 레이트로 동작하면, 육각형 격자 코딩 체계는 정사각형 격자 코딩 체계에 비해 비트-레이트에서 대략 8.16% 개선을 갖는다.

본 개시의 실시형태들은 이미지 피쳐 위치 정보의 코딩에 대한 개선된 기법을 설명한다. 그 기법은 피쳐 위치들의 양자화를 위한 육각형 격자, 격자 셀들에서의 피쳐 위치들의 출현들의 히스토그램의 구축, 및 이 히스토그램의 인코딩을 활용한다. 이 기법의 성능은 분석되고 정사각형 격자를 활용한 히스토그램 코딩 (위치 파라미터들의 스칼라 양자화) 의 성능과 비교된다. 제안된 체계가 위치 코딩의 비트 레이트들에서 상당한 개선을 이른다고 나타났다. 그 기법은 이동 플랫폼들에 대한 구현예에 적합하다.

개시된 방법들은 시각적 검색 및 증강 현실 (AR) 시스템들이 다수의 태스크들을 수행하기 위해 피쳐 위치 정보에 의존하는 이동 디바이스들에 적용가능할 수도 있다. 예를 들어, 피쳐 위치 정보는 1) 이미지들 사이의 매치 (match) 들의 기하학적 검증; 2) 동일한 오브젝트의 뷰들 사이의 기하학적 변환의 파라미터들을 컴퓨팅; 3) 관심 오브젝트의 경계들의 로케이팅 (locating) 및 투영; 및 4) 부가적인 정보로, 캡처된 이미지 또는 비디오에서의 인식된 오브젝트들의 뷰들의 보강, 및 다른 목적들을 위해 이용될 수 있다.

일부 경우들에서, AR 및 시각적 검색 시스템들은 위치 정보가 콤팩트하고 사용하기 쉬운 형태로 표현된다면 유익할 수 있다. 콤팩트니스 (compactness) 는 위치 정보가 무선 네트워크를 통해 송신될 필요가 있는 경우에 특히 중요하다. 위치 정보의 정밀도의 얼마간의 손실이 또한 허용될 수도 있지만, 취출 정확도 뿐만 아니라 지역들/오브젝트들 및 기하학적 변환의 파라미터들을 매치시키는 로컬화의 정확도에 영향을 줄 수도 있으므로, 어느 정도까지만 허용될 수도 있다.

도 6a는 본 개시의 일부 양태들에 따른 시각적 검색을 수행하도록 구성된 이동 디바이스의 블록도를 예시한다. 이동 디바이스에서, 안테나 (602) 는 기지국으로부터 변조된 신호들을 수신하고 수신된 신호들을 모뎀 (604) 의 복조기 (DEMOD) 파트에 제공한다. 복조기는 수신된 신호를 프로세싱 (예컨대, 컨디셔닝 및 디지털화) 하고 입력 샘플들을 획득한다. 그것은 추가로 입력 샘플들에 대한 직교 주파수 분할 다중화 (OFDM) 복조를 수행하고 모든 부반송파들에 대해 주파수-도메인 수신된 심볼들을 제공한다. RX 데이터 프로세서 (606) 는 주파수-도메인 수신된 심볼들을 프로세싱 (예컨대, 심볼 디매핑, 디인터리빙, 및 디코딩) 하고 디코딩된 데이터를 이동 디바이스의 제어기/프로세서 (608) 에 제공한다.

제어기/프로세서 (608) 는 무선 네트워크를 통해 서버와 통신하기 위해 이동 디바이스를 제어하도록 구성될 수 있다. TX 데이터 프로세서 (610) 가 시그널링 심볼들, 데이터 심볼들, 및 파일럿 심볼들을 생성하며, 그것들은 모뎀 (604) 의 변조기 (MOD) 에 의해 프로세싱되고 안테나 (602) 를 통해 기지국으로 송신될 수 있다. 덧붙여서, 제어기/프로세서 (608) 는 이동 디바이스에서 다양한 프로세싱 유닛들의 동작을 지시한다. 메모리 (612) 는 이동 디바이스를 위한 프로그램 코드들 및 데이터를 저장하도록 구성될 수 있다. 이미지 모듈 (616) 은 이미지를 획득하도록 구성될 수 있다. 시각적 검색 모듈 (614) 은 이미지의 피쳐 위치 정보를 코딩하는 방법들 뿐만 아니라 아래에서 설명되는 이미지 취출 방법들을 구현하도록 구성될 수 있다.

본 개시의 실시형태들에 따르면, 콘텐츠 기반 이미지 취출은 "Bag of Features" (BoF) 또는 "Bag of Words" (BoW) 라고 지칭되는 접근법을 이용할 수 있다. BoW 접근법은 텍스트 문서 취출로부터 파생된다. 특정 텍스트 문서, 이를테면 웹 페이지를 찾기 위해, 몇개의 잘 선택된 단어들을 사용하면 충분하다. 데이터베이스에서, 문서 자체는 마찬가지로, 이들 두드러진 단어들의 "bag"에 의해 똑같이 표현될 수 있는데, 이들 단어들이 문서에서 어디에 나타나는 곳에 상관없다. 이미지들의 경우, 특정 이미지의 특성인 강건한 (robust) 로컬 피쳐들이 "시각적 단어들"의 역할을 한다. 텍스트 취출처럼, BoF 이미지 취출은, 적어도 취출 파이프라인의 초기 스테이지들에서, 이미지에서 피쳐들이 어디에 나타나는지를 고려하지 않는다.

도 6b는 본 개시의 실시형태들에 따른 이미지 취출을 위한 방법을 예시한다. 블록 622에서, 그 방법은 쿼리 이미지를 획득한다. 블록 624에서, 로컬 이미지 피쳐들/디스크립터들이 쿼리 이미지로부터 추출된다. 블록 626에서, 이러한 디스크립터들은 그 다음에 데이터베이스 (630) 에 저장된 이미지들의 디스크립터들와 매칭된다. 디스크립터 매칭 기능은 로컬 이미지 피쳐들의 매칭, 최고 스코어들을 갖는 이미지들의 선택, 및 기하학적 검증의 수행을 더 포함할 수도 있다. 블록 628에서, 쿼리 이미지와 공통되는 많은 피쳐들을 갖는 이미지들이 그 다음에 선택되고 리스트화된다. 아래에서 설명되는 기하학적 검증 단계는 뷰잉 포지션의 변화에 의해 그럴듯하게 설명될 수 없는 피쳐 위치들과의 매치들을 거절하는데 이용될 수 있다.

도 6b에 도시된 방법은 대규모 이미지 취출을 위한 파이프라인으로서 구현될 수 있다. 첫째, 로컬 피쳐들 (또한 디스크립터들이라고 지칭됨) 이 쿼리 이미지로부터 추출된다. 로컬 피쳐들의 세트는 쿼리 및 데이터베이스 이미지들 사이의 유사성을 평가하는데 사용된다. 이동 애플리케이션들에 유용하기 위해, 개개의 피쳐들은 사용자가 상이한 시점으로부터 그리고 대응하는 데이터베이스 이미지에 비해 상이한 조명 (lighting) 으로 쿼리 포토를 취하는 경우에 직면하는 기하학적 및 측광계적 왜곡들에 대해 강건해야 한다. 다음으로, 쿼리 피쳐들은 데이터베이스에 저장된 이미지들의 피쳐들에 매칭된다. 이는, 특수한 인덱스 구조들을 이용하여 달성되어, 매칭 피쳐들을 포함하는 이미지들의 리스트들에 대한 고속 액세스를 허용할 수 있다. 그것들이 쿼리 이미지와 공통으로 가지는 피쳐들의 수에 기초하여, 잠재적으로 유사한 이미지들의 쇼트 리스트 (short list) 이 데이터베이스로부터 선택된다. 마지막으로, 기하학적 검증 단계가 데이터베이스에서의 가장 유사한 매치들에 적용된다. 기하학적 검증은 쿼리 이미지의 피쳐들 및 후보 데이터베이스 이미지의 피쳐들 사이의 코히어런트 공간적 패턴을 찾아 매치가 올바르도록 보장한다.

도 6c는 본 개시의 실시형태들에 따른 이미지의 피쳐 위치 정보를 코딩하는 방법을 예시한다. 도 6c에 도시된 바와 같이, 블록 632에서, 그 방법은 복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하고, 피쳐 위치 정보의 미리 결정된 양자화 레벨 (이를테면 피쳐 당 4, 5, 또는 6 비트) 에 기초하여 육각형 셀들의 사이즈를 결정한다.

블록 634에서, 그 방법은 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화한다. 각각의 피쳐 위치에 대해, 그 방법은 2차원 평면으로부터 3차원 공간으로 피쳐 위치의 변환된 좌표들을 생성하며, 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하고, 3차원 공간에서 육각형 평면에 속하는지 변환된 좌표들을 검증한다. 변환된 좌표들을 검증하는 것은, 변환된 좌표들의 합을 컴퓨팅하고 변환된 좌표들의 합이 0과 같은지 검증하는 것에 의해 행해진다.

블록 636에서, 그 방법은 각각의 육각형 셀에서 피쳐 위치들의 출현들을 기록하는 히스토그램을 생성한다. 그 히스토그램은 각각의 육각형 셀에서 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵, 각각의 육각형 셀에서 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 포함한다.

블록 638에서, 그 방법은 각각의 육각형 셀에서의 피쳐 위치들의 출현들에 따라 그 히스토그램을 인코딩한다. 그 방법은 히스토그램을 고유 사전적 인덱스로 전환하고, 고정 길이 코드를 이용하여 고유 사전적 인덱스를 인코딩한다. 덧붙여서, 그 방법은 히스토그램의 빈 블록들을 래스터 스캔 순서에서의 런 길이들로 전환하고, 엔트로피 코더를 이용하여 그 런 길이들을 인코딩한다. 엔트로피 코더는 골롬-라이스 코드들, 허프만 코드들, 또는 산술 코드들을 채용할 수도 있다.

다른 접근법에서, 히스토그램을 인코딩하는 것은 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용할 수도 있다. 그 콘텍스트 정보는 인코딩될 후속 육각형 셀의 제 1 순서 이웃들 및 제 2 순서 이웃들로부터의 콘텍스트 정보를 포함한다. 그 콘텍스트 정보는 산술 인코더에 대한 입력으로서 이용된다.

본 개시의 실시형태들에 따르면, 골롬-라이스 코딩은, 기하학적 분포를 따르는 알파벳들이 적응적 코딩 체계에서 프레픽스 코드로서 골롬-라이스 코드를 가질 수 있는, 데이터 압축 코드들의 패밀리를 이용한 무손실 데이터 압축 방법이다. 골롬-라이스 코드들은 조정가능 파라미터들을 2의 거듭제곱으로서 가지며, 이는 그 파라미터들을 컴퓨터 상에서의 사용에 편리하게 만드는데, 2에 의한 곱셈 및 나눗셈이 이진법 계산에서 더 효율적으로 구현될 수 있기 때문이다. 허프만 코딩은 무손실 데이터 압축을 위해 소스 심볼을 인코딩하는 가변 길이 코드 테이블을 사용한다. 가변 길이 코드 테이블은 소스 심볼의 각각의 가능한 값에 대한 출현의 추정된 확률에 기초하여 도출될 수 있다. 허프만 코딩은, 덜 공통적인 소스 심볼들을 위해 이용되는 것들보다 비트들의 더 짧은 스트링들을 이용하여 가장 공통적인 소스 심볼들을 표현하는 프레픽스 코드가 되게 하는, 각각의 심볼에 대한 표현을 선택하는 특정 방법을 이용한다. 균일 확률 분포 및 2의 거듭제곱인 맴버들의 수를 갖는 심볼들의 세트에 대해, 허프만 코딩은 이진수 블록 인코딩과 동등하다. 산술 코딩은 무손실 데이터 압축에서 사용되는 가변 길이 엔트로피 인코딩의 형태이다. 문자들의 스트링은 ASCII 코드에서처럼, 문자 당 고정된 비트 수를 이용하여 표현될 수 있다. 스트링이 산술 인코딩으로 전환되는 경우, 빈번하게 이용되는 문자들은 더 적은 비트들로 저장될 수 있고 그렇게 빈번하지 않게 출현하는 문자들은 더 많은 비트들로 저장될 수 있어, 결국 전체적으로 더 적은 비트들이 사용되게 한다. 산술 코딩은 입력을 성분 심볼들로 분리하고 각각을 코드로 치환하는 대신에, 산술 코딩이 전체 메시지를 단일 수인 (0.0 ≤ n < 1.0) 인 소수 (fraction) n으로 인코딩한다는 점에서, 허프만 코딩 등의 엔트로피 인코딩의 다른 형태들과는 상이하다.

도 7a 및 도 7b는 본 개시의 실시형태들에 따른 시각적 검색 기능의 예시적인 구현예들을 도시한다. 본 개시에서 설명되는 바와 같은 피쳐 위치 정보를 코딩하는 방법들은 도 7a 및 도 7b에서 도시된 바와 같은 클라이언트 및 서버 환경에서 구현될 수도 있다.

도 7a에 도시된 바와 같이, 시스템은 이동 디바이스 (702) (예를 들어 이동 전화), 시각적 검색 서버 (704), 및 무선 네트워크 (706) 를 구비한다. 모바일 디바이스 (702) 는 이미지 캡처 모듈 (703), 이미지 인코딩 모듈 (705), 및 결과 프로세스 및 디스플레이 모듈 (707) 을 구비한다. 시각적 검색 서버 (704) 는 이미지 디코딩 모듈 (711), 디스크립터 추출 모듈 (713), 디스크립터 매칭 모듈 (715), 결과 검색 모듈 (717), 및 데이터베이스 (719) 를 구비한다. 이동 디바이스 (702), 무선 네트워크 (706), 및 시각적 검색 서버 (704) 의 컴포넌트들은 도 7a의 흐름도에서 도시된 바와 같이 통신적으로 연결된다. 이동 디바이스 (702) 는 쿼리 이미지를 분석하며, 로컬 이미지 피쳐들 (디스크립터들) 을 추출하고, 피쳐 데이터를 송신한다. 취출 방법들은 검색을 수행하기 위해 쿼리로서 송신된 피쳐들을 이용하여 시각적 검색 서버 (704) 상에서 실행된다.

도 7b에 도시된 예에서, 시스템은 이동 디바이스 (722) (이동 전화로 도시됨), 시각적 검색 서버 (724), 및 무선 네트워크 (726) 를 구비한다. 이동 디바이스 (722) 는 이미지 캡처 모듈 (723), 디스크립터 추출 모듈 (725), 디스크립터 인코딩 모듈 (727), 디스크립터 매칭 모듈 (729), 판단 분기 (731), 결과 프로세스 및 디스플레이 모듈 (733), 및 로컬 데이터베이스 (D/B) 또는 캐시 (735) 를 구비한다. 시각적 검색 서버 (724) 는 디스크립터 디코딩 모듈 (741), 디스크립터 매칭 모듈 (743), 결과 검색 모듈 (745), 및 데이터베이스 (747) 를 구비한다. 이동 디바이스 (722), 무선 네트워크 (726), 및 시각적 검색 서버 (724) 의 컴포넌트들은 도 7b의 흐름도에서 도시된 바와 같이 통신적으로 연결된다. 이동 디바이스 (722) 는 데이터베이스의 캐시를 유지하고 이미지 매칭을 로컬적으로 수행한다. 매치가 발견되지 않는 경우, 이동 디바이스 (722) 는 쿼리 요청을 시각적 검색 서버 (724) 로 전송한다. 이런 방식으로, 이것은 네트워크를 통해 전송되는 데이터의 양을 추가로 감소한다.

도 7a 및 도 7b의 각각의 경우에서, 취출 프레임워크는 엄격한 이동 시스템 요건들에 적응할 수 있다. 이동 디바이스 상의 프로세싱은 고속이고 소비 전력 측면에서 경제적일 필요가 있다. 네트워크를 통해 송신되는 데이터의 사이즈는 네트워크 레이턴시를 최소화하고 이에 따라 최상의 사용자 경험을 제공하기 위해 가능한 한 작을 필요가 있다. 취출을 위해 사용되는 방법들은 잠재적으로 매우 큰 데이터베이스들로의 확장성이 있고 낮은 레이턴시로 정확한 결과들을 전달할 수 있을 필요가 있다. 게다가, 취출 시스템은, 상이한 거리들, 뷰잉 각도들, 및 조명 조건들을 포함하여, 넓은 범위의 조건들 하에서, 또는 부분 폐색 (occlusion) 들 또는 모션 블러 (motion blur) 의 존재하에서 캡처된 오브젝트들의 신뢰성있는 인식을 허용하도록 강건할 필요가 있다.

피쳐 추출 프로세스는 이미지에서 두드러진 관심 포인트들을 식별한다. 강건한 이미지 매칭을 위해, 이러한 관심 포인트들은 관점 변환들 (이를테면 스케일 변화들, 회전, 및 병진) 및 조명 변동들 하에서 반복가능할 필요가 있다. 스케일 불변을 달성하기 위해, 관심 포인트들은 이미지 피라미드를 이용하여 다수의 스케일들에서 컴퓨팅될 수 있다. 회전 불변을 달성하기 위해, 각각의 관심 포인트 주변의 패치는 우세한 그레디언트의 방향으로 배향된다. 각각의 경로에서의 그레디언트들은 그것들을 조명 변화들에 대해 강건하게 하도록 추가로 정규화된다.

상이한 관심 포인트 검출기들이 반복성 및 복잡성에서의 상이한 절충들을 제공한다는 것에 유의한다. 예를 들어, SIFT에 의해 생성된 DoG (Difference-of-Gaussian) 포인트들은 컴퓨팅이 느릴 수 있지만 고도로 반복가능할 수 있고; 한편, 코너 검출기 접근법은 고속일 수 있지만 더 낮은 반복가능성을 제공한다. 다양한 접근법들 중에서 반복가능성 및 복잡성 사이에 양호한 절충을 달성할 수 있는 것은 통합 이미지들로 스피드 업되는 헤센-블롭 (Hessian-blob) 검출기이다. VGA 이미지들에 대해 이 접근법을 이용하여, 관심 포인트 검출은 일부 현재 이동 전화들에 대해 대략 1 초 미만으로 수행될 수 있다.

관심 포인트 검출 후, "시각적 단어" 디스크립터들은 그러한 포인트들 주변의 작은 이미지 패치들을 이용하여 컴퓨팅된다. 피쳐 디스크립터들의 컴퓨팅에 있어서의 하나의 도전은 그것들을 이미지 또는 이미지들의 작은 세트의 특성을 고도로 구별하게 만드는 것이다. 거의 모든 이미지에서 출현하는 디스크립터들 (예를 들어 텍스트 문서들에서 단어 "및" 의 동등물) 은 취출을 위해 유용하지 않을 것이다.

하나의 구현예에서, 디스크립터를 컴퓨팅하는 프로세스는 다음과 같이 서술된다:

패치는 여러 (예를 들어 5 내지 9개의) 공간적으로 로컬화된 빈들로 나누어진다;

각각의 공간적 빈에서의 조인트 (dx,dy) 그레디언트 히스토그램이 그 다음에 컴퓨팅된다. CHoG 히스토그램 비닝 (binning) 이 키 포인트들 주변에서 추출된 패치들에 대해 관측되는 그레디언트 통계에서 전형적인 스큐 (skew) 를 이용한다; 및

각각의 공간적 빈으로부터의 그레디언트들의 히스토그램은 양자화되고 디스크립터의 부분으로서 저장된다.

이미지의 피쳐들을 추출하는 위의 구현예에서, 상이한 스케일들에서의 관심 포인트들 (예컨대 코너들, 블롭들) 이 추출된다. 상이한 스케일들에서의 패치들은 가장 지배적인 그레디언트를 따라 배향된다. 디스크립터는 표준적으로 (canonically) 배향되고 정규화된 패치들을 이용하여 컴퓨팅된다. 패치는 국소화된 공간적 빈들로 나누어지고, 이는 관심 포인트 로컬화 에러에 대한 강건성을 제공한다. 각각의 공간적 빈에서의 그레디언트들의 분포는 패치의 콤팩트 디스크립션 (description) 을 획득하기 위해 직접 압축된다.

히스토그램들의 사용은 정보 거리 측정값들, 이를테면 KL-발산이 이미지 피쳐들 사이의 미스매치 정도를 평가하기 위해 채용되는 것을 허용한다. 히스토그램들은 또한 간단하고 효과적인 인코딩을 허용한다. 일부 예들에서, 단지 50 내지 60 비트만이 각각의 패치를 압축된 히스토그램 기반 디스크립터로 바꾸는데 필요하다.

로컬 이미지 피쳐들을 송신하거나 또는 저장하는 이동 AR 및 시각적 검색 시스템들은 피쳐들의 세트들 및 피쳐 위치 정보를 효율적으로 인코딩 (및/또는 다중화) 할 필요가 있다. 피쳐 위치 정보는 또한, 기하학적 검증을 위해 필요하므로, 인코딩될 필요가 있다. 매칭 정확도를 위해, 하나의 접근법에서, 적어도 500 개의 로컬 피쳐들이 통상 필요하다. 이러한 피쳐들은 보통 공간적으로 고도로 상관된다. 위의 도 2 내지 도 4에서 도시된 바와 같이, 피쳐 위치 정보의 인코딩은 먼저 그것을 2-D 히스토그램으로 양자화한 다음 콘텍스트 기반 산술 코딩 기법을 이용하여 공간적 상관을 활용하는 것에 의해 달성될 수 있다. 이 기법은, 피쳐 위치 정보의 표현의 충분히 높은 정밀도를 제공하면서, 약 5 비트/피쳐의 코딩 레이트를 달성할 수 있다.

로컬 피쳐들 및 그것들의 대응하는 위치들의 전체 세트의 인코딩은, 피쳐 위치 히스토그램을 먼저 송신하고, 다음으로 피쳐들을 그것들의 위치들이 히스토그램의 디코딩시에 나타나는 순서대로 송신하는 것에 의해 달성될 수 있다. 예를 들어, 히스토그램이, 블록 (x,y) 이 3 개의 피쳐들을 포함한다고 나타내면, 인코더는 3 개의 대응하는 디스크립터들의 코드들을 비트 스트림에서 순차적으로 출력할 수 있다.

콤팩트 디스크립터들, 이를테면 위에서 설명된 것과 피쳐 위치 코딩을 이용하면, 500 개의 피쳐들을 갖는 쿼리 이미지는 대략 4K 바이트 (500×(60+5)/8) 에 의해 표현될 수 있다. JPEG 압축된 쿼리 이미지가 보통 약 40K 내지 80K 바이트를 취한다는 것을 고려하면, 개시된 접근법은 비트-레이트에서 한 자릿수 (an order of magnitude) 감소를 나타낸다.

이미지들의 큰 데이터베이스에서 이미지의 피쳐들을 인덱싱하고 매칭하기 위해, 개시된 실시형태들은 쿼리 이미지를 매칭시킬 가능성이 있는 데이터베이스 후보들의 쇼트 리스트를 반환하는 데이터 구조를 이용한다. 쇼트 리스트는, 올바른 매치가 포함되는 한, 긍정 오류 (false positive) 를 포함할 수도 있다. 더 느린 쌍별 비교들이 후속하여 전체 데이터베이스보다는 바로 후보들의 쇼트 리스트에 대해 수행될 수 있다.

다양한 데이터 구조들이 이미지 데이터베이스에서 로컬 피쳐들을 인덱싱하기 위해 채용될 수 있다. 하나의 접근법은 최상의 빈 우선 전략 (best-bin-first strategy) 과 SIFT 디스크립터들의 ANN (approximate nearest neighbor) 검색을 이용하는 것이다. 덧붙여서, BoF (Bag of Features) 모델이 사용될 수도 있다. BoF 코드북은 디스크립터들의 트레이닝 (training) 세트의 k-평균 클러스터링에 의해 구축된다. 쿼리 동안, 데이터베이스 이미지들의 스코어링은 BoF 코드북에 연관된 반전된 파일 인덱스를 이용하여 수행될 수 있다. 큰 코드북을 생성하기 위해, 계층적 k-평균 클러스터링이 어휘 트리 (vocabulary tree; VT) 를 생성하기 위해 활용될 수 있다. 다른 검색 기법들, 이를테면 LSH (Locality-Sensitive Hashing), 및 전통적인 트리 기반 접근법들에서의 개량들이 또한 이용될 수 있다.

도 8a는 본 개시의 실시형태들에 따른 트레이닝 피쳐 디스크립터들의 계층적 k-평균 클러스터링에 의해 어휘 트리를 구축하는 방법을 예시한다. 이 예에서 도시된 어휘 트리는 2 개의 레벨들을 가진다. 분기 팩터 k = 3을 이용하고, 어휘 트리는 k^2=9 리프 노드들을 가진다. 도 8b는 본 개시의 실시형태들에 따른 어휘 트리 및 연관된 반전된 인덱스를 예시한다. 반전된 인덱스는 파일에서의 다수의 피쳐들이 어휘 트리에서 동일한 경로를 따른다는 것을 나타내는 이미지들 및 카운터들의 리스트들을 포함한다.

도 8a 및 도 8b에 도시된 바와 같이, 어휘 트리 (VT) 및 그것의 연관된 반전된 인덱스 구조들은 이미지 피쳐들을 인덱싱하고 매칭하는데 이용된다. 데이터베이스에 대한 VT는, 도 8a에 예시된 바와 같이, 데이터베이스를 나타내는 트레이닝 피쳐 디스크립터들의 세트에 대해 계층적 k-평균 클러스터링을 수행하는 것에 의해 구축될 수 있다. 처음에, k 개의 큰 클러스터들이 모든 트레이닝 디스크립터들에 대해 생성된다. 이는 적절한 거리 함수, 이를테면 L2-놈 또는 KL-발산의 대칭 형태를 갖는 k-평균 알고리즘 (k 셀들로 양자화) 을 이용하는 것에 의해 행해진다. 그 다음에, 각각의 큰 클러스터에 대해, k-평균 클러스터링이 그 클러스터에 할당된 트레이닝 디스크립터들에 적용되어, k 개의 더 작은 클러스터들을 생성한다. 디스크립터 공간의 이 재귀적 분할은, 양호한 분류 성능을 보장하기 위한 충분한 빈들이 있을 때까지 반복된다. 예를 들어, 실제로, 높이 6, 분기 팩터 k=10을 갖는 VT 설계를 이용하여, 1 백만 (10⁶) 개의 노드들을 생성할 수 있다.

VT에 연관된 반전된 인덱스는, 도 8b에 도시된 바와 같이, 리프 노드 당 2 개의 리스트를 유지한다. 리프 노드 x에 대해, 어떤 N_x 데이터베이스 이미지들이 이 노드에 연관된 클러스터에 속하는 피쳐들을 가지는지를 나타내는 이미지 식별자들의 정렬된 어레이 {i_x1, ..., i_xNx} 가 있다. 마찬가지로, 동일한 클러스터에 속하는 각각의 대응하는 이미지에서의 피쳐들의 수를 나타내는 카운터들의 대응하는 어레이 {C_x1, ..., C_xNx} 가 있다.

쿼리 동안, VT 는 쿼리 이미지에서 각각의 피쳐에 대해 횡단되며, 매번 리프 노드들 중 하나에서 종료된다. 이미지들 및 주파수 카운트들의 대응하는 리스트들은 후속하여 이들 이미지들 및 쿼리 이미지 사이의 유사성 스코어들을 컴퓨팅하기 위해 이용된다. TF-IDF (standard Term Frequency-Inverse Document Frequency) 가중 체계는 그러한 스코어들의 컴퓨테이션을 위해 채용될 수 있다. 스코어들에 따라 모든 이들 리스트들로부터 이미지들을 풀링 (pulling) 하고 그 리스트들을 랭킹하는 것에 의해, 쿼리 이미지에 대한 진정한 매치를 포함할 가능성이 있는 데이터베이스 이미지들의 서브세트가 유도될 수 있다. 단지 작은 수의 룩업들만이 각각의 쿼리 피쳐마다 실행될 필요가 있고 모든 관련 파일들의 리스트들이 반전된 인덱스로부터 직접 이용가능할 수 있으므로, 이 체계는 큰 데이터베이스들을 지원하기 위해 스케일링할 수 있다.

기하학적 검증은 피쳐 매칭 후에 수행된다. 이 스테이지에서, 쿼리 및 데이터베이스 이미지들에서의 피쳐들의 위치 정보는 피쳐 매치들이 2 개의 이미지들 사이의 시점에서의 변화와 일치한다는 것을 확인하는데 이용된다. 쿼리 및 데이터베이스 이미지 사이의 기하학적 변환은 회귀 기법들을 이용하여 추정된다. 그 변환은 보통, 3-D 기하구조, 호모그라피 (homography), 또는 아핀 (affine) 모델들을 통합하는 기초 매트릭스에 의해 표현된다.

단락 [0142], 도 2, 도 6a 내지 도 6c 및 그것들의 대응하는 설명들은, 복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하는 수단, 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하는 수단, 각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하는 수단, 및 각각의 육각형 셀에서 피쳐 위치들의 출현들에 따라 히스토그램을 인코딩하는 수단을 제공한다는 것에 유의한다. 단락 [0142], 도 2, 도 3a 및 도 3b, 도 6a 내지 도 6c 및 그것들의 대응하는 설명들은 2차원 평면에서부터 3차원 공간으로의 피쳐 위치의 변환된 좌표들을 생성하는 수단, 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하는 수단, 및 3차원 공간에서 육각형 평면에 속하는지 변환된 좌표들을 검증하는 수단을 제공한다. 단락 [0142], 도 2, 도 6a 내지 도 6c 및 그것들의 대응하는 설명들은, 각각의 육각형 셀에서의 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하는 수단, 및 각각의 육각형 셀에서의 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하는 수단을 제공한다. 단락 [0142], 도 4a 및 도 4b, 도 6a 내지 도 6c 및 그것들의 대응하는 설명들은, 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하는 수단을 제공한다.

본원에서 설명된 방법론들 및 이동 디바이스는 애플리케이션들에 의존하는 다양한 수단들에 의해 구현될 수 있다. 예를 들어, 이들 방법론들은 하드웨어, 펌웨어, 소프트웨어, 또는 그것들의 조합으로 구현될 수 있다. 하드웨어 구현예에 대해, 프로세싱 유닛들은 하나 이상의 주문형 집적회로들 (ASICs), 디지털 신호 프로세서들 (DSPs), 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그래밍가능 로직 디바이스들 (PLDs), 필드 프로그래밍가능 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에서 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 또는 그것들의 조합으로 구현될 수 있다. 본원에서, 용어 "제어 로직"은 소프트웨어, 하드웨어, 펌웨어, 또는 조합에 의해 구현된 로직을 포함한다.

펌웨어 및/또는 소프트웨어 구현예의 경우, 방법론들은 본원에서 설명된 기능들을 수행하는 모듈들 (예컨대, 프로시저들, 함수들 등) 로 구현될 수 있다. 명령들을 유형적으로 담은 임의의 머신 판독가능 매체는 본원에서 설명된 방법론들의 구현에 사용될 수 있다. 예를 들어, 소프트웨어 코드들은 메모리에 저장되고 프로세싱 유닛에 의해 실행될 수 있다. 메모리는 프로세싱 유닛 내에 또는 프로세싱 유닛 외부에 구현될 수 있다. 본원에서 사용되는 바와 같이 용어 "메모리"는 임의의 유형의 장기, 단기, 휘발성, 비휘발성, 또는 다른 저장 디바이스를 지칭하고, 어떠한 특정 유형의 메모리 또는 수의 메모리들, 또는 메모리가 저장되는 매체의 유형으로 제한되는 것은 아니다.

펌웨어 및/또는 소프트웨어로 구현된다면, 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들 또는 코드로서 저장될 수도 있다. 예들은 데이터 구조로 인코딩된 컴퓨터 판독가능 매체들 및 컴퓨터 프로그램으로 인코딩된 컴퓨터 판독가능 매체들을 포함한다. 컴퓨터 판독가능 매체들은 제조물의 형태를 취할 수도 있다. 컴퓨터 판독가능 매체들은 물리적 컴퓨터 저장 매체들을 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수도 있고; 디스크 (disk 및 disc) 는, 본원에서 사용되는 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (disk) 및 블루-레이 디스크 (disc) 를 포함하며 여기서 디스크 (disk) 는 보통 데이터를 자기적으로 재생하는 반면 디스크 (disc) 는 데이터를 레이저를 이용하여 광학적으로 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

컴퓨터 판독가능 매체 상에 저장하는 것 외에도, 명령들 및/또는 데이터는 통신 장치에 구비된 송신 매체 상의 신호들로서 제공될 수도 있다. 예를 들어, 통신 장치는 명령들 및 데이터를 나타내는 신호들을 갖는 트랜시버를 구비할 수도 있다. 그 명령들 및 데이터는 하나 이상의 프로세서들이 청구항들에 아웃라인된 기능들을 구현할 수 있도록 구성된다. 다시 말하면, 통신 장치는 개시된 기능들을 수행하기 위한 정보를 나타내는 신호들을 가지는 송신 매체를 포함한다. 첫째로는, 통신 장치에 구비된 송신 매체는 개시된 기능들을 수행하기 위한 정보의 제 1 부분을 포함할 수 있는 반면, 둘째로는 통신 장치에 구비된 송신 매체는 개시된 기능들을 수행하기 위한 정보의 제 2 부분을 포함할 수도 있다.

본 개시는 광역 네트워크 (WWAN), 무선 국소 영역 네트워크 (WLAN), 무선 개인 영역 네트워크 (WPAN) 등과 같은 다양한 무선 통신 네트워크들에 연계하여 구현될 수도 있다. 용어들인 "네트워크" 및 "시스템"은 종종 상호교환적으로 사용된다. 용어들인 "포지션" 및 "위치" 는 종종 상호교환적으로 사용된다. WWAN은 코드 분할 다중 접속 (CDMA) 네트워크, 시분할 다중 접속 (TDMA) 네트워크, 주파수 분할 다중 접속 (FDMA) 네트워크, 직교 주파수 분할 다중 접속 (OFDMA) 네트워크, 단일 캐리어 주파수 분할 다중 접속 (SC-FDMA) 네트워크, 롱 텀 에블루션 (LTE) 네트워크, 또는 WiMAX (IEEE 802.16) 네트워크 등일 수도 있다. CDMA 네트워크는 cdma2000, 광대역-CDMA (W-CDMA) 등과 같은 하나 이상의 무선 액세스 기술들 (RATs) 을 구현할 수도 있다. Cdma2000은 IS-95, IS2000, 및 IS-856 표준들을 포함한다. TDMA 네트워크는 이동 통신 세계화 시스템 (GSM), 디지털 앰프스 이동 전화 방식 (Digital Advanced Mobile Phone System; D-AMPS), 또는 약간 다른 RAT를 구현할 수도 있다. GSM과 W-CDMA는 "3세대 파터너십 프로젝트" (3GPP) 라는 이름의 컨소시엄으로부터의 문서들에서 기재되어 있다. Cdma2000은 "3세대 파트너십 프로젝트 2" (3GPP2) 라는 이름의 컨소시엄으로부터의 문서들에서 기재되어 있다. 3GPP 및 3GPP2 문서들은 공개적으로 입수가능하다. WLAN은 IEEE 802.11x 네트워크일 수도 있고, WPAN은 블루투스 네트워크, IEEE 802.15x, 또는 어떤 다른 유형의 네트워크일 수도 있다. 이 기법들은 또한 WWAN, WLAN 및/또는 WPAN의 임의의 조합에 연계하여 구현될 수도 있다.

이동국은 셀룰러 또는 다른 무선 통신 디바이스, 개인용 통신 시스템 (PCS) 디바이스, 개인용 내비게이션 디바이스 (PND), 개인 정보 관리자 (PIM), 개인휴대 정보 단말 (PDA), 랩톱 또는 무선 통신 및/또는 내비게이션 신호들을 수신할 수 있는 다른 적절한 이동 디바이스와 같은 디바이스를 말한다. 용어 "이동국"은 또한 개인용 내비게이션 디바이스 (PND) 와는, 이를테면 단거리 무선, 적외선, 유선 접속, 또는 다른 접속에 의해 - 위성 신호 수신, 지원 데이터 수신, 및/또는 위치 관련 프로세싱이 디바이스에서 또는 PND에서 일어나는지에 무관하게 - 통신하는 디바이스들을 포함하는 것으로 의도된다. 또한, "이동국"은 위성 신호 수신, 지원 데이터 수신, 및/또는 위치 관련 프로세싱이 디바이스에서, 서버에서, 또는 네트워크에 관련된 다른 디바이스에서 일어나는지에 무관하게, 그리고 서버와, 이를테면 인터넷, Wi-Fi, 또는 다른 네트워크를 통해 통신할 수 있는, 무선 통신 디바이스들, 컴퓨터들, 랩톱들 등을 포함한, 모든 디바이스들을 포함하는 것으로 의도된다. 또한 전술된 것의 임의의 동작가능한 조합이 "이동국"이라 고려된다.

무엇이 "최적화된," "요구된"다는 표기 또는 다른 표기는 현재 개시가 최적화된 시스템들, 또는 "요구된" 엘리먼트들 (또는 다른 표기들로 인한 다른 제한들) 이 존재하는 시스템들에만 적용된다는 것을 나타내지 않는다. 이들 표기들은 특정한 설명된 구현예만을 지칭한다. 물론, 많은 구현예들이 가능하다. 기법들은, 개발 중에 있거나 또는 개발될 프로토콜들을 포함하여, 본원에서 논의된 것들과는 다른 프로토콜들과 함께 이용될 수 있다.

당업자는, 동일한 기본 기저 메커니즘들 및 방법론들을 여전히 채용하면서도, 개시된 실시형태들의 많은 가능한 변경들 및 조합들이 사용될 수도 있다는 것을 인식할 것이다. 앞서의 설명은, 설명의 목적을 위해, 특정 실시형태들에 관해서 설명되었다. 그러나, 위에서의 구체적인 논의들은 망라적이거나 또는 본 개시를 개시된 바로 그 형태들로 제한하도록 의도된 것은 아니다. 많은 변경들 및 변형들이 위의 교시를 고려하여 가능하다. 실시형태들은 본 개시의 원리들 및 그것들의 실제 응용들을 설명하고 당업자가 본 개시 및 다양한 실시형태들을 심사숙고한 특정 용도에 적합하도록 한 다양한 변경들과 함께 최상으로 활용하는 것을 가능하게 하도록 선택되고 서술되었다.

Claims

이미지의 피쳐 위치 정보 (feature location information) 를 코딩하는 방법으로서,
복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하는 단계;
상기 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하는 단계;
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하는 단계; 및
각각의 육각형 셀에서의 피쳐 위치들의 상기 출현들에 따라 상기 히스토그램을 인코딩하는 단계를 포함하고,
상기 피쳐 위치들을 양자화하는 단계는,
각각의 피쳐 위치에 대해, 2차원 평면으로부터 3차원 공간으로의 상기 피쳐 위치의 변환된 좌표들을 생성하는 단계;
상기 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하는 단계; 및
상기 3차원 공간에서 육각형 평면에 속하는지 상기 변환된 좌표들을 검증하는 단계를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 1 항에 있어서,
육각형 그리드를 생성하는 단계는,
피쳐 위치 정보의 미리 결정된 양자화 레벨에 따라 상기 육각형 셀들의 사이즈를 결정하는 단계를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
삭제
제 1 항에 있어서,
상기 변환된 좌표들을 검증하는 단계는,
상기 변환된 좌표들의 합을 컴퓨팅하는 단계; 및
상기 변환된 좌표들의 상기 합이 0과 같은지 검증하는 단계를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 1 항에 있어서,
히스토그램을 생성하는 단계는,
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하는 단계를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 5 항에 있어서,
각각의 육각형 셀에서의 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하는 단계를 더 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 1 항에 있어서,
상기 히스토그램을 인코딩하는 단계는,
상기 히스토그램을 고유 사전적 인덱스로 전환하는 단계; 및
고정 길이 코드를 이용하여 상기 고유 사전적 인덱스를 인코딩하는 단계를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 1 항에 있어서,
히스토그램의 인코딩하는 단계는,
상기 히스토그램의 빈 (empty) 블록들을 래스터 스캔 순서에서의 런 길이들로 전환하는 단계; 및
엔트로피 코더를 사용하여 상기 런 길이들을 인코딩하는 단계를 더 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 8 항에 있어서,
상기 엔트로피 코더는 골롬-라이스 (Golomb-Rice) 코드들을 채용하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 8 항에 있어서,
상기 엔트로피 코더는 허프만 (Huffman) 코드들을 채용하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 8 항에 있어서,
상기 엔트로피 코더는 산술 코드들을 채용하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 1 항에 있어서,
상기 히스토그램을 인코딩하는 단계는,
상기 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하는 단계를 더 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 12 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 1 순서 이웃들로부터의 콘텍스트 정보를 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 13 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 2 순서 이웃들로부터의 콘텍스트 정보를 더 포함하는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
제 12 항에 있어서,
상기 콘텍스트 정보는 산술 인코더에 대한 입력으로서 사용되는, 이미지의 피쳐 위치 정보를 코딩하는 방법.
이미지를 획득하도록 구성된 이미지 모듈;
상기 이미지의 인코딩된 피쳐 위치 정보 (feature location information) 를 생성하도록 구성된 시각적 검색 모듈; 및
상기 이미지의 상기 인코딩된 피쳐 위치 정보를 무선 네트워크를 통해 서버로 통신하도록 구성된 제어기를 포함하며,
상기 시각적 검색 모듈은,
복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하기 위한 로직;
상기 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하기 위한 로직;
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하기 위한 로직; 및
각각의 육각형 셀에서의 피쳐 위치들의 상기 출현들에 따라 상기 히스토그램을 인코딩하기 위한 로직을 구비하고,
상기 피쳐 위치들을 양자화하기 위한 로직은,
각각의 피쳐 위치에 대해, 2차원 평면으로부터 3차원 공간으로의 상기 피쳐 위치의 변환된 좌표들을 생성하기 위한 로직;
상기 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하기 위한 로직; 및
상기 3차원 공간에서 육각형 평면에 속하는지 상기 변환된 좌표들을 검증하기 위한 로직을 포함하는, 이동 디바이스.
제 16 항에 있어서,
육각형 그리드를 생성하기 위한 로직은,
피쳐 위치 정보의 미리 결정된 양자화 레벨에 따라 상기 육각형 셀들의 사이즈를 결정하기 위한 로직을 포함하는, 이동 디바이스.
삭제
제 16 항에 있어서,
상기 변환된 좌표들을 검증하기 위한 로직은,
상기 변환된 좌표들의 합을 컴퓨팅하기 위한 로직; 및
상기 변환된 좌표들의 상기 합이 0과 같은지 검증하기 위한 로직을 포함하는, 이동 디바이스.
제 16 항에 있어서,
히스토그램을 생성하기 위한 로직은,
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하기 위한 로직을 포함하는, 이동 디바이스.
제 20 항에 있어서,
각각의 육각형 셀에서의 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하기 위한 로직을 더 포함하는, 이동 디바이스.
제 16 항에 있어서,
히스토그램을 인코딩하기 위한 로직은,
상기 히스토그램을 고유 사전적 인덱스로 전환하기 위한 로직; 및
고정 길이 코드를 이용하여 상기 고유 사전적 인덱스를 인코딩하기 위한 로직을 포함하는, 이동 디바이스.
제 16 항에 있어서,
히스토그램을 인코딩하기 위한 로직은,
상기 히스토그램의 빈 블록들을 래스터 스캔 순서에서의 런 길이들로 전환하기 위한 로직; 및
엔트로피 코더를 사용하여 상기 런 길이들을 인코딩하기 위한 로직을 더 포함하는, 이동 디바이스.
제 16 항에 있어서,
상기 히스토그램을 인코딩하기 위한 로직은,
상기 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하기 위한 로직을 더 포함하는, 이동 디바이스.
제 24 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 1 순서 이웃들로부터의 콘텍스트 정보를 포함하는, 이동 디바이스.
제 25 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 2 순서 이웃들로부터의 콘텍스트 정보를 더 포함하는, 이동 디바이스.
이미지를 획득하도록 구성된 이미지 모듈;
상기 이미지의 인코딩된 피쳐 위치 정보 (feature location information) 를 생성하도록 구성된 시각적 검색 모듈; 및
상기 이미지의 상기 인코딩된 피쳐 위치 정보를 무선 네트워크를 통해 서버로 통신하도록 구성된 제어기를 포함하며,
상기 시각적 검색 모듈은,
복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하는 수단;
상기 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하는 수단;
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하는 수단; 및
각각의 육각형 셀에서의 피쳐 위치들의 상기 출현들에 따라 상기 히스토그램을 인코딩하는 수단을 구비하고,
상기 피쳐 위치들을 양자화하는 수단은,
각각의 피쳐 위치에 대해, 2차원 평면으로부터 3차원 공간으로의 상기 피쳐 위치의 변환된 좌표들을 생성하는 수단;
상기 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하는 수단; 및
상기 3차원 공간에서 육각형 평면에 속하는지 상기 변환된 좌표들을 검증하는 수단을 포함하는, 이동 디바이스.
삭제
제 27 항에 있어서,
히스토그램을 생성하는 수단은,
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하는 수단을 포함하는, 이동 디바이스.
제 29 항에 있어서,
각각의 육각형 셀에서의 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하는 수단을 더 포함하는, 이동 디바이스.
제 27 항에 있어서,
상기 히스토그램을 인코딩하는 수단은,
상기 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하는 수단을 더 포함하는, 이동 디바이스.
제 31 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 1 순서 이웃들로부터의 콘텍스트 정보를 포함하는, 이동 디바이스.
제 32 항에 있어서,
상기 콘텍스트 정보는,
인코딩될 상기 후속 육각형 셀의 제 2 순서 이웃들로부터의 콘텍스트 정보를 더 포함하는, 이동 디바이스.
하나 이상의 컴퓨터 시스템들에 의한 실행을 위한 컴퓨터 프로그램들을 저장하는, 이미지의 피쳐 위치 정보 (feature location information) 를 코딩하기 위한 컴퓨터 판독 가능한 저장 매체로서,
복수의 육각형 셀들을 포함하는 육각형 그리드를 생성하기 위한 코드;
상기 육각형 그리드를 이용하여 이미지의 피쳐 위치들을 양자화하기 위한 코드;
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 기록하기 위해 히스토그램을 생성하기 위한 코드; 및
각각의 육각형 셀에서의 피쳐 위치들의 상기 출현들에 따라 상기 히스토그램을 인코딩하기 위한 코드를 포함하고,
상기 피쳐 위치들을 양자화하기 위한 코드는,
각각의 피쳐 위치에 대해, 2차원 평면으로부터 3차원 공간으로의 상기 피쳐 위치의 변환된 좌표들을 생성하기 위한 코드;
상기 변환된 좌표들을 대응하는 가장 가까운 정수들로 반올림하기 위한 코드; 및
상기 3차원 공간에서 육각형 평면에 속하는지 상기 변환된 좌표들을 검증하기 위한 코드를 포함하는, 컴퓨터 판독 가능한 저장 매체.
삭제
제 34 항에 있어서,
히스토그램을 생성하기 위한 코드는,
각각의 육각형 셀에서의 피쳐 위치들의 출현들을 포함하도록 구성된 히스토그램 맵을 생성하기 위한 코드를 포함하는, 컴퓨터 판독 가능한 저장 매체.
제 36 항에 있어서,
각각의 육각형 셀에서의 피쳐 위치들의 출현 수를 서술하도록 구성된 히스토그램 카운트를 생성하기 위한 코드를 더 포함하는, 컴퓨터 판독 가능한 저장 매체.
제 36 항에 있어서,
상기 히스토그램을 인코딩하기 위한 코드는,
상기 히스토그램에서 인코딩될 후속 육각형 셀의 정보를 인코딩하기 위해 이웃하는 육각형 셀들의 콘텍스트 정보를 적용하기 위한 코드를 더 포함하는, 컴퓨터 판독 가능한 저장 매체.