KR101710967B1

KR101710967B1 - 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법

Info

Publication number: KR101710967B1
Application number: KR1020157021832A
Authority: KR
Inventors: 지오반니 코다라
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-01-16
Filing date: 2013-01-16
Publication date: 2017-02-28
Also published as: CA2900841C; KR20150106940A; CN104995661B; US9756342B2; CN104995661A; CA2900841A1; WO2014111136A1; EP2946362B1; US20160044319A1; EP2946362A1

Abstract

본 발명은 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법(100)에 관한 것이고, 히스토그램 맵은 이미지의 키 포인트의 위치 정보를 표현하며, 이러한 방법은: 히스토그램 맵을 획득하기 위해 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보(A; B; C)를 제공하는 단계(101); 압축된 컨텍스트 표현 정보(A; B; C)로부터, 근사 알고리즘을 적용함으로써 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트(201)를 계산하는 단계(103); 및 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 컨텍스트를 이용하여 히스토그램 맵을 인코딩하는 단계(105)를 포함한다.

Description

이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법{Method for context based encoding of a histogram map of an image}

본 발명은 이미지의 키 포인트의 세트의 좌표로부터 결정되는 위치 정보의 맵을 인코딩하기 위한 방법과 이러한 위치 정보의 맵을 인코딩하기 위한 인코더에 관한 것이다.

본 발명은 특히 컴퓨터 비전 및 비주얼 서치 또는 증강 현실의 분야에 관한 것이다. 비주얼 서치 및 증강 현실 응용에서는, 이미지 또는 이미지의 시퀀스로부터 추출되는 정보가 서버에 전송되고, 서버에서 이러한 정보는 인식 대상인 물체의 모델을 표현하는 레퍼런스 이미지의 데이터베이스로부터 추출되는 정보와 비교된다. 이러한 맥락에서, 본 발명은 서버에 전송되는 이미지 또는 이미지의 시퀀스로부터 추출되는 정보의 압축에 관한 것이며, 특히 이미지 또는 이미지의 시퀀스로부터 추출되는 관심 대상 포인트의 위치를 시그널링하는데 필요한 정보의 압축에 관한 것이다.

비주얼 서치(VS)란, 텍스트 기술(textual description), 메타데이터 등의 어떠한 외부 데이터를 이용하지 않고도, 자동화 시스템이 단지 이미지 또는 이미지의 시퀀스의 시각적 양상을 분석하는 것에 의해 이미지 또는 이미지의 시퀀스에 나타나는 물체를 식별할 수 있는 능력을 지칭한다. 증강 현실(AR)은 VS의 진전된 활용이라 여겨질 수 있다. 이미지 또는 이미지의 시퀀스에 나타난 물체가 식별된 후, 이미지 또는 이미지의 시퀀스에 의해 표현되는 실제 장면에 부가적인 컨텐츠(예를 들면, 합성한 물체)가 겹쳐져, 실제 컨텐츠를 '증강'하게 된다; 이러한 부가적인 컨텐츠의 위치는 실제 물체의 위치에 부합한다.

VS의 지배적인 기법은, 문헌 및 본 명세서에서 기술자(descriptor)라 지칭되는 이른바 로컬 피처를 결정하는 것에 의존한다. 가장 저명한 기법은, D. Lowe에 의해 "Distinctive Image Features from Scale-Invariant Keypoints, Int. Journal of Computer Vision 60 (2) (2004) 91-110. H"에서 서술한 바와 같은 SIFT(스케일 불변 피처 변환), 그리고 Bay, T. Tuytelaars, L. V. Gool에 의해 "SURF: Speeded Up Robust Features, in: Proceedings of European Conference on Computer Vision (ECCV), Graz, Austria, 2006, http://www.vision.ee.ethz.ch/~surf/"에서 서술한 바와 같은 SURF(Speeded Up Robust Features)이다. 문헌에서는 이러한 기술의 수많은 변형예를 찾을 수 있을 것이고, 이들은 위의 두 근원 기술이 개선된 것이라 여겨질 수 있다.

도 7에 도시된 바와 같이, 로컬 피처는 이미지(701)에서 키 포인트(705)를 둘러싸는 패치(703)의 컴팩트 기술자(예를 들면, SIFT에서는 각각의 로컬 피처에 대해 128 바이트)이다. 도 7은 로컬 피처의 추출(도 7의 상부) 및 표현(도 7의 하부)의 일례를 나타낸다. 도 7의 상부에서는, 로컬 피처가 계산되는 포인트의 위치가 이미지(701)에서 포인트(705)를 표현하는 원으로 표시되고, 이러한 원은 방향성 패치(703)를 표현하는 정사각형에 의해 둘러싸인다. 도 7의 하부에서는, 패치(703)의 그리드(709) 구획이 로컬 피처의 히스토그램 성분(711)을 포함하고 있다. 로컬 피처를 계산하기 위해서, 포인트(705)의 메인 방향(707)은 포인트(705) 주위에서 메인 구배 성분에 기초하여 계산된다. 이러한 방향(707)에서 출발하여, 메인 방향(707)을 향하는 패치(703)가 추출된다. 그 다음으로, 이러한 패치(703)는 직사각형 또는 방사상 격자(709)로 재분할된다. 그리드(709)의 각각의 엘리먼트에 대하여, 로컬 구배의 히스토그램(711)이 계산된다. 격자(709) 엘리먼트에 대해 계산된 히스토그램(711)은 로컬 피처의 성분을 표현한다. 도 7의 하부에 도시된 바와 같은 격자(709) 엘리먼트의 히스토그램(711)을 포함하는 이러한 기술자(713)의 특성은, 회전, 조명, 시야 왜곡에 대해 불변일 것이다.

이미지(701)에서, 로컬 피처(713)가 계산되는 포인트(705)가 계산되어 장면의 개별 엘리먼트, 예를 들면 모서리, 특정 패턴 등을 식별하게 된다. 이러한 포인트는 보통 키 포인트(705)라 불리며, 관심 대상 포인트(705)라고도 지칭된다. 도 7의 상부에 도시된 원은 예시적인 키 포인트(705)를 나타낸다. 키 포인트(705)의 이미지에서의 x/y 위치는 이하에서 로컬 피처의 위치 정보라 칭할 것이다.

MPEG은 현재 MPEG-7(ISO/IEC 15938 - 멀티미디어 컨텐츠 기술 인터페이스)의 새로운 파트인 파트 13, 비주얼 서치를 위한 표준의 개발에 전용화된 비주얼 서치용 컴팩트 기술자(CDVS)를 규정하고 있다. 이러한 표준은 네트워크 지연과 전반적인 비트레이트를 최소화하기 위해 비주얼 서치를 가능하게 하는 정보의 양을 압축하기 위한 규범적인 방식을 정의하고자 한다. 특히, 표준화되고 있는 기술은 개별적인 키 포인트(705)에 관한 두 종류의 정보에 대한 압축 메커니즘을 포괄하며, 이하에서는 이를 피처 정보라 지칭할 것이고, 이러한 정보는 한편으로는 컨텐츠 정보, 즉 키 포인트(705)를 둘러싸는 패치(703)의 컴팩트 기술자를 제공하는 로컬 피처 또는 기술자, 그리고 다른 한편으로는 위치 정보, 즉 키 포인트(705)의 위치일 것이다.

CDVS 표준화 프로세스에서는, 테스트 목적으로 6개의 동작 포인트가 정의된다. 동작 포인트는 이하에서 비트레이트라 지칭되며 이미지당 다음 개수의 바이트를 가진다: 512, 1024, 2048, 4096, 8192 및 16384. 각각의 동작 포인트는 이미지로부터 추출되는 모든 로컬 피처 및 이의 위치 정보를 표현하는데 이용되는 전체 비트레이트를 나타낸다. 이는 비트레이트에 따라 제한된 수의 로컬 피처만이 인코딩될 수 있음을 의미한다. 이러한 수는 512 바이트의 최소 동작 포인트에서 114개의 로컬 피처 내지 16384 바이트의 최대 동작 포인트에서 970개의 로컬 피처의 범위이다.

표준화 프로세스는 현재, 레퍼런스 모델(RM) 상에서 레퍼런스 구현을 실현하는 코어 실험 단계(Core Experiments phase)에 이르렀다.

Mobimedia 2009에서 Tsai 등에 의해 "Location Coding for Mobile Image Retrieval"에서 기술되고, "Test Model of Compact Descriptor for Visual Search (MPEG doc w13145) in October 2012"에서의 표준화에 의해 정의된 바와 같은 RM 위치 정보 압축 방법은 다음과 같이 동작한다. 첫 번째 단계로서, 원래 부동 소수점 값으로 계산된 키 포인트 좌표는 특정 해상도로, 예를 들면 표준 VGA로 하향 스케일 조정되고 새로운 해상도에서 정수값으로 근사화(rounding)된다. 이러한 단계 이후에, 위치 정보는 도 8에 도시된 바와 같이 고도의 희소 행렬로 표현될 수 있다. 두 번째 단계로서, 사전정의된 블록 사이즈를 갖는 공간 그리드가 이러한 매트릭스에 겹쳐지고, 각각의 블록에서 비-제로 값의 발생에 대한 히스토그램이 도 8에 도시된 바와 같이 계산된다. 이러한 표현으로부터, 두 가지 상이한 종류의 정보가 인코딩된다. 첫 번째 것은 각각의 블록에서 키 포인트의 존재 또는 부존재에 관한 이진 정보를 표현하는 히스토그램 맵이다. 두 번째 것은 각각의 비-제로 블록에서의 발생의 수를 표현하는 히스토그램 카운트이다.

키 포인트 좌표는 스케일 조정되지 않은 원래의 이미지 해상도에서 부동 소수점 값으로 표현된다. 각각의 이미지에 적용되는 제1 동작은 VGA 해상도로의 하향 스케일 조정이기 때문에, 키 포인트 좌표는 VGA 해상도에서 정수값으로 근사화된다. 그러므로, 몇몇 포인트가 동일한 좌표로 근사화될 수도 있다. 또한, 2개의 기술자가 두 가지 상이한 방향을 갖고 정확히 동일한 키 포인트 상에서 계산되는 것도 가능하다. 이러한 첫 번째 근사화가 검색 성능에 미치는 영향은 무시할 수 있는 정도이다.

도 8은 이러한 근사화 동작의 일례를 나타내는데, 여기서 각각의 정사각 블록(803)은 풀 해상도에서 1x1 픽셀 셀에 대응한다. 이미지(800)가 생성될 수 있고, 여기서는 비-제로 픽셀이 키 포인트의 위치에 대응되며, 그 다음으로 이미지는 매트릭스 표현(802)에 의해 표현될 수 있는 블록 표현(801)으로 파티션 분할될 수 있다. 도 8에 도시된 바와 같이, 이러한 정사각 블록(803, 805)에 대한 값(예를 들면 제1 정사각 블록(803)에 대해 2, 그리고 제2 정사각 블록(805)에 대해 1)이 매트릭스(802)에 표현되며, 여기서는 비-제로 엘리먼트(807, 809)가 키 포인트의 위치를 표현하고, 예를 들면 제1의 비-제로 엘리먼트(807)는 제1 블록(803)에 대응하며 제2의 비-제로 엘리먼트(809)는 제2 블록 셀(805)에 대응한다. 결과적으로 문제는, 최대 동작 포인트에서도 극도로 희소한 특성을 갖는, 즉 1000개 미만의 비-제로 셀을 갖는 640x480개의 엘리먼트의 매트릭스(802)를 압축해야 하는 필요성이라 할 수 있다. 이러한 매트릭스를 압축하기 위해서, 두 가지 상이한 종류의 정보를 표현할 필요가 있고, 이는 히스토그램 맵(위치 정보의 맵이라고도 지칭됨), 즉 비어 있는 셀과 비어 있지 않은 셀의 이진 맵, 그리고 히스토그램 카운트, 즉 각각의 비-제로 셀에서의 발생의 수를 포함하는 벡터이다. 히스토그램 맵은 도 8에 도시된 블록 표현(801)의 이진 포맷으로 표현되며, 히스토그램 카운트는 도 8에 도시된 매트릭스 표현(802)의 비-제로 엘리먼트에 의해 생성된 벡터로 표현된다. 압축 효율을 높이기 위해서, 문헌에서는 이러한 두 개의 엘리먼트가 항상 별개로 인코딩된다.

RM에서, 히스토그램 카운트는 일반적인 단일 모델 산술 코딩을 통해 인코딩된다. 히스토그램 맵은 이른바 합산 기반 산술 코딩을 채용한다: 각각의 엘리먼트는 컨텍스트 기반 산술 코딩을 통해 인코딩되며, 컨텍스트는 인코딩될 엘리먼트에 공간적으로 근접하여 발생하는 비-제로 엘리먼트의 수에 의해 주어진다. 통상적으로, 이러한 컨텍스트를 계산하기 위해 직사각형 영역이 채용된다. 이러한 접근 방식은 로컬 피처가 특정 영역에서 집중되는 경향을 이용하고자 한다. 컨텍스트는 블록 사이즈에 따라 변화하는데 이에 의해 피처 집중도가 달라지기 때문이며, 또 비트레이트에 따라 변화하는데 이는 상이한 비트레이트에 대해 상이한 수의 피처가 인코딩되기 때문이다. 컨텍스트 기반 산술 코딩으로서 합산 기반 컨텍스트는 특정 트레이닝 데이터세트 상에서 트레이닝을 요한다.

앞서 기술한 종래 기술은 메모리 할당 및 트레이닝의 필요성이라는 두 가지 문제를 가진다.

메모리 할당과 관련하여, CDVS 표준화는 예를 들어 모바일 디바이스 상에서 하드웨어 구현을 개선하기 위해 고도로 메모리 제한된 환경을 다루며, 즉 128 KB 미만의 메모리 사이즈를 갖는 메모리 테이블을 이용하여 구현되어야 한다. RM에서는 합산 기반 컨텍스트에 대한 직사각형의 사이즈는 55(즉, 5x11)개의 엘리먼트이다. 그러므로, 합산 기반 산술 코딩에 의해 이용되는 컨텍스트는 56개의 값, 즉 0 내지 55의 값을 지닐 수 있다. 이외에도, RM 모델은 히스토그램 맵 엘리먼트의 원형 스캐닝을 채용하는데, 매트릭스의 중앙에서 시작하여 매트릭스의 가장자리 쪽으로 진행하는 것이다. 그러므로, 55개의 엘리먼트의 직사각형이 아직 인코딩되지 않은 중앙 영역은 단지 단일 모델 산술 컨텍스트를 채용하여 컨텍스트 없이 인코딩된다. 이러한 확률 값은 또한, 특정 블록 사이즈 및 비트레이트로 히스토그램 맵을 최적으로 인코딩하기 위해 시그널링될 총 57개의 엘리먼트와 함께 시그널링될 필요가 있다. 블록 사이즈와 비트레이트의 조합은 이하에서 테스팅 포인트라 지칭될 것이다. 각각의 컨텍스트 값이 4 바이트를 이용하여 저장되고 각각의 테스팅 포인트, 즉 특정 블록 사이즈에서의 비트레이트에 대해 57(컨텍스트 치수) * 4(컨텍스트 값 당 바이트) * 2(0과 1의 확률) 바이트가 할당된다는 점을 고려할 때, 이에 의해 잠재적으로 상당한 양의 메모리가 필요하게 된다.

트레이닝의 필요성과 관련하여, RM에 의해 채용되는 방법에서는, 각각의 테스팅 포인트, 즉 특정 블록 사이즈에서의 비트레이트가 트레이닝될 필요가 있다. 각각의 테스팅 포인트에 대한 전체 컨텍스트가 특정 테이블 상에 저장되어 결과적으로 대형 테이블이 되지 않는 한, 인코더 및 대응하는 디코더는 정확히 동일한 결과를 제공하기 위해 동일한 트레이닝 데이터세트 상에서 트레이닝될 필요가 있고, 이로써 상이한 제조사 또는 서비스 제공자의 인코더 및 디코더 사이에 상호연동성을 보장하는 문제가 제기된다.

본 발명의 목적은 이미지로부터 추출되는 로컬 피처의 위치 정보를 압축하기 위한 개선된 기법을 제공하고자 하는 것이다.

이러한 목적은 독립 청구항의 특징에 의해 달성된다. 추가적인 구현 형태는 종속항, 상세한 설명, 그리고 도면으로부터 명백하게 파악된다.

본 발명은, 이중 근사에 의해 이미지의 표준 합산 기반 컨텍스트를 근사함으로써 위에서 언급한 단점이 해소될 수 있다는 발견에 근거한다. 제1 근사에 따라, 단지 3개의 값(예를 들면, 57개 중에서)만이 각각의 테스팅 포인트에 대해 저장된다. 나아가, 블록 사이즈를 고정함으로써, 단지 하나의 비트레이트의 값들만이 저장되고, 나머지 값들은 제2 근사에 의해 유도된다.

본 발명을 상세하게 기술하기 위해서, 다음의 용어, 약어, 및 표기법이 사용될 것이다:

VS: 비주얼 서치. VS는 텍스트 기술, 메타데이터 등의 어떠한 외부 데이터를 이용하지 않고도, 자동화 시스템이 단지 이미지 또는 이미지의 시퀀스의 시각적 양상을 분석하는 것에 의해 이미지 또는 이미지의 시퀀스에 나타나는 물체를 식별할 수 있는 능력을 지칭한다.

AR: 증강 현실. AR은 특히 모바일 도메인에 적용되는 VS의 진전된 활용이라 여겨질 수 있다. 프레임의 시퀀스에 나타난 물체가 식별된 후, 실제 장면에 부가적인 컨텐츠, 통상적으로 합성한 물체가 겹쳐져, 실제 컨텐츠를 '증강'하게 된다.

SIFT: 스케일 불변 피처 변환.

SURF: 스피디드 업 로버스트 피처(Speeded Up Robust Features).

MPEG-7: MPEG 7은 비주얼 서치를 위한 표준의 개발에 전용화된 ISO/IEC 15938에 따른 멀티미디어 컨텐츠 기술 인터페이스, 파트 13을 규정한다.

CDVS: 비주얼 서치용 컴팩트 기술자.

비트레이트: CDVS 표준화에 의해 규정된 바와 같은 이미지당 사전결정된 바이트를 갖는 특정된 동작 포인트.

RM: 레퍼런스 모델.

VGA: 비디오 그래픽 어레이(640x480 해상도), 풀 해상도라고도 지칭됨.

로컬 피처: 로컬 피처는 회전, 조명, 및 원근 왜곡에 대해 불변인, 이미지에서의 키 포인트를 둘러싸는 패치의 컴팩트 기술이다.

기술자: 로컬 피처.

키 포인트: 이미지에서, 기술자가 계산되는 포인트는 통상적으로 장면의 특이한 엘리먼트, 예컨대 모서리, 특정 패턴 등에 관한 것이다. 이러한 포인트는 통상 키 포인트, 관심 대상 포인트 또는 관심 포인트라 지칭된다.

컨텍스트: 산술 코딩 단계에서 이용되는 상이한 심볼들에 대한 확률 값들이 연관되는 값들의 세트.

컨텍스트 곡선: 가능한 컨텍스트 값에 따라, 산술 코딩 단계를 위해 이용되는 확률 값의 변화를 기술하는 기하학적 곡선.

압축된 컨텍스트 표현: 특정 블록 사이즈 및 특정 인코딩 사이즈에 대해 컨텍스트의 근사를 이루기 위해 이용되는 원래의 정보.

컨텍스트 정보 값: 주어진 블록 사이즈에 대한 모든 비트레이트에 대하여 압축된 컨텍스트 표현 정보를 근사하는데 이용되는 정보.

제1 양태에 따르면, 본 발명은 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하는 방법에 관한 것이고, 상기 히스토그램 맵은 상기 이미지의 키 포인트의 위치 정보를 표현하며, 상기 방법은: 상기 히스토그램 맵을 획득하기 위해 상기 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보를 제공하거나 획득하는 단계; 상기 압축된 컨텍스트 표현 정보로부터, 근사 알고리즘을 적용함으로써 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트를 계산하는 단계; 및 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 상기 컨텍스트를 이용하여 상기 히스토그램 맵을 인코딩하는 단계를 포함한다. 근사 알고리즘은 또한 컨텍스트 계산 알고리즘이라고도 지칭될 수 있다.

이러한 압축된 컨텍스트 표현 정보를 이용함으로써, 컨텍스트, 컨텍스트 값, 및 이에 대응하는 확률을 저장 또는 송신하는데 필요한 사이즈(예를 들면, 바이트 단위)가 감소될 수 있다. 제1 양태에 따른 방법은, 통상적으로 트레이닝 데이터를 이용함으로써 획득되는 컨텍스트의 상이한 컨텍스트 값들에 대응하는 실제 확률을 기술하는 컨텍스트 곡선이 양호하게 근사될 수 있다는 점을 이용한다.

나아가, 인코더가 동일한 트레이닝 데이터 상에서, 인코딩된 히스토그램 맵 정보를 디코딩하기 위한 디코더로서 트레이닝될 필요가 없기 때문에 상호연동성이 개선된다. 인코더는 디코더와 상호연동가능하다.

제1 양태에 따른 제1 구현 형태로서, 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보는: 상기 컨텍스트의 컨텍스트 값 및 상기 컨텍스트 값에 연관되는 확률 값; 및 상기 컨텍스트의 적어도 하나의 다른 컨텍스트 값에 연관되는 확률 값을 계산할 수 있게 하는 추가적인 정보를 포함한다.

제1 양태 또는 제1 구현 형태에 따른 제2 구현 형태로서, 상기 컨텍스트의 적어도 하나의 다른 컨텍스트 값에 연관되는 확률 값을 계산할 수 있게 하는 추가적인 정보는: 기울기 정보; 또는 추가적인 컨텍스트 값 및 상기 추가적인 컨텍스트 값에 연관되는 추가적인 확률 값을 포함한다.

제1 또는 제2 구현 형태에 따른 제3 구현 형태로서, 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보는: 단일 모델 산술 코딩(single model arithmetic coding)을 통해 상기 공간 그리드의 중앙 블록에 연관되는 상기 히스토그램 맵의 중앙 엘리먼트의 컨텍스트 기반 인코딩을 위해 또 다른 컨텍스트 값, 및 상기 또 다른 컨텍스트 값에 연관되는 또 다른 확률을 포함한다.

제1 양태 또는 임의의 앞선 구현 형태에 따른 제4 구현 형태로서, 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈는 인코딩 사이즈 및 블록 사이즈의 세트로부터 선택된다.

제1 양태 또는 임의의 앞선 구현 형태에 따른 제5 구현 형태로서, 인코딩 사이즈의 세트는 512, 1024, 2048, 4096, 8192 및 16384 바이트 중 적어도 하나, 몇몇 또는 모두를 포함한다.

제1 양태 또는 임의의 앞선 구현 형태에 따른 제6 구현 형태로서, 상기 압축된 컨텍스트 표현 정보는, 상기 인코딩 사이즈 및 블록 사이즈의 세트로부터의 주어진 인코딩 사이즈 및 주어진 블록 사이즈의 각각의 조합에 대해 제공되며, 이러한 제공은 예를 들면 메모리로부터, 예컨대 룩업 테이블로부터의 저장 및 검색, 또는 다른 디바이스로부터 수신기를 통한 수신을 포함할 수 있다.

제1 양태 또는 임의의 앞선 구현 형태에 따른 제7 구현 형태로서, 상기 압축된 컨텍스트 표현 정보를 획득하는 단계는: 추가적인 근사 알고리즘을 이용함으로써 상기 주어진 블록 사이즈에 연관되는 컨텍스트 정보 값의 세트로부터 상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈에 대해 상기 압축된 컨텍스트 표현 정보를 계산하는 단계를 포함한다. 추가적인 근사 알고리즘은 압축된 컨텍스트 계산 알고리즘이라고도 지칭될 수 있다.

이러한 이중의 근사, 즉 제1의 근사(압축된 컨텍스트 계산 알고리즘) 및 제2의 근사(컨텍스트 계산 알고리즘)를 이용함으로써, 컨텍스트 테이블의 이용은 추가로 줄어들 수 있다. 제2의 근사를 적용하는 경우, 근사 컨텍스트는 매우 적은 값들(예를 들면, 3)을 이용하여 저장될 수 있다. 블록 사이즈가 고정되는 경우, 단지 하나의 비트레이트의 값들만이 저장될 필요가 있고, 다른 비트레이트에 대한 값들은 제1의 근사에 의해 유도될 수 있다.

제7 구현 형태에 따른 제8 구현 형태로서, 상기 주어진 블록 사이즈에 연관되는 상기 컨텍스트 정보 값의 세트는: 주어진 인코딩 사이즈에 대한 컨텍스트의 압축된 컨텍스트 표현 값; 및 추가적인 인코딩 사이즈에 대한 상기 컨텍스트의 압축된 컨텍스트 표현 값을 계산할 수 있게 하는 추가적인 정보를 포함한다.

제8 구현 형태에 따른 제9 구현 형태로서, 상기 추가적인 인코딩 사이즈에 대한 상기 컨텍스트의 압축된 컨텍스트 표현 값을 계산할 수 있게 하는 추가적인 정보는: 기울기 정보; 또는 또 다른 인코딩 사이즈에 대한 추가적인 압축된 컨텍스트 표현 정보 값을 포함한다.

제8 또는 제9 구현 형태에 따른 제10 구현 형태로서, 상기 주어진 인코딩 사이즈는 상기 인코딩 사이즈의 세트 중 최소의 인코딩 사이즈이다.

최소 인코딩 사이즈는 특정 블록 사이즈에서 이미지의 모든 인코딩 사이즈에 대해 압축된 컨텍스트 표현 값 모두를 근사하는데 이용될 수 있다.

제8 내지 제10 구현 형태 중 임의의 것에 따른 제11 구현 형태로서, 상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈는 인코딩 사이즈 및 블록 사이즈의 세트로부터 선택되며, 상기 컨텍스트 정보 값의 세트는 상기 블록 사이즈의 세트로부터의 각각의 블록 사이즈에 대해 제공되며, 이러한 제공은 예를 들면 메모리로부터, 예컨대 룩업 테이블로부터의 저장 및 검색, 또는 다른 디바이스로부터 수신기를 통한 수신을 포함할 수 있다.

제1 양태 또는 임의의 앞선 구현 형태에 따른 제12 구현 형태로서, 컨텍스트 기반 인코딩은 합산 기반 산술 인코딩이고, 히스토그램 맵은 공간 그리드의 대응하는 블록에서 키 포인트의 존재 또는 부존재를 나타내는 이진 매트릭스 표현이다.

제2 양태에 따르면, 본 발명은 컴퓨터 상에서 실행되는 경우 제1 양태 또는 제1 양태의 앞선 구현 형태 중 임의의 것에 따른 방법을 수행하기 위한 프로그램 코드를 구비하는 컴퓨터 프로그램을 제공한다. 이러한 컴퓨터 프로그램은 메모리, 예를 들면 ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), 플래시 메모리, CD, DVD, 블루-레이 디스크, 또는 임의의 기타 다른 저장 매체 상에 저장될 수 있다. 컴퓨터 프로그램은 다운로드, 스트리밍, 또는 임의의 다른 방식으로도 제공될 수 있다.

제3 양태에 따르면, 본 발명은 제1 양태 또는 제1 양태의 구현 형태 중 임의의 것에 따라 인코딩을 수행하도록 되어 있는 프로세서를 제공한다.

제4 양태에 따르면, 본 발명은 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 장치를 제공하고, 상기 히스토그램 맵은 상기 이미지의 키 포인트의 위치 정보를 표현하며, 상기 장치는: 상기 히스토그램 맵을 획득하기 위해 상기 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보를 제공하도록 되어 있는 제공 유닛; 상기 압축된 컨텍스트 표현 정보로부터, 근사 알고리즘을 적용함으로써 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트를 계산하도록 되어 있는 계산 유닛; 및 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 상기 컨텍스트를 이용하여 상기 히스토그램 맵을 인코딩하도록 되어 있는 인코딩 유닛을 포함한다.

제4 양태의 일 구현 형태에 따르면, 획득 유닛은 또한, 추가적인 근사 알고리즘을 이용함으로써 상기 주어진 블록 사이즈에 연관되는 컨텍스트 정보 값의 세트로부터 상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈에 대해 상기 압축된 컨텍스트 표현 정보를 계산하도록 되어 있다.

이러한 제4 양태에 대해서는 제1 양태와 동일한 사항이 적용된다.

임의의 양태의 구현 형태에서, 인코딩 사이즈는 인코딩 이후 키 포인트에 관한 이미지로부터 추출되는 전체 피처 정보의 타겟 사이즈(예컨대, 바이트 단위), 또는 인코딩 이후 이러한 피처 정보의 부분들의 임의의 기타 다른 타겟 사이즈를 칭할 수 있다.

MPEG-7(ISO/IEC 15938 - 멀티미디어 컨텐츠 기술 인터페이스), 파트 13, 비주얼 서치용 컴팩트 기술자(CDVS)에 따른 추가적인 구현 형태로서, 인코딩 사이즈는 이미지 기술자 길이에 대응할 수 있고, 여기서 이미지 기술자 길이는 하나의 이미지로부터 추출되고 비주얼 서치의 컨텍스트에 이용되는 비트스트림(이미지 기술자 및 관련 헤더)의 사이즈이며, 이미지 기술자라는 용어는 비주얼 서치의 컨텍스트에 이용되는 하나의 이미지로부터 추출된 정보(글로벌 기술자 및 로컬 피처 기술자의 컬렉션 및/또는 히스토그램 카운트와 히스토그램 맵을 포함)를 지칭한다.

제5 양태에 따르면, 본 발명은 이미지를 처리하기 위한 방법에 관한 것이며, 이러한 방법은: 이미지로부터 키 포인트의 세트를 제공하는 단계; 이진 매트릭스의 형태로 이미지의 키 포인트의 세트에 대한 위치 정보를 기술하는 단계; 컨텍스트의 이중 근사를 통해서, 결정된 블록 사이즈 및 비트레이트로 근사 컨텍스트를 계산하는 단계 및 산술 컨텍스트를 통해 이진 매트릭스를 인코딩하는 단계를 포함하며, 여기서 컨텍스트는 이진 매트릭스의 엘리먼트에 공간적으로 근접하는 비-제로 매트릭스 엘리먼트의 수에 의해 주어진다.

제3 양태에 따른 방법의 가능한 제1 구현 형태로서, 근사 컨텍스트는 다음 2개의 압축된 컨텍스트 표현 값들을 통해 결정된다: 고정 포인트 및 이러한 고정 포인트를 통과하는 라인의 기울기.

제3 양태의 제1 구현 형태에 따른 방법의 가능한 제2 구현 형태로서, 컨텍스트의 2개의 압축된 컨텍스트 표현 값들 각각은 이와 다른 다음의 두 값들을 통해 유도된다: 각각의 블록 사이트에 대해 특정 비트레이트에서 압축된 컨텍스트 표현 값들을 나타내는 추가적인 고정 포인트; 및 나머지 비트레이트로부터 압축된 컨텍스트 표현 값들을 근사하는데 이용되는 라인의 추가적인 기울기.

제3 양상의 제1 구현 형태에 따른 방법의 가능한 제3 구현 형태로서, 중앙 영역의 단일 모델 확률이 별도로 시그널링된다.

제3 양태의 제3 구현 형태에 따른 방법의 가능한 제4 구현 형태로서, 중앙 영역의 단일 모델 확률은 이와 다른 다음의 두 값들을 통해 유도된다: 각각의 블록 사이즈에 대해 특정 비트레이트에서 단일 모델 확률을 나타내는 추가적인 고정 포인트; 및 나머지 비트레이트로부터 단일 모델 확률을 근사하는데 이용되는 라인의 추가적인 기울기.

본 명세서에서 기술되는 방법, 시스템 및 디바이스는 디지털 신호 처리기(DSP)에서, 마이크로컨트롤러에서, 또는 임의의 이와 다른 사이드 프로세서에서 소프트웨어로 구현되거나, 또는 주문형 집적 회로(ASIC) 내에서 하드웨어 회로로 구현될 수 있다.

본 발명은 디지털 전자 회로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있고, 예를 들면 기존 모바일 디바이스의 가용 하드웨어로 또는 본 명세서에서 기술되는 방법을 처리하기 위해 전용화된 새로운 하드웨어로 구현될 수 있다.

본 발명의 추가적인 실시예는 다음의 도면을 참조로 하여 기술될 것이다:
도 1은 일 구현 형태에 따라 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법을 개략적으로 나타낸다.
도 2는 일 구현 형태에 따라 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 3개의 압축된 컨텍스트 표현 정보 값들을 이용하는 컨텍스트 곡선의 근사를 개략적으로 나타낸다.
도 3은 일 구현 형태에 따라 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 인코더의 블록도이다.
도 4는 일 구현 형태에 따라 도 3에 도시된 컨텍트스 계산 블록(305)의 블록도이다.
도 5는 일 구현 형태에 따라 도 4에 도시된 컨텍트스 생성 블록을 위한 테이블(407)을 생성하기 위한 블록도를 나타낸다.
도 6은 일 구현 형태에 따라 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 인코더의 블록도이다.
도 7은 기존 방법에 따른 로컬 피처의 예시적인 추출 및 표현을 개략적으로 나타낸 것이다.
도 8은 기존 방법에 따른 히스토그램 맵 및 히스토그램 카운트 생성을 개략적으로 나타낸 것이다.

도 1은 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법(100)을 개략적으로 나타낸다. 이러한 방법은 다음을 포함한다: 히스토그램 맵을 획득하기 위해 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보(예를 들면 도 2를 참조하여 이후 설명하는 바와 같은 A, B, C)를 제공하는 단계(101); 압축된 컨텍스트 표현 정보로부터, 근사 알고리즘을 적용함으로써 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트를 계산하는 단계(103); 및 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 컨텍스트를 이용하여 히스토그램 맵을 인코딩하는 단계(105).

이하에서는, 이중 근사의 구현예에 관해 설명할 것이고, "인코딩 사이즈" 대신에 "비트레이트"라는 용어가 사용되며, "히스토그램 맵" 대신에 "위치 정보의 맵"이라는 용어가 사용되고, 주어진 인코딩 사이즈 및 주어진 블록 사이즈의 특정 조합은 "테스트 포인트"라 지칭된다.

도 1은 일 구현 형태에 따라 이미지의 키 포인트의 세트의 좌표로부터 결정되는 위치 정보의 맵을 인코딩하기 위한 방법(100)을 개략적으로 나타낸다.

테스팅 포인트라고도 지칭되는 테스트 포인트의 세트는 이미지의 비트레이트 및 위치 정보의 맵에 적용되는 공간 그리드의 블록 사이즈에 의해 결정된다.

방법(100)은, 각각의 테스트 포인트에 대하여, 테스팅 이미지의 세트로부터 미리결정된 컨텍스트 정보 값의 세트에 제1 근사를 적용함으로써 압축된 컨텍스트 표현 정보를 제공하는 단계(101)를 포함한다. 단계(100)는, 압축된 컨텍스트 표현 정보로부터, 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트와 관련하여 제2 근사를 적용함으로써 테스트 포인트에 대한 근사 컨텍스트를 계산하는 단계(103)를 포함한다. 방법(100)은 테스트 포인트의 근사 컨텍스트를 이용함으로써 위치 정보의 맵을 인코딩하는 단계(105)를 포함한다.

방법(100)의 일 구현 형태로서, 테스트 포인트에 대해 컨텍스트를 계산하는 단계(103)는 다음 단계 중 적어도 하나를 포함한다: 테스트 포인트에 속하는 위치 정보의 맵의 컨텍스트에 대한 값들 중 하나를 선택함으로써 제1 파라미터를 결정하는 단계; 및 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트를 근사하는 라인의 기울기로서 제2 파라미터를 결정하는 단계.

일 구현 형태로서, 방법(100)은 추가적인 파라미터들을 활용하여 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트의 특정 엘리먼트를 결정하는 단계를 포함한다. 방법(100)의 일 구현 형태로서, 위치 정보의 맵의 엘리먼트의 중앙 영역을 인코딩하기 위해 단일 모델 산술 코딩을 적용함으로써 제3의 파라미터가 결정된다. 방법(100)의 일 구현 형태로서, 테스트 포인트에 대해 압축된 컨텍스트 표현 정보를 제공하는 단계(101)는, 적어도 하나의 값에 대하여, 이미지의 레퍼런스 비트레이트와 관련하여 압축된 컨텍스트 표현 정보 값을 나타내는 제1 컨텍스트 정보 값과 이미지의 비트레이트와 관련하여 압축된 컨텍스트 표현 정보 값을 선형 근사하기 위한 기울기를 나타내는 제2 컨텍스트 정보 값을 결정하는 단계를 포함한다. 방법(100)의 일 구현 형태로서, 이미지의 레퍼런스 비트 레이트는 이미지에 대해 제공된 최소 비트레이트이다. 방법(100)의 일 구현 형태로서, 제2 컨텍스트 정보 값을 결정하는 것은 테스트 포인트의 세트에 대해 제공되는 최대 비트 레이트로 결정된 값을 통과하는 선형 회귀에 의해 이러한 값을 결정하는 것을 포함한다. 일 구현 형태로서, 방법(100)은 위치 정보의 맵의 테스트 포인트에 의해 채용되는 블록 사이즈에 대해서, 대응하는 압축된 컨텍스트 표현 정보의 적어도 하나의 값의 제1 컨텍스트 정보 값과 제2 컨텍스트 정보 값을 포함하는 컨텍스트 테이블을 제공하는 것을 포함한다. 방법(100)의 일 구현 형태로서, 컨텍스트 테이블은 이미지의 블록 사이즈에 대해서, 특히 1 내지 12 범위의 블록 사이즈에 대해서, 제1의 압축된 컨텍스트 표현 정보 값의 제1 및 제2 컨텍스트 정보 값, 제2의 압축된 컨텍스트 표현 정보 값의 제1 및 제2 컨텍스트 정보 값, 및 제3의 압축된 컨텍스트 표현 정보 값의 제1 및 제2 컨텍스트 정보 값을 제공한다. 방법(100)의 일 구현 형태로서, 이미지의 비트레이트는 다음 중 하나의 값을 포함한다: 이미지당 512, 1024, 2048, 4096, 8192 및 16384 바이트. 일 구현 형태로서, 방법(100)은 위치 정보의 맵을 이진 매트릭스로 제공하는 것을 포함한다. 방법(100)의 일 구현 형태로서, 위치 정보의 맵은 테스트 포인트의 컨텍스트 정보를 채용하는 합산 기반 산술 코딩에 의해 인코딩된다.

도 2는 일 구현 형태에 따라 테스트 포인트에 대해 3개의 값(202, 204, 206)을 이용하는 산술 기반 컨텍스트의 근사에 대한 개략도(200)를 나타낸다. 개략도(200)는 테스팅 포인트에 대한 컨텍스트 곡선(203)을 나타내며, 이러한 컨텍스트 곡선(203)은 라인(201)에 의해 근사된다. 컨텍스트는 이미지의 고정된 블록 사이즈 및 비트레이트로 근사된다. 컨텍스트 곡선(203)은 컨텍스트 엘리먼트 인덱스(209)에 대해 산술 코딩에 있어서의 심볼 0의 발생의 확률 값(211)으로 표현된다.

이미지의 블록 사이즈 및 비트레이트에 의해 또는 이와 관련하여 결정되는 각 테스팅 포인트에 대한 컨텍스트 곡선(203)을 분석함으로써, 산술 코딩을 위하여, 모든 가능한 발생의 누적 확률 함수가 통상 표현될 필요가 있다는 점을 인식할 수 있다; 그러나, 위치 정보 맵이 이진 맵으로 인코딩되기 때문에, 단지 2개의 값을 표현하는 것만으로 충분하다. 누적 확률을 1로 정규화함으로써 0의 발생 확률(211)을 저장하는 것만으로 충분하다.

컨텍스트 곡선(203)은, 이하에서 컨텍스트의 제1 엘리먼트라 표현되고 별도로 취급되는, 이미지의 중앙 영역을 인코딩하는데 이용되는 단일 모델 산술 코딩에 적용되는 컨텍스트 값과 관련된 엘리먼트 이외에, 컨텍스트 번호(209)에 대한 0의 발생 확률(211)에 의해 표현된다. 나머지 값은 선형으로 근사(201)된다. 그러나, 임의의 이와 다른 근사 함수 또는 알고리즘이 채용될 수도 있다.

이하에서 "근사 A"라 지칭되는 이와 같이 채용된 근사로 인하여, 특정 테스팅 포인트에서 각각의 컨텍스트 곡선(203)은 도 2에서 알 수 있는 바와 같이 3개의 계수를 통해 근사된다. 첫 번째 계수(204)는 고정 포인트이고, 이하에서 '값 B'라 지칭된다. 두 번째 계수(206)는 선형 회귀 또는 임의의 이와 다른 근사를 통해 계산된 근사 라인의 기울기이며, 이하에서 '값 C'라 지칭되고, 세 번째 계수(202)는 단일 모델 산술 코딩을 채용하는 영역에 대한 0의 확률을 나타내며, 이하에서 '값 A'라 지칭된다. 값 A는 별도로 취급된다.

압축된 컨텍스트 표현 정보 값 A, B, C는 이미지의 블록 사이즈와 비트레이트에 의해 결정되는 채용된 테스트 포인트에 따라 달라진다. 값 A가 비트레이트에 반비례하는 경향이 있고 값 B도 비트레이트에 반비례하는 경향이 있으며 값 C도 비트레이트에 반비례하는 경향이 있다는 가정에 기초하여, 값 A, B, C는 이하에서 "근사 B"라 지칭되는 또 다른 근사를 통해 근사되고, 이는 일 구현 형태에서 선형 근사이다. 대안적인 구현 형태로서, 근사 B는 임의의 다른 근사 함수를 적용한다. 그러므로 특정 블록 사이즈에서, 모든 비트레이트에 대한 A, B, C의 값은 다음의 두 값을 이용하여 근사된다: 하나의 고정 값, 예를 들면 최소 비트레이트에서 보간된 값; 및 나머지 엘리먼트를 모두 유도하기 위해 선형 회귀를 통해 계산되는 근사 라인의 기울기.

선형 회귀는 최대 비트레이트에서 정확한 포인트를 통과하는 방식으로 계산되는데, 이러한 비트레이트는 컨텍스트가 더 유익한 비트레이트이기 때문이다. 기술된 근사를 이용하여, 예시적인 수인 72개(예컨대, 6개의 행과 12개의 열)의 엘리먼트를 갖는 테이블이, 예를 들어 상이한 블록 사이즈에서 컨텍스트 정보 값을 저장함으로써 생성된다. 대안적인 구현 형태에서는, 다른 개수의 엘리먼트가 생성된다. 테이블 1은 컨텍스트 테이블의 예시적인 표현을 나타낸다.

블록 1 컨텍스트	블록 2 컨텍스트	블록 3 컨텍스트	블록 4 컨텍스트	블록 5 컨텍스트
최소 비트레이트에서의 값 A (블록 사이즈 1)	최소 비트레이트에서의 값 A (블록 사이즈 2)	최소 비트레이트에서의 값 A (블록 사이즈 3)	최소 비트레이트에서의 값 A (블록 사이즈 4)	최소 비트레이트에서의 값 A (블록 사이즈 5)
다른 비트레이트에서 값 A를 계산하기 위한 기울기 (블록 사이즈 1)	다른 비트레이트에서 값 A를 계산하기 위한 기울기 (블록 사이즈 2)	다른 비트레이트에서 값 A를 계산하기 위한 기울기 (블록 사이즈 3)	다른 비트레이트에서 값 A를 계산하기 위한 기울기 (블록 사이즈 4)	다른 비트레이트에서 값 A를 계산하기 위한 기울기 (블록 사이즈 5)
최소 비트레이트에서의 값 B (블록 사이즈 1)	최소 비트레이트에서의 값 B (블록 사이즈 2)	최소 비트레이트에서의 값 B (블록 사이즈 3)	최소 비트레이트에서의 값 B (블록 사이즈 4)	최소 비트레이트에서의 값 B (블록 사이즈 5)
다른 비트레이트에서 값 B를 계산하기 위한 기울기 (블록 사이즈 1)	다른 비트레이트에서 값 B를 계산하기 위한 기울기 (블록 사이즈 2)	다른 비트레이트에서 값 B를 계산하기 위한 기울기 (블록 사이즈 3)	다른 비트레이트에서 값 B를 계산하기 위한 기울기 (블록 사이즈 4)	다른 비트레이트에서 값 B를 계산하기 위한 기울기 (블록 사이즈 5)
최소 비트레이트에서의 값 C (블록 사이즈 1)	최소 비트레이트에서의 값 C (블록 사이즈 2)	최소 비트레이트에서의 값 C (블록 사이즈 3)	최소 비트레이트에서의 값 C (블록 사이즈 4)	최소 비트레이트에서의 값 C (블록 사이즈 5)
다른 비트레이트에서 값 C를 계산하기 위한 기울기 (블록 사이즈 1)	다른 비트레이트에서 값 C를 계산하기 위한 기울기 (블록 사이즈 2)	다른 비트레이트에서 값 C를 계산하기 위한 기울기 (블록 사이즈 3)	다른 비트레이트에서 값 C를 계산하기 위한 기울기 (블록 사이즈 4)	다른 비트레이트에서 값 C를 계산하기 위한 기울기 (블록 사이즈 5)

표 1에 나타낸 바와 같은 컨텍스트 테이블은 전체 컨텍스트 정보 값을 저장하며, 여기서 각각의 열은 특정 블록 사이즈에 대해 임의의 비트레이트로 근사 컨텍스트를 재생성하는데 필요한 모든 정보를 저장한다. 비주얼 서치 및 증강 현실 응용을 위해 타당한 일 구현 형태로서, 블록 사이즈는 1 내지 12에서 변화한다. 일 구현 형태로서, 각각의 블록 사이즈에 대해 6개의 값이 저장된다. 각각의 블록 사이즈에 대해, 단일 모델 산술 코딩을 이용하여 영역을 근사하기 위해 2개의 값이 저장되고, 이는 특정 비트레이트에 대한 값 A, 예를 들면 최소 비트레이트에서의 보간된 값, 및 나머지 값들을 유도하기 위한 기울기 값이다. 합산 기반 영역에 대해 4개의 값이 저장되며, 이는 특정 비트레이트에 대한 값 B, 예를 들면 최소 비트레이트에서의 보간된 값, 및 나머지 값들을 유도하기 위한 기울기 값, 그리고 특정 비트레이트에 대한 값 C, 예를 들면 최소 비트레이트에서의 보간된 값, 및 나머지 값들을 유도하기 위한 기울기 값이다.

도 3은 일 구현 형태에 따라 위치 정보의 맵을 인코딩하기 위한 인코더(300)의 블록도이다. 인코더(300)는 처리 블록이라고도 지칭되는 4개의 처리 수단을 포함한다. 일 구현 형태로서, 처리 수단은 하드웨어 유닛으로, 예를 들면 주문형 집적 회로(ASIC)로 구현된다. 일 구현 형태로서, 처리 수단은 소프트웨어로, 예를 들면 디지털 신호 처리기(DSP) 또는 마이크로컨트롤러 상에서 실행되는 프로그램으로 구현된다.

처리 블록(301)은 이미지로부터 키 포인트의 세트를 계산하도록 구성된다. 처리 블록(303)은 키 포인트의 세트의 위치 정보를 이진 매트릭스의 형태로 기술하고 히스토그램 맵을 생성하도록 구성된다. 처리 블록(305)은 이중 근사를 통해서, 예를 들어 도 1과 관련하여 기술한 바와 같은 방법(100)에 의해서 및/또는 도 2와 관련하여 기술한 바와 같은 근사를 이용함으로써, 관심 대상 블록 사이즈 및 비트레이트에 대하여, 즉 현재의 테스팅 포인트에 대하여, 근사 컨텍스트를 계산하도록 구성된다. 처리 블록(307)은 블록(305)에서 계산된 근사 컨텍스트를 채용하는 합산 기반 산술 코딩을 통해서 이진 매트릭스를 인코딩하도록 구성된다.

일 구현 형태로서, 도 3의 블록도는 위치 정보의 맵을 인코딩하기 위한 방법(300)을 나타낸다. 방법(300)은 이미지로부터 키 포인트의 세트를 계산하는 단계(301); 키 포인트의 세트의 위치 정보를 이진 매트릭스의 형태로 기술하며 히스토그램 맵을 생성하는 단계(303); 이중 근사를 통해서, 예를 들어 도 1과 관련하여 기술한 바와 같은 방법(100)에 의해서 및/또는 도 2와 관련하여 기술한 바와 같은 근사를 이용함으로써, 관심 대상 블록 사이즈 및 비트레이트에 대해, 즉 현재의 테스팅 포인트에 대해, 근사 컨텍스트를 계산하는 단계(305); 및 단계(305)에서 계산된 근사 컨텍스트를 채용하는 합산 기반 산술 코딩을 통해서 이진 매트릭스를 인코딩하는 단계(307)를 포함한다.

일 구현 형태로서, 컨텍스트 계산 단계(305)는 도 1과 관련하여 앞서 기술한 바와 같은 제공 단계(101) 및 계산 단계(103)에 대응하며, 인코딩 단계(307)는 도 1과 관련하여 앞서 기술한 바와 같은 인코딩 단계(105)에 대응한다.

일 구현 형태로서, 히스토그램 맵(304)은 도 1과 관련하여 앞서 기술한 바와 같은 위치 정보의 맵에 대응한다. 일 구현 형태로서, 컨텍스트 곡선(306)은 도 1과 관련하여 앞서 기술한 바와 같은 근사 컨텍스트에 대응한다.

도 4는 일 구현 형태에 따라 도 3에 도시된 컨텍스트 계산 블록(305)의 블록도를 나타낸다. 합산 기반 산술 코딩을 위해 블록(307)에 의해 이용되는 근사 컨텍스트를 유도하는 프로세스가 상세하게 도시되어 있다. 컨텍스트 계산 블록(305)은 4개의 처리 블록을 포함한다. 처리 블록(401)은 관심 대상 블록 사이즈와 관련된 컨텍스트 테이블(407)의 엘리먼트를 선택하도록 구성된다. 처리 블록(403)은, 블록(401)에서 선택된 엘리먼트를 이용하여, 도 2와 관련하여 앞서 기술한 바와 같은 근사 B를 통해서, 관심 대상 비트레이트에 대해 값 A, B, C를 근사하도록 구성된다. 처리 블록(405)은 블록(403)에서 계산된 엘리먼트에서 시작하여, 값 A를 이용하여 테스팅 키 포인트에 대한 근사 컨텍스트를 계산하고, 값 C로서의 기울기와 함께, 값 B를 통과하는 라인을 계산하며, 도 2와 관련하여 앞서 기술한 바와 같은 근사 A에 따라 컨텍스트의 나머지 엘리먼트를 계산하도록 구성된다. 처리 블록(407)은 도 5와 관련하여 이하에서 기술하는 바와 같은 프로세스를 통해서 계산된 컨텍스트 생성을 위한 테이블을 표시한다.

일 구현 형태로서, 값 A, B, 및 C는 각각, 도 2와 관련하여 앞서 기술한 바와 같은 값 A(202), 값 B(204), 및 값 C(206)에 대응한다.

일 구현 형태로서, 도 4의 블록도는 컨텍스트를 계산하기 위한 방법을 나타낸다. 방법은 관심 대상 블록 사이즈와 관련된 컨텍스트 테이블(407)의 엘리먼트를 선택하는 단계(401); 블록(401)에서 선택된 엘리먼트를 이용하여, 근사 B를 통해, 관심 대상 비트레이트에 대해 값 A, B, C를 근사하는 단계(403); 블록(403)에서 계산된 엘리먼트에서 시작하여, 값 A를 이용하여 테스팅 키 포인트에 대한 근사 컨텍스트를 계산하고, 값 C로서의 기울기와 함께, 값 B를 통과하는 라인을 계산하며, 근사 A에 따라 컨텍스트의 나머지 엘리먼트를 계산하는 단계(405); 및 도 5와 관련하여 이하에서 기술하는 바와 같은 프로세스를 통해서 계산된 컨텍스트 생성을 위한 테이블을 표시하는 단계(407)를 포함한다.

도 5는 일 구현 형태에 따라 도 4에 도시된 컨텍스트 생성 블록을 위한 테이블(407)의 블록도를 나타낸다. 테이블(407)은 도 5에 도시된 처리 블록을 통해 오프라인으로 생성된다. 컨텍스트 생성 블록을 위한 테이블(407)은 3개의 처리 블록을 포함한다. 처리 블록(501)은 각각의 테스팅 포인트에 대해 값 A, B 및 C를 계산하도록 구성된다. 처리 블록(503)은 선형 회귀를 통하여, 각각의 블록 사이즈에 대해 값 A, B 및 C를 근사하도록 구성된다. 처리 블록(505)은 모든 근사된 값을 저장하는 컨텍스트 테이블을 생성하도록 구성된다.

일 구현 형태로서, 도 5의 블록도는 컨텍스트 생성 블록(407)을 생성하기 위한 방법을 표현한다. 방법은 각각의 테스팅 포인트에 대해 값 A, B 및 C를 계산하는 단계(501); 각각의 블록 사이즈에 대해 값 A, B 및 C를 근사하는 단계(503); 및 모든 근사된 값을 저장하는 컨텍스트 테이블을 생성하는 단계(505)를 포함한다.

도 6은 일 구현 형태에 따라 위치 정보의 맵을 인코딩하기 위한 인코더(600)의 블록도를 나타낸다. 위치 정보의 맵은 이미지의 키 포인트의 세트의 좌표로부터 결정된다. 테스트 포인트의 세트는 이미지의 비트레이트에 의해서, 그리고 위치 정보의 맵에 적용된 공간 그리드의 블록 사이즈에 의해서 결정된다. 인코더(600)는, 테스트 포인트에 대하여, 테스팅 이미지의 세트로부터 미리결정된 컨텍스트 정보 값의 세트에 제1 근사를 적용함으로써 압축된 컨텍스트 표현 정보를 제공하도록 구성되는 제1 근사 유닛(601)을 포함한다. 인코더(600)는, 압축된 컨텍스트 표현 정보로부터, 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트와 관련하여 제2 근사를 적용함으로써 테스트 포인트에 대해 근사 컨텍스트를 계산하도록 구성되는 제2 근사 유닛(603)을 포함한다. 인코더(600)는 테스트 포인트의 근사 컨텍스트를 이용함으로써 위치 정보의 맵을 인코딩하도록 구성되는 컨텍스트 인코더(605)를 더 포함한다.

인코더(600)의 일 구현 형태로서, 제2 근사 유닛(603)은 다음의 유닛 중 적어도 하나를 포함한다: 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트에 대한 값들 중 하나의 값을 선택함으로써 제1의 압축된 컨텍스트 표현 정보 파라미터를 결정하도록 구성되는 제1 결정 유닛; 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트의 나머지 엘리먼트를 계산하기 위한 근사 라인의 기울기로서 제2의 압축된 컨텍스트 표현 정보 파라미터를 결정하도록 구성되는 제2 결정 유닛; 및 테스트 포인트에 속하는 위치 정보의 맵의 엘리먼트를 인코딩하기 위해 채용된 컨텍스트의 특정 엘리먼트를 결정하기 위한 제3의 압축된 컨텍스트 표현 정보 파라미터를 결정하도록 구성되는 제3 결정 유닛. 제1 근사 유닛(601)은, 3개의 압축된 컨텍스트 표현 정보 파라미터 중 적어도 하나에 대하여, 이미지의 특정 블록 사이즈에 대한 레퍼런스 비트레이트와 관련하여 압축된 컨텍스트 표현 정보 파라미터를 나타내는 제1 컨텍스트 정보 값 및 이미지의 비트레이트와 관련하여 압축된 컨텍스트 표현 정보 파라미터를 근사하기 위한 기울기를 나타내는 제2 컨텍스트 정보 값을 결정하도록 구성된다.

일 구현 형태로서, 인코더(600)는 도 1과 관련하여 위에서 기술한 바와 같은 방법(100), 또는 도 2 내지 5와 관련하여 위에서 기술한 바와 같은 방법을 구현하도록 되어 있다.

이중 근사를 이용하는 구현 형태에 관해 주로 설명하였지만, 본 발명의 구현 형태는 이러한 것들로 제한되지 않는다. 처음에 도 1에 기초하여 기술한 바와 같이, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법(100)으로도 지칭될 수 있는 방법의 구현 형태는 - 여기서 히스토그램 맵은 이미지의 키 포인트의 위치 정보를 표현함 - 다음을 또한 포함할 수 있다.

히스토그램 맵을 획득하기 위해 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보(예를 들면, A; B; C)를 제공 또는 획득하는 단계(101).

압축된 컨텍스트 표현 정보(예컨대, A; B; C)로부터, (컨텐츠 계산) 근사 알고리즘을 적용함으로써 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트(201)를 계산하는 단계(103).

주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 컨텍스트를 이용하여 히스토그램 맵을 인코딩하는 단계(105).

이러한 구현은 - 컨텍스트 정보 값의 세트로부터 압축된 컨텍스트 표현 정보를 유도하는 대신에 - 인코딩 사이즈와 블록 사이즈의 하나 또는 복수의 조합에 대하여 압축된 컨텍스트 표현 정보를 저장 또는 수신할 수 있다.

동일한 사항이 컴퓨터 프로그램 제품, 프로세서 및 장치의 구현 형태에 적용된다. 이들은 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대한 컨텍스트를 획득하기 위해 단일 또는 이중 근사를 이용하여 구현될 수 있다.

그러므로, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 장치의 구현예는 - 여기서 히스토그램 맵은 이미지의 키 포인트의 위치 정보를 표현함 - 제공 유닛, 계산 유닛 및 인코딩 유닛을 포함한다.

제공 유닛은, 히스토그램 맵을 획득하기 위해 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보를 제공하도록 되어 있다. 계산 유닛은, 압축된 컨텍스트 표현 정보로부터, 근사 알고리즘을 적용함으로써 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트를 계산하도록 되어 있다. 인코딩 유닛은, 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 컨텍스트를 이용하여 히스토그램 맵을 인코딩하도록 되어 있다.

이에 따라, 장치의 추가적인 구현 형태(이중 근사 구현)로서, 획득 유닛은 또한, 추가적인 근사 알고리즘을 이용함으로써 주어진 블록 사이즈에 연관되는 컨텍스트 정보 값의 세트로부터 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 압축된 컨텍스트 표현 정보를 계산하도록 되어 있다.

앞선 내용으로부터, 통상의 기술자라면, 다양한 방법, 시스템, 기록 매체 상의 컴퓨터 프로그램 등이 제시된다는 점을 인식할 수 있을 것이다.

본 개시내용은 또한, 실행되는 경우 적어도 하나의 컴퓨터로 하여금 본 명세서에서 기술되는 수행 및 계산 단계를 실행하도록 하는 컴퓨터 실행가능 코드 또는 컴퓨터 실행가능 명령을 포함하는 컴퓨터 프로그램 제품을 지원한다.

앞선 내용의 관점에서 수많은 대안, 수정 및 변형이 통상의 기술자에게 자명할 것이다. 물론 통상의 기술자라면, 본 명세서에서 기술된 내용 이외에도 본 발명의 수많은 응용예가 있다는 점을 인식할 것이다. 본 발명은 하나 이상의 특정 실시예를 참조하여 기술되었지만, 통상의 기술자라면 본 발명의 범위를 벗어남이 없이 많은 변경이 이루어질 수 있다는 점을 인식할 것이다. 그러므로, 본 발명은 첨부된 청구범위 및 이의 균등범위 내에서 본 명세서에서 특별하게 기술된 것과는 다르게 실시될 수도 있음을 이해해야 한다.

Claims

이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법(100)으로서,
상기 히스토그램 맵은 상기 이미지의 키 포인트의 위치 정보를 표현하며, 상기 방법은:
상기 히스토그램 맵을 획득하기 위해 상기 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보(A; B; C)를 제공하는 단계(101);
상기 압축된 컨텍스트 표현 정보(A; B; C)로부터, 근사 알고리즘을 적용함으로써 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트(201)를 계산하는 단계(103); 및
상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 상기 컨텍스트를 이용하여 상기 히스토그램 맵을 인코딩하는 단계(105)를 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제1항에 있어서,
상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보는:
상기 컨텍스트의 컨텍스트 값 및 상기 컨텍스트 값에 연관되는 확률 값; 및
상기 컨텍스트의 적어도 하나의 다른 컨텍스트 값에 연관되는 확률 값을 계산할 수 있게 하는 추가적인 정보를 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제2항에 있어서,
상기 컨텍스트의 적어도 하나의 다른 컨텍스트 값의 확률 값을 계산할 수 있게 하는 추가적인 정보는:
기울기 정보; 또는
추가적인 컨텍스트 값 및 상기 추가적인 컨텍스트 값에 연관되는 추가적인 확률 값을 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제2항에 있어서,
상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보는:
단일 모델 산술 코딩(single model arithmetic coding)을 통해 상기 공간 그리드의 중앙 블록에 연관되는 상기 히스토그램 맵의 중앙 엘리먼트의 컨텍스트 기반 인코딩을 위해 또 다른 컨텍스트 값, 및 상기 또 다른 컨텍스트 값에 연관되는 또 다른 확률을 더 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제1항에 있어서,
상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈는 인코딩 사이즈 및 블록 사이즈의 세트로부터 선택되는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제1항에 있어서,
상기 압축된 컨텍스트 표현 정보(A; B; C)는, 상기 인코딩 사이즈 및 블록 사이즈의 세트로부터의 주어진 인코딩 사이즈 및 주어진 블록 사이즈의 각각의 조합에 대해 제공되는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제1항에 있어서,
상기 압축된 컨텍스트 표현 정보(A; B; C)를 제공하는 단계(101)는:
추가적인 근사 알고리즘을 이용함으로써 상기 주어진 블록 사이즈에 연관되는 컨텍스트 정보 값의 세트로부터 상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈에 대해 상기 압축된 컨텍스트 표현 정보(A; B; C)를 계산하는 단계를 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제7항에 있어서,
상기 주어진 블록 사이즈에 연관되는 상기 컨텍스트 정보 값의 세트는:
주어진 인코딩 사이즈에 대한 컨텍스트의 압축된 컨텍스트 표현 정보 값(A; B; C); 및
추가적인 인코딩 사이즈에 대한 상기 컨텍스트의 압축된 컨텍스트 표현 정보 값을 계산할 수 있게 하는 추가적인 정보를 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제8항에 있어서,
상기 추가적인 인코딩 사이즈에 대한 상기 컨텍스트의 압축된 컨텍스트 표현 정보 값을 계산할 수 있게 하는 상기 추가적인 정보는:
기울기 정보; 또는
또 다른 인코딩 사이즈에 대한 추가적인 압축된 컨텍스트 표현 정보 값을 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제8항에 있어서,
상기 주어진 인코딩 사이즈는 상기 인코딩 사이즈의 세트 중 최소의 인코딩 사이즈인, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
제8항에 있어서,
상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈는 인코딩 사이즈 및 블록 사이즈의 세트로부터 선택되며, 상기 컨텍스트 정보 값의 세트는 상기 블록 사이즈의 세트로부터의 각각의 블록 사이즈에 대해 제공되는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법.
컴퓨터 상에서 실행되는 경우 제1항 내지 제11항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 구비하는 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능 매체.
이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 장치로서, 상기 히스토그램 맵은 상기 이미지의 키 포인트의 위치 정보를 표현하며, 상기 장치는:
상기 히스토그램 맵을 획득하기 위해 상기 이미지의 매트릭스 표현에 적용되는 공간 그리드의 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 연관되는 압축된 컨텍스트 표현 정보(A; B; C)를 제공하도록 되어 있는 제공 유닛;
상기 압축된 컨텍스트 표현 정보(A; B; C)로부터, 근사 알고리즘을 적용함으로써 상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 컨텍스트(201)를 계산하도록 되어 있는 계산 유닛; 및
상기 주어진 인코딩 사이즈 및 주어진 블록 사이즈에 대해 계산되는 상기 컨텍스트를 이용하여 상기 히스토그램 맵을 인코딩하도록 되어 있는 인코딩 유닛을 포함하는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 장치.
제13항에 있어서,
상기 제공 유닛은 또한, 추가적인 근사 알고리즘을 이용함으로써 상기 주어진 블록 사이즈에 연관되는 컨텍스트 정보 값의 세트로부터 상기 주어진 인코딩 사이즈 및 상기 주어진 블록 사이즈에 대해 상기 압축된 컨텍스트 표현 정보를 계산하도록 되어 있는, 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 장치.
삭제