KR20140142272A

KR20140142272A - 이미지를 처리하는 방법

Info

Publication number: KR20140142272A
Application number: KR1020147027804A
Authority: KR
Inventors: 지오반니 코다라; 아이메드 부아지지; 루카츠 콘드라드
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2012-04-20
Filing date: 2012-04-20
Publication date: 2014-12-11
Also published as: EP2801190B1; WO2013156084A1; US20150036939A1; US9420299B2; KR101605173B1; JP5962937B2; EP2801190A1; CN104012093B; JP2015519785A; CN104012093A

Abstract

본 발명은 이미지를 처리하는 방법에 관한 것이며, 상기 방법은 이미지로부터 주요 지점의 세트를 제공하는 단계(101); 상기 주요 지점의 세트의 위치 정보를 이진 행렬의 형태로 기술하는 단계(103); 및 미리 정해진 순서에 따라, 상기 이진 행렬을 스캐닝하여, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 생성하는 단계(105)를 포함한다.

Description

이미지를 처리하는 방법 {METHOD FOR PROCESSING AN IMAGE}

본 발명은 컴퓨터 비전(computer vision) 분야에서의 이미지 처리 기술에 관한 것으로, 특히 보통 비주얼 검색(Visual Search) 또는 증강 현실(Augmented Reality)이라고 하는 주제에 관한 것이다. 비주얼 검색 및 증강 현실 애플리케이션에서, 이미지나 이미지의 시퀀스로부터 추출된 정보는 서버로 전송되고, 거기서 인식할 객체(object)의 모델을 나타내는, 기준 이미지(reference image)의 데이터베이스 또는 이미지의 시퀀스로부터 추출된 정보와 비교된다. 이러한 맥락에서, 본 발명은 서버로 전송되는 이미지나 이미지의 시퀀스로부터 추출된 정보의 압축에 관한 것으로, 특히, 이미지 또는 이미지의 시퀀스로부터 추출된 관심 지점(point of interest)의 위치의 압축에 관한 것이다.

비주얼 검색(VS)은, 텍스트 설명(textual description), 메타데이터(metadata) 등과 같은 어떠한 외부 데이터도 활용하지 않고, 이미지 또는 이미지의 시퀀스의 시각적 측면(visual aspect)만을 분석함으로써 이미지 또는 이미지 시퀀스에 묘사된 객체 또는 객체들을 식별하기 위한 자동화된 시스템의 능력을 나타낸다. 증강 현실(AR)은, 특히 모바일 영역(mobile domain)에 적용되는, VS의 고급 사용법(advanced usage)으로 생각될 수 있다. 이미지의 시퀀스에 묘사된 객체가 식별된 뒤, 추가 콘텐츠, 보통 합성 객체(synthetic object)가 실제 장면에 중첩되고, 이에 따라 실제 객체와 일치하는 위치에, 실제 콘텐츠를 '증강'시킨다. 이미지의 시퀀스에 묘사된 객체를 식별을 가능하게 하는 기술은 동일하다. 이하에서, 이미지(image)와 픽처(picture)라는 용어는 동의어로 사용된다.

현재, 비주얼 검색의 주요 방법은, 문헌에서, 이른바 국소 특징(local feature)이라고 하고, 이하에서 특징(feature) 또는 기술자(descriptor)라고도 하는 것의 결정에 의존한다. 일반적인 방법은, D. Lowe의 논문 "Distinctive Image Features from Scale-Invariant Keypoints" [Int. Journal of Computer Vision 60(2)(2004) 91-110. H]에 기재된, 스케일 불변 특징 변환(Scale-Invariant Feature Transforms, SIFT) 및 Bay, T. Tuytelaars, L. V. Gool, SURF의 논문 "Speeded Up Robust Features" [Proceedings of European Conference on Computer Vision(ECCV), Graz, Austria, 2006, http://www.vision.ee.ethz.ch/~surf/]에 기술된 SURF(Speeded Up Robust Features)이다. 문헌에서는, 이 두 원천 기술의 개선으로 생각될 수 있는, 이러한 기술에 대한 다양한 변형을 찾을 수 있다.

도 13으로부터 알 수 있듯이, 국소 특징은, 예컨대 이미지(1301) 내의 지점(point)(1305)을 둘러싸는 부분인 패치(patch)(1303)의 SIFT에서의 각 특징에 대해 128바이트의, 간결한 기술(description)이다. 도 13은 국소 특징의 추출(도 13의 윗부분) 및 표현(도 13의 아랫부분)의 예를 보여준다. 도 13의 윗부분에서, 국소 특징이 계산되는 지점의 위치는 이미지(1301) 내의 지점(1305)을 나타내는 원으로 표시되고, 그 원은 배향 패치(oriented patch)를 나타내는 정사각형으로 둘러싸여 있다. 도 13의 아랫부분에서, 패치(1303)의 격자(1309) 구획(subdivision)은 국소 특징의 히스토그램 성분(histogram component)(1311)을 포함한다. 국소 특징을 계산하기 위해, 둘러싸인 지점(1305)에서의 주 기울기 성분(main gradient component)에 기초하여, 지점(1305)의 주 방향(main orientation)(1307)이 계산된다. 이 방향(1397)에서 시작하여, 주 방향(1307)을 향해 배향된 패치(1303)가 추출된다. 이 패치(1303)는 그 후 직사각형 또는 방사형 격자로 세분화된다. 격자(1309)의 각 요소에 대해, 국소 기울기(local gradient)의 히스토그램(1311)이 계산된다. 격자(1309) 요소에 대해 계산된 히스토그램(1311)은 국소 특징의 성분을 나타낸다. 도 13의 아랫부분에 도시된 바와 같은 격자(1309) 요소의 히스토그램(1311)을 포함하는 이러한 기술자(1313)의 특성(characteristic)은 회전, 조도(illumination), 및 원근 왜곡(perspective distortion)에 불변이어야 한다.

이미지(1301)에서, 기술자(1313)가 계산되는 지점(1305)은, 보통 장면의 특유의 요소(peculiar element), 예컨대, 모서리, 특정 패턴 등에 관련이 있다. 이러한 지점은 보통 주요 지점(key point)이라 불리며, 도 14의 윗부분에 도시된 원이다. 주요 지점(1305)의 계산 프로세스는 멀티 스케일 이미지(multi-scale image)(1301) 표현에서 극값(extrema)의 식별에 기초한다.

도 14에 도시된 바와 같이, 두 개의 이미지(1301, 1401)를 비교하면, 첫 번째(제1) 이미지(1301)의 기술자(1313) 각각이 두 번째(제2) 이미지(1401)의 기술자 각각과 비교된다. 도 14는 이미지(1301, 1401)를 나타내고 기술자는 나타내지 않는다. 거리 척도(distance measure)를 채택하여, 상이한 주요 지점 사이, 예컨대 제1 이미지(1301) 내의 제1 주요 지점(1305)과 제2 이미지(1401) 내의 제2 주요 지점(1405) 사이의 일치(matching)이 식별된다. 보통 인라이어(inlier)라고 하는 정확한 일치는 이미지(1301, 1401)에서, 스케일링(scaling), 회전, 원근 왜곡이 있을 수 있음에도 불구하고, 일관성있는 상대적 위치를 가져야 한다. 주요 지점 추출에 채택된 통계적 접근법(statistical approach)에 기인하여 발생할 수도 있는 대조 단계(matching phase)에서의 에러는, 나중에, 상이한 주요 지점들의 위치의 일관성이 추정되는 기하학적 일관성 검사(geometric consistency check)라고 하는 단계를 통해 제거된다. 보통 아웃라이어(outlier)(1409)라고 불리는 에러는, 도 14에서 점선으로 나타낸 바와 같이 제거된다.

남은 인라이어(1407)의 수에 따라, 두 개의 이미지(1301, 1401) 내의 동일 객체의 존재에 관한 추정이 수행될 수 있다.

도 15에 나타낸 바와 같이, 전형적인 클라이언트-서버 서비스 아키텍처를 나타내는 VS 파이프라인 시스템(1500)에서, 기술자는, 이하에 설명하는 바와 같은 주요 지점 식별(1505), 특징 계산(1507), 특징 선택(1509) 및 인코딩(1511) 절차에 의해 클라이언트 기기(1501)에서 계산되고, 그러한 기술자(1519)와 기술자, 즉 데이터베이스상의 기준 이미지로부터 추출된 기준 기술자(1541)와 대조하는(1513) 서버(1503)에 전송된다. 상세하게는, 클라이언트(1501)로부터의 데이터 스트림(1515)은, 데이터베이스상의 기준 이미지로부터의 주요 지점 식별(1523) 및 특징 계산(1525)에 의해 계산된 기준 기술자(1521)와 대조(1513)되는 원래 이미지의 기술자(1519)를 취득하기 위해, 디코딩된다(1517). 대조(1513) 후에, 재구성된 이미지의 기하학적 일관성을 검사하기 위해 기하학적 일관성 검사(1527)가 적용된다.

하나의 이미지로부터 수천 개까지의 특징이 추출될 수 있고, 결과적으로 네트워크를 통해 전송되어야 하는 상당한 양, 즉 이미지당 수 킬로바이트의 정보를 초래한다. 일부 시나리오에서, 기술자를 전송하는 데 필요한 비트율(bit-rate)은 압축 이미지 그 자체보다 더 클 수 있다.

이는, 클라이언트/서버 링크에서의 네트워크 지연의 가능성 및 수백만 개의 기준 이미지의 기술자를 동시에 메모리에 유지하여야 하는 서버 측에 필요한 메모리의 양으로 인해, 실시간 애플리케이션의 경우 문제이다. 그러므로, 기술자의 압축 버전의 필요성이 생긴다. 압축되지 않은 기술자에서 시작하여 기술자의 압축을 가능하게 하려면 두 단계가 필요하다. 첫 번째 단계는 주요 지점 선택의 메커니즘으로 다음과 같다: 이미지에서 추출된 모든 기술자가 서버로 전송되는 것이 아니라, 통계 분석에 따라, 대조 단계(matching phase) 동안에 에러 발생 가능성(error-prone)이 작고 묘사된 객체에 대해 더 특유한 것으로 생각되는 지점을 가리키는 것들만 전송된다. 두 번째 단계는 나머지 기술자에 적용되는 압축 알고리즘이다.

MPEG(Moving Pictures Experts Group) 표준화는 현재, 압축된 기술자의 표준화된 형식의 개발 전용의, 표준 MPEG-7(ISO/IEC 15938-멀티미디어 콘텐츠 기술 인터페이스)의 새로운 파트(part)인 파트 13을 정의하고 있다. 새로운 표준(emerging standard)의 압축 능력을 테스트하기 위해, 하나의 이미지에서 추출된 모든 기술자를 저장 또는 전송하는 데 필요한 비트율을 나타내는, 여섯 개의 동작 지점(operating point)은 512-1024-2048-4096-8192-16384 바이트인 것으로 확인되었다. 테스트 단계는 그러한 동작 지점을 기준으로 사용하여 수행된다. 주요 지점 선택 메커니즘의 적용으로 인해, 그러한 동작 지점에서 상이한 수의 주요 지점이 서버에 전송될 것이고, 이 수는 최저 동작 지점에서의 114개 주요 지점과 최고 동작 지점에서의 970개 주요 지점 사이에 걸쳐 있다.

기술자에 대해 기술자 압축이 적용될 때, 두 가지 상이한 종류의 정보가 압축된다. 첫 번째 것은 기술자의 값에 관계 있다. 두 번째 것은 기술자의 위치 정보, 즉 이미지 내의 주요 지점의 직교 좌표인 x/y 위치이다.

VS 표준의 현재 기준 모델(Reference Model, RM)에서는 물론, 문헌에 존재하는 대부분의 VS 알고리즘에서, 기술자 추출 단계 이전에, 이미지가 VGA(Video Graphics Array) 해상도, 즉 640×480 화소로 스케일링된다. 이하 VGA 해상도를 는 전체 해상도(full resolution)라고 한다.

그러므로, 이미지 내의 하나의 주요 지점의 위치를 기술하는 고유한(native) x/y 쌍은 19비트를 차지할 수 있다. 이는 허용될 수 없는데, 특히 최조 동작 지점에서 그러하다. 그러므로, 더 많은 기술자의 삽입 또는 기술자에 대해 덜 제한적인 압축 알고리즘의 적용에 더 많은 비트를 할당하기 위해, 위치 정보의 압축이 필요하다.

주요 지점의 좌표는 원래의 스케일링되지 않은 이미지 해상도에서 부동 소수점 값으로 표현된다. 모든 이미지에 적용된 첫 번째 작업이 VGA 해상도로의 다운스켈링이기 때문에, 주요 지점 좌표는 VGA 해상도에서 정수 값으로 반올림되고, , 그것은 기본적으로 19비트이다. 그러므로, 수 개의 지점이 동일한 좌표로 반올림되는 경우가 발생할 수도 있다. 두 개의 서로 다른 방향을 가진 동일한 지점에 대해 정확히 계산된 두 개의 기술자를 가지는 것도 가능하다. 이 첫 번째 반올림은 검색 성능에 영향을 거의 미치지 않는다.

도 16은 이러한 반올림 연산의 일례를 나타내며, 각 정사각형 셀(1603, 1605)는 전체 해상도에서 1×1 화소 셀에 대응한다. 널이 아닌 화소(non-null pixel)가 주요 지점의 위치에 해당하는 경우, 이미지(1600)가 생성될 수 있고, 그 후 행렬 표현(1602)에 의해 표현될 수 있는 화소 셀 표현(1601)으로 분할될 수 있다. 이러한 정사각형 셀(1603, 1605)의 값은, 도 16에 도시된 바와 같이, 예컨대 첫 번째 사각형 셀(1603)의 경우 2이고 두 번째 정사각형 셀(1605)의 경우 1인, 행렬(1602)로 표현되고, 널이 아닌 셀(1607, 1609), 예컨대, 첫 번째 정사각형 셀(1603)에 대응하는 첫 번째 널이 아닌 셀(1607)과 두 번째 정사각형 셀(1605)에 대응하는 두 번째 널이 아닌 셀(1609)은, 주요 지점의 위치로 표현된다, 따라서, 극도로 희소한 특성을 가지는, 즉, 널이 아닌 셀이 1000개 미만인, 최고 동작 지점에서 조차, 640 × 480개 요소의 행렬(1602)를 압축해야 하는 필요성으로 재공식화될 수 있다. 이 행렬을 압축하기 위해서는, 빈 셀 (empty cell) 및 비어 있지 않은 셀(non-empty cell)의 이진 맵인 히스토그램 맵(Histogram map)과, 널이 아닌 각 셀에서 발생 횟수를 포함하는 벡터인 히스토그램 카운트(Histogram count), 이 두 종류의 상이한 정보를 나타낼 필요가 있다. 히스토그램 맵은 도 16에 도시된 화소 셀 표현(1601)의 이진 형식으로 표현되고, 히스토그램 카운트는 도 16에 도시된 행렬 표현(1602)의 널이 아닌 요소들에 의해 생성된 벡터로 표현된다. 압축 효율을 향상시키기 위해, 문헌에서, 이들 두 요소는 항상 별도로 인코딩된다.

기존 문헌에서는, 압축 효율을 향상시키기 위해 손실 기법 포괄 블록 양자화(lossy technique encompassing block quantization)가 히스토그램 맵에 적용된다: 보통 4 × 4 블록 또는 8 × 8 블록이 채용되고, 불변하는 히스토그램 맵과 히스토그램 카운트 생성을 위한 메커니즘을 그대로 둔다. 이 작업의 결과로, 행렬의 크기는 실질적은 감소한다, 즉, 4 × 4 블록이 적용될 때 140×120 화소로 줄어들고, 8 × 8 블록이 적용될 때 70 × 60 화소로 줄어든다. 그럼에도불구하고 다운스케일(downscale) 행렬은 매우 희소한 행렬(very sparse matrix)로 남아있다. 이 경우, 도 16의 표현은 여전히 유효하며, 셀 치수(dimension)만 변화하고 있다. 문서의 나머지 부분에서, 히스토그램 맵 행렬의 요소는, 압축된 경우에 전체 해상도의 1×1에서 N> 1인 N × N (예컨대, 8 × 8)까지, 이들 셀의 치수를 어떻게 가정하든, 행렬 셀(matrix cell)이라고 한다.

문헌에서, 3가지 주요 문서가 위치 정보 압축의 분야에서 최근 진보를 제시하고 있다. 그 첫 번째 것은, 이하 [RM]이라고 하는, MPEG 기준 모델로, G. Francini, S. Lepsoy, M. Balestri의 논문 "Description of Test Model under Consideration for CDVS" [ISO/IEC JTC1/SC29/WG11/N12367, Geneva, November 2011]이다.

두 번째 것은, 이하 [Stanford1]이라고 하는, 입력 기여(input contribution)로, Tsai, D. Chen, V. Chandrasekhar, G. Takacs, M. Makar, R. Grzeszczuk, B. Girod의 논문 "Improvements to the location coder in the TMuC" [ISO/IEC JTC1/SC29/WG11/M23579672, San Jose, February 2012]이다. 세 번째 것은, 이하 [Stanford2]라고 하는, Tsai, D. Chen, G. Takacs, V. Chandrasekhar, J. Singh, 및 B. Girod의 학회 논문 "Location coding for mobile image retrieval" [International Mobile Multimedia Communications Conference (MobiMedia), September 2009]이다.

이러한 세 논문 모두는, 상이한 접근법으로 취득되더라도, 동일한 문제를 야기한다, 즉, 좌표가 전체 해상도로 표현되지 않고, 양자화된 영역에서, 즉 4 × 4, 6 × 6, 8 × 8 블록으로 표현된다.

히스토그램 맵의 블록 양자화 애플리케이션은, 손실 압축(lossy compression)에도 불구하고, 검색 정밀도(retrieval accuracy) 면에서 제한된 성능 저하를 보장할 수 있다. 여하튼, 질의 이미지(query image) 내의 인식된 객체의 국소화(localization )가 필요한 경우, 예컨대, 픽처의 시퀀스에 걸쳐 객체가 국소화 및 추적되어야 하는 증강 현실 애플리케이션에서, 이러한 양자화된 블록을 적용하는 것은 상당한 성능 저하를 야기한다. 예를 들어, [Stanford1]에 따르면, 국소화 정밀도(localization precision)는, 4 × 4 블록이 가장 낮은 동작 지점에서 적용될 때 약 5 %, 그리고 블록이 8 × 8 크기를 가질 때 10 %, 감소한다.

전체 해상도로까지 스케일링할 때, 종래 기술은 몇 가지 문제를 야기한다. 히스토그램 카운트 압축은 매우 간단하므로, 고려되지 않는다. 히스토그램 맵 행렬의 압축에 발생하는 문제는 이하에 제시된다.

[RM] 논문은 히스토그램 맵에서, 주요 지점이 나타나지 않는, 널인 행(row)과 열(colum)을 제거하는 행렬의 희소성(sparsity) 감소를 목표로 하는 방법을 채택한다. 각각의 행 및 열에 대해, 전체 행 또는 열이 비어있는지 여부를 나타내기 위해, 하나의 비트가 소비된다. 전체 해상도에서의 문제는, 480 × 640 행렬인 경우, 이 정보를 압축된 비트 스트림에 매립(embedding)하기 위해서는 1120 비트가 필요하다는 것이다. 이는 용인 불가능한 비트량으로, 가장 낮은 동작 지점(114 지점)에서 주요 지점마다 거의 10비트를 초래한다.

[Stanford1]에서는, 이진 엔트로피 코딩이 다음의 두 가지 개선사항과 함께 행렬 전체에 걸쳐 채용된다. 매크로 블록 분석(macro-block analysis)이 적용된다, 즉, 행렬은, 이하에서 스킵 매크로 블록(skip-Macroblock)이라고 하는, 매크로 블록으로 분할되고, 각 매크로 블록에 대해 블록이 비어 있는지를 나타내는 1비트가 할당된다. 블록이 완전히 비어있는 경우, 그 요소는 엔트로피 코딩 프로세스를 거치지 않는다. 또한, 콘텍스트 모델링(context modeling)이 상기 엔트로피 코딩에 적용되며, 이는 인코딩되는 것을 둘러싸는 셀에 기초한다. 특히 10개의 이웃이, 45개 콘텍스트의 결과로서 얻은 수(resulting number)와 함께, 고려된다. 그 복잡성에 더해, 특히 생성될 45개 콘텍스트를 가지는 트레이닝 단계(training phase)의 경우, 이 접근법은, 매크릭스가 10개의 가장 근접 셀 중에 널이 아닌 셀을 만나는 것이 매우 드문 정도로 희박한, 전체 해상도 경우에 효과적으로 적용될 수 없다.

[Stanford 2] 논문에 따르면, 두 가지 방법이 적용되는데, [Standford 1] 논문에서 제시한 것과 매우 유사한 첫 번째 것은, 동일한 문제를 야기하므로, 여기서 더 논의하지 않으며, 다른 하나는 쿼드 트리(quad-tree)를 기반으로 한다. 쿼드 트리는 행렬이 밀도가 높을 때 매우 효과적인 표현을 제공하지만, 행렬이 매우 희박할 때, 전체 해상도 경우에서와 같이, 트리 구조는 지나치게 비트 소모적일 수 있고, 성능 저하를 초래할 수 있다.

본 발명의 목적은 위에서 제시한 종래 기술의 개념에 비해 위치 정보의 향상된 압축률 및 매우 낮은 복잡도를 보이는 이미지 처리 개념을 제공하는 것이다.

이러한 목적은 독립항의 특징에 의해 달성된다. 또한 실시 형태는 종속항, 설명 및 도면으로부터 명백하다.

이미지의 히스토그램 맵의 압축 작업은 매우 희소한 행렬의 압축으로 생각될 수 있다. 본 발명은 이 희소성에도 불구하고, 특히 낮은 비트율에서, 주요 지점이 이미지 전체에 균일하게 분포되어 있지 않다는 발견에 기초한다. 이는 특히 모든 추출된 주요 지점에서 서브세트(subset)를 식별하기 위해 적용된, 주요 지점 선택 메커니즘에 기인한다. 전형적으로 관심 객체(objects of interests) 는 이미지의 중심부에 묘사되는 경향이 있기 때문에, 주요 지점 선택 메커니즘도 역시 이미지 중심부에서 짧은 거리에 특혜를 부여한다. 예를 들어 관심 지역(Region of interests, ROI)에 기초한, 다른 주요 지점 선택 방법이 적용되는 경우, 여전히 이미지의 주요 지점의 분포는 균일하지 않다. 결과적으로, 보통 이미지의 중심부 주위에 위치되는, 더욱 밀도가 높은(densely populated) 영역이 있는 반면, 행렬의 가장자리는 0(zero)의 수가 지배적일 것이다. 그러므로, 이 특징을 이용하기 위해, 블록 표현을 이미지 전체에 균일하게 반대로 적용하는 [Stanford1] 접근법에서 이용된 스킵 매크로 블록 정보의 적응적 사용(adaptive usage)을 예상할 수 있다. 행렬의 중심부에서, 빈 영역은 매우 드물게 발생한다: 그러므로, 이와 같이 스킵 매크로 블록 정보 시그널링에 몇 개의 비트를 사용하는, 매우 큰 매크로 블록의 채택이 예상된다. 한편, 행렬의 가장자리에서는, 더 높은 정밀도로 빈 영역을 식별하기 위해, 보다 작은 매크로 블록을 적용하는 것이 유리하다.

본 발명의 측면들은 위치 정보 압축 알고리즘의 성능을 향상시키는 이미지 처리에 대한 개념을 제공한다.

본 발명의 상세하게 설명하기 위해, 다음의 용어, 약어 및 표기법을 사용한다:

VS: 비주얼 검색(Visual Search). VS는 텍스트 설명(textual description), 메타데이터(metadata) 등과 같은 어떠한 외부 데이터도 활용하지 않고, 픽처 또는 픽처의 시퀀스의 비주얼 측면만을 분석함으로써, 픽처 또는 픽처의 시퀀스 내에 묘사된 객체 또는 객체들을 식별하기 위한 자동화 시스템(automated system)의 능력을 가리킨다.

AR: 증강 현실(Augmented Reality). AR은 특히 모바일 영역(mobile domain)에 적용되는, VS의 고급 사용법(advanced usage)으로 생각될 수 있다. 프레임의 시퀀스 내에 묘사된 객체가 식별된 후, 추가 콘텐츠, 보통은 합성 객체가 실제 장면에 중첩되고, 따라서 실제 객체와 일치하는 위치의, 실제 콘텐츠를 "증강한다"

SIFT: 스케일 불변 특징 변환(Scale-Invariant Feature Transforms).

SURF: 강건한 특징의 가속화(Speeded Up Robust Features)

MPEG-7: 영상 전문가 그룹 넘버 7(Moving Pictures Expert Group No. 7)은, 비주얼 검색에 대한 표준 개발에 전념하는, 멀티미디어 콘텐츠 기술 인터페이스, ISO/IEC 15938에 따른 파트 13을 규정.

ROI: 관심 영역(Region of interest).

RM: 기준 모델(Reference Model).

VGA: 비디오 그래픽 어레이(Video Graphics Array), 전체 해상도라고도 함.

국소 특징(local feature): 국소 특징은 회전, 조도, 및 원극 왜곡에 불변인, 이미지 내의 주요 지점을 둘러싸는 패치의 간결한 설명이다.

기술자(descriptor): 국소 특징.

주요 지점(key point): 이미지 내에서, 보통 기술자가 계산되는 지점은 보통 장면의 특유한 요소(peculiar element), 예컨대, 모서리, 특정 패턴 등에 관련이 있다. 이러한 지점은 보통 주요 지점이라고 불린다. 주요 지점의 계산 프로세스는 멀티 스케일(multi-scale) 이미지 표현에서 국소 극값(extrema)의 식별에 기초한다.

스킵 매크로 블록: 널이 아닌 값을 포함하지 않는 이미지의 히스토그램 맵을 나타내는 행렬의 세그먼트.

제1 측면에 따르면, 본 발명은 이미지를 처리하는 방법에 관한 것으로, 상기 방법은, 이미지로부터 주요 지점의 세트를 제공하는 단계; 상기 주요 지점의 세트의 위치 정보를 이진 행렬의 형태로 기술하는 단계; 및 미리 정해진 순서에 따라, 상기 이진 행렬을 스캐닝하여, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 생성하는 단계를 포함한다.

본 발명의 제1 측면에 의하면, 특히 히스토그램 맵 행렬의 압축에 사용될, 이미지로부터 추출된 기술자(국소 특징)의 위치 정보를 처리하는 새로운 방법이 제시된다. 상기 방법은 최신 기술에 비해 향상된 압축률에 특징이 있다. 상기 방법은 전체 해상도 레벨에서 어떠한 고유의 문제(native problem)에 직면하지 않고 적용될 수 있다. 본 발명의 핵심 요소는, 보다 효율적인 블록 기반 분석 및 표현을 가능하게 하는, 데이터의 새로운 표현에 기초한다. 적응형 블록 기반 분석이, 향상된 압축율을 달성하기 위해 데이터의 본질(nature)을 더 잘 이용한, 새로운 표현 위에 적용될 수 있다. 어떠한 복잡한 작업도 포함되지 않기 때문에, 제시된 방법의 복잡도는 매우 제한되어 있다.

상기 제1 측면에 따른 방법의 가능한 제1 실시형태에서, 상기 미리 정해진 순서에 따라, 상기 이진 행렬을 스캐닝하는 단계는, 상기 이진 행렬을 상기 이미지의 관심 영역에 또는 그 주위에 위치한 주요 지점에서 시작하여 상기 이미지의 주변부에 위치한 주요 지점을 향해 또는 그 반대로 스캐닝하는 단계를 포함한다.

이미지의 관심 영역은 전형적으로 이미지의 중심부 영역에 위치한다. 따라서, 관심 영역에 또는 그 주위에 위치한 주요 지점들과 이미지의 주변부의 비관심 영역 사이의 다른 점(differentiate)을 스캐닝하는 경우, 처리가 향상될 수 있다.

상기 제1 측면의 제1 실시형태에 따른 방법의 가능한 제2 실시형태에서, 상기 이미지의 관심 영역은 상기 이미지의 중심부에 또는 그 주위에 있다.

일반적으로, 이미지의 가장 관련 있는 정보는 이미지의 중심부에서 또는 이미지의 중심부 주위에서 추출될 수 있다. 이미지의 중심부과 주변과의 다른 점을 처리하면, 처리 및 그에 따른 압축은 향상될 수 있다.

상기 제1 측면 그 자체에 따른 또는 상기 제1 측면의 선행하는 실시형태 중 어느 하나에 따른 방법의 가능한 제3 실시형태에서, 상기 이진 행렬의 스캐닝은 반시계 방향 또는 시계 방향으로 수행된다.

반시계 방향 또는 시계 방향으로 스캐닝을 수행함으로써, 처리를 향상시킬 수 있다.

상기 제1 측면 그 자체에 따른 또는 상기 제1 측면의 제1 실시형태에 따른 방법의 가능한 제4 실시형태에서, 상기 이진 행렬의 스캐닝은 상기 이미지의 동심 원형 링(concentric circular ring)의 섹션에서 실행된다.

가장 중요한 특징은 이미지의 중심부에 위치하기 때문에, 이미지의 중심부를 향하는 작은 링들이 대부분의 정보(most information)를 가지고 있고 이미지의 주변부를 향하는 큰 링들은 적은 정보(less information)를 가지고 있다.

상기 제1 측면 그 자체에 따른 또는 상기 제1 측면의 선행하는 실시형태 중 어느 하나에 따른 방법의 가능한 제5 실시형태에서, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현은 다른 이진 행렬의 형태를 취한다.

상기 제1 측면의 제5 실시형태에 따른 방법의 가능한 제6 실시형태에서, 상기 다른 이진 행렬은 열 방향(column-wise) 또는 행 방향(row-wise)으로 생성된다.

따라서, 새로운 행렬 표현 내에서 중요한 정보를 포함하는 영역들이 이웃 영역에 위치하므로, 다음의 적응형 블록 분석의 채택을 가능하게 한다.

상기 제1 측면의 제5 실시형태에 따른 또는 상기 제1 측면의 제6 실시형태에 따른 방법의 가능한 제7 실시형태에서, 상기 주요 지점의 세트의 주요 지점 각각에 대해, 상기 주요 지점을 둘러싸는 배향 패치(oriented patch)로부터 기술자가 계산된다.

기술자는 대개 이미지의 특유한 요소, 예컨대, 모서리, 특정 패턴 등에 관련이 있다. 따라서, 이미지에 대한 기술자에 의존하여, 처리는 객체 인식 및 추적에 대한 성능을 향상시킨다.

상기 제1 측면의 제5 내지 제7 실시형태 중 어느 하나에 따른 방법의 가능한 제8 실시형태에서, 상기 이진 행렬은 빈 셀(empty cell)과 비어있지 않은 셀(non-empty cell)의 히스토그램 맵(histogram map)이고, 비어있지 않은 셀은 상기 이미지 내의 주요 지점의 위치를 나타낸다.

상기 제1 측면의 제5 내지 제8 실시형태 중 어느 하나에 따른 방법의 가능한 제9 실시형태에서, 상기 방법은 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계를 더 포함한다.

상기 제1 측면에 따른 또는 상기 제1 측면의 선행하는 임의의 실시형태 중 어느 하나에 따른 방법에 의해 주요 지점의 세트의 위치 정보에 대한 새로운 표현이 생성되는 경우, 대부분의 관련 정보, 즉 널이 아닌 요소가 행렬의 한 영역에 집중되어 있기 때문에 압축이 향상된다. 상기 다른 이진 행렬은, 위치 정보 밀도가 높은 부분과 위치 정보 밀도가 낮은 부분을 포함한다. 따라서,이들 부분의 압축 향상을 위해 상이한 압축 기법이 사용될 수 있다.

상기 제1 측면의 제9 실시형태에 따른 방법의 가능한 제10 실시형태에서, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계는, 위치 정보를 포함하지 않는 이진 행렬의 주변 섹션을 제거함으로써 상기 이진 행렬의 크기를 축소하는 단계를 포함하고, 상기 축소하는 단계는 상기 이진 행렬을 스캐닝하는 단계 이전에 수행된다.

따라서, 스캐닝을 수행하기 전에 중요하지 않은 정보(non-essential information)를 제거할 수 있으므로, 압축될 정보량을 감소시켜 속도 및 저장의 면에서 이미지 처리 방법의 성능을 향상시킨다.

상기 제1 측면의 제9 실시형태에 따른 방법의 가능한 제11 실시형태에서, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계는, 위치 정보를 포함하지 않는 이진 행렬의 동심 링에 대응하는 다른 이진 행렬의 빈 요소를 제거하는 단계를 더 포함한다.

따라서, 스캐닝을 수행한 후에 중요하지 않은 정보를 제거할 수 있으므로, 압출될 정보량을 감소시켜 속도 및 저장의 면에서 이미지 처리 방법의 성능을 향상시킨다.

상기 제1 측면의 제5 내지 제11 실시형태에 따른 방법의 가능한 제12 실시형태에서, 상기 다른 이진 행렬은 상이한 크기의 매크로 블록으로 분할되고, 상기 이미지의 관심 영역에 또는 그 주위에 위치한 주요 지점의 위치 정보를 포함하는 매크로 블록은, 상기 이미지의 주변부에 위치한 주요 지점의 위치 정보를 포함하는 매크로 블록보다 크기가 크다.

따라서, 이미지의 중심부에서 온 정보는 대형(large-sized) 매크로 블록에 저장되는 한편, 이미지의 중심부에서 온 정보는 소형(small-sized) 매크로 블록에 저장된다. 그러므로, 일부 소형 매크로 블록은 추가적인 처리에서 제거될 수 있는 빈 요소만을 포함하는 것으로 식별될 수 있으므로, 이미지 처리의 성능을 향상시킨다.

상기 제1 측면의 제12 실시형태에 따른 방법의 가능한 제13 실시형태에서, 다른 이진 행렬 스킵 매크로 블록 정보 및 상기 다른 이진 행렬의 비어있지 않은 매크로 블록에 엔트로피 코딩이 적용된다.

상기 제1 측면의 제13 실시형태에 따른 방법의 가능한 제14 실시형태에서, 상기 엔트로피 코딩이 적용되는 경우 콘텍스트 모델링(context modelling)이 적용된다.

상기 제1 측면의 제12 내지 제14 실시형태 중 어느 하나에 따른 방법의 가능한 제15 실시형태에서, 상기 다른 이진 행렬은 상기 이미지의 중심부 및 그 주위에 위치한 위치 정보를 포함하는 일정한 크기(이하, MB_Size로 나타냄) 치수의 제1 개수의 매크로 블록과, 상기 이미지의 주변부에 위치한 위치 정보를 포함하는 MB_Size의 일부분의 제2 개수의 매크로 블록을 포함한다.

MB_Size 크기 치수 및 그 일부분의 매크로 블록 사용은 상기 방법을 간단하게 수행할 수 있게 한다. 상이한 메모리 크기의 복잡한 메모리 할당이 적용될 필요가 없다. 메모리 구조가 극히 단순하다.

상기 제1 측면의 제5 내지 제16 실시형태 중 어느 하나에 따른 방법의 가능한 제17 실시형태에서, 스킵 매크로 블록 비트 시퀀스를 사용하여 위치 정보를 포함하지 않는 다른 이진 행렬의 빈 매크로 블록을 나타내는 단계를 더 포함한다.

위치 정보를 포함하지 않는 다른 이진 행렬의 빈 매크로 블록을 나타냄으로써, 상기 방법은 그러한 매크로 블록을 추가적인 압축 단계에서 고려하지 않은 채 둘 수 있으므로, 압축률이 증가한다.

상기 제1 측면의 제17 실시형태에 따른 방법의 가능한 제18 실시형태에서, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현은, 상기 다른 이진 매트릭스의 비어있지 않은 매크로 블록의 엔트로피 코딩된 위치 정보와 엔트로피 코딩된 스킵 매크로 블록 비트 시퀀스(entropy-coded skip-Macroblock bit sequence)를 결합함으로써 압축된다.

상기 제1 측면의 제18 실시형태에 따른 방법의 가능한 제19 실시형태에서, 상기 위치 정보는, 트레이닝 세트를 통해 계산된 비어있지 않은 매크로 블록 내의 비어있지 않은 요소의 평균 수를 활용하는 콘텍스트 모델을 사용하여 엔트로피 코딩된다.

이 콘텍스트는 시그널링될 여분의 정보(extra information)를 필요로 하지 않고, 엔트로피 코더가 다른 이진 매트릭스 내의 매크로 블록의 평균 밀도에 따라 최적화될 수 있도록 해준다.

상기 제1 측면의 제5 내지 제19 실시형태 중 어느 하나에 따른 방법의 가능한 제20 실시형태에서, 메모리 사용(memory occupancy)을 최소화하기 위해, 상기 다른 이진 행렬 전부 대신에, 상기 이진 행렬의 널이 아닌 요소만 또는 비어있지 않는 매크로 블록의 정렬된 리스트(ordered list)만 기억된다.

자원을 가장 많이 소비하는 작업은 콘텍스트 모델링이고, 이는 선택사항이다. 그럼에도불구하고, 콘텍스트 모델링이 적용되는 경우, 종래기술에 채택된 것보다 간단한, 새로운 콘텍스트 모델링 방법이 제시된다. 또한, 매크로 블록 정보가 본질적으로(intrinsically) 새로운 데이터 표현에 전달되기 때문에, 콘텍스트 모델링에 여분의 비트가 사용되지 않는다.

제2 측면에 따르면, 본 발명은 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현으로부터 이미지의 국소 특징을 재구성하는 방법에 관한 것으로, 미리 정해진 순서에 따라, 상기 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹(unpacking)하는 단계를 포함하고, 상기 이미지의 국소 특징은 상기 주요 지점을 둘러싸는 배향 패치로부터 계산된다.

압축해제 방법(decompression method )은 압축 방법의 반대 동작을 반대 순으로 수행하므로, 전술한 압축 방법과 동일한 이점이 있다.

본 발명의 제3 측면에 따르면, 본 발명은, 이미지로부터 주요 지점의 세트를 제공하고; 상기 주요 지점의 세트에 대한 위치 정보를 이진 행렬의 형태로 기술하고; 미리 정해진 순서에 따라 상기 이진 행렬을 스캐닝하여, 상기 주요 지점의 세트에 대한 위치 정보의 새로운 표현을 생성하도록, 구성된 프로세서를 포함하는 위치 정보 인코더에 관한 것이다.

따라서 위치 정보 인코더는 전술한 낮은 복잡도의 위치 정보 압축 방법을 구현하기 때문에 극히 제한된 복잡도를 가진다.

제4 측면에 따르면, 본 발명은, 미리 정해진 순서에 따라, 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹(unpacking)하여, 상기 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현으로부터 이미지의 국소 특징을 재구성하도록 구성된 프로세서를 포함하고, 상기 이미지의 국소 특징은 상기 주요 지점을 둘러싸는 배향 패치로부터 계산되는, 위치 정보 디코더에 관한 것이다.

따라서 위치 정보 디코더는 전술한 낮은 복잡도의 이미지 처리 방법을 구현하기 때문에 극히 제한된 복잡도를 가진다.

제5 측면에 따르면, 본 발명은, 프로그램 코드가 컴퓨터에서 실행될 때, 제1 측면 그 자체에 따른 또는 제1 측면의 선행하는 실시형태 중 어느 하나에 따른 방법 또는 제2 측면에 따른 방법을 수행하기 위한 프로그램 코드를 구비한 컴퓨터 프로그램에 관한 것이다.

본 명세서에 기술한 방법은 디지털 신호 프로세서(Digital Signal Processor, DSP), 마이크로 컨트롤러 또는 다른 사이드 프로세서(side-processor)로서, 주문형 직접회로(application specific integrated circuit, ASIC) 내의 하드웨어 회로로서 구현될 수 있다.

본 발명은 디지털 전자 회로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다.

본 발명의 추가적인 실시예는 다음의 도면과 관련하여 설명한다.
도 1은 일 실시형태에 따른 이미지 처리 방법의 개략도이다.
도 2는 일 실시형태에 따른 위치 정보 압축 방법의 개략도이다.
도 3은 이미지 내의 주요 지점 분포를 설명하는 그래프이다.
도 4는 새로운 행렬의 생성을 위한 행렬 스캐닝 방법의 개략도이다.
도 5는 일 실시형태에 따른 다른 행렬 표현의 개략도이다.
도 6은 일 실시형태에 따른 도 5에 도시된 바와 같은 다른 행렬 표현의 적응형 블록 기반 분석의 개략도이다.
도 7은 일 실시형태에 따른 위치 정보 압축 방법의 개략도이다.
도 8은 일 실시형태에 따른 위치 정보 압축 방법의 개략도이다.
도 9는 일 실시형태에 따른 위치 정보 압축 방법의 개략도이다.
도 10은 일 실시형태에 따른 위치 정보 압축해제 방법의 개략도이다.
도 11은 일 실시형태에 따른 위치 정보 인코더의 블록도이다.
도 12는 일 실시형태에 따른 위치 정보 디코더의 블록도이다.
도 13은 비주얼 검색을 위한 국소 특징의 추출 및 표현의 일례를 나타낸 도면이다.
도 14는 종래의 두 이미지 비교에서 특징 대조 및 아웃라이어 제거의 일례를 나타낸 도면이다.
도 15는 전형적인 클라이언트-서버 아키텍처에서 채택된 비주얼 검색 파이프라인의 블록도이다.
도 16은 종래의 히스토그램 맵 및 히스토그램 카운트 생성 방법의 개략도이다.

도 1은 일 실시형태에 따른 이미지 처리 방법(100)의 개략도이다. 이미지 처리 방법(100)은 이미지로부터 주요 지점의 세트를 제공하는 단계(101); 주요 지점의 세트의 위치 정보를 이진 행렬의 형태로 기술하는 단계(103); 및 미리 정해진 순서에 따라, 이진 행렬을 스캐닝하여, 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 생성하는 단계(105)를 포함한다. 일 실시형태에서, 주요 지점의 세트의 위치 정보의 새로운 표현의 다른 이진 행렬의 형태이다.

도 2는 일 실시형태에 따른 위치 정보 압축 방법(201)의 개략도이다. 이미지 압축 방법(201)은 히스토그램 및 히스토그램 카운트의 생성(200); 히스토그램 맵의 압축(210); 히스토그램 카운트의 압축(220); 및 압축된 기술자(230)에 따른 인코딩된 비트 스트림의 생성(240)을 포함한다. 히스토그램 맵은, 도 16에 도시된 예시에 따른 화소 셀 표현(1601)에서 이미지(1600)의 빈 셀과 비어있지 않은 셀의 이진 맵이다. 이미지(1600)는 행렬 표현(1602)으로 표현될 수 있는 화소 셀 표현(1601)으로 분할될 수 있다. 히스토그램 카운트는 도 16에 도시된 예시에 따른 행렬 표현(1602)에서 이미지(1600)의 널이 아닌 셀 각각의 발생 횟수이다. 일 실시형태에서, 히스토그램 맵의 압축(210) 및 히스토그램 카운트의 압축(220)은 병렬로 수행된다. 일 실시형태에서, 히스토그램 맵의 압축(210) 및 히스토그램 카운트의 압축(220)은 서로 독립적으로 수행된다. 일 실시형태에서, 히스토그램 맵의 압축(210)만 수행되고 히스토그램 카운트의 압축(220)은 수행되지 않는다.

일 실시형태에서, 히스토그램 맵 및 히스토그램 카운트의 생성(200)은 이미지로부터 국소 특징의 세트를 결정하는 단계(101) 및 기술자에 의해 각 주요 지점을 기술하는 단계(103)에 대응하고, 히스토그램 맵의 압축(210)은 스캐닝 단계(105)를 통한 주요 지점의 행렬 표현의 생성에 대응하며, 211-212-213-214-215-216-217 작업(operation)이 뒤따른다.

본 발명의 측면들은 이미지에서 추출된 설명자(국소 특징)의 위치 정보의 압축, 특히, 도 2에 도시된 히스토그램 맵 행렬의 압축을 위한 새로운 방법을 제시한다. 본 방법은 최신 기술과 비교할 때 향상된 압축에 특징이 있다. 본 방법은 전체 해상도 레벨에서 어떠한 고유한 문제(native problem)에 직면하지 않고 적용될 수 있다.

본 발명의 측면들은 더욱 효율적인 블록 기반 분석 및 표현을 가능하게 하는, 데이터의 새로운 표현에 기초한다. 적응형 블록 기반 분석이, 향상된 압축률을 달성하기 위해 데이터의 본질을 더 잘 이용하는, 도 7, 도 8 및 도 9와 관련하여 이하에서 설명하는 바와 같은, 새로운 표현 위에 적용될 수 있다.

어떠한 복잡한 작업도 포함되지 않기 때문에, 이 방법의 복잡도는 매우 제한되어 있다.

자원을 가장 많이 소비하는 작업은 콘텍스트 모델링(context modelling)이고, 이는 선택사항이다. 그럼에도불구하고, 도 9와 관련하여 후술하는 바와 같이 콘텍스트 모델링이 적용되는 경우, 종래기술에서 채택된 것보다 간단한, 새로운 콘텍스트 모델링 방법이 제시된다. 일 실시형태에서, 콘텍스트 모델링 방법은 매우 제한된 수의 콘텍스트에 의존한다. 또한, 매크로 블록 정보가 본질적으로 새로운 데이터 표현으로 전달되기 때문에, 콘텍스트 모델링에 여분의 비트가 사용되지 않는다.

본 발명의 실시형태는 경계 제거(border elimination), 즉 행렬 가장자리의 완전히 빈 영역의 제거를 제공한다. 본 발명의 실시형태는 RM에 의해 채택된 널 행 및 열에 대한 종래의 식별법 대신에 널 영역의 식별을 위한 새로운 방법을 제공한다.

도 3은 이미지(300) 내의 주요 지점(301)의 분포를 설명하는 그래프이다. 후술하는 바와 같이, 히스토그램 맵의 압축 작업은 매우 희소한 행렬의 압축으로 생각될 수 있다. 본 발명의 기본적인 아이디어는, 이 희소성에도 불구하고, 도 3으로부터 알 수 있는 바와 같이, 특히 낮은 비트율에서, 주요 지점(301)이 이미지 전체에 걸쳐 균일하게 분포되어 있지 않다는 것이다. 이는 특히 주요 지점 선택 메커니즘이 모든 추출된 주요 지점에서 주요 지점의 서브세트(subset)를 식별하기 위해 적용되는 경우에 발생한다. 전형적으로 관심 객체는 이미지의 중심부에 묘사되는 경향이 있기 때문에, 주요 지점 선택 메커니즘도 역시 이미지 중심부에서 짧은 거리에 특혜를 준다. 결과적으로, 히스토그램 맵 행렬의 중심부는 밀도가 더 높을 것이고(densely populated), 행렬의 가장자리는 0의 수가 지배적일 것이다. 예를 들어 관심 영역(Region of interests, ROI)에 기초한, 다른 주요 지점 선택 방법이 적용되는 경우, 여전히 이미지 내의 주요 지점의 분포는 균일하지 않다. 그러므로, 실시형태는, 이 특징을 이용하기 위해, (블록 표현을 이미지 전체에 걸쳐 균일하게 반대로 적용하는) [Stanford1] 접근법에서 이용된 스킵 매크로 블록 정보의 적응적 사용을 적용한다. 행렬의 중심부에서, 빈 영역은 매우 드물게 발생한다. 그러므로, 본 발명의 실시형태는, 이와 같이 스킵 매크로 블록 정보 시그널링에 몇 개의 비트를 사용하는, 매우 큰 매크로 블록을 채택한다. 행렬의 가장자리에서는, 더 우수한 정밀도로 빈 영역을 식별하기 위해, 보다 작은 매크로 블록이 적용된다.

도 4는 일 실시형태에 따른 새로운 행렬의 생성을 위한 스캐닝 단계의 개략도이다. 본 도면은 도 1과 관련하여 설명한 바와 같이 스캐닝 단계(105)를 예시한다. 히스토그램 맵 행렬의 요소는 요소 1, 2, 3, …, 42로 표현된다.

도 4에 도시된 일 실시형태에서, 이미지(401)는, 이미지의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)에서 시작하여 이미지의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)을 향해 스캐닝된다. 스캐닝된 요소는 새로운 행렬 표현을 나타내는 행렬(402)로 다시 매핑된다. 도 4에 도시된 바와 같은 일 실시형태에서, 행렬 요소는 행렬(402)의 열 방향(column-wise)으로 배치된다. 이 스캐닝 절차에 의해, 이미지(401)의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)은 행렬(402)의 왼쪽에 저장되고, 이미지(401)의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)는 행렬(402)의 오른쪽에 저장된다.

도 4에 도시되어 있지 않은 중심부에서 주변부를 향한 스캐닝의 다른 실시형태에서, 요소는 행렬(402)의 행 방향(row-wise)으로 배치된다. 이 스캐닝 절차에 의해, 이미지(401)의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)은 행렬(402)의 상부(upper part)에 저장되고, 이미지(401)의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)는 행렬(402)의 하부(lower part)에 저장된다.

도 4에 도시되지 않은 일 실시형태에서,이미지(401)는, 이미지의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)에서 시작하여 이미지의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)을 향해 스캐닝된다. 스캐닝된 요소는 새로운 행렬 표현을 나타내는 행렬(402)로 제공된다. 일 실시형태에서, 요소들은 행렬(402)의 열 방향으로 배치된다. 이 스캐닝 절차에 의해, 이미지(401)의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)는 행렬(402)의 왼쪽에 저장되고, 이미지(401)의 중심부와 주변부 사이에 위치한 요소 7, 8, 9, …, 20(정사각형)은 행렬(402)의 중앙에 저장되고, 이미지(401)의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)은 행렬(402)의 오른쪽에 저장된다.

주변부에서 중심부로 향하는 스캐닝의 다른 실시형태에서, 주요 지점은 행렬(402)의 행 방향으로 배치된다. 이 스캐닝 절차에 의해, 이미지(401)의 주변부에 위치한 요소 21, 22, …, 41, 42(삼각형)는 행렬(402)의 상부에 저장되고, 이미지(401)의 중심부와 주변부 사이에 위치한 요소 7, 8, 9, …, 20(정사각형)은 행렬(402)의 중앙부에 저장되고, 이미지(401)의 중심부에 위치한 요소 1, 2, 3, 4, 5, 6(원형)은 행렬(402)의 하부에 저장된다.

행렬(402)은 기술자의 위치 정보에 대한 표현을 제공한다. 이미지의 중심부에서의 주요 지점은 한쪽, 즉 다른 행렬 표현의 왼쪽, 오른쪽, 상부 또는 하부에 매핑된다. 그러므로, 보통 이미지의 중심부에 위치하는 이미지의 관련 정보는 행렬의 한쪽에 매핑된다. 따라서 행렬은 한쪽에 밀집한 사용 부분을 그리고 다른 쪽에 희박한 사용 부분을 가진다. 이 행렬 구조 또는 행렬 형식은 효율적인 압축 기법을 적용할 수 있도록 해준다.

새로운 행렬 형식은 완전히 가역적이며, 이 적응적인 블록 표현이 편리하게 적용될 수 있다. 일 실시형태에서, 새로운 행렬 표현은 다음과 같이 생성된다:

- 매크로 블록의 크기가 선택된다(예컨대, 후술하는 도 5 및 도 6의 예에서와 같이 128개);

- 선택적인 작업으로서 행렬의 빈 경계가 제거된다;

- 행렬의 중심부에서 시작하여, 동심 원형 링에 대해 반시계 방향 또는 시계 방향 스캐닝의 수행을 통해 모든 화소가 스캐닝되고, 도 4에 나타낸 새로운 행렬 형식으로 열 방향 또는 행 방향으로 저장된다.

일 실시형태에서, 화소는 도 4에 도시된 바와 같이 동심 직사각형에 대해 스캐닝된다. 일 실시형태에서, 화소는 동심 원형, 삼각형, 오각형, 또는 다른 기하학적 형태에 대해 스캐닝된다.

도 1 내지 도 4와 관련하여 설명한 방법의 일 실시형태에서, 이미지 스캐닝은 반시계 방향 또는 시계 방향으로 수행된다. 도 1 내지 도 4와 관련하여 설명한 방법의 일 실시형태에서, 이미지 스캐닝은 이미지의 동심 원형 링의 섹션으로 실행된다. 도 1 내지 도 4와 관련하여 설명한 방법의 일 실시형태에서, 다른 행렬 표현이 열 방향 또는 행 방향으로 제공된다.

도 5는 일 실시형태에 따른 행렬로 표현된 하나의 이미지로부터 추출된 주요 지점의 세트의 다른 행렬 표현(500)의 개략도이다.

도면으로부터 알 수 있듯이, 원래 행렬의 중심부 요소를 포함하는, 도 1 내지 도 4와 관련하여 설명한 방법에 따라 취득된 새로운 행렬 표현의 왼쪽은, 오른쪽보다 훨씬 더 밀도가 높다.

도 6은 일 실시형태에 따른 도 5에 도시된 바와 같은 다른 행렬 표현의 적응형 블록 기반 분석(600)의 개략도이다.

이 새로운 행렬 표현(500)에서부터 시작하여, 적응형 블록 기판 분석이 적용된다. 새로운 행렬 표현(500)의 왼쪽에, MB_Size 치수의 매크로 블록, 예컨대, 행렬 표현(600)의 스케일에 따른 128 화소 × 128 화소가 적용된다. 새로운 행렬 표현(500)의 오른쪽에, MB_Size 치수의 일부분(전형적으로 MB_Size/2)의 매크로 블록, 예컨대, 행렬 표현(600)의 스케일에 따른 64 화소 × 64 화소가 적용된다. 이렇게 하여, 블록에 적용되는 후속 압축 기법에 의해 배제될 수 있는, 빈 매크로 블록을 만날 확률이 증가한다. 일 실시형태에서, MB_Size 치수의 매크로 블록의 수는 이미지 전체에 걸쳐 고정되어 있다. 다른 실시형태에서, MB_Size 치수의 매크로 블록의 수는 행렬의 열 또는 행의 수에 따라 변화한다. 스킵 매크로 블록에 관한 0/1 표시(indication)은 그 후 엔트로피 코딩된다.

도 7은 이하 제1 실시예로 표시하는 일 실시형태에 따른 위치 정보 압축 방법(202)의 개략도이다. 제1 실시예는 도 1 내지 도 6과 관련하여 설명한 작업의 시퀀스를 채택한다.

경계 제거(borders elimination)(211)의 선택적인 단계 후에, 새로운 행렬 표현(다른 행렬 표현으로 표시됨)이 생성되고(212)(즉, 중심부에서 동심 원형까지), 도 6과 관련한 설명에 따라 적응형 블록 분석(214)이 적용된다. 이 분석의 결과, 즉 스킵 매크로 블록에 관한 정보 및 비어있지 않은 매크로 블록의 행렬 요소가 후속하는 단계 216 및 217에서 엔트로피 코딩된다. 압축 정보가 히스토그램 카운트의 압축(220)과 융합되어 위치 정보 압축 단계를 완료한다. 비트 스트림 생성(240)이 이 압축된 정보로 수행된다.

일 실시형태에서, 경계 제거(211)는, 국소 특징이 결정되지 않은, 이미지의 주변 섹션을 제거함으로써 이미지의 크기를 축소하는 것을 포함하며, 그 축소는 다른 행렬 표현의 생성(212)에 대응하는 이미지 스캐닝 이전에 수행된다.

일 실시형태에서, 적응형 블록 기반 분석(214)은 도 6과 관련하여 설명한 바와 같이 다른 행렬 표현의, 상이한 크기의 매크로 블록으로의 분할을 수행하며, 이미지의 중심부에 또는 그 주위에 주요 지점을 포함하는 매크로 블록은 이미지의 주변부에 위치한 주요 지점을 포함하는 매크로 블록보다 크기가 더 크다. 일 실시형태에서, 위치 정보의 행렬 표현은 이미지의 중심부 및 그 주위에 위치한 주요 지점을 제공하기 위한 MB_Size 치수의 제1 개수, 예컨대 도 6의 예시에 따라 3개 또는 임의의 다른 개수의, 매크로 블록을 포함하고, 이미지의 주변부에 위치한 주요 지점을 제공하기 위한 MB_Size 치수의 일부분인, 예컨대 도 6의 예시에 따른 1/4 또는 다른 일부분의 제2 개수, 예컨대 도 6의 예시에 따른 14개 또는 다른 개수의, 매크로 블록을 포함한다. 일 실시형태에서, MB_Size 크기 치수의 제1 개수의 매크로 블록은 모든 이미지에 걸쳐 고정되어 있다. 다른 실시형태에서, MB_Size 크기 치수의 제1 개수의 매크로 블록은 압축된 이미지의 행렬 표현의 크기에 따라, 특히 행렬 표현의 열 또는 행의 개수에 따라 달라진다.

일 실시형태에서, 스킵 매크로 블록 비트 시퀀스는 위치 정보를 포함하지 않는 행렬 표현의 빈 매크로 블록을 나타내는 데 사용된다. 도 6에 따르면, 스킵 매크로 블록 비트 시퀀스 {1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1} 는 부분적인 MB_Size 치수의제2 개수의 매크로 블록 중 빈 매크로 블록을 나타내며, "1"은 비어있지 않은 매크로 블록을 나타내고, "0"은 빈 매크로 블록을 나타낸다.

디코더는 반대 작업(reversed operation)을 반대 순서로 적용한다. 일 실시형태에서, 디코더는, 이미지의 주변부에 위치한 주요 지점에서 이미지의 중심부에 위치한 주요 지점까지 또는 그 반대로, 행렬 표현의 요소를 통해 순차적으로 실행하는 주요 포인트의 세트의 위치 정보에 대한 행렬 표현의 언패킹(unpacking)을 적용하고,이미지의 각 주요 지점은 기술자로 기술되며, 기술자는 이미지 내의 주요 지점의 위치를 특정하는 위치 정보를 포함하고; 주요 지점을 둘러싸는 배향 패치로부터 국소 특징이 계산된다.

도 8은 이하 제2 실시예로 표시되는 일 실시형태에 따른 위치 정보 압축 방법(203)의 개략도이다.

이미지 압축 방법(203)은 도 7과 관련하여 설명한 바와 같은 단계 211, 212, 214, 216, 217, 220 및 240을 포함하고, 다른 행렬 표현을 생성하는 단계 212와 적응형 블록 기반 분석을 하는 단계 214 사이에 빈 요소를 제거하는 선택적인 단계 213을 더 포함한다.

다른 행렬 표현을 생성하는 단계 212 이후에, 빈 영역의 제거를 위한 새로운 방법이 적용된다. 빈 행 및 열을 제거하는, 전술한 기준 모델 방안과는 대조적으로, 여기에 설명하는 방법은 새로운 행렬 표현 구성중에 빈 동심 링을 식별하는 것이다. 인코딩된 비트스트림에서, 동심 링이 비어있는지 여부를 나타내기 위해 1비트가 사용된다. 여기에 제시된 접근법의 이점은, 이미지의 행 및 열 각각에 대해 1비트를 사용하는 대신에, 동심 링(그 수는 낮은 행렬 차원의 절반과 같다) 각각에 대해 1비트만이 사용된다는 것이다.

도 8로부터 알 수 있는 바와 같이, 빈 요소를 제거하는 추가적인 단계 213에서, 전술한 바와 같이 빈 동심 링 제거가 수행된다. 일 실시형태에서, 빈 요소를 제거하는 단계 213은 압축된 이미지의 행렬 표현의 빈 요소를 제거하는 것이고, 빈 요소는 도 3의 예시에 따른 국소 특징을 포함하지 않는 이미지의 동심 링에 대응한다. 디코더는 반대의 작업을 반대 순서로 적용한다.

도 9는 이하 제3 실시예로 표시하는 일 실시형태에 따른 위치 정보 압축 방법(204)의 개략도이다.

이미지 압축 방법(204)은 도 8과 관련하여 설명한 바와 같은 단계 211, 212, 213, 214, 216, 217, 220 및 240을 포함하고, 적응형 블록 기반 분석을 하는 단계 214 이후에 블록당 널이 아닌 요소의 수에 기초한 콘텍스트를 생성하는 선택적인 단계 215를 더 포함한다. 콘텍스트를 생성하는 단계 215의 결과는 행렬 요소의 산술 엔트로피 코딩을 수행하는 단계 217에 입력된다.

제3 실시예에서, 적당한 복잡도 증가의 비용으로 압축 효율을 누리는, 콘텍스트 모델링이 적용된다. 두 개의 상이한 콘텍스트 모델이 적용될 수 있다. 제1 실시형태에서, 새로운 행렬 표현에서 동일한 위치의 매크로 블록에 대응하는 트레이닝 세트에서의 널이 아닌 셀의 평균 수에 기초하여, 콘텍스트 모델링이 매크로 블록에 적용된다. 이 접근법은, 위치가 사전에 알려져 있기 때문에, 압축된 비트 스트림에 여분의 비트를 필요로 하지 않는 이점이 있다. 제2 실시형태에서, 콘텍스트 모델링은 현재 분석되는 매크로 블록 내의 요소의 수에 기초하여 적용된다. 이 경우에, 각각의 매크로 블록 내의 비어있지 않은 셀의 수를 시그널링하기 위해, 압축된 비트 스트림에서 여분의 비트가 소비되어야 한다.

일 실시형태에서, 압축된 행렬은 도 7과 관련하여 설명한 엔트로피 코딩된 스킵 매크로 블록 비트 시퀀스와 압축된 이미지의 행렬 표현의 비어있지 않은 매크로 블록의 엔트로피 코딩된 위치 정보를 결합함으로써 제공되며, 위치 정보는, 도 9의 단계 215에 예시된 바와 같은 비어있지 않은 매크로 블록에서 비어 있지 않은 요소의 평균 수를 이용한 콘텍스 모델을 사용하여 엔트로피 코딩된다.

디코더는 반대의 작업을 반대 순서로 적용한다.

도 10은 일 실시형태에 따른 이미지의 주요 지점의 세트의 위치 정보에 대한 행렬 표현으로부터 이미지의 위치 정보를 재구성하는 방법(1000)의 의 개략도이다.

이 방법(1000)은 미리 정해진 순서에 따라 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹하는 단계(1001)를 포함하며, 이미지의 국소 특징은 주요 지점을 둘러싸는 배향 패치로부터 계산된다.

일 실시형태에서, 상기 방법(1000)은 스킵 매크로 블록 비트를 엔트로피 디코딩하는 단계를 더 포함한다. 일 실시형태에서, 상기 방법(1000)은 비어있지 않는 셀과 관련된 위치 정보를 엔트로피 디코딩하는 단계를 더 포함한다.

도 11은 일 실시형태에 따른 위치 정보 인코더(1100)의 블록도이다. 위치 정보 인코더(1100)는 도 1 내지 도 9와 관련하여 설명한 방법 중 하나를 수행하도록, 즉 이미지로부터 주요 지점의 세트를 제공하고; 주요 지점의 세트에 대한 위치 정보를 이진 행렬의 형태로 기술하고; 미리 정해진 순서에 따라 이진 행렬을 스캐닝하여, 주요 지점의 세트에 대한 위치 정보의 새로운 표현을 생성하도록, 구성된 프로세서(1101)를 포함한다. 일 실시형태에서, 프로세서(1101)는 주요 지점의 세트에 대한 위치 정보의 새로운 표현을 다른 이진 행렬의 형태로 또는 다른 적당한 형태로 출력하도록 구성된다.

일 실시형태에서, 위치 정보 인코더(1100)는, 이미지의 중심부에 위치한 요소에서 시작하여 이미지의 주변부에 위치한 주요 지점을 향해 또는 그 반대로 히스토그램 맵 행렬을 스캐닝하여 새로운 행렬 표현을 제공하고; 다음의 단계, 즉 압축된 위치 정보를 취득하기 위한 적응형 블록 분석 및 기술자의 엔트로피 코딩을 적용하도록 더 구성된다.

도 11은 입력(1103)으로 이미지를 수신하고 위치 정보만을 그 출력(1105)에 제공하는 인코더(1100)를 보여준다. 그러나, 예를 들어 기술자 등의, 다른 정보도 그 출력(1105)에 제공될 수 있다.

도 12는 일 실시형태에 따른 위치 정보 디코더(1200)의 블록도이다. 이미지 디코더(1200)는, 도 10과 관련하여 설명한 바와 같은 방법을 수행하도록, 즉 미리 정해진 순서에 따라, 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹(unpacking)하여, 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현으로부터 이미지의 국소 특징을 재구성하도록 구성된 프로세서(1201)를 포함하고, 이미지의 국소 특징은 주요 지점을 둘러싸는 배향 패치로부터 계산된다.

도 12는 그 입력(1203)에 위치 정보만을 수신하는 디코더(1200)를 보여준다. 그러나, 예를 들어 기술자 등의, 다른 정보도 그 입력에 수신될 수 있다.

이상으로부터, 본 발명이 속하는 기술분야의 당업자에게는 다양한 방법, 시스템, 기록 매체상의 컴퓨터 프로그램 등이 제공된다는 것이 명백할 것이다.

본 발명은 또한 실행될 때, 적어도 하나의 컴퓨터로 하여금 본 명세서에 설명한 수행 및 계산 단계를 실행하도록 하는, 컴퓨터로 실행 가능한 코드 또는 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품을 지원한다.

본 발명은 또한 본 명세서에 설명한 수행 및 계산 단계를 실행하도록 구성된 시스템을 지원한다.

이상의 교시에 비추어 많은 대안, 수정 및 변형이 본 발명이 속하는 기술분야의 당업자에게 명백할 것이다. 물론, 본 발명이 속하는 기술분야의 당업자는 본 명세서에 기재된 것 이외에 발명의 다양한 애플리케이션이 있다는 것을 쉽게 인식할 수 있다. 하나 이상의 구체적인 실시예를 참조하여 본 발명을 설명하였지만, 본 발명이 속한 기술분야의 당업자는 다양한 변경이 본 발명의 범위를 벗어나지 않고 이루어질 수 있다는 것을 인식할 수 있다. 그러므로 첨부된 특허청구범위 및 그 등가물의 범위 내에서, 본 발명은 본 명세서에 구체적으로 기재된 것과 다르게 실시 될 수 있다는 것을 이해해야 한다.

Claims

이미지를 처리하는 방법(100)으로서,
이미지로부터 주요 지점의 세트를 제공하는 단계(101);
상기 주요 지점의 세트의 위치 정보를 이진 행렬의 형태로 기술하는 단계(103); 및
미리 정해진 순서에 따라, 상기 이진 행렬을 스캐닝하여, 상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 생성하는 단계(105)
를 포함하는 방법(100).
제1항에 있어서,
미리 정해진 순서에 따라, 상기 이진 행렬을 스캐닝하는 단계(105)는,
상기 이진 행렬을 상기 이미지의 관심 영역에 또는 그 주위에 위치한 주요 지점에서 시작하여 상기 이미지의 주변부에 위치한 주요 지점을 향해 또는 그 반대로 스캐닝하는 단계(105)를 포함하는, 방법(100)
제2항에 있어서,
상기 이미지의 관심 영역은 상기 이미지의 중심부에 또는 그 주위에 있는, 방법(100)
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 이진 행렬(401)의 스캐닝(105)은 반시계 방향 또는 시계 방향으로 수행되는, 방법(100)
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 이진 행렬(401)의 스캐닝(105)은 동심 원형 링(concentric circular ring)의 섹션으로 실행되는, 방법(100).
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현은 다른 이진 행렬(402)의 형태를 취하는, 방법(100).
제6항에 있어서,
상기 다른 이진 행렬(402)은 열 방향(column-wise) 또는 행 방향(row-wise)으로 생성되는, 방법(100).
제6항 또는 제7항에 있어서,
상기 주요 지점의 세트의 주요 지점 각각에 대해, 상기 주요 지점을 둘러싸는 배향 패치(oriented patch)로부터 기술자(descriptor)가 계산되는, 방법(100).
제6항 내지 제8항 중 어느 한 항에 있어서,
상기 이진 행렬은 빈 셀과 비어있지 않은 셀로 이루어진 히스토그램 맵이고,
비어있지 않은 셀은 상기 이미지 내의 주요 지점의 위치를 나타내는, 방법(100).
제6항 내지 제9항 중 어느 한 항에 있어서,
상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계를 더 포함하는 방법(100).
제10항에 있어서,
상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계는,
위치 정보를 포함하지 않는 이진 행렬의 주변 섹션을 제거함으로써 상기 이진 행렬의 크기를 축소하는 단계(211)를 포함하고,
상기 축소하는 단계(211)는 상기 이진 행렬을 스캐닝하는 단계(105, 212) 이전에 수행되는, 방법(100).
제10항에 있어서,
상기 주요 지점의 세트의 위치 정보에 대한 새로운 표현을 압축하는 단계는,
비어있지 않은 값을 포함하지 않는 이진 행렬의 동심 링에 대응하는 다른 이진 행렬의 빈 요소를 제거하는 단계(213)를 더 포함하는, 방법(100).
제6항 내지 제12항 중 어느 한 항에 있어서,
상기 다른 이진 행렬(402)은 상이한 크기의 매크로 블록으로 분할되고,
상기 이미지의 관심 영역에 또는 그 주위에 위치한 주요 지점의 위치 정보를 포함하는 매크로 블록은, 상기 이미지의 주변부에 위치한 주요 지점의 위치 정보를 포함하는 매크로 블록보다 크기가 큰, 방법(100).
제13항에 있어서,
상기 다른 이진 행렬(402, 212)의 스킵 매크로 블록 정보(216) 및 상기 다른 이진 행렬(402, 212)의 비어있지 않은 매크로 블록(217)에 엔트로피 코딩이 적용되는, 방법(100).
제14항에 있어서,
상기 엔트로피 코딩이 적용되는 경우 콘텍스트 생성(215)이 적용되는, 방법(100).
이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현으로부터 이미지의 국소 특징(local feature)을 재구성하는 방법(1000)으로서,
미리 정해진 순서에 따라, 상기 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹(unpacking)하는 단계를 포함하고,
상기 이미지의 국소 특징은 상기 주요 지점을 둘러싸는 배향 패치로부터 계산되는,
방법(1000).
이미지(1103)로부터 주요 지점의 세트를 제공하고(101);
상기 주요 지점의 세트에 대한 위치 정보를 이진 행렬의 형태로 기술하고(103);
미리 정해진 순서에 따라 상기 이진 행렬을 스캐닝하여(105), 상기 주요 지점의 세트에 대한 위치 정보의 새로운 표현(1105)을 생성하도록,
구성된 프로세서(1101)
를 포함하는 위치 정보 인코더(1100).
미리 정해진 순서에 따라, 이미지의 주요 지점의 세트에 대한 위치 정보의 행렬 표현을 언패킹(unpacking)하여(1001), 상기 이미지의 주요 지점의 세트에 대한 위치 정보(1203)의 행렬 표현으로부터 이미지(1205)의 국소 특징을 재구성하도록 구성된 프로세서(1201)를 포함하고,
상기 이미지의 국소 특징은 상기 주요 지점을 둘러싸는 배향 패치로부터 계산되는,
위치 정보 디코더(1200).