KR20160034990A - 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 이미지 프로세싱 장치 및 방법 - Google Patents

그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 이미지 프로세싱 장치 및 방법 Download PDF

Info

Publication number
KR20160034990A
KR20160034990A KR1020167004414A KR20167004414A KR20160034990A KR 20160034990 A KR20160034990 A KR 20160034990A KR 1020167004414 A KR1020167004414 A KR 1020167004414A KR 20167004414 A KR20167004414 A KR 20167004414A KR 20160034990 A KR20160034990 A KR 20160034990A
Authority
KR
South Korea
Prior art keywords
descriptor
sub
encoding
group
descriptors
Prior art date
Application number
KR1020167004414A
Other languages
English (en)
Other versions
KR102175697B1 (ko
Inventor
스타브로스 파슈알라키스
Original Assignee
시스벨 테크놀로지 에스.알.엘.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시스벨 테크놀로지 에스.알.엘. filed Critical 시스벨 테크놀로지 에스.알.엘.
Publication of KR20160034990A publication Critical patent/KR20160034990A/ko
Application granted granted Critical
Publication of KR102175697B1 publication Critical patent/KR102175697B1/ko

Links

Images

Classifications

    • G06K9/4642
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • G06K9/4671
    • G06K9/6212
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를, 변환된 서브디스크립터들(v p)을 포함하는 변환된 디스크립터(V)로 인코딩하기 위한 방법이 설명되며, 각각의 그래디언트 히스토그램(h p)은 복수의 히스토그램 빈(histogram bin)들(h i )을 포함하고 그리고 각각의 서브디스크립터(v p)는 값들(v j )의 세트를 포함하고, 상기 서브디스크립터들(v p)의 세트의 서브디스크립터 인덱스(p) 및 상기 값들(v j )의 세트의 엘리먼트 인덱스(j)를 명시하는 엘리먼트 활용 순서 리스트에 따라 상기 서브디스크립터들(v p)이 발생되는 것을 특징으로 한다.

Description

그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 이미지 프로세싱 장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD FOR ENCODING AN IMAGE DESCRIPTOR BASED ON A GRADIENT HISTOGRAM}
본 발명은 이미지 관심 키포인트들 둘레의 로컬 구역들에서 컴퓨팅된 이미지 디스크립터들을 효율적으로 인코딩, 트랜스코딩, 디코딩 및 프로세싱하기 위한 방법과, 이러한 디스크립터들을 인코딩, 트랜스코딩, 디코딩 및 프로세싱하기 위한 수단을 포함하는 이미지 프로세싱 디바이스에 관한 것이다.
이러한 이미지 디스크립터들은, 몇 개만 예를 들면, 물체 인식(object recognition), 콘텐츠-기반 이미지 리트리벌(content-based image retrieval), 및 이미지 레지스트레이션(image registration)을 포함한 많은 컴퓨터 비전 애플리케이션(computer vision application)들에서의 넓은 적용가능성이 확인되었다.
이러한 디스크립터들의 인코딩에 대한 기존의 접근방식들은 특정 결점들을 나타낸다.
예컨대, 기존의 인코딩 접근방식들은, 상이한 길이들의 디스크립터들의 트랜스코딩을 수행하기 위해 ― 이에 의해, 주어진 디스크립터 길이의 디스크립터가 상이한 디스크립터 길이의 디스크립터로 컨버팅됨 ―, 또는 디코딩 및 비교를 수행하기 위해 전체 디스크립터들의 파싱(parsing)을 요구하는 디스크립터들을 초래한다.
다른 예로서, 기존의 인코딩 접근방식들은 인코딩 복잡성의 측면에서 비효율적인데, 그 이유는 기존의 인코딩 접근방식들은 가변-길이 이미지 디스크립터들을 생성하기 위해 요구되는 동작들에서 공통성들 및 리던던시들을 무시하기 때문이다.
본 출원인에 의해 출원된, 아직 공개되지 않은 이탈리아 특허 출원 번호 제 TO2012A000602호는 로컬 이미지 디스크립터들의 인코딩을 설명하며, 이에 의해, 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터들이, 그래디언트들의 히스토그램들의 변환에 기초하여 상기 그래디언트들의 히스토그램들을 이용해 이미지 디스크립터들로부터 컴퓨팅되며, 여기서 상기 변환은 거기에 포함된 두드러지고 강건한 정보를 그래디언트들의 히스토그램들의 빈(bin) 값들 간의 관계 및 분포들의 형상의 형태로 캡쳐한다.
상기 아직 공개되지 않은 이탈리아 특허 출원에서, 상기 디스크립터들의 인코딩 방법들이 개시되며, 그 인코딩 방법들은 용이하게 스케일가능한 비트스트림들을 생성한다는 측면에서 종래기술의 방법들보다 더 효율적이다.
이러한 디스크립터들은 위에서 언급된 아직 공개되지 않은 이탈리아 특허 출원 번호 제 TO2012A000602호에서 개시되며, 그 이탈리아 특허 출원은, 그래디언트들의 히스토그램들의 변환에 기초하여 상기 그래디언트들의 히스토그램들을 이용한 이미지 디스크립터들로부터의 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터들의 계산을 개시하며, 여기서 상기 변환은 거기에 포함된 두드러지고 강건한 정보를 그래디언트들의 히스토그램들의 빈 값들 간의 관계 및 분포들의 형상의 형태로 캡쳐한다.
아직 공개되지 않은 이탈리아 특허 출원 번호 제 TO2012A000602호에 따른, 그래디언트들의 히스토그램들을 이용한 이미지 디스크립터들, 특히, SIFT 이미지 디스크립터로부터의 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터들의 계산의 중요한 양상들이 아래에서 설명된다.
간략하게, SIFT 방법을 이용시, 로컬 이미지 디스크립터들이 다음과 같이 형성되는데: 첫 번째로, 스케일 및 배향에 대해 변함없는 안정된 이미지 키포인트들을 식별 및 로컬라이징하기 위해, 다수의 이미지 스케일들 및 위치들에 걸친 탐색이 수행되고; 그 다음으로, 각각의 키포인트에 대해, 로컬 이미지 그래디언트들에 기초하여 하나 또는 그 초과의 지배적인 배향들이 결정되어, 각각의 키포인트의 할당되는 배향, 스케일 및 위치에 관하여 후속 로컬 디스크립터 계산이 수행되도록 허용되고, 이에 따라 이러한 변환들에 대한 불변성이 달성된다. 그 다음으로, 키포인트들 둘레의 로컬 이미지 디스크립터들이 다음과 같이 형성되는데: 첫 번째로, 키포인트 둘레의 구역의 이미지 샘플 포인트들에서 그래디언트 크기 및 배향 정보가 계산되고; 그 다음으로, 이러한 샘플들은 n×n 서브구역들에 걸쳐 콘텐츠를 요약(summarizing)하는 배향 히스토그램들에 축적된다.
단지 예시로서, SIFT 키포인트 디스크립터의 예가 도 1a 및 도 1b에 도시되며, 여기서, 도 1a는 4×4 서브구역(SR)으로의 로컬 구역(R)의 세분(subdivision)을 도시하고 그리고 도 1b는 각각의 배향 히스토그램에 대한 8개의 빈들로의 360o 범위의 배향들의 세분을 도시하며, 각각의 화살표의 길이는 그 히스토그램 엔트리의 크기에 대응한다. 따라서, 도 1에 예시된 바와 같은 로컬 이미지 디스크립터는 4×4×8 = 128개의 엘리먼트들을 갖는다. SIFT 기법의 더 많은 상세들은 G. Lowe, "Distinctive image features from scale-invariant keypoints", International Journal of Computer Vision, 60, 2 (2004), pp. 91-110에서 찾을 수 있다.
아직 공개되지 않은 이탈리아 특허 출원 번호 제 TO2012A000602호에 따르면, 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터는 다음과 같이 SIFT 디스크립터로부터 계산될 수 있다.
다음의 설명에서, H는 8개의 빈들(h)을 각각 가진 그래디언트들의 16개의 히스토그램들(h)을 포함하는 전체 SIFT 디스크립터인 반면, V는 8개의 엘리먼트들(v)을 각각 가진 16개의 서브디스크립터들(v)을 포함하는 본 발명에 따른 전체 로컬 디스크립터이다.
도 2a에 도시된 바와 같이, H가 그래디언트들의 16개의 히스토그램들(h 0 - h 15)을 포함하는 SIFT 로컬 이미지 디스크립터를 나타내고, 각각의 히스토그램은 도 2b에 도시된 바와 같이 8개의 빈 값들(h 0 - h 7)을 포함하는 것으로 한다. 더 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터는 Hh 0 - h 15 각각을 변환함으로써 그리고 그 다음으로, 결과적인 변환된 값들에 대해 스칼라 양자화를 수행함으로써 컴퓨팅될 수 있다. 더 구체적으로, h 0 - h 15 각각은, 도 3의 변환 활용 정보(transform utilisation information)에 따라, 아래에 도시된 바와 같은 변환 A 또는 변환 B에 따라 변환되는데, 즉, 변환 A가 h 0, h 2, h 5, h 7, h 8, h 10, h 13, h 15에 적용되고 그리고 변환 B가 h 1, h 3, h 4, h 6, h 9, h 11, h 12, h 14에 적용되어, h 0 - h 15에 각각 대응하고 그리고 엘리먼트들 v 0-v 7을 각각 포함하는 서브디스크립터들 v 0 - v 15를 가진 변환된 디스크립터 V를 제공하여, 총 128개의 엘리먼트들을 제공한다.
Figure pct00001
Figure pct00002
그 다음으로, 각각의 엘리먼트는, 각각의 엘리먼트에 대한 양자화 빈들 간에 특정 발생 확률 분포를 달성하기 위해 선택된 양자화 임계치들을 이용한 코스 스칼라 양자화(coarse scalar quantisation), 예컨대, 터너리 (3-레벨) 양자화를 겪는다. 이러한 스칼라 양자화는, 또한 총 128개의 엘리먼트들을 갖게, 엘리먼트들
Figure pct00003
을 각각 포함하는 서브디스크립터들
Figure pct00004
를 가진 양자화된 디스크립터
Figure pct00005
를 생성한다. 이러한 컴팩트한 디스크립터는 그래디언트들의 원래의 히스토그램들에 포함된 가장 차별적이고 강건한 정보를, 그래디언트들의 원래의 히스토그램들의 빈 값들 간의 관계 및 분포들의 형상의 형태로 캡쳐한다.
디스크립터 V뿐만 아니라 디스크립터 V의 양자화된 버전
Figure pct00006
의 주요 이점은, 그것이 고도로 스케일가능하고, 그리고 애플리케이션의 저장 요건들 또는 송신 채널의 특징들에 의해 요구되는 경우에는, 그것의 엘리먼트들 중 하나 또는 그 초과를 단순히 제거함으로써, 그것의 차원수(dimensionality)가 용이하게 감소될 수 있는 것이다. 간략함을 위해, 다음의 설명에서, 엘리먼트들 v 0-v 7을 각각 포함하는 서브디스크립터들 v 0 - v 15를 가진 사전-양자화된 디스크립터 V의 인코딩의 측면에서 본 발명의 중요한 양상들이 설명될 것이고, 그리고 달리 명시되지 않는 한, 양자화된 디스크립터
Figure pct00007
의 인코딩은 유사한 방식으로 진행됨이 이해되어야 한다.
도 4a 내지 도 4e는, 단지 20개의 디스크립터 엘리먼트들만을 활용하는 가장 짧은 디스크립터 길이인 디스크립터 길이 0 (DL0)으로부터 모든 128개의 엘리먼트들을 활용하는 가장 긴 디스크립터 길이인 디스크립터 길이 4 (DL4)까지의 5개의 타겟 디스크립터 길이들에 대해 탁월한 차별적인 파워 및 강건성을 생성하는 것으로 확인된 엘리먼트들의 예시적 세트들을 도시한다. 더 구체적으로, 도 4a는 20개의 엘리먼트들을 포함하는 디스크립터 길이 DL0에 대한 엘리먼트들의 예시적 세트를 도시하고, 도 4b는 40개의 엘리먼트들을 포함하는 디스크립터 길이 DL1에 대한 엘리먼트들의 예시적 세트를 도시하고, 도 4c는 64개의 엘리먼트들을 포함하는 디스크립터 길이 DL2에 대한 엘리먼트들의 예시적 세트를 도시하고, 도 4d는 80개의 엘리먼트들을 포함하는 디스크립터 길이 DL3에 대한 엘리먼트들의 예시적 세트를 도시하고, 그리고 도 4e는 모든 128개의 엘리먼트들을 포함하는 디스크립터 길이 DL4에 대한 엘리먼트들의 예시적 세트를 도시한다. 따라서, 각각의 디스크립터 길이에 대해, 각각의 서브디스크립터의 각각의 엘리먼트는 도 4a 내지 도 4e의 엘리먼트 활용 세트들에 따라 인코딩되거나 또는 인코딩되지 않을 것이다.
이러한 확장성 특성(scalability property)에 대한 핵심은, 도 4a 내지 도 4e에 예시된 바와 같이, 각각의 디스크립터 길이에 대해 활용되는 엘리먼트들의 세트가 모든 더 높은 디스크립터 길이들에 대해 활용되는 엘리먼트들의 세트와 동일하거나 또는 그 세트의 서브세트여야 한다는 것이다. 이는, 더 높은 디스크립터 길이를 가진 디스크립터가 더 낮은 디스크립터 길이를 가진 디스크립터와 동일한 세트의 엘리먼트들로 감소되도록, 더 높은 디스크립터 길이를 가진 디스크립터의 과잉(excess) 엘리먼트들의 단순한 제거에 의해 상이한 길이들의 디스크립터들의 트랜스코딩 및 비교를 허용한다.
이러한 디스크립터의 간단한 인코딩 방법은, "서브디스크립터에 의한(by-subdescriptor)" 순서로, 즉, 일반적인 경우에서, v 0,0, v 0, 1, ..., v 0 ,7, v 1,0, v 1,1, ..., v 1 , 7, ..., v 15 ,0, v 15, 1, ..., v 15 ,7로서 엘리먼트들을 계산 및 인코딩하는 것을 포함하며, 여기서, v i , j 는 서브디스크립터 v i 의 엘리먼트 v j 를 나타낸다. 이는, 어느 엘리먼트들이 인코딩되어야 하는지를 결정하기 위해, 예컨대, 도 3에 예시된 바와 같은 적절한 변환들을 사용하여, 그리고 또한 예컨대, 도 4에 예시된 바와 같은 원하는 디스크립터 길이에 대해 적절한 엘리먼트 활용 세트들을 사용하여, 변환된 히스토그램 v 0에 대한 엘리먼트들 v 0, v 1, ..., v 7을 인코딩하고, 그 다음으로, 변환된 히스토그램 v 1에 대한 엘리먼트들 v 0, v 1, ..., v 7을 인코딩하는 등등을 의미한다.
이러한 인코딩은 예컨대, 디스크립터 길이 DL0에 대해서는 디스크립터 v 0,0, v 1,0, v 2,0, v 3,0, v 4,0, v 5,0, v 5,6, v 6,0, v 6,6, v 7,0, v 8,0, v 9,0, v 9,6, v 10,0, v 10,6, v 11,0, v 12,0, v 13,0, v 14,0, v 15,0에 대해, 그리고 디스크립터 길이 DL1에 대해서는 디스크립터 v 0,0, v 0,1, v 1,0, v 1,1, v 2,0, v 2,1, v 3,0, v 3,1, v 4,0, v 4,1, v 5,0, v 5,1, v 5,2, v 5,6, v 6,0, v 6,1, v 6,2, v 6,6, v 7,0, v 7,1, v 8,0, v 8,1, v 9,0, v 9,1, v 9,2, v 9,6, v 10,0, v 10,1, v 10,2, v 10,6, v 11,0, v 11,1, v 12,0, v 12,1, v 13,0, v 13,1, v 14,0, v 14,1, v 15,0, v 15,1에 대해 초래된다.
도 5는 이러한 간단한 인코더의 동작을 단계들의 시퀀스로 예시한다. 다음의 설명에서뿐만 아니라, 인코더의 동작의 후속 설명들에서, 달리 명시되지 않는 한, 이러한 단계들의 시퀀스는, 개념적이고 그리고 특정 하드웨어의 소프트웨어 구현들, 컴포넌트들 및 명령들에 대응하지는 않지만 인코더의 전체적인 동작을 나타내는 단계들에 대응한다. 더 구체적으로, 도 5는 예컨대, 도 4에 예시된 디스크립터 길이들 중 하나에 대응하는 디스크립터 길이 DLk에 대한 인코더의 동작을 예시한다. 도 5의 단계(S100)에서, 디스크립터의 인코딩은 제 1 서브디스크립터, 즉, v 0에서 시작된다. 단계(S110)에서, 예컨대, 도 3의 변환 활용에 따라, 프로세싱되는 서브디스크립터에 대한 적절한 변환이 선택된다. 본원에서 설명되는 바와 같은 2개의 상이한 변환들에 따른 디스크립터 H로부터의 디스크립터 V의 계산은 단지 예시적임이 유의되어야 한다. 디스크립터 H로부터의 디스크립터 V의 계산은 또한, 단일 변환에 따라, 예컨대, 단지 변환 A에 따라 또는 단지 변환 B에 따라 수행되어 단계(S110)를 불필요하게 할 수 있거나, 또는 2개보다 많은 수의 변환들에 따라 수행될 수 있다. 단계(S120)에서, 프로세싱되는 서브디스크립터의 인코딩은 제 1 서브디스크립터 엘리먼트, 즉, v 0에서 시작된다. 그 다음으로, 단계(S130)에서, 예컨대, 도 4의 활용 세트들 중 하나를 사용하여, 디스크립터 길이 DLk에 대한 엘리먼트 활용 정보에 대한 특정 서브디스크립터의 특정 엘리먼트, 즉, v 0,0의 사용 또는 미사용이 검사된다. 엘리먼트가 사용되지 않는 경우, 프로세싱은 단계(S150)로 이동된다. 엘리먼트가 디스크립터 길이 DLk에 대해 사용되는 경우, 그 엘리먼트의 인코딩은 단계(S140)에서 발생된다. 본원에서, 인코더의 동작의 후속 설명들에서뿐만 아니라, 달리 명시되지 않는 한, "인코딩"이라는 단어는, 로컬 이미지 디스크립터의 엘리먼트 v 0, 0 부분을 만드는 하나 또는 그 초과의 동작들 또는 이들의 조합을 의미하며, 상기 동작들은, 앞서 확인된 (1) 또는 (2) 중 적절한 변환 함수에 따른 계산을 제한 없이 예시로서 포함하며, 모든 엘리먼트들의 경우에서 로컬 이미지 디스크립터에 포함시키기 위한 엘리먼트의 선택은, 디스크립터, 엘리먼트 값의 양자화, 휘발성 또는 비-휘발성 메모리에서의 엘리먼트의 저장, 및 송신 채널을 따르는 엘리먼트의 송신에서 어느 엘리먼트들이 마지막으로 사용될 것인지의 지식 없이 사전-계산된다. 단계(S140) 후에, 또는 단계(S130)에서 엘리먼트가 디스크립터 길이 DLk에 대해 사용되지 않는 것으로 결정되는 경우, 프로세싱은 단계(S150)로 이동된다. 단계(S150)에서, 현재의 엘리먼트가 서브디스크립터의 마지막 엘리먼트가 아닌 경우, 프로세싱은 서브디스크립터의 다음번 엘리먼트로 이동되고, 그렇지 않으면 프로세싱은 단계(S160)로 이동된다. 단계(S160)에서, 현재의 서브디스크립터가 로컬 이미지 디스크립터의 마지막 서브디스크립터가 아닌 경우, 프로세싱은 로컬 이미지 디스크립터의 다음번 서브디스크립터로 이동되고, 그렇지 않으면 프로세싱은 종료된다. 따라서, 단계들(S100, S120, S150, 및 S160)은 프로세싱이 수행되는 순서에 관한 것인 한편, 단계들(S110, S130 및 S140)은 로컬 이미지 디스크립터의 실제 인코딩에 관한 것임이 명백하다.
이러한 디스크립터의 다른 간단한 인코딩 방법은, 어느 엘리먼트들이 인코딩되어야 하는지를 결정하기 위해, 예컨대, 도 3에 예시된 바와 같은 적절한 변환들을 다시 사용하여, 그리고 예컨대, 도 4에 예시된 바와 같은 원하는 디스크립터 길이에 대해 적절한 엘리먼트 활용 세트들을 또한 사용하여, "엘리먼트에 의한(by-element)" 순서로, 즉, 일반적인 경우에서, v 0,0, v 1, 0, ..., v 15 ,0, v 0,1, v 1, 1, ..., v 15,1, ..., v 0,7, v 1, 7, ..., v 15 ,7로서 엘리먼트들을 계산 및 인코딩하는 것, 즉, 서브디스크립터들 v 0, v 1,..., v 15에 대한 엘리먼트 v 0을 인코딩하고, 그 다음으로, 서브디스크립터들 v 0, v 1,..., v 15에 대한 엘리먼트 v 1을 인코딩하는 등등을 포함한다. 이러한 인코더는 단계들의 적절한 재순서화(reordering)를 사용하여, 도 5의 인코더와 유사한 방식으로 동작할 수 있다. 일반적으로, 2개의 상술된 방법들 중 어느 것도 다른 방법 이상의 이점을 제공하지는 않는다. 트랜스코딩, 디코딩 및 프로세싱의 목적들로, 디코더는 관련된 컴퓨터 비전 애플리케이션들의 목적들을 위해 인코딩 프로세스 및 엘리먼트 순서화 및 가능하게는 상이한 길이들의 디스크립터들을 프로세싱하고 비교할 수 있을 활용 세트들을 또한 알아야 한다. 따라서, 엘리먼트 활용 세트들은 영구적으로 고정되거나 또는 디스크립터들과 함께 저장/송신되어야 한다. 이러한 맥락에서, 간단한 인코딩 프로세스는 불리하다.
더 구체적으로, 이러한 인코딩은 인코딩 순서에서 상이한 엘리먼트들 사이의 상대적 중요도를 무시한다. 결과적으로, 트랜스코딩의 측면에서, 이에 의해, 주어진 디스크립터 길이의 디스크립터는 상이한 디스크립터 길이의 디스크립터로 컨버팅되거나, 또는 디코딩 그리고 2개의 디스크립터들 사이의 대응하는 엘리먼트들을 비교하는 것에 의한 상이한 길이들의 디스크립터들의 비교의 측면에서, 이러한 인코딩은 원하는 결과를 달성하기 위해 디스크립터들의 파싱을 필요하게 만든다.
게다가, 이러한 인코딩은 상이한 엘리먼트들 사이의 상대적 중요도에서 리던던시 패턴들을 무시하고 그리고 특정 엘리먼트들이 인코딩되어야 하는지 또는 인코딩되지 않아야 하는지를 결정하는 것과 관련하여 불필요하게 복잡하다.
그러므로, 본 발명의 목적은, 종래기술의 방법들에 비해 더 효율적인, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치를 개시하는 것이다.
본 발명의 추가의 목적은, 더 유연한, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치를 개시하는 것이다.
본 발명의 추가의 목적은, 최적화된 인코더 구현을 달성하게 하는, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치를 개시하는 것이다.
본 발명의 추가의 목적은, 임의의 길이의 이미지 디스크립터들을 획득하게 하는, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치를 개시하는 것이다.
본 발명의 이러한 그리고 다른 목적들은, 본 서술의 통합 부분인 첨부된 청구항들에서 청구되는 바와 같은, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치를 통해 달성된다.
간략하게, 엘리먼트 활용 순서에 따라 이미지 디스크립터들을 인코딩하여, 파싱 대신에 단순한 디스크립터 트렁케이션(truncation)에 의해 더 낮은 디스크립터 길이들로 컨버팅될 수 있는 스케일가능 디스크립터들을 초래함으로써 위에서 설명된 방법들과 같이 이미지 디스크립터들을 효율적으로 인코딩하기 위한 방법이 개시된다.
인코딩은, 서브디스크립터 그룹들의 대응하는 엘리먼트들 사이의 상대적 중요도에서 리던던시 패턴들에 따라 형성되는 상기 서브디스크립터 그룹들에 따라 수행된다.
더 구체적으로, 상기 그룹화는, 높은 인식 성능을 달성한다는 측면에서, 디스크립터의 모든 엘리먼트들을 그들의 상대적 중요도에 따라 순서화하는 데 있어서, 서브디스크립터들의 대응하는 엘리먼트들이 유사한 중요도를 갖는 서브디스크립터들을 그룹화함으로써, 더 구체적으로는 디스크립터 중심으로부터의 그들의 거리에 따라 서브디스크립터들을 그룹화함으로써 그리고 추가로 그들 사이의 거리에 따라 서브디스크립터들을 그룹화함으로써 그리고/또는 추가로 대응하는 인코딩 특징들에 따라 그룹의 서브디스크립터들을 순서화함으로써 그리고/또는 추가로 그들 사이의 거리에 따라 그룹의 서브디스크립터들을 순서화함으로써 수행된다.
본 발명에 따른 인코딩 방법은 유리하게, 효율성, 계산 복잡성 및/또는 스케일가능 비트스트림들을 발생시키기 위해 필요한 정보의 양의 측면에서 종래기술의 인코딩 방법들보다 더 효율적이다.
본 발명의 추가의 특징들은, 본 서술의 통합 부분으로서 의도되는 첨부된 청구항들에서 설명된다.
앞서의 목적들은, 특히 병합된 도면들을 참조하여, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치의 다음의 상세한 설명으로부터 더 명백해질 것이며, 도면들에서:
- 도 1a 및 도 1b는 종래기술의 키포인트 디스크립터의 예를 도시하고;
- 도 2a 및 도 2b는 도 1의 키포인트 디스크립터의 그래디언트들의 히스토그램들 및 상기 그래디언트들의 히스토그램 중 하나와 관련된 빈 값들을 각각 도시하고;
- 도 3은 도 2의 그래디언트들의 히스토그램들에 적용될 예시적 변환들을 도시하고;
- 도 4a 내지 도 4e는 5개의 각각의 타겟 디스크립터 길이들에 대한 엘리먼트들의 예시적 세트들을 도시하고;
- 도 5는 도 4의 엘리먼트들의 세트들을 사용한 인코더의 동작을 예시하는 흐름도를 나타내고,
- 도 6은 본 발명에 따른 방법에 의해 사용되는 엘리먼트 활용 순서를 도시하고;
- 도 7은 도 6의 엘리먼트 활용 순서를 사용한 인코더의 동작을 예시하고;
- 도 8은 로컬 이미지 디스크립터의 구역 및 서브구역의 중심들을 도시하고;
- 도 9는 본 발명에 따른 방법의 제 1 실시예 또는 제 4 실시예에 따른 로컬 이미지 디스크립터의 서브디스크립터들의 제 1 그룹화를 도시하고;
- 도 12 및 도 14는 본 발명에 따른 방법의 제 1 실시예에 따른 로컬 이미지 디스크립터의 서브디스크립터들의 제 2 및 제 3 예시적 그룹화들을 각각 도시하고;
- 도 10, 도 13 및 도 15는 도 9, 도 12, 도 14 및 도 17의 그룹화들에 관한 제 1, 제 2 및 제 3 그룹-엘리먼트 활용 순서들을 각각 도시하고;
- 도 11은 본 발명에 따른 방법의 제 1, 제 2 또는 제 4 실시예에 따른 인코더의 동작을 예시하고;
- 도 16은 본 발명에 따른 방법의 제 1 실시예에 따른 제 4 예시적 그룹화를 도시하고;
- 도 17은 본 발명에 따른 방법의 제 2 및 제 3 실시예에 따른 로컬 이미지 디스크립터의 서브디스크립터들의 제 5 예시적 그룹화를 도시하고;
- 도 18은 본 발명에 따른 방법의 제 3 실시예에 따른, 도 17의 엘리먼트 활용 순서를 사용한 인코더의 동작을 예시하고;
- 도 19는 본 발명에 따른 방법의 제 4 실시예에 따른 인코더의 동작을 예시하고;
- 도 20은 본 발명에 따른 방법의 제 5 실시예에 따른 로컬 이미지 디스크립터의 서브디스크립터들의 예시적 그룹화를 도시하고;
- 도 21a 내지 도 21e는 도 20의 그룹화에 따른 엘리먼트들의 예시적 세트들을 도시하고;
- 도 22a 내지 도 22e는 그룹-엘리먼트 활용 세트들로 컨버팅될 때의 도 21a 내지 도 21e의 엘리먼트들의 세트들을 각각 도시하고;
- 도 23은 도 22a 내지 도 22e의 엘리먼트들의 컨버팅된 세트들을 제공하기 위한 디스크립터의 인코딩을 위한 인코더의 동작을 예시하고;
- 도 24는 본 발명에 따른 방법을 수행하기에 적절한 이미지 프로세싱 디바이스를 예시한다.
본 발명에 따르면, 상이한 디스크립터 길이들에 대한 엘리먼트 활용 세트들에 따라 인코딩하기보다는, 더 효율적인 인코더는 엘리먼트 활용 순서에 따라 동작하여 디스크립터를 생성할 수 있으며, 그 디스크립터의 엘리먼트들은 엘리먼트 활용 순서에 따라 순서화되고 그리고 그 디스크립터는 단순한 디스크립터 트렁케이션에 의해 더 낮은 디스크립터 길이들로 컨버팅될 수 있다. 도 6에 예시된 바와 같이, 이러한 엘리먼트 활용 순서는 112 바이트로 인코딩될 수 있는 128-엘리먼트 순서화 리스트의 형태를 취할 수 있고, 각각의 리스트 엔트리는 서브디스크립터 인덱스 및 엘리먼트 인덱스를 명시한다. 그러므로, 예컨대, 도 6은 엘리먼트 우선순위 리스트를 도시하고, 이에 의해, 엘리먼트 v 5,0에는 가장 높은 우선순위가 제공되고, 엘리먼트 v 9,0에는 제 2의 가장 높은 우선순위가 제공되는 등등이다. 그러므로, 이러한 엘리먼트 활용 순서 인코더는 리스트의 최상측 l 개의 엘리먼트들을 인코딩함으로써, 길이 l의 디스크립터를 생성할 수 있다.
도 7은 도 6의 엘리먼트 활용 순서를 사용한 이러한 인코더의 동작을 예시한다. 도 7의 인코더를 이용시, 디스크립터의 인코딩은 엘리먼트 활용 순서에서 최상측 우선순위(우선순위 1)를 가진 엘리먼트, 즉 서브디스크립터 v 5의 엘리먼트 v 0로 시작된다. 단계(S200)에서, 예컨대, 도 3의 변환 활용에 따라, 이러한 엘리먼트가 속하는 서브디스크립터에 따라 적절한 변환이 선택된다. 본원에서 설명되는 바와 같은 2개의 상이한 변환들에 따른 디스크립터 H로부터의 디스크립터 V의 계산은 단지 예시임이 유의되어야 한다. 상이한 실시예들에서, 디스크립터 H로부터의 디스크립터 V의 계산은 또한, 단일 변환에 따라, 예컨대, 단지 변환 A에 따라 또는 단지 변환 B에 따라 수행되어 단계(S200)를 불필요하게 하거나, 또는 2개보다 많은 수의 변환들에 따라 수행될 수 있다. 그 다음으로, 엘리먼트, 즉, v 5,0의 인코딩은 단계(S210)에서 발생된다. 그 다음으로, 단계(S220)에서, 디스크립터의 원하는 수의 l 개의 엘리먼트들이 아직 인코딩되지 않은 경우, 프로세싱은, 엘리먼트 활용 순서에서 다음번 가장 높은 우선순위를 가진 엘리먼트로 이동되고, 그렇지 않으면 프로세싱은 종료된다. 따라서, 단계(S220)는 얼마나 많은 엘리먼트들을 인코딩할지의 제어에 관한 것인 한편, 단계들(S200 및 S210)은 로컬 이미지 디스크립터의 실제 인코딩에 관한 것이다.
따라서, 도 7의 인코더는 도 6에서와 같은 엘리먼트 활용 순서를 사용하여 디스크립터들을 생성하며, 그 디스크립터들의 엘리먼트들은 엘리먼트 활용 순서에 따라 순서화되고 그리고 그 디스크립터는 단순한 디스크립터 트렁케이션에 의해, 즉, 디스크립터의 마지막 엘리먼트 활용 순서들을 제거함으로써 더 낮은 디스크립터 길이들로 컨버팅될 수 있고, 도 7의 인코더는 도 4에서와 같은 엘리먼트 활용 세트들을 사용하는 도 5의 인코더보다 더 유연하다.
디스크립터의 다수의 엘리먼트들 l은 가능하게는 이미지 레벨로, 디스크립터와 함께 저장/송신될 수 있다. 트랜스코딩, 디코딩 및 프로세싱의 목적들로, 디코더는 관련된 컴퓨터 비전 애플리케이션들의 목적들을 위해 프로세싱할 수 있을 엘리먼트 순서화를 또한 알아야 한다. 따라서, 엘리먼트 활용 순서는 영구적으로 고정되거나 또는 디스크립터들과 함께 저장/송신되어야 한다.
그러나, 실제로, 도 7의 인코더의 효율성은 개선될 수 있다. 이는, 도 6에 예시된 엘리먼트 활용 순서가 상당한 양의 리던던시를 포함하고 그리고 어느 정도까지는 발생시켜 사용하기가 비현실적이기 때문이다.
이에 대한 원인은, V의 128개의 엘리먼트들의 완전한 세트가, 단일 디스크립터의 엘리먼트들이 단일 우선순위 리스트에 따라 순서화될 수 있는 단일 디스크립터에 대응하는 것이 아니라, 16개의 상이한 8-엘리먼트 서브디스크립터들에 대응하며, 각각의 서브디스크립터는 특정 변환에 따라 그래디언트들의 상이한 히스토그램으로부터 추출되고, 그리고 그에 따라, 모든 서브디스크립터들 사이의 대응하는 엘리먼트들이 동일한 각도 분리로 빈들 사이의 관계를 캡쳐하기 때문이다.
따라서, 제한된 세트의 엘리먼트들을 이용하여 높은 인식 성능을 달성한다는 측면에서, 디스크립터는 균일한 엘리먼트 분포 ― 즉, 가능한 한 많은 서브디스크립터들로부터 엘리먼트(들)를 선택하는 것 ― 와 디스크립터 중심으로부터의 거리 ― 즉, 디스크립터 중심에 더 가까운 서브디스크립터들에 더 높은 우선순위를 제공하는 것 ― 사이에 밸런스를 유지할 필요가 있음이 확인되었다. 동시에, 디스크립터 중심에 대한 서브디스크립터들의 거리가 동일할 때, 상이한 서브디스크립터들로부터의 대응하는 엘리먼트들의 중요도가 거의 동일한 반면, 디스크립터 중심에 대한 서브디스크립터들의 거리가 감소됨에 따라, 상이한 서브디스크립터들로부터의 대응하는 엘리먼트들의 중요도가 증가됨이 또한 확인되었다.
이러한 맥락에서, 도 8에 예시된 바와 같이, 디스크립터 중심에 대한 서브디스크립터 v의 거리는, 서브디스크립터 v를 발생시키는 그래디언트들의 히스토그램 h에 대응하는 서브구역의 중심과 서브구역들을 포함하는 구역의 중심 사이의 거리를 나타낸다. 상기 거리들을 컴퓨팅하기 위해 이미지 구역 및 서브구역들의 디멘션(dimension)들을 다시 참조하는 것이 가능하지만, 이는 필요하지 않은데, 그 이유는 상기 거리들을 비교하는 데에만 관심이 있기 때문이다. 그러므로, 상기 거리들은, 예컨대, 유닛 길이를 가진 각각의 서브구역의 각각의 측을 추정함으로써 컴퓨팅될 수 있다. 게다가, 이러한 설명에서, 상기 거리들이 유클리드 거리(Euclidean distance)들이지만, 다른 적절한 거리 척도(distance measure)들이 또한 사용될 수 있다.
결과적으로, 이미지 디스크립터의 효율적인 인코딩의 목적들을 위해, 각각의 그룹의 서브디스크립터들에 대한 대응하는 디스크립터 엘리먼트들이 활용 순서에서 공통 중요도를 할당받고 그리고 공동으로 인코딩되도록, 이미지 디스크립터의 서브디스크립터들이 그룹화될 수 있음이 관찰된다.
제 1 실시예
본 발명의 제 1 실시예에서, 서브디스크립터들은 디스크립터 중심으로부터의 자신들의 거리에 따라 그룹화된다.
예컨대, 하나의 이러한 그룹화가 도 9에 예시되며, 도 9에는 3개의 그룹들, 즉, 디스크립터 중심에 대해 최대 거리를 가진 서브디스크립터들을 포함하는 g 0 = {v 0, v 3, v 12, v 15}, 디스크립터 중심에 대해 제 2 최대 거리를 가진 서브디스크립터들을 포함하는 g 1 = {v 1, v 2, v 4, v 7, v 8, v 11, v 13, v 14}, 및 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 g 2 = {v 5, v 6, v 9, v 10}이 존재한다. 각각의 그룹 내에서, 서브디스크립터들은 오름차순의 서브디스크립터 인덱스 순서(ascending subdescriptor index order)로 순서화되지만, 이는 제한적이 아니며, 다른 순서들이 사용될 수 있는데, 이를테면, 그룹의 최상측 최좌측 서브디스크립터부터 시작하여 시계방향의 순서가 사용될 수 있다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다.
이러한 그룹화에 기초하여, 도 10에 예시된 바와 같이, 그룹-엘리먼트 활용 순서가 발생될 수 있으며, 그 그룹-엘리먼트 활용 순서는 15 바이트로 인코딩될 수 있는 24-엘리먼트 순서화 리스트의 형태를 취할 수 있고, 각각의 리스트 엔트리는 서브디스크립터 그룹 및 엘리먼트 인덱스를 명시한다. 도 10의 그룹-엘리먼트 활용 순서는 단지 예시이며, 리스트의 엔트리들의 우선순위들을 변경함으로써, 상이한 그룹-엘리먼트 활용 순서들이 발생될 수 있음이 유의되어야 한다. 따라서, 도 10의 그룹-엘리먼트 활용 순서는, 길이 및 인코딩 크기의 측면에서, 도 6의 엘리먼트 활용 순서보다 훨씬 더 경제적이다. 그러므로, 예컨대, 도 10은 그룹-엘리먼트 우선순위 리스트를 도시하고, 이에 의해, 그룹 g 2의 엘리먼트 v 0에는 가장 높은 우선순위가 제공되어, 인코딩할 첫 번째 4개의 엘리먼트들이 v 5,0, v 6,0, v 9,0v 10,0임이 인코더에 명령되고, 그룹 g 1의 엘리먼트 v 0에는 제 2의 가장 높은 우선순위가 제공되어, 인코딩할 다음번 8개의 엘리먼트들이 v 1,0, v 2,0, v 4,0, v 7,0, v 8,0, v 11,0, v 13,0v 14,0임이 인코더에 명령되는 등등이다.
도 11은 도 10의 그룹-엘리먼트 활용 순서를 사용하고 그리고 상기 그룹-엘리먼트 활용 순서로 엘리먼트들의 최상측 m개의 그룹들을 인코딩하도록 구성되는 이러한 인코더의 동작을 예시한다. 도 11의 인코더를 이용시, 디스크립터의 인코딩은 그룹-엘리먼트 활용 순서에서 최상측 우선순위(우선순위 1)를 가진 엘리먼트들의 그룹, 즉, 서브디스크립터들 v 5, v 6, v 9, 및 v 10을 포함하는 그룹 g 2의 엘리먼트 v 0로 시작된다. 단계(S300)에서, 디스크립터의 인코딩은 그룹의 제 1 서브디스크립터, 즉, v 5에서 시작된다. 단계(S310)에서, 예컨대, 도 3의 변환 활용에 따라 서브디스크립터에 대한 적절한 변환이 선택된다. 본원에서 설명되는 바와 같은 2개의 상이한 변환들에 따른 디스크립터 H로부터의 디스크립터 V의 계산은 단지 예시임이 유의되어야 한다. 상이한 실시예들에서, 디스크립터 H로부터의 디스크립터 V의 계산은 또한, 단일 변환에 따라, 예컨대, 단지 변환 A에 따라 또는 단지 변환 B에 따라 수행되어, 단계(S310)를 불필요하게 하거나, 또는 2개보다 많은 수의 변환들에 따라 수행될 수 있다. 그 다음으로, 엘리먼트, 즉, v 5,0의 인코딩이 단계(S320)에서 발생된다. 단계(S330)에서, 현재의 서브디스크립터가 그룹의 마지막 서브디스크립터가 아닌 경우, 프로세싱은 다음번 서브디스크립터로 이동되고, 그렇지 않으면 프로세싱은 단계(S340)로 이동된다. 그 다음으로, 단계(S340)에서, 원하는 수의 m개의 그룹들의 엘리먼트들이 아직 인코딩되지 않은 경우, 프로세싱은 그룹-엘리먼트 활용 순서에서 다음번 가장 높은 우선순위를 가진 엘리먼트들의 그룹으로 이동되고, 그렇지 않으면 프로세싱은 종료된다. 따라서, 단계들(S300, S330 및 S340)은 프로세싱이 수행되는 순서 및 얼마나 많은 그룹들의 엘리먼트들을 인코딩할지의 제어에 관한 것인 한편, 단계들(S310 및 S320)은 로컬 이미지 디스크립터의 실제 인코딩에 관한 것이다.
디스크립터의 그룹들의 수 m 또는 대응하는 수의 엘리먼트들 l은 가능하게는 이미지 레벨로, 디스크립터와 함께 저장/송신될 수 있다.
도 10의 그룹-엘리먼트 활용 순서가 도 6의 엘리먼트 활용 순서보다 더 경제적이라는 사실은 더 효율적이고 경제적인 인코더를 초래한다. 게다가, 앞서 확인된 바와 같이, 트랜스코딩, 디코딩 및 프로세싱의 목적들로, 디코더는 또한, 관련된 컴퓨터 비전 애플리케이션들의 목적들을 위해, 디스크립터들을 프로세싱 및 비교할 수 있을 인코딩 프로세스 및 엘리먼트 활용 순서를 알아야 하며, 이는, 엘리먼트 활용 순서가 고정되거나 또는 디스크립터들과 함께 송신되어야 함을 의미한다. 제한된 세트의 엘리먼트들을 이용하여 높은 인식 성능을 달성하기 위해, 상이한 애플리케이션들은, 예컨대, 디스크립터 중심에 가장 가까운 서브디스크립터들에 더 높은 우선순위를 제공함으로써, 또는 특정 클래스의 엘리먼트에, 예컨대, v 2와 대조적으로 v 7에 더 높은 우선순위를 제공함으로써, 가능하게는 이미지 또는 서브-이미지_레벨에서 엘리먼트 활용 순서를 변경하는 것이 필요할 수 있다. 이러한 경우, 엘리먼트 활용 순서는 디스크립터들과 함께 저장 또는 송신되어야 한다. 낮은-비트레이트 디스크립터들이 통상적으로 크기가 수백 바이트임을 고려하면, 도 10의 그룹-엘리먼트 활용 순서는 도 6의 엘리먼트 활용 순서보다 훨씬 더 낮은 오버헤드를 나타낸다. 게다가, 서브디스크립터 그룹화는 고정되어 인코더 및 디코더 양쪽 모두에 알려질 수 있거나, 또는 디스크립터들과 함께 송신될 수 있다. 예컨대, 지금까지 고려된 그룹화에 대해, 그룹들의 수 및 각각의 그룹의 조성(composition)의 크기는 10 바이트 미만으로 인코딩될 수 있다.
본 발명의 제 1 실시예에 따른 다른 예로서, 상이한 그룹화가 도 12에 예시되며, 도 12에는 2개의 그룹들, 즉, 모든 주변 서브디스크립터들을 포함하는 g 0 = {v 0, v 1, v 2, v 3, v 4, v 7, v 8, v 11, v 12, v 13, v 14, v 15} 및 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들, 즉, 모든 중심 서브디스크립터들을 포함하는 g 1 = {v 5, v 6, v 9, v 10}이 존재한다. 따라서, 이러한 예를 이용시, 그룹 g 0은 디스크립터 중심에 대해 가변 거리들의, 그러나 그룹 g 0의 서브디스크립터들보다 중심으로부터 항상 더 멀리 있는 서브디스크립터들을 포함한다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다. 이러한 그룹화에 기초하여, 도 13에 예시된 바와 같이, 그룹-엘리먼트 활용 순서가 발생될 수 있고, 그 그룹-엘리먼트 활용 순서는 8 바이트로 인코딩될 수 있는 16-엘리먼트 순서화 리스트의 형태를 취할 수 있고, 각각의 리스트 엔트리는 서브디스크립터 그룹 및 엘리먼트 인덱스를 명시한다. 그 다음으로, 도 11의 인코더는, 도 13의 그룹-엘리먼트 활용 순서에 따라 디스크립터를 인코딩하기 위해 다시 사용될 수 있다. 도 13의 그룹-엘리먼트 활용 순서는 단지 예시이며, 리스트의 엔트리들의 우선순위들을 변경함으로써 상이한 그룹-엘리먼트 활용 순서들이 발생될 수 있음이 유의되어야 한다.
본 발명의 제 1 실시예에 따른 다른 예로서, 상이한 그룹화가 도 14에 예시되며, 도 14에는 4개의 그룹들, 즉, 디스크립터 중심에 대해 최대 거리를 가진 서브디스크립터들을 포함하는 g 0 = {v 0, v 3, v 12, v 15}, 디스크립터 중심에 대해 제 2 최대 거리를 가진 4개의 서브디스크립터들의 세트를 포함하는 g 1 = {v 1, v 2, v 4, v 7}, 디스크립터 중심에 대해 또한 제 2 최대 거리를 가진 4개의 상이한 서브디스크립터들의 세트를 포함하는 g 2 = {v 8, v 11, v 13, v 14}, 및 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 g 3 = {v 5, v 6, v 9, v 10}이 존재한다. 따라서, 이러한 예를 이용시, 그룹들 g 1g 2의 서브디스크립터들은 디스크립터의 중심으로부터 동일한 거리이다. 이러한 그룹화는, 도 9의 그룹화로부터 원래의 그룹 g 1을 새로운 그룹들 g 1g 2로 세분함으로써 획득된다. 이것의 이점은, 동일한 수의 서브디스크립터들을 가진 그룹들이 초래되는 것이고, 이는 최적화된 인코더 구현들에서 바람직하다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다. 이러한 그룹화에 기초하여, 도 15에 예시된 바와 같이, 그룹-엘리먼트 활용 순서가 발생될 수 있으며, 그 그룹-엘리먼트 활용 순서는 20 바이트로 인코딩될 수 있는 32-엘리먼트 순서화 리스트의 형태를 취할 수 있고, 각각의 리스트 엔트리는 서브디스크립터 그룹 및 엘리먼트 인덱스를 명시한다. 그 다음으로, 도 11의 인코더는 도 15의 그룹-엘리먼트 활용 순서에 따라 디스크립터를 인코딩하기 위해 다시 사용될 수 있다. 도 15의 그룹-엘리먼트 활용 순서는 단지 예시이며, 리스트의 엔트리들의 우선순위들을 변경함으로써 상이한 그룹-엘리먼트 활용 순서들이 발생될 수 있음이 유의되어야 한다.
명백하게, 도 14의 4개의 그룹들로의 그룹화는 고유하지 않다. 예컨대, 그룹들 g 0 = {v 0, v 3, v 12, v 15}, g 1 = {v 1, v 2, v 13, v 14}, g 2 = {v 4, v 7, v 8, v 11}, 및 g 3 = {v 5, v 6, v 9, v 10}을 포함하는 대안적인 그룹화가 도 16에 도시된다. 따라서, 도 16에서, 그룹들 g 0g 3은 도 14의 그룹들과 동일하지만, g 1g 2의 서브디스크립터들은 도 14와 비교하여 스와핑되어서, 그러한 2개의 그룹들 각각은 서브디스크립터 그리드의 상부-좌측, 상부-우측, 하부-좌측 및 하부-우측 부분으로부터의 하나의 서브디스크립터를 포함한다.
도 7의 인코더와 도 11의 인코더 사이의 하나의 차이는, 임의의 길이의 디스크립터들을 생성하는 도 7의 인코더와 달리, 도 11의 인코더는, 디스크립터들의 길이가 서브디스크립터 그룹들에 의해 결정된 세분성(granularity)을 가진 디스크립터들의 인코딩을 허용한다. 실제로, 도 11의 인코더는 나중에 증명될 바와 같이, 임의의 길이의 디스크립터들을 생성하도록 구성될 수 있다.
제 2 실시예
본 발명의 제 2 실시예에서, 서브디스크립터들은 첫 번째로, 중심으로부터의 자신들의 거리(제 1 조건)에 따라 그리고 두 번째로, 자신들의 상호간의 거리들(제 2 조건)에 따라 그룹화된다.
이러한 맥락에서, 서브디스크립터들 사이의 거리는 다시, 유클리드 거리 또는 다른 적절한 거리 척도들, 이를테면, 맨해턴 거리(Manhattan distance)의 형태를 취할 수 있다.
제 2 조건은 예컨대, 그룹이, 서로에 대한 거리가 미리 결정된 임계치 미만인 특정 서브디스크립터들을 포함하지 않아야 하는 것일 수 있다. 따라서, 미리 결정된 임계치는 예컨대, 이웃하는 서브디스크립터들을 그룹화하는 것을 방지하도록 설정될 수 있다.
2차 조건의 목표는, 상이한 그룹들의 서브디스크립터들이, 가능한 한 언제든, 서브디스크립터 그리드의 상대적으로 멀리 있는 포지션들로부터 인도되는 것을 보장하고, 이에 의해, 매우 낮은 수의 피쳐(feature)들의 디스크립터들의 정보 콘텐츠를 증가시키는 것이다. 2차 조건이 항상 충족되지는 않을 수 있음이 유의되어야 하는데, 이를테면, 모든 중심 서브디스크립터들 v 5, v 6, v 9, 및 v 10을 포함하는 그룹에 대해 2차 조건을 충족시키는 것은 가능하지 않다.
예컨대, 하나의 이러한 그룹화가 도 17에 예시되며, 도 17에는 4개의 그룹들, 즉, 디스크립터 중심에 대해 최대 거리를 가진 서브디스크립터들을 포함하는 g 0 = {v 0, v 3, v 12, v 15}, 디스크립터 중심에 대해 제 2 최대 거리를 가진 4개의 서브디스크립터들의 세트를 포함하는 g 1 = {v 1, v 7, v 8, v 14}, 디스크립터 중심에 대해 또한 제 2 최대 거리를 가진 4개의 상이한 서브디스크립터들의 세트를 포함하는 g 2 = {v 2, v 4, v 11, v 13}, 및 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 g 3 = {v 5, v 6, v 9, v 10}이 존재한다. 따라서, 이러한 예를 이용시, 그룹들 g 0, g 1g 2의 서브디스크립터들은, 이들이 어떠한 이웃하는 서브디스크립터들도 포함하지 않는다는 조건을 충족한다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다. 이러한 그룹화에 기초하여, 도 15에 예시된 것과 같은 그룹-엘리먼트 활용 순서가 발생될 수 있고, 그 다음으로, 도 11에 예시된 것과 같은 인코더가 도 15의 그룹-엘리먼트 활용 순서에 따라 디스크립터를 인코딩하기 위해 또한 사용될 수 있다.
명백하게, 서브디스크립터들 사이의 총 거리를 최대화하는 것 등과 같은, 그룹 내의 서브디스크립터들의 거리에 기초하는 대안적인 조건들이 또한 사용될 수 있다.
제 3 실시예
본 발명의 제 3 실시예에서, 서브디스크립터들은 중심으로부터의 자신들의 거리에 따라 그룹화되고 그리고 각각의 그룹의 서브디스크립터들은 자신들의 대응하는 인코딩 특징들, 이를테면, 자신들의 대응하는 변환들에 따라 정의된 시퀀스로 인코딩된다.
예컨대, 도 3의 변환 전개 패턴과 함께 본 발명의 제 2 실시예의 도 17의 그룹화를 고려하면, 각각의 그룹 내에서, 2개의 서브디스크립터들이 변환 A에 따라 변환되고 그리고 2개의 서브디스크립터들이 변환 B에 따라 변환되는 것이 확인될 수 있다. 그러므로, 각각의 그룹에 대해, 변환 활용 시퀀스가 "A A B B"이어야 하는 공통 인코딩 시퀀스 조건을 설정하는 것이 가능한데, 즉, 인코딩 시퀀스에 의해, 각각의 서브디스크립터 그룹에 대해, 그룹의 제 1 서브디스크립터의 변환이 변환 A이고, 그룹의 제 2 서브디스크립터의 변환이 또한 변환 A이고, 그룹의 제 3 서브디스크립터의 변환이 변환 B이고, 그리고 그룹의 제 4 서브디스크립터의 변환이 또한 변환 B인 인코딩 시퀀스를 설정하는 것이 가능하다. 따라서, 그룹들, 즉, 디스크립터 중심에 대해 최대 거리를 가진 서브디스크립터들을 포함하는 g 0 = {v 0, v 15, v 3, v 12}, 디스크립터 중심에 대해 제 2 최대 거리를 가진 4개의 서브디스크립터들의 세트를 포함하는 g 1 = {v 7, v 8, v 1, v 14}, 디스크립터 중심에 대해 또한 제 2 최대 거리를 가진 4개의 상이한 서브디스크립터들의 세트를 포함하는 g 2 = {v 2, v 13, v 4, v 11}, 및 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 g 3 = {v 5, v 10, v 6, v 9}가 존재한다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다. 게다가, 각각의 그룹 내에서, 그룹의 4개의 서브디스크립터들에 대한 변환 활용 정보는 항상 "A A B B"인데, 이는 효율적인 인코더 구현이 각각의 서브디스크립터의 적용가능한 변환을 식별할 필요가 없음을 의미한다.
도 18은 도 15의 그룹-엘리먼트 활용 순서를 사용하고 그리고 상기 그룹-엘리먼트 활용 순서로 엘리먼트들의 최상측 m개의 그룹들을 인코딩하도록 구성되는 이러한 인코더의 동작을 예시한다. 도 18의 인코더를 이용시, 디스크립터의 인코딩은 그룹-엘리먼트 활용 순서에서 최상측 우선순위(우선순위 1)를 가진 엘리먼트들의 그룹, 즉, 서브디스크립터들 v 5, v 10, v 6, 및 v 9를 포함하는 그룹 g 3의 엘리먼트 v 0로 시작된다. 단계(S400)에서, 디스크립터의 인코딩은 그룹의 제 1 서브디스크립터, 즉, v 5에서 시작된다. 모든 그룹들이 공통의 그리고 고정된 변환 활용 순서를 갖는 경우, 프로세싱은 단계(S410)로 이동되며, 단계(S410)에서 엘리먼트, 즉, v 5,0의 인코딩이 발생된다. 단계(S420)에서, 현재의 서브디스크립터가 그룹의 마지막 서브디스크립터가 아닌 경우, 프로세싱은 다음번 서브디스크립터로 이동되고, 그렇지 않으면 프로세싱은 단계(S430)로 이동된다. 그 다음으로, 단계(S430)에서, 원하는 수의 m 개의 그룹들의 엘리먼트들이 아직 인코딩되지 않은 경우, 프로세싱은 그룹-엘리먼트 활용 순서에서 다음번 최고 우선순위를 가진 엘리먼트들의 그룹으로 이동되고, 그렇지 않으면 프로세싱은 종료된다. 따라서, 단계들(S400, S420 및 S430)은 프로세싱이 수행되는 순서 및 얼마나 많은 그룹들의 엘리먼트들을 인코딩할지의 제어에 관한 것인 한편, 단계(S410)만이 로컬 이미지 디스크립터의 실제 인코딩에 관한 것이다.
위의 설명에서, 공통 인코딩 시퀀스 조건은 각각의 그룹 내에서 활용되는 변환들에 대해 정의되지만, 이러한 조건은 또한, 다른 인코딩 특징들, 이를테면, 양자화의 타입 및 레벨, 또는 이들의 조합들에 대해 정의될 수 있다.
명백하게, 요구되는 경우, 상이한 인코딩 시퀀스 조건들이 상이한 그룹들의 서브디스크립터들에 적용될 수 있다. 예컨대, 본 발명의 제 1 실시예에서, 도 9에 따른 그룹화는 3개의 그룹들, 즉, 디스크립터 중심에 대해 최대 거리를 가진 4개의 서브디스크립터들을 포함하는 g 0, 디스크립터 중심에 대해 제 2 최대 거리를 가진 8개의 서브디스크립터들을 포함하는 g 1, 및 디스크립터 중심에 대해 최소 거리를 가진 4개의 서브디스크립터들을 포함하는 g 2를 초래한다. 이러한 경우, 상이한 그룹 크기 때문에, 변환 활용 시퀀스가 "A A B B"이어야 하는 인코딩 시퀀스 조건이 그룹들 g 0g 2에 적용될 수 있고, 그리고 변환 활용 시퀀스가 "A A A A B B B B"이어야 하는 상이한 인코딩 시퀀스 조건이 그룹 g 1에 적용될 수 있다.
제 4 실시예
본 발명의 제 4 실시예에서, 서브디스크립터들은 중심으로부터의 자신들의 거리에 따라 그룹화되고 그리고 각각의 그룹의 서브디스크립터들은 자신들 사이에서의 자신들의 거리들에 따라 순서화된다.
순서화 조건은 예컨대, 그룹 내의 연이은 서브디스크립터들 사이의 거리가 미리 결정된 임계치 미만이 아니어야 하는 것일 수 있다. 따라서, 미리 결정된 임계치는 예컨대, 그룹 내의 연이은 이웃하는 서브디스크립터들을 방지하도록 설정될 수 있다.
상이한 순서화 조건은 예컨대, 그룹 내의 연이은 서브디스크립터들 사이의 거리가 최대화되는 것일 수 있다.
아래에 설명되는 바와 같이, 이러한 순서화는 특히, 큰 서브디스크립터 그룹들을 이용할 때, 그룹-엘리먼트 활용 순서의 크기, 및 부분 그룹 인코딩을 감소시키는데 유용하다. 이러한 타입의 순서화는 항상 가능한 것을 아닐 수 있는데, 예컨대, 모든 중심 서브디스크립터들 v 5, v 6, v 9, 및 v 10을 포함하는 그룹에 대해 연이은 이웃하는 디스크립터들을 갖지 않는 것은 가능하지 않음이 유의되어야 한다.
예컨대, 도 9에 예시된 그룹화를 고려하면, 각각의 그룹 내의 서브디스크립터들이 연이은 서브디스크립터들 사이의 거리를 최대화하도록 순서화되어서, 그룹 내에서 최저 인덱스를 가진 서브디스크립터로부터 시작하여, 그룹들, 즉, g 0 = {v 0, v 15, v 3, v 12}, g 1 = {v 1, v 14, v 2, v 13, v 7, v 8, v 11, v 4}, 및 g 2 = {v 5, v 10, v 6, v 9}가 초래될 수 있음이 확인될 수 있다. 각각의 그룹 내에서, 그룹의 서브디스크립터들의 대응하는 엘리먼트들 모두는 동일한 인코딩 우선순위를 할당받는다.
각각의 그룹 내의 서브디스크립터들의 이러한 그룹화 및 순서화에 기초하여, 도 10에 예시된 것과 같은 그룹-엘리먼트 활용 순서가 발생될 수 있고, 그리고 그 다음으로, 도 11에 예시된 것과 같은 인코더가 도 10의 그룹-엘리먼트 활용 순서에 따라 디스크립터를 인코딩하기 위해 또한 이용될 수 있다. 대안적으로, 도 19에 예시된 것과 같은 인코더가 이용될 수 있다.
더 구체적으로, 도 7의 인코더와 도 11 및 도 18의 인코더들 사이의 하나의 차이는, 임의의 길이의 디스크립터들을 생성하는 도 7의 인코더와 달리, 도 11 및 도 18의 인코더들은 디스크립터들의 길이가 서브디스크립터 그룹들에 의해 결정된 세분성을 갖는 디스크립터들의 인코딩을 허용한다. 그러나, 실제로는, 도 11 및 도 18의 인코더들 각각은, 원하는 디스크립터 길이에 도달될 때, 마지막 그룹의 엘리먼트들을 부분 인코딩함으로써 임의의 길이의 디스크립터들을 인코딩하도록 용이하게 구성될 수 있다. 이러한 맥락에서, 도 19는 도 11의 인코더의 이러한 수정을 도시한다. 본질적으로, 도 19의 인코더는 도 11의 인코더의 단계들(S330 및 S340)을 단순히 스와핑함으로써 획득되어서, 원하는 수의 엘리먼트들이 인코딩되자마자 도 19의 인코더가 그룹의 인코딩을 종결시키도록 허용한다. 명백하게, 유사한 수정이 또한 도 18의 인코더에 적용가능하다.
이러한 맥락에서, 그룹 내의 서브디스크립터들 사이의 거리들에 따른 그룹 내의 서브디스크립터들의 순서화가 매우 유리한데, 그 이유는, 이는 연이은 엘리먼트들이, 서브디스크립터 그리드의 상대적으로 멀리 있는 포지션들로부터 인도되는 것을 초래하기 때문이며, 이는 그룹의 부분 인코딩의 경우에서, 낮은 수의 피쳐들을 가진 디스크립터들의 정보 콘텐츠를 증가시킨다.
제 5 실시예
본 발명의 이전의 실시예들은, 디스크립터 중심으로부터의 자신들의 거리들 및/또는 서로에 대한 자신들의 거리들에 기초하여 서브디스크립터들을 서브디스크립터 그룹들로 그룹화하는 것으로부터 초래되는 그룹-엘리먼트 활용 순서에 따른 이미지 디스크립터들의 효율적인 인코딩을 증명한다.
본 발명의 대안적인 실시예에서, 그룹 내의 각각의 서브디스크립터가 그룹 내의 모든 다른 서브디스크립터들에 대해 동일한 엘리먼트 활용 세트를 갖도록, 서브디스크립터들이 그룹화될 수 있다.
예컨대, 도 20의 그룹화를 고려하면, 도 20에는 4개의 그룹들, 즉, g 0 = {v 5, v 6, v 9, v 10}, g 1 = {v 1, v 7, v 8, v 14}, g 2 = {v 2, v 4, v 11, v 13}, 및 g 3 = {v 0, v 3, v 12, v 15}가 존재한다. 이는 도 17에서와 동일한 그룹화이지만, 더 낮은 인덱스들을 가진 그룹들이 디스크립터 중심에 더 가까운 서브디스크립터들을 포함하도록 그룹 인덱스들이 재할당된다(즉, g 0g 3이 스와핑됨). 이러한 그룹화를 도 4a 내지 도 4e의 엘리먼트 활용 세트들과 조합하는 것은, 도 21a 내지 도 21e의 그룹-엘리먼트 활용 세트들을 초래한다.
각각의 디스크립터 길이에 대해 활용되는 엘리먼트들의 세트가 모든 더 높은 디스크립터 길이들에 대해 활용되는 엘리먼트들의 세트와 동일하거나 또는 그 세트의 서브세트이어야 하기 때문에, 도 21a 내지 도 21e의 그룹-엘리먼트 활용 세트들은 도 22a 내지 도 22e에 예시되는 바와 같은 증분적 그룹-엘리먼트 활용 세트들로 컨버팅될 수 있으며, 도 22a 내지 도 22e에서, 각각의 디스크립터 길이(예컨대, 도 22c의 DL2)에 대해, 대응하는 엘리먼트 활용 세트는, 바로 더 낮은 디스크립터 길이(예컨대, 도 22b의 DL1)와 비교하여 상기 디스크립터 길이의 디스크립터를 이루는 추가의 엘리먼트들만을 도시한다.
도 22a 내지 도 22e의 증분적 그룹-엘리먼트 활용 세트들에 기초하여, 인코더는 단순한 디스크립터 트렁케이션에 의해 더 낮은 디스크립터 길이들로 컨버팅될 수 있는 디스크립터들을 발생시킬 수 있다.
도 23은 길이 DLk의 디스크립터의 인코딩을 위한 이러한 인코더의 동작을 예시한다. 더 구체적으로, 단계(S600)에서, 프로세싱은 최저 디스크립터 길이, 즉, DL0의 디스크립터를 인코딩함으로써 시작된다. 단계(S610)에서, DL0 디스크립터의 인코딩은 제 1 서브디스크립터 그룹, 즉, g 0의 인코딩으로 시작되고, 그리고 단계(S620)에서 제 1 서브디스크립터 그룹의 인코딩은 제 1 엘리먼트, 즉, v 0의 인코딩으로 시작된다. 단계(S630)에서, 엘리먼트 v 0이 도 22의 증분적 그룹-엘리먼트 활용 세트들에 따라 디스크립터 길이 DL0에서 g 0에 대해 사용되지 않는 경우, 프로세싱은 단계(S680)로 이동되고, 그렇지 않으면 프로세싱은 단계(S640)로 이동된다. 단계(S640)에서, 그룹 g 0의 제 1 서브디스크립터, 즉, v 5가 선택되고, 그리고 단계(S650)에서 예컨대, 도 3에 따라 적절한 변환 함수가 선택된다. 본원에서 설명되는 바와 같은 2개의 상이한 변환들에 따른 디스크립터 H로부터의 디스크립터 V의 계산은 단지 예시임이 유의되어야 한다. 상이한 실시예들에서, 디스크립터 H로부터의 디스크립터 V의 계산은 또한, 단일 변환에 따라, 예컨대, 단지 변환 A에 따라 또는 단지 변환 B에 따라 수행되어 단계(S650)를 불필요하게 할 수 있거나, 또는 2개보다 많은 수의 변환들에 따라 수행될 수 있다. 그 다음으로, 단계(S660)에서, 엘리먼트 v 5,0의 인코딩이 발생된다. 단계(S670)에서, 현재의 서브디스크립터가 그룹의 마지막 서브디스크립터가 아닌 경우, 프로세싱은 그룹의 다음번 서브디스크립터로 이동되고, 그렇지 않으면 프로세싱은 단계(S680)로 이동된다. 단계(S680)에서, 현재의 엘리먼트가 마지막 엘리먼트, 즉, v 7이 아닌 경우, 프로세싱은 다음번 엘리먼트로 이동되고, 그렇지 않으면 프로세싱은 단계(S690)로 이동된다. 단계(S690)에서, 현재의 서브디스크립터 그룹이 마지막 서브디스크립터 그룹이 아닌 경우, 프로세싱은 다음번 서브디스크립터 그룹으로 이동되고, 그렇지 않으면 프로세싱은 단계(S695)로 이동된다. 단계(S695)에서, 현재의 서브디스크립터 길이가 타겟 서브디스크립터 길이가 아닌 경우, 프로세싱은 다음번 서브디스크립터 길이로 이동되어, 증분적 그룹-엘리먼트 활용 세트들에 의해 명시된 추가의 엘리먼트들을 인코딩한다. 그렇지 않으면, 프로세싱은 종료된다.
본 발명의 양상들 및 실시예들이 SIFT 이미지 디스크립터로부터의 강건하고, 차별적이고, 스케일가능하고 그리고 컴팩트한 이미지 디스크립터들의 계산에 대해 상세하게 제공되지만, 본 발명은, 아직 공개되지 않은 이탈리아 특허 출원 번호 제 TO2012A000602호에서 개요된 바와 같이, 그래디언트들의 히스토그램들에 기초하여 다른 이미지 디스크립터들에 적용가능하다.
단지 예로서, 도 24는 본 발명에 따른 방법을 수행하기 위한 개념적 이미지 프로세싱 장치를 예시한다. 더 구체적으로, 프로세싱 장치(1100)는, 시각적 데이터, 이를테면, 이미지 또는 비디오 데이터, 그래디언트들의 히스토그램들에 기초하여 사전-계산된 디스크립터들, 본 발명의 방법에 따라 사전-계산된 컴팩트 디스크립터들, 프로그래밍 명령들, 또는 사용자 입력을 포함할 수 있는 입력을 입력 장치(1000)로부터 수신하고, 입력 장치(1000)는 사용자 입력 장치, 미디어 판독기, 또는 송신되는 신호들의 수신기의 형태를 취할 수 있다. 프로세싱 장치(1100)는, 다른 프로세싱 블록들의 동작들을 제어하는 중앙 프로세싱 유닛(1110), 휘발성 메모리(1120), 비-휘발성 메모리(1130), 선택적으로, 그래디언트들의 히스토그램들에 기초하여 디스크립터들을 발생시키도록 구성된 디스크립터 추출기 블록(1140), 본 발명에 따른 방법을 수행하도록 구성된 컴팩트 디스크립터 인코더 블록(1150), 및 선택적으로, 상기 컴팩트 디스크립터들을 프로세싱하도록, 예컨대, 시각적 대응물들을 확립 또는 검증하도록 구성된 컴팩트 디스크립터 프로세서 블록(1160)의 메인 프로세싱 블록들을 포함한다. 프로세싱 장치(1100)는 출력 장치(1900)에 연결되며, 출력 장치(1900)는 시각적 디스플레이 유닛, 미디어 기록기, 또는 신호들의 송신기의 형태를 취할 수 있으며, 이는 주석이 달린 시각적 데이터, 이를테면, 이미지 또는 비디오 데이터, 프로세싱 정보, 이를테면, 확립된 또는 검증된 시각적 대응물들, 또는 본 발명의 방법에 따른 컴팩트 디스크립터들을 포함할 수 있는 출력을 제공한다. 도 24에 도시된 프로세싱 블록들 및 아키텍처들은 단지 개념적이며, 본 발명에 따른 방법을 구현하는 모든 각각의 장치에 정확하게 대응하지 않을 수 있음이 이해되어야 한다.
본원에서 예로서 설명되는 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치는, 본 발명의 개념의 신규한 사상으로부터 벗어남이 없이 많은 가능한 변형들을 겪을 수 있으며; 본 발명의 실제 구현에서, 예시된 상세들은 상이한 형상들을 가질 수 있거나 또는 다른 기술적으로 동등한 엘리먼트들로 대체될 수 있음이 또한 명백하다.
그러므로, 본 발명이, 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 방법 및 관련된 이미지 프로세싱 장치로 제한되는 것이 아니라, 다음의 청구항들에서 명백하게 명시되는 바와 같은 본 발명의 개념으로부터 벗어남이 없이 동등한 부분들 및 엘리먼트들의 많은 수정들, 개선들 또는 대체들을 겪을 수 있음이 용이하게 이해될 것이다.

Claims (22)

  1. 그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법으로서,
    상기 변환된 디스크립터(V)는 변환된 서브디스크립터들(v p)을 포함하고,
    각각의 그래디언트 히스토그램(h p)은 복수의 히스토그램 빈(histogram bin)들(h i )을 포함하고, 그리고
    각각의 서브디스크립터(v p)는 값들(v j )의 세트를 포함하고,
    상기 서브디스크립터들(v p)은 상기 서브디스크립터들(v p)의 세트의 서브디스크립터 인덱스(p) 및 상기 값들(v j )의 세트의 엘리먼트 인덱스(j)를 명시하는 엘리먼트 활용 순서 리스트에 따라 발생되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 서브디스크립터들(v p)은 이미지 디스크립터 중심으로부터의 자신들의 거리에 따라 서브디스크립터 그룹들로 그룹화되고, 그리고
    각각의 서브디스크립터 그룹 내에서, 서브디스크립터 그룹의 대응하는 값들(v j ) 모두는 상기 엘리먼트 활용 순서 리스트의 동일한 인코딩 우선순위를 할당받는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  3. 제 2 항에 있어서,
    상기 서브디스크립터들(v p)은, 상기 이미지 디스크립터 중심에 대해 최소 거리를 가진 모든 서브디스크립터들을 포함하는 제 1 그룹 및 모든 나머지 서브디스크립터들을 포함하는 제 2 그룹으로 그룹화되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  4. 제 2 항에 있어서,
    상기 서브디스크립터들(v p)은, 상기 디스크립터 중심으로부터 최대 거리를 가진 서브디스크립터들을 포함하는 제 1 그룹, 상기 디스크립터 중심에 대해 제 2 최대 거리를 가진 서브디스크립터들의 제 1 세트를 포함하는 제 2 그룹, 상기 디스크립터 중심에 대해 제 2 최대 거리를 가진 서브디스크립터들의 제 2 세트를 포함하는 제 3 그룹, 및 상기 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 제 4 그룹으로 그룹화되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  5. 제 4 항에 있어서,
    상기 제 1, 제 2, 제 3, 및 제 4 그룹은 동일한 수의 서브디스크립터들을 포함하는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  6. 제 1 항에 있어서,
    상기 서브디스크립터들(v p)은, 이미지 디스크립터 중심으로부터의 자신들의 거리에 따라 그리고 자신들 상호간의 거리들에 따라 서브디스크립터 그룹들로 그룹화되고, 그리고
    각각의 서브디스크립터 그룹 내에서, 서브디스크립터 그룹의 대응하는 값들(v j ) 모두는 상기 엘리먼트 활용 순서 리스트의 동일한 인코딩 우선순위를 할당받는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  7. 제 6 항에 있어서,
    상기 서브디스크립터들(v p)은, 상기 디스크립터 중심으로부터 최대 거리를 가진 서브디스크립터들을 포함하는 제 1 그룹, 상기 디스크립터 중심에 대해 제 2 최대 거리를 가진 서브디스크립터들의 제 1 세트를 포함하는 제 2 그룹, 상기 디스크립터 중심에 대해 제 2 최대 거리를 가진 서브디스크립터들의 제 2 세트를 포함하는 제 3 그룹, 및 상기 디스크립터 중심에 대해 최소 거리를 가진 서브디스크립터들을 포함하는 제 4 그룹으로 그룹화되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  8. 제 6 항에 있어서,
    서브디스크립터 그룹은, 서로에 대한 자신의 거리가 미리 결정된 임계치 미만인 서브디스크립터들을 포함하지 않는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  9. 제 6 항에 있어서,
    상기 상호간의 거리들은 서브디스크립터들 사이의 총 거리를 최대화하는 것을 포함하는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  10. 제 1 항에 있어서,
    상기 서브디스크립터들(v p)은 이미지 디스크립터 중심으로부터의 자신들의 거리에 따라 서브디스크립터 그룹들로 그룹화되고 그리고 자신들의 상호간의 거리들에 따라 순서화되고, 그리고
    각각의 서브디스크립터 그룹 내에서, 서브디스크립터 그룹의 대응하는 값들(v j ) 모두는 상기 엘리먼트 활용 순서 리스트의 동일한 인코딩 우선순위를 할당받는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  11. 제 10 항에 있어서,
    서브디스크립터 그룹은, 자신의 거리가 미리 결정된 임계치 미만인 연이은 서브디스크립터들을 포함하지 않는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  12. 제 10 항에 있어서,
    상기 상호간의 거리들은 연이은 서브디스크립터들 사이의 거리를 최대화하는 것을 포함하는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  13. 제 1 항에 있어서,
    상기 서브디스크립터들(v p)은, 이미지 디스크립터 중심으로부터의 자신들의 거리에 따라 서브디스크립터 그룹들로 그룹화되고, 그리고
    각각의 그룹의 서브디스크립터들은 자신들의 대응하는 인코딩 특징들에 따라 정의된 시퀀스로 인코딩되고, 그리고
    각각의 서브디스크립터 그룹 내에서, 서브디스크립터 그룹의 대응하는 값들(v j ) 모두는 상기 엘리먼트 활용 순서 리스트의 동일한 인코딩 우선순위를 할당받는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  14. 제 13 항에 있어서,
    상기 인코딩 특징들은 대응하는 변환들인,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  15. 제 14 항에 있어서,
    각각의 서브디스크립터 그룹에 대해, 그룹의 제 1 서브디스크립터의 변환은 제 1 타입의 변환(A)이고, 그룹의 제 2 서브디스크립터의 변환은 상기 제 1 타입의 변환(A)이고, 그룹의 제 3 서브디스크립터의 변환은 제 2 타입의 변환(B)이고, 그리고 그룹의 제 4 서브디스크립터의 변환은 상기 제 2 타입의 변환(B)인,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  16. 제 13 항에 있어서,
    상기 인코딩 특징들은 양자화의 타입 및 레벨 또는 이들의 조합들인,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  17. 제 2 항에 있어서,
    특정 클래스의 값들에 더 높은 우선순위가 제공되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  18. 제 2 항에 있어서,
    상기 디스크립터 중심에 가장 가까운 서브디스크립터 그룹들에 더 높은 우선순위가 제공되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  19. 제 2 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 엘리먼트 활용 리스트는 상기 이미지 디스크립터와 함께 저장되거나 또는 송신되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  20. 제 1 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 이미지 디스크립터는, 상기 디스크립터의 하나 또는 그 초과의 마지막 엘리먼트들을 트렁케이팅(truncating)함으로써 감소된 길이를 가진 디스크립터로 컨버팅되는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  21. 제 1 항에 있어서,
    상기 엘리먼트 활용 순서는 16 또는 24 또는 32 또는 128-엘리먼트 순서화 리스트의 형태를 취하는,
    그래디언트 히스토그램들(h p)에 기초하여 이미지 디스크립터(H)를 변환된 디스크립터(V)로 인코딩하기 위한 방법.
  22. 제 1 항 내지 제 21 항 중 어느 한 항에 따른 방법을 수행하기 위한 수단을 포함하는 이미지 프로세싱 장치.
KR1020167004414A 2013-07-24 2014-07-16 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 이미지 프로세싱 장치 및 방법 KR102175697B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT000629A ITTO20130629A1 (it) 2013-07-24 2013-07-24 Method for encoding an image descriptor based on a gradient histogram and relative image processing apparatus
ITTO2013A000629 2013-07-24
PCT/IB2014/063158 WO2015011612A1 (en) 2013-07-24 2014-07-16 Image processing apparatus and method for encoding an image descriptor based on a gradient histogram

Publications (2)

Publication Number Publication Date
KR20160034990A true KR20160034990A (ko) 2016-03-30
KR102175697B1 KR102175697B1 (ko) 2020-11-09

Family

ID=49226413

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167004414A KR102175697B1 (ko) 2013-07-24 2014-07-16 그래디언트 히스토그램에 기초하여 이미지 디스크립터를 인코딩하기 위한 이미지 프로세싱 장치 및 방법

Country Status (16)

Country Link
US (1) US9779320B2 (ko)
EP (2) EP3025274B1 (ko)
JP (2) JP6514200B2 (ko)
KR (1) KR102175697B1 (ko)
CN (3) CN110298367A (ko)
AR (1) AR097052A1 (ko)
BR (1) BR112016001479B1 (ko)
DK (1) DK3025274T3 (ko)
ES (1) ES2776196T3 (ko)
HU (1) HUE048315T2 (ko)
IT (1) ITTO20130629A1 (ko)
PL (1) PL3025274T3 (ko)
PT (1) PT3025274T (ko)
RU (3) RU2678668C2 (ko)
TW (1) TWI576770B (ko)
WO (1) WO2015011612A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210136597A (ko) * 2020-05-08 2021-11-17 한국기술교육대학교 산학협력단 부품의 3차원 모델 분류 방법, 이를 위한 컴퓨터 프로그램 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO20130629A1 (it) * 2013-07-24 2015-01-25 Sisvel Technology Srl Method for encoding an image descriptor based on a gradient histogram and relative image processing apparatus
US10360721B2 (en) * 2016-05-26 2019-07-23 Mediatek Inc. Method and apparatus for signaling region of interests
CN111931794B (zh) * 2020-09-16 2021-03-09 中山大学深圳研究院 一种基于草图的图像匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066582A (ko) * 2001-05-11 2003-08-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 순환적 히스토그램 벡터 발생과 매칭하는 팔레트-기초히스토그램
WO2013073621A1 (ja) * 2011-11-18 2013-05-23 日本電気株式会社 局所特徴量抽出装置、局所特徴量抽出方法、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2418555A (en) * 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
WO2009085336A1 (en) * 2007-12-27 2009-07-09 Inc. Arbor Labs System and method for advertisement delivery optimization
US8054170B1 (en) * 2008-09-30 2011-11-08 Adobe Systems Incorporated Characterizing and representing images
US20120265768A1 (en) * 2008-10-08 2012-10-18 Mitsubishi Electric Corporation Encoding and decoding method and apparatus for multimedia signatures
KR101323439B1 (ko) * 2008-11-12 2013-10-29 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티 특징 디스크립터를 표현하고 식별하는 방법, 장치 및 컴퓨터 판독가능 저장 매체
US8582802B2 (en) * 2009-10-09 2013-11-12 Edgenet, Inc. Automatic method to generate product attributes based solely on product images
RU2427911C1 (ru) * 2010-02-05 2011-08-27 Фирма "С1 Ко., Лтд." Способ обнаружения лиц на изображении с применением каскада классификаторов
PT3244612T (pt) * 2010-04-13 2018-11-14 Ge Video Compression Llc Codificação de mapas de significância e blocos de coeficientes de transformada
CN101894261B (zh) * 2010-06-29 2012-05-02 武汉大学 一种多对比度模式直方图纹理描述子提取方法
US8428397B1 (en) * 2010-08-26 2013-04-23 Adobe Systems Incorporated Systems and methods for large scale, high-dimensional searches
TW201222288A (en) * 2010-11-22 2012-06-01 Inst Information Industry Image retrieving system and method and computer program product thereof
US8593452B2 (en) * 2011-12-20 2013-11-26 Apple Inc. Face feature vector construction
WO2013102503A1 (en) * 2012-01-02 2013-07-11 Telecom Italia S.P.A. Method and system for image analysis
US9442959B2 (en) * 2012-06-28 2016-09-13 Adobe Systems Incorporated Image search refinement using facets
ITTO20120602A1 (it) 2012-07-09 2014-01-10 Sisvel Technology Srl Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus.
ITTO20130629A1 (it) * 2013-07-24 2015-01-25 Sisvel Technology Srl Method for encoding an image descriptor based on a gradient histogram and relative image processing apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066582A (ko) * 2001-05-11 2003-08-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 순환적 히스토그램 벡터 발생과 매칭하는 팔레트-기초히스토그램
WO2013073621A1 (ja) * 2011-11-18 2013-05-23 日本電気株式会社 局所特徴量抽出装置、局所特徴量抽出方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210136597A (ko) * 2020-05-08 2021-11-17 한국기술교육대학교 산학협력단 부품의 3차원 모델 분류 방법, 이를 위한 컴퓨터 프로그램 및 장치

Also Published As

Publication number Publication date
TWI576770B (zh) 2017-04-01
RU2678668C2 (ru) 2019-01-30
TW201514865A (zh) 2015-04-16
EP3633547A1 (en) 2020-04-08
JP2019135667A (ja) 2019-08-15
ES2776196T3 (es) 2020-07-29
RU2019101654A3 (ko) 2019-07-17
RU2698765C2 (ru) 2019-08-29
KR102175697B1 (ko) 2020-11-09
WO2015011612A1 (en) 2015-01-29
CN105493106A (zh) 2016-04-13
RU2016105699A (ru) 2017-08-29
CN110298367A (zh) 2019-10-01
PL3025274T3 (pl) 2020-06-15
BR112016001479B1 (pt) 2022-07-19
RU2016105699A3 (ko) 2018-06-15
HUE048315T2 (hu) 2020-07-28
CN110365979A (zh) 2019-10-22
JP6514200B2 (ja) 2019-05-15
DK3025274T3 (da) 2020-02-24
RU2019125322A (ru) 2021-02-09
BR112016001479A2 (ko) 2017-07-25
RU2019101654A (ru) 2019-03-11
PT3025274T (pt) 2020-02-21
CN105493106B (zh) 2019-09-10
EP3025274A1 (en) 2016-06-01
EP3025274B1 (en) 2020-01-08
JP6745939B2 (ja) 2020-08-26
AR097052A1 (es) 2016-02-17
JP2016525752A (ja) 2016-08-25
US20160162749A1 (en) 2016-06-09
ITTO20130629A1 (it) 2015-01-25
US9779320B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
JP6745939B2 (ja) 勾配ヒストグラムに基づいて画像記述子を符号化する方法および関連する画像処理装置
KR102076782B1 (ko) 적중률이 높은 mpm을 통한 영상의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
CN102098508B (zh) 多媒体签名的编码和解码
CN101212685B (zh) 对图像进行编码/解码的方法和设备
CN103797803A (zh) 用于熵编码/解码的方法和设备
JP6292454B2 (ja) 勾配ヒストグラムに基づいて画像記述子を変換する方法および関連する画像処理装置
CN103155554A (zh) 通过基于图像内容搜索和分级在视频压缩中对至参考块的链接进行编码
CN104380750A (zh) 用于确定图像的参考画面集的方法和设备
CN100370828C (zh) 用于将参数值映像到码字索引的自适应方法和系统
CN106537914B (zh) 通过限制的进位运算来执行算术编译的方法和设备
CN100530977C (zh) 对数据进行编码和译码的方法和装置
CN1806445A (zh) 编码装置、编码方法和码本
CN100459460C (zh) 对数据进行编码和译码的方法和装置
JP2765268B2 (ja) 高能率符号化方法と高能率符号の復号方法
CN117501632A (zh) 使用节点信息更新神经网络参数的解码器、编码器、控制器、方法及计算机程序
JP6195365B2 (ja) ベクトル符号化プログラム、装置及び方法
KR101009740B1 (ko) 율-왜곡 최적화된 모드 결정 알고리즘의 효율적인 구현을 위한 비트율 추정 장치 및 방법
KR101694399B1 (ko) 적응적 부호화 패턴 정보를 생성/이용하는 동영상 부호화/복호화 방법, 장치 및 기록 매체
JP5739714B2 (ja) 符号化装置、復号装置及びプログラム
WO2023106120A1 (ja) 情報処理装置および方法
WO2024079983A1 (ja) メッシュ復号装置、メッシュ復号方法及びプログラム
JPS6340507B2 (ko)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant