KR20150031333A - 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치 - Google Patents

그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치 Download PDF

Info

Publication number
KR20150031333A
KR20150031333A KR1020157003489A KR20157003489A KR20150031333A KR 20150031333 A KR20150031333 A KR 20150031333A KR 1020157003489 A KR1020157003489 A KR 1020157003489A KR 20157003489 A KR20157003489 A KR 20157003489A KR 20150031333 A KR20150031333 A KR 20150031333A
Authority
KR
South Korea
Prior art keywords
histogram
rti
gradient
transformed
descriptor
Prior art date
Application number
KR1020157003489A
Other languages
English (en)
Other versions
KR102193177B1 (ko
Inventor
스타브로스 파스칼라키스
미로슬로우 보버
Original Assignee
시스벨 테크놀로지 에스.알.엘.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시스벨 테크놀로지 에스.알.엘. filed Critical 시스벨 테크놀로지 에스.알.엘.
Publication of KR20150031333A publication Critical patent/KR20150031333A/ko
Application granted granted Critical
Publication of KR102193177B1 publication Critical patent/KR102193177B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

복수의 히스토그램 빈들(histogram bins)(hi)을 포함하는 그라디언트 히스토그램(gradient histogram)(h)에 기초하여, 이미지 기술자를, 값들(vj)의 세트를 포함하는 변환된 그라디언트 히스토그램 기술자(v)로 변환(transforming)하기 위한 방법이 설명되며, 상기 값들(vj)의 세트를 계산하기 위해 적어도 하나의 기준(criterium)을 적용하는 단계가 제공되며, 상기 적어도 하나의 기준은 상기 히스토그램 빈들(hi)의 위치 기준을 포함한다. 본 발명은 또한 방법을 수행하기에 적합한 이미지 프로세싱 디바이스에 관한 것이다.

Description

그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치{METHOD FOR TRANSFORMING AN IMAGE DESCRIPTOR BASED ON A GRADIENT HISTOGRAM AND RELATIVE IMAGE PROCESSING APPARATUS}
본 발명은 강건(robust)하고, 차별적이고, 스케일러블(scalable)하고 간결한 이미지 기술자들(image descriptors)의 계산에 관한 것이다.
보다 구체적으로, 본 발명은 로컬 영역들 내의 서브영역(subregion)들의 그라디언트(gradient)들의 히스토그램들(histograms)을 계산함으로써 이미지 관심 지점들 주위의 상기 로컬 영역들에서 계산되는 이미지 기술자들에 관한 것이다.
이미지 기술자들은 몇 개만 말하자면, 객체 인식, 콘텐츠-기반 이미지 리트리브, 및 이미지 등록을 포함하는 다수의 컴퓨터 비전 애플리케이션들에서 넓은 응용성을 발견하였다. 이러한 부류의 이미지 기술자들 중 가장 널리 알려진 예들 중 하나는 SIFT(Scale Invariant Feature Transform) 기술자이다.
간략히, SIFT 방법에 있어서, 로컬 이미지 기술자들은 다음과 같이 형성되는데, 우선, 다수의 이미지 스케일들 및 위치들에 걸친 검색은 스케일 및 배향에 대해 불변인 안정된 이미지 키포인트들을 식별 및 로컬화하도록 수행되고; 이어서 각각의 키포인트에 대해, 하나 또는 그 초과의 지배적인 배향들이 로컬 이미지 그라디언트들에 기초하여 결정되어, 후속 로컬 기술자 계산이 각각의 키포인트의 할당된 배향, 스케일 및 크기에 대해 수행되도록 허용되며, 이에 따라 이들 변환들(transformations)에 대한 불변성을 달성한다.
이어서, 키포인트 주위의 로컬 이미지 기술자들은 다음과 같이 형성되는데, 우선, 그라디언트 크기 및 배향 정보가 키포인트 주위의 영역의 이미지 샘플 지점들에서 계산되고; 이어서 이들 샘플들은 nxn 서브영역들 상의 콘텐츠들을 요약하는 배향 히스토그램들로 누적된다.
단지 예시로서, 키포인트 기술자의 예는 도 1a 및 도 1b에서 도시되며, 여기서 도 1a는 4x4 서브영역들(SR)로의 로컬 영역(R)의 세분을 도시하고, 도 1b는 각각의 배향 히스토그램(h)에 대한 8개의 빈들(h)로 360도 범위의 배향들의 세분을 도시하며, 각각의 화살표의 길이는 그 히스토그램 엔트리의 크기에 대응한다.
따라서, 도 1a에서 예시된 로컬 이미지 기술자는 4x4x8=128 엘리먼트들을 갖는다. SIFT 방법은 David G.Lowe의 "Distinctive image features from scale-invariant keypoints"(International Journal of Computer Vision, 60, 2(2004), 91-110쪽)에서 더 상세히 제시된다.
안정된 이미지 키포인트들의 검출을 위한 상이한 매커니즘들, 키포인트들 주위의 로컬 영역으로의 세분에 대한 상이한 접근법 및 서브영역 그라디언트 히스토그램의 계산에 대한 상이한 접근법을 이용하는 다수의 SIFT 방법의 대안들 및 변동들이 존재한다.
예를 들어, 도 2a 및 도 2b는 SIFT 방법에서 이용되는 데카르트 공간 세분(Cartesian spatial subdivision)에 대한 대안으로서, K.Mikolajczyk 및 C.Schmid의 "A performance evaluation of local descriptors"(IEEE Transactions of Pattern Analysis and Machine Intelligence 27(10):1615-1630)에서 설명된 GLOH(Gradient Location Orientation Histogram) 및 Chandrasekhar 등의 "Compressed Histogram of Gradients: A Low-Bitrate Descriptor"(International Journal on Computer Vision, Vol.94, No.5, 2011, 5월)에서 설명된 UHoG(Uncompressed Histogram of Gradients)와 같은 다른 기법들의 로그-폴라 공간 세분 특성을 각각 도시한다.
다른 예로서, 도 3은 SIFT 방법에서 이용되는, 빈들로의 360도 범위의 그라디언트 배향들의 세분에 대한 대안으로서, UHoG의 특성인, 빈들로의 그라디언트들의 x 및 y 컴포넌트들의 2-차원 공간의 세분에 기초하여 그라디언트 히스토그램들의 계산에 대한 접근법들을 도시한다.
위에서 언급된 종래 기술의 기법들은 이미지 기술자들을 생성하는 기법들의 예로서만 단지 여기서 고려되며, 이 이미지 기술자들에 기초하여 본 발명은 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산을 수행한다.
이러한 이미지 기술자들은 앞서 논의된 바와 같이 다수의 컴퓨터 비전 애플리케이션들에서 넓은 응용성을 발견하였지만, 그의 바이트의 크기들에 의해 정의되는 바와 같은 그의 저장 및 전송 비용들은 공통적으로, 특정한 애플리케이션 지역들에서 높은 것으로 간주된다. 이는, 이미지 내의 키포인트에 대한 로컬 이미지 기술자의 크기가 상대적으로 낮을 수 있을지라도, 전체 이미지 기술자는 수백 개의 이러한 키포인트들 및 연관된 로컬 기술자들을 포함할 것이기 때문이며, 이는 전체 이미지 기술자가, 그것이 추출된 실제 이미지의 JPEG 압축 버전에 비견 가능한 크기를 가질 수 있다는 것을 의미한다.
기술자 크기의 레벨이 문제가 있는 것으로 고려되는 하나의 이러한 애플리케이션 지역은 모바일 단말들을 이용한 비주얼 검색이다. 상이한 아키텍처들이 이 애플리케이션 지역에서 실용적이지만, 하나의 통상적인 아키텍처는 모바일 전화와 같은 모바일 단말 클라이언트에 의한 관심의 객체의 이미지의 캡처, 클라이언트에 의한 이미지 기술자의 자동 추출, 이미지 기술자를 프로세싱하고 적절한 응답(이를 테면, 관심의 객체에 대한 아이덴티티 또는 부가적인 정보)을 제공할 서버로 무선 통신 네트워크를 통한 이미지 기술자의 전송, 클라이언트로의 상기 응답의 리턴을 수반한다. 따라서, 무선 네트워크를 통해 클라이언트로부터 서버로 전송된 정보의 양의 최소화가 바람직하다는 것이 명백하다. 이러한 애플리케이션들의 이익을 위해, 이러한 이미지 기술자들의 압축에 있어 상당한 양의 개발이 되어왔다.
키포인트 기술자에 기초하여 그라디언트의 히스토그램을 압축하는 것에 관한 가장 단순한 접근법은 히스토그램 빈 값들의 스칼라 양자화(scalar quantisation)에 의한 것이며, 이는 각각의 빈 값의 표현에 개별적으로 이용되는 비트들의 수를 감소시키는 것을 의미한다. 실제로, 이러한 접근법은 기술자의 차별적 파워를 상당히 위험하게 함(compromising) 없이, 매우 높은 압축 레이트를 달성하는 것이 어렵기 때문에, 일반적으로 이용되진 않는다. 예를 들어, 빈 당 8개의 비트들을 갖는 SIFT 기술자 히스토그램 빈들의 인코딩이 일반적으로 이용되지만, 이미지 기술자들을 초래하며, 이 이미지 기술자들의 바이트들의 크기는 일반적으로 무선 네트워크들 상의 전송에 대해 너무 큰 것으로 고려된다. 한편, 빈 당 단지 소수, 예를 들어, 단지 하나 또는 2개의 비트들에 대한 스칼라 양자화는 이미지 기술자의 차별적 파워를 위험하게 하는 것으로 발견되었다.
그러므로 보다 복잡한 압축 방식이 제안되었다. 이러한 방식들의 리뷰는 V.Chandrasekhar 등에 의한 "Survey of SIFT compression schemes"(Proceedings of International Conference on Pattern Recognition (ICPR), 이스탄불, 터키, 2010년 8월)에서 제시된다.
간략히, 벡터 양자화를 위주로 다루는 방식들(그에 의해, 빈 값들을 유한개의 대표적 벡터 중심(centroid) 중 하나에 맵핑함으로써 빈 값들이 공동으로 양자화됨)은 특히 인기가 있고, 트리-구조 및 프러덕트(product) 벡터 양자화와 같은 다양한 형태들로 조사되었다. 이러한 접근법들의 단점은, 이들이 비교적 높은 계산 복잡도 및 중심들의 저장을 위해 수백 킬로바이트 내지 수 메가바이트 또는 그 초과의 꽤 상당한 메모리 요건들을 수반한다는 것이며, 중심들의 수는 수천 내지 수백만개의 범위에 있을 수 있고, 그의 결정은 또한 계산적으로 복잡한 트레이닝 단계를 요구한다.
타입 코딩을 위주로 다루는 방식들은 또한, 철저히 조사되었고, 그에 의해, 빈 값들은, 모든 가능한 입력 벡터들을 포함하는 공간 내의 균일한 격자 타입들을 형성함으로써 그리고 임의의 주어진 입력 벡터에 대해, 그것에 가장 근접한 타입의 인덱스로 그것을 인코딩함으로써 재차 공동으로 양자화된다. 이러한 접근법들의 메모리 요건들은 벡터 양자화 접근법에 비해 감소되지만, 그것은 또한, 결과적인 압축 기술자들이 높은 압축 레이트들에서의 인식 성능의 견지들에서, 벡터 양자화된 기술자들에 도저히 비교되지 않는다는 것이 또한 발견되었다. 전체적으로, 타입 코딩과 연관되는 계산 비용들은 단순한 스칼라 양자화에 대한 것보다 상당히 더 높다.
다른 압축 방식들은 키포인트 기술자들, 예를 들어, 128-차원적 SIFT 키포인트 기술자들 상에서 PCA와 같은 알려진 차원성(dimensionality) 감소 방법들을 활용하고, 이어서 결과적인 차원들의 스칼라 양자화가 이어진다. 이러한 접근법들에 있어서의 핵심적인 문제는, 이들이 높은 계산 복잡도 및 오버트레이닝(overtraining)의 높은 위험을 수반한다는 것이다.
요약해서, 그라디언트 기반 기술자들의 히스토그램의 압축 및 강건하고, 차별적이고, 스케일러블하며 간결한 이미지 기술자들의 생성에 대한 기존의 접근법들은 특정한 단점들을 나타낸다.
기술자 엘리먼트들의 스칼라 양자화와 같은 단순한 접근법은 매우 낮은 계산 복잡도 및 메모리 요건들의 이익을 갖지만, 높은 압축 레이트에서의 기술자들의 차별적 파워를 위험하게 하는 것으로 발견되었다.
보다 복잡한 접근법들은 높은 압축 레이트에서 더 양호한 성능을 달성하는 것으로 보이지만, 상이한 단점들을 겪는다. 벡터 양자화 접근법들은 계산 복잡도 및 메모리 요건들을 상당히 증가시킨다. 타입 코딩 접근법은 증가된 복잡도를 수반하고, 벡터 양자화 접근법의 메모리 요건에 의한 부담은 갖지 않지만, 이러한 접근법에 비해 성능이 떨어지는(underperform) 것으로 또한 발견된다. 또한, 벡터 양자화 또는 타입 코딩 접근법들 어느 것도 압축된 도메인에서 차원성 감소에 매우 적합하진 않다. PCA와 같은 알려진 차원성 감소 기법들에 기초한 접근법들이 또한 이용되지만, 높은 계산 복잡도 및 오버트레이닝의 높은 위험을 또한 겪는다.
그러므로, 본 발명의 목적은 이미지 기술자의 크기를 감소시키도록 허용하는, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.
본 발명의 추가의 목적은 특히, 모바일 단말 애플리케이션들에서 무선 네트워크를 통한 이미지 기술자의 저장 및 전송의 비용들을 감소시키도록 허용하기 위해, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.
본 발명의 추가의 목적은, 이미지 키포인트를 둘러싸는 서브영역에 관련된 복수의 그라디언트 히스토그램에 의해 구성되는 이미지 기술자의 크기를 감소시키도록 허용하는, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법을 보여주는 것이다.
본 발명의 이들 및 다른 목적들은 첨부된 청구항들에서 청구된 바와 같이 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치를 통해 달성되며, 첨부된 청구항들은 본 설명의 통합 부분이다.
종합적으로, 본 발명은 상기 그라디언트의 히스토그램들의 변환에 기초하여 그라디언트들의 히스토그램들을 이용하는 이미지 기술자들로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산에 관한 것이며, 여기서 상기 변환은 그들의 빈 값들 간의 관계 및 분배들의 형상의 형태로 거기에 포함되는 두드러지고 강건한 정보를 캡처한다. 보다 구체적으로, 본 발명은 히스토그램 빈들 간의 관계에 대응하는 값들을 계산함으로써 그라디언트들의 히스토그램들을 변환한다.
본 발명에 따른 방법은 또한 이미지 키포인트를 둘러싸는 서브영역들에 관련된 그라디언트들의 히스토그램들을 핸들링하는 상이한 접근법들에 기초한 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산에 관한 것이다.
본 발명의 추가의 특징들은 본 설명의 통합 부분으로서 의도되는 첨부된 청구항들에서 제시된다.
위의 목적들은, 특히 첨부 도면들을 참조하여, 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법의 이어지는 상세한 설명으로부터 더 자명하게 될 것이다.
도 1a 및 도 1b는 종래 기술의 키포인트 기술자의 예를 도시한다.
도 2a 및 도 2b는 GLOH 및 UHoG 종래 기술 기법들에서 각각 이용되는 공간적 세분 방식들을 도시한다.
도 3은 UHoG 기법의 그라디언트 히스토그램들의 계산을 위한 접근법들을 도시한다.
도 4a 및 도 4b는 본 발명에 따른 키포인트 기술자의 예를 도시한다.
도 5 내지 도 7은 이미지 키포인트를 둘러싸는 서브영역들에 대응하는 그라디언트들의 히스토그램들을 핸들링하는 상이한 방식들을 도시한다.
도 8 내지 도 13은 본 발명의 6개의 실시예들에 따른 흐름도들을 표현한다.
도 14는 도 2b의 공간적 세분 방식을 이용함으로써 본 발명에 따른 이미지 기술자의 프로세싱을 예시한다.
도 15는 도 3a의 그라디언트 히스토그램 세분 방식을 이용함으로써 본 발명에 따른 이미지 기술자의 프로세싱을 예시한다.
도 16은 본 발명에 따른 방법을 수행하기에 적합한 이미지 프로세싱 디바이스를 예시한다.
임의의 제한이 아닌 예로서, 본 발명의 양상들은 이미지 기술자, 특히 도 4에서 예시된 SIFT 이미지 기술자로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자들의 계산을 위해 제시되며, 도 4a는 4x4 서브영역들(SR)로의 로컬 영역(R)의 예시적인 세분을 예시하고, 도 4b는 서브영역에 대한 예시적인 8-빈 그라디언트 히스토그램을 예시한다.
h는 도 4b의 그라디언트 히스토그램을 나타낸다고 하면, 빈들은 hi이며, 여기서 i는 빈 인덱스이고, i=0...n-l이다. 본 발명에 따른 그라디언트 히스토그램 변환은 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(vj)을 계산한다.
관계들에 대응하는 값들이 계산되는 빈들은 그의 위치 및 근접도에 따라 선택될 수 있으며, 이는 도 4b의 그라디언트 히스토그램의 경우에, 그의 각도 분리(angular separation)로 치환된다.
그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들의 예로서, 아래의 (1)에서 도시되는 바와 같은 이웃하는 빈 차이들은 히스토그램의 전체적인 형상 및 극값의 위치(extrema location)들을 캡처한다:
Figure pct00001
(1)
아래의 (2)에서 도시된 바와 같이 90도, 또는 보다 일반적으로, 그라디언트 히스토그램 특성들 및 빈 입도(bin granularity)가 허용할 때 거의 90도의 각도 차이를 갖는 그라디언트들에 대응하는 빈들 간의 차이들은 실질적으로 서로에 대해 직각의 그라디언트들 간의 관계에 관한 정보를 캡처한다:
Figure pct00002
(2)
아래의 (3)에서 도시된 바와 같이 180도의 각도 차이, 보다 일반적으로 그라디언트 히스토그램 특성들 및 빈 입도가 허용할 때 거의 180도의 각도 차이를 갖는 그라디언트들에 대응하는 빈들 간의 차이들은 배향들 내의, 예컨대, 수평 배향 내의 그리고 수직 배향 내의 그라디언트들 간의 관계에 관한 중요한 고레벨 정보를 캡처한다:
Figure pct00003
(3)
아래의 (4)에서 도시된 함수들은 2개 초과의 그라디언트 빈들을 결합하고 특정한 배향들 간의 그라디언트들의 관계, 예컨대, 어느 한 방향의 수직 그라디언트들에 대한 어느 한 방향의 수평 그라디언트들에 관한 정보를 캡처한다.
Figure pct00004
(4)
아래의 (5)에서 도시된 함수들은 전체 히스토그램의 형상을 대표하는 차별적 값들을 생성하기 위해 그라디언트 히스토그램의 모든 빈들을 결합한다:
Figure pct00005
(5)
관계들에 대응하는 값들이 계산되는 빈들이 또한 상이한 기준들에 따라 선택될 수 있다. 예를 들어, 관계들에 대응하는 값들이 계산되는 빈들은 결과적인 값들의 차별적 파워를 증가시키도록 선택될 수 있다. 이러한 함수들은 예를 들어, 아래의 (6)에서 도시된 함수들의 형태를 취할 수 있다:
Figure pct00006
(6)
다른 예로서, 관계들에 대응하는 값들이 계산되는 빈들은 랜덤 선택 프로세스를 통해 선택될 수 있다. 이러한 함수들의 예들은 아래의 (7)에서 도시된다:
Figure pct00007
(7)
히스토그램 변환의 다른 예로서, 아래의 (8)에서 도시된 함수들의 세트는 총 히스토그램 카운트를 대표하는 인버터블 변환(invertible transform)을 구성하며, 여기서 v7은 총 히스토그램 카운트를 대표하는 값이다.
Figure pct00008
(8)
(1) 내지 (8)의 함수들은 빈들 간의 합 또는 차이, 또는 빈들의 합들 간의 차이로서 계산되는 그라디언트 히스토그램 빈들 간의 관계들을 도시하지만, 이는 제한적이지 않으며, 빈들 간의 비들, 또는 빈들의 합들 간의 비들 또는 빈들의 프러덕트들 간의 비들 또는 빈들의 프러덕트들 간의 차이 등과 같은 상이한 선형 또는 비-선형 동작들이 이용될 수 있다.
일반적으로, 그라디언트 히스토그램은 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(vj)을 계산함으로써 변환될 수 있으며, 상기 그라디언트 히스토그램 빈들의 선택은, 결과적인 값들의 차별적 파워 또는 그의 근접도 또는 그의 기준들의 결합과 같은 하나 또는 그 초과의 기준들에 의존한다.
또한, 빈들이 그의 근접도에 따라 선택될 때, 그라디언트 히스토그램은 예를 들어, (1)에서와 같이 단지 이웃하는 빈들 간의 관계들에만 기초하여, 또는 (3)에서와 같이 단지 180도 분리된 빈들 간의 관계들에만 기초하여, 기타 등에 기초하여 단일 각도 분리를 나타내는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(vj)을 계산함으로써 변환될 수 있다. 대안적으로, 그라디언트 히스토그램은 또한 예를 들어, (1)에서 도시된 바와 같은 몇몇 관계들, (2)에서 도시된 바와 같은 몇몇 관계들 등에 기초하여 복수의 각도 분리들을 나타내는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들(vj)을 계산함으로써 변환될 수 있다. 전체적으로, 변환 선택 프로세스는 상당히 중요한데, 그 이유는 그것이 k=n 또는 k<n 또는 k>n에 의해 서로 관련될 수 있는, 그라디언트 히스토그램의 차원성(n)에 비교되는 결과적인 변환된 기술자의 차원성(k)에 대한 상이한 타입들의 정보의 혼합에 대해 특정한 타입의 정보의 양을 밸런싱하기 때문이다.
그 후, 그라디언트 히스토그램(h)의 변환으로부터 계산된 값들(vj)(j=0...k-l)은 k 엘리먼트들의 변환된 그라디언트 히스토그램 기술자(v)로서 집합적으로 지칭될 것이다.
위에서 알 수 있는 바와 같이, 단일 이미지 기술자(H)는, 각각이 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 대응하는 그라디언트의 다수의 히스토그램들을 포함할 수 있다. 도 4a는 각각의 그라디언트들의 히스토그램(hp)에 의해 설명되는 4x4 서브영역들(SR)로의 로컬 영역(R)의 세분의 예를 예시한다. 이러한 이미지 기술자는 위에서 설명된 바와 같이 변환된 그라디언트 히스토그램 기술자(vp)로의 각각의 서브영역(SR)의 그라디언트 히스토그램의 개별 변환에 의해 새로운 이미지 기술자(V)로 변환될 수 있다.
위에서 설명된 그라디언트 히스토그램 변환 프로세스는 간결한 이미지 기술자를 생성하는데 있어 다수의 이점들을 갖는다. 제 1 이점은, 변환의 적절한 선택을 통해, 위에서 설명된 프로세스는 예를 들어, 앞서 도시된 (3) 및 (4)의 결합된 6개의 엘리먼트들로 8개의 그라디언트 빈들을 대체함으로써 원래의 그라디언트 히스토그램보다 더 적은 엘리먼트들을 이용하여 그라디언트 히스토그램의 두드러지는 형상 특성들 및 차별적 정보를 인코딩하는 것을 가능하게 한다는 것이며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 이미지 기술자를 발생시킨다.
다른 이점은, 원래의 그라디언트 히스토그램과 달리, 변환된 그라디언트 히스토그램 기술자는 단순한 대강의 스칼라 양자화(simple coarse scalar quantisation)(그에 의해 각각의 기술자 엘리먼트는 단지 몇 개의 비트들, 심지어 1 또는 2만큼 낮은 비트들로 개별적으로 양자화됨)에 의한 압축에 적합하다는 것이며, 이는 사실상 특정한 그라디언트 빈들 간의 관계 또는 다른 특정한 빈들보다 특정한 빈들의 탁월성(dominance)의 대강의 측정만을 제공한다. 그러나, 상기 대강의 측정은 강건하고, 차별적이며 간결한 이미지 기술자를 여전히 제공하며, 이는 동일한 스칼라 양자화 조건들 하에서, 그리고 또한 벡터 양자화 및 타입 코딩과 같은 보다 복잡한 압축 방식들 하에서 원래의 그라디언트 히스토그램 기반 기술자보다 더 높은 인식 성능을 달성하고 시각적 대응성들을 설정 또는 검증하는데 성공적이다.
예를 들어, 스칼라 양자화를 이용하여, 값들(vj)은 q 레벨들(예를 들어, q=2 또는 q=3 또는 q=4 등)로 개별적으로 양자화되지만, 이것은 제한적이지 않고 상이한 수의 양자화 레벨들이 결과적인 기술자의 원하는 간결성을 달성하는데 이용될 수 있다. 이러한 양자화는 임계치들의 세트에 대해 각각의 값(vj)의 값을 비교함으로써 수행될 수 있다. 양자화 임계치들을 결정하는데 있어 다수의 옵션들이 있다. 양자화 임계치들은 예를 들어, 각각의 vj의 동적 범위의 균일한 분할에 의해 결정될 수 있다. 대안적으로, 양자화 임계치들은 q 양자화 레벨들 간의 값들의 특정한 장기 분배(long-term distribution), 예를 들어, 균일한 분배를 달성하도록 세팅될 수 있다. 또한, 양자화 임계치들은 모든 서브영역들(SR)에서 계산된 모든 값들(vj)에 대해 동일할 수 있거나, 또는 이들은 모든 서브영역들(SR)에 걸친 동일한 인덱스(j)에 대해 동일할 수 있거나, 또는 이들은 모든 j에 걸친 각각의 서브영역(SR)에 대해 동일할 수 있거나, 또는 이들은 각각의 서브영역(SR) 및 각각의 인덱스(j)에 대해 상이할 수 있다.
따라서, 위에서 설명된 그라디언트 히스토그램 변환 프로세스는, 유사하거나 개선된 성능 특성들을 달성하면서, 전체 계산 복잡도 및 메모리 요건들의 연관된 감소와 더불어, 앞서 보여준 방식들과 같은 복잡한 압축 방식들에 대한 필요성을 제거한다.
결과적인 제 3 이점은, 변환된 그라디언트 히스토그램 기술자의 차원성은 압축 이전 뿐만 아니라 압축 이후에도 고도로 스케일러블하지 않고, 전송 채널 특성들 또는 애플리케이션에 의해 요구되는 경우, 그의 개별적으로 양자화된 엘리먼트들 중 하나 또는 그 초과를 단순히 제거함으로써 추가로 쉽게 감소될 수 있다는 것이며, 이는 벡터 양자화 또는 타입 코딩과 같은 보다 복잡한 압축 기법들로 쉽게 달성되지 않는다.
반면에, 위에서 설명된 바와 같은 각각의 서브영역의 그라디언트 히스토그램의 개별 변환 및 압축은, 요구되는 경우, 이것이 하나 또는 그 초과의 개별적으로 변환되고 양자화된 서브영역 히스토그램들을 단순히 제거함으로써 전체 변환된 이미지 기술자의 스케일러빌리티(scalability)를 용이하게 하기 때문에 매우 유리하다.
그러나 위에서 설명된 변환된 그라디언트 히스토그램 기술자는 앞서 논의된 보다 복잡한 압축 방식들, 또는 그라디언트 히스토그램 기반 기술자의 원래의 히스토그램에 응용 가능한 임의의 압축 방식들에 호환 가능하지 않고, 이것은 요구되는 경우, 임의의 이러한 압축 방식들과 함께 여전히 이용될 수 있다는 것이 또한 강조되어야 한다.
위에서 알 수 있는 바와 같이, 그라디언트 기반 이미지 기술자(H)의 단일 히스토그램은 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 각각 대응하는 그라디언트들의 다수의 히스토그램들을 포함할 수 있고, 이러한 이미지 기술자(H)는 위에서 설명된 바와 같이 각각의 서브영역(SR)의 그라디언트 히스토그램의 개별 변환에 의해 변환될 수 있다. 보다 구체적으로, 각각의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램으로 동일한 방식으로 변환될 수 있지만, 대안적으로 적어도 하나의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램들로 상이하게 변환될 수 있다.
예를 들어, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 그라디언트들의 임의의 히스토그램의 변환 함수들은 그의 공간적으로 이웃하는 그라디언트들의 히스토그램들 중 적어도 일부에서 이용되는 변환 함수들과 적어도 부분적으로 상이해야 한다는 요건이 이미지 기술자 변환 프로세스에 부과될 수 있다. 이는 도 5에서 예시된다.
보다 구체적으로, 도 5A 및 도 5B는 서로 완전히 또는 부분적으로 상이한 변환 함수들의 세트들을 참조한다. 예를 들어, (1)의 함수를 A로 취하고 (2)의 함수들을 B로 취하는 것은 완전히 상이한 함수들의 세트들을 초래하는 반면에, (3)의 함수들 및 (1)로부터의 짝수 엘리먼트들을 A로 취하고, (3)의 함수들 및 (1)로부터의 홀수 엘리먼트들을 B로 취하는 것은 부분적으로 상이한 함수들의 세트들을 초래한다. 도 5에서, 변환 함수들(A 및 B)이 서브영역 히스토그램들에 적용되어서, A(또는 대안적으로 B)에 의해 변환되는 각각의 서브영역 히스토그램에 대해, 그의 4개의 수평 및 수직 이웃 히스토그램들은 B(또는 대안적으로 A)에 의해 변환되게 된다. 변환 함수들의 다수의 세트들의 이러한 활용은 구현 복잡도를 약간 증가시키지만, 모든 서브영역 히스토그램들에서 동일한 변환 함수들의 활용보다 상당한 이점을 갖는다. SIFT 기술자들은 물론, 그라디언트 기반 이미지 기술자들의 다른 히스토그램에 있어서, 특히 수평으로 또는 수직으로 연결되는 이웃하는 그라디언트 히스토그램들은, 변환된 그라디언트 히스토그램 기술자들에서 또한 유지되는 상당한 상관성을 나타낸다는 것이 당업자들에게 알려져 있다. 임의의 후속적인 대강의 양자화와 결합하여 이러한 이웃하는 히스토그램에서 동일한 변환을 적용하는 것은 동일한 엘리먼트들을 갖는 이웃하는 히스토그램들의 가능성을 증가시킨다. 이 문제는, 엔트로피(entropy) 및 결과적으로 기술자의 차별적 파워를 증가시키는, 위에서 설명된 바와 같은 상이한 변환 함수들의 활용에 의해 완화된다.
다른 예로서, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들은, 키포인트 주위의 영역 또는 중앙에 대한 서브영역 위치와 같은 특정한 결정적인 팩터들에 따라 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들에 대한 상이한 수의 엘리먼트들을 포함할 수 있다.
도 6은 이것의 일 예를 예시하며, 여기서 이미지 키포인트(KP)를 직접 둘러싸는 중앙의 4개의 서브영역들(SRc)은 위에서 설명된 바와 같이 kc 엘리먼트로 변환되는 반면에, 12개의 경계 서브영역들(SRb)은 위에서 설명된 바와 같이 kb 엘리먼트로 변환되며 여기서 kc>kb이다. 그러므로, 이는 전체의 변환된 이미지 기술자들에 대한 중앙 서브영역들(SRc)의 정보 콘텐츠를 증가시키며, 상기 서브영역들(SRc)은 시각적 대응성을 설정 또는 검증하는데 보다 중요한 것으로서 당업자에게 의해 공통적으로 고려된다.
다른 예로서, 몇몇 서브영역 히스토그램들을 다른 서브영역 히스토그램들로 상이하게 변환하는 맥락에서, 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들은, 키포인트 주위의 영역의 중앙에 대한 서브영역 위치와 같은 특정한 결정적 팩터들에 따라 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들로 상이하게 압축될 수 있다.
도 7은 이것의 일 예를 예시하며, 여기서 이미지 키포인트(KP)를 직접 둘러싸는 중앙의 4개의 서브영역들(SRc)은 위에서 설명된 바와 같이 변환되고 qc 레벨들로 양자화되는 반면에, 12개의 경계 서브영역들(SRb)은 위에서 설명된 바와 같이 변환되고 qb 레벨들로 양자화되며, 여기서 qc>qb이다. 그러므로, 이는 전체 변환된 이미지 기술자 내의 중앙 서브영역들(SRc)의 표현 정확도를 증가시키며, 상기 서브영역들(SRc)은 시각적 대응성들을 설정 또는 검증하는데 보다 중요한 것으로서 당업자들에게 공통적으로 고려된다.
또한, 상이한 압축 특성들은 또한 특정한 엘리먼트들의 변환 함수 또는 그의 근본적인 통계들과 같은 결정적인 팩터들에 따라, 변환된 그라디언트 히스토그램 기술자들의 특정한 엘리먼트들에만 적용될 수 있다.
전체적으로, 상이한 서브영역들에 대한 적절한 변환 함수들의 선택 및 상이한 서브영역들 및/또는 서브영역 엘리먼트들에 대한 적절한 압축 파라미터들의 선택과 같은 팩터들은, 이들이 기술자의 복잡도 및 저장/전송 비용에 대해 기술자의 정보 콘텐츠 및 차별적 파워를 제어하기 때문에 상당히 중요하다.
본 발명의 실시예들은 도 8 내지 도 13의 도움으로 이제 설명된다.
제 1 실시예
본 발명의 제 1 실시예는 도 8에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그들의 근접도에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 그의 차원성을 감소시키도록 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱된다.
보다 구체적으로, 도 8에서, 각각의 히스토그램(hp)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S100)에서, p는 0으로 세팅된다.
이어서, 단계(S110)에서, n(n=8)개의 빈들의 히스토그램(hp)은, 이웃하는 빈들 간의 관계들을 캡처하는 단일 각도 분리를 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (9)의 함수들에 의해 k(k=4)개의 엘리먼트들의 기술자(vp)로 변환되며, 여기서 k < n이다:
Figure pct00009
(9)
대안적으로, (9)의 함수들은 90도만큼 분리된 빈들 간의 관계를 캡처하는 함수들과 같이, 다른 단일 각도 분리를 갖는 빈들 간의 관계를 캡처하는 상이한 함수들, 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(vp)를 발생시키는 함수들에 의해 대체될 수 있지만, 여전히 k < n이다.
이어서, 단계(S120)에서, p의 값이 검사되고 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S130)에서 1만큼 증가되고, 프로세싱은 단계(S110)로 리턴한다.
따라서, 결과적인 기술자(V)는 H보다 상당히 더 적은 엘리먼트들을 이용하여 H의 차별적 정보 및 두드러지는 형상 특성들을 인코딩하며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 기술자를 발생시킨다.
선택적으로, V의 개별 엘리먼트들의 값들은, 예를 들어, 이들을 비-음의 값들에 및/또는 특정한 동적 범위, 예를 들어, 8-비트에 맵핑하기 위해 적절히 스케일링 및 시프트될 수 있다.
2개의 기술자들이 상이한 이미지들의 동일한 키포인트로부터 추출되었는지를 결정하고 이미지들 간의 시각적 대응성들을 설정하기 위해 결과적인 기술자들의 후속 프로세싱은 본 발명의 범위를 초과하며, 예를 들어, David G.Lowe의 "Distinctive image features from scale-invariant keypoints"(International Journal of Computer Vision, 60, 2 (2004), pp.91-110)에서 설명된 바와 같이, 또는 임의의 다른 적합한 방식으로 원래의 그라디언트 히스토그램 기술자들에 대한 것과 유사한 방식으로 진행될 수 있다.
제 2 실시예
본 발명의 제 2 실시예는 도 9에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램들(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그의 근접도에 관한 복수의 기준들에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계에 대응하는 값들을 계산하여 그의 차원성을 감소시키도록, 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱된다.
보다 구체적으로, 도 9에서, 각각의 히스토그램(hp)(p=0...N-1(N=16))이 이번에 프로세싱된다. 단계(S200)에서, p는 0으로 세팅된다.
이어서, 단계(S210)에서, n(n=8)개의 빈들의 히스토그램(hp)은 180도만큼 분리되는 빈들 간의 관계들 및 이웃하는 빈들 간의 관계들을 캡처하는, 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (10)의 함수들에 의해 k(k=6)개의 엘리먼트들의 기술자(vp)로 변환되며, 여기서 k < n이다:
Figure pct00010
(10)
대안적으로, (10)의 함수들은 90도만큼 분리된 빈들 간의 관계들 및 180도만큼 분리된 빈들 간의 관계들을 캡처하는 함수들과 같이, 다른 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하는 상이한 함수들 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(vp)를 발생시키는 함수들에 의해 대체될 수 있지만, 여전히 k < n이다.
이어서, 단계(S220)에서, p의 값이 검사되고, 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S230)에서 1만큼 증가되고, 프로세싱은 단계(S210)로 리턴한다.
따라서, 결과적인 기술자(V)는 H보다 더 적은 엘리먼트들을 이용하여 H의 차별적 정보 및 상이한 타입들의 두드러지는 형상 특성들을 인코딩하며, 이는 시각적 대응성들을 설정 또는 검증하고 고인식 성능을 달성하는데 여전히 매우 성공적인 더 작은 기술자를 발생시킨다.
결과적인 기술자의 후속적인 프로세싱은 이어서 제 1 실시예와 유사한 방식으로 진행될 수 있다.
제 3 실시예
본 발명의 제 3 실시예는 도 10에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그들의 근접도에 관한 복수의 기준들에 따라 선택된 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱된다.
보다 구체적으로, 도 10에서, 각각의 히스토그램(hp)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S300)에서, p는 0으로 세팅된다.
이어서, 단계(S310)에서, n(n=8)개의 빈들의 히스토그램(hp)은, 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하도록 선택된 함수들의 세트, 즉 (11)의 함수들에 의해 k(k=8)개의 엘리먼트들의 기술자(vp)로 변환된다:
Figure pct00011
(11)
대안적으로, (11)의 함수들은 다른 복수의 각도 분리들을 갖는 빈들 간의 관계들을 캡처하는 상이한 함수들 또는 상이한 수의 엘리먼트들(k)을 갖는 기술자(vp)를 발생시키는 함수들에 의해 대체될 수 있으며, k=n 또는 k<n 또는 k>n이다.
이어서, 단계(S320)에서, K개의 엘리먼트들의 기술자(vp)의 각각의 엘리먼트는 q 레벨들로 개별적으로 양자화되며, 이는 양자화된 기술자(v,~ p)를 제공한다. 이 실시예에서, 우리는 q=3으로 세팅하지만, 이는 제한적이지 않으며, 예를 들어, q=2, q=4 등의 상이한 수의 양자화 레벨들이 결과적인 기술자에서 원하는 간결성을 달성하는데 이용될 수 있다. 이러한 양자화는 각각의 엘리먼트의 값(vpj)을 임계치들의 세트에 비교함으로써 수행될 수 있다. 양자화 임계치들을 결정하는데 있어 다수의 옵션들이 있다. 양자화 임계치들은 예를 들어, vpj의 동적인 범위의 균등한 분할에 의해 결정될 수 있다. 대안적으로, 양자화 임계치들은 q 양자화 레벨들 간의 값들의 특정한 장기 분배, 예를 들어, 균일한 분배를 달성하도록 세팅될 수 있다. 또한, 양자화 임계치들은 모든 엘리먼트(vpj)에 대해 동일할 수 있거나, 또는 이들은 모든 p에 걸친 동일한 인덱스(j)에 대해 동일할 수 있거나, 또는 이들은 모든 j에 걸친 동일한 인덱스(p)에 대해 동일할 수 있거나, 또는 이들은 각각의 vpj에 대해 상이할 수 있다.
이어서, 단계(S330)에서, p의 값이 검사되고 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S340)에서 1만큼 증가되고, 프로세싱은 단계(S310)로 리턴한다.
명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 10에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.
따라서, 결과적인 기술자(V,~)는 H의 차별적 정보 및 상이한 타입들의 두드러지는 형상 특성들을 인코딩한다. 각각의 기술자 엘리먼트가 특정한 그라디언트 빈들 간의 관계 또는 다른 특정한 빈들보다 특정한 빈들의 탁월성의 대강의 측정만을 제공하는, 단지 소수의 레벨들로 개별적으로 양자화되는 대강의 스칼라 양자화는 동일한 스칼라 양자화 조건들 하에서 그리고 또한 보다 복잡한 압축 방식들 하에서 원래의 그라디언트 히스토그램 기반 기술자보다 더 높은 인식 성능을 달성하고 시각적 대응성들을 설정하거나 검증하는데 성공적인 강건하고 차별적인 간결한 이미지 기술자를 발생시킨다.
결과적인 기술자의 후속적인 프로세싱은 이어서 이전의 실시예들과 유사한 방식으로 진행될 수 있다.
제 4 실시예
본 발명의 제 4 실시예는 도 11에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 이웃하는 hp인 그라디언트 히스토그램들 중 일부의 프로세싱에 이용되는 변환 함수들의 세트에 대해 차이를 나타내는 변환 함수의 세트로 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱된다.
보다 구체적으로, 도 11에서, 각각의 히스토그램(hp)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S400)에서, p는 0으로 세팅된다.
이어서, 단계(S410)에서, p의 값은 hp의 프로세싱에 대한 적절한 함수의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 5에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 A 및 B로 지정된 변환들의 2개의 세트들이 이용되며, A는 p=0,2,5,7,8,10,13,15일 때 선택되고, B는 p=l,3,4,6,9,ll,12,14일 때 선택된다. 그러나 이는 제한적이지 않으며, 변환 함수들의 상이한 수의 세트들 및 상이한 공간적 배열은 그라디언트 히스토그램의 프로세싱에 이용되는 변환 함수들의 세트가 상기 히스토그램에 이웃하는 그라디언트 히스토그램들 중 일부의 프로세싱에 이용되는 변환 함수들의 세트들에 대해 차이를 나타내도록 이용될 수 있다.
이어서, 단계(420)에서, n(n=8)개의 빈들의 히스토그램(hp)은, 변환 함수들의 적합하게 선택된 세트를 이용하여 k(k=8)개의 엘리먼트들의 기술자(vp)로 변환된다. 변환 함수들의 세트들(A 및 B)은 각각 아래에서 도시된 (12) 및 (13)에 따라 정의될 수 있으며, 여기서 함수들의 각각의 세트는 복수의 각도 분리들을 갖는 빈들 간의 관계를 캡처하도록 선택되고, A와 B 간의 공통적인 함수들은 없다:
Figure pct00012
(12)
Figure pct00013
(13)
대안적으로, (12) 및 (13)에서 도시된 바와 같은 함수들 중 어느 하나 또는 둘 다는 다른 복수의 각도 분리들을 갖는 빈들 간의 관계를 캡처하는 상이한 함수들, 또는 상이한 수(k)의 엘리먼트들을 갖는 기술자를 발생시키는 함수들에 의해 대체될 수 있으며, 여기서 k=n 또는 k<n 또는 k>n이다. 또한, 함수들의 세트들(A 및 B)은 어떠한 공통 함수들도 포함하지 않을 수 있거나 몇몇 공통 함수들을 포함할 수 있다. 또한, 관계들에 대응하는 값들이 계산되는 빈들은 함수들의 세트들(A 및 B) 중 하나 또는 둘 다에 대한 상이한 기준들에 따라 선택될 수 있다. 위에서 알 수 있는 바와 같은 이러한 기준들은 결과적인 값들의 차별적 파워를 증가시키도록 관계들에 대응하는 값들이 계산되는 빈들을 선택하는 것, 또는 랜덤 선택 프로세스를 통해 관계들에 대응하는 값들이 계산되는 빈들을 선택하는 것을 포함할 수 있다. 또한, 상기 기준들의 임의의 혼합이 또한 함수들의 세트(A 및 B) 중 어느 하나 또는 둘 다의 선택에 있어 이용될 수 있다.
이어서, 단계(S430)에서, k개의 엘리먼트들의 기술자(vp)의 각각의 엘리먼트는 제 3 실시예에 대해서와 유사한 방식으로 q 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,~ p)를 제공한다.
이어서, 단계(S440)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S450)에서 1만큼 증가되고, 프로세싱은 단계(S410)로 리턴한다.
명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,~)를 생성하기 위해 양자화를 진행함으로써, 본 발명의 범위로부터 벗어남 없이 도 11에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.
따라서, 결과적인 기술자(V,~)는 H의 차별적 정보를 인코딩한다. 이 실시예에 따라 변환 함수들의 다수의 세트들의 활용은 모든 서브영역 히스토그램들에서 동일한 변환 함수들의 활용에 비해 상당한 이점을 갖는다. 그라디언트 기반 이미지 기술자들의 히스토그램에 있어서, 이웃하는 그라디언트 히스토그램들은 변환된 그라디언트 히스토그램 기술자들에서 유지되는 상당한 상관을 나타내며, 대강의 스칼라 양자화와 결합하여, 동일한 엘리먼트들을 갖는 이웃하는 변환된 히스토그램들의 가능성을 증가시킨다는 것이 당업자들에게 알려져 있다. 이 문제는 엔트로피 및 결과적으로 기술자의 차별적 파워를 증가시키는, 이 실시예에 따라 상이한 변환 함수들의 활용에 의해 완화된다.
결과적인 기술자의 후속적인 프로세싱은 이어서 이전의 실시예들과 유사한 방식으로 진행될 수 있다.
제 5 실시예
본 발명의 제 5 실시예는 도 12에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산하여 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱되고 그리고 이에 따라 몇몇 서브영역들의 변환된 그라디언트 히스토그램 기술자들이 다른 서브영역들의 변환된 그라디언트 히스토그램 기술자들에 대해 상이한 수의 엘리먼트들을 포함하게 된다.
보다 구체적으로, 도 12에서, 각각의 히스토그램(hp)(p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S500)에서, p는 0으로 세팅된다.
이어서, 단계(S510)에서, p의 값은 hp의 프로세싱에 대한 적절한 차원성의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 6에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 p=5,6,9,10를 갖는 중앙 서브영역 히스토그램들은 결과적인 기술자가 kc(kc=3) 엘리먼트들을 각각 갖도록 변환된 것이고, p=0,1,2,3,4,7,8,11,12,13,14,15를 갖는 경계 서브영역 히스토그램들은 결과적인 기술자가 kb(kb=2) 엘리먼트들을 각각 갖도록 변환될 것이다. 그러나 이는 제한적이지 않고, 상이한 수의 가능한 차원성들 및 상이한 공간적 어레인지먼트들이 더불어 이용될 수 있다.
이어서 단계(520)에서, n(n=8)개의 빈들의 히스토그램(hp)은 아래에서 도시된 (14)의 함수들에 따라 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산함으로써 기술자(vp)로 변환된다:
Figure pct00014
(중앙 및 경계 서브영역들 둘 다를 위해 이용됨)
Figure pct00015
(중앙 및 경계 서브영역들 둘 다를 위해 이용됨) (14)
Figure pct00016
(중앙 서브영역들만을 위해 이용됨)
명백히, 이 실시예는 임의의 이전의 실시예와 결합될 수 있고, (14)의 변환 함수들은 위에서 알 수 있는 바와 같은 선택 기준들의 임의의 혼합에 따라 선택된 변환 함수들에 의해 대체될 수 있고 및/또는 변환 함수들의 상이한 세트들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있다.
이어서, 단계(S530)에서, k개의 엘리먼트들의 기술자(vp)의 각각의 엘리먼트는 제 3 및 제 4 실시예에 대해서와 유사한 방식으로 q 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,~ p)를 제공한다.
이어서, 단계(S540)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S550)에서 1만큼 증가되고, 프로세싱은 단계(S510)로 리턴한다.
명백히, 대안적인 구현들은 예를 들어, 먼저 전체 기술자(V)를 계산하고, 이어서 양자화된 기술자(V,~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 12에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.
따라서, 결과적인 기술자(V,~)는, 이러한 부분들에 대한 증가된 차원성의 표현을 허용함으로써, 시각적 대응성, 예컨대, 중앙 서브영역 히스토그램들 대 경계 서브영역 히스토그램들을 설정 또는 검증하는데 있어 보다 중요하게 될 수 있는, H의 그러한 부분들에 보다 많은 우월성을 제공하는 방식으로 H의 차별적 정보를 인코딩한다.
제 6 실시예
본 발명의 제 6 실시예는 도 13에서 예시되며, 여기서 예를 들어, 도 4에 따라 그라디언트 히스토그램(hp)을 포함하는 그라디언트 히스토그램 기반 기술자(H)는 그라디언트 히스토그램 빈들 간의 관계들에 대응하는 값들을 계산하여 각각의 그라디언트 히스토그램(hp)을 변환함으로써 프로세싱되고 그리고 이에 따라 몇몇 변환된 그라디언트 히스토그램 기술자 엘리먼트들은 다른 변환된 그라디언트 히스토그램 기술자 엘리먼트과 상이한 수의 레벨들로 양자화되게 된다.
보다 구체적으로, 도 13에서, 각각의 히스토그램(hp; p=0...N-l(N=16))이 이번에 프로세싱된다. 단계(S600)에서, p는 0으로 세팅된다.
이어서, 단계(S610)에서, n(n=8)개의 빈들의 히스토그램(hp)은 아래의(15)에서 도시된 바와 같이 빈들 간의 관계를 캡처하도록 선택된 함수들의 세트에 의해 k(k=8)개의 엘리먼트들의 기술자(vp)로 변환된다:
Figure pct00017
(15)
명백히, 이 실시예는 임의의 이전의 실시예와 결합될 수 있고, (15)의 변환 함수들은 위에서 알 수 있는 바와 같은 선택 기준들의 임의의 혼합에 따라 선택된 변환 함수들에 의해 대체될 수 있고 및/또는 변환 함수들의 상이한 세트들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있고 및/또는 상이한 변환된 기술자 차원성들은 상이한 서브영역 히스토그램들에 대해 이용될 수 있다.
이어서, 단계(S620)에서, p의 값은 각각의 엘리먼트(vpj)의 양자화에 대한 적절한 수의 양자화 레벨들의 선택을 위해 검사된다. 이 선택은 예를 들어, 도 7에서 예시된 라인들을 따라 진행될 수 있으며, 여기서 p=5,6,9,10을 갖는 중앙 서브영역 기술자는 qc(qc=4) 레벨들로 양자화될 것이고, qc=0,l,2,3,4,7,8,ll,12,13,14,15를 갖는 경계 서브영역 기술자들은 qb(qb=2) 레벨들로 양자화될 것이다. 그러나 이는 제한적이지 않으며, 상이한 수의 가능한 양자화 레벨들이 상이한 공간 어레인지먼트와 더불어 이용될 수 있다. 또한, 도 13에서 도시되지 않았지만, 각각의 엘리먼트(vpj)에 대한 양자화 레벨들의 수는 p, 즉 엘리먼트의 서브영역 위치의 값 대신 또는 이에 추가하여, j의 값에 따라, 즉 특정한 타입의 기술자 엘리먼트에 따라 결정될 수 있다.
이어서, 단계(S630)에서, k개의 엘리먼트들의 기술자(vp)의 각각의 엘리먼트는 제 3, 제 4 및 제 5 실시예에 대해서와 유사한 방식으로 적절한 수의 양자화 레벨들로 개별적으로 양자화되어, 양자화된 기술자(v,~ p)를 제공한다.
이어서, 단계(S640)에서, p의 값이 검사되고, 만약 그것이 H의 마지막 히스토그램의 인덱스와 동일하면, 프로세스는 종료하고, 그렇지 않으면, p의 값은 단계(S650)에서 1만큼 증가되고, 프로세싱은 단계(S610)로 리턴한다.
명백히, 대안적인 구현들은 예를 들어, 전체 기술자(V)를 먼저 계산하고, 이어서 양자화된 기술자(V,~)를 생성하기 위해 양자화를 진행함으로써 본 발명의 범위로부터 벗어남 없이 도 13에 비교해서 적절히, 순서 또는 특정한 동작들을 변경할 수 있다.
따라서, 결과적인 기술자(V,~)는 시각적 대응성들을 설정 또는 검증하는데 보다 중요할 수 있는, H의 이러한 부분들에 또는 V의 그러한 엘리먼트들에 더 높은 표현 정확도를 제공하는 방식으로 H의 차별적 정보를 인코딩한다.
본 발명의 양상들 및 실시예들이 도 4에서 예시된 바와 같이 SIFT 이미지 기술자로부터 강건하고, 차별적이고, 스케일러블하고 간결한 이미지 기술자의 계산을 위해 상세히 제시되었지만, 본 발명은 그라디언트들의 히스토그램들에 기초하여 다른 이미지 기술자들에 응용 가능하다. 예를 들어, 도 14는 본 발명의 제 4 실시예와 유사한 방식으로 그의 이웃하는 그라디언트 히스토그램들의 프로세싱에 이용되는 변환 함수들의 세트들에 대해 차이들을 나타내는 변환 함수들의 세트를 통해 및 변환 함수들의 상기 세트들에 대응하는 도 14의 심볼들(A, B, 및 C)을 통해 그의 그라디언트 히스토그램들 각각을 변환함으로써 로그-폴라 공간 세분(log-polar spatial subdivision)을 이용한 그라디언트 히스토그램 기반 기술자의 프로세싱을 예시한다. 다른 예로서, 도 15에서 예시된 바와 같이 빈들로의 그라디언트들의 x 및 y 컴포넌트들의 2-차원 공간의 세분에 기초한 그라디언트들의 히스토그램을 위해, 본 발명의 이전의 실시예와 유사한 방식의 변환 함수들의 하나의 적합한 세트는 다음과 같다:
Figure pct00018
(16)
또한, 본 발명은 그라디언트 기반 이미지 기술자들의 적합하게 프로세싱된 히스토그램에 또한 응용 가능하다. 이러한 적합한 프로세싱은 예를 들어, 본 발명에 따른 프로세싱 이전의 서브영역 그라디언트 히스토그램들의 결합을 수반할 수 있다.
단지 예시적인 목적을 위해, 도 4a를 참조하면, 서브영역 히스토그램들(hp)(p=0...15)을 포함하는 그라디언트 히스토그램 기술자(H)에 대해, p=0,l,4,5를 갖는 히스토그램들은 그의 빈 값들의 평균화에 의해 단일 서브영역 히스토그램으로 결합될 수 있고, 유사한 결합이 p=2,3,6,7 및 p=8,9,12,13 및 p=10,ll,14,15를 갖는 히스토그램들에 대해 수행될 수 있으며, 이는 본 발명의 임의의 이전의 실시예에 따라 추후에 프로세싱될 수 있는 감소된 차원성을 갖는 그라디언트 히스토그램 기술자를 발생시킨다. 그라디언트 히스토그램들은 또한 합(sum)과 같은 그의 빈 값들의 대안적인 함수에 의해 결합될 수 있다.
대안적으로 또는 부가적으로, 이러한 적합한 프로세싱은 예를 들어, 서브영역 그라디언트 히스토그램들 내의 빈들의 병합(merging)을 포함할 수 있다. 예시 목적을 위해, 도 4b를 참조하면, 그라디언트 히스토그램(h)에 대해, 이웃하는 빈들은 평균화, 부가 또는 중간값 또는 임의의 적합한 함수에 의해 단일 빔으로 병합될 수 있으며, 이는 본 발명의 임의의 이전의 실시예에 따라 추후에 프로세싱될 수 있는 감소된 차원성을 갖는 그라디언트 히스토그램 기술자를 발생시킨다.
단지 예로서, 도 16이 본 발명에 따른 방법을 수행하기 위한 개념적인 프로세싱 장치를 예시한다. 보다 구체적으로, 프로세싱 장치(1100)는, 입력 장치(1000)로부터 이미지 또는 비디오 데이터와 같은 시각적 데이터를 포함하는 입력, 그라디언트들의 히스토그램들에 기초한 미리-계산된 기술자들, 본 발명의 방법에 따른 미리-계산된 간결한 기술자들, 프로그래밍 명령들, 또는 사용자 입력을 수신하며, 이 입력 장치(1000)는 사용자 입력 장치, 미디어 판독기, 또는 전송된 신호들의 수신기의 형태를 취할 수 있다. 프로세싱 장치(1100)는 다른 프로세싱 블록들의 동작을 제어하는 중앙 처리 장치(1110)의 메인 프로세싱 블록들, 휘발성 메모리(1120), 비-휘발성 메모리(1130), 선택적으로 그라디언트들의 히스토그램들에 기초하여 기술자들을 생성하도록 구성된 기술자 추출기 블록(1140), 본 발명에 따른 방법을 수행하도록 구성된 간결한 기술자 추출기 블록(1150), 및 선택적으로 예를 들어, 시각적 대응성들을 설정하거나 검증하기 위해 상기 간결한 기술자들을 프로세싱하도록 구성된 간결한 기술자 프로세서 블록(1160)을 포함한다. 프로세싱 장치(1100)는 시각적 디스플레이 유닛, 미디어 기록기 또는 신호들의 전송기의 형태를 취할 수 있는 출력 장치(1900)에 연결되며, 이는 이미지 또는 비디오 데이터와 같은 주석이 달린(annotated) 시각적 데이터, 설정되거나 검증된 시각적 대응성과 같은 프로세싱 정보 또는 본 발명의 방법에 따른 계산된 간결한 기술자들을 포함할 수 있는 출력을 제공한다. 도 16에서 도시된 프로세싱 블록들 및 아키텍처는 단지 개념적이며 본 발명에 따른 방법을 구현하는 각각의 장치에 정확하게 대응하지 않을 수 있다는 것이 이해되어야 한다.
예로서 본 명세서에서 설명되는 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치는 창의적인 아이디어의 신규한 사상으로부터 벗어남 없이 다수의 가능한 변동들에 처해질 수 있고; 본 발명의 실제 구현에서, 예시된 세부사항들은 상이한 형상들을 갖거나 다른 기술적으로 등가의 엘리먼트들로 대체될 수 있다는 것이 또한 자명하다.
그러므로, 본 발명은 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치로 제한되는 것이 아니라, 아래의 청구항들에서 명확하게 특정되는 바와 같은 창의적인 아이디어로부터 벗어남 없이 등가의 부분들 및 엘리먼트의 다수의 변형들, 개선들 또는 대체들이 처해질 수 있다는 것이 쉽게 이해될 수 있다.

Claims (19)

  1. 복수의 히스토그램 빈들(histogram bins)(hi)을 포함하는 그라디언트 히스토그램(gradient histogram)(h)에 기초하여, 이미지 기술자를, 값들(vj)의 세트를 포함하는 변환된 그라디언트 히스토그램 기술자(v)로 변환(transforming)하기 위한 방법으로서,
    상기 값들(vj)의 세트를 계산하기 위해 적어도 하나의 기준(criterium)을 적용하는 단계가 제공되며,
    상기 적어도 하나의 기준은 상기 히스토그램 빈들(hi)의 위치 기준을 포함하는,
    변환하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 위치 기준은 단일 각도 분리(single angular separation)를 나타내는 그라디언트 히스토그램 빈들(hi) 간의 값들(vj)을 계산하는 것을 제공하는,
    변환하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 위치 기준은 복수의 각도 분리들을 나타내는 그라디언트 히스토그램 빈들(hi) 간의 값들(vj)을 계산하는 것을 제공하는,
    변환하기 위한 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 값들(vj) 중 적어도 하나는 가까운 히스토그램 빈들(hi) 간에 계산되는,
    변환하기 위한 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 값들(vj)은 복수의 레벨들(q)로 개별적으로 양자화되고, 상기 복수의 레벨들은 각각의 값(vj)에 대해 동일할 수 있거나, 또는 적어도 2개의 값들(vj)에 대해 상이할 수 있는,
    변환하기 위한 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 값들(vj)은 다음의 동작들: 히스토그램 빈들(hi) 간의 합들 또는 차이들; 히스토그램 빈들(hi)의 합들 간의 차이들; 히스토그램 빈들(hi) 간의 선형 또는 비-선형 동작들; 히스토그램 빈들(hi) 간의 비들; 히스토그램 빈들(hi)의 합들 간의 비들(ratios); 히스토그램 빈들(hi)의 프러덕트들(products) 간의 비들; 히스토그램 빈들(hi)의 프러덕트들 간의 차이들 중 하나 또는 그 초과에 따라 계산되는,
    변환하기 위한 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성(dimensionality)을 갖고, 상기 값들(vj)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들과 동일한,
    변환하기 위한 방법.
  8. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성을 갖고, 상기 값들(vj)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들보다 더 큰,
    변환하기 위한 방법.
  9. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 그라디언트 히스토그램(h)은 제 1 수(n)의 엘리먼트들의 차원성을 갖고, 상기 값들(vj)의 세트는 제 2 수(k)의 엘리먼트들의 차원성을 갖고, 상기 제 1 수(n)의 엘리먼트들은 상기 제 2 수(k)의 엘리먼트들보다 더 낮은,
    변환하기 위한 방법.
  10. 복수의 그라디언트 히스토그램들(hp)에 기초하여 이미지 기술자(H)를 변환된 이미지 기술자(V)로 변환하기 위한 방법으로서,
    상기 복수의 그라디언트 히스토그램들(hp) 각각은 이미지 키포인트(KP) 주위의 로컬 영역(R)의 서브영역(SR)에 관련되고, 상기 그라디언트 히스토그램들(hp) 각각은 제 1 항 내지 제 9 항 중 어느 한 항에 따라 변환된 그라디언트 히스토그램 기술자(V)로 변환되는 복수의 히스토그램 빈들(hi)을 포함하는,
    변환하기 위한 방법.
  11. 제 10 항에 있어서,
    적어도 하나의 서브영역 그라디언트 히스토그램은 다른 서브영역 그라디언트 히스토그램들로 상이하게 변환되는,
    변환하기 위한 방법.
  12. 제 11 항에 있어서,
    복수의 서브영역 그라디언트 히스토그램은, 특히 그들의 빈 값들을 합 또는 평균화함으로써 단일 서브영역 히스토그램으로 결합되는,
    변환하기 위한 방법.
  13. 제 11 항에 있어서,
    상기 적어도 하나의 변환된 서브영역 그라디언트 히스토그램을 획득하기 위해 이용되는 동작들은 그의 이웃하는 서브영역들 중 적어도 하나의 변환된 서브영역 그라디언트 히스토그램들을 획득하기 위해 이용되는 동작들과 적어도 부분적으로 상이한,
    변환하기 위한 방법.
  14. 제 11 항에 있어서,
    상기 적어도 하나의 변환된 서브영역 그라디언트 히스토그램은 그의 이웃하는 서브영역들 중 적어도 하나의 변환된 서브영역 그라디언트 히스토그램들과 상이한 수의 엘리먼트들을 포함하는,
    변환하기 위한 방법.
  15. 제 14 항에 있어서,
    상기 이미지 키포인트(KP)를 직접 둘러싸는 서브영역들(SRc)에 대하여 변환된 서브영역 그라디언트 히스토그램들은, 잔여 서브영역들(SRb)의 변환된 그라디언트 히스토그램들의 엘리먼트들(kb) 보다 더 많은 엘리먼트들(kc)을 포함하는,
    변환하기 위한 방법.
  16. 제 15 항에 있어서,
    상기 이미지 키포인트(KP)를 직접 둘러싸는 서브영역들(SRc)의 상기 변환된 그라디언트 히스토그램들의 엘리먼트들은 잔여 서브영역들(SRb)의 변환된 그라디언트 히스토그램들이 양자화되는 레벨들의 수(qb) 보다 더 큰 레벨들의 수(qc)로 양자화되는,
    변환하기 위한 방법.
  17. 제 16 항에 있어서,
    상기 양자화는 상기 서브영역 그라디언트 히스토그램들의 특정한 엘리먼트들에만 적용되는,
    변환하기 위한 방법.
  18. 제 10 항에 있어서,
    상기 변환된 이미지 기술자(V)는 양자화된 변환된 이미지 기술자(V,~)를 생성하기 위해 양자화 프로세스에 처해지는,
    변환하기 위한 방법.
  19. 제 1 항 내지 제 18 항에 따른 청구항들을 수행하기 위한 수단을 포함하는 이미지 프로세싱 장치.
KR1020157003489A 2012-07-09 2013-07-01 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치 KR102193177B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ITTO2012A000602 2012-07-09
IT000602A ITTO20120602A1 (it) 2012-07-09 2012-07-09 Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus.
PCT/EP2013/063874 WO2014009198A1 (en) 2012-07-09 2013-07-01 Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus

Publications (2)

Publication Number Publication Date
KR20150031333A true KR20150031333A (ko) 2015-03-23
KR102193177B1 KR102193177B1 (ko) 2020-12-21

Family

ID=46833121

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157003489A KR102193177B1 (ko) 2012-07-09 2013-07-01 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치

Country Status (13)

Country Link
US (2) US9454710B2 (ko)
EP (2) EP3702965B1 (ko)
JP (3) JP6292454B2 (ko)
KR (1) KR102193177B1 (ko)
CN (2) CN108520265B (ko)
AR (1) AR091674A1 (ko)
BR (1) BR112014031268A2 (ko)
ES (1) ES2811532T3 (ko)
HK (1) HK1259139A1 (ko)
IT (1) ITTO20120602A1 (ko)
RU (1) RU2661795C2 (ko)
TW (1) TWI532012B (ko)
WO (1) WO2014009198A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023008671A1 (ko) * 2021-07-28 2023-02-02 주식회사 넥스트칩 특징점에 대한 기술자를 생성하기 위한 전자 장치 및 그 동작 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2900841C (en) 2013-01-16 2018-07-17 Huawei Technologies Co., Ltd. Context based histogram map coding for visual search
ITTO20130629A1 (it) 2013-07-24 2015-01-25 Sisvel Technology Srl Method for encoding an image descriptor based on a gradient histogram and relative image processing apparatus
WO2019056380A1 (zh) * 2017-09-25 2019-03-28 华为技术有限公司 一种数据访问的方法和装置
JP7087695B2 (ja) * 2018-06-07 2022-06-21 株式会社リコー 学習装置および学習方法
CN117981319A (zh) * 2021-09-15 2024-05-03 北京达佳互联信息技术有限公司 用于基于块的视频编解码的符号预测
CN114331925B (zh) * 2022-03-15 2022-07-19 北京锐影医疗技术有限公司 一种多尺度相对梯度直方图均衡化方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066582A (ko) * 2001-05-11 2003-08-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 순환적 히스토그램 벡터 발생과 매칭하는 팔레트-기초히스토그램
KR20040065523A (ko) * 2003-01-13 2004-07-22 한국전자통신연구원 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법
US20100226575A1 (en) * 2008-11-12 2010-09-09 Nokia Corporation Method and apparatus for representing and identifying feature descriptions utilizing a compressed histogram of gradients
JP2011053953A (ja) * 2009-09-02 2011-03-17 Toyota Central R&D Labs Inc 画像処理装置及びプログラム
KR101127793B1 (ko) * 2011-01-04 2012-03-23 위드로봇 주식회사 이미지 인식 시스템 및 그 제공방법
JP2012103758A (ja) * 2010-11-05 2012-05-31 Denso It Laboratory Inc 局所特徴量算出装置及び方法、並びに対応点探索装置及び方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239376A (ja) 1985-04-16 1986-10-24 Fujitsu Ltd 画像間の角度差検出装置
JP2000187731A (ja) * 1998-12-21 2000-07-04 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
GB2352076B (en) * 1999-07-15 2003-12-17 Mitsubishi Electric Inf Tech Method and apparatus for representing and searching for an object in an image
JP3550681B2 (ja) * 1999-12-10 2004-08-04 日本電気株式会社 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体
JP2003150965A (ja) * 2001-11-14 2003-05-23 Sanyo Electric Co Ltd 形状認識方法及びその装置
US7840081B2 (en) * 2004-09-23 2010-11-23 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
US7715623B2 (en) * 2005-11-14 2010-05-11 Siemens Medical Solutions Usa, Inc. Diffusion distance for histogram comparison
CN100530239C (zh) * 2007-01-25 2009-08-19 复旦大学 基于特征匹配与跟踪的视频稳定方法
JP4629740B2 (ja) * 2008-01-16 2011-02-09 富士フイルム株式会社 撮像装置および方法並びにプログラム
CN102016918B (zh) 2008-04-28 2014-04-16 公立大学法人大阪府立大学 物体识别用图像数据库的制作方法以及处理装置
WO2009136673A1 (en) 2008-05-09 2009-11-12 Hankuk University Of Foreign Studies Research And Industry-University Cooperation Foundation Matching images with shape descriptors
US8625861B2 (en) * 2008-05-15 2014-01-07 International Business Machines Corporation Fingerprint representation using gradient histograms
JP4547639B2 (ja) * 2008-08-26 2010-09-22 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8625921B1 (en) * 2008-09-26 2014-01-07 Google Inc. Method for image processing using local statistics convolution
CN101739397A (zh) * 2008-11-17 2010-06-16 新疆亚奥数码科技有限公司 基于mpeg-7的图像检索系统
CN101493891B (zh) * 2009-02-27 2011-08-31 天津大学 基于sift的具有镜面翻转不变性的特征提取和描述方法
WO2011071467A1 (en) 2009-12-09 2011-06-16 Thomson Licensing Method for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by feature correspondence determination
US8582889B2 (en) * 2010-01-08 2013-11-12 Qualcomm Incorporated Scale space normalization technique for improved feature detection in uniform and non-uniform illumination changes
CN101794395B (zh) 2010-03-11 2012-04-25 合肥金诺数码科技股份有限公司 一种基于Sift算法的图像匹配定位方法
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
US8625902B2 (en) * 2010-07-30 2014-01-07 Qualcomm Incorporated Object recognition using incremental feature extraction
US8428397B1 (en) * 2010-08-26 2013-04-23 Adobe Systems Incorporated Systems and methods for large scale, high-dimensional searches
US8538164B2 (en) * 2010-10-25 2013-09-17 Microsoft Corporation Image patch descriptors
CN102306383B (zh) * 2011-07-01 2013-05-29 北京交通大学 适用于宽基线图像密集匹配的描述符的构建方法
JP2013097583A (ja) * 2011-11-01 2013-05-20 Nec Corp 特徴量生成装置、方法及びプログラム
CN104067272A (zh) * 2011-11-21 2014-09-24 诺基亚公司 用于图像处理的方法和装置
EP2801055B1 (en) * 2012-01-02 2016-04-20 Telecom Italia S.p.A. Method and system for image analysis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066582A (ko) * 2001-05-11 2003-08-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 순환적 히스토그램 벡터 발생과 매칭하는 팔레트-기초히스토그램
KR20040065523A (ko) * 2003-01-13 2004-07-22 한국전자통신연구원 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법
US20100226575A1 (en) * 2008-11-12 2010-09-09 Nokia Corporation Method and apparatus for representing and identifying feature descriptions utilizing a compressed histogram of gradients
JP2011053953A (ja) * 2009-09-02 2011-03-17 Toyota Central R&D Labs Inc 画像処理装置及びプログラム
JP2012103758A (ja) * 2010-11-05 2012-05-31 Denso It Laboratory Inc 局所特徴量算出装置及び方法、並びに対応点探索装置及び方法
KR101127793B1 (ko) * 2011-01-04 2012-03-23 위드로봇 주식회사 이미지 인식 시스템 및 그 제공방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023008671A1 (ko) * 2021-07-28 2023-02-02 주식회사 넥스트칩 특징점에 대한 기술자를 생성하기 위한 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
JP6292454B2 (ja) 2018-03-14
BR112014031268A2 (pt) 2017-06-27
CN108520265B (zh) 2021-09-07
JP2015522194A (ja) 2015-08-03
EP2870568B1 (en) 2020-06-24
JP2017224337A (ja) 2017-12-21
RU2015104066A (ru) 2016-08-27
US10713523B2 (en) 2020-07-14
TWI532012B (zh) 2016-05-01
JP6714669B2 (ja) 2020-06-24
TW201407542A (zh) 2014-02-16
CN104428793A (zh) 2015-03-18
CN108520265A (zh) 2018-09-11
CN104428793B (zh) 2018-05-08
JP6429134B2 (ja) 2018-11-28
WO2014009198A1 (en) 2014-01-16
HK1259139A1 (zh) 2019-11-29
US20150332116A1 (en) 2015-11-19
US9454710B2 (en) 2016-09-27
EP3702965A1 (en) 2020-09-02
RU2661795C2 (ru) 2018-07-19
JP2019040612A (ja) 2019-03-14
ES2811532T3 (es) 2021-03-12
ITTO20120602A1 (it) 2014-01-10
AR091674A1 (es) 2015-02-18
KR102193177B1 (ko) 2020-12-21
EP2870568A1 (en) 2015-05-13
US20170300775A1 (en) 2017-10-19
EP3702965B1 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
US10713523B2 (en) Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus
CN111950653B (zh) 视频处理方法和装置、存储介质及电子设备
CN106445939B (zh) 图像检索、获取图像信息及图像识别方法、装置及系统
CN103026368B (zh) 使用增量特征提取的对象辨识
CN108182421B (zh) 视频分割方法和装置
CN110147710B (zh) 人脸特征的处理方法、装置和存储介质
CN109360028B (zh) 用于推送信息的方法和装置
Zhang et al. A joint compression scheme of video feature descriptors and visual content
US20100114871A1 (en) Distance Quantization in Computing Distance in High Dimensional Space
Tsai et al. Improved coding for image feature location information
CN104392207A (zh) 一种用于数字图像内容识别的特征编码方法
US8755605B2 (en) System and method for compact descriptor for visual search
JP6035173B2 (ja) 画像検索システム及び画像検索方法
CN108764258B (zh) 一种用于群体图像插入的最优图像集选取方法
RU2698765C2 (ru) Устройство обработки изображений и способ кодирования дескриптора изображения на основе гистограмм градиентов
Hassan et al. Spatial domain lossless image data compression method
Xiao et al. Identity preserving loss for learned image compression
Chen et al. A two-part predictive coder for multitask signal compression
Tanaka Impact of Video Compression On Object Tracking Performance
Wang et al. PQ-WGLOH: A bit-rate scalable local feature descriptor
Kim et al. A novel image retrieval scheme using DCT filter-bank of weighted color components
Ma et al. Rank learning based no-reference quality assessment of retargeted images
Pessoa et al. A study on low-cost representations for image feature extraction on mobile devices
Kim et al. Image Retrieval System using DCT filter-bank in RGB color space

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant