KR20140046394A - 객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들 - Google Patents

객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR20140046394A
KR20140046394A KR1020137013709A KR20137013709A KR20140046394A KR 20140046394 A KR20140046394 A KR 20140046394A KR 1020137013709 A KR1020137013709 A KR 1020137013709A KR 20137013709 A KR20137013709 A KR 20137013709A KR 20140046394 A KR20140046394 A KR 20140046394A
Authority
KR
South Korea
Prior art keywords
image
variance value
variance
value
feature generation
Prior art date
Application number
KR1020137013709A
Other languages
English (en)
Other versions
KR101650994B1 (ko
Inventor
잉용 치
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20140046394A publication Critical patent/KR20140046394A/ko
Application granted granted Critical
Publication of KR101650994B1 publication Critical patent/KR101650994B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 실시형태들은 객체 인식을 위한 피처 생성을 개선시키기 위한 시스템들, 장치 및 방법들을 고려한다. 특히, 본 실시형태들은 분산된 픽셀 분포들에 대응하는 이미지들의 부분들을 제외 및/또는 변경하는 것을 고려한다. 피처 생성 프로세스 내의 이들 지역들을 제외 및/또는 변경함으로써, 더 적은 바람직하지 않은 피처들이 생성되고 컴퓨테이션 리소스들이 보다 효율적을 채용될 수도 있다.

Description

객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들{SYSTEMS AND METHODS TO IMPROVE FEATURE GENERATION IN OBJECT RECOGNITION}
본 실시형태들은 머신 비전 (machine vision) 에 관한 것으로, 특히 개선된 피처 생성을 위한 방법들, 장치 및 시스템들에 관한 것이다.
모바일 무선 통신 디바이스들, 개인 휴대 정보 단말기 (PDA) 들, 랩톱 컴퓨터들, 데스크톱 컴퓨터들, 디지털 카메라들, 디지털 레코딩 디바이스들 등을 포함하는, 광범위한 전자 디바이스들은 머신 비전 기법들을 채용하여 다목적 이미징 기능들을 제공한다. 이들 기능들은 다양한 다른 태스크들과 함께, 이들 시스템들이 사용자들의 그들의 현재 로케이션에서의 랜드마크들의 인식, 친구와 타인의 식별을 돕는 것을 허용하는 객체 인식 프로세스들/기법들을 포함할 수도 있다.
이들 객체 인식 프로세스들/기법들은 객체의 이미지를 중요한 "피처들" 의 콜렉션으로 저감시킴으로써 이미지 내의 하나 이상의 객체들을 식별할 수도 있다. 로 (raw) 이미지 픽셀 데이터로부터 객체를 인식하려고 시도하기 보다는, 그 대신 이들 프로세스들/기법들은 객체를 포함하는 "훈련 (training)" 이미지로부터의 이들 피처들을, 객체를 포함할 수도 있고 또는 포함하지 않을 수도 있는 새로운 이미지와 비교함으로써 객체를 인식한다. 새로운 이미지가 "훈련" 이미지의 피처들에 대응하는 피처들을 갖는다면, 프로세스는 동일한 객체가 양자의 이미지들에 존재한다는 것을 결정할 수도 있다. 프로세스들/기법들은, 객체들이 다양한 상이한 배향 (orientation) 들 하에서, 및 다양한 조명 조건들 하에서 인식될 수도 있는 그러한 방식으로 피처들을 선택할 수도 있다.
모바일 디바이스들이 점점 더 소형이 될수록, 피처 생성 및 인식을 수행하기 위한 보다 효율적인 방법들의 필요성이 존재한다. 이러한 개선된 방법들은 이들 인식 프로세스들/기법들에 의존하는 다양한 이미징 애플리케이션들의 기능성을 개선시킬 것이다.
본 실시형태들 중 일부는 적어도 하나의 프로세서 상에서 수행되는, 피처들을 생성하는 방법을 포함할 수도 있다. 이 방법은 이미지의 적어도 부분과 분산 값을 연관시키는 단계, 및 분산 값이 이미지의 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 이미지의 적어도 부분의 적어도 일부를 제외시키는 단계를 포함할 수도 있다. 일부 실시형태들에서, 부분을 제외시키는 것은, 이미지의 적어도 부분이 피처 생성 프로세스의 적어도 부분에 의해 프로세싱되기 전에 이미지의 적어도 부분을 상이한 값들로 대체하는 것을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함할 수도 있다. 소정의 실시형태들에서, 분산 값은 이미지의 부분의 주파수 특성을 포함할 수도 있다. 소정의 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초할 수도 있다. 소정의 실시형태들에서, 분산 값을 연관시키는 단계는, 이미지의 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계; 동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리를 측정하는 단계를 포함할 수도 있다. 소정의 실시형태들에서, 적어도 2 개의 콜렉션들의 제 1 모멘트 간의 거리는 분산 값의 값에 반비례할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 스케일-불변 피처 변환 (SIFT) 의 적어도 부분을 포함할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함할 수도 있다.
일부 실시형태들은, 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체를 포함할 수도 있으며, 명령들은, 전자 디바이스로 하여금, 이미지의 적어도 부분과 분산 값을 연관시키는 단계; 및 분산 값이 이미지의 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 이미지의 적어도 부분의 적어도 일부를 제외시키는 단계를 수행하게 하도록 구성된다. 일부 실시형태들에서, 부분을 제외시키는 것은, 이미지의 적어도 부분이 피처 생성 프로세스의 적어도 부분에 의해 프로세싱되기 전에 이미지의 적어도 부분을 상이한 값들로 대체하는 것을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함할 수도 있다. 소정의 실시형태들에서, 분산 값은 이미지의 부분의 주파수 특성을 포함할 수도 있다. 소정의 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초할 수도 있다. 일부 실시형태들에서, 분산 값을 연관시키는 단계는, 이미지의 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계; 동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리를 측정하는 단계를 포함할 수도 있다. 일부 실시형태들에서, 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리는 분산 값의 값에 반비례할 수도 있다. 소정의 실시형태들에서, 피처 생성 프로세스는 스케일-불변 피처 변환 (SIFT) 의 적어도 부분을 포함할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함할 수도 있다. 일부 실시형태들에서, 전자 디바이스는 무선 전화기를 포함할 수도 있다.
일부 실시형태들은, 명령들을 포함하는 전자 디바이스를 포함할 수도 있으며, 명령들은, 이미지의 적어도 부분과 분산 값을 연관시키는 단계; 및 분산 값이 이미지의 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 이미지의 적어도 부분의 적어도 일부를 제외시키는 단계를 수행하도록 구성된다. 소정의 실시형태들에서, 부분을 제외시키는 것은, 이미지의 적어도 부분이 피처 생성 프로세스의 적어도 부분에 의해 프로세싱되기 전에 이미지의 적어도 부분을 상이한 값들로 대체하는 것을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분의 주파수 특성을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초할 수도 있다. 소정의 실시형태들에서, 분산 값을 연관시키는 단계는, 이미지의 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계; 동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리를 측정하는 단계를 포함할 수도 있다. 일부 실시형태들에서, 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리는 분산 값의 값에 반비례할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 스케일-불변 피처 변환 (SIFT) 의 적어도 부분을 포함할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함할 수도 있다. 소정의 실시형태들에서, 전자 디바이스는 무선 전화기를 포함할 수도 있다.
일부 실시형태들은, 이미지의 적어도 부분과 분산 값을 연관시키는 수단; 및 분산 값이 이미지의 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 이미지의 적어도 부분의 적어도 일부를 제외시키는 수단을 포함하는 전자 디바이스를 포함할 수도 있다. 소정의 실시형태들에서, 연관시키는 수단은 클래스 간 변화량 및 클래스 내 변화량을 결정하도록 구성된 분산 판별기 (dispersion discriminator) 소프트웨어 모듈을 포함할 수도 있고, 제외시키는 수단은 스위치를 포함할 수도 있다. 소정의 실시형태들에서, 부분을 제외시키는 것은, 이미지의 적어도 부분이 피처 생성 프로세스의 적어도 부분에 의해 프로세싱되기 전에 이미지의 적어도 부분을 상이한 값들로 대체하는 것을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분의 주파수 특성을 포함할 수도 있다. 일부 실시형태들에서, 분산 값은 이미지의 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초할 수도 있다. 일부 실시형태들에서, 분산 값을 연관시키는 수단은, 이미지의 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 수단; 동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 수단; 및 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리를 측정하는 수단을 포함할 수도 있다. 일부 실시형태들에서, 적어도 2 개의 콜렉션들의 제 1 모멘트들 간의 거리는 분산 값의 값에 반비례할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 스케일-불변 피처 변환 (SIFT) 의 적어도 부분을 포함할 수도 있다. 일부 실시형태들에서, 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함할 수도 있다. 일부 실시형태들에서, 전자 디바이스는 무선 전화기를 포함할 수도 있다.
상기 개시된 양태들은 개시된 양태들을 제한하는 것이 아니라 예시하기 위해 제공된, 첨부된 도면들과 함께 후술될 것이며, 유사한 명칭들은 유사한 엘리먼트들을 나타낸다.
도 1 은 모바일 디바이스를 서버, 데이터베이스 및 네트워크 송신 시스템과 관련하여 도시한 일반화된 블록 다이어그램이며, 여기서 디바이스들 중 하나 이상은 본 실시형태들 중 소정의 실시형태를 구현한다.
도 2 는 본 실시형태들 중 일부와 연관된 소정의 이미징 애플리케이션들이 채용할 수도 있는 모바일 디바이스의 다양한 컴포넌트들의 블록 다이어그램이다.
도 3 은 소정의 실시형태들의 피처 생성 모듈에서 구현될 수도 있도록 다양한 SIFT 패밀리 피처 생성 프로세스들에서 확인된 여러 단계들을 도시한 플로우 다이어그램이다.
도 4 는 모바일 디바이스의 피처 인식 시스템의 다른 컴포넌트들과 관련한 도 3 의 플로우 다이어그램의 배치를 예시한 일반화된 블록 다이어그램이다.
도 5 는 도 4 의 컴포넌트들과 관련하여 소정의 실시형태들에서 이용되는 분산 판별기의 배치 및 동작을 도시한다.
도 6 은 도 4 의 컴포넌트들과 관련하여 소정의 실시형태들에서 이용되는 분산 판별기의 배치 및 동작을 도시한다.
도 7 은 소정의 실시형태들에서의 분산 판별기의 다양한 동작들을 예시한 흐름도이다.
도 8a 는 6x6 픽셀 블록의 색상 기반 양자화 레벨들의 한가지 가능한 세트를 예시한다.
도 8b 는 6x6 픽셀 블록의 색상 기반 양자화 레벨들의 한가지 가능한 세트를 예시한다.
도 8c 는 6x6 픽셀 블록의 강도 기반 양자화 레벨들의 다른 가능한 세트를 예시한다.
도 9a 는 분산 판별기의 소정의 실시형태들에서 이용되는, 클래스 간 파라미터들의 가능한 배치를 예시하며, 여기서 클래스 간 변화량은 도 9b 의 파라미터들 간의 변화량과 관련하여 크다.
도 9b 는 분산 판별기의 소정의 실시형태들에서 이용되는, 클래스 간 파라미터들의 가능한 배치를 예시하며, 여기서 클래스 간 변화량은 도 9a 의 파라미터들 간의 변화량과 관련하여 작다.
도 10a 는 비교적 높은 클래스 내 변화량 및 비교적 낮은 클래스 간 변화량을 갖는 샘플 분포를 예시한다.
도 10b 는 비교적 낮은 클래스 내 변화량 및 비교적 높은 클래스 간 변화량을 갖는 샘플 분포를 예시한다.
여기에 개시된 구현들은 객체 인식 시스템에서 개선된 피처 생성을 위한 시스템들, 방법들 및 장치를 제공한다. 특히, 본 실시형태들은 바람직하지 않은 객체 인식 피처들을 생성하는 이미지의 부분들을 제외시키도록 다양한 피처 생성 프로세스들을 변경하는 것을 고려한다. 당업자는, 이들 실시형태들이 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수도 있다는 것을 인식할 것이다.
일부 실시형태들은 적어도 하나의 컴퓨터 프로세서 상에서 수행되는, 이미지의 피처들을 생성하기 위한 방법 또는 시스템에 관한 것이다. 이 방법에서, 이미지의 적어도 부분과 연관된 분산 값이 생성될 수도 있다. 분산은 일반적으로 이미지 지역에서 유사한 픽셀들의 서로로부터의 분리를 지칭한다. 유사한 픽셀들이 서로 가까이에 상주하는 경우, 분산은 더 낮다. 많은 사이에 오는 다른 픽셀들이 유사한 픽셀들을 분리하는 경우, 분산은 더 높다. 또한, 구별가능한 그룹들이 존재한다고 할 수 없을 정도록 픽셀들이 유사한 경우에는 분산을 "높은" 것으로서 정의할 수도 있다. 유사한 픽셀들은, 개개의 유사한 픽셀들이 이미지 내에 멀리 분리된 "클럼프들" 또는 그룹들에서 서로의 옆에 상주하는 경우라도, 전체로서 "분산" 될 수도 있다는 것에 주목한다. "분산 값" 은 분산의 정도를 나타낼 수도 있다.
이 방법은, 분산 값이 이미지 부분 내의 픽셀 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 이미지의 부분을 제외시킨다. 당업자는, 여기에 참조된 임계값이 분산 정도와 관련되고, 실제 구현이 다양한 형태들 (이를 테면, 정반대 또는 범위) 의 임계값을 나타낼 수도 있다는 것을 쉽게 인식할 것이다. 따라서, "임계값을 초과" 는 어떤 특정 구현이 그 조건을 기술하기 위해 채용되는지에 관계없이, 충분한 양의 분산이 존재한다는 것을 나타낸다. 이 피처 생성 방법은, 예를 들어, 캡처된 이미지 상에서 이미지 인식을 수행중인 셀룰러 전화기에서 유용할 수도 있다. 임계값을 넘는 분산된 픽셀 분포를 갖는 이미지의 부분들을 제외시킴으로써, 시스템은 피처 생성 프로세스로부터 그 부분들을 제거할 수 있다. 실질적으로 유사한 픽셀들의 지역들과 같은 다른 지역들은 또한 어떠한 구별가능한 픽셀 그룹들도 없을 때 제거될 수도 있다. 이 방법은, 후속 캡처된 이미지에서 피처들이 생성되지도 인식되지도 않을 때 컴퓨테이션 리소스들을 절약할 수도 있다.
다음의 설명에서, 특정 상세는 상기 예들의 완전한 이해를 제공하기 위해 주어진다. 그러나, 상기 예들이 이들 특정 상세 없이 실시될 수도 있다는 것이 당업자에 의해 이해될 것이다. 예를 들어, 전기 컴포넌트들/디바이스들은 상기 예들을 불필요한 상세로 모호하게 하지 않기 위하여 블록 다이어그램들로 도시될 수도 있다. 다른 경우들에서, 이러한 컴포넌트들, 다른 구조들 및 기법들은 상기 예들을 추가 설명하기 위해 상세히 도시될 수도 있다.
또한, 상기 예들은 프로세스로서 설명될 수도 있으며, 이는 플로우차트, 플로우 다이어그램, 유한 상태 다이어그램, 구조 다이어그램, 또는 블록 다이어그램으로서 도시된다는 것에 주목한다. 플로우차트는 동작들을 순차적인 프로세스로서 설명할 수도 있지만, 그 동작들의 대부분은 병렬로, 또는 동시발생적으로 수행될 수도 있고, 프로세스는 반복될 수 있다. 또한, 동작들의 순서는 재배열될 수도 있다. 프로세스는, 그 동작들이 완료될 때 종료된다. 프로세스는 방법, 함수, 프로시저, 서브루틴, 서브프로그램 등에 대응할 수도 있다. 프로세스가 소프트웨어 함수에 대응하는 경우, 그 종료는 그 함수의 호출 함수 또는 메인 함수로의 리턴에 대응한다.
당업자는, 정보 및 신호들이 다양한 상이한 기술들 및 기법들 중 임의의 것을 이용하여 나타내질 수도 있다는 것을 이해할 것이다. 예를 들어, 상기 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 자기장들 또는 자기 입자들, 광학장들 또는 광학 입자들, 또는 이들의 임의의 조합으로 나타내질 수도 있다.
객체 인식 시스템들은 컴퓨터 디바이스들이 이미지 내의 하나 이상의 객체들을 식별하는 것을 허용한다. 이들 시스템들은 일반적으로 이미지들의 제 1 세트 내의 객체의 시각적 피처들을 학습하기 위한 제 1 세트의 프로세스들 및 후속하여 새로운 이미지들의 제 2 세트 내의 그 시각적 피처들을 인식하기 위한 제 2 세트의 프로세스들을 포함한다. 이미지들의 제 1 세트는 여기서 "훈련" 이미지들로 지칭될 수도 있고, 제 2 세트는 "테스트", "라이브", 또는 "인-필드" 이미지들로 지칭될 수도 있다. 제 1 세트의 프로세스들은 훈련 이미지들로부터 인식될 객체들을 나타내는 피처들을 추출한다. 제 2 단계에서, 시스템은 테스트 또는 라이브 이미지들에서 이들 피처들을 인식함으로써 객체를 식별할 수도 있다.
피처 생성 프로세스는 훈련 이미지에서, 여기에 포함된 객체를 식별하는데 유용한 피처들을 식별한다. 객체를 인식하는 것에 대한 관련성을 복잡하게 하거나 또는 그 관련성이 적은 피처들은 제외되어야 한다. 본 실시형태들은 피처 생성을 개선시키기 위한 신규한 시스템들 및 방법들을 고려한다. 특히, 본 실시형태들은 바람직하지 않은 피처들을 생성할 수도 있는 피처 생성 프로세스에서 이미지의 부분들을 제외시킨다. 특히, 실시형태들은 피처 생성 시스템들이 텍스처들, 랜덤 픽셀들을 도시하는 이미지 지역들 내의 바람직하지 않은 피처들, 또는 다른 영역들의 "분산된" 픽셀 분포를 규칙적으로 식별한다는 사실에 대해 정정한다. 일부 실시형태들은 또한, 단지 동일한, 또는 실질적으로 유사한 픽셀들을 포함하는 지역들과 같이, 피처들을 생성하는 것이 가능하지 않은 프로세스로부터 이미지 부분들을 제거함으로써 컴퓨테이션을 개선시킬 수도 있다. 피처 생성 프로세스 내의 이들 지역들을 제외 및/또는 변경함으로써, 더 적은 바람직하지 않은 피처들이 생성될 수도 있고 및/또는 컴퓨테이션 시간 및 리소스들이 절약될 것이다. 본 실시형태들은 "훈련" 이미지의 로 픽셀들에서 이들 지역들을 인식할 수도 있지만, 그들을, 주파수, 스케일-공간, n-차원 표현들 (서포트 벡터 머신들에서 사용됨) 과 같은 대안의 표현들, 또는 상이한 피처 생성 프로세스들에 공통이고 당업계에 잘 알려져 있는 다른 표현들로 인식할 수도 있다. 이 방식으로, 시스템은 이들 피처들을 생성하도록 리소스들을 다이렉팅하지 않음으로써, 그리고 또한 후속 인식 동안 이들 피처들을 이용하지 않음으로써 이익을 얻는다. 이들 개선들은 피처 생성 프로세스를 채용하는 임의의 시스템에서 이익들을 산출하지만, 그들은 컴퓨테이션 시간 및 효율이 부족한 모바일 디바이스들에 특히 유용하다.
도 1 은 서버 (102), 데이터베이스 (103), 및 네트워크 (104), 이를 테면 셀룰러 네트워크와 관련한 모바일 디바이스 (101) 를 포함하는 통신 시스템 (100) 의 하이-레벨 블록 다이어그램을 도시한다. 모바일 디바이스 (101) 는 셀폰, 랩톱, 개인 휴대 정보 단말기 등을 포함할 수도 있다. 모바일 디바이스 (101) 는 서버 (102) 와 통신하고 있을 수도 있고, 서버 (102) 그 자체는 데이터베이스 (103) 와 통신하고 있다. 서버 (102) 는 셀룰러 기지국에 위치될 수도 있고, 또는 로컬 네트워크 서버 또는 라우터 상에 위치될 수도 있다. 데이터베이스 (103) 는 유사하게 서버 (102) 내에, 또는 개별의 로케이션에 위치될 수도 있다. 모바일 디바이스 (101) 는 카메라를 포함하거나 또는 USB, WI-FI 또는 블루투스 접속과 같이, 이미지들을 수신하기 위한 다른 수단을 포함할 수도 있다. 복수의 애플리케이션들은 모바일 디바이스 (101) 를 통해 사용자에게 이용가능할 수도 있다. 이들 애플리케이션들은 메시징 서비스들, 이미지 캡처 애플리케이션들, 및 당업자에게 알려진 다른 공통 애플리케이션들을 포함할 수도 있다. 모바일 디바이스 (101) 상의 애플리케이션들 중 일부는 원격 로케이션으로부터 수신된 이미지들에 대해 동작하거나, 또는 모바일 디바이스 (101) 의 카메라에 의해 로컬로 생성된 이미지들에 대해 동작할 수도 있다. 일부 애플리케이션들에서, 데이터베이스 (103) 는 이미지 스토리지를 포함할 수도 있고, 모바일 디바이스 (101) 는 서버 (102) 를 통해 데이터베이스 (103) 로 및/또는 그로부터 송신 및/또는 수신할 수도 있다. 이들 이미지들은 모바일 디바이스 (101) 상에서 동작하는 애플리케이션들에 의해 생성되거나 이용될 수도 있다.
상기 언급한 바와 같이, 피처 생성 프로세스들은 이미지 내의 객체들을 후속하여 인식하는데 이용될 수도 있는 "피처들" 을 생성한다. 일부 실시형태들에서, 데이터베이스 (103) 는 이미지들 내의 객체들을 식별하는데 이용되는 피처들의 콜렉션을 포함할 수도 있다. 이들 피처들은 이하 더 상세히 설명한 바와 같이, "훈련" 이미지를 수신한 피처 생성 프로세스로부터 생성될 수도 있다. 모바일 디바이스 (101) 상의 애플리케이션이 이미지에서 객체를 식별하길 원하는 경우, 모바일 디바이스 (101) 는 피처 인식 프로세스의 일부로서 피처들을 적용하기 위하여 데이터베이스 (103) 로부터 피처들을 취출할 수도 있다. 대안으로, 그 피처들은 모바일 디바이스 (101) 상에 로컬로 저장될 수도 있다. 피처들은 훈련 이미지를 수신한 후 모바일 디바이스 (101) 에 의해 데이터베이스 (103) 로 업로드될 수도 있다. 서버 (102) 는 또한 네트워크 (104) 와 통신하고 있고, 네트워크로부터 원격으로 이미지들 또는 피처들을 수신할 수도 있다. 따라서, 모바일 디바이스 (101) 나 데이터베이스 (103) 중 어느 하나는 인식을 위해 저장된 이미지들 또는 피처들을 포함할 수도 있다.
도 1 은 모바일 시스템을 도시하지만, 당업자는, 본 실시형태들이 또한 임의의 이미징 시스템에 적용될 수도 있다는 것을 쉽게 인식할 것이다. 예를 들어, 로컬 이미지 스토리지를 포함하는, 데스크톱 시스템은 또한, 로컬로 실행하는 피처 생성 프로세스들의 일부로서 본 실시형태들의 대부분을 구현할 수도 있다.
도 2 는 일부 실시형태들의 이미징 애플리케이션들에서 채용될 수도 있는 모바일 디바이스 (101) 의 다양한 컴포넌트들의 블록 다이어그램을 도시한다. 모바일 디바이스 (101) 는 렌즈 (200) 를 통해 이미지들을 캡처하는 이미지 캡처링 시스템 (201) 을 포함할 수도 있다. 이들 이미지들은 당업계에 알려져 있는 바와 같은 RAM, SRAM, 동적 또는 정적 메모리를 포함할 수도 있는 이미지 버퍼 (205) 내에 저장될 수도 있다. 대안으로, 이미지들 또는 피처들은 파이어와이어, USB, IR 트랜시버, 블루투스 인터페이스 등을 포함할 수도 있는, 커넥터 (206) 를 통해 수신될 수도 있다. 이들 이미지들 또는 피처들은 예를 들어, 다른 사용자가 다른 디바이스로부터 그들을 송신하는 경우, 또는 모바일 디바이스 (101) 의 사용자가 로컬 네트워크 또는 스토리지 디바이스, 이를 테면 데스크톱 컴퓨터에 접속하는 경우 수신될 수도 있다.
모바일 디바이스 (101) 는 또한, 안테나 (208) 또는 커넥터 (207) 를 통해 이미지들 및 피처 데이터를 포함하는, 정보를 송신 또는 수신하기 위한 모뎀 (204) 을 포함할 수도 있다. 안테나 (208) 는 WI-FI, 셀룰러 네트워크 등에 접속하기 위해 이용되는 무선 안테나일 수도 있다. 일단 피처들이 식별되었다면, 사용자는 그 피처들을 모뎀 (204) 을 통해 데이터베이스 (103) 로 업로드하여, 그 피처들은 후속 인식 시도 동안 리콜될 수도 있다. 대안으로, 피처들은 로컬로 저장될 수도 있다.
이미지 캡처 시스템 (201) 은 스탠드-얼론 하드웨어, 소프트웨어 또는 펌웨어 모듈을 포함할 수도 있다. 그러나, 일부 실시형태들에서, 이미지 캡처 시스템은 프로세서 내의 컴포넌트로서, 도 2 에 도시한 바와 같은 모바일 디바이스 (101) 의 프로세서 (202), 또는 프로세서 (202) 상에서 실행하는 소프트웨어로 통합될 수도 있다. 이미지 캡처 시스템은 이미지를 생성하기 위하여 렌즈 (200) 를 동작시킨다. 프로세서 (202) 는 범용 프로세싱 유닛 또는 이미징 애플리케이션들용으로 특수 설계된 프로세서일 수도 있다.
프로세서 (202) 는 피처 생성 모듈 (203) 을 포함할 수도 있으며, 그 피처 생성 모듈 (203) 그 자체는 프로세서 (202) 상에서 실행하는 소프트웨어, 프로세서 내의 전용 컴포넌트, 또는 개별의 스탠드얼론 하드웨어, 소프트웨어 또는 펌웨어 모듈 등을 포함할 수도 있다. 피처 생성 모듈 (203) 은 스케일 불변 피처 변환 (scale-invariant feature transform; SIFT) 코드 모듈을 포함할 수도 있다. SIFT 는 본 실시형태들로부터 이익을 얻는 하나의 가능한 피처 생성 프로세스를 포함한다. 피처 생성 모듈 (203) 은 하나 이상의 추가적인 피처 인식 프로세스들을 수행하도록 설계된 소프트웨어, 펌웨어 또는 하드웨어를 포함할 수도 있다. 예를 들어, "SIFT 프로세스 패밀리" 로 여기에 지칭된 SIFT 프로세스에 대한 변화들은, "종래의 (traditional)" SIFT, PCA-SIFT, SURF, FIT, 아핀 불변 (Affine-Invariant) SIFT, RIFT (회전 불변 SIFT), G-RIF (일반화된 로버스트 불변 피처), 및 GLOH (gradient location and orientation histogram) 등을 포함할 수도 있다. 피처 생성 모듈 (203) 은 특정 세트의 상황을 고려해 볼 때 다양한 피처 생성 프로세스들 간에 선택가능할 수도 있다. 예를 들어, 종래의 SIFT 는 제 1 세트의 리소스들을 프로세싱하는 애플리케이션들에 채용될 수도 있는 반면, SURF 는 제 2 세트의 상황 하에서 채용될 수도 있다. 이해의 용이함을 위해, 이하의 설명은 SIFT 피처 생성 프로세스를 주로 논의하지만, 당업자는, 본 실시형태들의 다른 피처 생성 프로세스들에의 적용을 쉽게 인식할 것이다.
모바일 디바이스 (101) 의 동작의 일 예로서, 모바일 디바이스 사용자는, 모바일 사용자가 다른 사람의 얼굴을 잊어버리면, 그들이 그 사람을 추후에 여전히 인식할 수 있도록 그 사람의 얼굴 이미지를 촬영하길 원할 수도 있다. 모바일 디바이스 사용자는 또한 DVD 커버와 같은 객체의 사진을 촬영하고 DVD 커버의 이미지 또는 텍스트 (또는 이미지 및 텍스트) 의 전부 또는 일부의 피처들을 추출하길 원할 수도 있다. 유사하게, 사용자는 와인병 또는 음악 CD 상의 상품 라벨을 인식하길 원할 수도 있다. 이들 예들에서, 사용자는 "훈련" 이미지들 그 자체를 이전에 획득하였을 수도 있고, 또는 "훈련" 이미지들은 데이터베이스 (103) 와 같은 데이터베이스 내에 사전 저장될 수도 있다. 모바일 디바이스 (101) 는 렌즈 (200) 및 이미지 캡처 시스템 (201) 을 이용하여 이미지를 캡처할 수도 있다. 이미지는 버퍼 (205) 에 저장된 후 피처 생성 모듈 (203) 에 의해 프로세싱되어 모뎀 (204) 및 안테나 (208) 를 통해 서버 (102) 로 송신되는 피처들을 추출할 수도 있다. 서버 (102) 는 그 후 그 피처들을 데이터베이스 (103) 내에 저장할 수도 있다. 나중에, 사용자가 동일한 사람을 다시 조우하는 경우, 그들은 모바일 디바이스 (101) 를 이용하여 그 사람의 사진을 다시 촬영할 수도 있다. 모바일 디바이스 (101) 는 안테나 (208) 및 모뎀 (204) 을 통해 데이터베이스 (103) 로부터 피처들을 취출하고, 그 피처들을 이용하여 새롭게 캡처된 이미지에 대한 피처 인식을 수행할 수도 있다. 대안으로, 이미지는 데이터베이스 (103) 로 업로드될 수도 있다. 이 방식으로, 사용자는 두번째 조우에서 사람의 아이덴티티를 결정할 수도 있다. 당업자는, 상기 설명된 다양한 동작들이 모바일 디바이스 또는 서버 상에서 대안으로 수행될 수도 있다는 것을 쉽게 인식할 것이다. 예를 들어, 피처 생성 모듈 (203) 은 그 대신 서버 (102) 상에 위치될 수도 있고, 모바일 디바이스 (101) 는 피처 인식 동작들을 로컬로 수행하기 보다는 피처 인식을 위한 로 이미지들을 송신할 수도 있다.
언급한 바와 같이, 소정의 실시형태들의 다음의 설명은 피처 생성 프로세스들의 SIFT 패밀리에 대하여 행해진다. 그러나, 당업자는, 도 5 및 도 6 에서 설명된 실시형태들이 영공간 (null-space) PCA, 서포트 벡터 머신들, 뉴럴 네트워크 등과 같은 그러한 피처 생성 프로세스들에 행해질 수도 있다는 것을 쉽게 인식할 것이다.
도 3 은 피처 생성 프로세스의 SIFT 패밀리에서의 많은 단계들을 도시한 플로우 다이어그램이다. 소정의 도시된 단계들은 대부분의 프로세스들에 공통적이지만, 다른 단계들은 단지 소정의 패밀리 멤버들에게만 특정된다. 예를 들어, "종래의" SIFT 는 가우시안 커널을 이용하여 스케일 공간 표현을 생성할 것이지만 (301), SURF 는 그 대신 박스 함수를 이용할 수도 있다 (302). 일반적으로 말하면, 프로세스들의 SIFT 패밀리는 "스케일 공간 극값 검출", "키포인트 로컬화", "배향 할당" 및 "키포인트 디스크립터들의 생성" 의 단계들을 포함한다. 일 버전의 SIFT 는 간행물 David G. Lowe, "Distinctive image features from scale-invariant keypoints", International Journal of Computer Vision, 60, 2 (2004), pp. 91-110 (이하 Lowe) 에서 상세히 설명된다. 당업자는, Lowe 의 용어들이 본 출원의 용어들과 정확히 대응하지 않는다는 것을 인식할 수도 있다.
프로세스들의 SIFT 패밀리는 일반적으로 카메라로부터 또는 스토리지로부터 입력 (311) 으로서 로 이미지 픽셀 데이터 (300) 를 수신함으로써 시작한다. 이들 로 픽셀들은 "스케일 공간 표현" (301, 302) 으로 컨버팅된다. 스케일 공간은 당업계에 쉽게 알려진 신호 프로세싱 기법이며, 여기서 로 이미지 (300) 는 다양한 스케일들에서 "블러링된 (blurred)" 표현을 생성하기 위해 "블러링된다". 다양한 스케일에서의 표현은, 이미지의 다수의 버전들이 다양한 스케일들 및 블러링 정도에서 생성되기 때문에, "피라미드" 표현으로 지칭될 수도 있다. 이 방식으로, 이미지는, 즉, 로 픽셀 정보를 "일반화하는 것인" 이미지 스케일에 대한 변환들이 불변인 형태로 컨버팅된다.
스케일 공간 표현을 구성하는 것은 다양한 스케일에서, 이를 테면 콘볼루션에 의해, "커널" 의 이미지에의 적용을 수반할 수도 있다. 언급한 바와 같이, 종래의 SIFT 와 같은 일부 프로세스들은 가우시안 커널을 이용하여 스케일 공간 이미지 표현을 구성할 수도 있다 (301). SURF 와 같은 다른 프로세스들은 박스 함수를 이용하여 스케일 공간 표현을 구성할 수도 있다 (302). 스케일 공간으로의 컨버전 후, 시스템은 스케일 공간 이미지의 원래의 이미와의 차이를 취할 수도 있다. "이미지들의 차이" (303) 는 높은 콘트라스트의 지역들을 나타낼 수도 있다. 높은 콘트라스트, 또는 "극값" 의 이들 지역들은 스케일들을 가로질러 이미지들의 차이의 로컬 최소값/최대값으로서 식별될 수도 있다. 예를 들어, 차이 이미지의 각 픽셀은 그 동일한 스케일 내의 이웃들과, 그리고 다른 다양한 스케일들 내의 이웃들과 비교될 수도 있다. 픽셀 값이 모든 비교된 픽셀들 중에서 최대값 또는 최소값이라면, 그것은 "키포인트" 로 알려진 관심 지역으로서 식별된다. 이것은 일반적으로 "키포인트 로컬화" 로 지칭될 수도 있고, Lowe 에서 더 상세히 설명된다. 키포인트들은 피처들을 생성하는데 이용될 수도 있다.
예를 들어, 서브-픽셀 보간 (305) 은 키포인트들 주변에서 픽셀-사이즈보다 적은 정확도로 키포인트의 포지션을 결정하기 위해 수행될 수도 있다. 시스템은 그 후 잘못 결정된 키포인트들을 최소화하기 위해 에지들 및 낮은 콘트라스트의 지역들에서 키포인트들 (306) 을 필터링할 수도 있다. 다음에, 피처들의 배향 불변성을 달성하기 위해, 각 그래디언트는 최대 또는 최소 픽셀 값 그래디언트의 방향에 기초하여 "배향" 을 할당받는다 (307). 이 방식으로, 키포인트들은 회전 불변 방식으로 (즉, 일부 임의의 좌표축보다는 그래디언트에 대하여) 설명될 수도 있다. 일부 실시형태들에서, 그래디언트들은 스케일-공간 피라미드의 각 레벨에 대해 컴퓨팅될 수도 있다. 이것은 일반적으로 "배향 할당" 으로 지칭될 수도 있으며, Lowe 에서 더 상세히 설명된다.
이 점에서, 각 키포인트는 이미지 로케이션, 스케일 및 배향과 연관될 수도 있다. 키포인트 디스크립터들이 그 후 키포인트의 스케일 및 회전 불변 표현을 보장하기 위해 할당될 수도 있다 (308). 이것은 키포인트 주변의 지역 내의 각 이미지 샘플 포인트에서 그래디언트 매그니튜드 및 배향을 컴퓨팅함으로써 행해질 수도 있다. 이들 샘플들은 서브지역들의 콘텐츠들을 요약함으로써 배향 히스토그램들로 어큐뮬레이팅될 수도 있다. 이것은 일반적으로 키포인트 디스크립터들의 생성으로 지칭될 수도 있으며, Lowe 에 더 상세히 설명된다.
그들의 디스크립터들과 결합된 이들 키포인트들은, 출력되고 (310) 및 후속 인식을 위해 저장될 수도 있는 "피처들" 을 포함한다. 당업자는, 이 피처들이 더 효율적인 저장을 용이하게 하기 위해 "압축" 또는 "저감" 될 수도 있다는 것을 쉽게 인식할 것이다. SIFT-PCT 에서, 예를 들어, 시스템에 의해 출력된 피처들의 수는 피처 세트의 PCT (principal component analysis) 를 수행함으로써 저감될 수도 있다 (309). PCA 는 다수의 가능하게 상관된 변수들을 주요 컴포넌트들로 불리는 더 적은 수의 미상관된 변수들로 변환하는, 수학적 프로시저, 특히 고유벡터 기반 다변량 분석이다. 일단 변환되면, 데이터의 임의의 프로젝션을 위한 가장 큰 변화량은 제 1 주좌표 상에 놓이고, 다음으로 가장 큰 변수가 제 2 주좌표를 따르며, 등등이다. 초기 주요 컴포넌트들이 가장 많은 정보를 포함하기 때문에, 보통은 데이터의 공정한 설명을 여전히 유지하면서, 추후의 컴포넌트들을 제거할 수 있다. 이 방식으로, PCA 는 예를 들어, 데이터베이스 (103) 내의 피처들의 개선된 저장을 허용하는 데이터를 설명하는데 요구된 디멘젼들의 수를 저감시키는데 사용될 수도 있다.
도 4 는 모바일 디바이스의 다른 컴포넌트들, 특히 이미지 캡처 디바이스 (201) 및 이미지 버퍼 (205) 와 관련하여, 피처 생성 모듈 (203) 에서 확인될 수도 있는 상기 피처 생성 프로세스를 예시한다. 이미지를 캡처하고 그것을 버퍼 (205) 에 저장할 때, 시스템은 로 이미지 픽셀들 (300) 을 상기 개요된 피처 생성 프로세스를 수행할 수도 있는 피처 생성 모듈 (203) 로 전달할 수도 있다.
SIFT 프로세스 패밀리의 상기 설명된 멤버들을 포함하는, 많은 피처 생성 프로세스들은 높은 주파수 상세의 지역들을 식별함으로써 이미지 내의 관심 지역들을 결정한다. 예를 들어, SIFT 프로세스에서, 스케일 공간 표현들의 차이는 "극값" 의 지역들을 나타내며, 이는 후속하여 키포인트들이 될 수도 있다. 표현들 간의 차이들은 높은 주파수의 지역들 (즉, 이웃하는 픽셀들 간의 큰 변화의 지역들) 과 등가이다. 이미지의 이들 타입들의 지역들이 적고, 드물게 분리되는 경우, 이들 높은 주파수 결정들이 잘 수행된다. 불행히도, 랜덤 노이즈는 높은 공간 주파수를 갖고, 따라서 객체 인식에 대한 적은 관련성을 갖고 피처들을 생성할 수도 있다. 유사하게, 나무의 잎들의 무더기, 대량의 글래스 블레이드들, 또는 옷의 패턴들과 같이, 텍스처를 포함하는 이미지의 영역들은 또한 덜 바람직한 피처들을 생성할 수도 있다. 이들 "분산된" 텍스처들은 인근 픽셀들 간의 상당한 변화량, 즉 높은 주파수 정보를 포함하는 이미지 지역들을 포함한다. 이들 지역들은 객체 인식 프로시저들에 적은 이익을 제공하는 피처들을 생성할 뿐만 아니라, 피처 생성 및 인식 프로세스들에서 값비싼 시간 및 리소스들을 소비한다. 따라서, 본 실시형태들은 높은 주파수의 지역들을 식별하는 피처 생성 프로세스들로부터 이들 피처들을 생성하는 이미지의 부분들을 제거하기 위한 시스템들 및 방법들을 고려한다. 다시, SIFT-패밀리가 상기 상세히 설명되었지만, 당업자는, 개시된 기법들이 높은 주파수 지역들 내의 바람직하지 않은 피처들을 생성하는 다른 프로세스들에 적용될 것임을 쉽게 인식할 것이다.
본 실시형태들은 피처 생성 프로세스 내의 또는 외의 "분산 판별기" 의 포함을 고려한다. 분산 판별기는 소프트웨어 (이를 테면 소프트웨어 모듈), 하드웨어 또는 펌웨어를 포함할 수도 있다. 분산 판별기는 피처 생성 프로세스에 의한 추가 분석으로부터, 이미지의 부분들, 이를 테면 분산된 텍스처의 지역들을 제외시킬 수도 있다. 예를 들어, 판별기는 프로세싱을 위해 이들 부분들을 프로세서에 단순히 제공하지 않을 수도 있고, 또는 이들 부분들을 바람직하지 않은 피처들을 생성하지 않을 값들로 대체할 수도 있다. 이 방식으로, 시스템은 관련있는 피처들을 더 정확하게 그리고 더 효율적으로 인식할 수도 있다. 도 5 및 도 6 은 모바일 디바이스의 피처 인식 시스템의 다른 컴포넌트들에 관련한 분산 판별기의 배치를 예시한 블록 다이어그램들을 도시한다. 도 5 및 도 6 에서의 판별기의 배치는 SIFT 에 대하여 예시할 목적이다. 그러나, 당업자는 판별기가 영공간 PCA, 서포트 벡터 머신들, 뉴럴 네트워크들 및 다른 피처 생성 프로세스들을 포함하는 시스템에 유사하게 배치될 수도 있다는 것을 쉽게 인식할 것이다. 분산 판별기의 배치 및 동작은, 당업자가 쉽게 인식하는 바와 같이, 단지 변경되어야 하기 때문에, 분산된 로 픽셀 데이터에 대응하는 이미지의 부분들을 이하 설명한 바와 같이 필터링한다.
도 5 에 예시된 일 실시형태에서, 분산 판별기 (502) 는, 캡처 디바이스 (201) 가 이미지를 획득한 후 이미지 버퍼 (205) 에서 확인되는 바와 같이 로 이미지 픽셀들 (300) 을 분석한다. 판별기는 바람직하지 않은 텍스처들을 포함할 수도 있는 픽셀들 내의 분산의 지역들을 결정한다. 판별기는 또한 동일한 픽셀들의 블록들과 같이, 변화가 적거나 없는 지역들을 결정할 수도 있다. 판별기 (502) 는 후속 피처 분석에서 이들 영역들을 제외시키기 위한, 스위치 (501), 또 다른 제외 수단을 포함하거나 또는 이들과 함께 동작할 수도 있다. 도 5 에서, 스위치 (501) 는 스케일-공간 이미지들의 차이에서 게이트 킵핑 기능을 수행하는 것으로 예시된다. 당업자는, 로 픽셀들이 로 픽셀 데이터 (300) 가 스케일 공간으로 컨버팅되기 전에 스위치 (501) 를 배치함으로써 변경 또는 제외될 수도 있다는 것을 쉽게 인식할 것이다. 반대로, 스위치 (501) 는 프로세스에서, 극값의 로케이션 (304) 다음에 추가 배치될 수도 있다. 이 방식으로, 키포인트들은 판별기가 그들이 분산된 텍스처를 포함한다는 것을 결정한 후 변경되거나 제외될 수도 있다. 당업자는, 스위치가 "제외 수단" 으로 지칭되지만, 바람직하지 않은 피처들의 생성을 회피하기 위해 이미지 콘텐츠를 제거하기 보다 변경하는 다른 디바이스들은, 그들이 바람직하지 않은 피처들에 책임이 있는 부분들을 제외하기 때문에 "제외 수단" 을 다르게 포함한다는 것을 쉽게 이해할 것이다.
도 6 의 실시형태에 도시된 다른 예로서, 판별기는 그 대신 스케일링된-공간 이미지, 즉 블러링된 이미지들에 대해 동작한다. 여기서, 스위치 (501) 는 또한 스케일링된 공간 이미지들에 대해 동작하여 그들의 콘텐츠들을 나머지 프로세스에서 제외 또는 변경한다. 판별기의 임계값들 및 파라미터들은 나머지 프로세스에서 높은 분산의 지역들을 다시 제외시키기 위해 로 픽셀들보다는 스케일-공간 데이터를 수신하기 위해 변경된다. 이들 변경들은 이하 더 상세히 설명된다. 따라서, 당업자는, 스위치 (501) 가 출력 (310) 되기 전에 프로세스의 어딘가에 배치될 수도 있다는 것을 인식할 것이다.
일부 시스템들은 피처 생성 모듈 (203) 내의 하나보다 더 많은 피처 인식 프로세스를 구현할 수도 있거나, 또는 그들은 다수의 피처 생성 모듈들 (203) 을 동작시킬 수도 있다. 예를 들어, 일부 상황에서, 더 나은 결과들이 다른 것보다 하나의 인식 프로세스를 이용하여 달성될 수도 있다. SIFT 는 저장 리소스들이 쉽게 이용가능해질 때 이용될 수도 있는 한편, PCA-SIFT 는 저장 공간이 제한될 때 이용될 수도 있다. 본 실시형태들 중 소정의 실시형태들에서, 분산 판별기 (502) 는 인식 방법들 간에 선택하는 디바이스와 통신하고 있을 수도 있다. 이미지가 취해지는 상황에 따라, 모바일 디바이스 (101) 는 다른 것보다 하나의 피처 인식 방법을 실행할 수도 있다 (이미지의 주제, 정확성 대 속도, 등). 상기 실시형태들은 판별기의 효과적인 배치를 예시했지만, 당업자는, 판별기가 출력 전에 프로세스에서 임의의 포인트에 있는 픽셀들을 제외시키도록 동작할 수도 있다는 것을 쉽게 인식할 것이다. 예를 들어, 키포인트들은 필터링 (306) 동안 또는 디스크립터들이 준비 (308) 된 후에 제거될 수도 있다. 그러나, 프로세스의 상이한 로케이션들에서의 동작은, 분산 판별기가 특정 로케이션에서 나타나는 데이터에 대해 변경되도록 요구할 수도 있다.
도 7 은, 이미지의 부분이 분산된 픽셀 데이터의 지역에 대응하는지를 결정하는데 이용되는 분산 판별기 (502) 의 다양한 동작들을 예시한 플로우 다이어그램이다. 이해의 용이함을 위해, 도 7 은 로 이미지 픽셀들에 대한 판별기 (502) 의 동작들 (700) 을 도시하지만, 대안의 방법들 (스케일-공간 어세스먼트 (assessment), 주파수 도메인 어세스먼트 등) 이 상기 설명한 바와 같이 이용될 수도 있다. 도 10a 및 도 10b 를 간단히 참조하면, 도 7 의 분산 판별기 (502) 의 동작들 (700) 뒤의 원리들이 설명될 것이다. 이들 원리들의 구현은 그 후 도 7 의 상세를 참조하여 논의될 것이다. 도 10a 는 2 개의 클래스들의 데이터 (1001a 및 100b) 에 대한 샘플 값들 (x-축) 을 가로지르는 측정치 (1000a) 를 도시한다. 이들 2 개의 클래스들의 데이터 (1001a 및 1002a) 는 각각 "클래스 내" 변화량들 (1004a, 1003a) 및 "클래스 간" 변화량 (1005a) 을 가진 2 개의 가우시안 분포들에 의해 나타내진다. 도 10b 는 연관된 "클래스 내" 변화량들 (1004a, 1003b) 및 "클래스 간" 변화량 (1005b) 을 가진, 2 개의 글래스들의 데이터 (1001b 및 1002b) 를 유사하게 나타낸다. 도 10a 의 클래스 분포들이 2 개의 클래스들이 더 큰 오버랩을 포함한다는 의미에서 더 "분산" 되는 것을 관찰할 수도 있다. 랜덤으로 선택된 값은, 양자의 클래스들이 넓인 범위를 커버하고 양자의 클래스들이 도 10b 에 도시된 클래스들에 비해 더 오버랩하기 때문에 어느 클래스에나 놓일 확률은 높다. 반대로, 도 10b 는 예시한 바와 같이, 클래스들이 더 좁게 정의되고 오버랩하지 않을 수도 있기 때문에 덜 분산된 분포를 도시한다. 소정의 실시형태들은 선형 판별 분석의 피셔 (Fischer) 판별 함수에 의해 루즈하게 야기되는 이 상대적 분산을 나타내는 값을 고려한다. 이 값은 분포의 "분산" 을 나타내는 바와 같이 "클래스 내" 와 "클래스 간" 변화량의 비를 나타낼 수도 있다. 도 10a 에서, 예를 들어, "클래스 간" 변화량 (1005a) 은 도 10b 에서 더 작고, "클래스 내" 변화량들 (1004a 및 1003a) 은 도 10b 에서 더 크다. 반대로, 도 10b 에서, "클래스 간" 변화량 (1005b) 은 도 10a 에서 더 크고, "클래스 내" 변화량들 (1004b 및 1003b) 은 도 10a 에서 더 작다. 소정의 실시형태들은 도 10a 및 도 10b 의 논의와 유사한 방식으로 "클래스 간" 및 "클래스 내" 변화량들을 이용하여 픽셀 분산을 결정하는 것을 고려한다.
이제 도 7 로 돌아가면, 판별기 (502) 는 이들 실시형태들에서, 분산의 측정이 행해질 수도 있도록 이미지 블록 내의 픽셀들의 "클래스 내" 및 "클래스 간" 분포를 결정하려고 한다 (701). 판별기가 이미지 부분을 수신 (701, 702) 하기 전에, 시스템은 이미지에서 확인될 수도 있는 픽셀 값들의 범위를 양자화한다. 이것은 픽셀 색상, 광도 (luminosity) 또는 유사한 픽셀 특성의 양자화를 포함할 수도 있고, 시스템이 분산 판별기를 채용하기 전에 발생할 수도 있다. 이 단계는 이미지 블록의 수신 후에 발생할 수도 있지만, 당업자는, 그 범위들이 이미지에 대해 동작하기 전에, 사전에 양자화될 수도 있다는 것을 쉽게 인식할 것이다. 양자화된 범위들은 예를 들어, 모바일 디바이스 (101) 또는 서버 (102) 상의 다른 곳의 테이블에서 이전에 컴퓨팅 및 저장될 수도 있다. 판별기가 후속하여 "훈련 이미지" 의 이미지 블록 내의 픽셀들을 수신 (701, 702) 하는 경우, 그 픽셀들은 그들 각각의 양자화된 범위들과 연관된다 (703). 공통 범위 내에 놓이는 픽셀들은 공통 클래스 ID 에 할당된다 (703). 즉, 값들이 동일한 양자화 범위 내에 놓이는 픽셀들은 동일한 "클래스" 를 포함한다.
도 8a 내지 도 8c 를 간략하게 참조하면, 이들 클래스들은 더 상세히 설명될 것이다. 도 8a 는 한가지 가능한 예로서, 36 개의 픽셀들을 포함하는 6x6 이미지 블록 (801) 을 예시한다. 언급한 바와 같이, 가능한 색상들의 주어진 양자화 범위 내에 놓이는 픽셀들은 연관된 양자화 레벨, 또는 클래스 ID 를 할당받을 것이다. 당업자는, 픽셀들을 양자화 값과 연관시키기 위한 다수의 수단, 이를 테면 픽셀 값을 범위와 비교하도록 구성된 소프트웨어 코드를 쉽게 인식할 것이다. 따라서, 도 8a 의 픽셀들은 "X", "O" 및 "+" 로 나타낸 바와 같이 3 개의 클래스들로 그룹핑될 수도 있다. 이들 3 개의 지역들, 즉, 상부 좌측의 "X", 하부 좌측의 "O" 및 우측의 "+" 는 주어진 양자화 레벨의 픽셀들이 서로 가까이에 상주하는 경향이 있다는 의미에서 볼 때 비교적 "동종" 이다. 반대로, 도 8b 는, 동일한 디멘젼을 가지만, 픽셀들의 "분산된" 콜렉션을 구성하는 픽셀 블록을 예시한다. 여기서 주어진 양자화 클래스의 픽셀들은 반드시 블록 내에서 서로 가까이에 위치되지는 않는다. 언급한 바와 같이, 도 7 및 도 8a 및 도 8b 는 컬러 양자화를 참조하지만, 당업자는, 양자화될 수도 있는 다수의 대안의 픽셀 파라미터들을 쉽게 인식할 것이다. 예를 들어, 도 8c 는 광도 값들에 의해 나타낸 바와 같이 픽셀들의 분산된 분포를 예시한다. 이들 픽셀 값들은 구현에 따라 양자화될 수도 있고 또는 양자화되지 않을 수도 있다. 이들 값들은 그레이스케일 광도 값들 등을 포함할 수도 있다.
다시 도 7 로 돌아가면, 언급한 바와 같이, 동일한 양자화 레벨을 포함하는 픽셀들은 그 후 클래스들로 그룹핑될 수도 있다 (703). 각 클래스는 그 후 도 10a 및 도 10b 에 관하여 상기 설명한 것과 유사한 방식으로 이미지 블록 내의 "분산" 의 측정치를 결정하는데 이용될 수 있다. 그 도면들에 대하여 설명한 바와 같이, 클래스들 간의 "클래스 내" 및 "클래스 간" 변화량이 분산의 측정치를 결정하는데 이용될 수도 있다. 도 7 에 대응하는 실시형태들에서, "클래스 간" 변화의 측정치 SB 및 "클래스 내" 변화의 측정치 SW (705) 는 이하 더 상세히 설명한 바와 같이, 클래스 간 레퍼런스 mref 및 클래스들의 모멘트들 mi (704) 에 기초하여 결정될 수도 있다.
그 결정 mref 및 mi, 및 SW 및 SB 의 후속 컴퓨테이션은 소정의 실시형태들에서 고려한 바와 같이, 이제 설명될 것이다. 도 7 의 이미지 부분 (702) 을 다시 참조하면, 판별기 (502) 에 의해 분석될 픽셀 지역을 고려한다. x 및 y 는 도 8a 내지 도 8c 및 도 9a 및 도 9b 에 도시한 바와 같이, 지역 내의 픽셀의 컬럼 및 로우 포지션들 각각을 참조하는 것을 가정한다. 따라서, 지역 내의 각 픽셀 z 는 포지션, 즉 z=(x,y) 과 연관된다. 더욱이, 픽셀 지역은 N 픽셀들을 포함할 수도 있고, 그 N 픽셀들 각각은 C 양자화 클래스들 중 하나로 카테고리화될 수도 있다. 예를 들어, 이미지 내의 모든 픽셀들이 3 개의 양자화 레벨들 중 하나와 연관된다면, C=3 이다 (이것은 도 8a 의 경우이다). 평균 mi 는 또한 제 1 모멘트로 알려져 있고, 특정 클래스 Zi 의 Ni 데이터 포인트들의 클래스의 무게중심은 다음과 같이 정의될 수도 있다 :
Figure pct00001
당업자는 픽셀 포지션 값들을 합산한 후 픽셀들의 수로 나누는 소프트웨어 코드와 같이, 이들 모멘트들을 결정하기 위한 다수의 수단을 쉽게 인식할 것이다. 항 mi 는 클래스 내의 각 픽셀의 평균 중심 포지션을 나타내는 픽셀 지역 내의 포지션을 지칭한다. 일 예로, 도 9a 는 도 8a 의 "X", "O" 및 "+" 클래스들 각각에 대한 평균 m1, m2 및 m3 을 도시한다. 일단 평균 mi 이 클래스들 각각에 대해 결정되었다면, 클래스에 대한 클래스 내 변화량은 클래스 평균에 대한 클래스 내의 각 픽셀의 유클리드 거리를 합산함으로써 결정될 수도 있다. 클래스 내 변화량들은 그 후 다음과 같이 값 SW 을 형성하기 위해 모든 C 클래스들에 대해 어큐뮬레이팅될 수도 있다 :
Figure pct00002
"클래스 간" 값 SB 는 다음과 같이 결정될 수도 있다. 공통 레퍼런스 포인트 mref 는 클래스 평균 mi 의 각각 간의 비교를 위해 선택될 수도 있다. 일 실시형태에서, mref 는 픽셀 지역의 중심 (901) (예를 들어, 17x17 지역의 포지션 9,9) 일 수도 있고, 따라서 각 픽셀 블록을 고려하여 고정된 채 있다. 일부 실시형태들에서, 레퍼런스는 서브-픽셀 로케이션을 포함할 것이며, 당업자는, 레퍼런스가 물리적 포지션에 대응할 필요가 없다는 것을 인식할 것이다. 이미지 부분의 디멘젼들이 반복들 사이에서 가변한다면, 레퍼런스 포지션이 마찬가지로 변경될 수도 있다. "클래스 간" 측정치 SB 는 그 후 레퍼런스들에 대한 각 클래스 평균의 유클리드 거리를 취함으로써 컴퓨팅될 수도 있다 :
Figure pct00003
따라서, SB 는 각 클래스 중점 mi 와 글로벌 레퍼런스 mref 간의 변화량을 지칭하며, 이로써 클래스 간 변화의 표시로서 기능한다. SW 는 클래스들 내의 변화량, 즉 그들의 평균 mi 에 대한 클래스들 각각 내의 거리를 지칭한다. 도 10a 및 10b 에 대하여 설명한 바와 같이, 본 실시형태들 중 소정의 실시형태는 픽셀 지역 내의 분산 D 의 표시로서, 이들 2 개의 측정치들을, 가능하다면 비율로서 비교하는 것을 고려한다 (706).
Figure pct00004
따라서, 클래스 중심들이 서로로부터 더욱 분포됨에 따라 (즉, SB 가 증가), 분산은 감소한다 (도 8a 및 도 9a 참조). 이것은, 이미지 블록이 클래스 중심들, 또는 모멘트들이 픽셀 지역에서 멀리 분리되는 유사한 색상들의 그룹들을 포함하는 경우일 것이다. 반대로, 클래스 중심들의 타이트하게 팩킹된 콜렉션은, 클래스들이 함께 밀접하고 클래스들의 양자화된 레벨들이 밀접하게 또는 섞여 있다는 것을 가정한다 (즉, SB 가 감소, 도 8b 및 도 9b 참조). 유사한 방식으로, 클래스 멤버들이 보다 타이트하게 한정됨에 따라 (SW 가 감소) 분산이 감소한다. 클래스 멤버들이 더 멀리 분리됨에 따라 (SW 가 증가) 분산이 증가한다. 상기 언급한 바와 같이, 시스템은 또한 "동일하거나 "실질적으로 유사한" 픽셀들의 지역들을 제외시킬 수도 있다. 일부 실시형태들에서, 이것은 픽셀 지역이 단지 단일 클래스만을 포함하는 경우에 0 인 것으로 SB 를 정의함으로써 달성될 수도 있다. 값 D 는 따라서 매우 높거나 무한한 분산을 나타낼 것이다. 그 값 D 는 또한, 포스트 프로세싱을 용이하게 하기 위해 다양한 형태들로 조작될 수도 있다. 예를 들어, 소정의 실시형태들은 또한, 분산의 표시로서, 측정치의 역의 로그를 취하는 것을 고려한다. 일부 실시형태들은 이것을 분포의 엔트로피 "E" 로서 나타낼 수도 있다.
Figure pct00005
높은 엔트로피의 지역들이 그에 따라 제외될 것이다. 상기 언급한 바와 같이, SB 를 실질적으로 유사하거나 동일한 픽셀들 (즉, 픽셀들은 특정된 범위 내에 놓인다) 의 지역들 내에서 0 인 것으로 정의함으로써, 엔트로피는 마찬가지로 이들 지역들 내에 극심하게 높거나 무한할 수도 있으며, 이는 다시 프로세스로부터 이미지 부분의 제외를 야기한다.
판별기 (502) 는 분산 측정치 D 를 임계값 (707) 과 비교하여, 이미지 블록이 분산된 픽셀 분포에 대응하는지를 결정할 수도 있다. 제 1 코스의 액션 (708) 은 측정치가 임계값을 초과할 때 취해질 수도 있고 대안의 코스 (709) 는, 그 측정치가 임계값을 초과하지 않을 때 취해진다. 예를 들어, 스위치 (501) 는 상기 설명한 바와 같은 결정에 기초하여 동작될 수도 있다. 이들 임계값들은 예측을 알리고, 또는 이전 훈련 세션들에 기초하여 동적으로 생성된, 시도 및 에러를 통하여 사전에 사전 설정되어 결정될 수도 있다. 대안으로, 퍼지 로직, 머신 학습 방법들 등과 같이, 액션의 코스를 결정하기 위한 대안의 수단이 당업자에게 쉽게 그려질 수도 있다. 결정이 행해진 후, 프로세스는 종료하고 (710) 이미지의 새로운 부분이 프로세싱을 위해 수신된다. 어떠한 추가 부분들도 프로세싱을 요구하지 않는다면, 시스템은 중단된다.
도 10a 및 도 10b 를 참조하여 설명된 클래스 "간" 및 "내" 판별 측정치는 분산 판별기의 실시형태들의 하나의 클래스를 포함하지만, 당업자는, 분산 값을 생성하는 대안의 수단을 쉽게 인식할 것이다. 예를 들어, 픽셀 지역의 주파수 표현은 푸리에 변환에 의해서와 같이 취해질 수도 있다. 더 큰 수의 주파수들을 포함하는 지역들은 더 적은 주파수들을 가진 지역들보다 더 큰 분산을 갖는 것으로 분류될 수도 있다.
당업자는 또한, 여기에 개시된 구현들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들 및 프로세스 단계들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 양자의 조합들로서 구현될 수도 있다는 것을 알 것이다. 하드웨어와 소프트웨어의 이 상호교환가능성을 명확히 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 그들의 기능성의 관점에서 일반적으로 상술되고 있다. 이러한 기능성이 하드웨어로서 구현되는지 소프트웨어로서 구현되는지 여부는, 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약들에 의존한다. 당업자는, 상기 설명된 기능성을 각 특정 애플리케이션에 대해 다양한 방식으로 구현할 수도 있지만, 이러한 구현 결정이 본 발명의 범위로부터 벗어남을 야기하는 것으로 해석되어서는 안된다. 당업자는, 부분, 또는 일부가 때로는 전체보다 적거나 동일한 것을 포함할 수도 있다는 것을 인식할 것이다. 예를 들어, 픽셀들의 콜렉션의 부분은 그 픽셀들의 서브-콜렉션을 지칭할 수도 있다.
여기에 개시된 구현들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들 및 회로들은 여기에 설명된 기능들을 수행하도록 설계된 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적 회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA) 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다.
여기에 개시된 구현들과 관련하여 설명된 방법 또는 프로세스의 단계들은 직접 하드웨어에, 프로세서에 의해 실행된 소프트웨어 모듈에, 또는 이 둘의 조합에 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 착탈식 디스크, CD-ROM 또는 당업계에 공지된 임의의 다른 형태의 비일시적 저장 매체에 상주할 수도 있다. 일 예시적인 컴퓨터 판독가능 저장 매체는 프로세서에 커플링되어, 프로세서가 컴퓨터 판독가능 저장 매체로부터 정보를 판독하고 컴퓨터 판독가능 저장 매체에 정보를 기록할 수 있도록 한다. 대안으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서와 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 은 사용자 단말기, 카메라 또는 다른 디바이스에 상주할 수도 있다. 대안으로, 프로세서와 저장 매체는 사용자 단말기 내의 별개의 컴포넌트들, 카메라 또는 다른 디바이스로서 상주할 수도 있다.
여기에 참조로 그리고 다양한 섹션들을 로케이팅하는 것을 돕기 위해 헤딩 (heading) 이 포함된다. 이들 헤딩은 여기에 관련하여 설명된 개념들의 범위를 제한하는 것으로 의도되지 않는다. 이러한 개념들은 전체 명세서 전반에 걸쳐 적용가능성을 가질 수도 있다.
상기 개시된 구현들의 이전 설명은 당업자로 하여금 본 발명을 실시 또는 이용할 수 있게 하기 위해 제공된다. 이들 구현들에 대한 다양한 변경들은 당업자에게 쉽게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 사상 또는 범위로부터 벗어남 없이 다른 구현들에 적용될 수도 있다. 따라서, 본 발명은 여기에 도시된 구현들에 제한되는 것으로 의도되지 않고 여기에 개시된 원리들 및 신규한 특징들에 부합하는 최광의 범위를 따르게 될 것이다.

Claims (40)

  1. 적어도 하나의 프로세서 상에서 수행되는, 피처들을 생성하는 방법으로서,
    이미지의 적어도 부분과 분산 값을 연관시키는 단계; 및
    상기 분산 값이 상기 이미지의 상기 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 상기 이미지의 상기 적어도 부분의 적어도 일부를 제외시키는 단계를 포함하는, 피처들을 생성하는 방법.
  2. 제 1 항에 있어서,
    상기 부분을 제외시키는 것은, 상기 이미지의 상기 적어도 부분이 상기 피처 생성 프로세스의 상기 적어도 부분에 의해 프로세싱되기 전에 상기 이미지의 상기 적어도 부분을 상이한 값들로 대체하는 것을 포함하는, 피처들을 생성하는 방법.
  3. 제 1 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함하는, 피처들을 생성하는 방법.
  4. 제 1 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분의 주파수 특성을 포함하는, 피처들을 생성하는 방법.
  5. 제 1 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초하는, 피처들을 생성하는 방법.
  6. 제 1 항에 있어서,
    상기 분산 값을 연관시키는 단계는 :
    상기 이미지의 상기 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계;
    동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및
    적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 거리를 측정하는 단계를 포함하는, 피처들을 생성하는 방법.
  7. 제 6 항에 있어서,
    상기 적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 상기 거리는 상기 분산 값의 값에 반비례하는, 피처들을 생성하는 방법.
  8. 제 1 항에 있어서,
    상기 피처 생성 프로세스는 스케일-불변 피처 변환 (scale-invariant feature transform; SIFT) 의 적어도 부분을 포함하는, 피처들을 생성하는 방법.
  9. 제 1 항에 있어서,
    상기 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함하는, 피처들을 생성하는 방법.
  10. 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서,
    상기 명령들은, 전자 디바이스로 하여금 :
    이미지의 적어도 부분과 분산 값을 연관시키는 단계; 및
    상기 분산 값이 상기 이미지의 상기 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 상기 이미지의 상기 적어도 부분의 적어도 일부를 제외시키는 단계
    를 수행하게 하도록 구성된, 비일시적 컴퓨터 판독가능 매체.
  11. 제 10 항에 있어서,
    상기 부분을 제외시키는 것은, 상기 이미지의 상기 적어도 부분이 상기 피처 생성 프로세스의 상기 적어도 부분에 의해 프로세싱되기 전에 상기 이미지의 상기 적어도 부분을 상이한 값들로 대체하는 것을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  12. 제 10 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  13. 제 10 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분의 주파수 특성을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  14. 제 10 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초하는, 비일시적 컴퓨터 판독가능 매체.
  15. 제 10 항에 있어서,
    상기 분산 값을 연관시키는 단계는 :
    상기 이미지의 상기 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계;
    동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및
    적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 거리를 측정하는 단계를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  16. 제 15 항에 있어서,
    상기 적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 상기 거리는 상기 분산 값의 값에 반비례하는, 비일시적 컴퓨터 판독가능 매체.
  17. 제 10 항에 있어서,
    상기 피처 생성 프로세스는 스케일-불변 피처 변환 (scale-invariant feature transform; SIFT) 의 적어도 부분을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  18. 제 10 항에 있어서,
    상기 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  19. 제 10 항에 있어서,
    상기 전자 디바이스는 무선 전화기를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  20. 명령들을 포함하는 전자 디바이스로서,
    상기 명령들은 :
    이미지의 적어도 부분과 분산 값을 연관시키는 단계; 및
    상기 분산 값이 상기 이미지의 상기 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 상기 이미지의 상기 적어도 부분의 적어도 일부를 제외시키는 단계
    를 수행하도록 구성된, 전자 디바이스.
  21. 제 20 항에 잇어서,
    상기 부분을 제외시키는 것은, 상기 이미지의 상기 적어도 부분이 상기 피처 생성 프로세스의 상기 적어도 부분에 의해 프로세싱되기 전에 상기 이미지의 상기 적어도 부분을 상이한 값들로 대체하는 것을 포함하는, 전자 디바이스.
  22. 제 20 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함하는, 전자 디바이스.
  23. 제 20 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분의 주파수 특성을 포함하는, 전자 디바이스.
  24. 제 20 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초하는, 전자 디바이스.
  25. 제 20 항에 있어서,
    상기 분산 값을 연관시키는 단계는 :
    상기 이미지의 상기 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 단계;
    동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 단계; 및
    적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 거리를 측정하는 단계를 포함하는, 전자 디바이스.
  26. 제 25 항에 있어서,
    상기 적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 상기 거리는 상기 분산 값의 값에 반비례하는, 전자 디바이스.
  27. 제 20 항에 있어서,
    상기 피처 생성 프로세스는 스케일-불변 피처 변환 (scale-invariant feature transform; SIFT) 의 적어도 부분을 포함하는, 전자 디바이스.
  28. 제 20 항에 있어서,
    상기 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함하는, 전자 디바이스.
  29. 제 20 항에 있어서,
    상기 전자 디바이스는 무선 전화기를 포함하는, 전자 디바이스.
  30. 이미지의 적어도 부분과 분산 값을 연관시키는 수단; 및
    상기 분산 값이 상기 이미지의 상기 적어도 부분 내의 분산이 임계값을 초과한다는 것을 나타낸다면 피처 생성 프로세스의 적어도 부분에서 상기 이미지의 상기 적어도 부분의 적어도 일부를 제외시키는 수단을 포함하는, 전자 디바이스.
  31. 제 30 항에 있어서,
    상기 연관시키는 수단은, 클래스 간 변화량 및 클래스 내 변환량을 결정하도록 구성된 분산 판별기 소프트웨어 모듈을 포함하고, 상기 제외시키는 수단은 스위치를 포함하는, 전자 디바이스.
  32. 제 30 항에 있어서,
    상기 부분을 제외시키는 것은, 상기 이미지의 상기 적어도 부분이 상기 피처 생성 프로세스의 상기 적어도 부분에 의해 프로세싱되기 전에 상기 이미지의 상기 적어도 부분을 상이한 값들로 대체하는 것을 포함하는, 전자 디바이스.
  33. 제 30 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 엔트로피의 측정치를 포함하는, 전자 디바이스.
  34. 제 30 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분의 주파수 특성을 포함하는, 전자 디바이스.
  35. 제 30 항에 있어서,
    상기 분산 값은 상기 이미지의 상기 부분 내의 픽셀 값들의 클래스 간 변화 및 클래스 내 변화에 적어도 기초하는, 전자 디바이스.
  36. 제 30 항에 있어서,
    상기 분산 값을 연관시키는 수단은 :
    상기 이미지의 상기 적어도 부분 내의 픽셀들을 양자화 값과 연관시키는 수단;
    동일한 양자화 값을 갖는 픽셀들의 콜렉션들에 대한 제 1 모멘트를 결정하는 수단; 및
    적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 거리를 측정하는 수단을 포함하는, 전자 디바이스.
  37. 제 36 항에 있어서,
    상기 적어도 2 개의 콜렉션들의 상기 제 1 모멘트들 간의 상기 거리는 상기 분산 값의 값에 반비례하는, 전자 디바이스.
  38. 제 30 항에 있어서,
    상기 피처 생성 프로세스는 스케일-불변 피처 변환 (scale-invariant feature transform; SIFT) 의 적어도 부분을 포함하는, 전자 디바이스.
  39. 제 30 항에 있어서,
    상기 피처 생성 프로세스는 이미지의 스케일-공간 차이를 컴퓨팅하도록 구성된 모듈을 포함하는, 전자 디바이스.
  40. 제 30 항에 있어서,
    상기 전자 디바이스는 무선 전화기를 포함하는, 전자 디바이스.
KR1020137013709A 2010-10-29 2011-10-27 객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들 KR101650994B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/915,652 2010-10-29
US12/915,652 US9501714B2 (en) 2010-10-29 2010-10-29 Systems and methods to improve feature generation in object recognition
PCT/US2011/058166 WO2012058481A1 (en) 2010-10-29 2011-10-27 Systems and methods to improve feature generation in object recognition

Publications (2)

Publication Number Publication Date
KR20140046394A true KR20140046394A (ko) 2014-04-18
KR101650994B1 KR101650994B1 (ko) 2016-09-05

Family

ID=44936551

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137013709A KR101650994B1 (ko) 2010-10-29 2011-10-27 객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들

Country Status (6)

Country Link
US (1) US9501714B2 (ko)
EP (1) EP2633476A1 (ko)
JP (1) JP5607261B2 (ko)
KR (1) KR101650994B1 (ko)
CN (1) CN103210401B (ko)
WO (1) WO2012058481A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020116988A1 (ko) * 2018-12-07 2020-06-11 (주)제이엘케이 영상 분석 장치, 영상 분석 방법 및 기록 매체
KR20210058768A (ko) * 2020-05-18 2021-05-24 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 객체 라벨링 방법 및 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450667B1 (en) * 2010-11-09 2016-11-02 Harman Becker Automotive Systems GmbH Vision system and method of analyzing an image
JP5640774B2 (ja) * 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
US8576523B2 (en) 2011-03-14 2013-11-05 Qualcomm Incorporated Charge pump electrostatic discharge protection
US9152882B2 (en) * 2011-06-17 2015-10-06 Microsoft Technology Licensing, Llc. Location-aided recognition
WO2013016837A1 (en) * 2011-07-29 2013-02-07 Hewlett-Packard Development Company, L.P. Incremental image clustering
CN103646232B (zh) * 2013-09-30 2016-08-17 华中科技大学 飞行器地面运动目标红外图像识别装置
CN103942276A (zh) * 2014-03-31 2014-07-23 北京邮电大学 一种商标检测新技术
US9959661B2 (en) 2015-12-02 2018-05-01 Samsung Electronics Co., Ltd. Method and device for processing graphics data in graphics processing unit
CN105979252A (zh) * 2015-12-03 2016-09-28 乐视致新电子科技(天津)有限公司 一种测试方法和装置
WO2018100668A1 (en) 2016-11-30 2018-06-07 Nec Corporation Image processing device, image processing method, and image processing program
CN107688823B (zh) * 2017-07-20 2018-12-04 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
US10810430B2 (en) * 2018-12-27 2020-10-20 At&T Intellectual Property I, L.P. Augmented reality with markerless, context-aware object tracking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090196510A1 (en) * 2005-05-09 2009-08-06 Salih Burak Gokturk System and method for enabling the use of captured images through recognition
KR100972849B1 (ko) * 2009-10-16 2010-07-28 주식회사 쓰리디누리 객체 인식 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100255157B1 (ko) 1993-11-23 2000-05-01 김영환 반도체 소자의 신호입력 장치
US5581454A (en) 1994-11-22 1996-12-03 Collins; Hansel High power switched capacitor voltage conversion and regulation apparatus
DE10040092A1 (de) 2000-08-16 2002-03-07 Infineon Technologies Ag Schaltungsanordnung zur Erkennung eines Fehlerzustands
US6624992B1 (en) 2000-10-06 2003-09-23 Qualcomm, Incorporated Electro-static discharge protection circuit
US6924963B2 (en) 2002-02-14 2005-08-02 Intersil Americas Inc. ESD protection network utilizing precharge bus lines
JP2005143063A (ja) 2003-11-04 2005-06-02 Mitsuo Matsuda 映像形成方法
JP4383159B2 (ja) 2003-12-25 2009-12-16 Necエレクトロニクス株式会社 チャージポンプ回路
KR100573780B1 (ko) 2004-05-25 2006-04-25 재단법인서울대학교산학협력재단 전하펌프
EP1958321A2 (en) 2005-11-30 2008-08-20 Nxp B.V. Charge pump circuit and integrated circuit
JP4743617B2 (ja) 2006-04-14 2011-08-10 Kddi株式会社 特徴点抽出装置
JP2008103945A (ja) 2006-10-18 2008-05-01 Toshiba Corp 半導体装置
JP2008136262A (ja) 2006-11-27 2008-06-12 Epson Imaging Devices Corp Dc−dcコンバータ及び表示装置
JP4884251B2 (ja) 2007-02-09 2012-02-29 富士フイルム株式会社 撮影装置および方法並びにプログラム
GB0715254D0 (en) 2007-08-03 2007-09-12 Wolfson Ltd Amplifier circuit
JP4894725B2 (ja) 2007-10-29 2012-03-14 株式会社デンソー 組電池の状態監視装置
US8094947B2 (en) 2008-05-20 2012-01-10 Xerox Corporation Image visualization through content-based insets
TWI424683B (zh) 2008-12-11 2014-01-21 Ind Tech Res Inst 適用於功率放大器的靜電放電箝制電路
US20110221398A1 (en) 2010-03-15 2011-09-15 Electronvault, Inc. Impedence Balancer
CN201682416U (zh) 2010-04-02 2010-12-22 江苏丽恒电子有限公司 电荷泵
US8576523B2 (en) 2011-03-14 2013-11-05 Qualcomm Incorporated Charge pump electrostatic discharge protection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090196510A1 (en) * 2005-05-09 2009-08-06 Salih Burak Gokturk System and method for enabling the use of captured images through recognition
KR100972849B1 (ko) * 2009-10-16 2010-07-28 주식회사 쓰리디누리 객체 인식 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020116988A1 (ko) * 2018-12-07 2020-06-11 (주)제이엘케이 영상 분석 장치, 영상 분석 방법 및 기록 매체
KR20200071021A (ko) * 2018-12-07 2020-06-18 (주)제이엘케이 영상 분석 장치, 영상 분석 방법 및 기록 매체
KR20210058768A (ko) * 2020-05-18 2021-05-24 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 객체 라벨링 방법 및 장치

Also Published As

Publication number Publication date
JP2013541119A (ja) 2013-11-07
KR101650994B1 (ko) 2016-09-05
EP2633476A1 (en) 2013-09-04
US20120106847A1 (en) 2012-05-03
CN103210401B (zh) 2016-08-03
WO2012058481A1 (en) 2012-05-03
JP5607261B2 (ja) 2014-10-15
CN103210401A (zh) 2013-07-17
US9501714B2 (en) 2016-11-22

Similar Documents

Publication Publication Date Title
KR101650994B1 (ko) 객체 인식에서 피처 생성을 개선시키기 위한 시스템들 및 방법들
US11113781B2 (en) Image-based pose determination
Cozzolino et al. Noiseprint: A CNN-based camera model fingerprint
US9036905B2 (en) Training classifiers for deblurring images
WO2018019194A1 (zh) 图像识别方法、终端及非易失性存储介质
US8538164B2 (en) Image patch descriptors
AU2017201281B2 (en) Identifying matching images
KR20130057465A (ko) 증분 특징 추출을 사용하는 오브젝트 인식
KR20130142191A (ko) 비주얼 탐색을 위한 강건한 특징 매칭
EP2521990A1 (en) Scale space normalization technique for improved feature detection in uniform and non-uniform illumination changes
CN111783805A (zh) 图像检索方法及装置、电子设备、可读存储介质
WO2010043954A1 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
US20210327041A1 (en) Image based novelty detection of material samples
Mohammed et al. Proposed approach for automatic underwater object classification
CN109213515A (zh) 多平台下埋点归一方法及装置和电子设备
CN114170589A (zh) 一种基于nas的岩石岩性识别方法、终端设备及存储介质
Aslan et al. A DCT-based multiscale binary descriptor robust to complex brightness changes
CN117456316B (zh) 图像去重处理方法、装置、存储介质和电子设备
CN116739922A (zh) 图像处理方法及相关装置、电子设备和存储介质
Bilquees et al. Noise resilient local gradient orientation for content-based image retrieval
Zhu et al. Robust text segmentation in low quality images via adaptive stroke width estimation and stroke based superpixel grouping
JP4231375B2 (ja) パターン認識装置、パターン認識方法、パターン認識プログラムおよびパターン認識プログラムを記録した記録媒体。
CN114332498A (zh) 基于多特征提取的多尺寸图像变化检测装置及方法
Wijesekera et al. Low Quality Image Retrieval System For Generic Databases
KR20240052049A (ko) 후보 이미지와 레퍼런스 이미지를 매칭하는 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant