KR20140017022A

KR20140017022A - 캐스케이드된 오버-컴플리트 딕셔너리들에 기초한 이미지 인식 시스템

Info

Publication number: KR20140017022A
Application number: KR1020147001926A
Authority: KR
Inventors: 빅터 에이치 챈; 토마스 정; 인인 리우
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-02-01
Filing date: 2011-02-01
Publication date: 2014-02-10
Also published as: KR101549798B1; US9269024B2; WO2011094737A1; KR101542294B1; JP5955925B2; CN102741861A; US20110188757A1; JP2013519163A; EP2531956A1; EP2531956B1; JP5859584B2; KR20120123520A; JP2014123391A; CN102741861B; JP2015111419A

Abstract

본 개시의 특정 실시형태들은, 특징들을 추출하고 상이한 재구성 레벨들에서 이미지들에 대한 표현들을 구축하기 위해 캐스케이드된 오버-컴플리트 딕셔너리들 (즉, 베이스들의 집합물들) 을 채용하는, 이미지 재구성을 위한 기술에 관한 것이다. 상이한 재구성 레벨 상의 각각의 딕셔너리는 일반적인 특징들 또는 차별적인 특징들 중 어느 일방을 캡쳐할 목적으로 학습 및 최적화될 수 있다. 캐스케이스된 딕셔너리들을 통해 희소한 표현들을 발견함으로써, 이미지는 재구성 및 인식될 수 있다.

Description

캐스케이드된 오버-컴플리트 딕셔너리들에 기초한 이미지 인식 시스템{IMAGE RECOGNITION SYSTEM BASED ON CASCADED OVER-COMPLETE DICTIONARIES}

본 특허출원은, 본 출원의 양수인에게 양도되고 본원에 참조에 의해 명백하게 통합된, 2010년 2월 1일 출원된 "IMAGE RECOGNITION SYSTEM AND METHOD BASED ON CASCADED OVER-COMPLETE DICTIONARIES" 라는 제목의 미국 가출원 제 61/300,408 호에 대해 우선권을 주장한다.

본 개시는 일반적으로 신호 처리에 관한 것이고, 더욱 상세하게는, 상이한 재구성 (reconstruction) 레벨들에서 이미지들의 특징 (feature) 들 및 구축 표현 (building representation) 들을 추출하기 위한 기초의 캐스케이드된 집합물들 (cascaded collections) 에 기초한 이미지 인식을 위한 방법에 관한 것이다.

이미지 인식에서, 이미지들을 표현 및 재구성하기 위해 베이스 (base) 들의 집합물로서 오버-컴플리트 딕셔너리 (over-complete dictionary) 가 이용될 수 있다. 딕셔너리는 큰 베이스들의 셋트를 포함하도록 최적화될 수 있지만, 특정 이미지를 재구성하기 위해 작은 베이스들의 그룹만을 통상적으로 이용한다. 따라서, 표현이 일반적으로 희소하다. 이미지를 분류하기 위해, 희소한 표현 (sparse representation) 이 부류 라벨들을 나타내도록, 상이한 부류 (class) 들로부터의 차별적인 특징들 (discriminative features) 을 딕셔너리가 포함하는 것이 바람직하다.

하지만, 이미지는 통상적으로 일반적인 특징들 및 부류-특정 (class-specific) 특징들을 포함할 수 있다. 따라서, 재구성 방식에 의한 인식에 기초하는 이미지 인식 시스템을 위해, 딕셔너리는 차별적인 분류 (classification) 목적을 위한 차별적인 능력뿐만 아니라, 허용 오차를 위한 재구성적인 능력도 보유하는 것이 바람직하다.

본 개시의 특정 실시형태들은 신호 처리 방법을 제공한다. 이 방법은 일반적으로, 하나 이상의 대상 (subject) 들 또는 카테고리 (category) 들에 관련된 하나 이상의 신호들을 획득하는 단계, 이 신호들에 기초하여 대상들의 하나 이상의 일반적인 특징들을 구성 (construct) 하는 단계, 각각의 대상에 대해 하나 이상의 업데이트된 패턴들을 획득하기 위해 신호들로부터 일반적인 특징들을 추출 및 제거하는 단계, 업데이트된 패턴들에 기초하여 각각의 대상에 대해 차별적인 특징들의 셋트를 획득하는 단계, 및 차별적인 특징들만을 이용하여 업데이트된 패턴들을 인식하는 단계를 포함한다.

본 개시의 특정 실시형태들은 신호 처리 방법을 제공한다. 이 방법은 일반적으로, 복수의 대상들 중의 대상에 관련된 이미지를 획득하는 단계, 모든 대상들 또는 카테고리들의 일반적인 정보를 포함하는 일반적인 딕셔너리 (dictionary) 에 기초하여 이미지의 하나 이상의 일반적인 특징들을 재구성 (reconstruct) 하는 단계, 및 차별적인 딕셔너리를 이용하여 대상을 인식하기 위해 재구성 및 제거된 일반적인 특징들을 갖는 이미지를 재구성하는 단계를 포함하고, 이 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 이 차별적인 특징들의 각각의 셋트는 복수의 대상들 중 상이한 대상과 연관된다.

본 개시의 특정 실시형태들은 신호 처리를 위한 장치를 제공한다. 이 장치는 일반적으로, 하나 이상의 대상들 또는 카테고리들에 관련된 하나 이상의 신호들을 획득하는 수단, 이 신호들에 기초하여 대상들의 하나 이상의 일반적인 특징들을 구성하는 수단, 각각의 대상에 대해 하나 이상의 업데이트된 패턴들을 획득하기 위해 신호들로부터 일반적인 특징들을 추출 및 제거하는 수단, 업데이트된 패턴들에 기초하여 각각의 대상에 대해 차별적인 특징들의 셋트를 획득하는 수단, 및 차별적인 특징들만을 이용하여 업데이트된 패턴들을 인식하는 수단을 포함한다.

본 개시의 특정 실시형태들은 신호 처리를 위한 장치를 제공한다. 이 장치는 일반적으로, 복수의 대상들 중의 대상에 관련된 이미지를 획득하는 수단, 모든 대상들 또는 카테고리들의 일반적인 정보를 포함하는 일반적인 딕셔너리에 기초하여 이미지의 하나 이상의 일반적인 특징들을 재구성하는 수단, 및 차별적인 딕셔너리를 이용하여 대상을 인식하기 위해 재구성 및 제거된 일반적인 특징들을 갖는 이미지를 재구성하는 수단을 포함하고, 이 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 이 차별적인 특징들의 각각의 셋트는 복수의 대상들 중 상이한 대상과 연관된다.

본 개시의 특정 실시형태들은 신호 처리를 위한 장치를 제공한다. 이 장치는 일반적으로, 하나 이상의 대상들 또는 카테고리들에 관련된 하나 이상의 신호들을 획득하고, 이 신호들에 기초하여 대상들의 하나 이상의 일반적인 특징들을 구성하고, 각각의 대상에 대해 하나 이상의 업데이트된 패턴들을 획득하기 위해 신호들로부터 일반적인 특징들을 추출 및 제거하며, 업데이트된 패턴들에 기초하여 각각의 대상에 대해 차별적인 특징들의 셋트를 획득하고, 차별적인 특징들만을 이용하여 업데이트된 패턴들을 인식하도록 구성된 적어도 하나의 프로세서를 포함한다.

본 개시의 특정 실시형태들은 신호 처리를 위한 장치를 제공한다. 이 장치는 일반적으로, 복수의 대상들 중의 대상에 관련된 이미지를 획득하고, 모든 대상들 또는 카테고리들의 일반적인 정보를 포함하는 일반적인 딕셔너리에 기초하여 이미지의 하나 이상의 일반적인 특징들을 재구성하며, 차별적인 딕셔너리를 이용하여 대상을 인식하기 위해 재구성 및 제거된 일반적인 특징들을 갖는 이미지를 재구성하도록 구성된 적어도 하나의 프로세서를 포함하고, 이 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 이 차별적인 특징들의 각각의 셋트는 복수의 대상들 중 상이한 대상과 연관된다.

본 개시의 특정 실시형태들은 명령을 저장한 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 이 명령들은 일반적으로, 하나 이상의 대상들 또는 카테고리들에 관련된 하나 이상의 신호들을 획득하고, 이 신호들에 기초하여 대상들의 하나 이상의 일반적인 특징들을 구성하며, 각각의 대상에 대해 하나 이상의 업데이트된 패턴들을 획득하기 위해 이 신호들로부터 일반적인 특징들을 추출 및 제거하고, 업데이트된 패턴들에 기초하여 각각의 대상에 대해 차별적인 특징들의 셋트를 획득하며, 차별적인 특징들만을 이용하여 업데이트된 패턴들을 인식하기 위해, 프로세서에 의해 실행가능하다.

본 개시의 특정 실시형태들은 명령을 저장한 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 이 명령들은 일반적으로, 복수의 대상들 중의 대상에 관련된 이미지를 획득하고, 모든 대상들 또는 카테고리들의 일반적인 정보를 포함하는 일반적인 딕셔너리에 기초하여 이미지의 하나 이상의 일반적인 특징들을 재구성하며, 차별적인 딕셔너리를 이용하여 대상을 인식하기 위해 재구성 및 제거된 일반적인 특징들을 갖는 이미지를 재구성하기 위해, 프로세서에 의해 실행가능하고, 이 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 이 차별적인 특징들의 각각의 셋트는 복수의 대상들 중 상이한 대상과 연관된다.

본 개시의 전술된 특징들이 자세히 이해될 수 있도록 하기 위해, 첨부 도면들에 일부 도시된 실시형태들을 참조하여 상기 간단하게 요약된 것의 더욱 상세한 설명이 주어질 수도 있다. 하지만, 첨부된 도면들은 오직 본 개시의 어떤 전형적인 실시형태들만을 나타내고, 따라서, 그 범위의 제한을 고려하는 것이 아니고, 설명들에 대해 다른 동등하게 효과적인 실시형태들을 인정할 수도 있다.
도 1 은 본 개시의 특정 실시형태들이 실시될 수도 있는 패턴 인식을 위한 시스템을 도시한다.
도 2 는 본 개시의 특정 실시형태들에 따른, 패턴 베이스들과 인터페이스된 패턴 인식 엔진의 예를 도시한다.
도 3 은 본 개시의 특정 실시형태들에 따른, 이미지 재구성을 위해 이용될 베이스들의 집합물들로서 딕셔너리들을 훈련 (training) 시키기 위한 예시적인 동작들을 나타낸다.
도 3a 는 도 3 에 나타난 동작들을 수행할 수 있는 예시적인 컴포넌트들을 나타낸다.
도 4 는 본 개시의 특정 실시형태들에 따른, 훈련된 캐스케이드된 딕셔너리들에 기초하여 이미지 재구성 및 인식을 위한 예시적인 동작들을 나타낸다.
도 4a 는 도 4 에 나타난 동작들을 수행할 수 있는 예시적인 컴포넌트들을 나타낸다.

본 개시의 다양한 실시형태들이 이하 설명된다. 본원의 교시들은 아주 다양한 형태들로 구현될 수도 있고, 본원에 개시된 임의의 (any) 구체적인 구조, 기능, 또는 이 양자는 단순히 대표적인 것이라는 것은 명백할 것이다. 본원의 교시들에 기초하여, 본원에 개시된 실시형태는 임의의 다른 실시형태들과 독립적으로 구현될 수도 있다는 것, 및 이들 실시형태들 중 2 이상이 다양한 방식들로 조합될 수도 있다는 것을 당업자는 이해할 것이다. 예를 들어, 본원에서 전개된 임의의 수의 실시형태들을 이용하여, 장치가 구현될 수도 있고, 또는 방법이 실시될 수도 있다. 또한, 본원에서 전개된 하나 이상의 실시형태들에 추가하여, 또는 그 이외에, 다른 구조, 기능, 또는 구조 및 기능을 이용하여 이러한 장치가 구현될 수도 있고, 또는 이러한 방법이 실시될 수도 있다. 또한, 실시형태는 청구항의 적어도 하나의 엘리먼트를 포함할 수도 있다.

"예시적" 이라는 단어는 본원에서 "예, 경우, 또는 예시로서 기능하는" 을 의미하기 위해 사용된다. 본원에서 "예시적" 으로 설명된 임의의 실시형태는 반드시 다른 실시형태들에 비해 선호되거나 이로운 것으로서 해석될 필요는 없다.

구체적인 실시형태들이 본원에서 설명되었지만, 이들 실시형태들의 많은 변화들 및 치환들은 본 개시의 범위 내에 속한다. 바람직한 실시형태들의 몇몇 이익 및 이점들이 언급되었지만, 본 개시의 범위는 특정 이익들, 사용들, 또는 목적들에 한정되는 것으로 의도되지 않는다. 오히려, 본 개시의 실시형태들은, 상이한 무선 기술들, 시스템 구성들, 네트워크들 및 송신 프로토콜들에 넓게 적용가능한 것으로 의도되고, 이들 중 일부는 도면들에서 및 바람직한 실시형태들의 이하의 설명에서 예시적인 방식으로 나타난다. 상세한 설명 및 도면들은, 첨부된 청구항들 및 그의 균등물들에 의해 정의되는 본 개시의 범위를 한정하기보다는 단지 개시의 예시일 뿐이다.

예시적 패턴 인식 시스템

본원에 설명된 기술들은 신호 처리에 관한 것이고, 더욱 상세하게는, 인식될 필요가 있는 대상에 관련된 패턴의 처리에 관한 것이다.

도 1 은 본 개시의 실시형태들이 실시될 수도 있는, 패턴 인식을 위한 예시적 시스템 (100) 을 나타낸다. 패턴 인식 시스템 (100) 은 대상 인식을 위한 이미지들 또는 음성 (voice) 인식을 위한 오디오 신호들과 같은 상이한 패턴들 또는 신호들을 인식하기 위해 사용될 수도 있다.

시스템 (100) 은 (예를 들어, 공항들 및 사무용 빌딩들 내의) 보안 애플리케이션을 포함하는, 넓은 범위의 애플리케이션들에 이용될 수도 있고, 데스크톱, 랩톱 컴퓨터, 또는 휴대용 디바이스 (예를 들어, 모바일 전화기) 와 같은 넓은 범위의 상이한 유형의 플랫폼들 상에서 구현될 수도 있다.

본 개시의 특정 실시형태들에 따르면, 입력 플랫폼 (120) 은 스크리닝 스테이션 (screening station; 126) 을 포함할 수도 있고, 이 스크리닝 스테이션을 통해, 카메라 (122) 는 대상의 이미지에 대응하는 신호들을 제공할 수도 있고, 및/또는, 마이크로폰 (124) 은 인간의 음성에 대응하는 신호들을 제공할 수도 있다. 스크리닝 스테이션 (126) 은 예를 들어 공항들 및 빌딩 입구들에서 발견되는 것들과 같은 보안 체크포인트 (checkpoint) 에 위치될 수도 있다. 플랫폼 (120) 은 카메라 (122) 및 마이크로폰 (124) 양자를 구비하는 것으로 도시되지만, 어떤 실시형태들에 따르면, 이러한 디바이스들 중 오직 하나만이 포함될 수도 있다. 또한, 지문 판독기, 아이리스 리더 (iris reader) 등과 같은 추가적인 또는 대안적인 디바이스들도 이용될 수도 있다. 어떤 디바이스들 또는 디바이스들의 조합이 사용되든지 간에, 패턴 인식 시스템 (100) 은 수신된 신호들에 기초하여 패턴을 식별하도록 구성될 수도 있다.

패턴 인식 시스템 (100) 은 입력 신호를 수신 및 처리하기 위한 인터페이스 (104) 를 포함할 수도 있다. 인터페이스 (104) 는, 하나 이상의 프로세서들 (102) 에 대해 적합한 패턴 신호들을 제공하기 위해, 증폭기들, 필터들, 아날로그-대-디지털 (A/D) 변환기들 등과 같은 임의의 적합한 회로를 포함할 수도 있다. 프로세서(들) (102) 은, 메모리 (108) 내의 인식 엔진 (110) 에 의한 실행을 위해 개시되는 몇몇 인식 알고리즘에 따라 입력 패턴 신호를 처리할 수도 있다. 패턴 인식은, 예를 들어, 입력 패턴 신호 (예를 들어, 이미지 또는 음성) 를 복수의 대상들과 연관된 이용가능한 패턴 베이스들 (106) 과 매칭 (matching) 시킴으로써 달성될 수도 있다.

도 2 에 도시된 바와 같이, 인식 엔진 (110) 은 패턴 베이스들 (pattern bases; 106) 과 인터페이싱할 수도 있다. 예를 들어, 인식 엔진 (110) 은 훈련 (training) 동작들 동안 패턴 베이스들 (106) 을 생성 및 업데이트할 수도 있다. 인식 동작들을 수행하기 위해 패턴 베이스들이 액세스될 수도 있다. 다르게 말하면, 패턴 베이스들 (106) 의 풀 (pool) 로부터 검색된 (retrieved) 하나 이상의 패턴 베이스들을 이용하여 인식 엔진 (110) 에 의해 실행되는 인식 알고리즘에 따라 대상 인식을 위해 입력 패턴 (예를 들어, 이미지 또는 음성) 이 처리될 수도 있다. 또한, 기존의 대상들에 관련된 패턴 베이스들은 이 훈련 프로세스 동안 주기적으로 업데이트될 수도 있고, 하나 이상의 새로운 대상들과 연관된 하나 이상의 패턴 베이스들이 또한 패턴 베이스들 (106) 의 풀 내에 추가될 수도 있다.

희소한 표현 및 분류를 위한 캐스케이드된 딕셔너리들

이미지들을 표현 및 재구성하기 위해 패턴 인식 시스템 (100) 에서 패턴 베이스들의 집합물로서 오버-컴플리트 딕셔너리가 이용될 수도 있다. 본 개시의 특정 실시형태들에서, 딕셔너리들은 이미지 재구성의 상이한 레벨들 상에서 적용될 수도 있다. 특정 레벨 상의 각각의 딕셔너리는 일반적 또는 차별적 특징들 중 어느 일방을 캡쳐 (capture) 할 목적으로 학습되거나 최적화될 수도 있다. 상이한 레벨들의 재구성을 위해 캐스케이드된 딕셔너리들을 통해 희소한 표현들을 찾음으로써, 이미지가 재구성 및 인식될 수도 있다.

하위 (lower) 레벨들의 재구성에서 딕셔너리들이 더 많은 일반적인 특징들을 재구성하도록 채용될 수도 있지만, 상위 (higher) 레벨 딕셔너리들이 상기 2 이상의 차별적인 특징들에 전용되는 것이 바람직할 수도 있다. 또한, 최상위 (top) 인식 레벨 상의 차별적인 딕셔너리를 이용한 표현의 희소성 (sparseness) 은, 분류 성능을 향상시키기 위해 하나 이상의 캐스케이드된 딕셔너리들을 하위 재구성 레벨들에서 추가함으로써 증가될 수도 있다.

캐스케이드된 딕셔너리들을 갖는 이미지 인식 시스템에서, 일반적 (즉, 부류와 관련 없는) 및 차별적 (즉, 부류와 관련 있는) 정보를 재구성하는 것은 분리될 수도 있다. 상이한 레벨의 재구성에서의 각각의 딕셔너리는 일반적 특징 또는 차별적 특징 중 어느 일방을 캡쳐할 목적으로 별도로 학습 및 최적화될 수도 있다. 최저 (lowest) 레벨의 재구성에서, 딕셔너리는 모든 지원되는 부류들로부터의 이미지들의 통계 (statistics) 를 캡쳐할 수도 있다. 딕셔너리 업데이트를 통해 개발될 수도 있는 베이스들은 따라서 모든 부류들에 걸친 공통의 특징들을 표현할 수도 있다. 특정한 하위 재구성 레벨에서 일반적 특징들을 갖는 이러한 딕셔너리는 동일한 정도까지 임의의 부류로부터 이미지를 재구성할 수 있을 수도 있다. 나머지 신호는, 이 딕셔너리로부터 재구성된 신호에 의해 차감된 입력 이미지로서, 나중의 더 높은 재구성 단계들 상에서 딕셔너리들에 의해 재구성되도록 남을 수도 있다.

최고 (highest) 레벨의 이미지 재구성에서, 입력 이미지로부터 모든 일반적인 특징들이 추출 및 차감될 수도 있다. 나머지 신호들은 부류-특정 차별적 특징들을 갖는 딕셔너리를 구성하기 위해 이용될 수도 있다. 이 레벨 상의 딕셔너리는 상이한 부류들에 대응하는 서브스페이스 (subspace) 들을 포함할 수도 있다. 서브스페이스는 하나의 단일 부류로부터 이미지들의 통계들을 캡쳐할 수도 있고, 서브스페이스 내의 베이스들은 그들을 이미지 부류들의 나머지로부터 차별화하는 특징들을 표현할 수도 있다. 이러한 방식으로, 구성된 (constructed) 이미지들이, 서브스페이스가 표현하는 부류로부터의 것일 때, 하나의 서브스페이스는 다른 서브스페이스들보다 더 양호할 수도 있다. 따라서, 이 딕셔너리를 이용할 때의 솔루션 (solution) 은 희소할 수도 있다.

상이한 서브스페이스들로부터의 상이한 재구성 레벨들은 재구성되고 있는 특정 이미지가 어느 부류에 속하는지를 나타낼 수도 있다. 이미지들의 복잡함 및 분류의 어려움에 따라, 하나 이상의 딕셔너리들이 중간 레벨들의 재구성에 부가될 수도 있고, 여기서, 그들은 최상위 재구성 레벨 상의 표현의 희소성을 증가시키기 위해 덜 일반적이지만 더 차별적인 특징들을 표현할 수도 있다.

도 3 은 본 개시의 특정 실시형태들에 따라, 이미지 재구성 및 대상 인식을 위해 이용될 베이스들의 집합물들로서 캐스케이드된 딕셔너리들의 훈련을 위한 예시적인 동작들 (300) 을 나타낸다. 302 에서, 딕셔너리들의 훈련을 위해 N 개의 대상들이 제공될 수도 있고, 각각의 대상은 하나 이상의 훈련 이미지들을 포함할 수도 있다. 304 에서, 딕셔너리는 모두 N 개의 대상들로부터의 훈련 이미지들을 이용하여 훈련될 수도 있다. 훈련된 딕셔너리는 모든 대상들에 관련된 가장 일반적인 특징들의 셋트를 포함할 수도 있고, 이것은 초기 레벨의 이미지 재구성과 연관된 일반적인 딕셔너리로서 사용될 수도 있다. 그 후에, 306 에서, 일반적인 특징들의 셋트를 이용하여 획득된 재구성된 이미지들은 모든 입력 이미지들로부터 차감되어 이들 일반적인 특징들 없이 업데이트된 훈련 패턴들을 획득할 수도 있다.

일반적인 특징들이 재구성되고 제거된 나머지 이미지들은 308 에서 일반적인 재구성의 품질을 평가하기 위해 선택적으로 이용될 수도 있다. 품질이 만족스럽지 않은 경우에는, 하나 이상의 캐스케이드된 일반적인 딕셔너리들이 추가적으로 구성될 수도 있다. 따라서, 품질이 만족스럽지 않은 경우, 동작 304-306 이 선택적으로 복수회 반복되어, 상이한 레벨의 이미지 재구성을 위해 하나의 일반적인 딕셔너리로, 캐스케이드된 일반적인 딕셔너리들을 획득할 수도 있다. 이전에 발견된 일반적인 특징들 없이 패턴들에 기초하여 304 에서 구성될 특징들은 매 다음의 더 높은 재구성 레벨에 대해 덜 일반적일 수도 있다. 따라서, 대응하는 훈련된 딕셔너리는 매 다음의 더 높은 재구성된 레벨에 대해 덜 일반적이고 더 차별적인 특징들을 포함할 수도 있다. 306 에서 입력 이미지들로부터 모든 나머지 일반적인 특징들을 추출한 후에, 대상들의 차별적인 특징들에 관련된 하나 이상의 차별적인 딕셔너리들의 훈련이 따를 수도 있다.

이 때, 각각의 대상에 대한 입력 패턴들은 대응하는 원래의 입력 이미지들의 차별적인 특징들을 포함하기만 할 수도 있다. 310 에서, 일반적인 특징들 없이 입력 패턴들에 기초하여 N 개의 대상들의 각각에 대해 차별적인 특징들의 셋트가 획득될 수도 있고, 이는 각각의 서브-딕셔너리가 상이한 대상과 연관될 수도 있는 N 개의 서브-딕셔너리들을 갖는 차별적인 딕셔너리로 귀결될 수도 있다.

테스트 단계에서, 이미지는 먼저 하위 레벨의 딕셔너리들에 의해 처리 및 재구성될 수도 있다. 나머지 신호는 최상위 레벨의 차별적인 부류-관련 딕셔너리에 의해 재구성될 수도 있다. 입력 신호를 재구성하기 위해 어느 서브-딕셔너리가 최선의 것인지를 발견함으로써 대상이 인식될 수도 있다.

이 차별적인 딕셔너리는 가장 높은 재구성 레벨에 대응할 수도 있고, 그것은 N 개의 대상들에 관련된 가장 차별적인 특징들을 포함할 수도 있다. 이미지들의 복잡함 및 그들의 분류의 어려움에 의존하여, 가장 차별적인 특징들을 갖는 딕셔너리를 적용하기 전에, 덜 차별적인 특징들을 갖는 하나 이상의 딕셔너리들이 훈련되고 이미지 재구성에 포함될 수도 있다.

도 4 는, 본 개시의 특정 실시형태에 따른, 미리 훈련된 캐스케이드된 딕셔너리들 (즉, 상이한 재구성 레벨들에서의 베이스들의 집합물들) 에 기초하여 대상에 관련된 이미지의 재구성을 위한 예시적인 동작들 (400) 을 나타낸다. 402 에서, 테스트 이미지의 재구성은 먼저 일반적인 딕셔너리에서 미리 추출된 일반적인 특징들을 이용하여 수행될 수도 있다.

404 에서, 이미지의 재구성 및 대상의 인식은, 일반적인 특징들이 제거된 이미지에 적용되는 N 개의 미리 훈련된 차별적인 서브-딕셔너리들 (즉, 차별적인 특징들의 셋트들) 에 기초하여 수행될 수도 있고, 여기서, 각각의 서브-딕셔너리는 인식될 하나의 가능한 대상에 대응할 수도 있다. 모든 서브-딕셔너리들은, 가장 높은 레벨의 이미지 재구성과 연관될 수도 있는 훈련된 차별적인 딕셔너리의 일부일 수도 있다. 전술한 바와 같이, 이미지의 복잡함 및 분류의 어려움에 따라, 최상위 재구성 레벨 상의 표현의 희소성을 증가시키기 위해 가장 차별적인 특징들을 갖는 딕셔너리를 적용하기 전에, 덜 차별적인 특징들을 갖는 하나 이상의 딕셔너리들이 채용될 수도 있다.

재구성 기술에 기초한 제안된 이미지 분류기는 종래 기술의 기존의 차별식 분류기 (discriminant classifier) 에 대해, 양 기술들이 동일한 패턴 인식을 위해 적용될 때, 비교될 수 있다. 한편으로는, 본 학습 이론은 차별식 분류기, 즉, 서포트 벡터 머신 (Support Vector Machines; SVM) 과 같은 큰 마진 (margin) 분류기들을 지원한다. 또한, 이들 분류기들의 일반화 에러들의 더욱 엄격한 이해가 존재한다. 다른 한편으로는, 패턴 인식을 위해 제안된 재구성적 모델들을 이용하는데 스케일러빌러티 (scalability) 및 허용 오차와 같은 어떤 이점들이 존재한다. 전체 이미지를 표현하기 위해 적은 수의 베이스들을 이용함으로써, 제안된 기술은 부류들의 수 및 부류 당 훈련 샘플들의 수에서 유리한 스케일러빌러티를 달성할 수도 있다. 또한, 패턴 인식에서 관찰된 많은 에러들이 가산성 에러 (additive error) 들로서 모델링될 수 있다. 이들 에러들은 제안된 재구성적 모델에서 쉽게 제거 또는 정정될 수도 있다.

전술한 방법들의 다양한 동작들은 도면들에서 나타난 수단-플러스-기능 블록들에 대응하는 다양한 하드웨어 및/또는 소프트웨어 컴포넌트(들) 및/또는 모듈(들)에 의해 수행될 수도 있다. 예를 들어, 도 3 에 나타난 302-310 블록들은 도 3a 에 나타난 수단-플러스-기능 블록들 (302A-310A) 에 대응한다. 유사하게, 도 4 에 나타난 402-404 블록들은 도 4a 에 나타난 수단-플러스-기능 블록들 (402A-404A) 에 대응한다. 더욱 일반적으로, 대응하는 상응관계의 수단-플러스-기능 도면들을 갖는 도면들에 나타난 방법들이 존재하는 경우, 동작 블록들은 유사한 참조부호를 갖는 수단-플러스-기능 블록들에 대응한다.

본원에서 사용된 바와 같이, "결정 (determining)" 이라는 용어는 넓은 범위의 동작들을 포함한다. 예를 들어, "결정" 은 산출, 계산, 처리, 도출, 검사, 검색 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 검색), 확인 등을 포함할 수도 있다. 또한, "결정" 은 수신 (예를 들어, 정보를 수신), 액세스 (예를 들어, 메모리에 액세스) 등을 포함할 수도 있다. 또한, "결정" 은 해결, 선택, 선별, 확립 등을 포함할 수도 있다.

본원에서 사용된 바와 같이, 항목들의 리스트 "의 적어도 하나 (at least one of)" 를 언급하는 구문은 단일 구성원들을 포함하는, 이들 항목들의 임의의 조합을 지칭한다. 일례로서, "a, b, 또는 c 중 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 를 커버하는 것으로 의도된다.

전술한 방법들의 다양한 동작들은, 다양한 하드웨어 및/또는 소프트웨어 컴포넌트(들), 회로, 및/또는 모듈(들)과 같은, 동작들을 수행할 수 있는 임의의 적합한 수단에 의해 수행될 수도 있다. 일반적으로, 도면들에 나타난 임의의 동작들은 그 동작들을 수행할 수 있는 대응하는 기능적 수단에 의해 수행될 수도 있다.

본 개시와 함께 설명된 다양한 예시적인 논리 블록들, 모듈들 및 회로들은, 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이 신호 (FPGA) 또는 다른 프로그래머블 로직 디바이스 (PLD), 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들 또는 본원에 설명된 기능들을 수행하도록 설계된 이들의 임의적인 조합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안으로, 프로세서는 어떤 상업적으로 이용가능한 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 협동하는 하나 이상의 마이크로프로세서들, 또는 어떤 다른 이러한 구성으로서 구현될 수도 있다.

본 개시와 함께 설명된 방법들 또는 알고리즘의 단계들은 직접 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 구현될 수도 있다. 소프트웨어 모듈은 종래 기술에서 알려진 저장 매체의 어떤 형태로 상주할 수도 있다. 이용될 수도 있는 저장 매체의 몇몇 예들은, 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 플래시 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 착탈형 디스크, CD-ROM 및 기타를 포함한다. 소프트웨어 모듈은 단일 명령, 또는 많은 명령들을 포함할 수도 있고, 수개의 상이한 코드 세그먼트들에 걸쳐, 상이한 프로그램들 중에, 및 다수의 저장 매체에 걸쳐 분포될 수도 있다. 저장 매체는, 프로세서가 그 저장 매체로부터 정보를 읽고 그 저장 매체에 정보를 쓸 수 있도록 프로세서에 연결될 수도 있다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다.

본원에 개시된 방법들은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 동작들을 포함한다. 방법 단계들 및/또는 동작들은 청구항들의 범위로부터 벗어남이 없이 서로 상호교환될 수도 있다. 다르게 말하면, 단계들 또는 동작들의 특정 순서가 구체화되지 않는 한, 특정 단계들 및/또는 동작들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.

설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우에, 기능들은 컴퓨터-판독가능 매체 상에 하나 이상의 명령들로서 저장될 수도 있다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 어떤 이용가능한 매체일 수도 있다. 한정적이 아닌 예시적인 방식으로, 이러한 컴퓨터-판독가능 매체는, RAM, ROM, EEPROM, CD-ROM 또는 다른 광학적 디스크 스토리지, 자기적 디스크 스토리지 또는 다른 자기적 스토리지 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 운반 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 어떤 다른 매체를 포함할 수 있다. 본원에서 사용된 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학적 디스크, DVD, 플로피 디스크 및 블루-레이

디스크를 포함하고, 여기서, 디스크 (disk) 들은 통상적으로 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 통상적으로 데이터를 레이저들을 이용하여 광학적으로 재생한다.

따라서, 어떤 실시형태들은 본원에 나타난 동작들을 수행하기 위해 컴퓨터 프로그램 제품을 포함할 수도 있다. 예를 들어, 이러한 컴퓨터 프로그램 제품은, 본원에 설명된 동작들을 수행하기 위해 하나 이상의 프로세서들에 의해 실행될 수 있는 명령들이 저장 (및/또는 인코딩) 된 컴퓨터 판독가능 매체를 포함할 수도 있다. 어떤 실시형태들에 대해, 컴퓨터 프로그램 제품은 패키징 (packaging) 재료를 포함할 수도 있다.

소프트웨어 또는 명령들은 또한 전송 매체를 통해 전송될 수도 있다. 예를 들어, 소프트웨어가, 동축 케이블, 광섬유 케이블, 트위스트 페어, 디지털 가입자 회선 (DSL), 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되는 경우에, 이 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들은 전송 매체의 정의 내에 포함된다.

또한, 본원에 설명된 방법들 및 기술들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단은 적용가능한 사용자 단말기 및/또는 기지국에 의해 다운로드 및/또는 그 외 획득될 수 있다. 예를 들어, 이러한 디바이스는, 본원에 설명된 방법들을 수행하기 위한 수단의 이동을 용이하게 하기 위해 서버에 연결될 수 있다. 다르게는, 본원에 설명된 다양한 방법들은, 사용자 단말기 및/또는 기지국이 그 디바이스로 저장 수단을 연결 또는 제공 시 다양한 방법들을 획득할 수 있도록, 저장 수단 (예를 들어, RAM, ROM, 컴팩트 디스크 (CD) 또는 플로피 디스크 등과 같은 물리적인 저장 매체) 을 통해 제공될 수 있다. 또한, 본원에 설명된 방법들 및 기술들을 디바이스에 제공하기 위한 어떤 다른 적합한 기술이 이용될 수 있다.

청구범위는 상기 예시된 정확한 구성 및 컴포넌트에 한정되지 않는다는 것을 이해하여야 한다. 다양한 변형들, 변경들, 및 변화들이 청구항들의 범위로부터 벗어남이 없이 전술한 방법들 및 장치의 배열, 동작 및 상세들 내에서 이루어질 수도 있다.

전술한 바는 본 개시의 실시형태들을 지향하지만, 본 개시의 다른 및 추가적인 실시형태들이 그 기본적인 범위로부터 벗어남이 없이 고안될 수도 있고, 그 범위는 첨부된 청구범위에 의해 결정된다.

Claims

복수의 대상들 중의 소정의 대상에 관련된 이미지를 획득하는 단계;
상기 복수의 대상들의 일반적인 정보를 포함하는 일반적인 딕셔너리 (dictionary) 에 기초하여 상기 이미지의 하나 이상의 일반적인 특징들을 재구성 (reconstruct) 하는 단계; 및
상기 재구성된 일반적인 특징들을 이용하여 차별적인 딕셔너리에 기초하여 상기 대상을 인식하기 위해 상기 이미지를 재구성하는 단계로서, 상기 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 상기 차별적인 특징들의 각각의 셋트는 상기 복수의 대상들 중 상이한 대상과 연관되는, 상기 이미지를 재구성하는 단계를 포함하는, 신호 처리 방법.
제 1 항에 있어서,
또다른 딕셔너리에 기초하여, 재구성된 일반적인 특징들을 갖는 상기 이미지를 이용하여 하나 이상의 다른 특징들을 재구성하는 단계로서, 상기 또다른 딕셔너리는 상기 일반적인 딕셔너리보다 더 차별적인 정보를 포함하고 상기 차별적인 딕셔너리보다 덜 차별적인 정보를 포함하는, 상기 하나 이상의 다른 특징들을 재구성하는 단계; 및
상기 차별적인 딕셔너리에 기초하여 상기 이미지의 재구성을 위해 상기 재구성된 다른 특징들을 이용하는 단계를 더 포함하는, 신호 처리 방법.
제 1 항에 있어서,
상기 차별적인 딕셔너리를 적용하기 전에 상기 이미지로부터 상기 재구성된 일반적인 특징들을 추출하는 단계를 더 포함하는, 신호 처리 방법.
제 1 항에 있어서,
상기 일반적인 딕셔너리는 상기 대상들과 연관된 상기 이미지의 통계를 캡쳐 (capture) 하는, 신호 처리 방법.
복수의 대상들 중의 소정의 대상에 관련된 이미지를 획득하는 수단;
상기 복수의 대상들의 일반적인 정보를 포함하는 일반적인 딕셔너리 (dictionary) 에 기초하여 상기 이미지의 하나 이상의 일반적인 특징들을 재구성 (reconstruct) 하는 수단; 및
상기 재구성된 일반적인 특징들을 이용하여 차별적인 딕셔너리에 기초하여 상기 대상을 인식하기 위해 상기 이미지를 재구성하는 수단으로서, 상기 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 상기 차별적인 특징들의 각각의 셋트는 상기 복수의 대상들 중 상이한 대상과 연관되는, 상기 이미지를 재구성하는 수단을 포함하는, 신호 처리 장치.
제 5 항에 있어서,
또다른 딕셔너리에 기초하여, 재구성된 일반적인 특징들을 갖는 상기 이미지를 이용하여 하나 이상의 다른 특징들을 재구성하는 수단으로서, 상기 또다른 딕셔너리는 상기 일반적인 딕셔너리보다 더 차별적인 정보를 포함하고 상기 차별적인 딕셔너리보다 덜 차별적인 정보를 포함하는, 상기 하나 이상의 다른 특징들을 재구성하는 수단; 및
상기 차별적인 딕셔너리에 기초하여 상기 이미지의 재구성을 위해 상기 재구성된 다른 특징들을 이용하는 수단을 더 포함하는, 신호 처리 장치.
제 5 항에 있어서,
상기 차별적인 딕셔너리를 적용하기 전에 상기 이미지로부터 상기 재구성된 일반적인 특징들을 추출하는 수단을 더 포함하는, 신호 처리 장치.
제 5 항에 있어서,
상기 일반적인 딕셔너리는 상기 대상들과 연관된 상기 이미지의 통계를 캡쳐 (capture) 하는, 신호 처리 장치.
신호 처리 장치로서,
복수의 대상들 중의 소정의 대상에 관련된 이미지를 획득하고, 상기 복수의 대상들의 일반적인 정보를 포함하는 일반적인 딕셔너리 (dictionary) 에 기초하여 상기 이미지의 하나 이상의 일반적인 특징들을 재구성 (reconstruct) 하며, 상기 재구성된 일반적인 특징들을 이용하여 차별적인 딕셔너리에 기초하여 상기 대상을 인식하기 위해 상기 이미지를 재구성하도록 구성된 적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 연결된 메모리를 포함하며,
상기 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 상기 차별적인 특징들의 각각의 셋트는 상기 복수의 대상들 중 상이한 대상과 연관되는, 신호 처리 장치.
제 9 항에 있어서,
상기 적어도 하나의 프로세서는,
또다른 딕셔너리에 기초하여, 재구성된 일반적인 특징들을 갖는 상기 이미지를 이용하여 하나 이상의 다른 특징들을 재구성하고;
상기 차별적인 딕셔너리에 기초하여 상기 이미지의 재구성을 위해 상기 재구성된 다른 특징들을 이용하도록 더 구성되고,
상기 또다른 딕셔너리는 상기 일반적인 딕셔너리보다 더 차별적인 정보를 포함하고 상기 차별적인 딕셔너리보다 덜 차별적인 정보를 포함하는, 신호 처리 장치.
제 9 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 차별적인 딕셔너리를 적용하기 전에 상기 이미지로부터 상기 재구성된 일반적인 특징들을 추출하도록 더 구성되는, 신호 처리 장치.
제 9 항에 있어서,
상기 일반적인 딕셔너리는 상기 대상들과 연관된 상기 이미지의 통계를 캡쳐 (capture) 하는, 신호 처리 장치.
명령들이 저장된 컴퓨터-판독가능 저장 매체를 포함하는 신호 처리용 컴퓨터-프로그램 제품으로서,
상기 명령들은,
복수의 대상들 중의 소정의 대상에 관련된 이미지를 획득하는 것;
상기 대상들의 일반적인 정보를 포함하는 일반적인 딕셔너리 (dictionary) 에 기초하여 상기 이미지의 하나 이상의 일반적인 특징들을 재구성 (reconstruct) 하는 것;
상기 재구성된 일반적인 특징들을 이용하여 차별적인 딕셔너리에 기초하여 상기 대상을 인식하기 위해 상기 이미지를 재구성하는 것을 위해 프로세서에 의해 실행가능하고,
상기 차별적인 딕셔너리는 차별적인 특징들의 하나 이상의 셋트들을 포함하고, 상기 차별적인 특징들의 각각의 셋트는 상기 복수의 대상들 중 상이한 대상과 연관되는, 컴퓨터-판독가능 저장 매체를 포함하는 신호 처리용 컴퓨터-프로그램 제품.