KR20050085576A

KR20050085576A - 컴퓨터 비전 시스템 및 조명 불변 신경 네트워크를사용하는 방법

Info

Publication number: KR20050085576A
Application number: KR1020057010676A
Authority: KR
Inventors: 바산스 필로민; 스리니바스 구타; 미로슬라브 트라코빅
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-12-11
Filing date: 2003-12-08
Publication date: 2005-08-29
Also published as: WO2004053778A3; AU2003302791A1; WO2004053778A2; CN1723468A; JP2006510079A; US20060013475A1; EP1573657A2

Abstract

불균일한 조명 상태 하에서 획득된 2개의 이미지를 비교하기 위해 정규화된 크로스 상관(NCC : normalized cross correlation) 척도를 사용하여 객체가 분류된다. 시험적인 분류 라벨과 값을 할당하기 위해 입력 패턴이 분류된다. 이 입력 패턴은 가장 큰 분류 값을 가지고 있는 반경에 기초한 함수 네트워크 내 출력 노드에 할당된다. 이 입력 패턴과, 노드 이미지라고 불리우는 노드에 연관된 이미지가 모두 균일한 조명을 가지고 있으면, 이 노드 이미지는 허용되며, 유저 지정된 임계값 이상으로 그 확률이 설정된다. 테스트 이미지 또는 노드 이미지가 균일하지 않은 경우, 이 노드 이미지는 허용되지 않으며, 분류 값은 분류기에 의해 할당된 값으로서 유지된다. 만일 테스트 이미지와 노드 이미지가 모두 균일하지 않은 것이면, NCC 척도가 사용되며, 분류 값은 NCC 값으로 설정된다.

Description

컴퓨터 비전 시스템 및 조명 불변 신경 네트워크를 사용하는 방법{COMPUTER VISION SYSTEM AND METHOD EMPLOYING ILLUMINATION INVARIANT NEURAL NETWORKS}

본 발명은 컴퓨터 비전 시스템에 관한 것이며 보다 상세하게는 반경에 기초한 함수 네트워크(RBFN : Radial Basis Function Networks)를 사용하여 이미지 데이터 내의 객체를 분류하는 것에 관한 것이다.

컴퓨터 비전 기술은 이미지 내의 객체나 이벤트를 자동적으로 검출하거나 분류하는데 자주 사용된다. 객체들 간을 구별할 수 있는 능력은 많은 컴퓨터 비전 시스템을 효과적으로 동작시키기 위해 중요한 임무이다. 예를 들어, 특정 응용에서, 컴퓨터 비전 시스템이 사람들 및 애완 동물(pet)과 같은 생물 객체와, 가구(furniture) 및 문(door)과 같은 무생물 객체를 구별하는 것이 중요하다. 예를 들어 패턴 인식 기술은 종종 이미지 내에 소정의 객체나 객체 클래스가 나타날 가능성(확률)을 결정하기 위해 이미지에 적용된다. 패턴 인식이나 분류 기술을 좀더 살펴보려면, 예를 들어, R.O.Duda 및 P.Hart의 "PATTERN RECOGNITION AND SCENE ANALYSIS" (Wiley, New York, 1973); R.T.Chin 및 C.R.Dyer의 "MODEL-BASED RECOGNITION IN ROBOT VISION" (ACM Computing Surveys, 18(1), 67-108 (March, 1986)); 또는 P.J.Besl 및 R.C.Jain의 "THREE-DIMENSION OBJECT RECOGNITION" (Computing Surveys, 17(1), 75-145 (March, 1985))를 참조하기 바라며, 이들 각 문헌은 본 명세서에 참조문헌으로 병합되어 있다.

외관에 기초한 기술(appearance based technique)은 이미지에 기초한 정보를 이용하기 위한 고유 능력이 있기 때문에 객체 인식을 하는데 광범위하게 사용되어 왔다. 외관에 기초한 기술은 객체의 외관에 대한 2차원적인 이미지 표현과 저장된 프로토타입(prototype) 사이에 최적으로 일치하는 것을 발견하는 것에 의해 객체를 인식하고자 시도한다. 일반적으로, 외관에 기초한 방법은 비교를 하기 위하여 더 높은 차원의 표현에 대해 더 낮은 차원의 하위 공간(subspace)을 사용한다. 예를 들어, "Classification of Objects Through Model Ensembles"이라는 명칭으로 2001년 2월 27일에 출원된 미국 특허 출원 일련 번호 09/794,443은 거주하는 집 내 환경에서 사람들과 애완동물 사이를 구별하는 객체 분류 엔진을 개시한다. 처음에, 속도(speed)와 애스펙트 비(aspect ratio) 정보가 가구와 같은 유효하지 않은 이동 객체(moving object)를 제거하는데 사용된다. 이후, 구배 이미지(gradient image)가 나머지 객체로부터 추출된 후, 사람이나 애완동물과 같은 이동 객체를 분류하기 위해 반경에 기초한 함수 네트워크(radial basis function network)에 적용된다.

일반적으로, 반경에 기초한 함수 네트워크는 3개의 다른 층을 포함한다. 입력 층은 종종 입력 노드라고도 불리우는 소스 노드로 구성된다. 제 2 층은 숨은 노드(hidden node)로 구성된 숨은 층이며, 이 층의 기능은 데이터를 수집(cluster)하는 것이며 일반적으로 그 차원을 한정된 차원으로 줄이는 것이다. 출력 층은 이 입력 층에 적용된 활성화 패턴에 대한 네트워크의 응답을 공급한다. 이 입력 공간으로부터 숨은 단위 공간(hidden-unit space)으로의 변환은 비선형인 반면, 숨은 단위 공간으로부터 출력 공간으로의 변환은 선형이다. 반경에 기초한 함수 네트워크는 처음에 인식될 객체의 예시적 이미지를 사용하여 초기에 훈련된다(trained). 인식될 이미지 데이터가 주어질 때, 반경에 기초한 함수 네트워크는 이 입력 데이터와 각 숨은 노드 사이의 거리를 연산한다. 이 연산된 거리는 객체를 분류하는데 사용될 수 있는 스코어(score)를 제공한다.

이 훈련 이미지와 분류될 테스트 이미지가 유사한 조명 상태 하에서 획득된 것이 아니라면, 입력 이미지와 각 숨은 노드를 비교하는 것은 에러를 유발할 수 있으며 이에 의해 불량한 분류 또는 인식을 초래할 수 있다. 따라서, 균일하지 않은 조명 상태 하에서 획득된 이미지를 비교하기 위한 개선된 방법 및 장치에 대한 요구가 존재한다.

도 1은 반경에 기초한 함수(RBF : Radial Basis Function)를 사용하는 예시적인 종래 기술의 분류기를 예시하는 도면.

도 2는 본 발명에 따른 예시적인 패턴 분류 시스템을 개략적으로 도시하는 블록도.

도 3은 도 2의 패턴 분류 시스템을 훈련하기 위한 예시적인 RBFN 훈련 공정을 기술하는 흐름도.

도 4는 패턴 인식 및 분류를 위한 도 2의 패턴 분류 시스템을 사용하기 위한 예시적인 객체 분류 공정을 기술하는 흐름도.

일반적으로, 가변하는 조명 상태 하에서 객체를 분류하기 위한 방법 및 장치가 개시되어 있다. 이 개시된 분류기는 반경에 기초한 함수 네트워크와 같은 개선된 신경 네트워크를 사용하여 객체를 분류한다. 이 분류기는 정규화된 크로스 상관(NCC : normalized cross correlation) 척도를 사용하여 불균일한 조명 상태 하에서 획득된 2개의 이미지를 비교한다.

분류될 입력 패턴은 종래의 분류 기술을 사용하여 초기에 처리된 후, 시험적인 분류 라벨과 분류 값(종종 "확률 값"이라고 불리움)을 입력 패턴에 할당한다. 일반적으로, 입력 패턴은 가장 큰 분류 값을 가지고 있는 반경에 기초한 함수 네트워크 내의 출력 노드에 할당된다. 이후, 본 발명의 일 측면에 따라, 이 입력 패턴과 이 입력 패턴이 분류된 노드와 연관된 이미지(노드 이미지라고 불리움)가 균일한 조명을 가지고 있는지 여부를 결정한다.

테스트 이미지와 노드 이미지가 모두 균일한 경우, 이 노드 이미지가 허용되며, 그 확률은 유저 지정된 임계값 이상의 값으로 설정된다. 만일 테스트 이미지가 균일하고 노드 이미지가 균일하지 않은 경우나 그 반대의 경우에는, 이미지는 허용되지 않으며, 분류 값은 분류기에 의해 할당된 바와 동일한 값으로 유지된다. 마지막으로, 테스트 이미지와 노드 이미지가 모두 균일하지 않은 경우, 정규화된 크로스 상관 척도가 사용되며 분류 값은 NCC 값으로 설정된다.

본 발명의 다른 특징과 잇점 뿐만 아니라 본 발명에 대한 보다 완전한 이해는 후술하는 상세한 설명 및 도면을 참조하여 얻을 수 있을 것이다.

본 발명은 불균일한 조명 상태 하에서 획득된 이미지를 비교하기 위해 개선된 반경에 기초한 함수 네트워크(radial basis function network)를 사용하는 객체 분류 구조를 제공한다. 본 명세서에서 논의된 예시적인 실시예는 반경에 기초한 함수 네트워크를 사용하는 것이지만, 이 기술 분야에 통상의 지식을 가진 자에게 명백한 바와 같이, 역 전파 네트워크(back propagation network), 다층 지각에 기초한 네트워크(multi-layered perception-based network), 베이지안에 기초한 신경 네트워크(Bayesian-based neural network)와 같은 다른 신경 네트워크도 이와 유사하게 사용될 수 있다는 것은 물론이다. 예를 들어, 기본 성분 분석(Principle Component Analysis : PCA) 또는 독립적인 콤포넌트 분석(Independent Component Analysis : ICA)에 기초한 신경 네트워크, 또는 베이지안 기술(Bayesian techniques) 또는 선형 식별 분석(Linear Discriminant Analysis : LDA)에 기초한 분류기도 또한 이 기술 분야에 통상의 지식을 가진 자에게 명백한 바와 같이 사용될 수 있다.

도 1은 반경에 기초한 함수(RBF)를 사용하는 예시적인 종래 기술의 분류기(100)를 예시한다. 이미 언급한 바와 같이, 분류에 사용되는 RBF 신경 네트워크의 구성은 3개의 다른 층을 포함한다. 입력 층은 본 명세서에서 입력 노드라고도 불리우는 소스 노드로 구성된다. 제 2 층은 숨은 층이며, 그 층의 기능은 데이터를 수집하는 것이며 일반적으로 그 차원을 한정된 차원으로 줄이는 것이다. 출력 층은 입력 층에 적용된 활성화 패턴에 대한 네트워크의 응답을 공급한다. 이 입력 공간으로부터 숨은 단위 공간으로의 변환은 비선형인 반면, 숨은 단위 공간으로부터 출력 공간으로의 변환은 선형이다.

따라서, 분류기(100)는, (1) 입력 노드(110)와, 이 입력 노드(110)를 숨은 노드(120)에 연결하는 단위 가중치(unit weight)(115)를 포함하는 입력 층과; (2) 숨은 노드(120)를 포함하는 "숨은 층"과; 선형 가중치(125)와 출력 노드(130)를 포함하는 출력 층을 포함한다. 패턴 인식과 분류를 위해, 최대 선택 디바이스(select maximum device)(140)와 최종 출력(150)이 추가된다.

단위 가중치(115)는, 각 연결이 입력 노드(110)로부터 숨은 노드(120)로 본질적으로 동일한 것(즉, 각 연결은 일(1)만큼 "곱해진다")으로 유지되도록 하는 것임을 알아야 한다. 그러나, 선형 가중치(125)는 숨은 노드(120)와 출력 노드(130) 사이의 각 연결이 이 가중치(weight)만큼 곱해지도록 하는 것이다. 이 가중치는 도 3과 연계하여 아래에 기술되는 바와 같이 훈련 단계 동안 결정 및 조정된다.

도 1의 예에서는, 5개의 입력 노드(110)와, 4개의 숨은 노드(120)와, 3개의 출력 노드(130)가 존재한다. 그러나, 도 1은 단순히 예시적인 것이며, 아래 주어진 설명에서는, D개의 입력 노드(110)와, F개의 숨은 노드(120)와, M개의 출력 노드(130)가 존재한다. 각 숨은 노드(120)는 특정 평균 벡터()와 분산 벡터()로 지정된 가우시안 펄스 비선형성을 가지며, 여기서 i는 1,...,F이며, F는 숨은 노드(120)의 갯수이다. 은 가우시안 펄스(i)의 공변 매트릭스의 대각선 엔트리를 나타낸다는 것을 주의해야 한다. D-차원의 입력 벡터(X)가 주어진 경우, 각 BF 노드(i)는 이 입력에 의해 유발된 BF의 활성을 반영하여 다음 수식 (1)과 같이 스칼라 값(y_i)을 출력한다:

(1)

여기서 h는 분산에 대한 비례 상수이며, x _k 는 입력 벡터 X=[x ₁ , x ₂ , ..., x _D ]의 k 번째 성분이며, 와 는 각각 기저 노드(basis node)(i)의 평균과 분산 벡터의 k 번째 성분이다. 가시우안 BF의 중심에 가까이 있는 입력은 더 높은 활성을 나타내는 반면, 멀리 있는 입력은 더 낮은 활성을 나타낸다. RBF 분류기(100)의 각 출력 노드는 숨은 노드(120) 활성의 선형 조합을 형성하므로, 중간 층과 출력 층을 연결하는 네트워크(100) 부분은 다음 수식 (2)로 나타낸 바와 같이 선형이다:

(2)

여기서, z_j 는 j 번째 출력 노드의 출력이며, y_i 는 i 번째 BF 노드의 활성이며, w_ij 는 i 번째 BF 노드를 j 번째 출력 노드로 연결하는 가중치이며, w_oj 는 j 번째 출력 노드의 바이어스(bias) 또는 임계값이다. 이 바이어스는 입력에 상관없이 일정한 단위 출력을 가지는 숨은 노드(120)와 연관된 가중치로부터 유래한다.

미지의 벡터(X)는, 최대 선택 디바이스(140)에 의해 선택된 바와 같이, 가장 큰 출력(z_j)을 갖는 출력 노드(j)와 연관된 클래스(class)에 속하는 것으로 분류된다. 이 최대 선택 디바이스(140)는 M개의 출력 노드로부터의 각 출력을 비교하여 최종 출력(150)을 결정한다. 이 최종 출력(150)은, 입력 벡터(X)가 대응하는 클래스로서 선택된 클래스를 지시하는 것이다. 이 입력 벡터(X)에 대한 클래스를 연관시키는데 도움이 되는 선형 가중치(125)는 훈련(training)하는 동안 학습된다. 분류기(100)의 선형 부분 내의 가중치(w_ij)는 일반적으로 하강 구배(gradient descent)와 같은 반복 최소화법(iterative minimization method)을 사용해서는 해결되지 않는다. 대신, 이들 가중치는 일반적으로 매트릭스 의사반전 기술(matrix pseudoinverse technique)을 사용하여 신속하고 정확하게 결정된다. 이 기술과 RBF 분류기에 관한 추가적인 정보는, 예를 들어, R.P.Lippmann 및 K.A.Ng의 "Comparative Study of the Practical Characteristic of Neural Networks and Pattern Classifiers" (MIT Technical Report 894, Lincoln Labs, (1991)); C.M.Bishop의 "Neural Networks for Pattern Recognition" (Ch.5 (1995)); J.Moody & C.J.Darken의 "Fast Learning in Networks of Locally Tuned Processing Units" (Neural Computation, vol. 1, 281-94 (1989)); 또는 Simon Haykin의 "Neural Networks: A Comprehensive Foundation" (Prentice Hall, 256-317 (1999)에 기술되어 있으며, 위 각 문헌은 본 명세서에 참조문헌으로 병합되어 있다.

예시적인 반경에 기초한 함수 분류기의 상세한 알고리즘 설명은 도 3 및 도 4와 연계하여 아래에서 논의된다. 초기에, RBF 네트워크의 사이즈는 숨은 노드의 수 F를 선택하는 것에 의해 결정된다. 적절한 F 값은 문제에 따라 지정되며 일반적으로 이 문제의 차원과 형성될 결정 영역(decision region)의 복잡도에 따라 좌우된다. 일반적으로 F는 여러 가지 F를 시도하여 경험적으로 결정될 수 있으며 또는 이 F는 이 문제의 입력 차원보다 통상적으로 더 큰 일정 상수로 설정될 수도 있다.

F가 설정된 후, BF의 평균(m_i)과 분산()을 여러 방법을 사용하여 결정할 수 있다. 이들 평균과 분산은, 출력 가중치와 함께, 역-전파 하강 구배 기술(back-propagation gradient descent technique)을 사용하여 훈련될 수 있으나, 이것은 통상적으로 긴 훈련 시간을 요구하며 그리하여 차선의 국부 최저값(suboptimal local minima)을 초래할 수도 있다. 대안적으로, 이 평균과 분산은 출력 가중치를 훈련하기 전에 결정될 수도 있다. 이 네트워크의 훈련은 이때 가중치를 결정하는 것만을 포함한다.

BF 중심과 분산은 관련 공간을 포함하기 위해 보통 선택된다. 여러 기술이 제안되어 왔다. 하나의 그러한 기술은 입력 공간을 샘플링하는 동등하게 이격된 BF 그리드(grid)를 사용한다. 또 하나의 기술은 K-평균(means)과 같은 클러스터링 알고리즘을 사용하여 BF 중심 세트를 결정하며, 다른 기술은 각 클래스를 확실히 표현하기 위해 훈련 세트로부터 랜덤 벡터를 BF 중심으로 선택해 왔다. RBFN을 더 살펴보려면, 예를 들어, "Classification of Objects Through Model Ensembles"이라는 명칭으로 2001년 2월 27일에 출원된 미국 특허 출원 일련 번호 09/794,443을 참조하기 바라며, 이 문헌은 본 명세서에 참조 문헌으로 병합되어 있다.

일반적으로, 각 반경에 기초한 함수 분류기(100)는 소정의 객체가 대응하는 노드와 연관된 클래스 멤버일 확률을 나타낸다. 특징 벡터로 사용하기 위한 입력 세기 이미지로부터 수평, 수직, 및 조합된 구배를 추출하는 것에 대해 더 살펴보려면, 예를 들어, "Classification of Objects Through Model Ensembles"이라는 명칭으로 2001년 2월 27일에 출원된 미국 특허 출원 일련 번호 09/794,443을 참조하기 바라며, 이 문헌은 본 명세서에 참조 문헌으로 병합되어 있다. 일반적으로, 이 공정은, 모델 객체 세트의 시퀀스의 집합을 처리하는 것과, 각 객체에 대응하는 이미지 벡터 세트를 형성하기 위해 각 객체에 대해 수평, 수직, 및 조합 구배를 추출하는 것을 포함한다.

도 2는, 본 발명에 따라 변형되어 있는, 도 1의 반경에 기초한 함수 네트워크(100)를 사용하는 예시적인 패턴 분류 시스템(200)이다. 도 2는 입력 패턴(210) 및 디지털 다용도 디스크(DVD)(250)와 상호작용하여 분류(240)를 생성하는 것으로 도시된 패턴 분류 시스템(200)을 포함한다.

패턴 분류 시스템(200)은 프로세서(220)와 메모리(230)를 포함하며, 이 메모리(230)는, 자체에 도 3과 연계하여 아래에 논의되는 RBFN 훈련 공정(300)과, 도 4와 연계하여 아래에 논의되는 객체 분류 공정(400)을 포함한다. 패턴 분류 시스템(200)은 입력 패턴을 허용하며 이 패턴을 분류한다. 예를 들어, 입력 패턴은 비디오로부터 오는 이미지일 수 있으며, 이 패턴 분류 시스템(200)은 애완동물과 사람을 구별하는데 사용될 수 있다.

패턴 분류 시스템(200)은, 중앙 처리 장치(CPU)와 같은 프로세서(220)와, 랜덤 액세스 메모리(RAM) 및 판독 전용 메모리(ROM)와 같은 메모리(230)를 포함하는 퍼스널 컴퓨터나 워크스테이션과 같은 임의의 연산 장치로 구현될 수도 있다. 다른 실시예에서, 본 명세서에 개시된 패턴 분류 시스템(200)은 예를 들어 비디오 처리 시스템의 일부로서 ASIC(application specific integrated circuit)로 구현될 수도 있다.

이 기술 분야에 알려진 바와 같이, 본 명세서에 개시된 방법 및 장치는 그 자체가 컴퓨터 판독가능한 코드 수단을 그 위에 구비하는 컴퓨터 판독가능한 매체를 포함하는 제조 물품(article of manufacture)으로서 분류될 수 있다. 이 컴퓨터 판독가능한 프로그램 코드 수단은, 컴퓨터 시스템과 연계하여, 본 명세서에서 논의된 장치를 제조하거나 본 방법을 수행하기 위해 일부 단계나 또는 모든 단계를 수행하도록 동작가능하다. 이 컴퓨터 판독가능한 매체는 레코딩가능한 매체(예를 들어, 플로피 디스크, 하드 드라이브, DVD(250)와 같은 콤팩트 디스크, 또는 메모리 카드)일 수 있으며, 또는 송신 매체(예를 들어, 광섬유, 월드와이드 웹, 케이블을 포함하는 네트워크, 또는 시분할 다중 접속, 코드분할 다중 접속, 또는 다른 무선 주파수 채널을 사용하는 무선 채널)일 수 있다. 컴퓨터 시스템에 사용하기에 적합한 정보를 저장할 수 있는 알려지거나 개발된 임의의 매체가 사용될 수도 있다. 이 컴퓨터 판독가능한 코드 수단은, DVD(250)와 같은 콤팩트 디스크의 표면 상의 높이 변화나 자기 매체 상의 자성 변화와 같은 명령 및 데이터를 컴퓨터가 판독할 수 있게 하는 임의의 메커니즘이다.

메모리(230)는 본 명세서에 개시된 방법, 단계, 및 기능을 구현하도록 프로세서(220)를 구성한다. 이 메모리(230)는 분산 형태이거나 로컬 형태일 수 있으며, 프로세서(220)는 분산 프로세서이거나 단일 프로세서일 수 있다. 이 메모리(230)는 전기, 자기, 또는 광 메모리, 또는 이들 타입이나 다른 타입의 저장 디바이스의 임의의 조합일 수 있다. "메모리"라는 용어는 프로세서(220)에 의해 액세스되는 어드레스지정 가능한 공간 내의 어드레스로부터 판독하거나 또는 이 어드레스에 기록할 수 있는 임의의 정보를 포함할만큼 충분히 넓게 해석되어야 한다. 이 정의에 따라, 네트워크 상의 정보는, 프로세서(220)가 이 네트워크로부터 정보를 검색할 수 있기 때문에, 패턴 분류 시스템(300)의 메모리(250) 내에 여전히 존재한다.

도 3은 도 2의 RBFN 훈련 공정(300)의 예시적인 구현예를 기술하는 흐름도이다. 이 기술 분야에 알려진 바와 같이, 패턴 분류 시스템을 훈련시키는 것은 일반적으로 이 분류기가 패턴을 클래스로 분류할 수 있도록 하기 위해 수행된다. 일반적으로, 이 RBFN 훈련 공정(300)은, 올바른 객체 분류의 지시를 포함하는 적절한 기본 참인 데이터 세트(ground truth data set)로부터 이미지 데이터를 사용하여, 반경에 기초한 함수 신경 네트워크(100)를 훈련하는데 사용된다. 이미 언급된 바와 같이, 입력 층(110)과 패턴(숨은 층)(120) 사이에 그리고 패턴(숨은 층)(120)과 출력 층(130) 사이의 반경에 기초한 함수 신경 네트워크(100) 내의 각 연결에 훈련 단계 동안 가중치가 할당된다.

도 3에 도시된 바와 같이, 예시적인 RBFN 훈련 공정(300)은 단계 310 동안 RBF 네트워크(100)를 초기화한다. 이미 언급된 바와 같이, 이 초기화 공정은 일반적으로 다음의 단계, 즉

(a) 기저 함수(basis function)의 갯수인 F를 선택하는 것에 의해 네트워크 구조를 정하는 단계로서, 각 기저 함수(i)는 다음의 출력, 즉

을 가지고 있으며, 여기서 k 는 성분 인덱스(component index)이며,

(b) K 평균 클러스터링 알고리즘을 사용하여, 기저 함수의 평균()을 결정하는 단계와, 여기서 i 는 1, ..., F이며;

(c) 기저 함수의 분산()을 결정하는 단계와, 여기서 i 는 1,..., F이며(기저 함수 분산()은 어떤 전체 값으로 정해지거나 또는 BF 중심 부근에 있는 데이터 벡터의 밀도를 반영하기 위해 설정될 수도 있다);

(d) BF 폭을 재스케일링(rescaling)하기 위해 경험적 검색에 의해 기저 함수 분산을 위한 전체 비례 계수인 H를 결정하는 단계(양호한 성능을 야기하는 값을 위해 H 공간을 검색하는 것에 의해, 적절한 값이 결정된다)

를 포함한다.

BF 파라미터가 설정된 후, 그 다음 단계는 출력 가중치를 훈련시키는 것이다. 따라서, 예시적인 RBFN 훈련 공정(300)은 단계 320 동안 초기화된 RBF 네트워크(100)에 훈련 이미지 데이터(training image data)를 제공한다. 일 실시예에서, 이 훈련 이미지 표현 공정은 일반적으로 다음의 단계, 즉

(a) 훈련 패턴(X(p))과 그 클래스 라벨(C(p))을 분류기에 입력하는 단계와, 여기서 패턴 인덱스 p 는 1,..., N이며;

(b) 패턴 X(p)로부터 유래하는 기저 함수 노드(y_i(p))의 출력을 연산하는 단계와, 여기서 i 는 1,..., F이며;

(c) 기저 함수 출력의 FxF 상관 매트릭스(R)를 다음 수식으로 연산하는 단계와,

(d) 다음 수식과 같이 FxM 출력 매트릭스(B)를 연산하는 단계(여기서, d_j 는 원하는 출력이며 M은 출력 클래스의 갯수이고, j = 1,...,M이다)

를 포함한다.

각 훈련 패턴은 하나의 R 및 하나의 B 매트릭스를 생성한다는 것을 주의하여야 한다. 최종 R 및 B 매트릭스는 N개의 개별 R 및 B 매트릭스의 합의 결과이며, 여기서 N은 훈련 패턴의 총 갯수이다. 모두 N개의 패턴이 분류기에 제공되고 나면, 출력 가중치(w_ij)를 결정할 수 있다.

따라서, 예시적인 RBFN 훈련 공정(300)은 단계 330 동안 RBF 네트워크(100)를 위한 출력 가중치(w_ij)를 결정한다. 일 실시예에서, 초기화된 RBF 네트워크(100)를 위한 가중치는, 다음과 같이, 즉

(a) 최종 FxF 상관 매트릭스(R)를 반전시켜 R ^-1 을 얻는 단계와,

(b) 다음 수식을 사용하여 네트워크 내 가중치를 계산하는 단계

로 연산된다.

이후, RBFN 훈련 공정(300)의 프로그램 제어는 종료한다.

반경에 기초한 함수 분류기(100)를 위한 훈련 기술에 대해 좀더 알아보려면, 예를 들어, "Classification of Objects Through Model Ensembles"이라는 명칭으로 2001년 2월 27일에 출원된 미국 특허 출원 일련 번호 09/794,443을 참조하기 바라며, 이 문헌은 본 명세서에 참조문헌으로 병합되어 있다.

도 4는 본 발명의 특징을 포함하는 예시적인 객체 분류 공정(400)을 기술하는 흐름도이다. 도 4에 도시된 바와 같이, 예시적인 객체 분류 공정(400)은, 미지의 패턴 X_test가 제공되거나 얻어질 때, 단계 410에서 시작한다. 알려진 방식으로, 예를 들어, 검출된 각각의 이동 객체의 검출 속도와 애스펙트 비에 따라, 검출된 이동 객체로부터 원치않는 이동 객체를 제거하기 위해 이미지 X_test가 전처리될 수 있다는 것을 유의하여야 한다.

단계 420 동안, 입력 패턴(X_test)은 분류 값을 연산하기 위해 반경에 기초한 함수 분류기(100)에 공급된다. 이후, 입력 패턴(X_test)은 종래의 기술을 사용하여 단계 430 동안 RBF 네트워크(100)에 의해 분류된다. 일 실시예에서, 입력 패턴(X_test)은, 다음과 같이, 즉

(a) 다음 수식과 같이 모두 F개의 기저 함수에 대해 기저 함수 출력을 연산하는 단계와,

(b) 다음 수식과 같이 출력 노드 활성을 연산하는 단계와,

(c) 가장 큰 값을 갖는 출력(z_j)을 선택하여 X_test를 클래스 j로서 분류하는 단계

에 따라 분류된다.

RBF 입력은 일반적으로 1D 벡터로서 네트워크(100)에 공급된 n개의 사이즈 정규화된 표면 이미지(face image)로 구성된다. 숨은(관리되지 않은) 층은 향상된 k 평균 클러스터링 절차를 구현하며, 여기서 가우시안 클러스터 노드의 수와 그 분산이 모두 동적으로 설정된다. 클러스터의 수는, 훈련 이미지의 수의 1/5에서부터 훈련 이미지의 총 수 n까지 5의 단계씩 변화한다. 각 클러스터에 대한 가우시안의 폭은 최대값(클러스터의 중심과 가장 멀리 있는 멤버 사이의 거리; 클래스 직경 내에서는, 클러스터의 중심과 다른 모든 클러스터로부터 가장 가까운 패턴 사이의 거리)에 중첩 계수(o), 여기서는 2의 계수로 곱한 값으로 설정된다. 이 폭은 다른 비례 상수(h)를 사용하여 동적으로 더 개선된다. 이 숨은 층은 기능적인 얼굴 기저와 동등한 것을 생성하며, 여기서 각 클러스터 노드는 표면 공간에 걸쳐 몇가지 공통적인 특성을 인코딩한다. 출력(감독되는) 층은 그러한 공간을 따라 표면 인코딩("확장")을 대응하는 ID 클래스에 맵핑하며, 의사반전 기술(pseudoinverse techniques)을 사용하여 대응하는 확장("가중치") 계수를 발견한다. 이 클러스터의 수는 이 구성(클러스터의 수와 특정 비례 상수(h))에 대해서는 고정되며, 이는 동일한 훈련 이미지에 대해 테스트될 때 ID 분류에 대해 100% 정확도를 생성한다는 것을 주의하여야 한다.

본 발명의 일 특징에 따라, 단계 430 동안 입력 패턴에 할당된 분류 값이 미리 한정된 구성가능한 임계값 이하인지를 결정하는 테스트가 단계 440 동안 수행된다. 만일 단계 430 동안 이 분류 값이 이 임계값 이하인 것으로 결정되면, 프로그램 제어는 종료한다. 그러나, 만일, 단계 430 동안 이 분류 값이 이 임계값 이하인 것으로 결정되는 경우, 불량한 분류값이 불균일한 조명으로 인한 것인지 여부를 결정하기 위한 추가적인 처리가 단계 450 내지 단계 480 동안 수행된다.

따라서, 입력 패턴(X_test)과, 이 X_test가 분류된 숨은 노드와 연관된 이미지는 이들이 균일한 조명을 가지고 있는지를 결정하기 위해 단계 450 동안 평가된다. 예를 들어, 이미지가 균일한지를 확인하기 위해, 그 세기 값은 0 및 1 사이에 놓이도록 정규화된다. 이후, 이 이미지는 다수의 영역으로 분할되며, 그 평균과 분산이 연산된다. 이 평균과 분산이 임의의 2개의 영역 사이의 범위 내에 있는 경우, 이 이미지는 균일한 것이라고 말한다.

만일, 단계 450 동안, 테스트 이미지와, 이 분류기가 테스트 이미지를 할당한 숨은 노드 모두가 균일한 것으로 결정된다면, 이 이미지는 단계 460 동안 허용되며, 그 확률은 유저 지정된 임계값 이상의 값으로 설정된다.

만일, 단계 450 동안, 테스트 이미지는 균일하며 숨은 노드는 균일하지 않은 것으로 (또는 그 역으로) 결정된다면, 이 이미지는 단계 470 동안 허용되지 않으며, 그 분류 값은 분류기(100)에 의해 할당된 바와 동일한 값으로 유지된다.

마지막으로, 단계 450 동안, 테스트 이미지와 숨은 노드가 모두 균일하지 않은 것으로 결정된다면, 정규화된 크로스 상관(NCC) 척도가 단계 480 동안 사용되며, 그 분류 값은 NCC 값으로 설정된다. NCC에 대한 수식은 다음과 같이 표현된다:

여기서 x는 테스트 이미지이며, r은 숨은 노드이다. NCC는 일반적으로 테스트 및 숨은 노드를 다수의 서브 영역으로 분할한 후 각 영역에 대한 연산을 합산하여 수행된다. 일반적으로, NCC는 각 이미지 내의 세그먼트를 일치시키며 각 세그먼트가 평균으로부터 얼마나 멀리 있는지를 결정함으로써 이미지를 평활화한다. 이후, 각 세그먼트에 대해 평균 값으로부터의 편차가 평균된다.

다른 변형예에서, 네트워크(100)는 도 3에 따라 훈련된다. 이후, 각 테스트 이미지에 대해, 유클리디안 거리 메트릭(Eucliedian distance metric)이 연산된다. 어느 노드에 대한 것이든 간에, 그 거리는 최소값으로 되며, 이 최소 노드와 연관된 이미지와 테스트 이미지는 도 4의 단계 450 내지 단계 480만을 사용하여 처리된다.

본 명세서에 도시되고 기술된 실시예와 변형예는 본 발명의 원리를 단순히 예시하는 것이며 이 기술 분야에 숙련된 자라면 본 발명의 범위와 사상을 벗어남이 없이 여러 가지 변형을 구현할 수 있을 것이라는 것은 물론이다.

전술된 바와 같이, 본 발명은 이미지 데이터 내 객체를 분류하는 등에 이용가능하다.

Claims

이미지 데이터 내의 객체를 분류하는 방법에 있어서,

신경 네트워크(neural network) 내 연관된 노드 이미지를 가지고 있는 노드에 상기 이미지 데이터를 할당하는 단계와,

상기 이미지 데이터와 상기 노드 이미지가 불균일 조명 하에서 얻어진 것이면 상기 이미지 데이터와 상기 노드 이미지를 비교하기 위해 정규화된 크로스 상관 척도(normalized cross correlation measure)를 적용하는 단계

를 포함하는, 이미지 데이터 내 객체를 분류하는 방법.
제 1 항에 있어서, 상기 객체에 대한 분류 값은 상기 정규화된 크로스 상관 척도에 의해 결정되는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 이미지가 불균일 조명 하에서 얻어진 것인지 여부를 결정하는 상기 단계는, 상기 이미지 내의 세기 값(intensity value)을 정규화하는 단계와, 상기 이미지를 다수의 영역으로 분할하는 단계와, 상기 영역의 평균과 분산을 연산하는 단계와, 상기 이미지가 상기 평균과 분산 값에 기초하여 균일한지 여부를 결정하는 단계를 더 포함하는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 노드와 연관된 상기 분류 값은, 상기 이미지 데이터와 상기 노드 이미지 모두가 균일한 조명 하에서 얻어진 경우에 상기 이미지 데이터에 할당되는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 이미지 데이터와 상기 노드 이미지 중 어느 하나만이 균일한 조명 하에서 얻어진 경우 상기 노드 이미지는 허용되지 않는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 적용하는 단계는, 상기 분류 값이 미리 한정된 임계값을 만족하지 않는 경우에만 수행되는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 노드는, 상기 객체가 대응하는 클래스(class)를 식별하는 연관된 클래스 라벨과, 객체가 이 클래스에 속할 확률을 나타내는 분류 값을 구비하는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 정규화된 크로스 상관 척도에 기초하여 클래스 라벨을 출력하는 단계를 더 포함하는, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 신경 네트워크는 반경에 기초한 함수 네트워크(radial basis function network)인, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 신경 네트워크는 역 전파 네트워크(back propagation network)인, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 신경 네트워크는 다층 지각에 기초한 네트워크(multi-layered perception-based network)인, 이미지 데이터 내의 객체를 분류하는 방법.
제 1 항에 있어서, 상기 신경 네트워크는 베이지안에 기초한 신경 네트워크(Bayesian-based neural network)인, 이미지 데이터 내의 객체를 분류하는 방법.
이미지 데이터 내 객체를 분류하는 장치에 있어서,

메모리와,

상기 메모리에 연결된 적어도 하나의 프로세서로서,

상기 신경 네트워크 내의 연관된 노드 이미지를 가지고 있는 노드에 상기 이미지 데이터를 할당하며,

상기 이미지 데이터와 상기 노드 이미지가 불균일 조명 하에서 얻어진 것이면 상기 이미지 데이터와 상기 노드 이미지를 비교하기 위해 정규화된 크로스 상관 척도를 적용하도록

동작가능한, 적어도 하나의 프로세서

를 포함하는, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 객체에 대한 분류 값은 상기 정규화된 크로스 상관 척도에 의해 결정되는, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 프로세서는, 상기 이미지 내 세기 값을 정규화하며, 상기 이미지를 다수의 영역으로 분할하며, 상기 영역의 평균과 분산을 연산하며, 상기 이미지가 상기 평균과 분산 값에 기초하여 균일한지 여부를 결정하는 것에 의해, 상기 이미지가 불균일한 조명 하에서 얻어진 것인지 여부를 결정하도록 더 구성된, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 노드와 연관된 상기 분류 값은, 상기 이미지 데이터와 상기 노드 이미지 모두가 균일한 조명 하에서 얻어진 경우에 상기 이미지 데이터에 할당되는, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 노드 이미지는, 상기 이미지 데이터와 상기 노드 이미지 중 어느 하나만이 균일한 조명 하에서 얻어진 것이면 허용되지 않는, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 노드는, 상기 객체가 대응하는 클래스를 식별하는 연관된 클래스 라벨과, 상기 객체가 이 클래스에 속할 확률을 나타내는 분류 값을 구비하는, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 신경 네트워크는 반경에 기초한 함수 네트워크인, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 신경 네트워크는 역 전파 네트워크인, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 신경 네트워크는 다층 지각에 기초한 네트워크인, 이미지 데이터 내의 객체를 분류하는 장치.
제 13 항에 있어서, 상기 신경 네트워크는 베이지안에 기초한 신경 네트워크인, 이미지 데이터 내의 객체를 분류하는 장치.
이미지 데이터 내 객체를 분류하는 제조 물품에 있어서,

하나 이상의 프로그램을 포함하는 기계 판독가능한 매체를 포함하며,

상기 하나 이상의 프로그램은,

실행될 때

신경 네트워크 내 연관된 노드 이미지를 가지고 있는 노드에 상기 이미지 데이터를 할당하는 기능과,

상기 이미지 데이터와 상기 노드 이미지가 불균일 조명 하에서 얻어진 것이면 상기 이미지 데이터와 상기 노드 이미지를 비교하기 위해 정규화된 크로스 상관 척도를 적용하는 기능

을 구현하는,

이미지 데이터 내의 객체를 분류하는 제조 물품.