KR20050086559A

KR20050086559A - 영상에 고유한 시간-변화 정보를 통한 대상 분류

Info

Publication number: KR20050086559A
Application number: KR1020057008472A
Authority: KR
Inventors: 스리니바스 구타; 바산쓰 필로민; 미로슬라브 트라지코비치
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-11-15
Filing date: 2003-10-24
Publication date: 2005-08-30
Also published as: CN1711560A; US20050259865A1; AU2003274454A1; EP1563461A2; WO2004047027A2; JP2006506724A; WO2004047027A3

Abstract

장면에서의 대상을 분류하는 방법이 제공된다. 상기 방법은, 상기 장면의 비디오 데이터를 포착하는 단계와; 상기 비디오 데이터의 비디오 프레임 시퀀스에서 적어도 하나의 대상을 찾는 단계와; 상기 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하는 단계와; 상기 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하는 단계를 포함한다.

Description

영상에 고유한 시간-변화 정보를 통한 대상 분류{OBJECT CLASSIFICATION VIA TIME-VARYING INFORMATION INHERENT IN IMAGERY}

본 발명은 일반적으로 컴퓨터 비젼(computer vision)에 관한 것으로, 더 구체적으로 영상(imagery)에 고유한 시간-변화 정보를 통한 대상 분류에 관한 것이다.

일반적으로, 종래 기술의 식별 및 분류 시스템은 각각 정적 또는 비디오 영상에 대해 대상을 식별 및 분류한다. 본 개시를 위해, 대상 분류는 대상 식별 및/또는 분류를 포함할 것이다. 따라서, 종래 기술의 분류 시스템은 대상을 분류하기 위해 비디오 시퀀스에서의 정적 이미지 또는 프레임 상에서 동작한다. 종래 기술에 알려진 이들 분류 시스템은 비디오 영상에 고유한 시간 변화 정보를 사용하지 않고, 오히려, 한번에 한 프레임씩 대상을 식별함으로써 대상을 분류하려고 시도한다.

이들 분류 시스템이 장점을 갖고 있지만, 다음과 같은 단점을 가질 수 있다:

(a) 분류는 독립적으로 각 프레임 상에서 수행되고, 프레임에 걸친 대상 사이의 임의의 관계는 손실된다;

(b) 프레임에 걸친 픽셀 종속성이 각 프레임이 독립적으로 처리될 때 더 이상 유지되지 않으므로, 분류 시스템의 전체 성능은 더 이상 강력해지지 않는다;

(c) 분류 시스템은 영상에 고유한 잡음 및 조명 변화로 인해 매끄러운 열화(graceful degradation)를 나타내지 않는다.

브루톤(Bruton) 등의, On the Classification of Moving Objects in Image Sequences Using 3D Adaptive Recursive Tracking Filters and Neural Networks,(제 29회 Asilomar Conference on Signals, Systems and Computers)에서, 복잡한 교차로를 통과하는 차량의 궤도가 분류된다. 특히, 이 문서는, 특히 다음의 4가지 차량 궤도, 즉 "좌회전하는 차량", "좌측 차선으로부터 직진하는 차량", "우회전하는 차량", 및 "우측 차선으로부터 직진하는 차량"을 분류하는 것에 관련된다. 이를 달성하는 전략은 다음과 같다, 즉 (a) 비디오 프레임에서 대상을 찾기 위해 순환 필터를 이용, (b) 연속적인 프레임 상에서 대상을 추적하기 위해 동일한 필터를 이용, (c) 다음으로, 각 프레임으로부터 대상의 중심 및 속도를 추출, (d) 추출된 속도를 이용하고, 정적 속도 프로파일을 얻기 위해 이를 시간-지연 신경망(TDNN: Time-Delay Neural Network)에 통과시킴, (e) 다층 퍼셉트론(MLP: Multi-Layer Perceptron)을 트레이닝하도록 정적 속도 프로파일을 이용하여, 마지막으로 이 궤도를 분류한다. 이러한 분류 구성에는 2가지 주요한 문제가 있다. 종래 기술은 대상을 찾고 추적하기 위해 필터, 특히 대역 통과 필터를 이용한다. 대역 통과 필터의 파라미터는 임시(adhoc) 방식으로 설정된다. 그러나, 프레임에 걸쳐 픽셀의 상호 관계가 대상을 찾고 추적하기 위해 고려되지 않기 때문에, 그러한 시스템의 전체 성능은 프레임에 걸친 잡음이 일정하지 않으므로 저하된다. 그러므로, 프레임 세트에 걸친 배경 모델을 학습하는 것은 해당 대상을 효과적으로 찾고 추적하기 위한 대안적인 방식을 제공한다. 또한, 모델을 학습하는 것은 특히 중요한데, 그 이유는, 상이한 시간 동안 얻어질 때 비디오 영상에서의 조명이 항상 변화하는 경우가 종종 있기 때문이다. 두 번째로, 조명 변화로 인해, 속도 계산은 효과적이지 않을 것이다. 이 때문에, 신경망 자체의 전체 정밀도는 악화될 것이다.

도 1은 본 발명의 방법의 바람직한 구현을 도시한 흐름도.

도 2는 본 발명의 방법을 수행하기 위한 시스템의 개략도.

그러므로, 본 발명의 목적은 종래 기술과 연관된 단점을 극복하는 대상 분류를 위한 방법 및 디바이스를 제공하는 것이다.

따라서, 장면(scene)에서 대상을 분류하는 방법이 제공된다. 상기 방법은, 장면의 비디오 데이터를 포착하는 단계와; 비디오 데이터의 비디오 프레임 시퀀스에 적어도 하나의 대상을 찾는 단계와; 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하는 단계와; 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하는 단계를 포함한다.

상기 찾아내는(locating) 단계는 비디오 프레임 시퀀스 상에서 배경 감법(background subtraction)을 수행하는 단계를 포함하는 것이 바람직하다.

시간-지연 신경망은 엘만(Elman) 네트워크인 것이 바람직하다. 엘만 네트워크는 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화(activation)의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론을 포함하는 것이 바람직하다. 이 경우에, 분류 단계는 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원(identity)을 확인하기 위해 상태 층을 횡단하는 단계를 포함한다.

또한, 장면에서 대상을 분류하는 장치가 제공되고, 상기 장치는, 장면의 비디오 데이터를 포착하기 위한 적어도 하나의 카메라와; 비디오 데이터의 비디오 프레임 시퀀스에 적어도 하나의 대상을 찾고, 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하기 위한 검출 시스템과; 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하기 위한 프로세서를 포함한다.

검출 시스템은 비디오 프레임 시퀀스 상에서 배경 감법을 수행하는 것이 바람직하다.

시간-지연 신경망은 엘만 네트워크인 것이 바람직하다. 엘만 네트워크는, 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론을 포함하는 것이 바람직하다. 이 경우에, 프로세서는, 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원을 확인하기 위해 상태 층을 횡단함으로써 적어도 하나의 대상을 분류한다.

또한, 본 발명의 방법을 수행하기 위한 컴퓨터 프로그램 제품과, 컴퓨터 프로그램 제품의 저장을 위한 프로그램 저장 디바이스가 제공된다.

본 발명의 장치 및 방법의 이들 및 다른 특징, 양상 및 장점은 다음의 설명, 첨부된 청구항, 및 첨부 도면에 관해 더 잘 이해될 것이다.

본 발명이 다수의 다양한 유형의 신경망에 적용가능하지만, 엘만 신경망의 환경에 특히 유용한 것으로 알 수 있다. 그러므로, 본 발명의 적용 가능성을 엘만 신경망에 제한시키지 않고도, 본 발명은 그러한 환경에서 설명될 것이다.

한 번에 한 프레임씩 비디오 영상에서 대상을 분류하는 것과 대조적으로, 본 발명의 방법은 비디오 시퀀스를 그대로 라벨링(label)한다. 이것은, 결정에 이르기 위해 과거 및 현재 데이터 및 그 고유한 관계를 탐색함으로써 분류를 학습하는 엘만 신경망과 같은 시간 지연 신경망(TDNN)의 이용을 통해 달성된다. 따라서, 본 발명의 방법은, 비디오 시퀀스에서의 개별 프레임으로부터 학습하는 것과 대조적으로 비디오 시퀀스상에서 학습함으로써 대상을 식별/분류할 수 있는 능력을 갖는다. 더욱이, 전술한 종래 기술에서 이루어진 바와 같이, 비디오 데이터로부터 특징 측정을 추출하는 것 대신에, 본 발명의 방법은 TDNN으로의 직접적으로의 입력으로서 추적된 대상을 이용한다. 간단히 말하면, 종래 기술은 추적된 대상으로부터 추출된 특징인 입력을 갖는 TDNN을 이용한다. 종래 기술에 비해, 본 발명의 방법은 추적된 대상 자체를 TDNN에 입력한다.

종래 기술의 방법은 도 1을 참조하여 이제 설명될 것이다. 도 1은 본 발명의 방법의 바람직한 구현을 예시한 흐름도를 도시하며, 이것은 일반적으로 참조 번호(100)로 언급된다. 상기 방법에서, 비디오 입력은 단계(102)에서 장면으로부터 비디오 영상을 포착하는 적어도 하나의 카메라로부터 수신된다. 그 다음에, 배경 모델은 단계(104)에서 카메라의 시야에 걸쳐 대상을 추적하고 비디오 영상에 대상을 찾도록 사용된다. 비디오 데이터에서 대상을 추적하고 대상을 찾기 위한 배경 모델링은, 그 내용이 본 명세서에 참고용으로 병합되어 있는, Gutta 등의 Classification Of Objects Through Model Ensembles라는 제목의 미국 특허 출원 제 09/794,443호와; Elgammal 등의 Non-parametric Model for Background Subtraction, European Conference on Computer Vision(ECCV) 2000,(2000년 6월, 아일랜드, 듀블린); Raja 등의, Segmentation and Tracking Using Colour Mixture Models,(1998년 1월, 중국, 홍콩, 제 3회 아시아 컴퓨터 비전 회의 회보, 제 I권, pp.607-614)에 기재된 것과 같이 종래 기술에 잘 알려져 있다.

어떠한 이동 대상(moving object)도 장면의 비디오 데이터에서 찾아내지 못한 경우, 본 방법은 단계(106)-아니오를 따라 단계(102)로 진행하며, 상기 단계(102)에서 비디오 입력은 연속적으로 감시된다. 이동 대상을 장면의 비디오 데이터에서 찾아낸 경우, 본 방법은 단계(106)-예를 따라 단계(108)로 진행하고, 상기 단계(108)에서 찾아낸 대상은, 엘만 신경망(ENN)인 것이 바람직한 시간-지연 신경망(TDNN)에 직접 입력된다. 이를 달성하는 바람직한 방식은 엘만 신경망[Dorffner G., 시간 일련 처리를 위한 신경망, 신경망 3(4), 1998]의 이용을 이용하는 것이다. 엘만 네트워크는 2개 이상의 비디오 프레임, 바람직하게는 개별적인 프레임을 처리하는 것과 대조적으로 전체 시퀀스를 입력으로서 취한다. 기본적인 가정은, 시간 변화 영상이 시간-종속 상태{상태 벡터()를 통해 주어짐}의 선형 변환으로서 설명될 수 있다는 것이다:

여기서 C는 변환 행렬이다. 시간-종속 상태 벡터는 또한 선형 모델에 의해 설명될 수 있다:

여기서, A 및 B는 행렬이고, 는 위의 와 같이 잡음 프로세스이다. 이 모델의 기초를 이루는 기본적인 가정은, 마르코프(markov) 가정, 즉 그 상태가 어떻게 도달될지라도 상태가 식별될 수 있다는 것이다. 상태가 과거 시퀀스 벡터에 또한 종속하고, 이동 평균 항()을 무시한다고 추가로 가정하면,

이때 엘만 네트워크로서 알려진 순환 신경망 유형을 기술하는 수학식이 얻어진다. 엘만 네트워크는 상태 층으로 불리는 추가 입력 층을 갖는 다층 퍼셉트론(MLP)이며, 상기 층은 이전 시간 단계에서 숨겨진 층으로부터 활성화의 복사본을 피드백으로서 수신한다.

일단 모델이 학습되면, 인식은 비선형 상태 공간 모델 공간에 매칭된 상태의 수를 발견함으로써 전체 신원을 확인하기 위해 상기 비선형 상태 공간 모델을 횡단하는 것을 수반한다. 그러한 접근법은, 소매 점포에서의 슬립 및 가을 이벤트의 검출, 음악에서의 특정 비트/리듬의 인식, 및 주거/상업 환경에서의 대상의 분류와 같은 다수의 영역에 사용될 수 있다.

이제 도 2를 참조하면, 본 발명의 방법(100)을 수행하기 위한 장치의 개략도가 도시된다. 상기 장치는 일반적으로 참조 번호(200)로 표시된다. 장치(200)는 분류될 장면(204)의 비디오 이미지 데이터를 포착하기 위한 적어도 하나의 비디오 카메라(202)를 포함한다. 비디오 카메라(202)는 장면(204)의 디지털 이미지 데이터를 포착하는 것이 바람직하거나, 대안적으로, 상기 장치는 비디오 이미지 데이터를 디지털 포맷으로 변환하기 위한 아날로그-디지털 변환기(미도시)를 더 포함한다. 디지털 비디오 이미지 데이터는 이동 대상의 검출을 위한 검출 시스템(206)에 입력된다. 검출 시스템(206)에 의해 검출된 임의의 이동 대상은, 전술한 방법(100)에 따라 이동 대상 이미지 데이터를 분석하고, 추출된 각 특징에 대한 분류 분석을 수행하기 위해, 개인용 컴퓨터와 같은 프로세서(208)에 입력되는 것이 바람직하다.

본 발명의 방법은 특히 컴퓨터 소프트웨어 프로그램에 의해 수행되도록 적응되고, 그러한 컴퓨터 소프트웨어 프로그램은 상기 방법의 개별 단계에 대응하는 모듈을 포함하는 것이 바람직하다. 그러한 소프트웨어는 물론 집적 칩 또는 주변 디바이스와 같은 컴퓨터-판독가능 매체에서 구현될 수 있다.

본 발명의 바람직한 실시예인 것으로 고려된 것이 도시되고 설명되었지만, 물론, 형태 또는 세부사항에서의 다양한 변형 및 변화가 본 발명의 사상에서 벗어나지 않고도 쉽게 이루어질 수 있음이 이해될 것이다. 그러므로, 본 발명이 설명되고 예시된 정확한 형태에 한정되지 않고, 첨부된 청구항의 범주 내에 있을 수 있는 모든 변형을 커버하도록 해석되는 것이 의도된다.

상술한 바와 같이, 본 발명은 일반적으로 컴퓨터 비젼(computer vision)에 관한 것으로, 더 구체적으로 영상(imagery)에 고유한 시간-변화 정보를 통한 대상 분류 등에 이용된다.

Claims

장면(204)에서 대상(object)을 분류하는 방법으로서,

상기 장면(204)의 비디오 데이터를 포착하는 단계와;

상기 비디오 데이터의 비디오 프레임 시퀀스에서 적어도 하나의 대상을 찾아내는 단계와;

상기 비디오 프레임 시퀀스에서의 적어도 하나의 찾아낸 대상을 시간-지연 신경망에 입력하는 단계와;

상기 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하는 단계를

포함하는, 장면에서의 대상 분류 방법.
제 1항에 있어서, 상기 찾아내는 단계(locating)는 상기 비디오 프레임 시퀀스 상에서 배경 감법(background subtraction)을 수행하는 단계를 포함하는, 장면에서의 대상 분류 방법.
제 1항에 있어서, 상기 시간-지연 신경망은 엘만(Elman) 네트워크인, 장면에서의 대상 분류 방법.
제 3항에 있어서, 상기 엘만 네트워크는 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화(activation)의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론(Multi-Layer Perceptron)을 포함하는, 장면에서의 대상 분류 방법.
제 4항에 있어서, 상기 분류 단계는 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원(identity)을 확인하기 위해 상태 층을 횡단하는 단계를 포함하는, 장면에서의 대상 분류 방법.
장면(204)에서 대상을 분류하기 위한 방법 단계를 수행하기 위해 기계에 의해 실행가능한 명령 프로그램을 명백하게 구현하는, 기계에 의해 판독가능한 프로그램 저장 디바이스로서, 상기 방법은,

상기 장면(204)의 비디오 데이터를 포착하는 단계와;

상기 비디오 데이터의 비디오 프레임 시퀀스에서 적어도 하나의 대상을 찾아내는 단계와;

상기 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하는 단계와;

상기 시간-지연 신경망의 결과에 기초하여 상기 적어도 하나의 대상을 분류하는 단계를

포함하는, 프로그램 저장 디바이스.
제 6항에 있어서, 상기 찾아내는 단계는 상기 비디오 프레임 시퀀스 상에서 배경 감법을 수행하는 단계를 포함하는, 프로그램 저장 디바이스.
제 6항에 있어서, 상기 시간-지연 신경망은 엘만 네트워크인, 프로그램 저장 디바이스.
제 8항에 있어서, 상기 엘만 네트워크는 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론을 포함하는, 프로그램 저장 디바이스.
제 9항에 있어서, 상기 분류 단계는 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원을 확인하기 위해 상태 층을 횡단하는 단계를 포함하는, 프로그램 저장 디바이스.
장면(204)에서 대상을 분류하기 위해 컴퓨터-판독가능 매체에서 구현된 컴퓨터 프로그램 제품으로서,

상기 장면(204)의 비디오 데이터를 포착하기 위한 컴퓨터 판독가능 프로그램 코드 수단과;

상기 비디오 데이터의 비디오 프레임 시퀀스에서 적어도 하나의 대상을 찾아내기 위한 컴퓨터 판독가능 프로그램 코드 수단과;

상기 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하기 위한 컴퓨터 판독가능 프로그램 코드 수단과;

상기 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하기 위한 컴퓨터 판독가능 프로그램 코드 수단을

포함하는, 컴퓨터 프로그램 제품.
제 11항에 있어서, 상기 찾아내기 위한 컴퓨터 판독가능 프로그램 코드 수단은 상기 비디오 프레임 시퀀스 상에서 배경 감법을 수행하기 위한 컴퓨터 판독가능 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
제 11항에 있어서, 상기 시간-지연 신경망은 엘만 네트워크인, 컴퓨터 프로그램 제품.
제 13항에 있어서, 상기 엘만 네트워크는 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론을 포함하는, 컴퓨터 프로그램 제품.
제 14항에 있어서, 상기 분류를 위한 컴퓨터 판독가능 프로그램 코드 수단은, 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원을 확인하기 위해 상태 층을 횡단하기 위한 컴퓨터 판독가능 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
장면(204)에서의 대상을 분류하는 장치(200)로서,

상기 장면의 비디오 데이터를 포착하기 위한 적어도 하나의 카메라(202)와;

상기 비디오 데이터의 비디오 프레임 시퀀스에서 적어도 하나의 대상을 찾아내고, 상기 비디오 프레임 시퀀스에서 찾아낸 적어도 하나의 대상을 시간-지연 신경망에 입력하기 위한 검출 시스템(206)과;

상기 시간-지연 신경망의 결과에 기초하여 적어도 하나의 대상을 분류하기 위한 프로세서(208)를

포함하는, 장면에서의 대상을 분류하는 장치.
제 16항에 있어서, 상기 검출 시스템(206)은 상기 비디오 프레임 시퀀스 상에서 배경 감법을 수행하는, 장면에서의 대상을 분류하는 장치.
제 16항에 있어서, 상기 시간-지연 신경망은 엘만 네트워크인, 장면에서의 대상을 분류하는 장치.
제 18항에 있어서, 상기 엘만 네트워크는 피드백으로서 이전 시간 단계에서 숨겨진 층으로부터 활성화의 복사본을 수신하는 추가 입력 상태 층을 갖는 다층 퍼셉트론을 포함하는, 장면에서의 대상을 분류하는 장치.
제 19항에 있어서, 상기 프로세서(206)는 모델 공간에 매칭된 상태의 수를 결정함으로써 전체 신원을 확인하기 위해 상태 층을 횡단함으로써 적어도 하나의 대상을 분류하는, 장면에서의 대상을 분류하는 장치.