KR20010042310A

KR20010042310A - 비디오 시퀀스를 위한 디스크립터 및 그 디스크립터를사용하는 영상 검색 시스템

Info

Publication number: KR20010042310A
Application number: KR1020007010858A
Authority: KR
Inventors: 모리베노이트
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-02-01
Filing date: 2000-01-28
Publication date: 2001-05-25
Also published as: EP1068576A1; JP2002536746A; WO2000046695A1; CN1293782A; US7010036B1

Abstract

본 발명은 비디오 인덱싱 관점으로부터, 비디오 장면에서의 임의의 시퀀스의 프레임들 내의 카메라 또는 임의 종류의 관찰자 또는 관찰 장치의 동작들의 표현을 위한 디스크립터에 관한 것이다. 상기 동작들은 다음의 기본 오퍼레이션들, 즉, 고정, 패닝(수평회전), 트래킹(수평 병진 이동), 틸팅(수직 회전), 부밍(수직 병진 운동), 주밍(촛점 길이의 변화), 돌링(광학 축을 따른 병진), 및 롤링(상기 광학축 주위로의 회전), 또는 상기 오퍼레이션들의 적어도 2개의 임의의 조합의 적어도 하나 또는 몇몇이다. 고정을 제외하고 상기 동작 형식들의 각각은 2개의 다른 방향을 나타내는 2개의 성분들로 분할되고 방향지워지며, 상기 값들이 변위의 미리 정의된 크기에 대응하는 히스토그램에 의해 표현된다. 본 발명은 비디오 인덱싱 장치가 상기 디스크립터를 사용하는 영상 검색 시스템에도 관련되어 있다.

Description

비디오 시퀀스를 위한 디스크립터 및 그 디스크립터를 사용하는 영상 검색 시스템{Descriptor for a video sequence and image retrieval system using said descriptor}

파일보관(archiving) 영상과 비디오 정보는 텔레비젼, 도로교통, 원격 센싱, 기상학, 의학 영상 등과 같은 다양한 응용분야에서 매우 중요한 과제이다. 그러나, 주어진 질문에 적절한 정보를 식별하거나, 큰 비디오 화일을 효과적으로 띠엄띠엄 판독하는 것은 힘든 상태로 남아 있다. 데이터베이스와 함께 가장 흔하게 사용되는 접근은 키워드를 각각의 저장된 비디오에 할당하고 상기 워드들의 기초에서 검색을 하는 것으로 구성된다.

3가지 표준이 MPEG에 의해 이미 정의되었는데, 시청각 시퀀스 저장을 위한 MPEG-1, 시청각 시퀀스 방송을 위한 MPEG-2, 및 대상에 기초한 상호작용 멀티미디어 응용을 위한 MPEG-4가 그것이다. 미래의 것인, MPEG-7은 다양한 형식의 멀티미디어 정보를 기술하는데 사용될 수 있는 표준 세트의 디스크립터를 열거하여 시청각 정보 검색의 해결을 제공할 것이다. MPEG-7은 상기 디스크립터와 그들의 관계에 대한 구조들(서술계획, 즉, 장면에 포함된 정보를 표시하기 위한 방법들)뿐 아니라 다른 디스크립터들을 정의하기 위해 방법들도 표준화할 것이다. 상기 서술은 사용자의 관심사항이 되는 재료(스틸 화상들, 그래픽스, 3D 모델, 오디오, 스피치, 비디오,...)를 빠르고 효율적으로 찾는 것을 허용하기 위해 내용들 자체와 연관될 것이다.

본 발명은 비디오 인덱싱 관점에서 카메라 또는 임의 종류의 관측기 또는 비디오 장면에서의 임의 시퀀스내의 관측 장치의 동작의 표현을 위한 디스크립터에 관한 것으로, 상기 동작은 적어도 하나 또는 몇몇의 다음의 기본 오퍼레이션인데, 고정(fixed), 패닝(panning, 수평회전), 트래킹(tracking, 수평 횡단 운동이며, 필름 언어로 트래블링(travelling)이라고도 함), 틸팅(tilting, 수직 회전), 부밍 (booming, 수직 횡단 운동), 주밍(zooming, 초점 길이의 변화), 돌링(dollying, 광학축을 따른 이전), 및 롤링(rolling, 광학축 주위로의 회전), 또는 상기 오퍼레이션의 적어도 두개의 임의의 조합이 그것이다. 본 발명은 미래 표준 MPEG-7 에 의해 목표가 된 것들중의 넓고 다양한 응용에서 사용될 수 있다.

도 1 내지 도 3은 기본 카메라 오퍼레이션을 예시한 도면.

도 4는 카메라 특징들의 순시(instantaneous) 판단을 위한 판단 방법들을 수행하는 완전한 카메라 동작 분석 시스템의 개략도.

도 5는 카메라에 대해 카메라와 함께 움직이는 외부 좌표계 OXYZ를 예시한 사시도이며, 초점거리 f에 대해, 입체 장면의 점 P에 대응하는 망막(retinal) 좌표(x,y)와 서로다른 카메라 동작 파라미터들 모두를 도시하는 도면.

도 6은 카메라 모델에 포함된 줌 모델을 예시한 도면.

도 7은 도 4의 시스템에서 사용된 필터링 기술을 예시한 도면.

도 8은 본 발명에 따른 디스크립터의 사용으로부터 발생하는 분류에 기초한 영상 검색 시스템을 도시한 도면.

비디오 장면에서 임의의 시퀀스의 프레임들내에서 카메라(또는 임의 종류의 관측기 또는 관측 장치) 동작의 표현을 위한 해답을 제안하는 것이 본 발명의 목적이다.

상기 목적을 위해, 본 발명은 상기 서술의 도입부분에 정의된 바와 같고, 더욱이 고정을 제외한 상기 동작 형식의 각각이 2개의 다른 방향을 위한 2개의 성분들로 방향지워지고 분할되며, 상기 값들이 변위의 미리정의된 크기에 대응하는 히스토그램에 의해 표현되는 것을 특징으로 하는, 디스크립터에 관한것이다.

상기 효율이 상기 데이터 베이스 시스템에 포함된 탐색 전략에도 의존하고 있지만, 상기 디스크립터의 유효성은 부정될 수 없는데, 각각의 동작 성분(모든 가능한 운동 파라미터들과 포함된 스피드, 상기 운동 스피드에 대한 정확도는 양호하게 프레임당 절반 화소이며, 모든 가능한 응용에서 충분한 것으로 보인다)은 독립적이고 정확하게 기술되기 때문이다. 그 간단함과 이해가능함으로 인해 매우 넓은 양의 가능한 질문들이 파라미터화하게 된다. 상기 카메라 동작이 모든 비디오 내용에 기초한 응용들(질문-검색 시스템, 비디오 감시, 비디오 편집,...)에 대한 핵심 특징이기 때문에 상기 응용 범위는 매우 크다. 더욱이, 데이터의 양에 의한 스케일 가능성이 상기 제안된 디스크립터에 의해 실제로 목표되지 않지만, 상기 디스크립터는 넓은 범위의 시간의 입도(granularuty)에서 카메라 동작을 표현하는 것을 허용하는 계층적 계획내에서 사용될 가능성을 제공한다.

본 발명은 첨부된 도면을 참조하여 예에 의해 기술될 것이다.

카메라 오퍼레이션은 비디오 인덱싱 관점에서 매우 중요하다. 물체 운동과 글로블(global) 운동이 스틸 영상과 비디오 사이의 차이를 만드는 핵심 특징이므로, 상기 비디오 내용에 기초한 어떤 인덱싱 시스템도 넓은 의미에서 운동을 효율적으로 표현하기 위한 방법을 포함해야 한다. 카메라의 운동에 관한한, 카메라가 정적인(static) 비디오 일부분과, 카메라가 트래블링하거나 패닝하는 부분은 시공간 내용에 대해 같은 의미를 공유하지 않는다. 임의의 다른 구별할 수 있는 특징들과 같이, 상기 글로블 운동은, 가능하다면, 카메라의 운동이 이슈가 될 수 있는 임의 형식의 비디오와 임의 형식의 응용을 언급하여 미래의 MPEG-7 구조로 기술되고 표현되어야 한다. 비디오 파일보관에서, 글로블 운동의 서술을 부가하는 것은 사용자들이, 비전문가이거나 전문가이거나, 카메라의 운동을 고려하는 질문을 수행하도록 한다. 다른 특징들의 서술과 혼합된 상기 질문들은 정보에 직접 따르거나 상기 카메라 운동에 의미론적으로 관련된 비디오 샷(shots)을 검색하게 허용해야 한다.

정규 카메라 오퍼레이션은 일반적으로 정의된 8개의 잘 공지된 기본식들을 포함하는데(도 1,2,및 3), 이것들은 상술된 바와 같이, 고정, 패닝, 트래킹, 틸팅, 부밍, 주밍, 돌링, 및 롤링에다 상기 오퍼레이션의 적어도 2개의 수많은 가능한 조합들등이다. 고정 오퍼레이션은 흔한 것이며 더이상의 설명을 필요로 하지 않는다. 패닝과 틸팅은 종종 사용되며, 특히 카메라 중심이 고정될 때(예를들어 3각대 상에서) 사용되며, 물체의 추적이나 큰 장면(예를 들어 풍경 또는 고층빌딩)을 보는 것을 허용한다. 주밍은 주의를 장면에 특정 부분에 집중시키기 위해 종종 사용된다. 트래킹과 돌링은 대부분 움직이는 물체를 추적하는데(예를 들어, 트래블링) 사용된다. 롤링은 예를들어, 비행기로부터의 곡예 시퀀스 샷의 결과이다. 모든 7개의 카메라 동작 오퍼레이션들은(고정은 간단하다) 서로 다른 유도된 영상 포인트 속도로 되어서, 자동적으로 모델링되고 추출될 수 있다.

상기 오퍼레이션들을 고려하면, 카메라 동작에 관한 일반적인 디스크립터는 상기 특징 "카메라의 동작"을 특징화하는것, 즉, 모든 상기 동작 형식들을 독립적으로 표현할수 있어야 하는데, 어떤 제한도 없이 그들의 모든 조합을 다루기 위해서이다. 여기 기술된 개략은 상기 접근에 따르는 것이다. 고정 카메라를 제외한, 각각의 동작 형식은 방향성을 가지며, 2개의 다른방향을 대표하는 2개의 성분들로 분할될 수 있다. 실제로, 도 1내지 3에 도시된 바와 같이, 패닝과 트래킹은 왼쪽이나 오른쪽일 수 있고, 틸팅과 부밍은 위쪽 또는 아래쪽일 수 있고, 주밍은 안쪽이나 바깥쪽일 수 있고, 돌링은 앞쪽이나 뒤쪽일 수 있고, 롤링은 왼쪽(정방향 의미)이나 오른쪽(역방향 의미)일 수 있다. 2개의 가능한 방향사이의 구별은 그러므로, 15개 동작 형식에 대해 포지티브 값을 항상 사용할수 있게 하고, 그것들을 히스토그램과 비슷한 방식으로 표현할수 있게 한다.

순시(instantaneous) 동작의 경우가 제 1 로 고려된다. 각각의 동작 형식은 독립적이고, 그 자신의 속도를 가진것으로 가정되는데, 이것은 단일화된 방식으로 기술될 것이다. 각각의 운동형식에 의해 유도된 국소 속도가 장면 깊이(병진의 경우) 또는 영상 포인트 위치(주밍, 돌링, 및 회전의 경우)에 의존할 수 있으므로, 공통 유닛이 그것을 표현하기 위해 선택되었다. 속도는 영상면 내의 화소/프레임 값에 의해 표현될 것이고, 이것은 인간의 속도 인식에 가깝다. 병진의 경우, 운동 벡터들 크기는 전체 영상에 대해 평균될 것인데, 상기 국소 속도가 물체 깊이에 의존하기 때문이다. 패닝 또는 틸팅과 같은 회전의 경우, 상기 속도는 영상의 중심점에서 유도되는 것이 될것이며, 여기서는 측면 효과로 인한 왜곡이 없다. 주밍, 돌링 또는 롤링의 경우, 동작 벡터 필드는 발산하며(영상 중심으로의 거리에 다소간 비례한다) 상기 속도는 그다음에 상기 영상 코너의 화소 변위에 의해 대표될 것이다.

효율 요구를 맞추기 위해, 각각의 동작 형식 속도는 화소 변위 값에 의해 표현되고, 절반 화소 정확도에서 작업하는 것이 제안된다. 결과로서, 정수값들로 작업하기 위해, 속도들은 항상 가장 가까운 절반 화소 값이 되고 2에 의해 곱해질 것이다. 상기 정의들이 주어지면, 임의의 순시 카메라 동작이 상기 값들이 절반 화소 변위에 대응하는 동작 형식의 히스토그램에 의해 대표될 수 있다.(상기 고정 (fixed) 필드가 속도에 대해 차이가 없다는 것이 분명하다. 이것은 고정(fixed)이 제거되는, 특정 데이터 형식이 요구되는 이유이다)

카메라 동작의 장기간 표현의 경우도 고려되어야 한다. 실제로, 순시 이동의 서술로만 작업하는 것은 매우 힘들고 시간이 소비되는 것이다. 여기서, 다소간 계층적인 서술을 정의하는 것, 즉, 임의의 시간 입도에서 카메라 동작의 표현을 다루는 것도 제안된다. 상기 비디오 데이터의 시간 윈도우[n₀,n₀+N](N은 윈도우의 프레임의 총수)이 주어지면, 각각의 프레임에 대한 각각의 운동의 속도가 공지되었다고 가정한다. 각각의 동작 형식이 0이 아닌 크기를 갖는 프레임의 수 N(동작_형식)를 계산하고, 다음과 같이 정의되는(예를 들어, 패닝 이동), 백분율에 의한 시간 존재를 표시하는 것이 그다음에 가능하며,

(1)

상기 표현은 임의 형식의 운동으로 일반화된다. 모든 가능한 카메라 동작의 시간 존재는 그다음에, 0과 100사이의 값들이 백분율에 대응하는 동작 형식 히스토그램 (MotionTypesHistogram)에 의해 표현될 것이다. 명백히, 상기 윈도우가 단일 프레임으로 줄어들면, 상기 값들은 상기 주어진 이동이 존재하거나 또는 프레임에 있지 않다는 사실에 의존하여 0 또는 100이 될 수 있다.

마지막으로, 상기 표현된 비디오에 직접 액세스하고 디스크립터들 사이의 효율적 비교를 허용하기 위해서, 서술되고 있는 윈도우를 정의하며, 전체적인 비디오 시퀀스, 샷(샷은 불연속성이 없는 프레임들의 시퀀스이고 그리하여 비디오 시퀀스를 코히런트 시간 요소들로 분할할 때 예를 들어 자연 지수를 갖는 것을 허용한다), 마이크로-세그먼트(샷의 일부분인) 또는 단일 프레임일 수 있는 상기 시간 경계를 상기 서술에 부가하는 것이 제안된다. 상기 속도들은 전체 시간 윈도우에서 평균된(상기 주어진 동작 형식이 존재할 때) 순시 속도에 대응한다.

디스크립터의 상기 정의된 제안은 시작점, 종료점, 각각의 운동 형식의 시간 존재(백분율로 표현된), 및 단일화된 유닛(1/2 화소/프레임)으로 표현된 상기 속도 크기에 의해 프레임들의 주어진 시퀀스의 임의의 카메라 동작을 기술하는 것을 허용한다. 상기 디스크립터의 주요 입지조건과 잇점들은 일반성(상기 카메라동작 디스크립터는 모든 가능한 방향에서의 모든 물리적으로 가능한 이동을 고려한다), 정확도(기술된 임의의 카메라 이동의 크기의 정확도는 절반-화소이며, 이것은 전문 응요분야에서도 충분하다), 및 유연성인데, 상기 카메라동작 디스크립터가 상기 단일 프레임부터 상기 전체 비디오 시퀀스까지(연속적인 시간 주기에 연관될 수도 있다) 넓은 범위의 시간 입도에 연관될 수 있기 때문이다.

더욱이, 공식적 MPEG-7 문서로부터 취해진 모든 요구들과 평가 기준들이 제안된 카메라 동작 기술에 의해 만족되는 것으로 보일수 있으며, 특히 시각적 요구들이 그렇다. 실제로 상기 MPEG-7 요구들에서 다음 내용이 특정된다.

(a) MPEG-7은 명백히 상기 경우인, (시간 구성 정보를 사용하는 검색에 관한 요구의 경우에) 상기 특징 "동작"의 시각적 기술을 적어도 지원한다.

(b)"MPEG-7은 시각화에 대해 증가하는 능력으로 멀티미디어 데이터 서술의 범위를 지원할 것이며, 그래서 MPEG-7은 상기 인덱싱된 데이터의 다소간의 대략의 시각화를 허용할 수 있다.": 상기 제안된 디스크립터에 의해 목표가 된 특징, 즉, 상기 카메라 동작은 "동작"에 관련되고, 시각화에 관한한, 상기 비디오의 글로블 동작의 한 종류의 요약을(예를 들어 이야기 보드내에서) 얻기 위해 상기 카메라 오퍼레이션을 문자로 또는 그래픽으로 표현하는 것을 상상할 수 있다.

시각 데이터 포맷과 클래스에 관하여, 상기 MPEG-7 요구에서 다음 내용도 특정화된다.

(c)"MPEG-7은 다음 시각 데이터 포맷의 서술을 지원할 것인데, 디지털 비디오와 필름(MPEG-1, MPEG-2, MPEG-4과 같은), 아날로그 비디오와 필름, 스틸 사진들 (JPEG과 같은), 그래픽스(CAD와 같은), 3차원 모델들(VRML과 같은), 비디오에 연관된 구성 데이터, 등...이 그것이다", 이것이 실제로 상기 경우인데, 상기 비디오 내용 자체에 연관된 본 제안이 모든 디지털과 아날로그인 비디오 데이터 포맷들을 목표로 하고, 동작 데이터의 자동 추출이 디지털 압축된 비디오 데이터 상에서 더 쉽게 될 수 있을 때에도 그러하며, 동작 정보는 이미 상기 내용에 포함되었다(예를 들어, MPEG-1, MPEG-2,및 MPEG-4 포맷내의 동작 벡터들).

(d)"MPEG-7은 시각 데이터의 다음 클래스들에 특정하여 응용할 수 있는 서술을 뒷받침하는데, 자연 비디오, 스틸 사진들, 그래픽스, 2차원 애니메이션, 3차원 모델들, 구성 정보가 그러하다", 이것도 상기 제안이 자연 비디오, 애니메이션 또는 카툰같은 임의의 애니메이션된 시각 데이터에 응용될수 있으므로 입증된다.

상기 MPEG-7 요구들도 다음과 같은 다른 일반 특징에 관련되어 있다.

(e)멀티 미디어 재료에 대한 추출 레벨들 : 상기 제안된 해결책은 일반적이며 넓은 범위의 시간 입도에서 상기 카메라 동작을 표현하는 것을 허용하는 계층적 개략도내에서 사용될 수 있다(표현될 수 있는 다른 추출 레벨들은 전체 시퀀스의 글로블 동작 형식과 크기들, 비디오 샷, 샷내의 마이크로 세그먼트, 또는 단일 프레임).

(f)크로스-모댈러티(cross-modality) : 시각적 서술에 기초한 질문들은 상기 시각적 내용과 완전히 다른 특징들(예를 들어 오디오 데이터), 또는 상기 시각적 내용의 다른 독특한 특징들(물체의 클로즈-업이 줌에 선행하거나 풍경의 샷이 일반적으로 팬(pan)을 포함하는 것을 알면, 카메라 동작 디스크립터의 사용은 다른 형식의 특징들이 포함된 탐색의 경우에 도움이 될 것이다)의 검색을 허용할 수 있다.

(g)특징 우선 : 상기 디스크립터에 포함된 정보의 우선순위 매기기는 상기 매칭 기능(상기 질문 파라미터들이 정의되었을 때)이 상기 사용자의 사용자의 선호함과 요구에 강하게 의존하는 수많은 의미들을 갖는 것을 허용한다.

(h)특징 체계 : 카메라 동작 서술은 계층적 개략도를 따라 디자인되지 않았지만, 질문에 의하여 데이터의 더 효율적인 처리가 서로 다른 레벨의 서술을 구성하는 것, 에를 들어, 비디오 장면의 동작을 표현하는 것이 가능하며, 그 안에서 각각의 샷도 서술되고, 프레임 레벨이 도달될 때까지 반복적으로 된다.

(i)시간 범위의 서술 : 상기 카메라 동작 디스크립터는 상기 비디오 재료의 다른 시간 범위(전체 비디오-예를 들어, 상기 특정 필름은 항상 고정카메라를 사용하여 샷이된다-로부터 프레임 레벨까지, 매우 세밀한 서술을 허용하며)나 샷내의 다른 마이크로클러스터 같은 연속된 시간 주기에 연관될 수 있으며(예를 들어, 상기 샷은 20초의 긴 줌으로 시작하고 2초의 짧은 틸트로 끝난다), 상기 연관은 그러므로 계층적(상기 디스크립터가 전체 데이터 또는 그것의 시간 서브-세트에 연관된다) 또는 시계열적(sequencial)(상기 디스크립터는 연속된 시간 주기에 연관된다)이다.

(j)직접적 데이터 조작 : 본 제안에 의해 허용된다.

더욱이, 기능적 요구들도 상기 제안 디스크립터에 의해 달성되어야 한다는 것이 명백하고, 예를들어 다음과 같다.

(k)내용에 기초한 검색 : 본 제안의 주 목표중 하나는 그 내용에 기초한 멀티미디어 데이터의 효과적이고("당신이 찾고 있는 것을 정확히 얻었다") 효율적인 ("당신이 찾고 있는 것을 신속히 얻었다") 검색을 실제로 허용하는 것이고, 포함된 어의론이 어떤것이더라도, 상기 유효성은 , 포함된 모든 가능한 동작 오퍼레이션과 크기들을 독립적으로 고려하는, 상기 서술의 정확도에 의해 주로 보장되고, 상기 유효성은 사용된 데이터 베이스 엔진과 선택된 검색 전략에 의존한다.

(l)유사성에 기초한 검색 : 유사성의 정도에 의해 상기 데이터베이스 내용을 등급을 매기고 그러한 검색은 본 발명에 따른 디스크립터로 가능하다.

(m)스트림되고 저장된 서술 : 상기 제안된 디스크립터 내의 어떤 것도 상기 오퍼레이션을 수행하는 것을 방해하지 않는다.

(n)아날로그 데이터를 참조하는것 : 다시 한번, 상기 제안된 디스크립터에서는 물체, 시간 참조, 또는 아날로그 포맷의 임의의 다른 데이터를 참조하는데 아무 제한이 없다.

(o)링킹(linking) : 상기 제안된 디스크립터는 상기 참조된 데이터의 정확한 위치잡기를 허용하지 않는데, 상기 서술이 유효한, 시간 윈도우를 정의하는 시간 순간들이 상기 서술에 포함되었기 때문이다.

제안된 상기 디스크립터는 이전에 정의된 동작 파라미터들의 기초에서 구성되어야 한다. 몇몇 기법들이 상기 동작 파라미터들(카메라의 또는 관련된 관찰 장치의)의 판단을 위해 이미 존재하고 있지만, 이것들은 참조 문헌 PCT/EP99/10409 (PHF99503)하의, 1999.12.24일에 출원된 국제 특허 출원에 기술되어 있는 것과 같은, 카메라 동작 파라미터들의 판단을 위한 개선된 방법을 선호하게 하는 결점들을 종종 겪는다.

상기 판단 방법의 실행의 글로블 계획은 도 4에 도시되어 있다. MPEG-7이 멀티미디어 내용 서술 표준이 될것이기 때문에, 특정 코딩 형식을 특정하지 않는 것이 주목될 수 있고, 그래서 디스크립터 형성의 프로세스는 압축이거나 비압축인, 모든 형식의 코딩된 데이터상에서 작업해야 한다. 그럼에도 불구하고, 상기 입력 프레임들로부터 얻어진 대부분의 비디오 데이터가 일반적으로 MPEG 포맷에서 이용가능하므로(이것들은 그러므로 압축된다), 상기 MPEG 동작 보상에 의해 제공된 동작 벡터들을 직접 사용하는 것이 유리하다. 반대로, 상기 비디오 데이터가 상기 비압축된 도메인에서 이용가능하다면, 블록-매칭 방법은 그러므로, 상기 벡터들을 얻기 위해 동작 벡터 발생 장치(41)에서 수행된다.

상기 경우가 어떠하든, 동작 벡터들이 상기 비디오 시퀀스로부터 판독되거나, 추출되면(2개의 연속된 프레임들 사이에서), 다운샘플링과 필터링 장치(42)가 ,상기 동작 벡터들의 균일하지 않음과 데이터의 양을 감소시키기 위해, 제공된다. 상기 오퍼레이션에는 상기 카메라 특징들의, 장치(43)에서의, 순시판단이 뒤따른다. 상기 판단은 예를들어 다음 방법에 기초하고 있다.

상기 방법을 기술하기 전에, 상기 카메라 모델이 제시된다. 정적 환경에서 이동하는 단안식 카메라가 고려된다. 도 5에서 볼 수 있는 바와 같이, 0을 상기 카메라의 광학 중심, OXYZ를 상기 카메라에 대해 고정된 외부 좌표계, OZ를 광학 축, 및 x,y,z를 각각 수평, 수직, 및 축의 방향으로 각각 한다. T_x,T_y,T_z를 상기 장면에 상대적인 OXYZ의 병진 속도, R_x,R_y,R_z를 그 각속도로 한다. (X,Y,Z)가 3차원 장면에서의 점 P의 순시 좌표라면, P의 속도 성분은 다음과 같이 될것이다.

(2)

(3)

(4)

P의 영상 위치, 즉 p는 관계식(5)에 의해 영상 평면에 주어지며,

(x, y)=내부 좌표들=(5)

(여기서 f는 상기 카메라의 촛점 길이이다), 그리고 유도된 속도로 영상평면을 가로질러 이동할 것이다.

(6)

몇가지 계산과 치환 후에, 다음 관계식이 얻어지며,

(7)

(8)

그리고,

(9)

(10)

이것은 다음과 같이 기록될 수도 있다.

(11)

(12)

더욱이, 상기 카메라 모델에서 줌을 포함하기 위해, 줌이 각을 이룬 도메인내에서 단일 확대에 의해 근사될 수 있다는 것이 가정된다. 그와 같은 가정은 상기 장면 내의 가장 가까운 물체의 거리가 상기 줌을 생산하는데 사용된 촛점 길이의 변화와 비교하여 크다면 유효하며, 이것은 대개 상기 경우이다.

순수한 줌이 도 6에서 고려된다. 상기 영상 평면에 위치한 점이 주어지면, 시간 t에서의 (x,y)와 다음 시간 t'에서의(x',y')에서, 상기 줌에 의해 유도된 x에 따른 영상 속도 u_x= x'-x는 R_zoom의 함수로 표현될 수 있고(R_zoom은 도 6에 표시된 바와 같이, 관계식 (θ'-θ)/θ 에 의해 정의된다), 아래와 같이 표시된다.

tan(θ') = x'/f 이고 tan(θ) = x/f이면 다음을 얻는다.

(13)

tan(θ')의 표현은 다음과 같이 쓸 수 있다.

(14)

상기 각의 차이(θ'-θ)이 작다면, 즉, tan(θ'-θ)이 (θ'-θ)로 근사될 수 있고, (θ'-θ).tanθ≪1이라고 가정한다면 다음 식을 얻는다.

(15)

(16)

(17)

이것은 실제적으로 다음식과 같다.

(18)

상기 결과는 다시 쓸 수 있다.

(19)

그리고, 유사하게, u_y는 다음과 같이 주어진다.

(20)

상기 속도 u = (u_x, u_y)는 단일 줌에 의해 상기 영상 평면에서 유도된 동작에 대응한다. 모든 회전, 병진(X와 Y축을 따라), 및 줌이 고려되는 일반적 모델은 그다음에 논리적으로 정의될 수 있다.

상기 일반적 모델은 회전 및 병진 동작을 표현하는 회전속도와, 상기 X 및 Y병진(즉, 트래킹과 부밍 각각)을 표현하는 병진 속도의 합으로 기록될 수 있다.

(21)

with:

상기 식들에서 병진 항만이 물체 거리 Z에 의존한다.

패턴 인식(Pattern Recognition), vol.30, n⁰4, 1997년, pp.593-605에 실린 M.V. Srinivasan 등의 논문 "비디오 시퀀스로부터의 카메라 동작 파라미터들의 정성적 판단"은 영상의 시퀀스로부터 카메라 동작 파라미터들을 추출하는데 대해서, 상기 카메라 식들 (21)내지 (23)을 사용하는 기법을 기술한다. 더 명확히는, 상기 기법의 기본 원리는 상기 논문의 파트3(pp.595-597)에 설명되어 있다. 상기 본래의 광학 플로우 필드로부터 공제되었을 때, 모든 벡터들이 평행한 잔여 플로우 필드를 발생시키는 플로우 필드를 생성하는 R_x, R_y, R_z및 R_zoom의 최상값들을 발견하여 수행되는 상기 기법은, 유리한 섹터에 기초한 기준에 의해 상기 잔여 플로우 벡터들의 평행으로부터의 편차를 최소화하는 반복적인 방법을 사용한다.

상기 반복 방법의 각 단계에서, 현재의 카메라 동작 파라미터에 의한 광학 플로우가 2개의 다른 카메라 모델들중 하나에 따라 계산된다. 제 1 모델은 상기 시각적 필드의 각의 크기(또는 상기 초점 길이 f)가 공지되었다고 가정하며, 이것은 상기 식들(23)에서의 비율 x/f 및 y/f가 상기 영상내의 각 점에 대해 계산될 수 있다는 것을 의미하며, 상기 식들은 그다음에 상기 광학 플로우를 정확히 계산하는 것을 허용한다. 패닝과 틸팅 왜곡들을 고려하는 것인 상기 제 1 모델은 상기 카메라의 시각 필드가 크고 공지되었을 때 더 정확한 결과들을 생산한다. 애석하게도, 상기 초점 길이는 때때로 공지되지 않으며, 상기 시각적 필드가 큰것으로 의심될 때 상기 영상의 제한된 영역에서만, 제 2 모델을 사용하는 것으로 이끌어진다. 상기 제 2 모델에 따라, 작은 필드 근사들(1보다 매우 낮은 x/f 및 y/f)은 상기 식(23)을 적용하기 전에 필요하며, 이것은 (24) 및 (25)식으로 된다.

(24)

(25)

상기 장치(43)에서 수행된 판단은 프레임의 각각의 쌍들에 대한 하나의 특징 벡터를 이끌어 낸다. 전체적으로 고려된 시퀀스내의 특징 벡터들의 세트는 그다음에 마지막으로 장기간 동작 분석 장치(44)에 의해 수신된다. 상기 장치(44)는 내용에 기초한 검색 상황에서의 카메라 동작에 대하여, 특히 상기 MPEG-7 비디오 인덱싱 구성에서, 상기 시퀀스를 인덱싱하는데 사용될 수 있는 동작 디스크립터들을 출력한다.

2개의 주요 문제들은 상기 장치(42)내의 전처리(preprocessing) 단계를 정당화하는데, 무엇보다도 상기 영상의 저주파수 부분 또는 조직이 매우 균일한 곳에서의 상기 동작 벡터들의 비균일성, 및 블록들의 매우 작은 크기가 그것이다. 다운샘플링과 필터링 프로세스는 상기 본래의 필드를 다운 샘플링하고, 상기 글로블 정보에 따라 일치하지 않는 상기 벡터들을 동시에 거부하지 않음으로써 벡터들의 양을 줄이기 위해 제공된다. 각각의 벡터에 대해 계산된 신뢰 마스크가 사용되고, 이것은 각각의 동작 벡터의 신뢰의 레벨에 따라 0과 1 사이에서 변하며, 상기 벡터들이 고려되었는지 아닌지를 결정하는 것을 허용하는 기준이다. 신뢰 마스크의 예는 임의의 이론적 카메라 동작에 대해 동작 벡터가 크게 변할 수 없다는 것을 고려하는 것일 수 있으며, 가까운 벡터들이 가까운 값들을 갖는다. 그다음에 각각의 벡터로부터 그 주위까지의 거리에 따라 신뢰 레벨을 측정할 수 있고, 이것은 예를 들어, 그 평균값 또는 양호하게는 그 중간값(큰 고립된 에러에 덜 민감하기 때문에)에 의해 표현될 수 있다. 상기 신뢰 마스크 C_ij는 그러므로 (26)식에 의해 정의된다.

(26)

도 7은 필터링 기법을 예시하며, 상기 필터링된 필드(오른쪽)는 본래의 필드(왼쪽)보다 4배 적은 블록들을 포함한다. 새로운 블록의 운동을 표현하는 벡터는 상기 4개의 본래의 블록들의 동작 벡터들에 따라 계산되고, 그들의 신뢰 레벨은 지시된 것처럼 그 주변에 따라 계산된다. 상기 새로운 블록에 대한 동작 벡터는 더작은 구(old) 블록들의 가중 평균이다.

(27)

상기 필터링된 동작 벡터 필드로부터 프레임들의 각각의 쌍에 대해 상기 2개의 고려된 프레임들 사이의 카메라 동작 정보를 포함하는 특징 벡터를 계산하기 위해 제공된 상기 장치(43)는 또한 지금 상술된 바와 같은 판단 알고리즘을 수행할 수 있다.

제 1 로, 상기 시뢰 마스크가 (26)식으로부터 계산된다. 그다음에 상기 평행화 프로세스가 시작한다. 동작 벡터가 코스트(cost) 함수 또는 합성된 벡터의 계산에서 고려될 때마다, 그 신뢰 마스크에 의해 가중치가 더해진다. 다음식들은 그다음에 모든 벡터들이 평행인 잔여 필드를 주는 R_x, R_y, R_z, R_zoom의 최상값 및 상기 초점길이 f를 계산하는 것을 허용한다.

(28)

(29)

(30)

(31)

큰 시각적 필드에서의 비-병진 운동의 경우에, 상기 잔여 벡터들은 평행이 되지 않을 것이며, 이상적으로는 0에 가까워야 한다. 상기 설명은 (32)식에 의해 주어진 비율 β를 계산하도록 이끌어진다.

(32)

이것은 잔여 필드의 평행화를 표시한다. 이것은 상기 잔여 플로우 벡터들의 합성의 크기와 상기 잔여 플로우 벡터의 크기의 합의 비율이며, β=1은 상기 잔여 벡터들이 완전히 정렬되었다는 것을 의미하며, 반면에 β=0 은 상기 잔여 벡터들이 각각에 대해 랜덤하게 방향이 지워졌다는 것을 의미한다. 더욱이, 상기 카메라 동작에서 중요한 트래킹 성분의 존재를 체크하기 위해, 잔여 플로우 필드의 강도는 (33)식에 의해 주어진 다음의 비율 α를 계산하여 상기 본래의 플로우 필드와 비교된다.

(33)

상기 "mean(*)" 연산자는 상기 신뢰 마스크에 따라 그 논의의 가중평균을 표현한다. 상기 2개의 비율은 아래에 도시된 트래킹 성분들의 존재와 양에 대해 체크하는 것을 허용한다.

A) β∼0 이면, 트래킹 동작 없음;

B) β∼1 이면:

α∼0 이면, 무시할 수 있는 트래킹 동작;

α∼1 이면, 중요한 트래킹 동작 :

상기 비율들은 상기 결과 관련의 아이디어들도 제공한다.

병진 동작의 판단된 성분들, 즉,와는 상기 제 1 모델의 정확한 성분들이 아닌,와의 전체 영상내의 가중 평균을 표현하는데, 각각의 블록의 깊이가 알려지지 않았기 때문이다. 그러나, 이것들은 상기 영상에서의 분명한 트래킹 동작의 좋은 표현이다.

본 발명은 상기 서술의 내용으로 한정되지 않으며, 그것으로부터 수정 또는 응용이 본 발명의 범위를 벗어나지 않고 추론될 수 있다. 예를들어, 본 발명은 도 8에 예시된 바와 같은 영상 검색 시스템에도 관련되며, 비디오 시퀀스들의 취득을 위한(시계열적 비디오 비트스트림의 형태로 이용가능한) 카메라(81)와, 동작들의(카메라의 또는 임의의 관찰 장치의) 분류에 기초하여 데이터 인덱싱 방법을 수행하기 위한 비디오 인덱싱 장치(82), 상기 분류에 기인한 데이터(때때로 메타데이터라 불리는 상기 데이터는 사용자의 요청에 의해 수행된 검색 또는 브라우징 단계를 허용할 것이다)를 저장하는 데이터 베이스(83), 상기 데이터 베이스로부터 요청된 검색을 수행하기 위한 그래픽의 사용다 인터페이스(84), 및 상기 검객된 정보를 디스플레이하기 위한 비디오 모니터(85)를 포함한다.

Claims

비디오 인덱싱 관점으로부터, 비디오 장면에서의 임의의 시퀀스의 프레임들 내의 카메라 또는 임의 종류의 관찰자 또는 관찰 장치의 동작들의 표현을 위한 디스크립터에 있어서,

상기 동작들은 다음의 기본 오퍼레이션들, 즉, 고정, 패닝(수평회전), 트래킹(수평 병진 이동, 필름언어로 트래블링이라고도 부름), 틸팅(수직 회전), 부밍(수직 병진 운동), 주밍(촛점 길이의 변화), 돌링(광학 축을 따른 병진), 및 롤링(상기 광학축 주위로의 회전), 또는 상기 오퍼레이션들의 적어도 2개의 임의의 조합의 적어도 하나 또는 몇몇인, 고정을 제외하고 상기 동작 형식들의 각각은 2개의 다른 방향을 나타내는 2개의 성분들로 분할되고 방향지워지며, 상기 값들이 변위의 미리 정의된 크기에 대응하는, 히스토그램에 의해 표현되는, 디스크립터.
제 1 항에 있어서,

독립된 것으로 가정되는, 각각의 동작 형식이 그것을 표현하기 위해 공통 유닛을 선택하여 단일화된 방식으로 기술된 그 자신의 속도를 갖는, 디스크립터.
제 2 항에 있어서,

각각의 동작 형식 속도가 절반 화소 정확도에서 작동하는 화소 변위 값에 의해 표현되는, 디스크립터.
제 3 항에 있어서, 정수값으로 작업하기 위해서, 속도들이 가장 가까운 절반 화소 값으로 되고 2로 곱해지는, 디스크립터.
제 1 또는 3 항중 어느 한 항에 있어서,

상기 서술이 임의의 시간 입도에서 다루어진 동작의 표현에 의하여, 계층적인 것을 특징으로 하는, 디스크립터.
제 4 항에 있어서,

비디오 데이터의 시간 윈도우[n₀, n₀+N](N은 상기 윈도우의 프레임들의 총수)와 각각의 프레임에 대한 각각의 운동의 속도가 주어지면, 각각의 운동 형식이 중요한 속도를 갖는 프레임들의 수 N_{motion_type}이 계산되고 상기 시간 존재는 다음과 같이 정의된 백분율에 의해 표현되며,

T_{type of motion}= T_{type of motion}/ N

모든 가능한 동작들의 시간 존재는 그다음에, 상기 윈도우가 단일 프레임으로 감소될 때 상기 주어진 이동이 존재하거나 또는 상기 프레임내에 있지 않다는 사실에 의존하여, 0과 100사이의 상기 값들이 백분율에 대응하며, 상기 값들은 단지 0 또는 100인, 동작 형식 히스토그램에 의해 표현되는 것을 특징으로 하는, 디스크립터.
제 1 항 내지 6 항 중 어느 한 항에 있어서,

상기 비디오 시퀀스들의 획득을 위한 카메라, 비디오 인덱싱 장치, 데이터 베이스, 상기 데이터베이스로부터 요청된 검색을 수행하기 위한 그래픽의 사용자 인터페이스, 및 상기 검색된 정보를 디스플레이하기 위한 비디오 모니터를 포함하며, 상기 비디오 인덱싱 장치내의 상기 인덱싱 오퍼레이션은 카메라 동작들의 상기 디스크립터의 사용에 기인한 분류에 기초한 것인, 영상 검색 시스템의 수행에 응용된, 디스크립터.