KR100775773B1

KR100775773B1 - 비디오 시퀀스 구조의 자동 추출 방법

Info

Publication number: KR100775773B1
Application number: KR1020017002908A
Authority: KR
Inventors: 라크핀사크존; 살렘비에르필리페
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-07-06
Filing date: 2000-06-30
Publication date: 2007-11-12
Also published as: KR20010074976A; WO2001003429A3; WO2001003429A2; CN1193593C; CN1336071A; EP1145549A2; JP2003503971A; US6842197B1; EP1145549A3

Abstract

본 발명은 비디오 시퀀스의 해설서, 즉 상기 시퀀스의 분석에 의한 식별표를 자동적으로 작성하는 방법에 관한 것이다. 상기 방법의 주요 단계는 카메라 움직임 파라미터들을 이용하는 시퀀스 비디오 샷들의 일시적인 분할이다. 이 분할은 각 샷의 서브엔티티들(sub-entites)에 대해 원시 영상들을 습득하고 처리된 시퀀스를 구성하는 비트스트림을 발생하기 위해 사용된 카메라의 움직임 파라미터들의 이들 서브엔티티들의 동종성의 레벨을 포함하는 유사한 기준을 사용한다.

서브엔티티, 샷, 클러스터링, 시퀀스, 트리

Description

비디오 시퀀스 구조의 자동 추출 방법{Automatic extraction method of the structure of a video sequence}

본 발명은 연속적인 프레임들에 대응하는 비디오 시퀀스 구조의 자동 추출을 위한 방법에 관한 것이다. 본 발명은 또한 상기 정의(definition) 방법을 포함하는 데이터를 색인하기 위한 방법, 상기 색인 방법을 실행하기 위한 장치, 및 상기 방법이 구현되는 영상 검색 시스템에 관한 것이다. 본 발명은 MPEG-7 표준에 관하여 매우 유용하다.

미래형 MPEG-7 표준은 다양한 유형의 멀티미디어 문서들을 기술하기 위해 사용될 수 있는 디스크립터(discriptor)들의 표준 세트를 정의하기 위한 유연하고 확장가능한 프레임워크(framework)를 제공하려는 것이다. 따라서 주어진 내용과 관련된 설명은 사용자의 관심 사항에 대한 빠르고 효과적인 탐색을 가능하게 한다. 본 발명은 특히 비디오 시퀀스들을 표시하는 경우에 관한 것이다.

비디오 시퀀스는 (시간적으로)일련의 순차적으로 배열된 영상들이다. 데이터베이스에 이것을 저장하기에 앞서, 대응하는 비디오스트림은 기본 유닛들(또는 샷들, 샷은 계속적인 동작 동안 발생되는 인접한 프레임들의 시퀀스이고, 시공간에서 연속적인 움직임을 나타냄)로 분할되고, 그후에 식별 및 색인된다. 비디오 색인 기술은 예를 들어, 문서 "물체의 움직임 분석을 통한 자동적인 비디오 색인(Automatic video indexing via object motion analysis)" (J.D. Courtney, 패턴 인식, 제 30권, 넘버 4, 1997년 4월, 페이지 607 내지 625)에 개시되어 있다. 상기 문서에 상술된 바와 같이, 비디오 시퀀스들의 논리 조직화는 텍스트를 장과 절로 분할하는 방법처럼 계층적인 분할에 의해 결정될 수 있다. 동일한 방법에서, 하지만, 많은 경우에 있어, 이 일시적인 분할은 예를 들어 비디오 샷들이 매우 긴 스포츠(축구, 테니스경기들)와 같은 용도에 완전히 적합하지 않다.

본 발명의 목적은 새로운 특정 기준에 기초하여 비디오 시퀀스의 설명 즉, 상기 시퀀스의 색인 표을 자동으로 작성할 수 있는 방법을 제공하는 것이다.

이 목적을 달성하기 위해, 본 발명은 명세서의 도입부에 상술된 바와 같은 방법에 관한 것으로, 상기 방법은:

(1) 연속하는 샷(샷은 편집 효과 없는 인접하는 프레임들의 세트임)들 간의 경계들을 검출하기 위한 샷 검출 단계;

(2) 마이크로 세그먼트들이라고 불리는 서브엔티티(sub-entity)들로 각각의 샷을 분리하는 분할 단계; 및

(3) 처리된 비디오 시퀀스의 최종 계층 구조를 생성하는 단계들 포함한다.

상기 방법으로 마이크로 세그먼트들라고 불리는 일시적인 서브엔티티들로 처리된 비디오 시퀀스의 각 샷을 분할할 수 있다. 바람직하게, 이들 마이크로 세그먼트들은 제안된 기준에 따라 원래의 영상들(이 영상들은 상기 처리된 비디오 시퀀스를 구성하는 비디오 비트스트림들로 전환됨)이 촬상된 카메라의 움직임 파라미터들에 고도의 동질성을 제공한다.

특히, 각 마이크로 세그먼트의 동질성은 움직임 히스토그램 상에 계산되고, 각각의 빈(bin)은 특정 유형의 움직임을 갖는 시퀀스 프레임의 퍼센티지를 보여준다. 마이크로 세그먼트는 자신의 모든 프레임들에 대한 카메라 움직임 파라미터들의 조합이 단일 일 때 완전한 동질이고, 이때 히스토그램 빈(bin)들은 1 또는 0이다. 반대로, 히스토그램 빈들이 1 또는 0과 같지 않는, 즉 마이크로 세그먼트가 완전히 동질이 아님을 나타내는 중간값들 일 때, 샷을 분할하기 위해, 세그먼트 결합(union)의 동질성에 기초하여 두 세그먼트 간의 거리가 계산된다. 상기 동질성는 자체적으로 마이크로 세그먼트 및 다른 움직임 유형들의 히스토그램으로부터 도출되고, 샷의 동질성은 이 자신의 길이에 의하여 마이크로 세그먼트들의 동질성과 같고, 임의 세그먼트들의 임의 쌍 간의 융합 여부는 소정의 임계값에 대한 샷의 동질성의 값과 선택된 세그먼트들이 이미 병합되었다는 가정에 따라서 결정되며, 마이크로 세그먼트들 간의 이러한 병합 처리는 병합될 수 있는 이웃 마이크로 세그먼트 쌍이 더 이상 없을 때 종료한다.

본 발명의 또 다른 목적은 이러한 방법을 실행하기 위한 수단 및 상기 방법으로 정의된 계층 구조의 각 요소에 라벨을 부여하는 관련된 색인 수단을 포함하는 비디오 색인 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 이러한 비디오 색인 장치 및 상기 색인화로부터 얻어진 분류(categorization)에 기초하고, 하나 또는 여러 개의 영상 특성을 이용하여 영상 검색 동작을 실행하기 위해 관련된 수단을 포함하는 영상 검색 시스템을 제공하는 것이다.

이제 본 발명을 관련되는 도면을 참조하여 예로서 상술한다.

도 1은 본 발명에 따라 정의되는 방법의 블록도.

도 2는 주어진 프레임들의 시퀀스에 대한 mDFD 곡선의 예를 도시한 도면.

도 3은 세그먼트 동질성의 측정을 예시하는 막대그래츠를 도시하는 도면.

도 4는 초기 과잉분할된(oversegmented) 조각물의 처리를 도시하는 도면.

도 5는 본 발명에 따른 정의 방법에 제공된 샷 병합 보조단계(sub-step)의 구현에 의해 만들어진 2진 트리(binary tree)를 도시하는 도면.

도 6은 트리 재구성 보조단계 후 산출된 트리를 도시하는 도면.

도 7은 본 발명에 따라 처리된 데이터를 색인하는 방법을 도시하는 도면.

도 8은 상기 색인 방법을 구현하고 적절한 관련 수단으로 인해 이러한 색인 움직임으로부터 얻어진 분류화에 기초하여 영상 검색을 실행하는 영상 검색 시스템을 도시하는 도면.

비디오 시퀀스용 색인표의 목적은 시퀀스 구조를 텍스트 문서에서와 같은 계층형으로 정의하기 위한 것이다. 원래의 시퀀스는 보다 짧은 서브시퀀스로 분할될 수 있는 서브시퀀스로 세분화된다. 이 분할 처리의 종료시에. 상술되는 가장 짧은 엔티티는 마이크로 세그먼트가 된다.

보다 자세하게는, 제안된 전략에 따른 방법은 도 1에 도시된 바와 같은 세 가지 단계들, 즉, 샷 검출 단계(11)(화상들의 시퀀스에 있어, 비디오 샷은 예리한(sharp) 변환을 정의하는 컷(cut)들, 슬라이딩 윈도우 효과에 해당하는 와이프(wipe)들, 어두운 블로드(blod)가 프레임들을 침입하는 메이트(mate)들, 프레임의 선형 조합에 의해 하나의 카메라 기록에서 다른 카메라 기록으로의 점진적인 변경를 나타내는 디졸브(dissolve)들 등과 같은 편집 효과 없이 단일 배경을 보여주는 특정 시퀀스임), 검출된 샷들의 분할 단계(12), 및 샷을 클러스터링(clustering)하는 단계(13)로 나눠진다.

제 1 단계(11)는 다음 단계를 위한 입력 데이터를 구성하는 샷들로 입력 비디오 시퀀스를 분리하기 위해 제공된다. 이 단계는 평균 프레임차 변위(mean Displaced Frame Difference: mDFD) 곡선를 결정하게 하는 계산 보조단계(111) 및 분할 보조단계(112)인 두 개의 주요 보조단계로 이루어지며 연속적인 샷들 간의 전이을 검출 가능하게 한다.

보조단계(111) 동안 계산된 mDFD 곡선이 휘도 및 크로미넌스(chrominance) 정보를 고려하여 얻어진다. 시간(t)에서 프레임에 대해, 아래의 정의를 따라:

휘도 Y={f_k(i,j,t)}_k=Y(1)

크로미넌스 성분들(U,V)={f_k(i,j,t)}_k=U,V(2)

DFD는 DFD_k(i,j;t-1,t+1)=f_k(i,j,t+1)-f_k(i-d_x(i,j),j-d_y(i,j),t-1) (3)에 의해 주어지고,

mDFD는 mDFD(t)=

(4)에 의해 주어진다.

여기서, Ix,Iy 는 영상 치수들이고 Wk는 Y,U,,V 성분에 대한 웨이트(weight)들이다. 열 개의 샷(s₁ 내지 s₁₀)을 도시하는 얻어진 곡선(및 대응 필터링된 곡선)의 예가 예를 들어 {w_Y,w_U,w_V}={1,3,3}으로 설정된 웨이드들로 도 2에 도시된다. 연속적인 샷들 간의 변이는 한 프레임에서 다음의 프레임으로 급변하거나 디졸브(dissolve), 패이드(fade), 및 와이프(wipe)와 같이 더 복잡해질 수 있다. 즉 곡선의 가장 높은 피크들은 갑작스런 변이들(프레임들 21100, 21195, 21633, 21724)에 해당하고, 한편, 프레임(21260)에서 프레임(21279)까지의 발진은 디졸브에 해당하고, 프레임들(21100 내지 21195 및 21633 내지 21724)에서 크게 움직이는 가장 두드러진 대상들의 존재로 인해 mDFD 곡선의 고레벨 발진들이 일어난다.

비디오 편집 효과를 검출하고 샷들로 mDFD 곡선을 분할하는 보조단계(112)는 mDFD 곡선(또는 또 다른 유형의 1차원 곡선)의 가장 높은 피그들을 추출하는 임계치-기반 분할(threshild-based segmentation)을 이용한다. 예를 들어 이러한 기술은 문서" MPEG-2 압축된 비디오 시퀀스에서 계층 장면 변경 검출(Hierarchical scene change detection in an MPEG-2 compressed video sequence)"(T.Shin 과 al, 회로와 시스템에 관한 1998 IEEE 국제 심포지엄의 진행, ISCAS'98, 제 4권, 1998년 3월, 페이지 253 내지 256)에 상술되어 있다.

분할 단계(12)는 마이크로 세그먼트라고 불리는 서브엔티티들로 각각의 검출된 샷을 분리하는 일시적인 분할이다. 각각의 검출된 샷에 개별적으로 이용된 이 일시적인 분할 단계는 두 개의 단계, 즉 완전한 동질성을 보여주는 소위 마이크로 세그먼트들로 각각의 샷을 나누기 위한 과잉분할(oversegmentation) 보조단계, 및 병합 보조단계(122)로 이루어진다.

제 1 보조단계(121)를 수행하기 위해, 거리(정의된 거리들은 마이크로 세그먼트들을 비교하도록 한다) 및 마이크로 세그먼트 또는 조각(마이크로 세그먼트들의 세트)의 특질을 산정하도록 하는 파라미터라고 불리는 것을 우선 정의하는 것이 필요하다. 두 경우 모두에서, 빈들 각각이 특정 유형의 움직임을 갖는 프레임들의 퍼센티지를 보여주고, 아래의 관계(5)에 의해 나타내어진 바와 같이 정의되는 움직임 히스토그램이 사용된다.

H_S[i]=

(5)

여기서, s는 샷 내부의 관련 마이크로 세그먼트의 레벨을 나타내고, i는 움직임 유형(이들 움직임들은 트랙레프트(trackleft), 트렉라이트(trackright), 붐다운(boomdown), 붐업(boomup), 틸트다운(tiltdown), 틸트업(tiltup), 판레프트(panleft), 판라이트(panright), 롤레프트(rolleft), 롤라이트(rollright), 줌인(zoomin), 업아웃(zoomout), 픽스트(fixted)이라 불린다)을 나타내고, Ls는 상기 관련 마이크로 세그먼트(s)의 길이를 나타내고, Ni는 움직임 유형(i)(다른 움직임이 동시에 나타날 수 있으므로

＞ 1 이 가능하다)을 갖는 마이크로 세그먼트의 프레임들의 수를 나타낸다.

마이크로 세그먼트는 모든 마이크로 세그먼트의 프레임들 중에서 카메라 움직임 파라미터들의 단일 조합을 나타낼 때 완전히 동질이 되고, 또는 이들 파라미터들의 중요한 변화를 나타낼 때 동질이 되지 않음을 가정한다. 마이크로 세그먼트 동질성은 이것의 히스토그램(관계(5)) 상에서 계산되는데, 즉 마이크로 세그먼트가 완전히 동질이면, 이것의 히스토그램의 빈들이 0(고려된 움직임이 전혀 나타나지 않음) 또는 1(움직임이 전체 마이크로 세그먼트 상에 나타남)이고, 마이크로 세그먼트가 완전히 동질이 아니면, 히스토그램의 빈들은 중간값들을 나타낸다. 마이크로 세그먼트 동질성의 측정은 이것의 히스토그램이 이상적인 히스토그램과 얼마나 다른지를 측정(즉, 이것은 히스토그램의 빈들이 1 도는 0과 얼마나 다른지를 계산한다)함으로써 얻어진다. 높은 값을 갖는 빈들에 해당하는 거리는 빈 값과 1 사이의 차이이고, 유사하게, 작은 값을 갖는 빈들에 대해, 거리는 빈 값 자체이다. 도 3에 히스토그램의 예가 도시되고, 축들(axes)은 각 움직임 유형에 대해 자신의 몫(=움직임 존재(motion presence))을 나타내고, 두 움직임 유형(판레프트(PL) 및 줌인(ZI))은 움직임이 마이크로 세그먼트의 모든 프레임들에서 나타나지 않으므로 일부 에러를 일으키고, 다른 두 움직임 유형(붐다운(BD) 및 롤라이트(RR))은 반대 이유로 일부 에러를 일으킨다.

수학적으로, 마이크로 세그먼트의 동질성은 관계(6)에 의해 주어진다.

H(s)=

(6)

여기서 e(i)=1-H_s[i] 단, H_s[i] 0,5

e(i)=H_s[i] 단, H_s[i]＜ 0, 5

Hs[i]= 마이크로 세그먼트(s)의 히스토그램

i=움직임 유형.

샷(S)의 동질성은 마이크로 세그먼트의 동질성과 같고, 세그먼트 각각의 길이에 의하여 가중되며, 아래의 수식(7)에 의해 나타내어진다.

H(S)=

(7)

여기서 L(S)=

는 샷(S)의 총 길이이고, N은 마이크로 세그먼트의 수이고, 상기 샷은 (H(S)의 작은 값들이 동질성의 고레벨들에 대응함) 포함한다. 두 개의 마이크로 세그먼트(s1 내지 s2)들 간의 거리는 마이크로 세그먼트들 결합(union)의 동질성이다.

d(s₁,s₂)=H(s₁ U s₂) (8)

이제, 일시적인 분할이 계속된다. 초기 과잉분할 보조단계(121)는 완전히 동질적인 마이크로 세그먼트들의 세트를 얻기 위해 관련된 샷을 과잉분할하게 하고, 아래의 관계(9)에 해당한다.

H(s)=0, 여기서 s는 S에 포함된다. (9)

초기 과잉분할된 조각을 어떻게 얻는지의 예가 움직임 유형들 판레프트(PL), 줌아웃(ZO), 및 픽스트(FIX)로서 도 4(프레임 수 및 대응 움직임 유형을 나타내는 축들)에 도시되고, s₁ 내지 s₇ 는 마이크로 세그먼트들(카메라 파라미터들은 일부 프레임들에 대해 알려지지 않을 수 있고, 이 예에서, 샷-마이크로 세그먼트(s₇)의 최종 프레임들이 관련된 임의의 파라미터를 갖지 않음)을 지정한다. 병합 보조단계(122)는 우선 (일시적으로 접속된)모든 이웃한 마이크로 세그먼트들 간의 거리가 (다음 동작 동안 병합이 가능하게 하기 위해)가장 근접한 마이크로 세그먼트들 쌍을 선택하기 위한 수식(8)을 이용하여 계산되는 계산 동작, 및 선택된 마이크로 세그먼트들의 쌍이 병합될 것인지 결정하기 위해 최소 거리 마이크로 세그먼트들이 이미 병합되었다고 가정 하에 (수식(7)에 따른) 샷의 동질성이 계산되는 융합 결정 동작을 포함한다. 아래의 융합 기준이 이용된다.

병합 H(S) 입계값 T(H) 일 때

병합하지 않음 H(S)＞임계값 T(H) 일 때

(이 융합 기준은 전 세계적이다. 즉 결정은 결과 조각의 동질성에 의존하고, 전적으로 결과 마이크로 세그먼트의 동질성에 의존하지 않는다.). 병합이 행해지면, 새로운 반복이 제 2 보조단계의 레벨에서 시작한다(제 2 계산 동작이 실행되고, 기타 등등). 병합 처리는 병합될 수 있는 이웃한 마이크로 세그먼트들의 쌍이 없을 때 종료한다.

더욱 응집성의 엔티티들로 연속적인 샷들의 그룹을 병합하는 샷 클러스터링(clustering) 단계로서 제 3 단계(13)는 샷들의 쌍이 2진 트리를 생성하기 위해 서로 그룹지어지는 샷 병합 보조단계(131), 및 비디오 시퀀스로 제공된 유사도를 반영하기 위해 상기 2진 트리를 재구성하는 트리 구조 보조단계(132)의 두 보조단계들로 나뉜다.

샷 병합 보조단계(131)는 초기 샷들의 병합 순서를 나타내는 2진 트리를 산출한다. 즉 휴지(leave)들은 이들 초기 샷들을 나타내고, 탑(top) 노드(node)는 전 체 시퀀스를 나타내고, 중간 노드들은 여러 개의 샷들의 병합에 의해 만들어진 시퀀스를 나타낸다. 병합 기준은 샷들 간의 거리에 의해 정의되고, 가장 근접한 샷들이 우선 병합된다. 샷들 사이의 거리를 계산하기 위해, 비교될 특성을 제공하는 샷 모델을 정의하고 (방합이 행해질 수 있을 것을 나타내는) 이들 간의 이웃한 링크들을 설정하는 것이 필요하다. 모든 초기 샷들이 단일 노드로 병합될 때 또는 링크된 노드들의 모든 결합 사이의 최소 거리가 특정 임계값보다 클 때 처리는 종료한다.

샷 모델은 샷들이 병합되고 그들의 병합 순서를 결정하기 위해 여러 개의 샷들의 내용을 명백히 비교하도록 한다. 정지 영상들에서, 휘도 및 크로미넌스는 영상의 주요한 특성이고, 반면 비디오 시퀀스에서, 움직임은 일시적인 전개(evolution)로 인한 정보의 중요한 소스이다. 따라서, 평균 영상들, 휘도 및 크로미넌스 정보의 히스토그램, 움직임 정보는 샷들을 모델링하기 위해 사용된다.

샷 보조단계(131)를 구현하기 위해, (a)최소 거리 링크를 얻는(동작(1311)), (b)거리 기준을 체크하는(동작(1312)), (c)노드들을 병합하는(동작(1313)),(d)링크들 및 거리들을 업데이트하는(동작(1314)), (e)탑 노드를 체크하는(동작(1315)) 5개의 동작들을 실행하는 것이 필요하다.

동작(1311)에서, 최대 및 최소 거리는 링크된 노드들의 모든 쌍에 대해 계산된다. 최대 거리가 우선 체크된다. 즉 최대 거리 임계값(d)(max)보다 크면 링크를 버리고, 반대의 경우에는 링크를 고려한다. 일단 모든 링크가 스캔되면, 최소 거리가 얻어진다.

동작(1312)에서, 최소 거리 링크에 의해 지정된 노드들이 병합돼야 할 때, 최소 거리는 최소 거리 임계값(d)(min)에 비교되고, 상기 임계값보다 크면 병합은 실행되지 않고 처리는 종료하고, 반대의 경우 지정된 노드들은 병합되고 처리는 진행한다.

동작(1313)에서, 최소 거리 링크들에 의해 지정된 노드들은 병합된다. 동작(1314)에서, 상기 링크들은 수행된 병합을 고려하여 업데이트되고, 일단 링크들이 업데이트되면 새로운 모드를 지정하는 이들 링크들의 거리가 다시 계산된다. 최종 동작(1315)에서, 남아있는 노드들의 수가 체크된다. 즉, 모든 초기 샷들이 단일 노드에 병합되면, 처리가 종료되고, 반대의 경우 새로운 반복이 시작된다.

샷 병합 보조단계(131)는 모든 초기 샷들이 충분히 유사하면 단일 트리를 산출하고 또는 초기 샷들이 아주 다르면 포레스트(forest)를 산출할 수 있다. 식별표의 기준에 대한 2진 트리의 예가 도 5에 도시된다. 이 트리, 트리의 레벨, 및 괄호 사이의 잎(leap) 노드들 내부에서, 샷의 개시 및 종료 프레임 수들이 표시되고, 남아있는 노드들, 레벨들 내부에서 (괄호사이의)융합 순서 및 두 시블링(sibling) 사이의 최소 및 최대 거리가 표시된다.

트리 재구성 보조단계(132)는 비디오 구조를 더 선명하게 반영하는 임의의 트리로 보조단계(131)에서 얻어진 2진 트리를 재구성한다. 결국, 이것은 임의의 관련 정보를 전달하지 않는 것을 제외하고는 병합 처리에 의해 만들어진 노드들을 제거하기 위해 결정되고, 상기 제거는 노드에 포함된 샷들 사이의 유사성 정도(거리)의 변화에 기초한 기준에 따라 행해진다.

분석된 노드가 루트(root) 노드이면(또는 다양한 2진 트리들이 병합 처리 후 에 얻어질 때 루트 노드들 중 한 노드), 이때 노드는 보존되고 최종 트리에서 나타난다.

분석된 노드가 잎 노드이면(즉, 초기 샷에 해당함), 이때 최종 트리에 또한 남는다.

반면, 노드는 아래의 상태들(10 및 11)이 만족될 때에만 최종 트리에 유지된다.

│d(min)[분석된 노드]-d(min)[근원 노드]│＜T(H) (10)

│d(max)[분석된 노드]-d(max)[근원 노드]│＜T(H) (11)

도 6에 도시된 바와 같이, 재구성 보조단계(132)로부터 유래한 트리는 비디오 시퀀스의 구조를 더 명확하게 나타낸다. 즉, 제 2 계층 레벨(28, 12, 13, 21)에서 노드들은 시퀀스의 4 장면(scene)들을 나타내고, 반면 제 3 레벨(또는 경우에 따라서는 제 4 레벨)에서 노드들은 초기 샷들을 나타낸다.

본 발명은 상술된 구현에 제한되지 않으며, 변형예 또는 보다 넓은 응용이 본 발명의 범위로부터 벗어남이 없이 유도될 수 있다. 예를 들어, 본 발명은 또한 이전에 상술된 방법에 따라 처리된 색인 데이터를 위한 방법과 관련한다. 도 7에 도시된 이러한 방법은 연속적인 샷들로 각각의 처리된 시퀀스의 보조 분할을 수행하고 서브엔티티들(또는 마이크로 세그먼트들)로 얻어진 샷들 각각의 쪼갬을 수행하는 구성 단계(71), 최종 계층 구조를 만들어내는 클러스터링 단계(72)를 포함한다. 이들 단계들(71 및 72)은 각각 단계(11, 12) 및 이전에 상술된 단계(13)와 유사하고, 각각의 처리된 비디오 시퀀스에 대해 정의된 계층 구조의 각 구성요소에 라벨(label)을 부가하기 위해 제공된 부가적인 색인 단계(73)에 후속한다.

본 발명은 또한 도 8에서 상술된 바와 같은 영상 검색 시스템에 관한 것으로, (순차적인 비디오 비트스트림들의 형성에 이용가능한)비디오 시퀀스들의 획득(acquisition)을 위한 카메라(81), 상기 데이터 색인 방법을 위한 비디오 색인 장치(82)(상기 장치는 상기 분할로부터 야기되는 분류화에 기초하여 분석, 계층적인 분할, 및 색인에 의한 상기 시퀀스들에서 내용 정보의 다른 레벨들을 붙잡는다.), 상기 분류화로부터 야기되는 데이터(이들 데이터는 때때로 메타데이타(metadata)라고 불린다)를 저장하는 데이터 베이스(83), 데이터 베이스로부터 탐색된 검색을 수행하기 위한 그래픽 사용자 인터페이스(84), 및 검색된 정보를 디스플레이하기 위한 비디오 모니터(85)를 포함한다(본 발명은 또한 명백히 본 발명에 따른 방법을 구현하도록 하는 비디오 색인 장치(82)에 관한 것이다.).

Claims

연속하는 프레임들에 대응하는 비디오 시퀀스 구조의 자동 추출 방법에 있어서,

(1) 연속하는 샷들(shots) 간의 경계들을 검출하기 위해 제공되는 샷 검출 단계로서, 상기 샷은 편집 효과 없이 인접하는 프레임들의 세트인, 상기 검출 단계;

(2) 각각의 샷을 마이크로 세그먼트들로 불리는 서브 엔티티들로 분리하기 위해 제공되는 분할 단계; 및

(3) 처리되는 비디오 시퀀스의 최종 계층 구조를 생성하기 위해 제공되는 클러스터링(clustering) 단계;를 포함하는, 비디오 시퀀스 구조의 자동 추출 방법.
제 1항에 있어서, 상기 샷 검출 단계는 평균 프레임차 변위 곡선(mean displaced frame difference curve)의 계산 및 상기 곡선의 가장 높은 피크의 검출에 기초하여, 유사도 기준을 사용하는, 비디오 시퀀스 구조의 자동 추출 방법.
제 1항 또는 제 2항에 있어서, 상기 분할 단계는 상기 처리되는 비디오 시퀀스를 생성하기 위해 사용되는 카메라의 움직임 파라미터들의 동질성(homogeneity) 레벨을 포함하는 기준을 사용하는, 비디오 시퀀스 구조의 자동 추출 방법.
제 3항에 있어서, 마이크로 세그먼트의 상기 동질성은 움직임 히스토그램(histogram) 상에서 계산되며, 상기 히스토그램의 각각의 빈(bin)은 특정 유형의 움직임을 갖는 프레임들의 퍼센트를 보여주는, 비디오 시퀀스 구조의 자동 추출 방법.
제 4항에 있어서, 상기 히스토그램의 상기 빈들은 1 또는 0과 같지 않다면(즉 마이크로 세그먼트가 완전히 동질이 아님을 나타내는 중간 값들을 표시한다면), 두 마이크로 세그먼트들 사이의 거리는 상기 마이크로 세그먼트들 결합의 동질성에 기초하여 계산되고, 상기 동질성은 마이크로 세그먼트 및 다른 움직임 유형들의 히스토그램으로부터 도출되는 그 자체이고, 샷의 동질성은 마이크로 세그먼트들 각각의 길이에 의해 가중된 마이크로 세그먼트들의 상기 동질성과 같고, 임의의 마이크로 세그먼트들 쌍 사이의 융합 여부는 소정 임계값 T(H)에 관한 상기 샷의 상기 동질성 값과 선택된 마이크로 세그먼트들이 이미 병합되었다는 가정에 따라서 결정되며, 마이크로 세그먼트들 사이의 이러한 가능한 병합 처리는 병합될 수 있는 이웃한 마이크로 세그먼트 쌍이 더 이상 없을 때 종료하는, 비디오 시퀀스 구조의 자동 추출 방법.
삭제
삭제
영상 검색 시스템에 있어서,

(A) 연속하는 프레임들에 대응하는 비디오 시퀀스의 구조를 계층적인 방식으로 정의하고 상기 계층 구조의 각 요소에 색인 라벨을 제공하기 위하여, 정의된, 상기 비디오 시퀀스에 대응하는 데이터를 색인하는 방법을 수행하기 위한 수단으로서, 상기 수단 자체는,

1) 상기 비디오 시퀀스를 연속하는 샷들로 세분화(sub-dividing)하고, 상기 샷들 각각을 마이크로 세그먼트들로 불리는 서브 엔티티들로 분할하기 위해 제공되는 구조화 수단;

2) 상기 분할(segmentation)에 기초하여 획득되는, 처리되는 상기 비디오 시퀀스의 최종 계층 구조를 생성하기 위해 제겅되는 클러스터링 수단; 및

3) 상기 계층 구조의 각 요소에 라벨을 부가하기 위해 제공되는 색인 수단을 포함하는, 상기 수행하기 위한 수단;

(B) 상기 라벨들을 저장하기 위한 수단; 및

(C) 상기 저장된 라벨들에 기초하여, 검색될 상기 영상의 하나 또는 몇몇 특징을 이용하여 임의의 영상 검색을 수행하기 위한 수단;을 포함하는, 영상 검색 시스템.