KR100741300B1

KR100741300B1 - 비디오 시퀀스 구조의 자동 추출 방법

Info

Publication number: KR100741300B1
Application number: KR1020017002899A
Authority: KR
Inventors: 라크-핀사크존; 살렘비에르필리페
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-07-06
Filing date: 2000-07-04
Publication date: 2007-07-23
Also published as: WO2001003430A2; US6628710B1; WO2001003430A3; KR20010074972A; CN1352856A; JP2003503972A; EP1129573A2; CN1213599C

Abstract

본 발명은 비디오 시퀀스의 분석에 의해 비디오 시퀀스의 기술(즉, 그 내용의 표)을 자동으로 생성하기 위한 방법에 관한 것이다. 상기 방법의 주 단계들은 샷 검출, 이 샷들을 마이크로-세그먼트들이라고 하는 서브-엔티티들로의 서브-분할(sub-division), 및 처리된 시퀀스의 최종 계층 구조의 생성이다. 본 발명에 따르면, 샷 검출 단계는 평균 변위 프레임 차이 곡선을 계산하고, 상기 곡선의 최고 피크들을 검출하고, 몇몇 네가티브 또는 포지티브 피크들을 필터링함으로써 제거하고, 마커들을 추출하며, 상기 곡선에 마커들을 전달한다.

샷, 프레임, 비디오 시퀀스, 마커, 마이크로-세그먼트, 서브-엔티티

Description

비디오 시퀀스 구조의 자동 추출 방법{Automatic extraction method of the structure of a video sequence}

발명의 분야

본 발명은 연속하는 프레임들에 대응하는 비디오 시퀀스의 구조를 자동 추출하기 위한 방법에 관한 것으로,

(1) 연속하는 샷(shot)들 사이의 경계들을 검출하고(한 샷은 편집 효과들이 없는 인접 프레임들의 세트이다), 평균 변위 프레임 차이 곡선(mean displaced frame difference curve)의 계산 및 상기 곡선의 최고 피크들의 검출에 기초한 유사성 기준을 사용하기 위한 샷 검출 단계,

(2) 각 샷을 마이크로-세그먼트들이라고 하는 서브-엔티티들로 분할(splitting)하기 위한 분할(partitioning) 단계,

(3) 처리된 비디오 시퀀스의 최종 계층 구조(hierarchical structure)를 생성하기 위한 클러스터링(clustering) 단계를 포함한다.

또한, 본 발명은 데이터를 인덱싱하기 위한 대응 방법과 상기 방법을 수행하기 위한 디바이스, 및 상기 방법이 구현되는 이미지 검색 시스템에 관한 것이다. 본 발명의 기술은 MPEG-7 표준과 관련되는 애플리케이션들에 사용하기에 특히 적합할 것이다.

발명의 배경

미래의 MPEG-7 표준은 다양한 형태의 멀티미디어 정보를 기술하기 위해 사용될 수 있는 표준 디스크립터들(descriptors)의 세트를 명시하려고 하는 것이다. 따라서, 주어진 내용과 관련된 설명은 사용자의 관심 사항을 빠르고 효과적으로 탐색할 수 있도록 한다. 본 발명은 보다 상세하게는 사용자들에게 탐색 정보의 양상들을 제공하도록 된 비디오 시퀀스들의 표현의 경우에 관한 것이다. 비디오 시퀀스에 있어서, 본 문서의 내용 기술 표의 목적은, 책들에서 행해지는, 즉, 그 텍스트들이 장들(chapters)과 단락들(paragraphs)로 나누어지는 것과 유사하게, 계층적 방식으로 이러한 시퀀스의 구조를 규정하는 것으로, 원래의 시퀀스가 서브-시퀀스들로 서브분할(subdividing)되고 상기 서브 시퀀스들은 더 짧은 서브-엔티티들로 더 분할(dividing)될 수도 있다.

이와 같은 구조를 정의하기 위한 방법이 유럽 특허 출원 제 99402594.8 호(PHF99593)로 본 출원인에 의해 이전에 출원된 유럽 특허 출원에 개시되어 있다. 상기 출원에 따르면, 도 1에 도시된 것과 같이 상기 방법은, 샷 검출 단계(11)(화상들의 시퀀스에서, 비디오 샷은 특히 단일 백그라운드를 나타내는 특정 시퀀스, 즉, 편집 효과들이 없는 연속하는 프레임들의 세트이다), 검출된 샷들을 일관된 카메라 움직임 특징들을 나타내는 엔티티들로 분할(segmentation)하기 위한 분할(partitioning) 단계(12), 및 샷 클러스터링 단계(13)의 3단계로 나누어져 있다.

샷 검출 단계와 관련하여, Journal of Visual Communication and Image Representation, 제 10 권, 2호, 1999년 6월, pp.78-112의, R. Brunelli 등의 문헌 "A survey on the automatic indexing of video data"에 이미 여러 가지 해결책들이 제안되어 있다. 인용 문서에 기술된 방법에서, 제 1 단계(11)는 2개의 주 서브-단계들(평균 변위 프레임 차이(mDFD, mean Displaced Frame Difference) 곡선을 결정하도록 하는 계산 서브-단계(111), 및 분할(segmentation) 서브-단계(112))에 의해 연속하는 샷들 사이의 전이들을 검출한다.

서브-단계(111) 동안 계산된 mDFD 곡선은 휘도와 색차 정보를 고려하여 얻어진다. 시간 t에서 한 프레임에 대해, 다음 정의들로 주어지고,

(1)

(2)

DFD는 다음과 같이 주어지고,

(3)

mDFD는 다음과 같으며,

(4)

여기서, I_x, I_y는 이미지 차원들이고, w_k는 Y, U, V 성분들에 대한 가중치들이다. 10개의 샷들(s₁ 내지 s₁₀)을 나타내고, 얻어진 곡선의 (및 대응하는 필터링된 것의) 예가, 예를 들어, {w_Y, w_U, w_V} = {1, 3, 3}으로 설정된 가중치들을 갖는 도 2에 도시되어있다. 이 예에서, 곡선의 최고 피크들은 한 프레임으로부터 다음 프레임(프레임들(21100, 21195, 21633, 21724))로의 돌발적인 전이들에 대응하지만, 다른 한편으로, 프레임(21260)으로부터 프레임(21279)으로의 진동은 디졸브(dissolve)(이 디졸브 처리에 포함된 프레임들의 간단한 선형 조합에 의해 한 카메라 레코드로부터 다른 카메라 레코드로의 점진적인 변화)에 대응하고, 프레임들(21100 내지 21195 및 21633 내지 21724)에서의 큰 움직이는 포어그라운드(foreground) 오브젝트들의 존재가 mDFD 곡선의 고 레벨 진동들을 생성한다.

비디오 편집 효과들을 검출하고 mDFD 곡선을 샷들로 분할(segmenting)하기 위해 제공되는 서브-단계(112)는, 예를 들어, 회로 및 시스템에 관한 1998 IEEE 국제 심포지엄, ISCAS'98, 제 4 권, 1998년 3월, T. Shin 등의 "Hierarchical scene change detection in an MPEG-2 compressed video sequence", pp.253-256에 기술된 것과 같이, mDFD 곡선(또는 다른 형태의 단일 차원의(mono-dimensional) 곡선)의 최고 피크들을 추출하기 위해 임계치에 기초한 분할(segmentation)을 사용한다.

제 2 단계(12)는 각 검출된 샷을 카메라 움직임 파라미터들에 따라 매우 높은 레벨의 동질성을 나타내는 서브-엔티티들로 분할(splitting)하기 위해 제공되는 일시적 분할(temporal segmentation)이다. 이는 2개의 서브-단계들(각 샷을 매우 높은 레벨의 동질성을 나타내야만 하는 소위 마이크로-세그먼트들로 분할(dividing)하기 위한 과분할(oversegmentation) 서브-단계(121), 및 병합 서브-단계(122))로 구성된다.

제 1 서브-단계(121)를 수행하기 위해서, 먼저 어떤 것을 거리(distance)라고 할 것인지 정의할 필요가 있으며, (그에 따라 정의된 거리들은 마이크로-세그먼트들과 비교하는 것을 허용한다), 또한 파라미터는 마이크로-세그먼트 또는 분할(partition)(= 마이크로 세그먼트들의 세트)의 특성을 평가할 수 있도록 한다. 두 경우들에 있어서, 빈들(bins) 각각은 특정 형태의 움직임을 갖는 프레임들의 비율을 나타내고, 다음 관계 (5)로 나타내어지는 것과 같이 정의되는 움직임 히스토그램(motion histogram)이 사용된다.

(5)

여기서, s는 샷 내부의 관련된 마이크로-세그먼트의 라벨을 나타내고, i는 움직임 형태(이 움직임들은 트랙레프트(trackleft), 트랙라이트(trackright), 붐다운(boomdown), 붐업(boonup), 틸트다운(tiltdown), 틸트업(tiltup), 팬레프트(panleft), 팬라이트(panright), 롤레프트(rollleft), 롤라이트(rollright), 줌인(zoomin), 줌아웃(zoomout), 픽스(fixed)라고 함), L_s는 마이크로 세그먼트(s)의 길이를 나타내고, N_i는 움직임 형태(i)를 갖는 마이크로-세그먼트(s)의 프레임들의 수(상이한 움직임들이 연속적으로 나타날 수 있기 때문에, ∑H_S[i]>1이 가능하다)를 나타낸다.

마이크로-세그먼트는 모든 프레임들을 따르는 카메라 움직임 파라미터들의 단일 조합을 나타낼 때 완전히 동질성(또는 매우 높은 레벨의 동질성)이거나, 이 파라미터들에 관한 중요한 변화들을 나타낼 때 동질성이 아닌 것으로 가정된다. 마이크로-세그먼트 동질성은 그의 히스토그램(관계 (5))에서 계산된다. 마이크로-세그먼트가 완전히 동질이라면, 히스토그램 빈들은 0(고려된 움직임이 전혀 나타나지 않음) 또는 1(전체 세그먼트에서 움직임이 나타남) 중 하나와 같지만, 마이크로-세그먼트가 완전히 동질이 아니라면, 빈들은 중간 값들을 나타낼 수 있다. 그 후, 마이크로-세그먼트 동질성의 치수가, 그의 히스토그램이 이상적인 것과 얼마나 많이 다른지를 측정함으로써 얻어진다(즉, 히스토그램의 빈들이 1 또는 0과 얼마나 많이 다른지가 계산된다). 높은 값들을 갖는 빈들에 대응하는 거리는 빈 값과 1 사이의 차이이며, 유사하게, 작은 값들을 갖는 빈들에 대해서, 거리는 빈 값 그 자체이다. 히스토그램의 예가 도 3에 도시되며, 그 축들은 각 움직임 형태에 대해 비율(= 움직임 존재)을 나타내며, 두 가지의 움직임 형태들은, 마이크로-세그먼트(팬레프트(PL), 줌인(ZI))의 모든 프레임들에 움직임이 나타나지 않기 때문에 어떤 에러를 발생시키며, 두 가지의 다른 움직임 형태들(붐다운(BD) 및 롤라이트(RR))은 반대 이유로 인해 어떤 에러를 발생시킨다.

수학적으로, 마이크로-세그먼트(s)의 동질성은 관계 (6)으로 제공된다.

(6)

여기서, 만일 H_s[i] 0,5이면, e(i) = 1 - H_s[i]

만일 H_s[i]<0,5이면, e(i) = H_s[i]

Hs[i] = 마이크로-세그먼트(s)의 히스토그램

i = 움직임 형태이다.

그 후, 샷(S)의 동질성은, 다음 식 (7)에 나타낸 것과 같이, 각각의 길이로 가중된 그 마이크로-세그먼트들의 동질성과 같아진다.

(7)

여기서,

은 샷(S)의 총 길이이고, N은 상기 샷이 포함하는 마이크로-세그먼트들의 수이다(H(S)의 작은 값들은 동질성의 높은 레벨들에 대응한다는 것을 유념해야 한다). 2개의 마이크로-세그먼트들(s1, s2) 간의 거리는 마이크로-세그먼트들의 합집합의 동질성이다.

d(s₁, s₂) = H(s₁ ∪ s₂) (8)

따라서, 초기 과분할 서브-단계(121)는 완전히 동질의 마이크로-세그먼트들의 세트를 얻기 위해서 관련된 샷을 과분할하도록 할 수 있으며, 다음 관계 (9)에 대응한다.

H(s) = 0, s가 어떤 것이든지 S에 포함됨 (9)

이 초기의 과분할된 분할(oversegmented partition)을 얻기 위한 예가, 팬레프트(PL), 줌아웃(ZO) 및 픽스(FIX)의 움직임 형태들로 도 4에 도시되어 있으며, s₁ 내지 s₇은 마이크로-세그먼트들을 나타낸다(카메라 움직임 파라미터들은 어떤 프레임들에 대해서는 알려지지 않을 수 있으며, 이 예에서, 샷의 마지막 프레임들(세그먼트 s₇)은 관련된 어떠한 파라미터도 갖지 않는다).

병합 서브-단계(122)는 계산 동작을 포함하며, 여기서 (일시적으로 접속된) 모든 인접 마이크로-세그먼트들간의 거리는 (다음 동작 동안 병합할 수 있는) 가장 근접한 마이크로-세그먼트들의 쌍을 선택하기 위해 식 (8)을 사용하여 계산되며, 마이크로-세그먼트들의 선택된 쌍이 병합될 것이라고 결정하기 위해서, 최소 거리의 마이크로-세그먼트들이 이미 병합되었다고 가정하여 (식 (7)에 따른) 샷의 동질성이 계산되는 퓨전(fusion) 결정 동작이 이어진다. 다음 퓨전 기준이 적용된다.

H(S)가 임계치 T(H)이면, 병합함

H(S)가 임계치 T(H)보다 크면, 병합하지 않음

(이 퓨전 기준은 포괄적이다 : 이 결정은 결과적인 분할(partition)의 동질성에 의존하며, 결과적인 마이크로-세그먼트의 동질성에는 배타적이지 않다). 병합이 행해지면, 제 2 서브-단계의 레벨에서 새로운 반복을 시작한다(제 2 계산 동작이 수행된다). 여전히 병합될 수 있는 인접 마이크로-세그먼트들의 쌍이 더 이상 존재하지 않을 때, 병합 처리가 종료된다.

제 3 단계(13)는 2개의 서브-단계들로 분할(dividing)된다. 그 한 단계는 샷들의 쌍들이 이진 트리를 생성하기 위해 함께 그룹화되는 샷 병합 서브-단계(131)이고, 다른 한 단계는 비디오 시퀀스에 존재하는 유사성들을 반영하기 위해서 상기 이진 트리를 재구성하는 트리 구성 서브-단계(132)이다.

샷 병합 서브-단계(131)는 초기 샷들의 병합 순서를 나타내는 이진 트리를 만들기 위해 제공되며, 리프들(leaves)은 이 초기 샷들을 나타내고, 상위 노드는 전체 시퀀스를 나타내고, 중간 노드들은 여러 개의 샷들의 병합에 의해 생성되는 시퀀스들을 나타낸다. 병합 기준은 샷들 간의 거리로 정의되고, 가장 인접한 샷들이 먼저 병합된다. 샷들 간의 거리를 계산하기 위해서, (어떠한 병합이 이루어질 수 있는지를 나타내는) 샷들 간의 인접 링크들을 비교하고 설정하기 위한 특징들을 제공하는 샷 모델을 정의할 필요가 있다. 모든 초기 샷들이 단일 노드로 병합되었거나, 링크된 노드들의 모든 연결들 사이의 최소 거리가 특정 임계치보다 클 때 처리가 종료된다.

샷 모델은, 명백히 어떤 샷들이 병합되어야 하고 그 병합 순서를 결정하기 위해서, 여러 개의 샷들의 내용을 비교하는 것을 허용해야 한다. 정지 이미지들에 있어서, 휘도 및 색차는 이미지의 주 특성들이지만, 비디오 시퀀스에서 움직임은 일시적인 발전으로 인한 정보의 중요한 소스이다. 그래서, 평균 이미지들, 휘도 및 색차 정보(YUV 성분들)의 히스토그램들 및 움직임 정보는 샷들을 모델링하기 위해 사용될 것이다.

샷 병합 서브-단계(131)를 구현하기 위해서, 다음 동작들, (a) 최소 거리 링크를 얻는 동작(동작 1311), (b) 거리 기준을 검사하는 동작(동작 1312), (c) 노드들을 병합하는 동작(동작 1313), (d) 링크들과 거리들을 갱신하는 동작(동작 1314), (e) 상위 노드를 검사하는 동작(동작 1315)을 수행할 필요가 있다.

동작 1311에 있어서, 최소 및 최대 거리는 모두 링크된 노드들의 쌍마다 계산된다. 최대 거리가 먼저 검사된다. 최대 거리가 최대 거리 임계치(d(max))보다 크면 링크는 제거되지만, 만일 그렇지 않으면 링크는 고려되어야 한다. 모든 링크들이 스캔되었다면, 최소 거리가 얻어진다.

동작 1312에서, 최소 거리 링크에 의해 포인트된 노드들을 병합해야 하는지를 결정하기 위해서, 최소 거리는 최소 거리 임계치(d(min))와 비교되어야 하고, 최소 거리가 상기 임계치보다 크면 병합이 수행되지 않고 처리는 종료되며, 최소 거리가 상기 임계치보다 크지 않다면 포인트된 노드들은 병합되고 처리는 계속된다.

동작 1313에서, 최소 거리 링크들에 의해 포인트된 노드들이 병합된다. 동작 1314에서, 상기 링크들은 수행된 병합을 고려하여 갱신되고, 링크들이 갱신되었다면 새로운 노드를 포인트하는 그 링크들의 거리가 재계산된다. 마지막 동작 1315에서, 남은 노드들의 수가 검사되고, 모든 초기 샷들이 단일 노드로 병합되었다면 처리는 종료되고, 그렇지 않으면 새로운 반복이 시작된다.

샷 병합 서브-단계(131)는, 모든 초기 샷들이 충분히 비슷한 경우에는 하나의 트리를 생성하고 또는 초기 샷들이 상당히 다른 경우에는 포리스트(forest)를 생성할 수도 있다. 내용들의 표의 생성을 위한 이진 트리의 예가 도 5에 도시되어 있다. 이 트리의 리프 노드들의 내부에는 그의 라벨과, 각괄호 사이에 샷의 시작 및 끝 프레임 번호들이 표시되어 있으며, 나머지 노드들의 내부에는 라벨, (괄호 안의) 퓨전 순서 및 2개의 형제 노드들 간의 최소 및 최대 거리가 표시되어 있다.

트리 재구성 서브-단계(132)는 서브-단계(131)에서 얻은 이진 트리를 더 명백히 영상 구조를 반영하는 임의의(arbitrary) 트리로 재구성하기 위해 제공된다. 병합 처리에 의해 생성되었지만 어떠한 관련 정보도 전달하지 않는 노드들은 제거되고, 상기 제거는 노드에 포함된 샷들간의 유사성 정도(거리)의 변화에 기초한 기준에 따라 수행된다.

- 분석된 노드가 루트 노드(또는 여러 개의 이진 트리들이 병합 처리 후에 얻어졌다면 루트 노드들 중 하나)이면, 노드는 보호되어야 하고 최종 트리에 나타난다.

- 분석된 노드가 리프 노드이면(즉, 초기 샷에 대응하면), 노드는 또한 최종 트리에 남게된다.

- 그렇지 않으면, 노드는 다음 조건들(10, 11)이 만족될 때에만 최종 트리에서 유지될 것이다.

|d(min)[analyzed node] - d(min)[parent node]| < T(H) (10)

|d(max)[analyzed node] - d(max)[parent node]| < T(H) (11)

도 6에 도시된 것과 같이, 재구성 서브-단계(132)로부터의 트리는 더 명확하게 비디오 시퀀스의 구조를 나타내고, 계층의 제 2 레벨 노드들(28, 12, 13, 21)은 시퀀스의 4개의 장면들(scenes)을 나타내지만, 제 3 레벨(또는 종종 제 4 레벨)의 노드들은 초기 샷들을 나타낸다.

그러나, 인용된 문서에 알려져 있는 방법들이 구현될 때, 그리고 위의 내용을 상기해 볼 때, 이러한 형태의 방법은 때때로 잡음에 민감하여, 페이딩(fading) 또는 특별한 영향들에 대응하는 것으로서 작은 콘트라스트의 피크들의 검출을 어렵게 만든다.

발명의 개요

따라서, 본 발명의 목적은, 상기 한계가 더 이상 관찰되지 않는, 비디오 시퀀스의 기술(description)을 생성하기 위한 더 강한 방법을 제안하기 위한 것이다.

이를 위해서, 본 발명은 설명의 서두에 정의된 것과 같은 방법과 관련되며, 샷 검출 단계가 상기 평균 변위 프레임 차이 곡선에 적용되고 다음 동작들을 포함하는 부가적인 분할(segmentation) 서브-단계를 더 포함하는 것을 특징으로 한다.

(a) 미리 정의된 값(min)보다 작은 길이의 네가티브 피크들을 제거하는 구조화 요소에 기초하는 제 1 필터링 동작,

(b) 미리 정의된 값 c보다 작은 포지티브 콘트라스트를 갖는 포지티브 피크들을 제거하는 콘트라스트 필터에 기초하는 제 2 필터링 동작,

(c) 마커 추출 동작,

(d) 마커 전달 동작.

도 1은 인용 유럽 특허 출원에 개시된 정의 방법의 블록도.

도 2는 프레임들의 주어진 시퀀스에 대한 mDFD 곡선의 예를 도시하는 도면.

도 3은 동질성의 측정치를 도시하는 히스토그램의 예를 도시하는 도면.

도 4는 상기 설명된 정의 방법의 서브-단계를 도시하는 도면.

도 5는 상기 정의 방법에 제공된 샷 병합 서브-단계의 구현에 의해 생성된 것과 같은 이진 트리를 도시하는 도면.

도 6은 상기 정의 방법의 재구성 서브-단계 후에 만들어진 트리를 도시하는 도면.

도 7은 본 발명에 따른 기술적 해결책이 실시되었을 때의 정의 방법의 블록도.

도 8은 본 발명에 따라 처리된 데이터를 인덱싱하기 위한 방법을 도시하는 도면.

도 9는 상기 인덱싱 방법을 구현하고 화상 검색을 수행할 수 있도록 하는 화상 검색 시스템을 도시하는 도면.

본 발명은 예시적인 방법으로 첨부 도면을 참조로 하여 설명될 것이다.

mDFD 곡선의 최고 피크들을 추출할 수 있도록 하는 분할(segmentation) 서브-단계(112)가 상기에 설명되어 있다. 비록 다수의 샷들이 상기 동작으로 실제로 검출될 수 있지만, 작은 콘트라스트의 피크들을 검출하기에는 어려울 수 있다. 제안된 기술적인 해결책은 형태학적 도구들(morphological tools)에 따른 동질성에 기초한 방법에 의해 상기 동작을 대체하는 것이다. 상기 해결책에 따르면, 정의 방법의 블록도를 도시하는 도 7에 도시된 것과 같이, 본 발명에 따른 기술적 해결책이 구현될 때, 개선된 분할(segmentation) 서브-단계(70)를 구성하는 4개의 연속하는 동작들은 mDFD 곡선에 연속적으로 적용된다. 이 서브-단계(70)는 도 1의 이전 서브-단계(112)를 대체한다.

제 1 동작은 일시적인 필터링에 의해 수행되는 단순화 동작(71)이며, 본 경우에는 길이(min)의 단일 차원의 구조화 요소와의 형태학적인 종결은 검출될 가장 짧은 샷의 기간과 같다. 이 동작에 있어서, (min) 프레임들보다 작은 길이의 네가티브 피크들은 제거된다. 동작(71) 다음에는 포지티브 대조 필터에 의해 수행되는 다른 단순화 동작(72)이 이어지며, 그 효과는 주어진 파라미터 c보다 작은 포지티브 대조를 갖는 포지티브 피크들을 제거하는 것이다.

그 다음에, 마커 추출 동작(73)이 제공된다. 하나의 샷의 커널(kernel)에 대응하는 각 마커는 단일 샷에 속하기 위한 높은 가능성을 갖는 곡선의 위치를 커버해야 한다. 동일한 샷에 속하는 인접 프레임들은 상당히 유사하기 때문에, mDFD의 값은 그 프레임들 주위에서 작을 것이다. 따라서, 마커들을 추출하기 위해서, (이전 동작(72)에서와 같이 파라미터 c를 갖는) 네가티브 콘트라스트 필터가 곡선의 각 관련된 최소치를 검출하기 위해 사용된다. 마지막 동작(74)은 모든 포인트들이 마커에 할당될 때까지 곡선에 마커들을 전달하도록 한다. 이 전달 처리는, 예를 들어, 이전 동작(73)에서 얻은 초기 마커들로서 사용하는 mDFD 곡선에 관한 알려진 분기점 알고리즘(watershed algorithm)을 적용함으로써 수행된다.

도 2의 필터링된 곡선의 예에서, 결과 마커들과 검출된 샷들은 (min)=10, c=10을 사용한다. 프레임들(21150, 21700) 주위에 몇몇 과분할이 나타나더라도, 장면 컷들(cuts)과 디졸브는 정확히 검출된다. 이와 같은 과분할은 이 방법의 다음 단계들(12, 13) 동안 제거되기 때문에 문제가 안된다.

본 발명은 상기 설명된 구현으로 제한되지 않으며, 변형들 또는 더 광범위한 응용들이 본 발명의 범위를 벗어나지 않고 추론될 수도 있다. 예를 들어, 본 발명은 또한 상기 설명된 방법에 따라 처리된 데이터를 인덱싱하기 위한 방법과 관련된다. 도 8에 도시된 이러한 방법은, 각 처리된 시퀀스를 연속하는 샷들로 서브-분할(sub-dvision)하고 얻어진 샷들 각각을 서브-엔티티들(또는 마이크로-세그먼트들)로 분할(splitting)하는 것을 수행하는 구조화 단계(81), 및 최종 계층 구조를 생성하는 클러스터링 단계(82)를 포함한다. 각각 상기 설명된 단계 11, 12와 단계 13과 유사한 이 단계들(81, 82)에는, 각각의 처리된 비디오 시퀀스에 대해 정의된 계층 구조의 각 요소에 라벨을 부가하기 위해 제공되는 부가 인덱싱 단계(83)가 이어진다.

또한, 본 발명은 (순차 비디오 비트스트림들의 형태로 이용가능한) 비디오 시퀀스들을 얻기 위한 카메라(91), 상기 데이터 인덱싱 방법을 수행하기 위한 비디오 인덱싱 디바이스(92)(이 디바이스는 분석, 계층적 분할(hierarchical segmentation), 및 상기 분할(segmentaion)로 인해 발생하는 분류에 기초한 인덱싱에 의해 상기 시퀀스들에서 상이한 레벨들의 내용 정보를 포착한다), 상기 분류로 인해 발생하는 데이터(이 데이터는 종종 메타데이터라고 함)를 저장하는 데이터베이스(93), 데이터베이스로부터 요청된 검색을 수행하기 위한 그래픽 사용자 인터페이스(94), 및 검색된 정보를 디스플레이하기 위한 비디오 모니터(95)를 구비하는 도 9에 도시된 것과 같은 이미지 검색 시스템과 관련된다. 또한, 본 발명은 명백히 본 발명에 따른 방법을 구현할 수 있도록 하는 비디오 인덱싱 디바이스(92)와도 관련된다.

Claims

연속하는 프레임들에 대응하는 비디오 시퀀스의 구조를 자동 추출하는 방법에 있어서,

(1) 한 샷(shot)이 편집 효과들이 없는 연속하는 프레임들의 세트인 연속하는 샷들 사이의 경계들을 검출하고, 평균 변위 프레임 차이 곡선(mean displaced frame difference curve)의 계산 및 상기 곡선의 최고 피크들의 검출에 기초한 유사성 기준을 사용하기 위해 제공되는 샷 검출 단계;

(2) 각 샷을 마이크로-세그먼트들이라 불리는 서브-엔티티들로 분할(splitting)하기 위해 제공되는 분할(partitioning) 단계; 및

(3) 처리된 비디오 시퀀스의 최종 계층 구조를 생성하기 위해 제공되는 클러스터링(clustering) 단계를 포함하며,

상기 검출 단계는 상기 평균 변위 프레임 차이 곡선에 적용되고, 다음의 동작,

(a) 미리 정의된 값(min)보다 작은 길이의 네가티브 피크들을 제거하는 구조화 요소에 기초하는 제 1 필터링 동작;

(b) 미리 정의된 값 c보다 작은 포지티브 콘트라스트(positive contrast)를 갖는 포지티브 피크들을 제거하는 콘트라스트 필터에 기초하는 제 2 필터링 동작;

(c) 마커 추출 동작; 및

(d) 마커 전달 동작을 포함하는 부가적인 분할(segmentation) 서브-단계를 포함하는, 비디오 시퀀스의 구조를 자동 추출하는 방법.
제 1 항에 있어서,

상기 마커 추출 동작은 동일한 미리 정의된 값 c를 사용하는 네가티브 콘트라스트 필터에 의해 구현되는, 비디오 시퀀스의 구조를 자동 추출하는 방법.
제 1 항 또는 제 2 항에 있어서,

상기 마커 전달 동작은 소위 분기점(watershed) 방법을 적용함으로써 수행되는, 비디오 시퀀스의 구조를 자동 추출하는 방법.
삭제
삭제
이미지 검색 시스템에 있어서,

(A) 연속하는 프레임들에 대응하는 비디오 시퀀스 구조의 자동 추출, 및 그에 따라 정의되는 계층 구조의 각 요소의 라벨링 동작을 위해, 상기 비디오 시퀀스에 대응하는 데이터를 인덱싱하는 방법을 수행하는 수단으로서, 상기 수단 자체는 제1항에 따른 자동 추출 방법을 수행하기 위해,

1) 상기 시퀀스를 연속하는 샷들로 서브-분할(sub-dividing)하고 상기 샷들 각각을 마이크로-세그먼트들이라고 하는 서브-엔티티들로 분할(splitting)하기 위해 제공되는 구조화 수단; 및

2) 상기 분할(segmentation)에 기초하여, 그에 따라 획득된, 처리된 비디오 시퀀스의 최종 계층 구조를 생성하기 위해 제공되는 클러스터링 수단을 포함하는, 상기 데이터를 인덱싱하는 방법을 수행하는 수단;

(B) 상기 획득된 계층 구조의 각 요소에 라벨을 부가하기 위해 제공되는 인덱싱 수단;

(C) 상기 라벨들을 저장하는 수단; 및

(D) 상기 저장된 라벨들에 기초하여, 검색되는 상기 이미지의 하나 이상의 특징들을 사용하여 임의의 이미지 검색을 수행하는 수단을 포함하는, 이미지 검색 시스템.