KR20020075956A

KR20020075956A - 장면전환 검출방법

Info

Publication number: KR20020075956A
Application number: KR1020010015628A
Authority: KR
Inventors: 김용성
Original assignee: 주식회사 코난테크놀로지
Priority date: 2001-03-26
Filing date: 2001-03-26
Publication date: 2002-10-09
Also published as: KR100441963B1

Abstract

본 발명은 2단계 검출과정을 적용하여 장면전환을 정확하고 안정적으로 인식하는 장면전환 검출방법에 관한 것으로서, 인접 프레임간의 변화 유무를 판단하여 각각 트랜지션(TRANSITION) 상태와 스테이셔너리(STATIONARY) 상태로 분류하는 제 1 단계와, 상기 분류된 프레임의 장면전환 여부를 재확인하여 장면전환을 확정하는 제 2 단계를 포함하여 이루어지는 것을 특징으로 한다.

Description

장면전환 검출방법{Scene Change Detector Algorithm in Image Sequence}

본 발명은 디지털 영상의 장면전환 검출 방법에 관한 것으로, 특히 2단계 검출과정을 이용한 디지털 영상의 장면전환 검출 및 키 프레임 추출 방법에 관한 것이다.

최근 비디오 색인에 의한 비디오 검색을 비롯한 다양한 멀티미디어 서비스 시스템의 개발이 이루어지고 있다. 일반적으로 디지털 비디오는 데이터량이 매우방대하나 한 장면 내에서는 유사한 이미지가 연속된다는 특성을 갖기 때문에 장면 단위로 비디오를 색인하면 효율적으로 비디오를 검색할 수 있다. 이 때, 장면이 전환되는 시점을 찾고, 그 장면을 대표하는 이미지인 키 프레임을 추출하는 기술은 비디오 색인 및 검색 시스템을 구축하는데 있어 필수적 요소가 된다.

장면전환 검출방법은 다음과 같은 종류의 장면전환을 검출하는 것을 목표로 하고 있다.

① 컷(Cut) : 화면이 급작스럽게 변하는 것

② 페이드(Fade) : 화면이 점차 어두워지거나 밝아지면서 전환되는 것

③ 디졸브(Dissolve) : 두 화면이 겹치면서 전환되는 것

④ 와이프(Wipe) : 이전화면이 닦아져 없어지는 것처럼 다음 화면으로 전환되는 것

컷에 의한 장면 전환은 프레임간의 차이만을 찾아내어 간단한 알고리즘으로도 쉽게 찾아낼 수 있으나, 다른 장면전환은 장면전환이 점진적인 과정을 거쳐 일어나기 때문에 인물이나 물체 또는 카메라의 움직임에 의한 장면 내의 점진적 변화와 혼동되어 정확하게 검출하기가 어렵다.

장면전환 검출방법에는 크게 다음과 같은 두 가지 접근 방법이 있다.

첫 번째는 압축된 비디오 데이터를 완전히 복호화하지 않고 움직임 벡터, DCT(Discrete Cosine Transform) 계수 등 일부 정보만을 추출하여 장면 전환을 검출하는 접근 방법이다. 이러한 접근 방법은 압축된 비디오를 완전히 복호화하지 않고 처리하기 때문에 처리 속도가 상대적으로 빠르다는 장점이 있으나, 다음과 같은단점을 갖는다.

비디오를 일부만 복호화해서 사용하기 때문에 정보 부족으로 정확도가 떨어지며, 장면 전환 검출 방법이 비디오의 압축 방식에 의존적이 되는데, 최근에는 비디오 압축 방식도 매우 다양하기 때문에 압축 방식에 따라 검출 방법이 달라져야 한다. 또한, 이 접근 방법에서 주로 사용되는 정보인 움직임 벡터, 매크로 블록 타입 등은 인코딩 알고리즘에 따라 값이 상당히 달라질 수 있기 때문에 같은 내용의 비디오라도 인코더의 종류와 인코딩 방법에 따라 장면 전환 검출 결과가 달라질 수 있다.

두 번째 접근 방법은 압축된 비디오를 완전히 복호화한 후 이미지 도메인에서 장면전환을 검출하는 접근 방법이다. 이 방법은 전자의 방법에 비해 장면전환 검출 정확도는 높지만 압축된 비디오를 복호화하는데 소요되는 시간만큼 처리 속도가 떨어진다는 단점이 있다. 그러나, 최근 컴퓨터의 성능이 급격히 향상되고 있고, 비디오를 디코딩하는데 하드웨어를 이용할 수 있으며, MMX 3DNow 기술 등을 비롯한 소프트웨어 최적화 기술을 이용하면 디코딩에 소요되는 계산량이 크게 문제되지 않는다는 점에서, 복호화에 소요되는 시간을 절약하는 것보다는 장면전환 검출의 정확도를 높이는 것이 더 중요시되고 있다.

본 발명은 후자의 접근 방법을 따르고 있다.

현재 연구가 진행 중인 후자의 접근 방법에 의한 장면전환 검출방법은 화소값의 차이를 이용하는 방법(Template matching), 히스토그램의 차이를 이용한 방법, 윤곽선(edge)의 변화를 이용한 방법, 블록 매칭을 이용한 방법 등이 있으며 간략히 설명하면 다음과 같다.

화소값의 차이를 이용하는 방법(Template matching)은 시간적으로 서로 인접한 두 프레임 간에 동일한 공간적 위치를 가지는 두 화소값의 차이를 구하여, 그것을 장면전환을 검출하기 위한 척도로 이용하는 것이다. 히스토그램의 차이를 이용한 방법(Histogram comparison)은 한 영상 내에서의 밝기 성분이나, 색깔 성분 등을 히스토그램으로 표현하고, 이 프레임간의 히스토그램 차이를 이용하는 방법이다. 윤곽선(edge)의 변화를 이용한 방법은 영상 내에 있는 물체의 윤곽선을 검출해내고, 이 윤곽선의 변화를 이용하여 장면전환을 검출한다. 장면전환이 일어나지 않으면, 현재의 윤곽선의 위치와 이전 프레임의 윤곽선의 위치가 비슷하지만, 장면전환이 일어나게 되면, 현재의 윤곽선의 위치는 이전 프레임의 윤곽선의 위치와 다르게 된다. 블록 매칭을 이용한 방법은 인접한 두 프레임간에 비슷한 블록을 찾아내는 블록 매칭을 이용하여 장면전환을 검출하는 척도로 사용하여, 먼저 영상을 서로 겹치지 않는 여러 개의 블록으로 나누고, 각 블록에 대하여 이전 프레임에서 가장 비슷한 블록을 찾아낸다. 그리고, 찾아낸 가장 비슷한 블록과의 차이 정도를 0∼1 사이의 값으로 표현한 후, 이 값들을 비선형적인 필터를 거쳐서 프레임간의 차이값을 생성해내고, 그 값을 이용하여 장면전환의 여부를 결정하는 방법이다.

그러나, 상기와 같은 종래 장면전환 검출방법은 다음과 같은 문제점이 있었다.

종래의 장면전환 검출방법은 각 장면의 내용을 인지적으로 이해해서 내용이바뀌는 시점을 찾아내는 것이 아니라, 화소의 컬러나 밝기의 변화 같은 기초적인 이미지 특성(Primitive feature)의 변화를 관찰하여 장면전환을 인식하는 방법이다. 따라서, 인물이나 물체 또는 카메라의 움직임에 의한 장면 내의 점진적 변화와 페이드, 디졸브 또는 와이프와 같은 점진적인 장면의 변화를 구별하지 못하는 단점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로, 본 발명 역시 기초적인 이미지 특성의 변화를 감지하여 장면전환을 인식하지만, 2단계 검출과정을 적용하여 어떠한 형태의 장면전환도 정확하고 안정적으로 인식하는 방법을 제공하는데 그 목적이 있다.

도 1은 시간축에 따라 인접 프레임 간의 이미지 차이를 도시한 것.

도 2는 본 발명에 따른 장면전환 검출방법의 순서도.

도 3은 YCbCr 공간에서 HSV 공간으로의 양자 변환을 설명하기 위한 것.

도 4는 도 2의 제 2 단계의 순서도.

도 5는 IS, VS에 저장된 프레임들을 세그먼트로 분할하는 방법을 설명하기 위한 것.

도 6은 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 판단하는 순서도.

상기 목적을 달성하기 위한 본 발명은 프레임 특성의 변화를 감지하여 장면전환을 검출하는 방법에 있어서, 인접 프레임간의 변화 유무를 판단하여 각각 트랜지션 상태와 스테이셔너리 상태로 분류하는 제 1 단계와, 상기 분류된 프레임의 장면전환 여부를 재확인하여 장면전환을 확정하는 제 2 단계를 포함하여 이루어지는 것을 특징으로 한다.

상기 제 1 단계는 모드(Mode) 및 스택(Stack)을 초기화하는 단계와, 현재 프레임을 디코딩(Decoding)하여 이미지를 IS(Image Stack)에 저장하는 단계와, 현재 프레임의 이미지에서 특징벡터를 추출하여 VS(Vector Stack)에 저장하는 단계와, VS에 저장된 최근 두 프레임의 특징벡터 간의 차이를 DQ(Difference Queue)에 저장하는 단계와, 상기 DQ에 저장된 특징벡터간의 차이가 모드 변환 조건을 충족하는지를 판단하는 단계와, 상기 IS 및 VS가 꽉 찼는지를 확인하는 단계와, 상기 프레임이 마지막 프레임인지를 확인하는 단계를 포함하여 이루어지는 알고리즘으로 구성된다.

상기 제 2 단계는 제 1 단계에서 DQ에 저장된 특징벡터간의 차이가 모드 전환 조건을 충족하는 경우 또는 IS, VS가 꽉 찬 경우 또는 프레임이 마지막 프레임일 경우에 적용되는 알고리즘으로서, 스테이셔너리 모드일 경우 저장된 전체 프레임들을 하나의 세그먼트로 설정하는 단계와, 트랜지션 모드일 경우 저장된 프레임들을 여러 개의 세그먼트로 분할 설정하는 단계와, 상기 각 모드에 따라 처리할 세그먼트가 존재하는지 확인하는 단계와, 상기 처리 가능한 세그먼트가 존재할 경우 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 여부를 판단하는 단계를 포함하여 이루어지는 알고리즘으로 구성된다.

이하, 본 발명에 따른 장면전환 검출 방법을 도면을 참조하여 상세히 설명한다.

도 1은 시간축에 따라 인접 프레임 간의 이미지 차이를 도시한 것이다.

도 1에 도시한 바와 같이, 시간축에 따라 복수개의 프레임을 갖는 장면들이 나열되어 있고, 각 장면의 프레임들은 컬러와 경계선의 세기와 같은 이미지 특성을 기초로 하여 산출한 이미지 특징벡터를 갖으며, 이를 이용하여 계산된 인접 프레임간의 변화가 도시되어 있다.

상기 각 장면의 프레임들은 상기와 같은 이미지 특징벡터의 차이에 의해 인접 프레임 간의 변화가 있는 프레임들과 변화가 없는 프레임들로 분류할 수 있다.도면에 도시된 임계치 T1과 T2(T1<T2)를 기준으로 보면, T2이상의 값을 갖는 프레임들은 급격한 변화가 있는 프레임(㉠)이고, T1보다 크고 T2보다 작은 프레임들은 점진적인 변화를 갖는 프레임(㉡)으로 분류할 수 있다. 또한, 임계치 T1보다 작은 값을 갖는 프레임들은 변화가 없는 프레임(㉢)으로 정의된다

상기 프레임들은 본 발명의 장면전환 검출 방법에 있어서 크게 트랜지션 프레임과 스테이셔너리 프레임으로 나뉘어 진다. 즉, 임계치 T2를 넘거나 또는 도 1의 ㉡과 같이 임계치 T2를 넘지는 않지만 임계치 T1을 넘는 프레임이 연속해서 N개 이상 나타날 경우 그 시작점부터 임계치 T1을 넘지 않는 프레임이 연속해서 N개 이상 연속되는 경우의 그 시작점까지를 트랜지션 프레임으로 분류하고, 그 이후의 프레임은 스테이셔너리 프레임으로 분류한다.

즉, 본 발명의 제 1 단계은 상기와 같이 인접 프레임간의 변화가 없는 프레임과 인접 프레임간의 변화가 있는 프레임으로 분류하는 단계이다.

도 1에 있어서, 임계치 T2를 넘는 부분은 장면이 갑작스럽게 변하는 컷에 해당하며, 임계치 T2를 넘지는 못했지만, T1을 넘는 프레임이 연속해서 N개 이상 연속되는 부분은 페이드(fade), 디졸브(dissolve), 와이프(wipe)와 같은 점진적인 장면 전환에 해당한다. 즉, 장면전환은 한 프레임 사이에 갑작스럽게 일어날 수도 있지만, 여러 프레임에 걸친 점진적인 과정을 통해 일어날 수도 있다. 장면이 전환되는 과정이 완전히 종료된 직후부터 새로운 장면이 시작되는 것으로 본다면, 도 1에 도시한 바와 같이, 변화가 스테이셔너리 상태의 시작점부터 트랜지션 상태의 끝점까지를 묶어 하나의 장면으로 생각할 수 있다.

본 발명의 제 2 단계는 상기 제 1 단계에서 인식한 상태 변화에 따라 장면 전환 여부를 재확인하여 장면 경계를 잘못 인식한 경우나, 독립된 장면으로 나눌 가치가 없다고 판단되는 장면은 이전 장면과 통합해 준다.

예를 들어, 비디오의 내용 중 번개나 플래쉬 등으로 조명이 급격히 변하는 경우, 또는 전송 에러 등으로 화면의 일부가 손상된 경우에는 프레임 간에 급격한 변화가 생기고 장면이 전환된 것으로 인식되지만, 이렇게 나뉘어진 경계 양쪽에는 같은 장면이 나타나게 되므로, 이러한 경우에는 두 장면을 통합해 주어야 한다. 또한, 흰색이나 검은색으로 페이드 아웃(Fade out)되는 장면의 경우, 점진적인 변화가 있는 프레임으로 장면이 분할되지만, 페이드 아웃 된 후의 장면에는 오직 흰색 또는 검은색 장면밖에 나오지 않기 때문에 독립된 장면으로 분류할 가치가 없으므로 이전 장면과 통합시켜 준다. 제 2 단계의 과정에서 이러한 보정 작업을 해 줌으로써 보다 정확하게 장면 전환을 검출할 수 있다.

이상과 같이, 본 발명의 장면전환 검출 방법은 크게 인접 프레임간의 변화 유무를 판단하여 각각 분류하는 제 1 단계와, 상기 분류된 프레임의 장면 전환 여부를 재확인하여 장면전환을 확정짓는 제 2 단계로 구성된다.

이제 본 발명의 구성을 도면을 참조하여 구체적으로 기술한다.

제 1 단계는 모드 및 스택을 초기화하는 단계와, 현재 프레임을 디코딩하여 이미지를 IS에 저장하는 단계와, 현재 프레임의 이미지에서 특징벡터를 추출하여 VS에 저장하는 단계와, VS에 저장된 최근 두 프레임의 특징벡터 간의 차이를 DQ에 저장하는 단계와, 상기 DQ에 저장된 특징벡터간의 차이가 모드 전환 조건을 충족하는지를 판단하는 단계와, 상기 IS, VS가 꽉 찼는지를 확인하는 단계와, 상기 프레임이 마지막 프레임인지를 확인하는 단계를 포함하여 이루어지는 알고리즘으로 이루어져 있다.

도 2는 제 1 단계의 순서도이다.

도 2에 도시한 바와 같이, 초기화 단계(201)에서는 현재 프레임이 스테이셔너리 상태에 있는지, 트랜지션 상태에 있는지를 나타내는 상태변수 모드를 스테이셔너리로 초기화하고 IS, VS, DQ를 초기화한다. 상기 IS은 각각의 프레임의 이미지를 저장하는 스택이고, VS은 프레임의 이미지에서 추출된 특징벡터를 저장하기 위한 스택이다. IS와 VS는 각각 M개의 항목을 저장할 수 있다. 본 발명에 있어서, 상기 M은 약 180 정도로 설정하면 효과적이다. 또한, 상기 DQ는 인접 프레임간의 변화를 저장하기 위한 원형 큐로서 N개의 항목을 저장할 수 있으며, N값은 약 3 정도로 설정하는 것이 적당하다.

상기와 같이 초기화된 상태에서 비디오 디코더(Decoder)는 비디오의 한 프레임을 디코딩하여 IS에 저장한다(202). 대부분의 비디오는 YCbCr 포맷으로 압축, 저장되어 있으므로 IS에는 YCbCr 포맷으로 이미지가 저장된다. 이어, 상기 IS에 저장된 현재 프레임에서 특징벡터를 추출하여 VS에 저장한다(203).

상기 특징벡터는 경계선 히스토그램(Edge histogram)과 컬러 히스토그램을 사용한다. 경계선 히스토그램과 컬러 히스토그램은 상호 보완적인 이미지 특징으로, 경계선 히스토그램은 밝기(Y) 성분의 변화를 주로 반영하고, 컬러 히스토그램은 색상(CbCr) 성분의 변화를 주로 나타낸다.

경계선 히스토그램은 Y 성분 이미지를 가로로 W개 세로로 H개의 겹치지 않는 블록으로 나누고, 각 블록에서 4방향 (가로, 세로, 45°,135°방향)의 경계선 성분의 세기를 구한다. 따라서, 경계선 히스토그램은 W x H x 4 개의 항목을 갖게 된다. 경계선 히스토그램을 구할 때는 전술한 4방향으로 인접 픽셀 간의 절대차를 누적하면 되며, 이 계산은 MMX 기술과 같은 SIMD(Single Instruction Multiple Data) 구조를 이용하면 고속으로 계산할 수 있다.

한편, 컬러 히스토그램은 HSV(Hue Saturation Value) 공간 상에서 수행한다. YCbCr 컬러 모델은 비디오 데이터를 압축하는 데는 매우 효과적이나, 사람의 인지적 특성과는 거리가 먼 컬러 모델이므로, YCbCr 공간 상에서 표현된 각 프레임의 픽셀 값을 HSV 공간으로 매핑(Mapping)한 후 양자화하여 히스토그램을 구한다.

YCbCr 공간에서 HSV 공간으로의 변환은 다음 수식에 의해 수행한다.

[수학식 1] V = Y, 0≤V≤255

[수학식 2] S = √{(Cr-128)²+ (Cb-128)²}, 0≤S≤128

[수학식 3] H = tan^-1{(Cr-128)/(Cb-128) x (180/π)}-108 , 0≤H≤360

양자화는 도 3과 같은 방법으로 수행한다. 즉, 채도(Saturation)가 5보다 작거나 같은 픽셀은 그레이 스케일(Gray scale)로 간주하여 색조(Hue)는 무시하고 Intensity를 64레벨 단위로 4단계로 나누어 양자화하고, 채도(Saturation)가 5보다 크고 30보다 작거나 같은 컬러는 색조(Hue)에 대해 60도 단위로 6단계, Intensity에 대해 128 레벨 단위로 2단계로 나누어 양자화한다. 채도(Saturation)가 30보다큰 컬러는 Intensity는 무시하고 색조(Hue)에 대해서만 60도 단위로 6단계로 나누어 양자화한다. 채도(Saturation)가 30보다 큰 부분을 30보다 작은 부분에 비해 성기게 양자화하는 이유는 일반적인 비디오 영상에서 채도(Saturation)가 큰 값이 나오는 빈도가 상대적으로 작다는 확률분포를 반영하기 위한 것이다. 이렇게 하면 총 22개의 항목을 갖는 히스토그램이 만들어지게 된다.

이상과 같이 특징벡터가 추출되면 이를 VS에 저장하고(203), 이전 프레임에서 추출되어 VS에 저장되어 있던 특징벡터와 현재 프레임에서 추출된 특징벡터와의 차이를 이용하여 프레임간의 차이를 계산하고 그 결과를 원형 큐 DQ에 저장한다. 특징벡터간의 차이는 다음 수식에 의해 계산된다.

[수학식 4] D = W_eD_e+ W_cD_c

여기서 D_e와 D_c는 각각 경계선 히스토그램과 컬러 히스토그램을 이용한 특징벡터의 차이값이고, W_e와 W_c는 각각 가중치를 나타내는 상수이다.

D_e와 D_c는 각각 현재 프레임과 이전 프레임의 히스토그램 차이를 누적하여 계산한다.

[수학식 5] D_e= ∑∥EH_n[i] - EH_n-1[i]∥

[수학식 6] D_c= ∑∥CH_n[i] - CH_n-1[i]∥

여기서 EH[i], CH[i]는 각각 경계선 히스토그램과 컬러 히스토그램의 I번째 항목을 나타내며 아래 첨자 n, n-1은 각각 현재 프레임과 그 전 프레임을 나타내는인덱스이다.

인접한 두 프레임 간의 변화가 계산되어 원형 큐 DQ에 저장되면(204), 이를 이용하여 상태변수 모드의 값을 전환할 것인지 그냥 둘 것인지 판단한다(205). 이미 언급한 바와 같이 모드는 현재 프레임이 스테이셔너리 상태에 있는지, 트랜지션 상태에 있는지를 나타내는 상태변수이다.

모드 전환 조건은 다음과 같다.

현재 모드가 스테이셔너리 모드인 경우에는 DQ에 저장된 가장 최근 값이 임계치 T2를 넘거나 최근 N개의 값이 T1을 넘으면 모드를 트랜지션 모드로 전환해야 한다.

반면, 현재 모드가 트랜지션 모드인 경우에는 DQ에 저장된 최근 N개의 항목의 값이 모두 임계치 T1보다 작으면 모드를 스테이셔너리 모드로 전환해야 한다.

모드가 전환되는 순간마다 제 2 단계(206)의 확인 작업을 거친다. 상기 제 2 단계의 처리과정은 뒤에 다시 자세히 설명하기로 한다.

제 2 단계(207)를 거치고 나면 IS와 VS를 비우고 상태변수 모드의 값을 전환한다. 이때, 스테이셔너리 상태에서 트랜지션 상태로 전환되는 경우에는 IS와 VS에 저장된 모든 값을 삭제하고 새로 시작하면 되지만, 트랜지션 상태에서 스테이셔너리 상태로 전환되는 경우에는 스택 IS와 VS에서 최근 N개 항목을 삭제하지 말고 남겨두어야 한다는 점에 주의하여야 한다.

그 이유는 트랜지션 상태에서 스테이셔너리 상태로 전환되기 위해서는 최근 N개의 프레임이 인접 프레임 간에 변화가 없는 프레임이어야 하므로, 실제로 스테이셔너리 상태로 전환된 후 N 프레임이 지난 후에야 모드가 전환된 사실을 알 수 있기 때문이다. 따라서, 다음 스테이셔너리 상태의 작업은 N 프레임을 거슬러 올라가서 시작해야 한다. 그런데, 스택에서 최근 N개의 항목을 삭제하지 않고 남겨둠으로써 이와 같은 효과를 낼 수 있다.

모드 전환이 일어나지 않은 경우(205)는 현재 모드를 유지하면서 계속 진행하게 되는데, 매 프레임마다 이미지와 특징벡터를 스택에 저장하므로, 스택이 꽉 찼는지 확인한다(208). IS와 VS는 모두 M개의 한정된 항목을 저장할 수 있는 스택이며, 이로써 한번에 처리할 수 있는 장면의 최대 길이가 제한된다. 한 장면이 모드 전환 없이 이보다 길게 진행되면 스택이 꽉 차게 되고, 제 2 단계로 넘어가게 된다.

일반적으로 어떤 장면에서 인접 프레임간의 변화가 거의 없는 경우에도 카메라가 아주 천천히 움직이거나 화면 내의 인물이나 물체가 조금씩 움직여 오랜 시간 누적되면 상당한 변화를 만들게 되므로, 일정 시간 간격으로 장면을 분할할 것인지 확인해 주어야 한다. 스택 IS와 VS의 크기는 바로 이 시간 간격을 의미하며, 이 시간 간격을 넘어 스택이 꽉 차면, 이 시점에서 장면을 분할해주는 것이 좋을지 확인하는 과정을 거치는 것이다. 이때도 역시 제 2 단계의 작업이 끝나면 다음 장면 처리를 위해 스택을 비운다(209). 이 경우에는 모드에 관계없이 스택을 완전히 비우면 된다.

이러한 과정이 모두 끝나면 현재 프레임이 마지막 프레임인지 확인하고(210), 마지막 프레임이 아니면 다음 프레임을 디코딩하여 처리하고(211),마지막 프레임인 경우에는 마지막 장면을 처리한다. 마지막 장면 처리 방법은 역시 제 2 단계(206)의 과정을 밟는 것으로, 모드의 전환이 없더라도 비디오의 끝부분에 남은 일련의 프레임들을 하나의 독립된 장면으로 처리할 것인지를 확인한다. 마지막 프레임을 처리한 후에는 모든 작업을 종료한다(212).

도 4는 제 2 단계의 순서도이다.

상기 제 2 단계는 제 1 단계에서 DQ에 저장된 특징벡터간의 차이가 모드 전환 조건을 충족하는 경우 또는 IS, VS가 꽉 찬 경우 또는 프레임이 마지막 프레임일 경우에 적용되는 알고리즘으로서, 스테이셔너리 모드일 경우 저장된 전체 프레임들을 하나의 세그먼트로 설정하는 단계와, 트랜지션 모드일 경우 저장된 프레임들을 여러 개의 세그먼트로 분할 설정하는 단계와, 상기 각 모드에 따라 처리할 세그먼트가 존재하는지 확인하는 단계와, 상기 세그먼트가 존재할 경우 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 여부를 판단하는 단계를 포함하여 이루어지는 알고리즘으로 구성된다.

도 4에 도시한 바와 같이, 상태변수 모드(401)에 따라 스테이셔너리 상태인 경우에는 스택 IS, VS에 저장된 모든 프레임을 하나의 세그먼트로 간주하여 처리하고(402), 트랜지션 상태인 경우에는 스택 IS, VS에 저장된 프레임들을 세그먼트 단위로 나누어 처리한다(403).

상기 세그먼트는 다음과 같이 나눈다.

도 5에 도시한 바와 같이, 도 5의 ⓐ와 같은 트랜지션 상태의 프레임들을 스테이셔너리 상태의 프레임들과 함께 하나의 장면으로 묶어주면 되지만, 도 5의 ⓑ,ⓒ와 같은 임계치 T2를 넘는 급격한 변화 사이에 끼어있는 프레임들은 별도의 장면으로 분리해 주는 것이 바람직하다. 따라서 트랜지션 상태의 프레임들은 임계치 T2를 넘는 프레임을 기준으로 세그먼트 단위로 분리해 생각한다. 즉, 트랜지션 상태의 프레임들 중에 임계치 T2를 넘는 프레임이 K개 있으며, K-1개의 세그먼트가 존재하면, 각 세그먼트에 대해 그 세그먼트가 독립적인 장면으로 분리될 필요가 있는지 확인한다(405).

도 6은 이 작업의 순서도이다.

상기 세그먼트가 존재할 경우 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 여부를 판단하는 단계는, 키 프레임을 추출하는 단계와, 상기 키 프레임이 이미 저장된 프레임과 일치하는지 확인하는 단계와, 상기 일치하지 않는 경우 상기 키 프레임이 정보가 있는지 여부를 확인하는 단계, 상기 키 프레임이 정보가 있을 경우 키 프레임 리스트에 저장하는 단계와, 상기 저장된 키 프레임 리스트의 정보를 기준으로 장면전환 정보를 출력하는 단계를 포함하여 이루어지는 알고리즘으로 구성되는 것을 특징으로 한다.

도 6에 도시한 바와 같이, 이 작업을 수행하기 위해서 키 프레임 리스트를 이용한다. 키 프레임 리스트는 독립된 장면으로 인식된 장면에 대해, 그 장면을 대표하는 프레임의 이미지와 그 이미지에서 추출된 특징벡터를 저장하는 메모리 공간이다. 먼저 현재 세그먼트의 가운데 프레임을 키 프레임으로 선택한다(601). 키 프레임 리스트에 저장된 항목이 있으면 최근 L 개의 키 프레임과 현재 세그먼트에서 추출된 키 프레임을 비교하여 현재 세그먼트가 최근에 검출된 장면과 유사한 것인지 확인한다(602). 최근 L개의 키 프레임과 유사성을 검토하는 데는 다음과 같은 두 가지 이유가 있다.

첫째, 갑작스러운 조명의 변화나 빠르게 움직이는 물체가 화면을 지나가는 등의 경우에는 일시적으로 프레임간의 차이가 커져 내용상으로는 한 장면이지만, 장면이 분할되는 경우가 있는데, 이전에 검출된 장면과의 유사성을 검토함으로써 이러한 경우 장면이 잘못 분할되는 것을 보정할 수 있다. 둘째, 2∼3 명의 등장 인물을 카메라가 번갈아 비추는 경우, 2∼3 장면 걸러 한번씩 같은 장면이 반복되는데, 인접한 2∼3 장면과의 유사성을 검토함으로써 이러한 불필요한 반복 장면 분할을 보정할 수 있다.

최근 L개의 키 프레임과의 유사성을 판별하기 위해서는 각 키 프레임에서 추출된 특징벡터를 이용하여 이미지의 유사성을 판별하는 방법과 각 키 프레임 이미지간의 상관도(Correlation coefficient)를 구해 특정 임계치를 넘는지 알아보는 방법을 병행한다.

현재 세그먼트의 키 프레임이 최근에 검출된 L개의 키 프레임과 유사성이 없는 것이라면 독립된 장면으로 분리할 만큼 충분한 정보를 가지고 있는 장면인지 확인한다(603). 이를 위해 현재 키 프레임의 분산(Variance)을 계산하여 특정 임계치를 넘는지 알아본다. 현재 키 프레임의 분산이 특정 임계치를 넘지 못하는 경우는 페이드 아웃 등의 화면 전환 효과로 화면이 까맣게 되거나 하얗게 된 상태이거나 독립된 장면으로 분할해도 별 정보를 얻을 수 없는 무의미한 경우이므로 장면을 분할하지 않도록 한다.

이러한 검증 과정을 모두 통과한 세그먼트는 독립된 장면으로 인식될 자격을 갖춘 것이므로, 키 프레임 리스트에 현재 세그먼트에서 추출된 키 프레임과 특정벡터를 저장하고(604), 그 세그먼트의 시작점 등 장면 전환 정보를 출력한다(605).

이상 상술한 바와 같이, 본 발명의 장면전환 검출 방법은 다음과 같은 효과가 있다.

본 발명에 의하면 어떠한 형태의 장면전환도 정확하게 검출할 수 있으며, 검출 속도도 매우 빨라 장면 전환을 인식 과정을 수행하지 않고 비디오를 플레이 하는 속도의 약 4%에 해당하는 속도로 장면 전환 인식과정을 수행할 수 있다.

Claims

영상 프레임 특성의 변화를 감지하여 장면전환을 검출하는 방법에 있어서, 인접 프레임간의 변화 유무를 판단하여 각각 트랜지션 상태와 스테이셔너리 상태로 분류하는 제 1 단계와, 상기 분류된 프레임의 장면전환 여부를 재확인하여 장면전환을 확정하는 제 2 단계를 포함하여 이루어지는 것을 특징으로 하는 장면전환 검출방법.
제 1 항에 있어서, 제 1 단계는

모드 및 스택을 초기화하는 단계;

현재 프레임을 디코딩하여 이미지를 IS에 저장하는 단계;

현재 프레임의 이미지에서 특징벡터를 추출하여 VS에 저장하는 단계;

상기 VS에 저장된 최근 두 프레임의 특징벡터 간의 차이를 DQ에 저장하는 단계;

상기 DQ에 저장된 특징벡터간의 차이가 모드를 변환시키는데 충족한지를 판단하는 단계;

상기 IS, VS가 꽉 찼는지를 확인하는 단계;

상기 프레임이 마지막 프레임인지를 확인하는 단계를 포함하여 이루어지는 알고리즘으로 구성되는 것을 특징으로 하는 장면전환 검출방법.
제 1 항에 있어서, 상기 제 2 단계는

스테이셔너리 모드일 경우 전체 프레임들을 하나의 세그먼트로 설정하는 단계;

트랜지션 모드일 경우 프레임들을 여러 개의 세그먼트로 분할 설정하는 단계;

상기 각 모드별 세그먼트의 존재유무를 확인하는 단계;

상기 세그먼트가 존재할 경우 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 여부를 판단하는 단계를 포함하여 이루어지는 알고리즘으로 구성되는 것을 특징으로 하는 장면전환 검출방법.
제 2 항에 있어서, 상기 DQ에 저장된 특징벡터간의 차이가 모드 전환 조건을 충족하는 경우 또는 상기 IS, VS가 꽉 찬 경우 또는 상기 프레임이 마지막 프레임인 경우에는 상기 제 1 단계에서 제 2 단계로 넘어가는 것을 특징으로 하는 장면전환 검출방법.
제 4 항에 있어서, 상기 처리 가능한 세그먼트가 존재할 경우 각 세그먼트가 독립된 장면으로 분리될 필요가 있는지 여부를 판단하는 단계는,

각 세그먼트에서 키 프레임을 추출하는 단계와;

상기 키 프레임이 키 프레임 리스트에 저장된 프레임들과 일치하는지 확인하는 단계와;

상기 일치하지 않는 경우 상기 키 프레임이 장면전환에 필요한 독립적 정보가 있는지 여부를 확인하는 단계;

상기 키 프레임이 정보가 있을 경우 키 프레임 리스트에 저장하는 단계와;

상기 저장된 키 프레임 리스트의 정보를 기준으로 장면전환 정보를 출력하는 단계를 포함하여 이루어지는 알고리즘으로 구성되는 것을 특징으로 하는 장면전환 검출방법.
제 4 항에 있어서, 상기 DQ에 저장된 특징벡터간의 차이가 모드를 변환시키는데 충족하여 제 2 단계의 처리할 세그먼트가 존재하는지 여부를 확인하는 단계를 거친 경우에, 세그먼트가 존재하지 않는다면 IS, VS를 비우고 모드를 전환하는 것을 특징으로 하는 장면전환 검출방법.
제 6 항에 있어서, 트랜지션 모드에서 스테이셔너리 모드로 전환되는 경우에는, 최근에 상기 IS, VS에 저장된 소정 개수의 항목을 삭제하지 않는 것을 특징으로 하는 것을 장면전환 검출방법.
제 4 항에 있어서, 상기 IS, VS가 꽉 차서 제 2 단계의 처리할 세그먼트가 존재하는지 여부를 확인하는 단계를 거친 경우에, 세그먼트가 존재하지 않는다면 IS, VS를 비우는 것을 특징으로 하는 장면전환 검출방법.
제 4 항에 있어서, 처리할 프레임이 마지막 프레임이어서 제 2 단계의 처리할 세그먼트가 존재하는지 여부를 확인하는 단계를 거친 경우에, 세그먼트가 존재하지 않는다면 본 발명의 장면전환 검출방법의 알고리즘이 종료하는 것을 특징으로 하는 장면전환 검출방법.
제 1 항에 있어서, 시간축에 따라 인접 프레임간의 차이를 임계치 T1, T2(T1<T2)를 적용하여 분류하는 것을 특징으로 하는 장면전환 검출방법.
제 10 항에 있어서, 인접 프레임 간의 차이가 임계치 T2를 넘거나 또는 임계치 T2를 넘지는 않지만 임계치 T1을 넘는 프레임이 연속해서 소정 개수 이상 나타날 경우 그 시작점부터 임계치 T1을 넘지 않는 프레임이 연속해서 소정 개수 이상 연속되는 경우의 그 시작점까지를 트랜지션 프레임으로 분류하고, 그 이후의 프레임은 스테이셔너리 프레임으로 분류하는 것을 특징으로 하는 장면전환 검출방법.
제 2 항에 있어서, 상기 IS와 VS은 소정개수의 항목을 저장하는 것을 특징으로 하는 장면전환 검출방법.
제 12 항에 있어서, 상기 소정 개수는 약 180 인 것을 특징으로 하는 장면전환 검출방법.
제 2 항에 있어서, 상기 DQ는 소정 개수의 항목을 저장하는 것을 특징으로 하는 장면전환 검출방법.
제 14 항에 있어서, 상기 소정 개수는 약 3 인 것을 특징으로 하는 장면전환 검출방법.