WO2010095796A1

WO2010095796A1 - 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법

Info

Publication number: WO2010095796A1
Application number: PCT/KR2009/005409
Authority: WO
Inventors: 김보경; 장재형; 김재광; 이지형; 정제희
Original assignee: 성균관대학교산학협력단
Priority date: 2009-02-19
Filing date: 2009-09-23
Publication date: 2010-08-26
Also published as: KR101068288B1; KR20100094803A

Abstract

본 발명에 따른 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법은, 복제 동영상 검출을 위해 사용될 세그먼트를 추출하는 세그먼트 추출 단계와; 입력 동영상의 복제를 검출하기 위해서 입력 동영상에서 추출한 세그먼트와 원본 동영상에서 추출한 세그먼트들을 비교하여 입력 동영상에 포함된 세그먼트와 유사한 원본 동영상에 포함된 세그먼트를 찾는 세그먼트 비교 단계 및; 입력 동영상의 세그먼트 비교결과를 통해 어떤 영상으로부터 복제되었는가를 결정하는 동영상 검출단계를 갖추어 이루어진다.

Description

세그먼트 특징을 이용한 내용 기반 동영상 검출 방법

본 발명은 복제 동영상을 검출하기 위한 방법에 관한 것으로, 특히 유사한 특징 값을 갖는 프레임을 병합하여 만든 세그먼트를 추출하고, 세그먼트의 정보를 이용해서 동영상을 세그먼트 단위로 비교해서 복제 동영상을 검출하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법에 관한 것이다.

인터넷 환경이 빠르게 발달함에 따라 지식을 전달하는 수단이 문자, 이미지에서 동영상으로 빠르게 변화하고 있다. 이 과정에서 동영상 미디어의 불법 복제에 대한 저작권 보호의 필요성도 커지고 있다.

동영상의 불법 복제에 대한 저작권 보호를 위한 방법으로 내용 기반 복사 검출(Content-based copy detection) 방법이 있다. 이러한 내용 기반 복사 검출 방법은 동영상으로부터 추출 가능한 특징을 이용하여 복제 동영상을 검출하는 것으로, 이미 배포된 동영상에 대해서도 특징의 추출이 가능한 장점이 있다.

동영상은 다른 미디어에 비해서 용량이 크기 때문에 동영상 검출을 위해서는 동영상을 효율적으로 식별할 수 있는 특징을 추출하는 것이 중요하다. 그러나, 기존의 내용 기반 복사 검출 방법들은 모든 프레임의 특징을 이용하기 때문에 불필요한 데이터와 연산 비용이 요구된다. 즉, 기존의 복제 동영상 검출 연구는 모든 프레임을 비교하였기 때문에 많은 처리 시간을 필요로 한다.

이를 구체적으로 설명하면, 상기한 내용 기반 동영상 복사 검출(Content-based video copy detection)은 비교를 위한 입력 동영상과 복제 여부를 판단하기 위해서 사전에 수집한 원본 동영상간의 불법 복제 여부를 판단하는 연구이다. 이러한 연구들은 동영상의 불법 복제 여부 판단을 위해서 두 동영상에서 특징 값들을 추출하고 추출된 특징 값들의 비교를 통해서 동영상의 불법 복제 여부를 판단한다.

참고문헌 [1]에 개시된 바와 같은 내용 기반 동영상 복사 검출 기법은, 특징을 추출 범위에 따라 크게 두 가지로 구분하고, 각각에 해당하는 방법들의 성능을 비교 하였다. 로컬 디스크립터(Local descriptor) 방법은 동영상 프레임의 부분적인 영역의 특징과 연속된 프레임의 부분적인 영역의 특징을 추출하여 이용하는 방식인데 반해, 그로벌 디스크립터(Global descriptor) 방법은 프레임에 포함된 전체 영상 정보를 특징 값으로 이용하는 방식이다.

로컬 디스크립터(Local descriptor) 방식은 관심점(Harris interest point detector)과 주변 지역에 대한 디퍼런셜 디스크립션(Differential description)을 기반으로 동영상의 복제 여부를 판단하였다.

참고문헌 [2]에서는 관심점의 주변 지역 특징을 그레이 레벨 2D 신호(Gray level 2D signal)의 2차 미분으로 표현하였고, 참고문헌 [3]에 개시된 ViCopT 방법은 지역적 특징을 통해 Trajectory를 만들고 모션(Motion)이나 배경(Background) 라벨을 할당하였다.

또한, 참고문헌 [4]에 개시된 STIP 방법은 시공간적인 이벤트를 포착하기 위해 시간적, 공간적 변화를 포착할 수 있는 특징 점을 사용하였다. 그러나, 관심점(Harris interest point detector)을 사용하는 방법은 콘트라스트(Contrast) 감소와 같은 편집 효과가 적용된 영상에 대해 관심점을 검출하지 못해 그 성능이 저하될 수 있다.

그로벌 디스크립터(Global descriptor) 방법들 중에서는 연속된 프레임에 특정 개수로 나눈 블록의 상대적 움직임을 양자화하여 각 움직임을 시간영역에 대하여 통계적으로 표현함으로써 클립을 나타내는 모션 히스토그램 특징을 제안하였다(참고 문헌 [5] 참조).

참고문헌 [6]에서는 영상을 N개의 윈도우로 분할하여 각 윈도우별로 평균 명암도 값을 구하고, 각 윈도우의 명암도 평균값을 오름차순으로 정리하여 프레임 t에 대해 이산적인 등위(rank)로 표시해서, 화소단위의 변화에 덜 민감하고 명암 값의 상대적인 순서에 의미를 둔 오디널 측정(Ordinal measurement) 방법을 제안하였다.

또한, 참고문헌 [7]에서는 N개의 윈도우로 분할한 영상에 대해 특정 시간 동안 각 프레임별로 같은 위치를 가진 윈도우들의 등위로 표시하는 템포럴 오디널 측정(Temporal Ordinal measurement) 방법을 제안하였다.

또한, 참고문헌 [8]에서는 동영상 복사 검출 방법으로 사용되는 모션매칭(참고문헌 [5] 참조)과, 오디널 측정(Ordinal measurement) 방법(참고문헌 [6] 참조) 및, 색상 히스토그램 인터섹션 방법의 성능을 비교하여, 오디널 측정(Ordinal measurement) 방법의 검색 효율이 우수함을 보여주었다.

그로벌 디스크립터(Global Descriptor) 방식의 내용 기반 복사 검출 방법은 프레임 단위의 비교를 통해 동영상 검색을 수행하기 때문에, 특징 값이 유사한 인접한 프레임을 모두 비교하는 불필요한 연산이 필요하다.

참고문헌

[1] J. Law-To, L. Chen, A. Joly, I. Laptev, O. Buisson, V. Gouet-Brunet, N. Boujemaa, and F. Stentiford, "Video copy detection: a comparative study," In ACM International Conference on Image and Video Retrieval, Amsterdam, The Netherlands, July 2007.

[2] A. Joly, O. Buisson, and C. Frelicot. Content-based copy detection using distortion-based probabilistic similarity search. ieee Transactions on Multimedia, 2007.

[3] J. Law-To, O. Buisson, V. Gouet-Brunet, and N. Boujemaa, "Robust voting algorithm based on labels of behavior for video copy detection," In ACM Multimedia, MM' 06, 2006.

[4] I. Laptev and T. Lindeberg. Space-time interest points. In International Conference on Computer Vision, 2003.

[5] D.N. Bhat, S.K.Nayar, "Ordinal measures for image correspondence," In IEEE Trans. on PAMI, Vol. 20, No. 4, pp. 415-423, 1998

[6] L. Chen and F. W. M. Stentiford, "Video sequence matching based on temporal ordinal measurement," Technical report no. 1, UCL Adastral, 2006.

[7] 현기호(Ki-Ho Hyun), 이재철(Jae-Cheol Lee), "모션의 방향성 히스토그램을 이용한 내용 기반 비디오 복사 검출," 한국정보과학회논문지 : 소프트웨어 및 응용 제30권 제5ㆍ6호, pp. 497 - 502, Jun., 2003.

[8] A. Hampapur, K. Hyun, and R. Bolle., "Comparison of Sequence Matching Techniques for Video Copy Detection," In SPIE. Storage and Retrieval for Media Databases 2002, vol. 4676, pp. 194-201, San Jose, CA, USA, Jan. 2002.

[9] M. J. Swain and D. H. Ballard, Color indexing, International Journal of Computer Vision, vol.7, no.1, pp.11-32, Nov. 1991.

본 발명은 상기한 점을 감안하여 발명된 것으로, 영상에 포함되는 프레임을 다수의 윈도우로 분할하고, 각 윈도우 마다 특징 값을 추출하며, 유사한 특징 값을 갖는 프레임을 하나의 세그먼트로 통합한 다음, 세그먼트 단위의 검색을 통해 복제 동영상을 검출하도록 된 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법을 제공함에 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명에 따른 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법은,

복제 동영상 검출을 위해 사용될 세그먼트를 추출하는 세그먼트 추출 단계와;

입력 동영상의 복제를 검출하기 위해서 입력 동영상에서 추출한 세그먼트와 원본 동영상에서 추출한 세그먼트들을 비교하여 입력 동영상에 포함된 세그먼트와 유사한 원본 동영상에 포함된 세그먼트를 찾는 세그먼트 비교 단계 및;

입력 동영상의 세그먼트 비교결과를 통해 어떤 영상으로부터 복제되었는가를 결정하는 동영상 검출단계를 갖추어 이루어진다.

본 발명에 따르면, 동영상을 세그먼트 단위로 비교함으로써 기존의 프레임 기반의 방법과 동등한 검출 정확도를 나타내면서도 검색 시간이 단축될 수 있게 된다.

도 1은 본 발명에 따른 동영상 검출 방법의 개략적인 구성도,

도 2는 본 발명에 따른 세그먼트 추출 과정을 나타낸 도면,

도 3은 본 발명에 따른 세그먼트 특징값의 추출 과정을 설명하기 위한 도면이다.

이하, 예시도면을 참조하면서 본 발명에 따른 실시예를 상세히 설명한다.

도 1은 본 발명에 따른 동영상 검출 방법의 개략적인 구성도를 나타낸 것으로, 본 발명은 동영상에 포함된 연속된 다수의 유사한 프레임을 세그먼트들로 결합하고, 입력 동영상과 원본 동영상들의 세그먼트들이 가지고 있는 특징을 비교하여 동영상의 복제 여부를 판단하는 방법이다.

도 1에 도시된 바와 같이, 먼저 동영상 검출을 위한 전처리 단계에서는, 원본 동영상(Reference video set)에서 대표 프레임 추출과정과 세그먼트 특징값 추출 과정을 통해 세그먼트를 추출하고, 세그먼트 데이터베이스를 구성한다. 이어, 검색단계에서는, 입력 동영상(Query video clip)의 복제 여부를 검출하기 위해, 입력 동영상에서도 상기 전처리 단계와 마찬가지로 입략 동영상에서 대표 프레임 추출과정과 세그먼트 특징값 추출 과정을 통해 세그먼트를 추출하고, 탐색을 통해 입력 동영상에서 추출한 세그먼트와 원본 동영상에서 추출한 동영상에서 추출한 세그먼트를 비교하며, 세그먼트 비교를 위해 생성한 값들을 결과 세트부에 등록한 다음, 차이값이나 유사도를 비교한 모든 세그먼트의 결과로 원본 동영상을 검출한다.

이하, 세그먼트 단위로 동영상을 검출하는 방법에 대해 설명한다.

세그먼트 단위로 동영상을 검출하기 위한 과정은 세그먼트 추출 단계, 세그먼트 비교 단계, 동영상 검출단계로 이루어진다.

1. 세그먼트 추출 단계

본 세그먼트 추출 단계는 복제 동영상 검출을 위해 사용될 세그먼트를 추출하는 단계로서, 세부적인 세그먼트 추출 단계는 세그먼트 추출 과정을 나타낸 도 2에 도시된 바와 같이 두 단계로 구성된다.

본 발명에 있어서, 세그먼트는 동영상을 비교하기 위한 단위로서, 이러한 세그먼트는 프레임의 명암도 정보를 이용해서 결정되는 세그먼트의 시작 프레임인 대표 프레임과, 유사한 모션 정보를 포함하는 그 외의 프레임들로 구성된다. 따라서, 본 세그먼트 추출 단계는 대표 프레임을 추출하는 대표 프레임 추출 단계와, 모션 정보를 추출하여 세그먼트를 생성하는 세그먼트 특징값 추출 단계로 이루어진다.

1.1 대표 프레임 추출 단계

먼저, 대표 프레임 추출 단계에 대해 설명한다.

세그먼트는 유사한 프레임의 집합으로 구성된다. 따라서, 세그먼트 시작 프레임과 이전 프레임의 명암도 특징 값은 일정 이상의 차이를 갖는다. 본 대표 프레임 추출 단계에서는 프레임에 포함된 픽셀들의 명암도 정보를 이용하여 대표 프레임을 추출한다. 그러나, 하나의 프레임을 하나의 특징 값으로 표현하는 것은 프레임의 고유한 특징 값으로 사용하기는 어렵다. 따라서, 본 대표 프레임 추출 단계에서는 프레임을 특정 크기의 영역으로 분할하고, 각 영역에 포함된 픽셀들의 명암도의 평균값의 차이를 이용해서 대표 프레임을 결정한다.

먼저, 동영상의 프레임을 N_Frame = N_x × N_y 개의 윈도우로 분할한다. 이와 같이 분할된 윈도우에 포함된 픽셀의 명암도 정보를 이용해서 각 분할된 윈도우의 평균 명암도를 산출한다. 윈도우 i의 평균 명암도 L_i는 식 (1)과 같이 계산된다.

---- (1)

여기서, W 및 H는 윈도우의 너비 및 높이이고, x, y는 윈도우 i 내부의 픽셀 좌표를 나타낸다. 그리고, I(x, y) 는 x, y의 좌표에 해당하는 픽셀의 명암도 값이다.

모든 프레임들은 상기 식 (1)에 의해서 구해진 각 분할된 윈도우의 내부의 명암도 값을 프레임의 명암도 특징 값으로 갖는다. 따라서, 이전 프레임과 현재 프레임에서 동일한 위치에 존재하는 각 윈도우의 평균 명암도 값의 차이의 총 합을 대표 프레임 결정에 사용한다. 각 윈도우의 평균 명암도 값의 차이의 총합이 실험적으로 얻어진 값 보다 클 경우에는 현재 프레임을 대표 프레임으로 선정한다. 대표 프레임이 선정되면 바로 이전의 대표 프레임에서 현재 대표 프레임까지가 세그먼트가 된다.

일반적으로 복제한 동영상과 원본 동영상의 세그먼트는 동일하게 구성된다. 그러나, 복제한 동영상이 인위적인 편집에 의해서 시작되는 대표 프레임이 다르게 선정된다면 연속적으로 세그먼트의 대표 프레임이 다르게 선택된다. 따라서, 본 발명에서는 동영상에서 1초에 해당하는 만큼의 프레임 분량으로 분할하되, 장면 전환이 발생할 때에는 장면전환 이전까지의 프레임까지만 세그먼트를 생성하고, 장면 전환 이후에 대해서는 새로운 세그먼트를 생성한다.

1.2 세그먼트 특징값 추출 단계

본 세그먼트 특징값 추출 단계에서는 대표 프레임으로부터 세그먼트의 종료 점이 되는 프레임을 찾기 위해 대표 프레임과 연속적인 프레임들의 모션 특징을 추출한다.

이를 위해, 이전 프레임의 윈도우가 현재 프레임에서 대응하는 윈도우 위치와 주변 윈도우를 포함하여 비교하는 방법으로 탐색하여 변화 방향을 양자화한다. 현재 프레임을 t라 하고, t프레임과 t-1프레임의 같은 위치에 있는 윈도우를 각각 B_t, B_t-1 이라 한다.

도 3은 세그먼트 특징값의 추출 과정을 설명하기 위한 도면으로, 도 3에 나타낸 바와 같이 한 윈도우를 중심으로 8방향에 이웃한 주변 윈도우로 오디널 특정치(참고문헌 [2] 참조)를 구한다고 했을 때, 현재 프레임의 윈도우 B_t를 중심으로 추적영역을 정의하고, 추적영역 내 모든 윈도우에 대한 오디널 측정치와 이전 프레임의 윈도우 B_t-1의 오디널 특정치를 각각 비교한다.

이 중에서 윈도우 B_t-1로부터 가장 작은 거리차이를 갖는 프레임 t의 윈도우로의 방향을 양자화한다. 프레임 t-1의 모든 윈도우에서 산출된 방향 값을 통계 처리하여 프레임을 축으로 하는 방향수 만큼의 히스토그램이 생성된다. 이를 통해 N_x × N_y 개의 명암도 평균 윈도우를 가지고 있는 대표 프레임과 방향벡터 히스토그램으로 하나의 세그먼트를 구성한다.

2. 세그먼트 비교 단계

본 단계는 입력 동영상의 복제를 검출하기 위해서 입력 동영상에서 추출한 세그먼트와 원본 동영상에서 추출한 세그먼트들을 비교하여 입력 동영상에 포함된 세그먼트와 유사한 원본 동영상에 포함된 세그먼트를 찾는 단계이다.

유사한 세그먼트를 찾기 위해, 본 세그먼트 비교 단계는 대표 프레임 비교 단계와, 방향벡터 히스토그램 비교 단계를 사용한다.

하나의 세그먼트는 명암도와 모션 정보가 유사한 프레임으로 구성되기 때문에 동일한 세그먼트의 대표 프레임은 그 이외의 프레임과 유사한 명암도 값을 갖고 있다. 따라서, 대표 프레임 비교 단계에서는 대표 프레임의 명암도의 차이를 이용해서 세그먼트간의 유사도를 계산한다. 그러나, 세그먼트의 대표 프레임이 인위적인 편집에 의해서 다르게 선택될 수 있기 때문에, 방향 벡터 히스토그램 비교 단계에서 명암도의 모션특징을 비교해서 입력 세그먼트가 부분적으로만 같은 경우에 발생하는 오차를 보완한다.

세그먼트의 비교는 입력 세그먼트와 모든 원본 세그먼트의 비교를 요구한다. 그러나, 입력 동영상의 세그먼트는 원본 동영상의 세그먼트와 유사한 순서인 특징을 갖는다. 따라서, 세그먼트의 검색속도를 감소시키기 위해서 현재 비교 중인 입력 세그먼트는 이전에 가장 유사했던 원본 세그먼트의 뒤에 존재하는 세그먼트와 우선적으로 비교를 수행한다.

2.1 대표 프레임 비교 단계

하나의 세그먼트는 공간적인 특징에 대해 연속성과 유사성을 가지고 있기 때문에 입력 동영상의 세그먼트와 원본 동영상의 세그먼트가 유사하다면, 각 세그먼트가 가지고 있는 대표프레임의 명암도 성분도 유사하다. 따라서, 세그먼트의 유사성을 비교하기 위해서 상기 식 (2)를 사용해서 대표 프레임의 명암도를 비교한다. 상기 식 (2)는 입력 세그먼트와 원본 세그먼트간의 명암도 특징의 차이를 나타낸다. 따라서, Dist_frame이 가장 작은 원본 세그먼트가 복제된 원본 세그먼트라고 할 수 있다.

---- (2)

여기서, Q는 입력 동영상 세그먼트, T는 원본 동영상 세그먼트, N은 대표 프레임이 가지고 있는 윈도우의 개수이다. 그리고, I(Q_i), I(T_i)는 각 세그먼트의 대표 프레임이 가지고 있는 i번째 윈도우의 명암도 값이다. Dist_frame값이 작을수록 두 세그먼트의 대표 프레임은 유사도가 높다고 할 수 있다.

대표 프레임은 세그먼트의 시작 프레임이고, 하나의 세그먼트는 유사한 밝기 특징 값을 갖는 프레임들로 구성이 된다. 따라서, 세그먼트의 대표 프레임은 세그먼트의 대표 특징 값으로 사용이 가능하다. 그러나, 동영상의 인위적인 편집에 의해서 대표 프레임이 달라질 수 있으며, 일정 시간마다 반드시 세그먼트를 생성하였기 때문에 연속적으로 세그먼트의 대표 프레임이 어긋나는 경우가 존재한다. 따라서, 이러한 경우를 보완하기 위해서 추가적으로 모션 특징 값을 이용해서 세그먼트를 비교한다.

2.2 방향 벡터 히스토그램 비교 단계

방향 벡터 히스토그램을 비교하는 과정을 통해 원본 세그먼트와 입력 세그먼트가 포함하는 프레임이 부분적으로만 같은 경우, 상기 대표 프레임 비교 단계에서 언급한 대표 프레임의 차이에서 발생하는 오차를 보완할 수 있다.

방향벡터 히스토그램의 유사도를 측정하기 위해 스완(Swan)과 발라드(Ballad)가 제안한(참고문헌 [9] 참조) 히스토그램 인터섹션을 이용한다. Dist_motion값이 높을수록 두 세그먼트의 모션 특징이 유사하다고 할 수 있다.

---- (3)

---- (4)

여기서, Q는 입력 동영상의 프레임, T는 원본 동영상의 프레임, i는 양자화된 각각의 방향성분을 의미한다. l은 양자화된 방향성분의 수로서, 0은 윈도우가 움직이지 않았음을 뜻한다. h_k(Q_i), h_k(T_i)는 세그먼트 내의 k번째 모션에서 각 방향성분 i의 움직임을 갖는 윈도우의 개수이다. n은 세그먼트로 통합되는 프레임의 수를 의미한다.

대표 프레임의 비교 단계에서 생성된 Dist_frame은 유사한 동영상일수록 작게 측정이 되고, Dist_motion은 유사한 동영상일수록 크게 측정이 된다. 따라서, 세그먼트간의 유사도를 평가하기 위해 식 (5)를 사용해서 최종적인 세그먼트간의 유사도를 판단한다. 가장 큰 유사도 값을 갖는 원본 세그먼트를 복제된 원본 세그먼트로 선택한다.

---- (5)

3. 동영상 검출 단계

본 동영상 검출 단계에서는 입력 동영상의 세그먼트 비교결과를 통해 어떤 영상으로부터 복제되었는가를 결정한다. 본 동영상 검출 단계를 통해 입력 영상에서 분할된 n개의 입력 세그먼트에 대한 복제 세그먼트로 검출된 결과들을 복제 영상 단위의 결과로 검출할 수 있고, 일부 세그먼트에 대한 검색결과에 오차가 발생하는 경우 이를 주변의 세그먼트의 결과를 통해 보완할 수 있다.

인위적인 편집에 의해서 편집된 입력 동영상은 하나의 동영상으로만 구성될 뿐만 아니라 불특정한 다수의 동영상으로도 구성이 되기도 한다. 따라서, 본 단계에서는 이러한 편집된 다수개의 동영상도 검색이 가능한 동영상 검출 방법을 수행한다.

입력 동영상의 세그먼트 일련번호를 Q라고 하고, Q와 유사하다고 판정된 원본 동영상의 세그먼트 일련번호를 R(Q)라고 한다면, 세그먼트 단위의 검색결과를 동영상으로 검출하는 과정은 아래와 같다.

1) R(Q)의 다음 세그먼트 R(Q)+1과, 입력 세그먼트 Q의 다음 세그먼트 Q+1과 유사하다고 판정된 원본 세그먼트 R(Q+1)이 같다면, Tol_TRUE를 증가시킨다.

2) Tol_TRUE가 하나의 동영상의 식별 기준인 L보다 크다면, Q ∼ Q+Tol_TRUE만큼의 세그먼트는 원본 R(Q) ∼ R(Q)+Tol_TRUE만큼의 동영상과 유사하다고 검출한다. 이때, L은 실험적인 결과 값으로 결정하였다.

3) R(Q+1) ≠ R(Q)+1인 경우에는 Tol_FALSE를 증가시킨다. Tol_FALSE는 연속적으로 일어난 잡음의 수이다.

4) Tol_FALSE가 다른 동영상임을 식별하는 기준 R보다 작으면서 R(Q)+Tol_FALSE+1 = R(Q+Tol_FALSE+1)인 경우, Q+1 ∼ Q+Tol_FALSE까지의 세그먼트는 오차 보정 가능한 잡음으로 판단하여 R(Q)에서 R(Q+Tol_FALSE+1)사이의 연속된 세그먼트로 조정한다.

5) Tol_FALSE가 다른 동영상임을 식별하는 기준 R보다 크다면, Q+1 이후는 더 이상 Q 이전과 같은 동영상의 세그먼트가 아님을 나타낸다. 따라서, Q까지의 세그먼트에 대해 2)의 과정으로 동영상 검출을 판별하고, Q+1 세그먼트부터 다시 1)의 과정을 반복한다.

즉, 각 검출 단계는, 1) 세그먼트단위 결과의 연속성 확인 단계, 2) 연속성을 통한 유사 동영상 검출 단계, 3) 오류 보정 기회 부여 단계, 4) 잡음 판정 단계, 5) 다른 영상의 시작으로의 판정 단계로 요약 할 수 있다.

4. 실험 및 결과

본 발명에 따른 방법에 의해서 세그먼트의 대표 프레임은 총 465개의 윈도우(31×15)로 분할되며, 모션 특징의 양자화 방향수는 정지와 8방향을 포함한 9가지 방향으로 양자화를 수행하였다. 24 프레임의 정보를 갖는 한 세그먼트의 용량은 대략 1kb로 이는 헤더 정보를 제외한 값이다.

검색성능 비교를 위한 입력영상으로 한 영화의 일부분인 부분영상 25개와 여러 영화의 부분영상을 결합하여 만든 편집영상 25개를 준비하였다. 50개의 입력영상은 각각 5분 분량이다.

실험에 사용하기 위해 해상도 약 800×336인 100시간 분량의 영화를 원본 동영상으로 준비하였다. 원본 동영상의 세그먼트들은 사전에 추출하여 저장하고 있다고 가정한다.

4.1 데이터 및 처리 시간 분석

3시간 분량과 100시간 원본 동영상에 대해 각각 5분, 15분 분량에 대한 입력 동영상을 가지고 순차적으로 탐색하는 방법으로 검색시간을 산출하였다. 비교 대상인 오디널 측정(Ordinal Measurement)(참고문헌 [5] 참조) 방법은 3 3의 윈도우 사이즈로 순차탐색을 수행한다. 상기 방법을 각각 20회 반복하여 그 평균값으로 검색 시간에 대한 성능을 비교한다.

표 1 특징 크기 비교

표 1은 오디널 측정 방법 및 본 발명의 방법에서 사용되는 전처리 과정을 통해 생성되는 비교 특징의 크기를 나타낸다. 본 발명에 따른 방법은 평균적으로 1시간 분량의 동영상에서는 5,117개의 세그먼트를 포함하고, 평균적으로 1개의 세그먼트가 17프레임을 갖으며, 각 세그먼트의 크기는 5,016비트이다. 즉, 본 발명에 따른 방법에서는 특징 크기가 약 25.7M비트(5,117×5,016)이다. 반면, 기존의 오디널 측정(Ordinal Measurement)에서 17프레임이 갖는 특징의 크기가 612비트이므로, 그 특징 크기는 약 3.1M비트(5,117×612)이다. 마찬가지로, 3시간 분량의 동영상의 경우, 본 발명은 약 9.11M바이트의 특징 크기를 갖는 반면, 오디널 측정 방법에서는 약 1.11M바이트의 특징 크기를 갖게 된다. 따라서, 기존의 오디널 측정(Ordinal Measurement) 방법과 비교하여 본 발명은 약 8배 많은 특징 크기를 가지고 있게 된다. 그러나, 원본 동영상과 비교하여 본 발명에서는 그 특징 크기가 약 200분의 1 수준으로 감소하였다.

표 2 검색 시간 비교

표 2는 상기 실험 결과를 기존의 오디널 측정(Ordinal Measurement) 방법과 비교하여 나타낸다. 본 발명에 따른 검색 시간은 기존의 오디널 측정(Ordinal Measurement) 방법에 비해 100분의 1 수준으로 감소함을 보였다. 이는 세그먼트 단위의 연산 비용이 대응되는 같은 분량의 프레임 단위 연산보다 비교 정보가 적고, 순서적 특징을 고려하여 같은 동영상에 포함된 세그먼트가 우선 탐색되어 검색 시간이 줄어들었기 때문이다. 검색 시간은 입력 동영상의 세그먼트 수와 원본 동영상의 세그먼트 수에 비례하며 입력 동영상이 연속적일수록, 변화가 적을수록 검색시간이 줄어들었다.

4.2 정확도 분석

동영상 50개를 가지고 100시간 분량의 원본 동영상을 검색하였다. 검색 성능의 정확도 분석을 위해서 프레임 단위의 결과 뿐만 아니라 세그먼트에 의한 정확도도 측정하기 위해서, 평균 정밀도(Average Precision) 방법을 사용하였다. 평균 정밀도 방법은 검색된 결과 중 상위 순위로 검색된 연관성 있는 결과에 더 가중치를 부여하는 방식이다. 각 입력동영상의 세그먼트별로 생성된 검색결과에 대해 평균 정밀도들을 식 (6)에 의해 구하고, 산술평균으로 검색성능을 산출하였다.

---- (6)

여기서, R은 실제로 하나의 입력 세그먼트와 유사한 원본 세그먼트 수이고, i는 검출결과의 랭크이다. xi는 i번째 랭크의 결과가 연관된 결과이면 1, 아니면 0을 나타내는 이진함수이고, pi는 랭크 i까지 컷-오프(cut-off)된 결과의 정밀도(precision)이다.

본 발명에 따른 방법은 동영상의 정보를 변환하지 않고, 동영상을 수집하고 결합하여 새로 생성한 동영상을 검출한다. 부분영상과 편집영상 모두 복제 동영상을 검출하였고, 동영상 세그먼트 단위의 결과에 있어서도 평균 99.7%의 검출 성능을 보였다. 본 발명에 따른 방법은 세그먼트 단위의 정확도 역시 높은 것을 보여준다.

한편, 동영상 세그먼트의 검색성능이 떨어지게 되는 경우는 다음과 같다.

첫 번째는 입력 동영상이 편집된 경계 부분에서는 특정 시간 단위로 분할되는 원본 동영상의 세그먼트와 입력 동영상의 세그먼트가 일정한 간격으로 어긋나는 현상이 발생하는 경우이다.

두 번째는 긴 시간동안 움직임이 없는 장면에서 특정 시간 단위의 세그먼트들은 거의 같은 값을 지니기 때문에 정확한 원본 동영상의 세그먼트가 아닌 그 주변 세그먼트를 검출해 내기도 한다.

세 번째는 입력 동영상의 세그먼트의 길이가 분할 기준 시간 보다 짧은 경우는 다른 세그먼트와 비교할 수 있는 정보량이 적기 때문에 결과 값의 정밀도가 떨어지게 된다.

이상과 같이 본 발명에서는 유사성을 가진 프레임을 하나의 세그먼트로 결합하여 불법 복제 동영상을 검출하는 방법을 제공함으로써, 원본에서 부분적으로 추출된 불법 복제 동영상 뿐만 아니라 서로 다른 동영상에서 추출하여 결합된 복제 동영상 역시 모두 검출이 가능하고, 프레임 단위의 비교 방법보다 빠른 시간에 검출될 수 있게 된다.

Claims

복제 동영상 검출을 위해 사용될 세그먼트를 추출하는 세그먼트 추출 단계와;

입력 동영상의 복제를 검출하기 위해서 입력 동영상에서 추출한 세그먼트와 원본 동영상에서 추출한 세그먼트들을 비교하여 입력 동영상에 포함된 세그먼트와 유사한 원본 동영상에 포함된 세그먼트를 찾는 세그먼트 비교 단계 및;

입력 동영상의 세그먼트 비교결과를 통해 어떤 영상으로부터 복제되었는가를 결정하는 동영상 검출단계를 갖추어 이루어진 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제1항에 있어서, 상기 세그먼트 추출 단계가,

프레임에 포함된 픽셀들의 명암도 정보를 이용하여 대표 프레임을 추출하되, 동영상의 프레임을 N_Frame = N_x × N_y 개의 윈도우 영역으로 분할하고, 각 윈도우 영역에 포함된 픽셀들의 명암도의 평균값의 차이를 이용해서 대표 프레임을 결정하는 대표 프레임 추출 단계와;

대표 프레임으로부터 세그먼트의 종료 점이 되는 프레임을 찾기 위해, 이전 프레임의 윈도우를 현재 프레임에서 대응하는 윈도우 위치와 주변 윈도우를 포함하여 비교하고 탐색하여 변화 방향을 양자화 함으로써, 대표 프레임과 연속적인 프레임들의 모션 특징값을 추출하는 세그먼트 특징값 추출 단계를 갖추어 이루어진 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제2항에 있어서, 상기 각 분할된 윈도우에 포함된 픽셀의 명암도 정보를 이용해서 상기 각 분할된 윈도우의 평균 명암도를 산출하되, 윈도우 i의 평균 명암도 L_i이,

(여기서, W 및 H는 윈도우의 너비 및 높이, x, y는 윈도우 i 내부의 픽셀 좌표,I(x, y) 는 x, y의 좌표에 해당하는 픽셀의 명암도 값)

에 의해 계산되는 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제1항에 있어서, 유사 세그먼트를 찾기 위한 세그먼트 비교 단계가,

입력 세그먼트와 원본 세그먼트 간의 유사성을 비교하기 위해,

(여기서, Q는 입력 동영상 세그먼트, T는 원본 동영상 세그먼트, N은 대표 프레임이 가지고 있는 윈도우의 개수, I(Q_i) 및 I(T_i)는 각 세그먼트의 대표 프레임이 가지고 있는 i번째 윈도우의 명암도 값)

에 의해 입력 세그먼트와 원본 세그먼트 간의 명암도를 비교해서 명암도 특징의 차이를 나타내어, 대표 프레임의 명암도를 비교하는 대표 프레임 비교 단계와;

원본 세그먼트와 입력 세그먼트가 포함하는 프레임이 부분적으로만 같은 경우, 상기 대표 프레임 비교 단계에서의 대표 프레임의 차이에서 발생하는 오차를 보완하기 위해,

(여기서, Q는 입력 동영상의 프레임, T는 원본 동영상의 프레임, i는 양자화된 각각의 방향성분, l은 양자화된 방향성분의 수,h_k(Q_i) 및 h_k(T_i)는 세그먼트 내의 k번째 모션에서 각 방향성분 i의 움직임을 갖는 윈도우의 개수, n은 세그먼트로 통합되는 프레임의 수)

에 의해 유사도를 측정하고,

에 의해 최종적인 세그먼트 간의 유사도를 판단하는 방향벡터 히스토그램 비교 단계를 갖추어 이루어진 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제4항에 있어서, 대표 프레임 비교 단계에서, Dist_frame이 가장 작은 원본 세그먼트가 복제된 원본 세그먼트인 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제4항에 있어서, 최종적인 세그먼트 간의 유사도 판단에서, 가장 큰 유사도 값을 갖는 원본 세그먼트가 복제된 원본 세그먼트로 선택되는 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.
제1항에 있어서, 상기 동영상 검출단계가,

입력 동영상의 세그먼트 일련번호를 Q, Q와 유사하다고 판정된 원본 동영상의 세그먼트 일련번호를 R(Q)로 한 경우,

R(Q)의 다음 세그먼트 R(Q)+1과, 입력 세그먼트 Q의 다음 세그먼트 Q+1과 유사하다고 판정된 원본 세그먼트 R(Q+1)이 같을 경우 Tol_TRUE를 증가시키는 세그먼트단위 결과의 연속성 확인 단계와;

Tol_TRUE가 하나의 동영상의 식별 기준인 L(여기서, L은 실험에 의해 결정된 결과 값) 보다 클 경우, Q ∼ Q+Tol_TRUE만큼의 세그먼트가 원본 R(Q) ∼ R(Q)+Tol_TRUE만큼의 동영상과 유사하다고 검출하는 연속성을 통한 유사 동영상 검출 단계;

R(Q+1) ≠ R(Q)+1인 경우, Tol_FALSE(여기서, Tol_FALSE는 연속적으로 일어난 잡음의 수)를 증가시키는 오류 보정 기회 부여 단계;

Tol_FALSE가 다른 동영상임을 식별하는 기준 R 보다 작으면서 R(Q)+Tol_FALSE+1 = R(Q+Tol_FALSE+1)인 경우, Q+1 ∼ Q+Tol_FALSE까지의 세그먼트는 오차 보정 가능한 잡음으로 판단하여 R(Q)에서 R(Q+Tol_FALSE+1) 사이의 연속된 세그먼트로 조정하는 잡음 판정 단계 및;

Tol_FALSE가 다른 동영상임을 식별하는 기준 R 보다 크다면, Q+1 이후는 더 이상 Q 이전과 같은 동영상의 세그먼트가 아님을 나타내고, 이어 Q까지의 세그먼트에 대해 상기 연속성을 통한 유사 동영상 검출 단계에 의해 동영상 검출을 판별하고 Q+1 세그먼트부터 다시 상기 세그먼트단위 결과의 연속성 확인 단계를 반복하는 다른 영상의 시작으로의 판정 단계를 갖추어, 세그먼트 단위의 검색결과를 동영상으로 검출하도록 된 것을 특징으로 하는 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법.