KR100811835B1

KR100811835B1 - 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법

Info

Publication number: KR100811835B1
Application number: KR1020060103805A
Authority: KR
Inventors: 최윤기
Original assignee: 주식회사 에스원
Priority date: 2006-10-25
Filing date: 2006-10-25
Publication date: 2008-03-10

Abstract

내용 기반의 동영상 검색방법이 개시된다. 이 방법에 의하면, 먼저 임의의 동영상의 해당 프레임에 대한 공간 특징량 벡터를 구한다. 그런 후, 공간 특징량 벡터의 각 항목에 대한 시간 차분을 성분으로 하는 시간 특징량 벡터를 구한다. 그런 다음, 시간 특징량 벡터의 각 성분에 대한 절대치의 합을 구하고, 그 절대치의 합이 설정된 기준치보다 큰 값을 갖는 프레임을 대표 프레임으로 선택하여, 그 대표 프레임의 특징량 벡터를 구한다. 이후 원본 동영상의 대표 프레임에서 추출된 특징량 벡터와 쿼리 동영상의 대표 프레임에서 추출된 특징량 벡터와의 차분에 대한 절대값의 합을 구한다. 그런 후, 그 절대값의 합과 설정된 기준치와의 크기를 비교하여, 그 결과에 따라 쿼리 동영상에 대한 진위 여부를 판단한다.

이상과 같은 방법에 의하면, 동영상 검색에 유효한 특징량만을 데이터베이스에 보존함으로써 저장을 위한 공간을 줄이고, 검색 시간을 단축할 수 있다.

내용 기반, 동영상, 검색

Description

동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상 검색방법{Method for extracting moving image features and content-based moving image searching method using the extracting method}

도 1은 종래의 동영상 검색과 관련한 대표 프레임 선택 방법으로서의 균등 간격 선택법을 보여주는 도면.

도 2는 종래의 동영상 검색과 관련한 대표 프레임 선택 방법으로서의 동적 프로그램을 사용한 선택법을 보여주는 도면.

도 3은 본 발명의 실시예에 따른 동영상 특징량 추출방법에 따른 동영상의 특징량 추출 과정을 보여주는 흐름도.

도 4는 본 발명의 실시예에 따른 동영상 특징량 추출방법에 의해 추출한 원본 동영상에 대한 특징량 벡터를 기저로 한 데이터베이스를 구축하는 과정을 보여주는 흐름도.

도 5는 본 발명의 실시예에 따른 동영상 특징량 추출방법을 이용한 내용 기반 동영상 검색 방법의 실행 과정을 보여주는 흐름도.

도 6은 동영상의 공간 특징량 추출을 위해 임의의 동영상 프레임을 동일한 면적의 두 개의 영역으로 분할 및 각 영역에 대해 휘도 평균값을 구한 상태를 보여주는 도면.

도 7은 동영상의 공간 특징량 추출을 위해 임의의 동영상 프레임을 다양한 패턴으로 분할한 모습을 보여주는 도면.

도 8은 본 발명의 실시예에 따른 동영상 특징량을 이용한 내용 기반 동영상 검색방법을 적용한 실제 실험에서, 사용 패턴에 따른 특징량 특성의 예를 보여주는 도면.

도 9는 본 발명의 실시예에 따른 동영상 특징량을 이용한 내용 기반 동영상 검색방법을 적용한 실제 실험에서, 각 샘플에 대한 FNR과 FPR과의 상호 관계를 보여주는 특성 곡선도.

<도면의 주요 부분에 대한 부호의 설명>

101,201...대표 프레임

본 발명은 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상 검색방법에 관한 것으로서, 더 상세하게는 동영상 검색에 유효한 공간 특징량만을 데이터베이스에 보존함으로써 저장을 위한 공간을 줄이고, 검색 시간을 단축할 수 있는 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상 검색 방법에 관한 것이다.

최근 인터넷에서 음악, 정지 영상 및 동영상 등이 널리 사용됨에 따라 이들 멀티미디어 데이터를 대상으로 한 효율적인 검색 기술의 필요성이 대두하고 있다. 예를 들어, 과거의 텍스트 검색 기능만을 가지고 있던 인터넷 검색 사이트는 최근에는 이미지뿐만 아니라 동영상 검색 기능을 갖추고 있다. 또한, 방송국, 컨텐츠(contents) 제작소 등은 대량의 멀티미디어 데이터베이스에서 원하는 컨텐츠를 빠르고 정확하게 찾아내는 수단을 필요로 한다.

멀티미디어 데이터를 대상으로 한 검색 기술은 텍스트 기반(text-based) 검색과 내용 기반(content-based) 검색으로 나눌 수 있다. 텍스트 기반 검색은 타이틀, 제작자, 캐스팅 멤버, 장르, 감독 등의 검색어를 사용하는 검색 방법을 말하고, 내용 기반 검색은 검색어 대신 컨텐츠에서 추출한 특징량을 사용하는 검색 방법을 말한다. 텍스트 기반 검색은 빠르고 정확하지만, 데이터베이스에 존재하는 컨텐츠 및 쿼리(query)(본 명세서에서는 불법 복제 영상 파일로 정의함)로 주어질 컨텐츠에 검색어들을 별도로 수작업으로 입력해야 한다는 단점이 있다. 따라서, 불특정 다수의 멀티미디어를 대상으로 했을 때, 내용 기반 검색이 더 유효한 검색 수단이라고 할 수 있다.

한편, 동영상을 대상으로 한 검색에서는 공간 특징량 이외에도 시간 특징량도 유용한 특징량이 된다. MV(motion vector)는 시간 특징량의 대표적인 예이지만, 대상의 추출 및 MV의 계산에 많은 시간이 소요되는 단점이 있다. 동작 추적(motion tracking) 방법은 대상에 의존하지 않고 계산량도 적지만, 복제물 검색을 용도로 한 방식이 아니기 때문에 검색에 강하지 못하다. 이외에도 공간 특징량과 시간 특징량을 혼합한 방식도 있다.

동영상은 시간축에 대해 상관이 높은 프레임이 연속으로 나타나는 경향이 있 기 때문에, 그러한 프레임에서 추출한 특징량을 제거함으로써(대표 프레임을 선택함으로써) 비교 시간 및 저장 공간을 줄일 수 있다.

종래의 동영상 검색과 관련한 대표 프레임 선택 방법으로, 균등 간격(equal interval) 선택법과 동적 프로그램(dynamic program)을 사용한 선택법이 있다. 균등 간격(equal interval) 선택법은 도 1에 도시된 바와 같이, 일정하게 설정된 시간 간격(D)으로 대표 프레임(101)을 선택한다. 그리고, 동적 프로그램을 사용한 선택법은 도 2에 도시된 바와 같이, 대표 프레임(201)이 선택되는 시간 간격을 자유롭게 변경함으로써 위의 균등 간격 선택법보다 근사치 오차(approximation error)가 작아진다.

그러나, 이 후자의 동적 프로그램을 사용한 대표 프레임 선택법은 전체 평균으로 선택되는 대표 프레임 수가 균등 간격 선택법과 동일하며, 액션(action), SF (Science Fiction)와 같은 동영상에서는 대표 프레임 수가 부족하고, 드라마와 같은 정적인 동영상에서는 대표 프레임 수가 과다하게 선택된다. 결과적으로, 동영상 검색 결과의 정확도가 떨어지고, 검색 속도도 늦어지는 문제가 있다.

본 발명은 이상에서와 같은 종래 동영상 검색 방식에서의 문제점을 감안하여 창출된 것으로서, 동영상 검색에 유효한 공간 특징량만을 데이터베이스에 보존함으로써 저장을 위한 공간을 줄이고, 검색 시간을 단축할 수 있는 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상 검색 방법을 제공함에 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명의 특징에 따른 동영상 특징량 추출 방법은,

a) 입력 동영상의 임의의 프레임에 대한 공간 특징량 벡터를

(여기서, f(n)은 각 패턴에 대해 구해진 각 휘도치 평균값 간의 차분을 나타냄)에 의해 구하는 단계;

b) 상기 구해진 공간 특징량 벡터의 각 항목에 대한 시간 차분을 성분으로 하는 시간 특징량 벡터를 구하는 단계;

c) 상기 시간 특징량 벡터의 각 성분에 대한 절대치의 합을 구하는 단계; 및

d) 상기 구해진 절대치의 합이 설정된 기준치보다 큰 값을 갖는 프레임을 각각의 씬을 대표하는 대표 프레임으로 선택하고, 그 선택된 대표 프레임에 대한 특징량 벡터를 구하는 단계를 포함한다.

또한, 상기의 목적을 달성하기 위하여 본 발명의 특징에 따른 동영상 특징량추출방법을 이용한 내용 기반 동영상 검색 방법은, 쿼리 동영상에서 추출한 특징량 벡터와, 데이터베이스에 저장된 특징량 벡터(원본 동영상에서 추출한 특징량 벡터임)를 비교하여, 쿼리 동영상에 대한 진위 여부를 검색해 내는 방법으로서,

a) 쿼리 동영상에서 대표 프레임을 선택하고, 그 선택된 대표 프레임에 대한 특징량 벡터를 추출하는 단계;

b) 상기 구해진 특징량 벡터와 데이터베이스에 저장되어 있는 한 특징량 벡터와의 차분에 대한 절대값의 합을 계산하는 단계;

c) 상기 구해진 차분에 대한 절대값의 합과 설정된 기준치와의 크기를 비교하여, 그 결과에 따라 쿼리 동영상에 대한 진위 여부를 판단하는 단계; 및

d) 상기 단계 b)부터 단계 c)까지의 과정을 데이터베이스에 저장된 모든 특 징량 벡터에 대해 반복적으로 수행하는 단계를 포함한다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

또한, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이제 본 발명의 실시예에 따른 동영상 특징량 추출 방법을 이용한 내용 기반 동영상 검색 방법에 대하여 도면을 참고로 하여 상세하게 설명한다.

도 3은 본 발명의 실시예에 따른 동영상 특징량 추출방법에 따른 동영상의 특징량 추출 과정을 보여주는 흐름도이고, 도 4는 본 발명의 실시예에 따른 동영상 특징량 추출방법에 의해 추출한 원본 동영상에 대한 특징량 벡터를 기저로 한 데이터베이스를 구축하는 과정을 보여주는 흐름도이며, 도 5는 본 발명의 실시예에 따른 동영상 특징량 추출방법을 이용한 내용 기반 동영상 검색 방법의 실행 과정을 보여주는 흐름도이다. 또한, 도 6은 동영상의 공간 특징량 추출을 위해 임의의 동영상 프레임을 동일한 면적의 두 개의 영역으로 분할 및 각 영역에 대해 휘도 평균값을 구한 상태를 보여주는 도면이고, 도 7은 동영상의 공간 특징량 추출을 위해 임의의 동영상 프레임을 다양한 패턴으로 분할한 모습을 보여주는 도면이며, 도 8은 본 발명의 실시예에 따른 동영상 특징량을 이용한 내용 기반 동영상 검색방법을 적용한 실제 실험에서, 사용 패턴에 따른 특징량 특성의 예를 보여주는 도면이고, 도 9는 본 발명의 실시예에 따른 동영상 특징량을 이용한 내용 기반 동영상 검색방법을 적용한 실제 실험에서, 각 샘플에 대한 FNR과 FPR과의 상호 관계를 보여주는 특성 곡선도이다. 여기서, 도 3, 도 4 및 도 5와 같은 흐름도는 하나의 소프트웨어 프로그램을 가시화한 것으로, 발명자(혹은 프로그래머)에 의해 미리 프로그램으로 짜여져 컴퓨터 시스템에 저장된다.

도 3, 도 4 및 도 5를 참조하면, 본 발명의 실시예에 따른 동영상 특징량 추출방법을 이용한 내용 기반 동영상 검색방법은, 임의의 동영상의 임의의 프레임에 대한 공간 특징량 벡터에 대응하는 시간 특징량을 사용하여 대표 프레임을 선택하고, 그 대표 프레임에서 추출된 특징량을 바탕으로 쿼리 동영상에 대한 진위 여부를 검색해 내는 방법으로서, 먼저 임의의 동영상의 임의의 프레임에 대한 공간 특징량 벡터를 구한다(단계 S301). 여기서, 임의의 프레임에서 공간 특징량 벡터를 구하는 과정에 대하여 설명해 보기로 한다.

먼저 임의의 동영상의 임의의 프레임(n번째 프레임) 전체를 미리 설정한 다양한 패턴 중의 임의의 어느 하나의 패턴에 따라 동일한 면적의 두 영역으로 분할한다. 즉, 도 6의 (a)와 같이 전체적으로 N개의 프레임으로 구성된 임의의 동영상을 도 7의 (a)∼(p)와 같은 미리 설정한 다양한 패턴 중의 임의의 어느 하나의 패턴에 따라 도 6의 (b)와 같이 동일한 면적의 두 영역(S₁,S₂)으로 분할하는 것이다.

이렇게 하여 동일한 면적의 두 영역(S₁,S₂)으로의 분할이 완료되면, 그 분할 된 두 영역(S₁,S₂)에 대하여 각각의 휘도치 평균값(M₁,M₂)[도 6의 (c)]을 구한다. 여기서, 휘도치 평균값(M₁,M₂)은 다음과 같은 수식 관계에 의해 구해질 수 있다.

여기서, HW(H×W)는 프레임 사이즈(세로×가로), I(h,w)는 (h,w)픽셀의 휘도치를 각각 의미한다. 그리고 n은 영역 S₁, S₂ 내에 각각 존재하는 n번째 단위 프레임을 의미한다.

이상에 의해 휘도치 평균값(M₁,M₂)이 구해지면, 그 구해진 각 휘도치 평균값 (M₁,M₂) 간의 차분[f(n)]을 구한다. 이때 차분을 수식으로 표현하면 다음과 같다.

이상과 같이 하여 하나의 분할 패턴(예컨대, 도 7의 (a))에 대하여 휘도치 평균 간의 차분을 구하는 것까지 완료되면, 위에서와 같은 동일한 과정(즉, 차분까지 구하는 과정)을 나머지 모든 패턴[도 7의 (b)∼(p)]에 대해 반복적으로 수행한다. 그런 후, 그 각각의 패턴에 대해 구해진 모든 휘도치 평균값 간의 차분을 성분으로 하는 하나의 벡터[F(n)]를 구한다. 이 벡터[F(n)]를 수식으로 표현하면 다음 과 같다.

본 발명의 실시예에서는 위의 수학식 3을 해당 프레임의 "공간 특징량 벡터"로 정의한다.

위의 공간 특징량 벡터 F(n)이 가지는 공간 특징량은 도 7의 여러 패턴을 기저(base)로 하여 실제 이미지와 기저와의 상관을 나타낸 값이라고 해석할 수 있으며, 기저 패턴과 유사한 구도를 가지는 이미지일수록 그 절대값은 커지게 된다.

한편, 이상에 의해 임의의 동영상의 임의의 프레임에 대한 공간 특징량 벡터[F(n)]가 구해지면, 그 구해진 공간 특징량 벡터[F(n)]의 각 항목에 대해 시간 차분을 구한다(단계 S302).

여기서, 공간 특징량 벡터[F(n)]의 각 항목에 대한 시간 차분을 수식으로 나타내면 다음과 같다.

또한, 상기 각 시간 차분 d_k(n)을 성분으로 하는 시간 특징량 벡터를 수식으로 나타내면 다음과 같다.

본 발명의 실시예에서는 상기 수학식 5를 "시간 특징량 벡터"로 정의한다.

이렇게 하여 시간 특징량 벡터 D(n)이 구해지면, 그 시간 특징량 벡터 D(n)의 각 성분에 대한 절대치의 합을 구한다(단계 S303). 여기서, 이를 수식으로 표현하면 다음과 같다.

이상과 같이, 시간 특징량 벡터 D(n)의 각 성분에 대한 절대치의 합

이 구해지면, 그 구해진 절대치의 합

이 설정된 기준치

보다 큰 값을 갖는 프레임을 대표 프레임으로 선택하고, 그 선택된 대표 프레임에 대한 특징량 벡터를 구한다(단계 S304).

여기서, 본 실시예에서는 상기 선택된 대표 프레임에 대한 특징량 벡터를 다음과 같이 정의하고, 이들을 데이터베이스에 등록한다.

여기서, n_r은 선택된 대표 프레임, F(n)은 n번째 프레임의 공간 특징량을 의 미한다. 이때 공간 특징량 벡터의 차원이 m인 경우, R(n)은 2m 차원의 벡터가 된다.

본 실시예에서의 대표 프레임은 바뀐 씬(scene)의 첫번째 프레임에 해당한다고 볼 수 있으며, 대표 프레임의 특징량은 씬이 바뀐 순간의 전후 프레임의 공간 특징량을 사용하여 재구성된다. 단, 공간 특징량의 변화량을 사용하여 씬을 분할하기 때문에, 실제 영화 스토리상의 씬과 반드시 일치하지는 않는다. 통계적으로 보았을 때, 영화에서 추출한 공간 특징량은 시간적으로 서로 상관이 높으며, 씬이 바뀌는 순간이 가장 많은 정보를 가지고 있다. 본 실시예의 방법은, 이 순간의 공간 특징량만을 사용함으로써 저장을 위한 공간 절약과 검색 시간 단축을 동시에 해결할 수 있다.

이상에 의해 대표 프레임에 대한 특징량 벡터가 구해지면, 입력 동영상의 나머지 모든 프레임에 대해 상기 단계 S301부터 단계 S304까지의 과정을 반복적으로 수행한다(단계 S305). 이로써 임의의 동영상에 대한 특징량 벡터의 추출 과정이 완료된다.

한편, 이상에 의해 입력 동영상에 대한 특징량 벡터가 구해지면(계산되면)(단계 S401), 그 원본의 한 동영상에 대하여 계산된 특징량을 데이터베이스에 등록하고(단계 S402), 원본의 모든 동영상에 대하여 특징량 추출과 데이터베이스 등록을 반복한다(단계 S403). 이로써 원본 동영상의 데이터베이스 구축이 완료된다.

이후 쿼리 동영상이 주어지면, 위의 원본 동영상에서 특징량 벡터를 구하는 과정과 동일한 과정에 의해 쿼리 동영상에서 특징량 벡터를 추출(계산)하고(단계 S501), 데이터베이스에 존재하는 원본 동영상의 한 특징량 벡터와 위에서 구해진 쿼리 동영상의 특징량 벡터와의 차분에 대한 절대값의 합을 계산한다(단계 S502). 이를 수식으로 나타내면 다음과 같다.

여기서, Fdb(n)은 데이터베이스에 존재하는 n번째 특징량 벡터, Fquery는 쿼리 동영상의 임의의 대표 프레임에서 구하여진 특징량 벡터, D는 상기 두 벡터의 차분의 절대값의 합을 각각 나타낸다. 여기서, 쿼리 동영상의 특징량 벡터(Fquery)는, 원본 동영상의 특징량 벡터(Fdb)를 구하는 과정과 동일한 과정에 의해 구해지며, 따라서 이에 대한 설명은 별도로 하지 않기로 한다.

이렇게 하여 차분에 대한 절대값의 합(D)이 구해지면, 그 차분에 대한 절대값의 합(D)이 설정된 기준치(T)(발명자에 의해 미리 어떤 특정 수치의 값으로 정해짐)보다 큰지의 여부를 판별하여, 그 결과에 따라 쿼리 동영상에 대한 진위 여부를 판단한다(단계 S503).

즉, D가 T보다 큰지(T＜D)를 판별하여, D가 T보다 크면 쿼리 동영상에서 선택된 대표 프레임은 데이터베이스에 존재하는 n번째 대표 프레임과 일치하지 않는다고 판단한다.

또한, 상기 판별(T＜D)에서 D가 T보다 작거나 같으면 쿼리 동영상에서 선택 된 대표 프레임은 데이터베이스에 존재하는 n번째 대표 프레임과 일치한다고 판단한다.

이렇게 하여 원본 동영상의 한 특징량 벡터와 쿼리 동영상에 대한 진위 여부의 판단이 완료되면, 데이터베이스에 등록되어 있는 나머지 모든 특징량 벡터에 대해 상기 단계 S501에서 단계 S503까지의 과정을 반복적으로 수행한다(단계 S504). 이로써 하나의 쿼리 동영상에 대한 검색 과정이 완료된다.

이하에서는 이상과 같은 본 발명의 실시예에 따른 내용 기반의 동영상 검색방법을 실제로 실험에 적용하여 얻은 결과(분할 패턴의 특성, 데이터베이스의 특성, 검출 성능)에 대해 살펴보기로 한다. 실험에 사용한 동영상 원본은 DVD 영화 80 타이틀이다.

<분할 패턴의 특성>

우선, 사용하는 분할 패턴의 특성을 확인하기 위하여 다음과 같은 실험을 하였다. 원본을 무작위로 2개의 그룹 A, B로 나누고, 각 그룹에서 무작위로 10,000 프레임씩을 선택한다. 단, 선택하는 프레임 사이에는 충분한 시간 간격을 두어 시간축에서의 상관 관계가 없도록 한다(실험에서는 30초 이상의 간격을 두었다). 다음, 상기 도 7의 모든 패턴[(a)∼(p)]을 사용하여 공간 특징량을 계산하였다.

도 8은 사용 패턴에 따른 특징량 특성의 예를 보여주는 도면이다. 각 그림의 상단 좌측은 분할에 사용된 패턴이며, 상단 중앙과 우측의 그림은, 해당 특징량이 최소/최대였을 때의 각각의 영상이다. 분할 패턴과 동일한 구도를 가지는 이미지가 절대값이 큰 값을 가지게 됨을 확인할 수 있다. 하단 그림은 해당 특징량의 히스토그램으로, 그룹A의 결과를 흑색 실선, 그룹B의 결과를 회색 점선으로 표시하였다.

위의 각 히스토그램에서 알 수 있듯이, 특징량은 0(zero)을 중심으로 한 분포를 가지게 됨을 알 수 있다. 이 중에서 도 8의 (f)의 분산이 유달리 작은 경향을 보이는데, 이는 통계적으로 봤을 때, 상기 도 8의 (f)에서 사용된 패턴과 같은 구도는 영화 속에서 많이 쓰이지 않는다는 것을 의미한다. 다음의 표 1은 각 특징량의 분산을 그룹별로 표시한 것으로, 도 7의 (a),(b)의 분산이 높고(이런 구도가 많이 사용되고), 도 7의 (n),(o),(p)의 분산은 낮다(이런 구도는 많이 사용되지 않는다)는 것을 알 수 있다.

패턴	(a)	(b)	(c)	(d)	(e)	(f)	(g)	(h)	(i)	(j)	(k)	(l)	(m)	(n)	(o)	(p)
Gr-A	477	495	418	298	248	255	412	417	418	427	431	430	350	148	215	206
Gr-B	429	396	339	278	227	216	368	352	358	349	384	375	281	149	178	185

이와 같은 경향은 두 그룹 모두에서 보여지는데, 이는 원본으로 선택된 영화의 특성이 아닌, 일반적인 영화의 공통된 특성이라 할 수 있다. 공간 특징량으로 상기 도 7의 패턴을 모두 사용할 필요는 없으며, 분산이 크고 서로 직교성이 있는 패턴을 선택하여 사용하는 것이 효율적이다. 또한 절단 등에 대한 강한 검색성을 생각하면 도 7의 (p)와 같이 여러 개로 분할되는 패턴보다 도 7의 (a)와 같이 단순한 패턴이 유리하다.

<데이터베이스(DB)의 특성>

위에서의 분할 패턴의 특성을 토대로 상기 도 7의 (a), (b), (g), (h)의 네 종류의 분할 패턴을 사용하여 데이터베이스를 구축하였다. 대표 프레임 선택에 사용하는 설정 기준치로

을 사용하였을 때(수학식 6 참조), 약 120 프레임(5초) 당 한 번의 간격으로 대표 프레임이 선택되었다. 특징량의 값을 범위 제한하여(-128~127) 항목당 1바이트를 사용한다고 했을 때, 특징량의 저장에 필요한 공간은 450KB가 된다. 데이터베이스에는 특징량 이외에 타이틀 정보, 프레임 번호도 필요한데, 이들 모두를 합쳐 약 1MB로 데이터베이스 구축이 가능하다. 이상의 특성을 다음의 표 2에 정리하였다. 또한 특징량은 덧셈, 뺄셈으로만 계산되기 때문에, 데이터의 다운로드 시간에 비교했을 때, 특징량의 계산은 실시간으로 처리된다.

	프레임 수	저장 공간
동영상 원본	13,364,860	500,000 MB
특징량 DB	112,156(대표 프레임수)	1 MB (4B/frame)

<검출 성능>

프레임 레이트(frame rate) 변환, 절단, 리사이징, 압축 후의 검출 성능을 확인하였다. 이를 위해, 원본에 다음과 같은 조작을 하여 4종류의 샘플 영상을 작성하였다.

[샘플 1]: 원본이 24fps인 경우에는 30fps로, 원본이 30fps인 경우에는 24fps로 프레임 레이트를 변환한 후, MPEG4로 재압축.

[샘플 2]: 원본을 가로, 세로 각각 75%로 축소한 후, MPEG4로 재압축.

[샘플 3]: 원본을 가로, 세로 각각 50%로 축소한 후, MPEG4로 재압축.

[샘플 4]: 원본의 상하좌우를 20픽셀씩 절단하고, 가로, 세로 각각 75%로 축소한 후, MPEG4로 재압축.

MPEG4 압축을 할 때, 모두 800Kbps의 압축율을 사용하였다. 이는, 2시간 분량의 동영상을 720MB 정도로 만들어 주는 압축율로, 한 장의 CD-ROM에 저장할 수 있어 불법 복제 영화에서 일반적으로 사용되는 압축율이라 할 수 있다.

그 다음, [샘플 1]의 동영상에서 랜덤으로 선택한 10,000 프레임을 쿼리 동영상의 시작 프레임으로 사용하였다. 선택된 쿼리에서 특징량을 추출하고 데이터베이스와 대조하여, 원본을 올바르게 찾아내는지 확인하였다. 정확도의 검색 지표로는 False Negative Rate(FNR)과 False Positive Rate(FPR)을 사용하였다. FNR과 FPR을 수식으로 표현하면 다음과 같다.

여기서,

은 [샘플 1]에서 선택한 쿼리의 수,

은 데이터베이스에 없다고 판단한 횟수,

는 데이터베이스에 존재하지 않는 동영상에서 선택한 쿼리의 수,

는 데이터베이스에 있다고 판단한 횟수,

는 상기 수학식 8과 관련하여 사용되는 설정된 기준치이다.

도 9는

를 1~100으로 바꾸어 가며 상기 수학식 9를 계산한 결과를 보여주는 특성곡선도이다. 도 9에서 (a)는 샘플 1(프레임 레이트 변환+MPEG4), (b)는 샘플 2(75% 축소+MPEG4), (c)는 샘플 3(50% 축소+MPEG4), (d)는 샘플 4(절단+축소+MPEG4)를 각각 나타낸다.

이상의 결과로부터, 프레임 레이트 변환, 축소, 절단 및 MPEG4 압축을 한 뒤에도 원본과 거의 같은 특징량을 추출할 수 있음을 확인할 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만, 본 발명의 권리범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

이상의 설명에서와 같이, 본 발명의 실시예에 따른 내용 기반의 동영상 검색방법은 이미지의 구도를 사용하여 공간 특징량을 추출하고, 그 공간 특징량을 기초로 한 시간 특징량을 사용하여 대표 프레임을 선택하여 동영상 검색에 활용하므로, 동영상 검색에 유효한 공간 특징량만을 데이터베이스에 보존함에 따른 데이터 저장을 위한 공간을 줄이고, 검색 시간을 단축할 수 있는 장점이 있다.

또한, 식별 능력이 높고 강한 검색성을 가져 불법 복제 영상물 검색은 물론 일반 검색 사이트 및 방송국에서의 동영상 데이터베이스 검색에도 활용할 수 있다.

Claims

a) 입력 동영상의 임의의 프레임에 대한 공간 특징량 벡터를
(여기서, f(n)은 각 패턴에 대해 구해진 각 휘도치 평균값 간의 차분을 나타냄)에 의해 구하는 단계;

b) 상기 구해진 공간 특징량 벡터의 각 항목에 대한 시간 차분을 성분으로 하는 시간 특징량 벡터를 구하는 단계;

c) 상기 시간 특징량 벡터의 각 성분에 대한 절대치의 합을 구하는 단계; 및

d) 상기 구해진 절대치의 합이 설정된 기준치보다 큰 값을 갖는 프레임을 각각의 씬을 대표하는 대표 프레임으로 선택하고, 그 선택된 대표 프레임에 대한 특징량 벡터를 구하는 단계를 포함하는 동영상 특징량 추출 방법.
제1항에서,

상기 단계 b)에서의 시간 차분과 시간 특징량 벡터는 다음의 수식 관계를 갖는 것을 특징으로 하는 동영상 특징량 추출 방법.

여기서, d_k(n)은 공간 특징량 벡터[F(n)]의 각 항목에 대한 시간 차분, D(n)은 그 각 시간 차분을 성분으로 하는 시간 특징량 벡터를 나타냄)
제1항에서,

상기 단계 d)에서의 동영상의 대표 프레임에 대한 특징량 벡터는 다음의 수 식 관계를 갖는 것을 특징으로 하는 동영상 특징량 추출 방법.

(여기서, n_r은 대표 프레임, F(n)은 n번째 프레임의 공간 특징량을 나타냄)
쿼리 동영상에서 추출한 특징량 벡터와, 데이터베이스에 저장된 특징량 벡터(원본 동영상에서 추출한 특징량 벡터임)를 비교하여, 쿼리 동영상에 대한 진위 여부를 검색해 내는 방법으로서,

a) 쿼리 동영상에서 대표 프레임을 선택하고, 그 선택된 대표 프레임에 대한 특징량 벡터를 추출하는 단계;

b) 상기 구해진 대표 프레임에 대한 특징량 벡터와 데이터베이스에 저장되어 있는 한 특징량 벡터와의 차분에 대한 절대값의 합을 계산하는 단계;

c) 상기 구해진 차분에 대한 절대값의 합과 설정된 기준치와의 크기를 비교하여, 그 결과에 따라 쿼리 동영상에 대한 진위 여부를 판단하는 단계; 및

d) 상기 단계 b)부터 단계 c)까지의 과정을 데이터베이스에 저장된 모든 특징량 벡터에 대해 반복적으로 수행하는 단계를 포함하는 동영상 특징량 추출 방법을 이용한 내용 기반 동영상 검색 방법.
제4항에서,

상기 단계 b)에서 대표 프레임에 대한 특징량 벡터와 데이터베이스에 저장되어 있는 특징량 벡터들 간의 차분에 대한 절대값들의 합은 다음의 수식에 의해 계산되는 것을 특징으로 하는 동영상 특징량 추출 방법을 이용한 내용 기반 동영상 검색 방법.

(여기서, Fdb(n)은 데이터베이스에 존재하는 n번째 특징량 벡터, Fquery는 쿼리 동영상의 임의의 대표 프레임에서 구하여진 특징량 벡터, D는 상기 두 벡터의 차분의 절대값의 합을 각각 나타냄)
제4항에서,

상기 단계 c)에서 차분에 대한 절대값의 합(D)이 설정된 기준치(T)보다 큰지의 여부를 판별하여, D가 T보다 크면 쿼리 동영상에서 선택된 대표 프레임은 데이터베이스에 존재하는 n번째 대표 프레임과 일치하지 않는다고 판단하고, D가 T보다 작거나 같으면 쿼리 동영상에서 선택된 대표 프레임은 데이터베이스에 존재하는 n번째 대표 프레임과 일치한다고 판단하는 것을 특징으로 하는 동영상 특징량 추출 방법을 이용한 내용 기반 동영상 검색 방법.