KR20060044634A

KR20060044634A - 키 프레임 집합 추출 방법 및 시스템

Info

Publication number: KR20060044634A
Application number: KR1020050024152A
Authority: KR
Inventors: 통 장
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피
Priority date: 2004-03-24
Filing date: 2005-03-23
Publication date: 2006-05-16
Also published as: EP1580757A2; US20050228849A1; TW200536389A; JP2005276220A; EP1580757A3

Abstract

본 발명은 비디오(12) 내의 의미있는 콘텐츠를 나타내는 키 프레임(key frame)(32)을 산출하는 비디오(12)로부터의 키 프레임(32) 인텔리전트 추출 방법에 관한 것이다. 본 발명에 따른 방법은 비디오(12)에서, 각 비디오 프레임에 관한 분석의 집합을 행함으로써 일련의 비디오 프레임 중에서 후보 키 프레임(18)의 집합을 선택하는 단계를 포함한다. 비디오(12)에서 대응하는 유형의 의미있는 콘텐츠를 검출하도록 각 분석이 선택된다. 그 후, 후보 키 프레임(18)은 클러스터의 집합으로 배열되고, 그 후 비디오(12)내의 의미있는 콘텐츠를 검출하는 측면에서 그 상대적인 중요성에 따라 각 클러스터로부터 선택된다.

Description

키 프레임 집합 추출 방법 및 시스템{INTELLIGENT KEY-FRAME EXTRACTION FROM A VIDEO}

도 1은 본 발명에 따른 비디오로부터 키 프레임의 집합을 추출하는 방법의 실시예를 도시하는 도면,

도 2는 본 발명에 따른 키 프레임 추출 시스템의 일 실시예를 도시하는 도면,

도 3은 비디오에서 일련의 비디오 프레임의 예를 위한 색상 히스토그램 분석기의 동작을 나타내는 도면,

도 4는 비디오 중에서 물체를 포함하는 일련의 비디오 프레임의 예를 도시한는 도면,

도 5a 내지 5c는 인접 비디오 프레임의 쌍들 사이에서 상대적 움직임을 결정하기 위한 한가지 방법을 나타내는 도면,

도 6은 비디오내에서 움직이는 물체를 캡쳐하는 인접 비디오 프레임 쌍을 도시하는 도면,

도 7a 및 7b는 비디오 프레임에서 움직이는 물체를 검출하는 방법을 도시하는 도면,

도 8a 및 8b는 후보 키 프레임(candidate key-frames)을 선택하기 위해 사용 될 수 있는 오디오 프레임의 예를 도시하는 도면,

도 9는 후보 키 프레임의 집합 중에서 키 프레임의 집합을 선택하는 방법의 일 실시예를 도시하는 도면.

도면 주요 부분에 대한 부호의 설명

12 : 비디오 14 : 비디오 프레임 추출기

16 : 오디오 이벤트 검출기 18 : 후보 키 프레임

20 : 프레임 분석기 30 : 키 프레임 선택기

본 발명은 비디오 내의 의미있는 콘텐츠를 나타내는 키 프레임(key frame)을 산출하는 비디오로부터의 키 프레임 인텔리전트 추출 방법에 관한 것이다.

비디오는, 영상 장면의 비디오 스냅샷(snap-shot)을 각각 포함하는 일련의 비디오 프레임을 포함할 수 있다. 일련의 비디오 프레임은 적절한 프레임 레이트로 디스플레이 상에 생성되어 비디오를 재생할 수 있다.

비디오 시스템은 비디오에서 비디오를 위한 키 프레임으로 사용되는 비디오 프레임의 부분 집합을 추출할 수 있는 기능을 포함할 수 있다. 예를 들어, 키 프레임의 집합은 비디오로부터 추출되어 비디오에 대한 스토리보드(storyboard)를 구 성할 수 있다. 추출된 키 프레임을 비디오의 콘텐츠의 시각적 표시를 시청자에게 제공하는 일련의 썸네일 영상(thumbnail images)으로서 만드는 것에 의해 스토리보드가 구성될 수 있다.

비디오로부터 키 프레임을 추출하기 위한 한가지 종래의 방법은 비디오에서 샷(shot)의 배열을 기초로 한다. 샷은 연속적으로 캡쳐된 비디오 프레임의 시퀀스로서 정의될 수 있다. 예를 들어, 전문적으로 제작된 비디오는 신중하게 선택된 샷의 집합으로 배열될 수 있다. 이러한 비디오의 키 프레임은, 샷들간에 경계를 검출하고, 이어서, 각 검출된 샷에 대한 키 프레임의 집합을 선택함으로써 추출될 수 있다. 예를 들어, 키 프레임은 샷의 시작, 중간 및/또는 끝에서 선택될 수 있다.

불행하게도, 샷 검출을 기초로 하는 키 프레임 추출 방법은 짧은 비디오 클립, 또는 샷이 신중하게 배열되지 않은 아마츄어 비디오로부터 키 프레임을 추출하기에는 적합하지 않을 수 있다. 또한, 이러한 종래의 방법에 의해 선택된 키 프레임은 의미 있을 수 있는 비디오의 컨텐츠나 비디오 내의 컨텐츠에서 하이라이트를 나타낼 수 없었다.

본 발명은 비디오에서, 비디오내의 의미있는 콘텐츠를 나타내는 키 프레임을 내는 비디오로부터의 키 프레임의 인텔리전트 추출 방법에 관한 것이다. 본 발명에 따른 방법은 비디오에서, 각 비디오 프레임에 관한 분석의 집합을 행함으로써 일련의 비디오 프레임 중에서 후보 키 프레임의 집합을 선택하는 단계를 포함한다. 비디오에서 대응 유형의 의미있는 콘텐츠를 검출하도록 각 분석이 선택된다. 그 후, 후보 키 프레임은 클러스터의 집합으로 배열되고, 이어서 비디오에서 의미있는 콘텐츠를 검출하는 측면에서 그 상대적인 중요성에 따라 각 클러스터로부터 선택된다.

본 발명은 비디오 클립의 의미있는 콘텐츠를 나타내는 키 프레임을 추출함으로써 대량의 비디오 클립을 관리하기 위해 사용될 수 있다. 본 발명에 따라 추출된 키 프레임은 비디오 브라우징 및 비디오 프린팅을 위해 사용될 수 있다.

본 발명의 다른 특징 및 유리한 점은 다음의 상세한 설명으로부터 명백해질 것이다.

본 발명은 본 발명의 특정 실시예에 관해 설명되어 있고, 이에 따라 도면을 참조한다.

도 1은 본 발명에 따라 비디오로부터 키 프레임의 집합을 추출하는 방법의 일 실시예를 도시한다. 단계(300)에서, 후보 키 프레임의 집합은 비디오내의 일련의 비디오 프레임 중에서 선택된다. 후보 키 프레임은 각 비디오 프레임에 대한 분석을 행함으로서 선택된다. 각 분석은 비디오에서 의미있는 콘텐츠를 검출하도록 선택된다. 의미있는 콘텐츠는 예를 들어, 비디오에서의 카메라 움직임, 비디오에서의 물체 움직임, 비디오에서의 사람 얼굴 콘텐츠 및/또는 비디오에서 오디오 이벤트를 분석함으로써 검출될 수 있다.

단계(302)에서, 단계(300)로부터의 후보 키 프레임은 일련의 클러스터로 배열된다. 클러스터의 개수는 고정되거나, 비디오의 콘텐츠의 복잡도에 따라 변할 수 있다.

단계(304)에서, 각 클러스터로부터 후보 키 프레임 중 하나는 비디오에 대한 키 프레임으로서 선택된다. 키 프레임은 각 후보 키 프레임의 상대적인 중요성에 따라 선택될 수 있다. 후보 키 프레임의 상대적인 중요성은 후보 키 프레임에서 의미있는 콘텐츠의 전체 레벨을 기초로 할 수 있다.

도 2는 본 발명에 따라 키 프레임 추출 시스템(10)의 일 실시예를 도시한다. 키 프레임 추출 시스템(10)은 비디오(12)로부터 키 프레임(32)의 집합을 추출한다.

키 프레임 추출 시스템(10)은 비디오(12)에서 일련의 비디오 프레임 중 각 비디오 프레임을 추출하고, 추출된 비디오 프레임을 프레임 분석기 집합(20, 22, 24)으로 입력하는 비디오 프레임 추출기(14)를 포함한다. 각 프레임 분석기(20, 22, 24)는 비디오 프레임 추출기(14)로부터 입력된 비디오 프레임에 대해 대응하는 분석을 행한다. 각 분석은 비디오(12) 내에서 의미있는 콘텐츠를 검출하도록 선택된다. 각 프레임 분석기(20, 22, 24)는 비디오(12)의 비디오 프레임으로부터 후보 키 프레임을 선택한다. 프레임 분석기(20, 22, 24)가 선택한 후보 키 프레임은 후보 키 프레임(18)의 집합으로서 누적된다.

키 프레임 추출 시스템(10)은 비디오(12)에서 오디오 이벤트를 검출하는 오디오 이벤트 검출기(16)를 포함한다. 검출된 오디오 이벤트에 대응하는 비디오 (12)의 비디오 프레임은 후보 키 프레임(18)에 포함되도록 선택된다.

키 프레임 추출 시스템(10)은 비디오(12)에서 오디오 이벤트를 검출하는 오디오 이벤트 검출기(16)를 포함한다. 검출된 오디오 이벤트에 대응하는 비디오(12)의 비디오 프레임은 후보 키 프레임(18)에 포함되도록 선택된다.

키 프레임 추출 시스템(10)은 각 후보 키 프레임(18)의 상대적인 중요성을 기초로 하여 후보 키 프레임(18) 중에서 키 프레임(32)을 선택하는 키 프레임 선택기(30)를 포함한다. 또한, 키 프레임 선택기(30)는 각 후보 키 프레임(18)의 상대적인 영상 품질을 기초로 하여 후보 키 프레임(18) 중에서 키 프레임(32)을 선택한다.

프레임 분석기(20, 22, 24)는 색상 히스토그램 분석기(color histogram analyzer)를 포함한다. 색상 히스토그램 분석기는 비디오(12)의 각 비디오 프레임에 대한 색상 히스토그램을 결정한다. 비디오(12)에서 비디오 프레임의 색상 히스토그램의 차는 비디오 프레임의 콘텐츠를 구별하기 위해 사용될 수 있다. 예를 들어, 색상 히스토그램의 차는 비디오(12)에서 장면의 상당한 변화를 검출하기 위해 사용될 수 있다. 색상 히스토그램 분석기는, 이전의 비디오 프레임에 비해 그 색상 히스토그램에서 상대적으로 큰 변화가 검출되면, 비디오(12)에서의 비디오 프레임을 후보 키 프레임으로서 선택한다. 색상 히스토그램 분석기는 비디오(12)에서의 조명 변화의 영향을 최소화하기 위해서 비디오 프레임에 대한 색상 히스토그램을 정규화한다.

먼저, 색상 히스토그램 분석기는 비디오(12)에서 제 1 비디오 프레임을 후보 키 프레임 및 기준 프레임으로서 선택한다. 그 후, 색상 히스토그램 분석기는, 색상 히스토그램의 차가 소정의 임계치보다 높을 때까지 비디오(12)내의 후속하는 각각의 비디오 프레임의 색상 히스토그램과 기준 프레임의 색상 히스토그램을 비교한다. 그 후, 색상 히스토그램 분석기는 소정의 임계치를 초과하는 비디오 프레임을 후보 키 프레임 및 새로운 기준 프레임으로 선택하고, 이어서 비디오(12)내의 나머지 비디오 프레임에 대해 이러한 처리를 반복한다.

색상 히스토그램 차는 다음과 같이 계산될 수 있다. 비디오 프레임에 대한 색상 히스토그램은 비디오 프레임에서 각 픽셀의 적색 성분, 녹색 성분 및 청색 성분의 값을 하나의 색상 코드로 결합함으로써 계산될 수 있다. 색상 코드의 비트 깊이는 임의적일 수 있다. 예컨대, 8 비트의 색상 코드는 0 내지 255의 범위를 가지고, 최상위 4개의 녹색 비트와, 다음 최상위 2개의 적색 비트와, 다음 최상위 2개의 청색 비트를 가질 수 있다. 그 결과, 비디오 프레임에 대한 색상 히스토그램 H(k)의 값은 비디오 프레임에서 색상 코드가 k ― 여기서, k = 0 내지 255 ― 와 동일한 픽셀의 전체 개수이다.

H_i(k)가 제 i 비디오 프레임에 대한 히스토그램 값을 나타내고, H_j(k)가 제 j 비디오 프레임에 대한 히스토그램 값을 나타내고, k = 0 내지 255라고 하자. 제 i 비디오 프레임과 제 j 비디오 프레임간의 색상 히스토그램 차는 다음과 같이 계산된다.

이와 다르게, 제 i 비디오 프레임과 제 j 비디오 프레임간의 색상 히스토그램 차는 그 차이를 보다 크게 반영하기 위해 다음과 같이 계산될 수 있다.

조명 변화로 인해 두 개의 연속하는 비디오 프레임에 대한 색상 히스토그램이 시프트될 수 있으므로 휘도 정규화(luminance normalization)를 적용할 수 있다. 이로써, 두 개의 유사한 비디오 프레임이 상대적으로 큰 색상 히스토그램 차를 나타내게 할 수 있다. 휘도 정규화는 비디오 프레임에서 전체 픽셀의 휘도의 합을 정규화함으로써 이루어질 수 있다. 인접 비디오 프레임간에 상대적으로 큰 색상 히스토그램 차가 검출되면 정규화가 이루어질 수 있다. 후속 비디오 프레임의 휘도는 새로운 기준 프레임이 선택될 때까지 기준 프레임의 휘도에 따라 정규화될 수 있다.

도 3은 비디오(12)내의 일련의 비디오 프레임(40 내지 47)의 예에 대한 색상 히스토그램 분석기의 동작을 도시한다. 비디오 프레임(40)은 비디오(12)내에서 최초 비디오 프레임이고, 색상 히스토그램 분석기에 의해 최초 후보 키 프레임 및 최초 기준 프레임으로서 선택된다.

색상 히스토그램 분석기는 비디오 프레임(40)에 대한 색상 히스토그램 및 비디오 프레임(41)에 대한 색상 히스토그램을 결정하고, 비디오 프레임(40, 41)의 색상 히스토그램의 차를 결정한다. 비디오 프레임(40) 및 비디오 프레임(41)의 색상 히스토그램의 차는 소정의 임계치를 초과하지 않는다. 색상 히스토그램 분석기는 비디오 프레임(42)에 대한 색상 히스토그램과, 비디오 프레임(40) 및 비디오 프레임(42)의 색상 히스토그램 차를 결정한다. 또한, 비디오 프레임(40) 및 비디오 프레임(42)의 색상 히스토그램 차는 소정의 임계치를 초과하지 않는다. 색상 히스토그램 분석기는 비디오 프레임(43)에 대한 색상 히스토그램과, 비디오 프레임(40) 및 비디오 프레임(43)의 색상 히스토그램 차를 결정한다. 비디오 프레임(40) 및 비디오 프레임(43)의 색상 히스토그램 차는 소정의 임계치를 초과해서, 색상 히스토그램 분석기는 또 다른 후보 키 프레임으로서, 그리고 후속 비디오 프레임(44 내지 47)에 대한 색상 히스토그램과 비교하기 위한 새로운 기준 프레임으로서 비디오 프레임(43)을 선택하게 된다.

후속 단계에서, 색상 히스토그램 분석기는 다음 후보 키 프레임으로서 비디오 프레임(47)을 선택한다. 도 3에 도시한 화살표는 비디오 프레임들(40 내지 47)간에 색상 히스토그램을 비교하는 것을 나타낸다.

프레임 분석기(20, 22, 24)는 비디오(12)의 각 비디오 프레임에 대해 색상 레이아웃을 결정하는 색상 레이아웃 분석기를 포함한다. 비디오 프레임에서 색상 레이아웃은 비디오 프레임의 콘텐츠를 구별하기 위해 사용될 수 있다. 예를 들어, 비디오(12)의 비디오 프레임의 색상 레이아웃의 차는 비디오(12)에서 물체의 상당한 변화를 검출하고, 비디오(12)에서 물체의 움직임을 검출하기 위해 사용될 수 있다.

도 4는 비디오(12) 중 물체(54)를 포함하는 일련의 비디오 프레임(50, 51 52)의 예를 도시한다. 물체(54)는 각각의 후속 비디오 프레임(50, 51, 52) 내에서 위치가 변한다. 물체(54)의 변하는 위치는 비디오 프레임(50, 51, 52)에서 색상 레이아웃의 변화로서 표시된다. 예를 들어, 물체(54)의 색상 콘텐츠는 비디오 프레임(50)의 서브 블록(55)에 대부분 포함되고, 그 후 비디오 프레임(51)의 서브 블록(56)으로 대부분 이동하고, 그 후 비디오 프레임(52)의 서브 블록(57)으로 대부분 이동한다.

색상 레이아웃 분석기는, 비디오(12)에서 이전의 비디오 프레임에 비해 그 색상 레이아웃에서 상대적으로 큰 변화가 검출되면 비디오 프레임을 후보 키 프레임으로서 선택한다. 먼저, 색상 레이아웃 분석기는 비디오(12)에서 후보 키 프레임 및 기준 프레임으로서 제 1 비디오 프레임을 선택한다. 이어서, 색상 레이아웃 분석기는 차가 소정의 임계치보다 클 때까지, 기준 프레임에 대한 색상 레이아웃을 비디오(12)에서의 각각의 후속 비디오 프레임에 대한 색상 레이아웃과 비교한다. 색상 레이아웃 분석기는 그 색상 레이아웃에서의 차가 소정의 임계치를 초과하는 비디오 프레임을 새로운 후보 키 프레임 및 새로운 기준 프레임으로서 선택하고, 이어서 비디오(12)에서의 나머지 비디오 프레임에 대해 이러한 처리를 반복한다.

색상 레이아웃 차는, 비디오 프레임을 다수의 서브 블록으로 분할함으로써 계산될 수 있다. 예컨대, 비디오 프레임의 폭이 WIDTH이고, 비디오 프레임의 높이가 HEIGHT이고, 비디오 프레임이 N × N개의 서브 블록으로 분할되면, 각 서브 블록의 폭은 WIDTH/N이고, 각 서브 블록의 높이는 HEIGHT/N이다. 그 후, 전체 서브 블록에 대해서 적색 성분, 녹색 성분 및 청색 성분 각각을 평균화함으로써 각 서브 블록의 평균 색상이 계산될 수 있다.

두 개의 비디오 프레임간의 색상 레이아웃 차는, 두 개의 비디오 프레임에서 대응하는 서브 블록의 각 쌍의 평균 색상의 차를 계산, 즉, 각 색상 성분의 차의 절대치의 평균을 계산함으로써 계산될 수 있다. N × N개의 서브 블록 중에서 최대 차 값을 갖는 M개의 서브 블록이 선택된다. 두 개의 비디오 프레임의 색상 레이아웃 차를 나타내기 위해, M개의 차 값의 평균이 계산된다.

이와 다르게, 색상 레이아웃을 계산하기 위해 다른 방법, 예컨대 MPEG-7 표준에 정의된 방법이 사용될 수 있다.

색상 레이아웃 분석기와 색상 히스토그램 분석기는 색상 레이아웃 및/또는 색상 히스토그램의 측면에서 상당히 다른 후보 키 프레임이 나오게 한다. 색상 레이아웃 및/또는 히스토그램이 상당히 다른 후보 키 프레임은 선택된 키 프레임간의 중복을 방지하며 비디오(12)에서 서로 다른 장면의 뷰를 나타내는 키 프레임의 선택을 가능하게 한다.

프레임 분석기(20 내지 24)는 빠른 카메라 움직임 검출기를 포함한다. 빠른 카메라 움직임 검출기는 비디오(12)에서 다수의 연속하는 비디오 프레임에서 인접하는 비디오 프레임의 색상 레이아웃이나 색상 히스토그램에서의 상대적으로 큰 차를 검출함으로써 비디오(12)를 찍은 카메라의 빠른 움직임을 검출할 수 있다. 비디오(12)에서 빠른 카메라 움직임의 기간에 대응하는 비디오 프레임은, 빠른 움직임이 영상을 블러링(blur)하는 경향이 있으므로 후보 키 프레임(18)으로는 선택되지 않는다. 이 대신에, 빠른 카메라 움직임 검출기는, 빠른 카메라 움직임이 정지되고, 카메라가 안정화되자마자 후보 키 프레임을 선택한다.

프레임 분석기(20 내지 24)는 카메라 움직임 추적기를 포함한다. 카메라 움직임 추적기는, 비디오(12)를 찍은 카메라의 움직임을 추적함으로써 비디오(12)의 콘텐츠의 하이라이트를 검출한다. 카메라 움직임 추적기는, 비디오(12)의 일련의 비디오 프레임 중에서 상대적인 움직임을 분석함으로써 비디오(12)에서 카메라 움직임을 검출한다. 카메라 움직임 추적기는 블록 기반 움직임 분석, 예컨대 MPEG 인코딩과 연관되어 있는 움직임 분석을 이용하여 비디오(12)내의 비디오 프레임 중에서 상대적인 움직임을 검출할 수 있다.

도 5a 내지 5c는 비디오(12)에서 인접하는 비디오 프레임의 쌍(60, 62) 중에서 상대적인 움직임을 결정하기 위해 카메라 움직임 추적기가 사용할 수 있는 한가지 방법을 나타낸다. 카메라 움직임 추적기는 비디오 프레임(60) 및 비디오 프레임(62)의 픽셀 콘텐츠를 비교하고 비디오 프레임(60)의 블록(70)이 비디오 프레임(62)의 블록(72)과 실질적으로 유사한지를 판단한다. 예를 들어, 카메라 움직임 추적기는 유사성을 결정하기 위해 블록(70, 72)에서의 픽셀 데이터값을 기초로 하여 블록(70)과 블록(72)간의 상관 관계 행렬을 결정할 수 있다. 카메라 움직임 추적기는 기준 프레임으로서 비디오 프레임(60)을 기초로 하여 블록(70)과 블록(72)간의 공간적 상관 관계를 나타내는 움직임 벡터(74)를 생성한다. 카메라 움직임 추적기는 비디오 프레임(60, 62)에 대한 움직임 벡터의 집합을 생성하며, 각각의 움직임 벡터는 기준 비디오 프레임(60)의 블록에 대응된다. 카메라 움직임 추적기는 움직임을 검출하기 위해 비디오(12)내의 인접 비디오 프레임의 쌍에 대한 움직임 벡터의 배열을 조사한다.

카메라 움직임 추적기는 크기 및 방향이 상대적으로 일관된 방향 및 일정한 크기를 나타내는 인접 비디오 프레임에 대한 움직임 벡터의 배열을 검출함으로써 패닝 움직임(panning motion)을 검출할 수 있다. 카메라 움직임 추적기는 비디오 프레임의 중심으로부터 멀어지는 인접 비디오 프레임에 대한 움직인 벡터의 배열을 검출함으로써 줌 아웃 움직임(zooming out motion)을 검출할 수 있다. 카메라 움직임 추적기는 비디오 프레임의 중심을 향해 가까워지는 인접 비디오 프레임에 대한 움직임 벡터의 배열을 검출함으로써 줌 인 움직임(zooming in motion)을 검출할 수 있다. 카메라 움직임 추적기는, 인접 비디오 프레임에서 0에 가까운 움직임 벡터의 배치를 검출함으로써 초점의 기간을 검출할 수 있다. 카메라 움직임 추적기는, 상대적으로 높은 크기 및 일정한 방향을 갖는 인접 비디오 프레임에 대한 움직임 벡터를 검출함으로써 빠른 패닝 또는 틸팅 카메라 움직임의 기간을 검출할 수 있다.

카메라 움직임 추적기는 카메라 움직임 규칙의 집합을 이용하여 후보 키 프레임을 선택한다. 하나의 카메라 움직임 규칙은 패닝이나 주밍 움직임의 주기 후의 카메라 포커싱을 포함한다. 패닝이나 주밍 움직임 기간 후에 카메라가 포커싱할 때 카메라 움직임 검출기가 시간을 검출하면, 포커싱 기간 시작 직후에 후보 키 프레임이 선택된다. 포커싱의 기간은 비디오(12)에서 관심의 대상이 되는 장면 또는 물체에 대응할 수 있다.

또 다른 카메라 움직임 규칙은, 비디오(12)의 시작에서 상대적으로 긴 기간의 포커싱 후에 패닝 움직임을 포함한다. 카메라 움직임 추적기가 비디오(12)의 시작에서 상대적으로 긴 포커싱 기간 후에 패닝 움직임을 검출하면, 카메라 키 프레임은 패닝 움직임의 시작에서 선택된다. 패닝 움직임의 시작은 비디오(12)에서 하이라이트 대상이 곧 나옴을 나타낼 수 있다.

또 다른 카메라 움직임 규칙은 비디오(12)에서의 빠른 카메라 움직임을 포함한다. 카메라 움직임 추적기가 비디오(12)에서 빠른 카메라 움직임을 검출하면, 빠른 카메라 움직임의 기간 중에 후보 키 프레임이 선택되지 않는다. 빠른 카메라 움직임의 기간은 비디오(12)를 찍은 카메라의 조작자에게 관심의 대상이 아닌 비디오(12)내의 콘텐츠를 나타낼 수 있다.

프레임 분석기(20 내지 24)는 물체 움직임 분석기를 포함한다. 물체 움직임 분석기는 비디오 프레임에서 작은 그리드 색상 레이아웃을 비교함으로써 비디오(12)내에서 움직이는 물체의 궤도를 조사한다. 물체 움직임 분석기는, 비디오 프레임 내에서 새로운 물체가 나타나거나 물체의 움직임이 물체 크기 또는 물체 위치의 측면에서 상당히 변하면 후보 비디오 프레임을 선택한다. 바람직하게는, 물체 움직임 분석기는 비디오 프레임의 중심 근처에 움직이는 물체가 배치된 비디오 프레임을 선택한다.

도 6은 움직이는 물체(114)를 캡쳐하는 비디오(12)의 인접 비디오 프레임의 쌍(110, 112)을 도시한다. 물체 움직임 분석기는, 움직이는 물체(114)가 비디오 프레임(112) 내에서 상당한 크기를 가지고, 비디오 프레임(112)의 중심 근처에 배치되기 때문에 비디오 프레임(112)을 후보 비디오 프레임으로서 선택한다.

물체 움직임 분석기는 움직이는 물체에 속하는 관찰 결과의 집합을 기초로 하여 움직이는 물체(114)를 검출한다. 하나의 관찰 결과는 비디오(12)내의 배경 움직임과 비디오(12)내의 전경 움직임이 상당히 다르다는 것이다. 또 다른 관찰 결과는, 비디오를 찍은 촬영가가 보통 크기 또는 보다 큰 크기의 움직이는 물체를 찍으려 했고, 카메라 뷰파인더(viewfinder)의 중심 근처에, 관심의 대상인 움직이는 물체를 유지하려고 했다는 것이다. 또 다른 관찰 결과는 카메라 조작자가 한번에 하나의 두드러진 이동 물체에 관심을 가졌다는 것이다.

도 7a 및 7b는 비디오(12)의 비디오 프레임(126) 내에서 움직이는 물체를 검출하기 위해 물체 움직임 분석기가 수행한 방법을 나타낸다. 물체 움직임 분석기는 먼저 비디오 프레임(126)에 입각하여 카메라 움직임 추적(120)을 행한다. 그 후, 물체 움직임 분석기는 비디오 프레임(126)에 대한 카메라 움직임 평가에 따라 오차 에러 계산을 행함으로써 오차 영상(130)을 생성한다. 그 후, 물체 움직임 분석기는 오차 영상(130)에 필터링을 행한다. 필터링(124)은 일련의 필터(140 내지 143)를 포함한다. 도 7b는 오차 영상(130)으로부터 유도된 필터링된 오차 영상(160)을 도시한다.

그 후, 물체 움직임 분석기는 블록(170)의 관련성을 기초로 하여 필터링된 오차 영상(160)에서 블록(170)의 집합을 클러스터링한다. 물체 움직임 분석기는 도 7b에 도시한 바와 같이, 블록(170)의 나머지를 제거하고, 이와 동시에 가장 큰 클러스터가 비디오 프레임(126)의 중심 근처에 있게 블록(180)의 클러스터를 유지한다. 그 후, 물체 움직임 분석기는 도 7b에 도시한 바와 같이, 비디오 프레임(126)에서 검출되는 움직이는 물체의 위치를 나타내는 블록(180)을 위한 상자(162) 를 결정한다.

상자(162) 내에 움직이는 물체가 검출되면, 비디오 프레임(126) 뒤에 오는 비디오(12)의 비디오 프레임 전체에 걸쳐서 물체 움직임 분석기가 물체를 추적한다. 물체 움직임 분석기는 연속적인 비디오 프레임에서 물체 움직임을 추적하기 위한 것으로 알려져 있는 다양한 방법 중 어떤 방법을 이용하여 물체를 추적할 수 있다.

프레임 분석기(20 내지 24)는 사람 얼굴 검출기를 포함한다. 사람 얼굴 검출기는, 사람 얼굴을 포함하는 비디오 프레임이 사람 얼굴을 포함하지 않는 비디오 프레임보다 비디오(12)를 보는 사람에게 보다 관심이 있을 수 있음을 가정하므로 비디오(12)의 비디오 프레임 중에서 사람 얼굴을 포함하는 후보 키 프레임을 선택한다. 또한, 사람 얼굴 검출기는 검출되는 어떤 사람 얼굴의 크기 및 프레임 위치를 기록한다. 사람 얼굴 검출기는 패턴 매칭, 예컨대 사람 얼굴 특징의 배열 매칭을 기초로 하는 방법 등의 사람 얼굴 검출 방법으로 알려져 있는 어떤 방법을 이용할 수 있다.

오디오 이벤트 검출기(16)는 비디오(12)의 음성 트랙에서 하이라이트를 나타낼 수 있는 오디오 이벤트를 검출한다. 오디오 이벤트의 예에는 박수(applause), 외침, 갈채(acclaim), 일정 기간의 정적 후 높은 수준의 잡음의 시작이 포함된다. 오디오 이벤트 검출기(16)는 비디오(12)에서 후보 키 프레임(18)에 포함되는 오디오 이벤트의 시작에 대응하는 비디오 프레임을 선택한다. 오디오 이벤트 검출기(16)는 소정의 오디오 이벤트의 집합에 대한 오디오 에너지의 통계적 모델을 사용 하고, 그 후, 비디오(12)의 각 비디오 프레임에서의 오디오 에너지를 이 통계적 모델과 매칭할 수 있다.

도 8a는 예시적인 오디오 이벤트(220)에 대한 오디오 스펙트럼이다. 예시적인 오디오 이벤트(220)는 상대적으로 높은 수준의 급격하게 변한 피치에 의해 특징을 띠는 외침 소리다. 오디오 이벤트 검출기(16)는 비디오(12)의 음성 트랙에서 외침 피치, 즉, 오디오 신호의 주파수 도메인에서 기본 주파수 및 파셜(partials), 즉, 기본 주파수의 정수 배수를 검색하고, 외침 지점에서 후보 키 프레임이 선택된다.

도 8b는 상대적으로 긴 기간 동안의 정적 후에 잡음 또는 스피치의 기간이 있는 오디오 이벤트(22)의 예의 오디오 신호 파형이다. 오디오 이벤트 검출기(16)는 오디오 신호의 에너지 레벨을 추적하여, 상대적으로 긴 기간의 정적 후에 잡음 또는 스피치의 기간의 시작에 대응하는 지점(222)에서 후보 키 프레임을 선택한다.

도 9는 후보 키 프레임(18) 중에서 키 프레임(32)을 선택하기 위해 키 프레임 선택기(30)가 사용하는 방법의 실시예를 도시한다. 단계(200)에서, 키 프레임 선택기(30)는 각각의 후보 키 프레임(18)의 특징을 기초로 하여 후보 키 프레임(18)을 클러스터링한다. 일 실시예에서, 키 프레임 선택기(30)는 각 후보 키 프레임(18)의 색상 히스토그램에 따라 후보 키 프레임(18)을 클러스터링한다. 다른 실시예에서는, 후보 키 프레임(18)의 다른 특징들이 단계(200)에서의 클러스터링을 위한 기초로서 사용될 수 있다.

키 프레임 선택기(30)는 단계(200)에서 후보 키 프레임(18)을 고정된 수 N개 의 클러스터로 클러스터링할 수 있다. 예를 들어, 4개의 키 프레임이 선택되는 일 실시예에서, 키 프레임 선택기(30)는 후보 키 프레임(18)을 4개의 클러스터로 클러스터링한다. 키 프레임의 개수는 특정한 용도, 예컨대, 비디오 포스트카드, 비디오 스토리북, 카메라나 프린터 상의 LCD 디스플레이 등을 위해 적절할 수 있는 키 프레임의 개수에 제한될 수 있다. 먼저, 키 프레임 선택기(30)는 각각의 클러스터(1 내지 N)에 따라 후보 키 프레임(18) 중 N개의 후보 키 프레임을 각각의 클러스터(1 내지 N)에 임의로 할당한다. 이들 후보 키 프레임의 색상 히스토그램은 각 클러스터(1 내지 N)에서 초기 중심(centroid)을 제공한다. 그 후, 키 프레임 선택기(30)는 나머지 후보 키 프레임(18)의 색상 히스토그램을 클러스터(1 내지 N)의 중심과 반복적으로 비교하고 후보 키 프레임(18)을, 중심에 가장 가까운 것을 기초로 하여 클러스터(1 내지 N)에 할당하고, 이에 따라 클러스터(1 내지 N)의 중심을 업데이트한다.

키 프레임 선택기(30)는 단계(200)에서 후보 키 프레임(18)을 가변 개수 n개의 클러스터로 클러스터링할 수 있다. n의 값은 비디오(12)의 콘텐츠의 복잡도에 따라 다를 수 있다. 예를 들어, 키 프레임 선택기(30)는 비디오(12)의 콘텐츠가 보다 더 다양하면 보다 많은 개수의 클러스터를 사용할 수 있다. 이는 예컨대 비디오 콜렉션을 브라우징에 사용하기 위해 보다 많은 키 프레임(32)을 내기 위해 사용될 수 있다. 먼저, 키 프레임 선택기(30)는 제 1 후보 키 프레임(18)을 클러스터 1로 할당하고, 그 색상 히스토그램을 클러스터 1의 중심으로서 사용한다. 그 후, 키 프레임 선택기(30)는 제 2 후보 키 프레임(18)에 대한 색상 히스토그램을 클러스터 1의 중심과 비교한다. 클러스터 1의 중심과의 차가 소정의 임계치 미만이면, 제 2 후보 키 프레임이 클러스터 1에 할당되고, 클러스터 1에 대한 중심이 제 2 후보 키 프레임(18)의 색상 히스토그램으로 업데이트된다. 제 2 후보 키 프레임(18)의 색상 히스토그램이 소정의 임계치를 초과하는 양만큼 클러스터 1의 중심과 다르면, 제 2 후보 키 프레임은 클러스터 2에 할당되고, 그 색상 히스토그램은 클러스터 2의 중심으로서 작용한다. 이러한 처리가 나머지 후보 키 프레임(18)에 대해 반복된다.

단계(202)에서, 키 프레임 선택기(30)는 각 후보 키 프레임(18)에 대해 중요성 점수를 정한다. 후보 키 프레임의 중요성 점수는 후보 키 프레임의 특성 집합을 기초로 한다.

후보 키 프레임에 대한 중요성 점수를 결정하기 위해 사용되는 하나의 특성은 후보 키 프레임이 카메라 움직임 추적기의 카메라 움직임 규칙들 중 하나의 규칙을 만족시키는지 여부이다. 후보 키 프레임이 카메라 움직임 규칙들 중 하나의 규칙을 만족시키면, 키 프레임 선택기(30)는 후보 키 프레임에 중요성 포인트 1을 부여한다.

후보 키 프레임에 대한 중요성 점수를 정하기 위해 사용되는 또 다른 특성은 후보 키 프레임에 포함될 수 있는 사람 얼굴을 기초로 한다. 이러한 특성에 속하는 인자는 후보 키 프레임 내의 사람 얼굴의 개수, 후보 키 프레임에서의 사람 얼굴의 크기, 후보 키 프레임 내의 사람 얼굴의 위치를 포함한다. 키 프레임 선택기(30)는 사전결정된 영역 범위, 예컨대 후보 키 프레임의 중심 영역에 포함되고, 사 전결정된 크기보다 큰 사람 얼굴의 개수(F)를 카운트하고, 후보 키 프레임에 중요성 포인트 F를 부여한다.

후보 키 프레임에 대한 중요성 점수를 결정하기 위해 사용되는 또 다른 특성은 후보 키 프레임 내에서 이동하는 물체를 기초로 한다. 키 프레임 선택기(30)는, 후보 키 프레임이, 사전결정된 크기 범위 내의 일정한 크기를 갖는 이동 물체를 포함하면 후보 키 프레임에 중요성 포인트 M을 부여한다. 수 M은 프레임의 중심과 관련하여 후보 키 프레임에서 움직이는 물체의 위치에 의해 결정된다. 후보 키 프레임의 사전 정의된 중심 영역 범위 내에 움직이는 물체가 있으면 수 M은 3과 같다. 후보 키 프레임의 사전 정의된 제 2 수준 영역 범위 내에 움직이는 물체가 있으면 수 M은 2와 같다. 후보 키 프레임의 사전 정의된 제 1 수준 영역 범위 내에 움직이는 물체가 있으면 수 M은 1과 같다.

후보 키 프레임에 대한 중요성 점수를 결정하기 위해 사용되는 또 다른 특성은 후보 키 프레임과 연관되어 있는 오디오 이벤트를 기초로 한다. 후보 키 프레임이, 오디오 이벤트 검출기(16)가 검출한 오디오 이벤트와 연관되어 있으면, 키 프레임 선택기(30)는 후보 키 프레임에 중요성 포인트 1을 부여한다.

키 프레임 선택기(30)는 해당하는 중요성 포인트를 조사(tallying)함으로써 각 후보 키 프레임(18)의 중요성 점수를 결정한다.

단계(204)에서, 키 프레임 선택기(30)는 각각의 후보 키 프레임(18)에 대한 영상 품질 점수를 정한다. 후보 키 프레임에 대한 영상 품질 점수는 후보 키 프레임의 선명도(sharpness)나 후보 키 프레임의 밝기 또는 선명도와 밝기의 조합을 기 초로 할 수 있다. 키 프레임 선택기(30)는, 각 후보 키 프레임(18)에 대한 영상 품질 점수를 정할 때, 비디오 프레임의 선명도 및 밝기를 결정하기 위한 방법으로 알려져 있는 방법을 수행할 수 있다.

단계(206)에서, 키 프레임 선택기(30)는, 후보 키 프레임(18)의 각 클러스터로부터 하나의 후보 키 프레임을 선택함으로써 키 프레임(32)을 선택한다. 키 프레임 선택기(30)는 가장 높은 중요성 점수를 가지고, 사전 결정된 임계치를 초과하는 영상 품질 점수를 갖는 후보 키 프레임을 클러스터에서 선택한다. 예컨대, 키 프레임 선택기(30)가 클러스터 내에서, 가장 높은 중요성 점수를 가지는 후보 키 프레임을 선택했는데, 그 영상 품질 점수가 사전 결정된 임계치 미만이면, 키 프레임 선택기(30)는 그 클러스터 내에서, 영상 품질 점수 임계치가 만족될 때까지 다음으로 높은 중요성 점수를 갖는 후보 키 프레임 등으로 선택한다. 최고 중요성 점수를 갖는 후보 키 프레임이 하나보다 많으면, 클러스터의 중심에 가장 가까운 후보 키 프레임이 선택된다.

키 프레임 추출 시스템(10)은 비디오(12)에서 키 프레임의 반자동적 사용자 선택을 가능하게 할 수 있다. 예를 들어, 키 프레임(32)이 초기 집합으로서 사용될 수 있다. 초기 집합을 기초로 하여, 사용자는 프린팅하거나 친구에게 전자 우편으로 보내기 위한 등의 목적으로 정확한 프레임을 찾기 위해서 초기 집합 내에서 각 키 프레임에 대한 이전 프레임 및 후속 프레임을 브라우징하도록 선택할 수 있다. 또 다른 예에서, 키 프레임 선택기(30)는 각 클러스터에서 X개의 후보 키 프레임, 예를 들어, 중요성 점수가 가장 높은 X개의 후보 키 프레임을 선택할 수 있 다. 키 프레임 추출 시스템(10)은 디스플레이 및 사용자 인터페이스 메카니즘을 포함할 수 있다. 각 클러스터에서 X개의 후보 키 프레임이 디스플레이 상에 랜더링될 수 있고, 사용자는 후보 키 프레임 중 가장 많이 나타난 후보 키 프레임을 사용자 인터페이스 메카니즘을 통해 선택할 수 있다.

본 방법은 비디오 클립의 집합체, 예컨대 캠코더로 획득한 비디오 레코딩에서의 편집되지 않은 긴 샷 뿐만 아니라 디지털 카메라로 획득한 짧은 비디오 클립의 수집된 클립을 관리하기 위해 사용될 수 있다. 비디오 클립으로부터 추출된 키 프레임은 비디오 프린팅 및/또는 비디오 브라우징 및 예컨대 이메일, 셀룰러 전화 디스플레이 등을 통한 비디오 통신을 위해 사용될 수 있다. 키 프레임 추출을 위한 위의 방법은 비디오 클립에서 하이라이트를 나타낼 수 있는 키 프레임을 내고, 비디오 클립 내에서 보는 사람에게 의미 있을 수 있는 콘텐츠를 나타낸다. 프레임 분석기(20 내지 24)가 수행하는 다수의 유형의 콘텐츠 분석에 의해, 비디오 클립의 콘텐츠의 광범위하게 표시하는 키 프레임의 추출이 가능하게 된다. 추출된 키 프레임은 비디오 데이터를 분류하고 비디오 데이터를 검색하는 것 뿐만 아니라 비디오 클립을 미리 보기위한 비디오 클립의 썸네일 표시를 위해 사용될 수 있다. 추출된 키 프레임은 스토리북, 포스트카드 등을 프린팅하기 위해 사용될 수 있다.

본 발명의 전술한 상세한 설명은 설명을 목적으로 제공되었을 뿐, 개시한 본 실시예에 국한하려는 것이 아니다. 따라서, 본 발명의 범위는 청구의 범위에 의해 정의된다.

비디오 클립의 의미있는 콘텐츠를 나타내는 키 프레임을 추출함으로써 대량의 비디오 클립을 관리할 수 있다.

Claims

비디오(12)로부터 키 프레임(32)의 집합을 추출하는 방법으로서,

각 비디오 프레임에 대해 분석 집합 ― 각 분석은 비디오(12)에서 의미있는 분석을 검출하도록 선택됨 ― 을 행함으로써 비디오(12)내의 일련의 비디오 프레임 중에서 후보 키 프레임(18)의 집합을 선택하는 단계와,

상기 후보 키 프레임(18)을 클러스터의 집합으로 배열하는 단계와,

각 후보 키 프레임의 상대적 중요성에 따라 각 클러스터로부터 상기 후보 키 프레임(18) 중 하나를 선택하는 단계를 포함하는

키 프레임 집합 추출 방법.
제 1 항에 있어서,

상기 후보 키 프레임(18)의 집합 선택 단계는

상기 비디오(12)에서의 카메라 움직임에 응답하여 후보 키 프레임(18)의 집합을 선택하는 단계를 포함하는

키 프레임 집합 추출 방법.
제 1 항에 있어서,

상기 후보 키 프레임(18)의 집합 선택 단계는

상기 비디오(12)에서의 물체 움직임에 응답하여 후보 키 프레임(18)의 집합을 선택하는 단계를 포함하는

키 프레임 집합 추출 방법.
제 1 항에 있어서,

상기 후보 키 프레임(18)의 집합 선택 단계는

상기 비디오(12)에서의 빠른 카메라 움직임에 응답하여 후보 키 프레임(18)의 집합을 선택하는 단계를 포함하는

키 프레임 집합 추출 방법.
제 1 항에 있어서,

상기 후보 키 프레임(18)의 집합 선택 단계는

상기 비디오(12)에서의 사람 얼굴 콘텐츠에 응답하여 후보 키 프레임(18)의 집합을 선택하는 단계를 포함하는

키 프레임 집합 추출 방법.
제 1 항에 있어서,

상기 비디오(12)에서의 오디오 이벤트에 응답하여 후보 키 프레임(18)의 집합을 선택하는 단계를 더 포함하는

키 프레임 집합 추출 방법.
키 프레임 추출 시스템으로서,

비디오(12)내의 일련의 비디오 프레임 중에서 각각 후보 키 프레임(18)의 집합을 선택하는 프레임 분석기(20, 22, 24)의 집합 ― 각각의 프레임 분석기(20, 22, 24)는 상기 비디오(12)에서 의미있는 콘텐츠를 검출함 ― 과,

상기 후보 키 프레임(18)을 클러스터의 집합에 배열하고 각 클러스터로부터 상기 후보 키 프레임(18) 중 하나를 각 후보 키 프레임(18)의 상대적 중요성에 따라 상기 비디오(12)에 대한 키 프레임으로서 선택하는 키 프레임 선택기(30)를 포함하는

키 프레임 추출 시스템.
제 7 항에 있어서,

상기 비디오(12) 내에서 오디오 이벤트의 집합을 검출함으로써 후보 키 프레 임(18)의 집합을 선택하는 오디오 이벤트 검출기를 더 포함하는

키 프레임 추출 시스템.
제 7 항에 있어서,

상기 프레임 분석기(20, 22, 24)는 색상 히스토그램 분석기를 포함하는

키 프레임 추출 시스템.
제 7 항에 있어서,

상기 프레임 분석기(20, 22, 24)는 색상 레이아웃 분석기를 포함하는

키 프레임 추출 시스템.