KR20120032560A

KR20120032560A - 공통 프로세싱 요소들에 기초하여 비디오 안정화를 수행하고 비디오 샷 경계를 검출하는 기법

Info

Publication number: KR20120032560A
Application number: KR1020127003602A
Authority: KR
Inventors: 리동 수; 이젠 치우; 치안 후앙
Original assignee: 인텔 코오퍼레이션
Priority date: 2009-08-12
Filing date: 2009-08-12
Publication date: 2012-04-05
Also published as: CN102474568A; KR101445009B1; CN102474568B; EP2465254A4; JP2013502101A; JP5435518B2; WO2011017823A1; EP2465254A1

Abstract

비디오 안정화 및 비디오 샷 경계들을 검출하기 위한 장치, 시스템 및 방법이 개시된다. 방법은: 비디오의 현재 프레임을 수신하는 단계; 현재 프레임을 다운스케일링하는 단계; 다운스케일링된 현재 프레임을 버퍼의 일부 내에 저장하는 단계; 다운스케일링된 기준 프레임 및 다운스케일링된 현재 프레임 내의 블록들의 절대차들의 합을 결정하는 단계; 다운스케일링된 현재 프레임의 프레임 간 우세 모션 파라미터들을 결정하는 단계; 및 모션 파라미터들 및 절대차들의 합 중 적어도 하나에 부분적으로 기초하여 비디오 안정화 및 샷 경계 검출 중 적어도 하나를 수행하는 단계를 포함한다.

Description

공통 프로세싱 요소들에 기초하여 비디오 안정화를 수행하고 비디오 샷 경계를 검출하는 기법{TECHNIQUES TO PERFORM VIDEO STABILIZATION AND DETECT VIDEO SHOT BOUNDARIES BASED ON COMMON PROCESSING ELEMENTS}

본원에 개시된 주제는 일반적으로 공통 프로세싱 요소들을 사용하여 비디오 안정화를 수행하고 비디오 샷 경계를 검출하는 기법들에 관한 것이다.

비디오 안정화는 디지털 비디오 카메라에 의해 촬영된 비디오 시퀀스의 시각적 품질을 개선하는 것을 목적으로 한다. 카메라가 손에 들려지거나 불안정한 플랫폼 위에 마운팅되면, 원치 않는 카메라의 모션들(motions) 때문에 촬영된 비디오가 흔들릴 수 있으며, 이는 감소된 뷰어 경험을 야기한다. 촬영된 비디오 프레임들에서 원치 않는 모션들을 제거하거나 또는 감소시키기 위해 비디오 안정화 기법들이 사용될 수 있다.

통상적으로, 비디오는 장면들로 구성되며, 각각의 장면은 하나 이상의 샷(shot)들을 포함한다. 샷은 하나의 카메라에 의해 하나의 연속적인 액션에서 촬영된 프레임들의 시퀀스로 정의된다. 샷 전환으로도 알려진, 한 샷으로부터 다른 샷으로의 변경은 두 가지 중요한 종류들을 포함한다: 순간적 전환(abrupt transition)(CUT) 및 점진적 전환(gradual transition)(GT). 비디오 샷 경계 검출은 샷 경계 프레임들을 검출하는 것을 목적으로 한다. 비디오 샷 경계 검출은, 비디오 코딩에서의 프레임 내 식별, 비디오 인덱싱, 비디오 검색 및 비디오 편집과 같은 다양한 응용들에 적용될 수 있다.

본 발명의 실시예들은 유사한 참조 번호들이 유사한 요소들을 참조하는 도면들에서 제한적이지 않은 예로서 예시된다.
도 1은 실시예에 따른 비디오 안정화 시스템의 블록도 형태를 도시한다.
도 2는 실시예에 따른 프레임 간 우세 모션 추정 모듈의 블록도를 도시한다.
도 3은 실시예에 따른 비디오 안정화를 개선하기 위해 수행되는 프로세스의 흐름도를 제공한다.
도 4는 실시예에 따른 샷 경계 검출 시스템의 블록도를 도시한다.
도 5는 실시예에 따른 샷 경계 판정 체계의 프로세스를 제공한다.
도 6은 실시예에 따른 비디오 안정화 및 샷 경계 검출을 수행하는 시스템의 블록도를 도시한다.
도 7은 검색 윈도우를 사용하여 기준 프레임 내에서 일치하는 블록을 식별하는 것의 예를 도시하는 것으로, 일치하는 블록은 현재 프레임 내의 목표 블록에 대응한다.

본 명세서에 걸쳐 "일 실시예", 또는 "실시예"의 참조는, 그 실시예에 관련하여 설명한 특정한 특징, 구조, 또는 특성이 적어도 본 발명의 일 실시예에 포함된다는 것을 의미한다. 그러므로, 본 명세서에 걸친 다양한 곳들에서 어구 "일 실시예에서" 또는 "실시예에서"가 나온다고 해서 반드시 모두 동일한 실시예를 참조하는 것은 아니다. 더욱이, 특정한 특징들, 구조들, 또는 특성들은 하나 또는 그 이상의 실시예들에서 조합될 수 있다.

그래픽 프로세싱 시스템은 복수의 비디오 프로세싱 특징들 뿐 아니라, 다양한 비디오 인코딩 또는 디코딩 표준들을 지원할 필요가 있을 수 있다. 다양한 실시예들은 그래픽 프로세싱 시스템으로 하여금 비디오 안정화 및 비디오 샷 경계 검출 특징들 양쪽 모두를 지원하도록 허용한다. 특히, 다양한 실시예들은 그래픽 프로세싱 시스템으로 하여금 비디오 안정화 및 비디오 샷 경계 검출 양쪽 모두를 위해 특정한 프로세싱 능력들을 사용하도록 허용한다. 일부 실시예들에서, 그래픽 프로세싱 시스템의 다운 샘플링(down sampling) 및 블록 모션 탐색 특징들은 비디오 안정화 및 비디오 샷 경계 검출 양쪽 모두를 위해 사용된다. 특징들의 재사용은 그래픽 프로세싱 시스템을 제조하는 것의 비용을 감소시킬 수 있으며, 그래픽 프로세싱 시스템의 크기 또한 감소시킬 수 있다.

다양한 실시예들은 MPEG-4 Part 10 advanced video codec(AVC)/H.264와 같으나, 이에 제한되지 않는 다양한 표준들에 따라 비디오 또는 정지된(still) 이미지들을 인코딩 또는 디코딩할 수 있다. H.264 표준은, VCEG(Video Coding Expert Group)으로 또한 알려진 ITU-T SG16 Q.6, 및 MPEG(Motion Picture Expert Group)으로 알려진 ISO-IEC JTC1/SC29/WG11(2003)을 포함하는 JVT(Joint Video Team)에 의해 준비되었다. 게다가, 실시예들은, 객체 지향 비디오 코딩, 모델 기반 비디오 코딩, 스케일러블(scalable) 비디오 코딩 뿐 아니라, MPEG-2(스위스 제네바의 International Organization for Standardization으로부터 입수 가능한 ISO/IEC 13818-1(2000)), VC1(10601 뉴욕 화이트 플레인즈 SMPTE로부터 입수 가능한 SMPTE 421M(2006))뿐 아니라 MPEG-4, MPEG-2, 및 VC1의 변형들을 포함하지만, 이들에 제한되지 않는 다양한 사진 이미지 또는 비디오 압축 시스템들에서 사용될 수 있다.

도 1은 실시예에 따른 비디오 안정화 시스템(100)을 블록도 형태로 도시한다. 비디오 안정화 시스템(100)은 프레임 간 우세 모션 추정(DME; dominant motion estimation) 블록(102), 궤적 계산 블록(104), 궤적 평탄화 블록(106), 및 지터(jitter) 보상 블록(108)을 포함한다. 프레임 간 DME 블록(102)은 비디오 시퀀스 내의 두 개의 연속적인 프레임들 사이의 카메라 진동을 결정한다. 프레임 간 DME 블록(102)은 로컬 모션 벡터들을 식별하고, 그 후 그 로컬 모션 벡터들에 기초하여 우세(dominant) 모션 파라미터들을 결정한다. 궤적 계산 블록(104)은 그 결정된 우세 모션 파라미터들을 사용하여 모션 궤적을 계산한다. 궤적 평탄화 블록(106)은 더 평탄한 궤적을 제공하기 위해 계산된 모션 궤적을 평탄화한다. 지터 보상 모듈(108)은 더 평탄한 궤적에서 지터를 감소시킨다.

도 2는 실시예에 따른 프레임 간 우세 모션 추정 모듈(200)의 블록도를 도시한다. 모듈(200)은 프레임 다운-샘플링 블록(202), 기준 버퍼(204), 블록 모션 탐색 블록(206), 반복 최소 자승 솔버(iterative least square solver) 블록(208), 및 모션 업-스케일링 블록(210)을 포함한다.

다운-샘플링 블록(202)은 입력 프레임들을 더 작은 크기로 다운스케일링한다. 예컨대, 약 4 내지 5의 다운-샘플링 인수가 사용될 수 있으나, 다른 값들이 사용될 수 있다. 일부 실시예들에서, 다운-샘플링 블록(202)은 대략 160x120 픽셀인 더 작은 크기의 프레임들을 제공한다. 결과로서의 다운스케일링된 프레임은 더 적은 수의 블록들을 갖는다. 블록은 8x8, 16x16, 또는 공통 프로세싱 소자의 설계에 따른 다른 크기들일 수 있다. 일반적으로, 16x16 블록이 사용된다. 다운스케일링 프로세스는 또한 블록 모션 벡터들을 다운스케일링한다. 다양한 실시예들에서, 모션 벡터는 프레임들 사이의 픽셀, 블록, 또는 이미지의 수직 및 수평 이동을 나타낸다. 프레임들을 다운스케일링하는 것은 또한 두 개의 프레임들 사이의 x 및 y 모션들을 다운스케일링한다. 예컨대, 다운스케일링 인수가 4이고 모션 벡터가 (20,20)이라면, 다운스케일링된 프레임들 내에서 다운스케일링된 모션 벡터는 약 (5,5)일 것이다. 그 결과로서, 더 작은 사진 상에서의 윈도우/영역 제한된 블록 모션 탐색은 원래의 프레임들 상의 더 큰 모션들을 포함할 수 있다. 따라서, 프로세스 블록들을 식별하기 위해 사용되는 프로세싱 속도 및 프로세싱 자원들이 감소될 수 있다.

다운-샘플링 블록(202)은 다운샘플링된 프레임들을 기준 버퍼(204) 내에 저장한다. 기준 버퍼(204)는 적어도 비디오 안정화 및 샷 경계 검출을 수행하는 데 사용 가능한 메모리 내의 영역일 수 있다. 그 영역은 버퍼 또는 버퍼의 일부일 수 있다. 예컨대, 영역이 버퍼의 일부라면, 동일한 버퍼의 다른 부분들이 다른 어플리케이션들 또는 프로세스들에 의해 동시에 또는 다른 때에 사용될 수 있다. 다양한 실시예들에서, 비디오 안정화 및 샷 경계 검출을 위해 하나의 기준 프레임이 사용된다. 따라서, 기준 버퍼의 크기는 하나의 프레임을 저장하도록 설정될 수 있다. 기준 버퍼의 각각의 업데이트마다, 기준 프레임이 다른 기준 프레임으로 대체될 수 있다.

블록 모션 탐색 블록(206)은 다운샘플링 블록(202)으로부터 다운샘플링된 현재 프레임을 수신하고, 또한 기준 버퍼(204)로부터 다운샘플링된 이전의 기준 프레임을 수신한다. 블록 모션 탐색 블록(206)은 미리 결정된 탐색 윈도우 내의 선택된 블록들의 로컬 모션 벡터를 식별한다. 예컨대, 식별된 모션 벡터는, 현재 프레임 내의 목표 블록에 관해 가장 낮은 절대차들의 합(SAD; sum of absolute difference)을 갖는 탐색 윈도우 내의 블록과 연관된 모션 벡터일 수 있다. 탐색 윈도우 내의 블록은 매크로 블록, 또는 8x8 픽셀과 같은 작은 블록일 수 있지만, 다른 크기들이 사용될 수 있다. 일부 실시예들에서, 블록 크기는 16x16 픽셀이며, 탐색 윈도우는 48x32 픽셀로 설정될 수 있다. 다양한 실시예들에서, 블록 모션 탐색 블록(206)은 프레임 경계 상의 블록들과 연관된 모션 벡터들을 탐색하지 않는다.

일부 실시예들에서, 블록 모션 탐색 블록(206)은 각각의 프레임의 매크로 블록들에 대한 절대차들의 합(SAD)을 결정한다. 예컨대, 프레임 내의 각각의 매크로 블록에 대한 SAD를 결정하는 것은, 기준 프레임의 각각의 16x16 픽셀 매크로 블록을 현재 프레임의 16x16 픽셀 매크로 프레임과 비교하는 것을 포함할 수 있다. 예컨대, 일부 실시예들에서, 기준 프레임의 48x32 픽셀 탐색 윈도우 내의 모든 매크로 블록들이 현재 프레임의 목표 16x16 픽셀 매크로 블록과 비교될 수 있다. 목표 매크로 블록은 한 개씩, 또는 체스판 패턴으로 선택될 수 있다. 풀 탐색을 위해, 48x32 탐색 윈도우 내의 모든 매크로 블록들이 목표 매크로 블록과 비교될 수 있다. 따라서, 32x16(512) 매크로 블록들이 비교될 수 있다. 48x32 탐색 윈도우 내에서 16x16 매크로 블록을 이동시키는 경우, 32x16개의 이동할 위치들이 존재한다. 따라서, 이 예에서, 512개의 SAD들이 결정된다.

도 7은 검색 윈도우를 사용하여 기준 프레임 내에서 일치하는 블록을 식별하는 것의 예를 도시하는 것으로, 일치하는 블록은 현재 프레임 내의 목표 블록에 대응한다. 예시적인 블록 모션 탐색은 아래의 스텝들을 포함할 수 있다.

(1) 현재 프레임에서 복수의 목표 블록들을 선택한다. 목표 블록들의 좌표를 (x_i, y_i)라 한다(i는 블록 인덱스임). 현재 프레임 내의 목표 블록들은 한 개씩 선택될 수 있지만, 그것들을 체스판 방식으로 선택하는 것과 같은 다른 선택 기법들이 사용될 수 있다.

(2) 현재 프레임 내의 목표 블록 i에 대해, 일치하는 블록을 식별하고 로컬 모션 벡터(mvx_i, mvy_i)를 얻기 위해 탐색 윈도우 내에서 블록 모션 탐색이 사용된다. 기준 프레임 내의 탐색 윈도우 내에서 목표 블록 i에 대한 일치하는 블록을 찾는 것은, 기준 프레임 탐색 윈도우 내의 모든 후보 블록들을 목표 블록과 비교하는 것을 포함할 수 있으며, 최소 SAD를 갖는 후보 블록이 일치하는 블록으로 간주된다.

(3) 블록 i에 대한 블록 모션 탐색 후, x'_i = x_i + mvx_i 및 y'_i = y_i + mvy_i를 계산한다. 그 후, (x_i, y_i) 및 (x'_i, y'_i)는 쌍으로 간주된다.

(4) 현재 프레임 내의 모든 선택된 목표 블록들에 대한 블록 모션 탐색을 수행한 후, 복수의 쌍들 (x_i, y_i) 및 (x'_i, y'_i)가 얻어진다.

도 7에 도시된 것과 같이, 현재 프레임 내의 하나의 목표 블록 (x,y)에 대해, 48x32 탐색 윈도우가 기준 프레임 내에서 지정되며, 탐색 윈도우의 위치는 (x,y)에 의해 센터링될 수 있다. 블록 모션 탐색에 의해 탐색 윈도우 내에서 일치하는 블록을 찾은 후, 목표 블록에 대한 로컬 모션 벡터(mvx, mvy)가 얻어진다. 일치하는 블록의 좌표 (x',y')는 x' = x + mvx, y' = y + mvy이다. 그 후, (x,y) 및 (x',y')는 쌍으로 간주된다.

도 2를 다시 참조하면, 반복 최소 자승 솔버(208)는 적어도 두 개의 식별된 로컬 모션 벡터들에 기초하여 우세 모션 파라미터들을 결정한다. 일부 실시예들에서, 반복 최소 자승 솔버(208)는 우세 프레임 간 모션 파라미터들을 어림하기 위해 도 2에 도시된 유사 모션 모델을 적용한다. 유사 모션 모델은 아래의 수학식 1의 형태로 또한 표현될 수 있다.

여기서,

(x', y')는 기준 프레임 내의 일치하는 블록 좌표를 나타내며,

(x, y)는 현재 프레임 내의 블록 좌표를 나타내며,

(a, b, c, d)는 우세 모션 파라미터들을 나타내며, 여기서 파라미터들 a 및 b는 회전에 관한 것이며 파라미터들 c 및 d는 평행 이동(translation)에 관한 것이다.

예컨대, 블록 좌표들 (x',y') 및 (x,y)는 일관되게 사용되는 한 상부 좌측 코너, 하부 우측 코너, 또는 블록의 블록 중심으로 정의될 수 있다. 좌표가 (x,y)이고 (블록(206)으로부터의) 식별된 로컬 모션 벡터가 (mvx, mvy)인 블록에 대해, 그것의 일치하는 블록의 좌표(x',y')는 x' = x + mvx 및 y' = y + mvy에 의해 얻어진다. 다양한 실시예들에서, 프레임의 모든 (x,y) 및 (x',y') 쌍들이 수학식 1에서 사용된다. 반복 최소 자승 솔버 블록(208)은 최소 자승(LS) 기법을 사용하여 수학식 1을 푸는 것에 의해 모션 파라미터들(a, b, c, d)을 결정한다.

반복 최소 자승 솔버(208)에 의해 고려된다면, 이상점(outlier) 로컬 모션 벡터들은 우세 모션들의 추정에 악영향을 끼칠 수 있다. 현재 프레임 내의 일부 블록들이 전경 객체들 또는 반복되는 유사한 패턴들을 포함하는 영역으로부터 선택된다면, 블록 모션 탐색 블록(206)에 의해 이상점 로컬 모션 벡터들이 식별될 수 있다. 다양한 실시예들에서, 반복 최소 자승 솔버(208)는 이상점 위치 모션 벡터들을 식별하고 고려로부터 제거함으로써 이상점 로컬 모션 벡터들의 영향을 감소시키기 위해 반복 최소 자승(ILS) 솔버를 사용한다. 그러한 실시예들에서, 위의 수학식 1을 사용하여 우세 모션 파라미터들을 결정한 후, 반복 최소 자승 솔버(208)는 현재 프레임 내의 각각의 남아 있는 블록 위치(x_i, y_i)의 자승 추정 에러(SEE)를 결정한다. 블록 위치(x_i, y_i)는 일관되게 사용되는 한 상부 좌측 코너, 하부 우측 코너, 또는 블록 중심일 수 있다.

로컬 모션 벡터의 대응하는 자승 추정 에러(SEE)가 수학식 3을 만족한다면, 그것은 이상점으로 간주된다.

여기서, T는 상수로서, 실험적으로 1.4로 설정될 수 있으나, 다른 값들이 사용될 수 있으며, n은 현재 프레임 내의 남아 있는 블록들의 수이다.

위의 수학식들 1 내지 3은 이상점 로컬 모션 벡터들이 검출되지 않거나, 또는 남아 있는 블록들의 수가 미리 결정된 역치보다 작을 때까지 반복된다. 예컨대, 역치는 12일 수 있으나, 다른 값이 사용될 수 있다. 수학식들 1 내지 3의 각각의 반복에서, 검출된 이상값 모션 벡터들 및 이상값 모션 벡터들과 연관된 블록들은 고려되지 않는다. 대신에, 남아 있는 블록들과 연관된 모션 벡터들이 고려된다. 고려로부터 이상값 로컬 모션 벡터들을 제거한 후, 반복 최소 자승 블록(208)은 모션 파라미터들을 결정하기 위해 수학식 1을 수행한다.

모션 업스케일링 블록(210)은 다운스케일링 블록(202)에 의해 적용된 다운샘플링 인수의 역수에 따라 평행 이동 모션 파라미터들 c 및 d를 업스케일링한다. 다운샘플링 프로세스는 두 개의 프레임들 사이의 회전 및 스케일링 모션들에 영향을 끼치지 않으므로, 파라미터들 a 및 b는 업스케일링될 수 없다.

도 1을 다시 참조하면, 궤적 계산 블록(104)은 궤적을 결정한다. 예컨대, 궤적 계산 블록(104)은 수학식 4에 정의된 누적 모션을 사용하여 프레임 j의 모션 궤적, T_j를 결정한다.

여기서, M_j는 프레임들 j 및 j-1 사이의 글로벌 모션 매트릭스이며, 우세 모션 파라미터들(a, b, c, d)에 기초한다. 수학식 4에서 우세 모션 파라미터들(a, b, c, d)은 (프레임 j로 명명된) 현재 프레임을 위한 것이다.

프레임 간 글로벌 모션 벡터는 카메라에 의해 의도된 모션 및 카메라 지터 모션을 포함한다. 궤적 평탄화 블록(106)은 프레임 간 글로벌 모션 벡터로부터 카메라 지터 모션을 감소시킨다. 다양한 실시예들에서, 궤적 평탄화 블록(106)은 모션 궤적 평탄화을 사용함으로써 카메라 지터 모션을 감소시킨다. 모션 궤적의 저주파수 성분은 카메라에 의해 의도된 이동으로 인식된다. 궤적 계산 블록(104)이 각각의 프레임의 모션 궤적을 결정한 후, 궤적 평탄화 블록(106)은 가우시안 필터(Gaussian filter)와 같으나 이에 제한되지 않는 로우패스 필터를 사용하여 모션 궤적의 평탄도를 증가시킨다. 가우시안 필터 윈도우는 2n+1 프레임으로 설정될 수 있다. 필터링 프로세스는 n 프레임의 지연을 도입한다. 실험적 결과들은 n이 5로 설정될 수 있다는 것을 보여주지만, 다른 값들이 사용될 수 있다. 더 평탄한 모션 궤적, T'_j는 수학식 5를 사용하여 결정될 수 있다.

여기서 g(k)는 가우시안 필터 커널(kernel)이다. 가우시안 필터는 로우패스 필터,

이다. 그것의 변화 값 δ를 지정한 후, 필터 계수들이 계산될 수 있다. 일부 실시예들에서, 변화 값은 1.5로 설정되지만, 그것은 다른 값으로 설정될 수도 있다. 더 큰 변화 값은 더 평탄한 모션 궤적을 생성할 수 있다.

지터 보상 블록(108)은 평탄화되지 않은 원래의 궤적 내의 지터를 보상한다. 카메라 지터 모션은 궤적의 고주파수 성분이다. 궤적의 고주파수 성분은 원래의 궤적과 평탄화된 궤적의 차이다. 지터 보상 블록(108)은 고주파수 성분을 보상하고, 더 안정화된 현재 프레임을 제공한다. 예컨대, 지터 모션 파라미터들을 사용하여 현재 프레임 F(j)를 워핑(warp)함으로써, 현재 프레임에 대한 더 안정화된 프레임 표시, 프레임 F'(j)를 얻을 수 있다.

j번째 현재 프레임 F(j)에 대한 궤적 평탄화을 수행한 후, (수학식 4 및 5에서 보여진) T(j)와 T'(j) 사이의 모션차들이 지터 모션들로 간주된다. 지터 모션들은 지터 모션 파라미터들(a', b', c', d')로 표현될 수 있다. 아래는 T(j)와 T'(j) 사이의 차로부터 (a', b', c', d')를 결정하는 방식을 설명한다. T(j)의 지터 모션 파라미터들이 (a1, b1, c1, d1)이고, T'(j)의 평탄화된 지터 모션 파라미터들이 (a2, b2, c2, d2)라 가정한다. θ1 = arctan(b1/a1) 및 θ2 = arctan(b2/a2)로 설정하면, 지터 모션 파라미터들은 다음과 같이 결정된다:

예시적인 워핑 프로세스는 다음과 같다.

(1) 더 안정화된 프레임 F'(j) 내의 (x,y)에 위치하는 임의의 픽셀에 대해, 픽셀 값은 F'(x,y,j)로 표시된다.

(2) 현재 프레임 F(j) 내의 대응하는 위치 (x',y')는 x' = a'*x + b'*y + c', y' = -b'*x + a'*y + d'로 결정된다.

(3) x' 및 y'가 정수라면, F'(x,y,j)=F(x',y',j)로 설정한다. x' 및 y'가 정수가 아니라면, 이선형 보간(bi-linear interpolation)을 통해 F(j) 내의 위치 (x',y') 주위의 픽셀들을 사용하여 F'(x,y,j)를 계산한다.

(4) (x',y')가 현재 프레임 F(j)의 외부에 있다면, F'(x,y,j)를 블랙 픽셀(black pixel)로 설정한다.

도 3은 실시예에 따른 비디오 안정화를 개선하기 위한 프로세스의 흐름도를 제공한다. 블록(302)은 프레임 크기 다운스케일링을 수행하는 것을 포함한다. 예컨대, 프레임 크기 다운스케일링을 수행하기 위해 다운샘플링 블록(202)에 관하여 설명한 기법들이 사용될 수 있다.

블록(304)은 둘 이상의 로컬 모션 벡터들을 식별하기 위해 블록 모션 탐색을 수행하는 것을 포함한다. 예컨대, 하나 이상의 로컬 모션 벡터들을 식별하기 위해 블록 모션 탐색 블록(206)에 관하여 설명한 기법들이 사용될 수 있다.

블록(306)은 우세 모션 파라미터들을 결정하는 것을 포함한다. 예컨대, 우세 모션 파라미터들을 결정하기 위해 반복 최소 자승 블록(208)에 관하여 설명한 기법들이 사용될 수 있다.

블록(308)은 우세 모션 파라미터들을 업스케일링하는 것을 포함한다. 예컨대, 우세 모션 파라미터들을 업스케일링하기 위해 업스케일링 블록(210)에 관하여 설명한 기법들이 사용될 수 있다.

블록(310)은 궤적을 결정하는 것을 포함한다. 예컨대, 궤적을 결정하기 위해 궤적 계산 블록(104)에 관하여 설명한 기법들이 사용될 수 있다.

블록(312)은 궤적 평탄도를 개선하는 것을 포함한다. 예컨대, 궤적 평탄화을 수행하기 위해 궤적 평탄화 블록(106)에 관하여 설명한 기법들이 사용될 수 있다.

블록(314)은 현재 프레임의 더 안정화된 버전을 제공하기 위해 현재 프레임을 워핑함으로써 지터 보상을 수행하는 것을 포함한다. 예컨대, 지터를 감소시키기 위해 지터 보상 블록(108)에 관하여 설명한 기법들이 사용될 수 있다.

도 4는 실시예에 따른 샷 경계 검출 시스템의 블록도를 도시한다. 다양한 실시예들에서, 비디오 안정화 시스템(100)에 의해 사용되는 프레임 간 우세 모션 추정 블록(102)으로부터의 일부 결과들은 샷 경계 검출 시스템(400)에 의해서 또한 사용된다. 예컨대, 다운샘플링 블록(202), 기준 버퍼(204), 및 블록 모션 탐색 블록(206) 중 임의의 것으로부터 입수 가능한 것과 동일한 정보가 비디오 안정화 및 샷 경계 검출 중 하나에서 또는 양쪽 모두에서 사용될 수 있다. 일부 실시예들에서, 샷 경계 검출 시스템(400)은 갑작스러운 장면 전환(즉, CUT 장면)을 검출한다. 샷 경계 결정 블록(402)은 프레임이 장면 변화 프레임인지의 여부를 결정한다. 예컨대, 샷 경계 결정 블록(402)은 현재 프레임이 장면 변화 프레임인지의 여부를 결정하기 위해 도 5에 관하여 설명한 프로세스를 사용할 수 있다.

도 5는 실시예에 따른 샷 경계 결정 체계의 프로세스를 제공한다. 블록들(502 및 504)은 각각 블록들(302 및 304)과 실질적으로 유사하다.

블록(506)은 현재 프레임에 대한 평균 절대차들의 합(SAD)를 결정하는 것을 포함한다. 현재 프레임은 다운스케일링된 프레임임을 유념하라. 예컨대, 블록(506)은 블록 모션 탐색 블록(206)으로부터 현재 프레임 내의 각각의 매크로 블록에 대한 SAD를 수신하고, 현재 프레임 내의 모든 매크로 블록들의 SAD들의 평균을 결정하는 것을 포함할 수 있다.

블록(508)은 평균 SAD가 역치 T0보다 작은지의 여부를 결정하는 것을 포함한다. T0는 실험적으로 16x16 블록에 대해 약 1600으로 설정될 수 있으나, 다른 값들이 사용될 수 있다. 평균 SAD가 역치보다 작다면, 프레임은 샷 경계 프레임이 아니다. 평균 SAD가 역치보다 작지 않다면, 블록(510)이 블록(508)을 뒤따른다.

블록(510)은 역치 T1보다 큰 SAD를 갖는 블록들의 수를 결정하는 것을 포함한다. 역치 T1은 실험적으로 평균 SAD의 네 배로 설정될 수 있으나, 다른 값들이 사용될 수 있다.

블록(512)은 역치 T1보다 큰 SAD를 갖는 블록들의 수가 다른 역치 T2보다 작은지의 여부를 결정하는 것을 포함한다. 역치 T2는 실험적으로 프레임 내의 목표 블록들의 총 개수의 2/3로 설정될 수 있으나, T2의 다른 값들이 사용될 수 있다. 역치 T1보다 큰 SAD를 갖는 블록들의 수가 역치 T2보다 작다면, 현재 프레임은 샷 경계 프레임으로 간주되지 않는다. 블록들의 수가 역치 T2와 같거나 그보다 크다면, 현재 프레임은 샷 경계 프레임으로 간주된다.

도 6은 실시예에 따른 비디오 안정화 및 샷 경계 검출을 수행하는 시스템의 블록도를 도시한다. 다양한 실시예들에서, 프레임 다운샘플링 및 블록 모션 탐색 동작들이 하드웨어로 구현된다. 프레임 다운샘플링 및 블록 모션 탐색 동작들은 비디오 안정화 및 샷 경계 검출 어플리케이션들 양쪽 모두에 의해 공유된다. 다양한 실시예들에서, 비디오 안정화(VS)를 위해, 궤적 계산, 궤적 평탄화, 지터 모션 결정, 및 지터 보상 동작들은 프로세서에 의해 실행되는 소프트웨어에서 수행된다. 다양한 실시예들에서, 샷 경계 검출(SBD)은 프로세서에 의해 실행되는 소프트웨어에서 수행되며, 여기서 샷 경계 검출은 하드웨어에 의해 구현된 프레임 다운샘플링 및 블록 모션 탐색 동작들로부터의 결과들을 사용한다. 다른 비디오 또는 이미지 프로세싱 기법들이 다운샘플링 또는 블록 모션 탐색에 의해 제공되는 결과들을 사용할 수 있다.

프로세싱된 이미지들 및 비디오는 트랜지스터 기반 메모리 또는 자기 메모리와 같은 임의의 종류의 메모리 내에 저장될 수 있다.

프레임 버퍼는 메모리 내의 영역일 수 있다. 메모리는 랜덤 액세스 메모리(RAM), 동적 RAM(DRAM), 정적 RAM(SRAM), 또는 다른 종류의 반도체 기반 메모리 또는 자기 스토리지 디바이스와 같은 자기 메모리와 같으나, 이들에 제한되지 않는 휘발성 메모리 디바이스로서 구현될 수 있다.

복수의 비디오 프로세싱 특징들, 예컨대 비디오 인코딩, 디인터레이싱(de-interlacing), 초해상도(super-resolution), 프레임 레이트 변환 등을 갖는 미디어 프로세서를 설계하는 경우, 하드웨어 재사용은 비용을 절감하고 폼 팩터(form factor)를 줄이기 위한 매우 효율적인 방식일 수 있다. 다양한 실시예들은, 특히 미디어 프로세서가 블록 모션 추정 기능을 지원하는 경우, 비디오 안정화 및 비디오 샷 경계 검출 특징들 양쪽 모두를 동일한 미디어 프로세서에서 구현하는 것의 복잡성을 크게 감소시킨다.

본원에 설명한 그래픽 및/또는 비디오 프로세싱 기법들은 다양한 하드웨어 아키텍처들로 구현될 수 있다. 예컨대, 그래픽 및/또는 비디오 기능은 칩셋 내에 통합될 수 있다. 대안적으로, 개별적인 그래픽 및/또는 비디오 프로세서가 사용될 수 있다. 또 다른 실시예로서, 그래픽 및/또는 비디오 기능들은 멀티코어 프로세서를 포함하는 범용 프로세서에 의해 구현될 수 있다. 추가적인 실시예에서, 기능들은 정지 이미지들 또는 비디오를 디스플레이할 수 있는 디스플레이 디바이스들을 갖는 휴대용 컴퓨터들 및 모바일 전화들과 같은 소비자 전자 디바이스에 구현될 수 있다. 소비자 전자 디바이스들은 또한 이더넷(예컨대, IEEE 802.3) 또는 무선 표준들(예컨대, IEEE 802.11 또는 16)과 같은 임의의 표준들을 사용하여 인터넷과 같은 임의의 네트워크에 연결할 수 있는 네트워크 인터페이스를 포함할 수 있다.

본 발명의 실시예들은 마더보드를 사용하여 상호 연결된 하나 이상의 마이크로칩들 또는 집적 회로들, 하드와이어 로직, 메모리 디바이스에 의해 저장되고 마이크로프로세서에 의해 실행되는 소프트웨어, 펌웨어, 어플리케이션 특정 집적 회로(ASIC), 및/또는 필드 프로그램 가능한 게이트 어레이(FPGA) 중 임의의 것 또는 이들의 조합으로 구현될 수 있다. 용어 "로직"은, 예컨대 소프트웨어 또는 하드웨어 및/또는 소프트웨어 및 하드웨어의 조합을 포함할 수 있다.

본 발명의 실시예들은, 예컨대 컴퓨터, 컴퓨터들의 네트워크, 또는 다른 전자 디바이스들과 같은 하나 또는 그 이상의 기계들에 의해 실행될 때, 그 결과로서 상기 하나 또는 그 이상의 기계들이 본 발명의 실시예에 따른 동작들을 수행하도록 하는 기계 실행 가능한 명령들이 저장된 하나 또는 그 이상의 기계 판독 가능한 매체를 포함할 수 있는 컴퓨터 프로그램 제품으로서 제공될 수 있다. 기계 판독 가능한 매체는 플로피 디스켓, 광 디스크, CD-ROM(Compact Disc-Read Only Memories), 및 자기-광 디스크, ROM(Read Only Memories), RAM(Random Access Memories), EPROM(Erasable Programmable Read Only Memories), EEPROM(Electrically Erasable Programmable Read Only Memories), 자기 또는 광 카드, 플래시 메모리, 또는 기계 실행 가능한 명령들을 저장하기에 적합한 다른 종류의 매체/기계 판독 가능한 매체를 포함할 수 있으나, 이들에 제한되지 않는다.

도면들 및 앞서 말한 설명은 본 발명의 예들을 제시하였다. 다수의 별개의 기능 항목들로서 도시되었으나, 본 기술분야의 당업자들은 그러한 요소들 중 하나 이상이 하나의 기능 요소로 조합될 수 있다는 것을 인식할 것이다. 대안적으로, 특정 요소들이 다수의 기능 요소들로 나누어질 수 있다. 하나의 실시예로부터의 요소가 다른 실시예로 더해질 수 있다. 예컨대, 본원에 설명한 프로세스들의 순서는 변경될 수 있으며 본원에 설명한 방식에 제한되지 않는다. 더욱이, 임의의 흐름도의 동작들이 도시된 순서로 구현될 필요가 없으며, 상기 동작들 모두가 반드시 수행되어야 하는 것도 아니다. 또한, 다른 동작들에 의존하지 않는 동작들은 다른 동작들과 병렬로 수행될 수 있다. 그러나, 본 발명의 범위는 이러한 특정한 예들에 의해 결코 제한되지 않는다. 명세서에 명백히 제공되든 아니든 간에, 구조, 크기, 및 재료의 사용의 차이점과 같은 다수의 변경들이 가능하다. 본 발명의 범위는 적어도 하기 청구항들에 의해 제공되는 것만큼 광범위하다.

Claims

현재 프레임의 모션 파라미터들을 결정하고, 상기 현재 프레임 내의 블록들에 대한 절대차들의 합(sum of absolute differences)을 결정하는 프레임 간 우세 모션 추정 로직;
상기 절대차들의 합에 부분적으로 기초하여 상기 현재 프레임이 장면 변화 프레임인지의 여부를 결정하는 샷 경계 판정 로직; 및
상기 모션 파라미터들에 부분적으로 기초하여 현재 프레임 시퀀스의 더 안정화된 버전을 제공하는 비디오 안정화 블록
을 포함하는 장치.
제1항에 있어서,
상기 프레임 간 우세 모션 추정 로직은 하드웨어로 구현되는 장치.
제1항에 있어서,
상기 프레임 간 우세 모션 추정 로직은,
상기 현재 프레임을 다운스케일링(down-scale)하고;
다운스케일링된 상기 현재 프레임을 버퍼의 일부 내에 저장하고;
기준 프레임 및 현재 프레임 내의 블록들 사이의 절대차들의 합을 결정하고;
상기 다운스케일링된 프레임의 프레임 간 우세 모션 파라미터들을 결정하고;
상기 프레임 간 우세 모션 파라미터들을 업스케일링(up-scale)하는 장치.
제3항에 있어서,
상기 다운스케일링된 프레임의 프레임 간 우세 모션 파라미터들을 결정하는 로직은,
목표 블록에 관해 최소 절대차의 합을 갖는 탐색 윈도우 내의 기준 프레임 내의 일치하는 블록을 식별하고;
상기 일치하는 블록의 로컬 모션 벡터를 결정하고;
상기 로컬 모션 벡터에 부분적으로 기초하여 상기 일치하는 블록의 좌표들을 결정하고;
상기 일치하는 블록의 좌표들 및 상기 목표 블록의 좌표들에 부분적으로 기초하여 상기 우세 모션 파라미터들을 결정하기 위해 유사 모션 모델(similarity motion model)을 적용하는 장치.
제4항에 있어서,
상기 다운스케일링된 프레임의 프레임 간 우세 모션 파라미터들을 결정하는 로직은 또한,
임의의 이상점(outlier) 로컬 모션 벡터를 무시하는 장치.
제1항에 있어서,
상기 비디오 안정화 블록은,
상기 모션 파라미터들에 부분적으로 기초하여 상기 현재 프레임의 궤적을 결정하는 궤적 계산 블록;
상기 현재 프레임의 궤적의 평탄도를 증가시키는 궤적 평탄화 블록; 및
상기 현재 프레임의 궤적 내의 지터를 감소시키는 지터 보상 블록
을 포함하는 장치.
제6항에 있어서,
상기 비디오 안정화 블록은 또한,
모션 궤적과 더 평탄한 궤적 사이의 차들에 부분적으로 기초하여 지터 모션 파라미터들을 결정하고;
상기 지터 모션 파라미터들을 사용하여 상기 현재 프레임을 워핑(warp)하는 장치.
제1항에 있어서,
상기 샷 경계 판정 로직은,
상기 현재 프레임 내의 모든 블록들에 대한 절대차들의 합의 평균을 결정하고;
절대차의 합이 역치보다 큰 블록들의 수에 부분적으로 기초하여 상기 현재 프레임이 샷 경계 프레임인지의 여부를 결정하는 장치.
현재 프레임의 모션 파라미터들을 결정하고, 상기 현재 프레임 내의 블록들에 대한 절대차들의 합을 결정하는 하드웨어로 구현된 프레임 간 우세 모션 추정기;
상기 절대차들의 합에 부분적으로 기초하여 상기 현재 프레임이 장면 변화 프레임인지의 여부를 결정하는 로직;
상기 모션 파라미터들에 부분적으로 기초하여 상기 현재 프레임의 더 안정화된 버전을 제공하는 로직; 및
비디오를 수신 및 디스플레이하는 디스플레이
를 포함하는 시스템.
제9항에 있어서,
상기 결정하는 로직 및 상기 제공하는 로직은 컴퓨터 판독 가능한 매체에 저장되고 프로세서에 의해 실행되는 시스템.
제9항에 있어서,
상기 프레임 간 우세 모션 추정기는,
상기 현재 프레임을 다운스케일링하고;
다운스케일링된 상기 현재 프레임을 버퍼의 일부 내에 저장하고;
기준 프레임 및 현재 프레임에 있는 블록들 사이의 절대차들의 합을 결정하고;
상기 다운스케일링된 프레임의 프레임 간 우세 모션 파라미터들을 결정하고;
상기 프레임 간 우세 모션 파라미터들을 업스케일링하는 시스템.
제9항에 있어서,
상기 현재 프레임의 더 안정화된 버전을 제공하는 로직은,
상기 모션 파라미터들에 부분적으로 기초하여 상기 현재 프레임의 궤적을 결정하는 로직;
상기 현재 프레임의 궤적의 평탄도를 증가시키는 로직;
상기 현재 프레임의 궤적 내의 지터를 감소시키는 로직;
상기 궤적과 더 평탄한 궤적 사이의 차들에 부분적으로 기초하여 지터 모션 파라미터들을 결정하는 로직; 및
상기 지터 모션 파라미터들을 사용하여 상기 현재 프레임을 워핑하는 로직
을 포함하는 시스템.
제9항에 있어서,
상기 절대차들의 합에 부분적으로 기초하여 상기 현재 프레임이 장면 변화 프레임인지의 여부를 결정하는 로직은,
상기 현재 프레임 내의 블록들에 대한 절대차들의 합의 평균을 결정하는 로직; 및
절대차의 합이 역치보다 큰 블록들의 수에 부분적으로 기초하여 상기 현재 프레임이 샷 경계 프레임인지의 여부를 결정하는 로직
을 포함하는 시스템.
컴퓨터 구현 방법으로서,
비디오의 현재 프레임을 수신하는 단계;
상기 현재 프레임을 다운스케일링하는 단계;
다운스케일링된 상기 현재 프레임을 버퍼의 일부 내에 저장하는 단계;
다운스케일링된 기준 프레임 내의 블록들과 다운스케일링된 상기 현재 프레임 내의 목표 블록 사이의 절대차들의 합을 결정하는 단계;
다운스케일링된 상기 현재 프레임의 프레임 간 우세 모션 파라미터들을 결정하는 단계; 및
상기 모션 파라미터들 및 상기 절대차들의 합 중 적어도 하나에 부분적으로 기초하여 비디오 안정화 및 샷 경계 검출 중 적어도 하나를 수행하는 단계
를 포함하는 컴퓨터 구현 방법.
제14항에 있어서,
상기 프레임 간 우세 모션 파라미터들을 업스케일링하는 단계를 더 포함하는 컴퓨터 구현 방법.
제14항에 있어서,
다운스케일링된 상기 현재 프레임의 프레임 간 우세 모션 파라미터들을 결정하는 단계는,
상기 목표 블록에 관해 최소 절대차의 합을 갖는 탐색 윈도우 내의 기준 프레임 내의 일치하는 블록을 식별하는 단계;
상기 일치하는 블록의 로컬 모션 벡터를 결정하는 단계;
임의의 이상점 로컬 모션 벡터를 무시하는 단계;
상기 로컬 모션 벡터에 부분적으로 기초하여 상기 일치하는 블록의 좌표들을 결정하는 단계; 및
상기 일치하는 블록의 좌표들 및 상기 목표 블록의 좌표들에 부분적으로 기초하여 상기 우세 모션 파라미터들을 결정하기 위해 유사 모션 모델을 적용하는 단계를 포함하는 컴퓨터 구현 방법.
제14항에 있어서,
상기 비디오 안정화를 수행하는 단계는,
상기 모션 파라미터들에 부분적으로 기초하여 상기 현재 프레임의 궤적을 결정하는 단계;
상기 현재 프레임의 궤적의 평탄도를 증가시키는 단계;
상기 현재 프레임의 궤적의 지터를 감소시키는 단계;
상기 궤적과 더 평탄한 모션 궤적 사이의 차들에 부분적으로 기초하여 지터 모션 파라미터들을 결정하는 단계; 및
상기 지터 모션 파라미터들을 사용하여 상기 현재 프레임을 워핑하는 단계
를 포함하는 컴퓨터 구현 방법.
제14항에 있어서,
상기 샷 경계 검출을 수행하는 단계는,
상기 현재 프레임 내의 블록들에 대한 절대차들의 합의 평균을 결정하는 단계; 및
절대차의 합이 역치보다 큰 블록들의 수에 부분적으로 기초하여 상기 현재 프레임이 샷 경계 프레임인지의 여부를 결정하는 단계
를 포함하는 컴퓨터 구현 방법.
제14항에 있어서,
상기 다운스케일링하는 단계, 상기 저장하는 단계, 상기 절대차들의 합을 결정하는 단계, 및 상기 프레임 간 우세 모션 파라미터들을 결정하는 단계는 하드웨어로 구현되는 컴퓨터 구현 방법.
제14항에 있어서,
상기 비디오 안정화 및 샷 경계 검출 중 적어도 하나를 수행하는 단계는 프로세서에 의해 실행되는 소프트웨어 명령들로 구현되는 컴퓨터 구현 방법.