KR20100118978A

KR20100118978A - 초 해상도 비디오 프로세싱을 위한 스파스 지오메트리

Info

Publication number: KR20100118978A
Application number: KR1020107017363A
Authority: KR
Inventors: 쟌 부르나 에스트라치; 마크 알렉산더 쉔드
Original assignee: 조란(프랑스)
Priority date: 2008-01-11
Filing date: 2008-01-11
Publication date: 2010-11-08
Also published as: JP2011509617A; US20110058106A1; US20140023149A1; EP2240905A1; US8571114B2; EP2240905B1; WO2009087493A1; CN101971209A

Abstract

입력 비디오 시퀀스를 분석하는 방법에 있어서, 출력 비디오 시퀀스의 합성된 이미지들의 픽셀들은 방향의 미리 정의된 집합에 속하는 규칙성의 각 방향에 연관된다. 상기 방향의 미리 정의된 집합으로부터 출력 시퀀스의 제1 이미지의 영역에 대한 후보 방향의 제1 부집합이 결정되고, 상기 방향의 미리 정의된 집합으로부터 입력 시퀀스의 이미지 및 상기 후보 방향의 제1 부집합을 기반으로 후보 방향의 제2 부집합이 결정된다. 상기 후보 방향의 제2 부집합으로부터 상기 제2 합성된 이미지의 상기 영역의 픽셀들에 대한 규칙성의 방향이 검출된다. 후보 방향의 상기 부집합들의 재귀적인 결정은 비디오 시퀀스의 효율적인 분석을 위한 스파스 지오메트리를 제공한다. 상기 방법은 디인터레이싱, 프레임-률 변환 및 잡음 감소와 같은 초 해상도 비디오 어플리케이션에 적합하다.

Description

초 해상도 비디오 프로세싱을 위한 스파스 지오메트리{SPARSE GEOMETRY FOR SUPER RESOLUTION VIDEO PROCESSING}

본 발명은 디지털 비디오 프로세싱에 관한 것이다. 더욱 자세하게는 초 해상도 비디오 프로세싱 분야에 적용될 수 있다. 초 해상도 비디오 프로세싱 방법은 프레임-률(frame-rate) 전환(conversion), 초 해상도 비디오 스케일링(scaling) 및 디인터레이싱(deinterlacing)과 같은 초 해상도 인터폴레이션(interpolation) 및 압축(compression) 아티팩트(artifact) 및/또는 잡음(noise) 감소(reduction)를 포함하는 다양한 어플리케이션(application)에서 사용된다.

디지털 시스템에서 비디오 시퀀스(sequence)는 전형적으로 픽셀 값 I_t(x)의 배열(array)로 나타낸다. 여기서 t는 정수 시간 인덱스(integer time index)이고, x는 이미지에서 픽셀의 위치를 나타내는 2차원 정수 인덱스(2-dimensional integer index) (x₁,x₂)이다. 픽셀 값은, 여기서, 단일 번호(single numbers), (예를 들면 그레이 스케일 값), 또는 색 공간(color space)(RGB, YUV, YCbCr 등)에서 색 좌표(color coordinates)를 나타내는 트리플렛(triplets)일 수 있다.

초 해상도 비디오 프로세싱 방법은 복수의 인접한 비디오 프레임들의 픽셀 값을 시간적으로 결합하여, (인터폴레이션을 위한) 새로운 픽셀 값들 또는 (잡음 감소를 위하여) 존재하는 픽셀들의 새로운 값을 계산하는 것으로 구성된다.

WO 2007/115583 A1은 매우 소수의 아티팩트(artifacts)를 보여주는 초 해상도 비디오 프로세싱 방법을 개시한다. 이 방법은 계산될 각각의 새로운 픽셀에 대해 픽셀을 계산하기에 가장 알맞은 인터폴레이터(interpolator)를 선택하는 것으로 구성된다. 그러나, 어떤 특정 시퀀스에서는 고려되는 인터폴레이터의 총 개수를 증가시킴으로써 방법을 향상시키는 것이 필요할 것이다. 더 높은 복잡도의 대가를 치르지만, 품질이 향상된다.

비디오 인터폴레이션 어플리케이션에서, 알려진 기술은 모션 적응적(motion adaptive)이거나 모션 보상적이다(motion compensated).

모션 적응적 비디오 디인터레이싱(deinterlacing)은 비디오가 움직이지 않을 때, 오로지 풀 해상도(full resolution)의 디인터레이스된 프레임을 제공한다. 그렇지 않으면, 디인터레이스드 프레임은 지그재그의 컨투어(contours) 또는 낮은 해상도 텍스쳐(texture), 및 플리커(flicker)를 나타낸다. 향상된(advanced) 모션 적응적 기술의 예가 미국 특허 번호 제5,428,398호에 기술되어 있다.

모션-보상적 기술은 덜 강인하고(robust) 몇몇 경우에서 모션-적응적 기술보다 훨씬 더 나쁜 아티팩트를 보여주는 대가로 더 나은 품질 레벨에 도달한 것으로 알려져 있다. 이는 특히, 오크루전(occlusions), 투명 물체(transparent objects) 또는 그림자(shadows) 와 같이 모션 추정(estimation)이 잘 적용되지 않는 비디오의 위치에서 발생한다. 모션-보상적 디인터레이싱 기술의 예는 미국 특허 번호 제6,940,557호에 나타나 있다.

프레임-률 변환을 수행하는 일반적인 방법은 조밀한(dense) 모션 필드를 계산하기 위해서 2개의 프레임 사이의 모션 추정을 하는 것과 모션 보상적 인터폴레이션으로 새로운 프레임들을 계산하는 것을 포함한다. 상기와 같은 이유로, 상기 단계를 기반으로 하는 프레임-률 변환은 많은 단점을 가지고 있다. 주기적인 패턴, 컨투어 또는 평평한 지역(flat area)에서 조밀한 모션 추정이 실패한다.

잘 알려진 모션 추정 기술은 "블록 매칭(block matching)"이라고 불리는 기술이다. 블록 매칭 기술에서, x와 t에서 모션을 추정하는 것은 일련의 오프셋 d=(d₁,d₂)인 윈도우 W 상에서 매칭 에너지 E_x(v)를 최소화하도록 구성된다. 매칭 에너지(L₁-에너지)의 가능한 형태는

이다. 자주 사용되는 다른 형태는 L₂-에너지 또는 유클리디안(Euclidean) 거리,

이다.

블록 매칭은 블록 기반의 변환을 사용하고, MPEG과 같은 비디오 압축 기법에서 모션 보상에 적합하다. 매칭 알고리즘이 유사하지만 동일한 물체를 나타내지 않는(예를 들면, 단어 "sweet"의 이미지에서 첫번째 'e'와 두번째 'e'를 매칭) 이미지의 두 윈도우를 매칭시키면, 압축 효율은 손상되지 않는다. 그러나, 비디오 인터폴레이션을 수행할 때, 동일한 물체와 실제로 대응하지 않는 픽셀 그룹들을 매칭하는 것은 인터폴레이션 아티팩트를 유발한다. 왜냐하면, 인터폴레이트된 픽셀들은 이미지들에서 드러나는 물체들의 공간 상관(spatial correlation)으로 인해 부정확한 모션을 반영하기 때문이다.

블록 매칭 방법은 각 픽셀에 대해 실제로 고려되는 가능한 변위(displacements)의 개수와 비례하여 계산량이 많아진다. 다시 비디오 압축에서, "빠른" 블록 매칭 전략은 미리 결정된 모션 부집합(motion subset)을 이용하여 가능한 변위의 범위를 제한하는 것으로 구성된다. 너무 부정확한 변위 벡터를 사용하는 것은 비디오 인터폴레이션에서 흐릿한 인터폴레이트된 이미지 또는 아티팩트를 야기하므로, 이는 수용하기 어렵다.

모션 추정에서 이러한 문제들을 피하기 위하여, 몇몇 방법들이 개발되고 있다. 첫번째 방법은 모션 필드에서 부드러움(smoothness) 제한(constraint)을 부과하는 것이다. 예를 들어, 서로 인접한 픽셀들에 대하여 대응하는 모션 벡터들이 근접하도록 하는 것이다. 이는 멀티스케일(multiscale) 모션 추정 또는 재귀적(recursive) 블록 매칭과 함께 수행될 수 있다. 이러한 문제(issue)를 해결하도록 설계된 또 다른 형태의 방법은 위상 상관(phase correlation)이다.

미국 특허 번호 제5,742,710호는 멀티스케일 블록 매칭을 기초로 한 접근을 개시한다. 2-스케일의 경우에서, 블록 매칭은 각 차원에서 2배 줄인(예를 들면 4배 적은 픽셀) I_t와 I_t ₊₁의 복사본 사이에서 수행되고, 결과로 얻어지는 변위 맵(resulting displacement map)은 두배 더 나은 해상도를 얻기 위해서 세밀화(refine)된다. 세밀화 처리는 거친 스케일 결과(coarse scale results) 주변의 제한된 범위를 검색하는 것이다. 그 결과, 오직 더 작은 이미지에서만 전체 범위 검색이 되기 때문에 변위(displacement) 검색의 부담은 줄어든다. 결과로 얻어지는 변위 필드는 또한 저 해상도 맵의 세밀화이기 때문에 더 부드럽다. 그러나, 장면의 모션은 부드러운 변위 맵에 의해서 정확히 설명될 수 없다. 모션 필드는 특히 물체 오크루전(occlusion) 주변에서 선천적으로 불연속적이다. 변위 맵 부드러움의 제한을 가하는 것은 강인성(robustness) 문제를 해결하고자 하는 적절한 방법은 아니다.

유사한 방법으로 이 문제를 다루는 또 하나의 방법은 재귀적(recursive) 블록 매칭이고, G. De Haan 등의 "True-Motion with 3D Recursive Search Block Matching", IEEE Transactions on Circuits and Systems for Video Technology, Vol.3, No 5, October 1993, pp. 368-379 에 나타나 있다. 이 방법은 모션 맵을 계산하는 부담을 상당히 줄여주지만, 역시 주기적인 패턴 또는 심지어 오크루전(occlusion)에 의해 판단을 그르칠 수 있다.

GB-A-2 188 510는 일련의 후보 변위에 대한 커다란 이미지 윈도우 상에서 계산되는 변위 에너지 맵에 관한 위상 상관 방법을 개시한다. 이 맵은 패스트 푸리에 변환(fast Fourier transform)을 이용하여 효과적으로 계산될 수 있다. 에너지 맵에서 첨두(peak) 값에 대응되는 변위들의 부집합(subset)은 이 윈도우 상에서 가장 대표적인 변위를 포함하도록 결정된다. 이때, 오직 이 변위의 부집합만을 고려하여, 블록 매칭은 두번째 스텝 픽셀 단위(pixelwise)로써 수행된다.

이 방법은 모션 추정의 복잡도를 줄이고, 또한 불연속적인 모션 맵을 검출하도록 한다. 위상 상관 기술을 통해, 모션 맵은 또한 조직화되고 제한되지만, 한편으로 공간 정규화(spatial regularization)와는 매우 다르다. 모션 맵의 부분 부드러움을 부가하는 대신, 위상 상관은 모션 맵내에서 고정된 개수의 일련의 다른 가능한 벡터들의 집합으로 제한된다.

그러나, 위상 상관은 하드웨어에서 구현하기에는 값비싼 2-차원 패스트 푸리에 변환 기반의 비교적 복잡한 계산을 여전히 요구한다. 또한, 상기 방법은 위상 상관에 의해 할당되는 개별적인 메리트(merit)를 기반으로 모션 벡터를 선택한다. 그러므로, 모션 벡터의 최소의 집합을 제공하기에는 제한된 능력을 가진다. 실제로, 이동 패턴이 주기적인 구조를 갖거나 변형과 무관할 때(translation-invariant), 몇몇 벡터는 비교가능한 메리트 값을 갖고, 위상 상관은 이들 사이를 중재할 수 없다. 따라서, 결과적인 모션-보상 비디오 인터폴레이션 프로세싱은 차선의 강인함이다. 모든 픽셀을 위하여 더 많은 후보 모션 벡터가 필요 이상 고려되기 때문에, 복잡도에 관한 부담도 가진다.

다른 접근 방식은 후보 벡터에 대한 저-복잡도 매칭 에너지를 계산함으로써 변위들의 첫번째 부집합을 선택하는 것을 포함한다. 이는 계산 복잡도를 다소 줄일 수 있지만, 모션-보상 인터폴레이션을 더 신뢰성있게 하는 적절한 방법은 아니다.

비디오 시퀀스에서 잡음을 줄이기 위한 고전적이고 여전히 대중적인 방법은 모션-보상적 재귀(recursive) 또는 비-재귀(non-recursive) 일시적인(temporal) 필터링을 포함한다. E. Dubois와 S. Sabri의 "Noise reduction in Image Sequences Using Motion-Compensated Temporal Filtering", IEEE Transcations on Communications, Vol. COM-32, No. 7, July 1984, pp. 826-832를 참고하라. 이는 프레임과 이전의 프레임 사이의 모션을 예측하는 것 및 일시적인 필터를 통해 추정된 모션을 따라 비디오 시퀀스를 필터링하는 것을 포함한다.

알려진 다른 방법은 모션-보상적 3D 웨이블릿 변환(wavelet transforms)을 사용한다. Xu 등의 "Three-Dimensional Embedded Subband Coding with Optimized Truncation (3D-ESCOT)", Applied and Computational Harmonic Analysis, Vol. 10, 2001, pp. 290-315를 참고하라. 이 논문에서 기술된 모션-보상적 3D 웨이블릿 변환은 이 3D 변환에 대해 웨이블릿 임계화(wavelet thresholding)를 수행하여 잡음 감소에 사용될 수 있다. 모션 쓰레드(threads)를 따라 리프팅-기반(lifting-based) 웨이블릿 변환을 사용하는 이러한 접근의 한계는 잡음에 의한 모션 맵의 오염(corruption)에 대한 매우 높은 민감도(sensitivity)이다.

WO 2007/059795 A1은 긴-범위 잡음 감소 또는 초 해상도 스케일링에 사용될 수 있는 초 해상도 프로세싱 방법을 개시한다. 이 방법은 웨이블릿 계수(coefficients)의 멀티스케일 그룹핑(multiscale grouping)을 사용하는 밴들릿 변환(bandlet transform)을 기반으로 한다. 이 표현은 3D-ESCOT 논문에 개시된 3D 변환보다 잡음 감소 또는 초-해상도 스케일링에 훨씬 더 적절하다. 멀티스케일 그룹핑은 예를 들어, 블록 매칭 또는 첨단의 이미지 등록 프로세싱(registration process)으로 계산할 수 있는 다양한 범위의 이미지 등록을 수행한다. 초 해상도 스케일링 및 잡음 감소 모두를 위하여, 사용된 이미지 등록 맵이 잡음에 의하여 또는 알리어싱 아티팩트(aliasing artifacts)에 의하여 오염되지 않는 것이 중요하다.

어떤 어플리케이션이라도(인터폴레이션 또는 잡음 감소), 밀집한 플로우 필드와 함께 모션-보상적 접근을 사용하는 것은 한계가 있다: 개구부(aperture), 투명 물체 또는 그림자와 함께 콘텐츠를 위한 하나의 모션 모델의 무관함(irrelevance)이 있다. 공간 및 시간에서 비디오 신호의 규칙의 하나 또는 그 이상의 방향을 각 픽셀에서 검출함으로써 비디오의 지역 불변 구조(local invariance structure)를 분석하는 것은 WO 2007/115583 A1에 나타난 바와 같이 비디오 인터폴레이션을 하기 위한 일반적이고 강인한 방식을 제공한다. 따라서, 이러한 방향들을 효율적이고 향상된 강인성으로 검출할 수 있도록 하는 기법이 필요하다.

본 발명의 목적은 높은 정확도 및 높은 강인성으로 입력 비디오 스트림에서 규칙성(regularity)의 방향을 검출하는데 유용한 방법을 제안하는 것이다. 특히, 초 해상도 비디오 인터폴레이션에서, 일관되지 않는(incoherent) 인터폴레이션 방향에 의해서 일반적으로 야기되는 아티팩트를 피하는 것이 요구된다. 비디오 잡음 감소에 있어서, 잡음에 의해 오염되지 않는 평균화 방향(averaging directions)을 선택하는 것이 요구된다.

다른 목적은 초 해상도 인터폴레이션 또는 잡음 감소 프로세싱의 구현 복잡도를 실질적으로 줄이는 것이다.

입력 비디오 시퀀스를 분석하는 방법이 개시되는데, 출력 비디오 시퀀스의 합성된 이미지들의 픽셀들이 방향의 미리 정의된 집합에 속하는 규칙성(regularity)의 각 방향과 연관된다. 상기 방법은 상기 방향의 미리 정의된 집합으로부터, 출력 시퀀스의 제1 이미지의 영역에 대한 후보(candidate) 방향의 제1 부집합을 결정하는 단계, 상기 방향의 미리 정의된 집합으로부터, 입력 시퀀스의 이미지 및 상기 후보 방향의 제1 부집합을 기반으로 상기 제1 이미지 다음에 오는 출력 시퀀스의 제2 합성된 이미지에 대응하는 영역에 대한 후보 방향의 제2 부집합을 결정하는 단계, 및 상기 후보 방향의 제2 부집합으로부터 상기 제2 합성된 이미지의 상기 영역의 픽셀들에 대한 규칙성의 방향을 검출하는 단계를 포함한다.

상기 후보 방향의 부집합은 이전 시간에 결정된 상기 부집합을 고려하여 시간 재귀에서 결정된다. 대표적으로, 방향들은 추가나 제거됨에 따라 야기된 비용 함수(cost function)의 증가하는 변화에 종속하여 상기 부집합으로부터 추가되거나 제거된다. 이미지 "영역"은 전체 이미지 영역 또는 일부 이미지 영역을 포괄할 수 있고, 이하에서 자세히 설명한다.

상기 후보 방향의 제2 부집합을 결정하는 단계는, 적어도 하나의 방향 쌍(pair) 상기 v_r 및 상기 v_a를 검출하는 단계, v_r은 후보 방향의 상기 제1 부집합(D_τ)에 속하고, v_a는 방향의 미리 정의된 집합(Ω)에 속하지만 상기 제1 부집합에는 속하지 않고, 상기 제1 및 제2 이미지의 상기 영역에 대한 상기 제1 부집합과 관련된 비용 함수는 v_a를 포함하는 수정된 부집합 및 v_r을 제외한 상기 제1 부집합의 방향에 관련된 비용 함수보다 더 높고; 및 검출에 대한 응답으로, 상기 제2 부집합으로부터 v_r을 배제하고, 상기 제2 부집합으로 v_a를 포함시키는 단계를 포함할 수 있다.

상기 기법은 규칙성의 방향의 검출을 빠르게 하거나, 구현 비용을 줄이기 위하여 간단한 동작 및 구조를 사용할 수 있다. 모션-보상적 비디오 인터폴레이션에서 발생하는 아티팩트의 개수가 줄어든다.

몇몇 실시예의 특징은 새로운 방향이 현존하는 방향의 부집합으로 제공하는 상대적인 마진 이득(relative marginal gain)을 평가하는 것으로 구성된다. 이와 반대로, 모션 추정의 특정 필드에서 기존 대부분의 방법은 어떤 변위(displacements)들이 이미 사용되었는지를 고려하지 않고 오직 변위 벡터의 절대 효율 척도(absolute efficiency measure)를 사용한다. 본 접근은 더 스파스(sparse)한 방향 집합을 선택하고, 다양한 아티팩트를 제거하도록 관리한다.

예를 들면, 알려진 위상 상관 방법은 이미지의 영역 내에서 광역 위상 상관 척도(global phase correlation measure)에 따라 가장 좋은 변위를 찾는 것으로 구성된다. 특정 이미지 영역 내에서, 모든 후보 변위 V_i는 P(V_i)(i=1,...,n)라고 불리는 연관된 위상 상관 값(associated phase correlation value)을 가진다. 최적의 부집합은 가장 높은 위상 상관 값을 가지는 변위로 구성될 것이다. 이는

가 최대가 되는 m 방향의 부집합 (V_i)_i∈S을 선택하는 것과 비교된다. 방향 부집합 상의 함수(functional)

는 분리가능하다. 예를 들면, 각각의 방향으로 개별적으로 적용되는 함수(functional)의 합으로 나타낼 수 있다. 직접적으로 함수를 최소화하는 것은 조합의 폭증을 초래하지 않는 유일한 경우이기 때문에 일반적으로 이러한 선택이 행해진다. 위상 상관의 시점에서 최적의 부집합 S를 찾기 위해서, 함수 P가 가장 높은 값을 갖기 위한 m 방향들은 이 순서로 간단히 선택된다.

그런데, 함수(functional)가 분리가능하지 않고 오직 P({V_i}_i∈S)로만 나타낼 수 있다면, 이러한 간단한 알고리즘을 사용한 최소화는 행해질 수 없다. 후보들 중 가장 좋은 부집합을 직접 찾는 것은 높은 조합 복잡도가 있다. 그러나, 몇몇 경우, 선택된 부집합으로부터 벡터 또는 방향이 추가되거나 제거될 때, 예를 들어, P({V_i}_i∈S)-P({V_i}_i∈ _S'), S와 S'는 단지 하나의 요소(element)만 다름, 함수(functional)의 변동(variation)을 여전히 계산할 수 있다. 이는 시간 재귀적 방식에서 함수(functional)의 증분적 최적화를 인도한다.

그러므로, 어떤 실시예에서, 상기 후보 방향들의 두번째 부집합을 결정하는 단계는, 상기 제1 부집합에 관련된 비용 함수에 대한 상기 제1 부집합의 개별적인 방향의 각각의 기여(contribution)에 관련된 제1 마진을 평가하는 단계; 상기 제1 부집합에 대하여 상기 미리 정의된 집합의 개별적인 방향의 추가로 인한 상기 비용 함수의 각각의 감소(decrement)에 관련된 제2 마진을 평가하는 단계; 및 상기 미리 정의된 집합의 상기 방향을 평가하는 상기 제2 마진이 상기 제1 부집합의 상기 방향을 평가하는 상기 제1 마진을 넘어설 때, 상기 미리 정의된 집합의 방향을 상기 제1 부집합의 방향으로 대체하는 단계를 포함한다. 광역 비용 함수가 최소화되는 반면, 위상 상관과 같은 기법은 광역 상관 척도를 최대화한다는 것에 주목한다.

비디오 시퀀스의 초 해상도 프로세싱은 인터폴레이션 또는 잡음 감소일 수 있다. 간단한 잡음 감소가 또한 가능하다.

입력 비디오 시퀀스 I_t(x)는 "원본 픽셀(original pixel)"이라 불리는 점 (x,t)의 격자 상에서 정의된다. 출력 비디오 시퀀스

은 "타겟 픽셀(target piels)"이라 불리는 점 (ξ,τ)의 격자 상에서 정의된다. 픽셀은 위치 (x,t) 또는 (ξ,τ)에 의해서 정의되고, 상기 위치에서의 비디오 이미지의 값 I_t(x) 또는

는 "픽셀 값(pixel value)"이라 불린다.

비디오 인터폴레이션의 특정 경우에서, 공간 및/또는 시간상으로 확산되는 몇몇 타겟 픽셀

은 원본 픽셀 I_t(x) (τ=t,ξ=x)일 수도 있고,

로 취하면 다시 계산될 필요가 없다. 값이 계산되어야 하는 픽셀은 원본 픽셀 I_t(x)이 아닌 타겟 픽셀이고, 이를 "새로운 픽셀(new pixel)"이라고 한다(τ≠t 또는 ξ≠x).

비디오 디인터레이싱(deinterlacing)의 경우에, 프레임-률은 보통 입력 비디오 시퀀스와 출력 비디오 시퀀스에서 동일하므로, 출력 시퀀스에서 시간 인덱스 τ는 입력 시퀀스에서 시간 인덱스와 동일할 수 있다; 이들은 보통 정수 인덱스 t, t+1 등으로 표시된다. 비디오 디인터레이싱 처리는 입력 시퀀스의 연속하는 프레임으로 인터폴레이트된 손실 라인(missing lines)을 추가하는 것으로 구성된다. 전형적으로, 입력 시퀀스의 홀수 프레임(odd frame)은 홀수 라인(odd line)을 가지는 반면, 오직 짝수 프레임(even frames)이 짝수 라인(even lines)을 가진다. 예를 들면 x=(x₁,x₂)에 대해, 입력 비디오 시퀀스는 t와 x₂가 둘 다 짝수이거나 홀수일 때만 I_t(x)를 제공한다. 출력 디인터레이스트된 비디오 시퀀스의 합성된 프레임

은 정수 라인 인덱스 x₂에 대한 패리티 제한없이 ξ=(x₁,x₂)를 갖는 픽셀들

으로 구성되고, 따라서 t와 x₂가 모두 짝수이거나 홀수일 때,

이다. 비디오 디인터레이싱의 목적은 t와 x₂중 하나가 홀수이고 다른 하나가 짝수일 때,

를 위한 가장 좋은 값을 인터폴레이트하는 것이다. 이러한 인터폴레이션을 수행하기 위해서 프레임내간(intra-frame) 및/또는 프레임간(inter-frame) 규칙성의 방향을 검출하는 것은 유용하다.

프레임-률 변환의 경우, 시간 인덱스 t,τ는 입력 및 출력 비디오 시퀀스에서 동일하지 않다. 정수 t, t+1 등은 입력 시퀀스의 프레임을 지시하는데 사용될 수 있고, 몇몇 프레임

가 비-정수(non-integer) τ에 대해 합성된다. 공간 인덱스 ξ=x=(x₁,x₂)는 종종 입력 및 출력 프레임 I_t,

에서 동일하다. 프레임-률 변환 출력 시퀀스는 비-정수 τ에 대해 합성된 프레임

를 포함한다. 다시, 이 중재(intervening) 프레임

를 합성하기 위하여, 입력 비디오 시퀀스를 분석함으로써 규칙성의 방향을 검출하는데 유용한 인터폴레이션이 수행된다. 합성된 출력 프레임

의 픽셀에 대한 규칙성의 방향을 검출하기 위하여, 분석은 비-정수 시간 인덱스 τ의 직전 또는 직후에(즉, t는 정수이고, t<τ<t+1) 위치한 입력 시퀀스의 프레임 I_t 및 I_t ₊ ₁를 수반할 것이다.

비디오 잡음 감소의 경우, 모든 타겟 픽셀 값은 다시 계산되어야 한다. 이 관례에 따르면, 결합된 초-해상도 비디오 스케일링 및 잡음 감소는 초 해상도 잡음 감소의 케이스이다. 간단한 잡음 감소를 위하여, 타겟 픽셀 격자(grid) (ξ,τ)는 원본 픽셀의 (x,t)와 동일하다:

, 여기서, v_t(x)는 처리에 의해 제거된 잡음 요소 추정이다. 결합된 초-해상도 잡음 감소 및 스케일링을 위하여, 타겟 픽셀은 원본 픽셀 격자 (x,t)와 다른 격자 (ξ,τ) 상에서 정의된다. 이 격자 (ξ,τ)는 원본 픽셀 격자 (x,t)의 확대 집합(superset)으로 정의될 수 있는 일반적으로 더 미세한 격자이다.

본 발명의 다른 양태는 프로그램 제품이 컴퓨터 프로세싱 유닛에서 실행되고 있을 때, 전술한 비디오 분석 방법을 수행하는 명령을 포함하는 컴퓨터 프로그램 제품에 관한 것이다.

본 발명의 또 다른 양태는 입력 비디오 시퀀스의 연속적인 이미지를 수신하고, 전술한 방법을 적용하여 입력 비디오 시퀀스를 분석하고, 및 검출된 규칙성의 방향을 이용하여 출력 비디오 시퀀스를 생성하는 비디오 프로세싱 방법에 관한 것이다.

상기 비디오 시퀀스를 생성하는 것은 상기 검출된 규칙성의 방향을 이용하여 상기 입력 비디오 시퀀스의 연속적인 이미지 사이에서 인터폴레이션(interpolation)을 수행하는 것을 포함할 수 있다. 이러한 인터폴레이션은 비디오 디인터레이싱 또는 입력 비디오 시퀀스의 프레임-률의 변환으로 구성될 수 있다. 다른 실시예에서, 비디오 시퀀스의 프로세싱은 검출된 규칙성의 방향을 이용하여 입력 비디오 시퀀스에 잡음 감소 동작에 적용하는 것을 포함할 수 있다.

본 발명의 또 다른 양태는 상술한 비디오 시퀀스를 처리하거나 분석하도록 마련된 계산 회로를 포함하는 비디오 프로세싱 장치에 관한 것이다.

도 1은 비디오 프로세싱 장치의 실시예를 나타낸 블록도이다.
도 2는 도 1의 장치에서 사용될 수 있는 방향 선택 유닛의 일 예를 나타낸 블록도이다.
도 3은 도 1 및 2에 도시된 장치에서 비용 함수 마진을 평가하는 예시적인 과정을 나타낸 흐름도이다.
도 4는 도 3의 과정에서 사용된 루프의 다른 실시예를 나타낸 흐름도이다.
도 5 및 6은 도 1 및 2에서 도시된 장치에서 후보 방향 사이를 중재하는 예시적 과정을 나타낸 흐름도이다.
도 7 및 8은 특정 이미지 부분에 적용되는 프레임-률 변환 프로세싱을 나타낸 도면이다.
도 9, 10, 11 및 12는 유사한 이미지 부분에 적용되는 비디오 디인터레이싱 프로세싱을 나타낸 도면이다.
도 13은 발명의 일 실시예에 따른 비디오 프로세싱 장치의 블록도이다.

도 1에 따르면, 비디오 프로세싱 장치는 연속적인 이미지 또는 비디오 시퀀스의 프레임의 디지털 표현을 수신하는 입력을 갖는다. I_t, I_t ₊ ₁는 이산(discrete) 시간 t 및 t+1에서의 프레임을 나타내고, I_t(x), I_t ₊ ₁(x)는 2차원 인덱스 x=(x₁,x₂)에 의하여 위치하는 픽셀에 대한 프레임들의 픽셀 값을 나타낸다. 시간 인덱스 t 와 공간 인덱스 x가 어떻게 다루어지는지는 비디오 프로세싱 어플리케이션에 따라 다를 수 있다. 예를 들면, 디인터레이싱 사이에서, 프레임-률 변환 및 잡음 감소가 있다. 이 문제는 이후에 아래에서 설명한다.

방향 선택 유닛(101)은 이전의 부집합 D_τ및 연속적인 입력 프레임들을 기반으로, 출력 프레임

에 대한 후보 방향의 부집합 D_τ'을 결정하기 위하여 시간 재귀 추정을 구현한다. 상기 "이전의 부집합 D_τ"은 출력 비디오 시퀀스에서

를 바로 이전에 선행하는 출력 프레임

를 위하여 결정된다. 예를 들면, 디인터레이싱 또는 간단한 잡음 감소에서 τ'=τ+1이고, 프레임-률 변환 또는 초 해상도 잡음 감소에서 τ'=τ+δτ이다. 시간 τ'에서 부집합 D_τ의 결정에 관계되는 입력 프레임은 적어도 I_t 및 I_t ₊₁을 포함한다. 단 t≤τ'≤t+1. 몇몇 실시예에서, 입력 프레임은 소수의 과거 프레임 I_t _-1, ..., I_t _-n(n≥1)을 더 포함할 수 있다.

이하에서, "방향(direction)" v=(dx,dt)는 2D 이미지 공간의 픽셀 오프셋 dx=(dx₁, dx₂)에 관련된 2차원 및 시간 오프셋 dt에 관련된 3번째 방향에서의 3D 공간에서의 방향을 의미한다. 입력되는 비디오 시퀀스에서 규칙성(regularity)의 방향을 찾으려는 비디오 어플리케이션이 많이 있다. 예를 들면, 비디오 인터폴레이션을 할 때, 손실된(missing) 픽셀의 이웃(neighborhood)의 "유사한(similar)" 픽셀을 기반으로 특정한 잃어버린 픽셀의 값을 결정해야 한다. 이러한 이웃은 2D 이미지 공간 및/또는 시간에서 확장될 수 있으므로, 위에서 언급된 3D 공간에서 찾으려는 것은 적절하다. 마찬가지로, 잡음 감소 어플리케이션에서 "유사한" 픽셀의 몇몇 이웃을 확인하는 것이 가능하다면, 입력 픽셀의 값은 평균 낸 잡음에 의하여 오염될 수 있다. 다시, 이러한 이웃은 2D 이미지 공간 및/또는 시간에서 확장할 수 있다. 이하에서 설명되는 방법은 프로세싱에 유용한 "유사한" 픽셀 값을 결정하는데 도움을 주는 이미지의 픽셀 값에 대한 규칙성의 방향을 구한다.

부집합 D_τ 또는 D_τ'는 스파스 지오메트리(sparse geometry)를 정의한다. 각각의 부집합 D_τ또는 D_τ'는 규칙성의 가능한 모든 방향을 포함하는 집합 Ω의 부집합이다. D_τ, D_τ'에 의하여 정의된 지오메트리는 각각의 인스턴트(instant) τ, τ'를 위하여 사용될 수 있는 서로 다른 방향의 개수가 비교적 적은 개수로 제한되어 있기 때문에 스파스(sparse)하다. 아래에서 기술하는 바와 같이, 후보 방향 D_τ, D_τ', ...의 부집합은 한계적(marginal) 변화와 함께 시간상에서 진화한다(evolve). D_τ, D_τ'에서 남는(redundant) 방향들은 제거되고, 픽셀 별(pixel-by-pixel) 프로세싱에서 사용되지 않는다.

일반적으로, Ω는 200에서 1000개의 다른 방향을 포함할 수 있다(200≤|Ω|≤1000, 여기서, | |는 집합의 크기를 나타낸다). 부집합 D_τ, D_τ',...는 10≤|D_τ|≤50의 범위에서 크기가 제한될 수 있다.

방향 검출 유닛(102)은 연속적인 프레임 I_t, I_t ₊₁ (및 가능하면 소수의 과거 프레임 I_t _-1, ...,I_t _-n)을 기초로, 선택 유닛(101)에 의해 결정된 부집합 D_τ'에 속한 후보 방향들만을 시험하여 규칙성의 방향 {v}의 분포를 결정한다. Ω에서 D_τ'로의 크기 감소는 매우 높은 복잡도를 요구하지 않고도 검출을 수행하는 것을 가능하게 한다.

최종적으로, 비디오 프로세싱 유닛(103)은 규칙성의 검출된 방향 {v}를 사용해서 디인터레이싱, 프레임-률 변환 또는 잡음 감소와 같은 입력프레임 I_t, I_t ₊ ₁로부터 출력 비디오 프레임을 전달하기 위한 비디오 프로세싱을 수행한다.

유닛(102)과 유닛(103)은 기존 또는 최근 방법을 구현할 수 있고, 간단한 예제가 완전성을 위해 주어진다. 특히, 검출 유닛(102)은 WO 2007/115583 A1에 나타난 손실 함수(loss function)를 사용할 수 있다. 발명의 핵심은 좀더 자세히 설명할 방향 선택 유닛(101)에 있다.

방향 선택 유닛(101)은 방향 검출 유닛(102)보다 더 커다란 방향의 집합을 고려함에 따라, 흥미있는 가능성은 유닛(102)에서보다 유닛(101)에서 더 간단한 비용 함수를 사용하는 것이다. 다시 말해서, 로컬 비용 함수는 부집합으로부터 방향을 선택하는 단계(방향 검출 유닛(102))에서보다는 방향 부집합 D_τ'를 결정하는 단계(방향 선택 유닛(101))에서 좀 더 거칠게(coarsely) 추정된다. 이는 계산의 복잡도 면에서, 또는, 동등하게, ASIC/FPGA 로직 크기 면에서 실질적인 절감을 제공한다.

예를 들면, 이는 유닛(102)의 8비트 또는 10비트 픽셀 값 대신에 유닛(101)의 5비트 또는 6비트 픽셀 값과 같이 덜 정확한 픽셀 값의 대표 값을 이용하여 수행될 수 있다. 다른 가능성은 방향 검출 유닛(102)에서 사용되는 컨볼루션(convolution) 윈도우보다 계산하기에 더 간단한 방향 선택 유닛(101)에서 컨볼루션 윈도우 g(아래에서 자세히 설명한다)를 사용하는 것이다. 예를 들면, 큰 명백한 FIR(finite impulse response) 필터와 같은 많은 로직(logic)과 메모리를 요구하지 않는 간단한 IIR(infinite impulse response) 필터에 대응하는 윈도우 프로필(profile)이 있다. 또한, 서로 다른 계산 복잡도의 비용 함수(아래에서 언급)는 유닛(101)에서 부집합 선택을 위하여 사용될 수 있고, 유닛(102)에서 픽셀 별(pixelwise) 방향 검출을 위해서 사용될 수 있다.

선택 유닛(101)의 목적은 출력 시퀀스내의 인스턴트(instant) τ'에서 비디오 시퀀스의 지역 규칙성의 유용한 묘사를 제공하여 방향의 부집합 D_τ'을 계산하는 것이다. 가장 좋은 부집합 D는 다음과 같은 광역(global) 비용(또는 손실) 함수 L(D)를 최소화하는 것이다.

여기서, 픽셀 (x) 상의 합은 전체 이미지 영역(또는 그 부분)을 스팬한다(span). D의 후보 방향 v에 걸쳐 최소화되는 양 L_x(v)는 지역(local) 비용 (또는 손실) 함수이고, v=(dx,dt)에 대하여 다음과 같은 다양한 종류일 수 있다.

절대차(absolute difference) :

2차차(quadratic difference):

절대차의 가중치 합 :

2차차의 가중치 합 :

여기서 g는 컨볼루션(convolution) 윈도우 함수이고, (0,0) 근처(vicinity)에서 0이 아닌 값을 가진다.

비디오 시퀀스의 둘 이상의 프레임의 지역 비용 함수를 계산하는 것을 포함하여, L_x(v)=|I_t(x)-I_t ₊ _dt(x+dx)|+|I_t(x)-I_t _- _dt(x-dx)| 및 유사한 변형과 같이, 다른 변형(variants)이 가능하다.

편의상, 또한 방향의 집합의 지역 비용 L_x(D)를 그 집합 내의 모든 방향에 걸친 손실 함수의 최소값으로 다음과 같이 정의할 수 있다.

수학식 1을 최소화하는 부집합 D를 찾는 것은 커다란 조합 복잡도를 갖는다. 왜냐하면, 부집합 D에 한 방향을 더하는 값은 이미 그 부집합에 존재하는 방향에 종속하기 때문에다. 이 어려움을 극복하기 위하여, 증분적인(incremental) 접근이 제안된다. 제시간에 오직 한계적(marginal) 변화를 D_τ, D_τ', ...에 적용시킴으로써, 시간 재귀를 이용하여 최소화를 수행할 수 있다.

도 2에서 기술된 방향 선택 유닛(101)은 가능한 방향의 집합 Ω의 서로 다른 방향 v에 대한 마진(margin) m(v)를 평가하기 위한 블록(201), 및 마진 m(v)를 기초로 어떤 D_τ의 방향이 D_τ'로부터 배제(exclude)되어야 하는지 및 어떤 Ω-D_τ의 방향이 D_τ'로 포함되어야 하는지를 결정하기 위한 중재 블록(202)을 포함한다. D_τ'를 얻기 위하여 D_τ에 더해지도록 선택된 방향들 v는 수학식 1에 따라 비용 함수 L(D)를 향상시키기(감소시키기) 위하여 얼마나 많이 한계적으로(marginally) 기여할 것인지에 따라 선택된다. 마찬가지로, D_τ로부터 제거되는 방향들 v는 비용 함수 L(D)를 감소시키기 위하여 얼마나 적게 한계적으로 기여하는지에 따라 선택된다.

D_τ'를 구성하는 다양한 조합 D에 대한 L(D)를 평가하여서는 어떤 요소(element)가 D_τ'에 있는지를 결정할 수 없다. 그러나, 현존하는 방향 부집합 D에 대한 방향 v의 마진(margin), m(v｜D)를 이용하여, Ω-D의 새로운 방향 v가 D에 추가될 때 L(D)가 어떻게 달라지는지는 추정가능하다.

여기서, D+{v}는 집합 D와 개체(singleton) {v}의 합집합을 말한다. 다시 말하면, m(v｜D)는 방향 D의 부집합을 갖고 이미 얻어진 수학식 1의 비용 함수를 낮추도록 새로운 방향이 얼마나 많이 한계적으로 기여하는지에 관한 척도이다. 마진 m(v｜D)는 다음과 같이 계산할 수 있다.

여기서, D에 대한 v의 x 위치에서 지역 마진 m_x(v｜D)는:

● L_x(v)≥L_x(D)이면, 즉, v가 이미 D 안에 있는 방향들보다 픽셀 위치 x에서 비용 함수를 최소화하는 것이 더 좋지 않을 때, m_x(v｜D)=0 이다.

● 그 밖의 경우, m_x(v｜D)= L_x(D) - L_x(v) 이다.

고정된 D, 각각의 x 및 Ω-D내의 각각의 후보 v를 대하여 마진 m_x(v｜D)를 계산하는 것은 양(quantity) L_x(D) 및 L_x(v)를 결정함에 따라 가능하다. 이때, m(v｜D)는 m_x(v｜D)의 누적 합(running sum)을 업데이트하여 계산할 수 있다.

새로운 방향 v_a를 포함하고, D_τ'를 계산하기 위하여 D_τ로부터 이미 선택된 방향 v_r을 제거하는 경우를 고려해보자. 즉,

이러한 교환(exchange)에 의해 야기된 수학식 1의 광역 비용의 감소는 다음 식과 같이 교환 마진(exchange margin) M_exch(v_a,v_r)로 나타낼 수 있다.

만약, M_exch(v_a,v_r)>0 이면, 즉, m(v_a|D_τ)>m(v_r|D_τ-{v_r}+{v_a})라면, D_τ내의 방향 v_r를 방향 v_a로 교체하는 것은 광역 비용을 줄이므로 v_r과 v_a를 교환할만하다. 다양한 마진(margin)을 계산하는 것은 쉽지만(tractable), 여전히 계산 량을 매우 감소시킬 수 있는 가능성이 있다. 이는 다음과 같이 알 수 있다: "v_r이 제공하던 것보다 v_a가 더 큰 한계적(marginal) 광역 비용 감소를 제공한다면, 교환할만하다". 이러한 접근에서, 수학식 5의 정확한 마진 m(v_r|D_τ-{v_r}+v_a})을 계산하는 것 대신, 몇몇 근사(approximation)가 가능하다.

첫번째 근사에서, m(v_r|D_τ-{v_r}+v_a})는 m(v_r|D_τ-{v_r}})로 교체될 수 있다. 다음 부등식은 항상 진실이다.

이 근사에 의해서 제공되는 복잡도 이득(complexity gain)은 매우 크다. 계산되는 마진의 수는 이제 |Ω-D|×|D| 대신 |D|의 차수(order)를 갖는다. 이 근사를 이용하여, 다음과 같은 교환 마진 M'_exch(v_a,v_r)을 얻을 수 있다.

수학식 7의 교환 마진 M'_exch(v_a,v_r)는 수학식 5의 실제 교환 마진 M_exch(v_a,v_r)보다 크지 않다는 것을 주목한다. 근사화된 교환 마진 M'_exch(v_a,v_r)가 음이 아니라면, 실제 교환 마진 M_exch(v_a,v_r) 역시 음이 아니다. 그러므로 수학식 7에 따른 교환(swap)은 수학식 5의 관점으로부터 틀리지 않다.

도 3은 수학식 7에서 사용된 마진 m(v_a|D_τ) 및 m(v_r|D_τ-{v_r})을 평가하는 블록(201)에 의해 사용될 수 있는 과정을 나타낸 흐름도이다. 도 3에서, 후보 방향들의 하나의 부집합 D_τ'은 방향 선택 유닛(101)에 의하여 수신된 각각의 새로운 입력 프레임 I_t ₊₁에 대해 결정된다고 가정한다. 이 가정은 비디오 디인터레이싱 또는 간단한 잡음 감소(예를 들면, τ=t, τ'=t+1)에 대해, 또는 프레임-률 2배(doubling) (τ=t-1/2, τ'=t+1/2)에 대해 유효하다. 2배 이외의 비율의 프레임-률 변환에 대한 일반화는 명백하다(도 3에 나타난 종류의 과정은 일반적으로 각 새로운 출력 프레임에서 생성되어 수행된다; 새로운 출력 프레임의 프레임-률은 입력 프레임의 프레임-률과 동일한 것을 의미하기 때문에, 상기 가정을 보다 분명하게 설명한다). 이러한 가정에서, 우리는 상기 과정의 시간 재귀(recursion)로 인한 시간 인덱스 t-1, t 및 τ,τ'를 얻을 수 있다. 추가적으로, 방향 v(=v_r)가 D(=D_τ)내에 있고 제거될 수 있다면, m(v)는 m(v_r|D_τ-{v_r})를 나타낸다. 방향 v(=v_r)가 Ω-D내에 있고 D에 더해질 수 있다면, m(v)는 m(v_a|D_τ)를 나타낸다. 마진 m(v)는 초기화(단계 301)에서 0으로 설정되는 누적 합(running sums)을 업데이트하여 Ω내의 모든 방향 v 에 대해 평가된다.

단계 302에서 첫번째 픽셀 x가 선택되고, 프레임 어레이(array) I_t 및 I_t ₊₁의 픽셀 x를 하나씩 스캔한다. D의 방향 v상의 첫번째 루프(310)는 픽셀 x에 관한 D(=D_τ)의 방향을 위한 누적 합을 업데이트하기 위하여 실행된다. D내의 첫번째 방향 v를 택하고, 변수 A를 임의의 큰 값(예를 들면, 최대 가능한 값)으로 설정하는 단계 311에서 상기 첫번째 루프는 초기화된다. 루프 310의 종료시, 변수 A는 수학식 2에서 정의된 L_x(D)의 값을 포함할 것이다.

루프 310의 각 반복(iteration)(단계 312)에서, 픽셀 x 및 방향 v에 대한 지역 비용 L_x(v)가 얻어지고, 변수 L로 로드(load)된다. 단계 312에서, 블록(201)은 예를 들면, 앞서 언급된 가능성 중 하나에 따라서 L_x(v)를 계산하거나, 비용 L_x(v)가 미리 계산되었다면 그것을 메모리로부터 획득한다. 테스트 313은 L이 A보다 작은지 여부를 검사하기 위하여 수행된다. L<A라면, 방향 인덱스 v는 변수 u에 저장되고, 변수 B는 단계 314에서 A 값을 수신한다. 단계 315에서 값 L은 변수 A에 할당된다. 루프 310의 마지막에서, 변수 u는 L_x(v)를 최소화하는 D의 방향 v의 인덱스를 포함할 것이다. 즉,

. 그리고, 변수 B는 D의 방향 v에 대한 L_x(v)의 두번째로 작은 값을 포함할 것이다. 즉,

이다. 만약 테스트 313에서 L≥A 라면, 지역 비용은 테스트 316에서의 B와 비교된다. 만약 A≤L≤B 라면(테스트 316의 '예'), 단계 317에서 변수 B는 L 값으로 업데이트된다. 테스트 316에서 L≥B이거나, 또는 단계 315 또는 단계 317 이후에, 루프 종료 테스트 318은 D의 모든 방향 v가 스캔되었는지를 여부를 체크하기 위하여 수행된다. 그렇지 않다면, 단계 319에서 다른 방향 v가 선택되고, 과정은 루프 310의 또 하나의 반복을 위하여 단계 312로 돌아간다.

루프 310이 끝나면, 픽셀 x에서의 지역 코스트를 최소화하는 D_τ의 방향 u의 마진 m(u)는 양 B-A를 더함으로써 업데이트된다(단계 321). 픽셀 x가 관계되는 한, D로부터 u를 제거하는 것은 D의 다른 방향의 마진이 영향을 주지 않은 채로 그 양만큼 비용을 악화시킬 수 있다.

픽셀 x 에 관한 Ω-D의 방향에 대한 누적 합을 업데이트하기 위하여, 픽셀 x를 위한 처리는 D내에 있지 않은 가능한 방향 v에 걸쳐 두번째 루프 330에 의해 계속된다.

이 두번째 루프는 Ω-D내의 첫번째 방향 v를 취함으로써, 단계 331에서 초기화된다. 각각의 반복(단계 332)에서, 픽셀 x 및 방향 v에 대한 지역 비용 L_x(v)은 변수 L로 로드(load)되도록 계산되거나 획득된다. 테스트 333은 L이 A(=L_x(D))보다 작은지 여부를 평가하기 위하여 수행된다. 만약 L<A라면, 픽셀 x에 대한 D로 v를 추가한 결과 얻어지는 비용 함수의 개선을 고려하기 위하여, 방향 v에 대한 마진 m(v)가 A-L를 더 추가함으로써, 업데이트된다(단계 334). 만약 테스트 333에서 L≥A이거나 단계 334 이후에, 루프의 종료 테스트 335가 Ω-D의 모든 방향 v가 스캔되었는지 여부를 확인하기 위하여 수행된다. 그렇지 않다면, Ω-D의 다른 방향 v가 단계 336에서 선택되고, 과정은 루프 330의 또 하나의 반복을 위하여 단계 332로 돌아간다.

루프 330이 끝났을 때, 테스트 341에서 관련된 프레임 어레이(array)의 모든 픽셀 x 가 스캔되었는지 여부가 결정된다. 그렇지 않다면, 어레이의 다른 픽셀 x이 단계 342에서 선택되고 과정은 단계 311로 돌아간다. 테스트 341이 모든 픽셀이 처리되었음을 보여줄 때, 현재 프레임에 관한 블록(201)의 동작은 종료한다.

각 새로운 입력 프레임 I_t ₊₁에 대하여 블록(201)은 이렇게 Ω의 모든 방향 v에 대한 마진 m(v)를 출력한다. 예를 들어, D의 방향에 대한 제거(removal) 마진 및 Ω-D의 추가(addition) 마진이다.

입력 비디오 시퀀스의 초기에 과정을 초기화하기 위하여, 부집합 D는 임의의 콘텐츠(content)를 가질 수 있고. 또는, 최초의 몇몇 프레임 상에서의 거친(coarse) 방법으로 결정될 수 있다. 정확한 부집합은 선택 과정의 시간 재귀로 인해 빠르게 생성될 수 있다.

두번째 근사(approximation)가 블록(201)의 복잡도를 더 줄이기 위해서 행해질 수 있다. 이 근사에서, m(v_a|D_τ)는 수정된 마진 m^*(v_a|D_τ)으로 대체된다. 수학식 4에서처럼, 수정된 마진 m^*(v|D)는 다음과 같이 픽셀 단위(pixelwise) 합이다.

지역 수정 마진 m^* _x(v|D)는 다음과 같이 정의된다.

● L_x(v) < L_x(Ω-{v})라면, m^* _x(v|D) = L_x(D)-L_x(v)이다. 이는 픽셀 위치 x에서 비용 함수를 최소화하는 관점에서 보면, v가 Ω내의 가장 좋은 방향일 때를 말한다.

● 그 밖의 경우, m^* _x(v|D) = 0 이다.

첫번째 근사 및 두번째 근사를 가지고, 수정된 교환 마진 M^* _exch(v_a,v_r)는 다음과 같이 구할 수 있다.

다시, 수정된 교환 마진 M^* _exch(v_a,v_r)은 실제 교환 마진 M_exch(v_a,v_r)보다 크지 않은데, 수학식 6과 m^* _x(v_a|D)≤m_x(v_a|D) 때문이다. 따라서, 상기 수학식 9를 기초로 결정된 교환(swap)은 수학식 5의 관점에서 보면 틀리지 않다.

수정된 마진 m^* _x(v_a|D)은 보다 작은 계산량 또는 보다 낮은 복잡도의 회로로 계산될 수 있는데, 각각의 위치 x에 대하여 Ω-D내의 하나의 절대 최적 방향(absolute best direction)에 대응하는 최대 하나의 누적 합이 업데이트되어야 하기 때문이다. 반면에, 수정되지 않은 마진 m_x(v_a|D)에서는 최악의 경우(도 3에서 항상 양(positive)인 테스트 333), 이러한 승자(winner)의 수는 ｜Ω-D｜와 동일하다. 배선에 의한(hardwired) ASIC 또는 FPGA 회로를 이용한 구현에서, 로직 크기로 인한 영향은 상당히 크다. 같은 이유로, 소프트웨어 구현에서 최악의 실행(execution) 시간의 영향 또한 중요하다.

두번째 근사를 가지고, 도 3의 과정은 도 4에 도시된 것과 같이 루프 330을 수정된 루프 430으로 대체하도록 수정된다. Ω-D내의 첫번째 방향 v을 취하고, A=L_x(D)의 값을 다른 변수 A^*에 설정함으로써, 루프 430은 단계 431(단계 331을 대체하는)에서 초기화된다. 루프 430의 종료에서, 변수 A^*은 Ω내의 모든 방향 v에 대한 L_x(v)의 최소값, 즉 L_x(Ω)을 포함할 것이다.

각 반복에서, 픽셀 x 및 방향 v∈Ω-D에 대한 지역 비용 L_x(v)은 단계 432에서 변수 L로 로드(load)되기 위하여 계산되거나 획득된다. 테스트 433은 L이 A^*보다 더 작은지 여부를 평가하기 위하여 수행된다. 만약 L<A^* 라면, 상기에서 언급된 변수 u는 방향 인덱스 v를 포함하도록 업데이트되고, 단계 434에서 L 값은 변수 A^*에 할당된다. 만약 테스트 433에서 L≥A^*이거나 단계 434 이후에, 루프의 종료 테스트 435는 Ω-D내의 모든 방향 v가 스캔되었는지 여부를 확인하기 위하여 수행된다. 그렇지 않다면, Ω-D의 다음 방향 v가 단계 436에서 선택되고, 과정은 루프 430의 또 하나의 반복을 위하여 단계 432로 돌아간다.

루프 430이 종료될 때, 픽셀 x에 대한 지역 비용을 최소화하는 Ω의 방향 u의 마진 m(u)는 거기에 양(quantity) A-A^*을 추가하여 업데이트된다(단계 441). 만약 u∈D라면, 단계 441은 아무것도 바꾸지 않는다. 만약

라면, u에 D를 추가하는 것은 픽셀 x가 관련되는 한 A-A^*만큼의 비용 함수를 줄이는 반면, Ω-D의 다른 방향에 대한 마진은 영향이 없는 채로 남는다.

복잡도의 감소는 단계 441의 업데이트가 루프 430의 밖에서 수행된다는 사실에 따른 결과이다. 이 단순화의 단점은 Ω-D의 보다 덜 최적의 방향에 대한 정확도의 일부 손실이지만, 이는 비디오 시퀀스에 실제로 관련된 방향을 결과적으로 드러낼 과정의 시간 재귀의 관점에서 그리 심각한 문제는 아니다.

마진 m(v)가 블록(201)에 의해서 계산되는 후보 방향들 v 사이를 중재하기 위한 다양한 과정이 블록(202)에 의해 적용될 수 있다.

도 5에 나타난 간단한 예에서, 블록(202)은 블록(201)에 의해 계산된 가장 낮은 마진 m(v)을 가지고, D_τ'로부터 배제되기에 가장 적절한 후보인 부집합 D=D_τ의 방향 v를 선택한다(단계 501). 또한, 가장 높은 마진 m(w)를 가지는, 즉, D_τ'로 포함되기에 가장 적절한 Ω-D의 방향 w를 선택한다(단계 502). 만약 m(w) > m(v) 라면(테스트 503), 단계 504에서 교환이 이루어지는데, v는 D내의 w로 대체되어서, D_τ'=D_τ-{v}+{w}이다. 만약 단계 503에서 m(w)≤m(v) 라면, 교환은 이루어지지 않고, D_τ'= D_τ이다.

도 6은 블록(202)이 하나 이상의 방향 쌍(direction pair)을 교환할 수 있는 다른 접근을 나타낸 것이다. 단계 601에서, 가장 낮은 마진을 가지는 부집합 D=D_τ의 n개의 방향 v₁, v₂,...,v_n이 선택되고, 마진이 증가하도록 정렬된다: m(v₁)≤m(v₂)≤...≤m(v_n). 개수 n은 1과 ｜D｜사이의 어느 정수라도 될 수 있다. n=1인 경우, 도 6의 과정은 도 5의 과정과 동일하다. 단계 602에서, 가장 높은 마진을 가지는 Ω-D의 방향 w₁, w₂,...,w_n이 또한 선택되고, 마진이 감소하도록 정렬된다: m(w₁)≥m(w₂)≥...≥m(w_n). 이어서, 얼마나 많은 방향 쌍이 교환되는지 결정된다. 예를 들면, 단계 603에서 루프 인덱스 i(i=1)을 초기화한 후, 블록(202)은 테스트 604에서 마진 m(w_i)와 m(v_i)를 비교한다. 만약 Ω-D의 방향 w_i가 D의 방향 v_i보다 낫다면, 즉 m(w_i)>m(v_i)라면, 단계 605에서 교환이 이루어져서 w_i는 D의 v_i를 대체하고, 테스트 606에서 i는 n과 비교된다. 만약 i<n라면, 모든 쌍이 체크되지는 않았고, 새로운 테스트 604에서 다음 쌍을 체크하기 전에, i는 단계 607에서 증가한다. 테스트 604에서 i<n에 대해 m(w_i)≤m(v_i)이거나, 테스트 606에서 i=n일 때, 과정은 종료된다. 만약 n' 방향 쌍이 교환될 경우(단, n'≤n), 업데이트된 방향 부집합은 D_τ'=D_τ-{v₁, ..., v_n'}+{w₁, ..., w_n'}이다.

일 실시예에서, 규칙성의 방향이 유닛(102)에서 검출될 때, 오로지 주어진 임계치(threshold) T를 넘는 마진 m(v)를 가지는 방향 v가 사용된다. 이는 D_τ'가 블록(202)에 의하여 결정되면, 방향 검출 유닛(102)이 m(v)<T 이도록 D_τ'의 방향 v를 무시함으로써 쉽게 수행된다.

또는, Ω-D의 새로운 방향 w를 D_τ'로 산입하는 것은, m(w)이 임계치 T보다 낮을 때 금지될 수 있다. 이는 다양한 방식으로 수행될 수 있다. 예를 들면, 도 6의 과정이 사용될 경우, 갯수 n은 {1, 2,...,｜D｜} 중에서 가장 큰 정수로 설정되어, 1≤i≤n인 모든 인덱스 i에 대하여 m(w_i)>T 이 될 수 있다.

임계치 T의 사용은 후보 방향의 집합을 축소하고, 비디오의 지오메트리 복잡도에 적응된 많은 후보 방향들을 선택할 수 있도록, 즉, 비디오에 적합한 방향들의 가장 스파스한(sparse) 집합을 선택할 수 있도록 도움을 준다.

도 7 및 8은 비디오 프로세싱 유닛(103)이 인터폴레이션을 수행하고 출력 및 입력 비디오 시퀀스의 프레임-률 사이에서 2의 비율로 특정 프레임-률 변환을 하는 경우, 본 발명의 일 실시예에 의해 제공되는 결과를 나타낸다.

이 예에서 비디오 시퀀스는 텍스트 "Sweeet"를 수평으로 스크롤한 캡션(caption)이다. 도 7에서의 미스매치(mismatch)와 도 8에서의 정확한(correct) 인터폴레이션으로부터, 701 및 801은 시간 t에서의 이미지를 나타내고, 703과 803은 시간 t+1에서의 이미지를 나타내고, 702 및 802는 시간 τ'=t+1/2에서 합성된(synthesized) 이미지를 나타낸 것이다. 이미지 701/801과 703/803 사이에서 (시간 t와 t+1), 전체 텍스트 "Sweeet"는 10 픽셀 왼쪽으로 스크롤된다. 미스매치의 가능한 원인은 텍스트가 8 픽셀의 주기로 문자 "e"를 여러 번 포함하는 것이고, 방향 검출 유닛(102)은 시간 t의 첫번째 "e"에 의해 시간 t+1에서의 다음 입력 이미지의 또 하나의 e처럼 보아, 실수를 저지르고, 702에서 보이는 것처럼 아티팩트를 가져올 수 있다.

도 7 및 8의 예에서, 유닛(101)에서 사용된 비용 함수는 중심이 되고, Ω는 단지 dt=1/2인 방향 v=(dx,dt) 만을 포함한다. 위치 x 및 시간 τ'=t+1/2에서의 방향 v=(dx,dt)의 비용은 예를 들어, L_x(v)=|I_τ'- _dt(x-dx)-I_τ'+ _dt(x+dx)|=|I_t(x-dx)-I_t+1(x+dx)| 또는 바람직하게 음이 아닌 공간(spatial) 윈도우 함수 g의 컨볼루션에 의해 이 비용의 윈도우된 버전일 수 있다. 규칙성의 두 방향은 이 시퀀스 상의 지역 척도를 가지고 얻을 수 있다:v⁽¹⁾=(dx₁ ⁽¹⁾, dx₂ ⁽¹⁾, dt⁽¹⁾)=(-5, 0, 1/2) 및 v⁽²⁾=(dx₁ ⁽²⁾, dx₂ ⁽²⁾, dt⁽²⁾)=(-1, 0, 1/2).

일단 유닛(102)에 의해 방향 v=(dx, 1/2)이 시간 τ'=t+1/2에서 픽셀 x에 대해 검출된다면, 유닛(103)에 의해 수행되는 프레임-률 변환을 위한 인터폴레이션은

를 계산하는 것으로 구성될 수 있다.

도 7에서, 스파스(sparse) 지오메트리가 사용되지 않는다고 가정하면, Ω내의 모든 방향은 검출 유닛(102)에서 고려된다고 할 수 있다. 텍스트의 첫번째와 세번째 "e" 사이에 있는 몇몇 픽셀들에 대하여, 검출된 방향은 시간 t에서의 첫번째 "e"를 시간 t+1에서의 두번째 "e"(도 7의 박스 참고)와 그룹짓고, 시간 t에서의 두번째 "e"를 시간 t+1에서의 세번째 "e"와 그룹짓는데, 이는 부정확한 일시적인(temporal) 인터폴레이션을 야기한다. 참조번호 702는 부정확한 인터폴레이션으로 인한 아티팩트를 갖는 부정확한 이미지를 보여준다. 검출된 방향 v⁽¹⁾ 및 v⁽²⁾ 모두에 대응하는 인터폴레이트된 값을 혼합하는(mixing) 것으로 구성된 간단한 차선책(workaround) 역시 문제를 해결할 수 없다.

유닛(101)의 스파스(sparse) 지오메트리 D_τ'를 사용하는 것은 이 문제를 극복하는 데 도움이 된다. 실제로, 부집합 D_τ이 방향 v⁽¹⁾=(-5, 0, 1/2)를 포함하지 않는다면, 오직 v⁽¹⁾만 문자 "S", "w" 및 "t"의 스크롤을 설명할 수 있기 때문에 D_τ'에 대한 v⁽¹⁾의 마진은 높을 것이다. 그러므로, v⁽¹⁾은 시간 τ'에서 D_τ'에 들어갈 것이다. 이것이 행해지면, v⁽¹⁾이 모든 "e"들을 포함하는 모든 문자에서 비디오의 가능한 방향이므로, v⁽²⁾=(-1, 0, 1/2)의 마진은 매우 낮거나 심지어 0이 될 것이다. 왜냐하면, v⁽¹⁾가 아닌 규칙성의 가능한 방향에서 비디오의 영역이 없기 때문이다. 결과적으로, 방향 v⁽²⁾는 집합 D_τ'에 관련되지 않아서, 검출 유닛(102)에서 고려되지 않거나, 마진이 임계치 T보다 낮아서 무시될 것이다. 정확한 인터폴레이션은 802에서 기술된 것처럼 계산된다.

일시적인(temporal) 인터폴레이션은 가끔 두 개의 원본 프레임 중간(halfway) 이외에서 수행된다. 예를 들면, 50Hz와 60Hz 프레임-률 표준 사이의 변환의 적용에서, 인터폴레이션은 시간 τ'=t+h/6에서 수행된다. 여기서, h는 1, 2, 3, 4 또는 5 중 하나이다. 유닛(101)과 유닛(102)에서 사용된 손실 함수는 이에 따라 적응될 수 있다.

도 9 내지 12는 초-해상도 비디오 디인터레이싱 발명의 실시예의 응용을 나타낸 도 7 내지 8과 유사한 도면이다.

도 9 내지 10은 장치의 입력으로 인터레이스된 비디오 포맷에서 스크롤하는 동일한 텍스트 "Sweeet"를 보여준다. 참조번호 901, 1001, 1101 및 1201는 시간 t-1에서 짝수(even) 입력 필드를 보여주고, 참조번호 903, 1003, 1103 및 1203은 시간 t+1에서 다음 짝수 입력 필드를 보여주고, 참조 902 및 1002는 시간 t에서 인터리빙(interleaving) 홀수(odd) 입력 필드를 보여준다. 디인터레이싱의 목적은 시간 τ'=t에서 짝수 라인 및 홀수 라인을 모두 포함하는 풀 프로그레시브 프레임(full progressive frame)을 합성하기 위하여, 짝수 라인을 시간 t에서 계산하기 위한 것이다.

도 9 내지 12의 예에서, 유닛(101)에서 사용된 비용 함수는 중심이 되고, Ω은 오직 방향 v(=dx₁, dx₂, dt)를 포함하여, dt=1이고 dx₂는 짝수가 된다. 위치 ζ=x=(x₁,x₂) 및 시간 τ'=t에서 Ω의 방향 v=(dx,dt)에 대한 비용은 예를 들어, L_x(v)=|I_t-dt(x-dx)-I_t+dt(x+dx)| 또는 이 비용의 윈도우된 버전일 수 있다. 규칙성의 몇몇 방향은 이 시퀀스 상에서 우선하여 얻어지고, v⁽¹⁾=(dx₁ ⁽¹⁾, dx₂ ⁽¹⁾, dt⁽¹⁾)=(-5, 0, 1) 및 v⁽²⁾=(dx₁ ⁽²⁾, dx₂ ⁽²⁾, dt⁽²⁾)=(-1, 0, 1)을 포함한다.

일단 유닛(102)에 의해, 방향 v=(dx,1)이 시간 τ'=t에서 픽셀 x에 대하여 검출되면, 프로세싱 유닛(103)에서 수행되는 디인터레이싱을 위한 인터폴레이션은

를 계산하는 것으로 구성된다.

도 11에서, 선택 유닛(101)이 스파스(sparse) 지오메트리를 사용하지 않고 검출 유닛(102)에게 Ω의 모든 방향을 제공한다고 가정한다. 검출 유닛(102)은 방향 v⁽¹⁾=(-5,0,1)와 v⁽²⁾=(-1,0,1)를 적절히 구별할 수 없고, 1102에서 나타나듯이 출력은 다시 어긋난 종류의 아티팩트를 나타낼 수 있다.

도 12는 오직 방향 v⁽¹⁾=(-5,0,1)만이 선택 유닛(101)에 의하여 스파스(sparse) 지오메트리에서 유지되고, 여분의(superfluous) 방향 v⁽²⁾=(-1,0,1)이 분석의 선택 단계에서 제거될 때, 더 나은 디인터레이싱의 결과를 나타낸 것이다.

대안으로써, 디인터레이싱 어플리케이션에서, 시간 τ'=t에서 픽셀을 계산할 때, 더 높은 정의로 방향을 설명하기 위해서, 방향은 Ω내의 값 dt=2을 이용하여 t-2와 t+2 사이에서 계산될 수 있다. 이는 방향 v=(dx, 1) 및 2v=(2dx, 2)가 인터폴레이션에서 동일한 방식으로 사용되는 것을 의미한다. 인터레이스된 소스의 패리티(parity) 제한 때문에, 대응되는 손실 함수 |I_t _-2(x-2dx)-I_t ₊₂(x+2dx)|가 계산될 수 있다. 방향 2v=(2dx, 2dt)=(2dx₁, 2dx₂, 2dt)가 유닛(102)에 의해 검출된다면, 그 절반-방향(half-direction)인 v에 대한 수직(vertical) 좌표 dx₂는 홀수일 수 있다. 이는 절반-픽셀(half-pixel) 수직 스피드를 포함하는 비디오 시퀀스를 적절히 디인터레이싱하도록 한다. 이러한 방향 설명이 방향 선택 유닛(101) 및 방향 검출 유닛(102)의 방향에서 참조한, 프로세싱 유닛(103)은

를 다음과 같이 인터폴레이트할 수 있다:

사용된 방향 척도(measure)는 dt=1 또는 dt=2의 시간 단계에 관련된다. 이는 서로 다른 일시적인 오프셋(1 또는 2, 또는 그 이상) 뿐만 아니라 다양한 방향들을 비교하는 것에 대응된다.

디인터레이싱 어플리케이션에서 다른 가능성(possibilities)은 균등하게 떨어진 간격을 가진 시간에서 촬영된 필드들에 연관된 방향들에 추가적으로 불규칙적으로 떨어진 시간에서 촬영된 필드들에서의 방향들에 대한 계산하는 것이다. 비디오 콘텐츠의 원본 소스가 "텔레비전 영화(telecine)"를 이용한 비디오로 전환하는 필름일 때의 경우를 예를 들자. 예를 들어, 유럽에서 사용되는 2:2 텔레비전 영화에서, 25fps(frames per second) 필름은 50fps 비디오로 변환되고, 각 필름 프레임은 두 개의 비디오 필드를 생성하는데 사용된다. 따라서, 필드 I₀, I₁, I₂, I₃는 비디오-생성(video-originating) 콘텐츠를 위하여 각 시간 0/50s, 1/50s, 2/50s, 3/50s 대신에 각 시간 0s, 0s, 2/50s, 2/50s에서 촬영된다. 게다가, 비디오 신호는 필름-생성(film-originating)와 비디오-생성 콘텐츠의 혼합을 포함할 수 있어서, 이러한 검출은 픽셀 단위(pixelwise)로 이루어져야 한다. 구체적인 지역 비용 함수는 주어진 픽셀에 대하여 비디오가 필름-생성인지 여부 및 필드가 동일한 필름 프레임으로부터 바로 전 또는 바로 후에 생성되는지 여부를 검출하기 위하여 선택될 수 있다. 각 픽셀에서 방향의 설정은 다음 중 하나이다.

- (필름-전) (film-before)

- (필름-후) (film-after)

- (비디오, v)

여기서, "필름-전"은 주어진 픽셀 위치에서 콘텐츠가 필름-생성되고, 이전 필드는 동일한 필름 프레임에서 기인하여, 손실된(missing) 픽셀은 상기 이전 필드로부터 동일한 위치에서 선택될 수 있다는 것을 의미한다. "필름-후"는 주어진 픽셀 위치에서 콘텐츠가 필름-생성되고, 이후 필드는 동일한 필름 프레임에서 기인한다. (비디오,v)는 현재 픽셀 위치에서 콘텐츠가 비디오-생성되고, 방향 벡터는 v임을 의미한다. 본 설명은 "방향"이 단일 3D 벡터보다 더 복잡한 지역 디스크립터(local descriptor)에 의해서 정의될 수 있는 다른 경우를 예시하다. 이 경우, "방향"은 (필름-전),(필름-후),(비디오,v) 중 하나의 심벌이고, v는 벡터이다.

초-해상도 비디오 잡음 감소의 경우, 도 1의 프로세싱 유닛(103)은 아래와 같은 ζ에서 방향 평균화 함수(directional averaging function) K_v를 이용하여 각 타겟 픽셀 ζ,τ에 대한 새로운 값을 계산한다:

여기서, 합은 (ζ,τ) 부근의 입력 이미지의 모든 픽셀 (x,t)에 걸친 것이고, 입력 격자(grid)의 포인트 (x,t)에 대해 ζ=x,τ=t이면, 픽셀 (ζ,τ) 자체를 포함한다. K_v는 지역 방향 v=(dx,dt)에 종속한다. 예시적인 실시예에서, 평균화 함수 K_v는 방향 v=(dx,dt)에 따른 방향 평균화 함수이다. 다음은 상기 함수의 일 예이다.

여기서, K₁ 및 K₂는 1D 및 2D 평균화 커널(kernel)로, 예를 들어 가우시안(Gaussian)이다.

다른 실시예에서, 프로세싱 유닛(103)에서 수행되는 비디오 프로세싱은 방향 검출 유닛(102)으로부터 다양한 개수의 방향을 수신한다. 이 방향들 각각은 관련 척도(relevance measure)를 수반한다. 방향의 수가 0인 경우, 폴백(fallback) 인터폴레이션 함수 또는 평균화 함수가 사용될 수 있다. 방향의 수가 1보다 큰 경우, 타겟 픽셀 값은 각각의 방향에 대응하는 각각의 인터폴레이트 또는 평균화 함수로 계산되는 픽셀 값들을 결합하여 계산된다. 이러한 결합은 평균화이거나, 관련 척도를 이용한 가중 평균화(weighted averaging)이거나, 중앙값(median)이거나, 가중 중앙값(weighted median)이거나, 이 픽셀 값들을 결합하기 위한 다른 어떤 종류의 방법일 수 있다.

다른 예시적 실시예에서, 방향 v=(dx,dt)에 따른 잡음 감소 프로세싱은 IIR(infinite impulse reponse) 필터링을 포함하는 어떤 종류의 알려진 방향 필터링(directional filtering)이라도 될 수 있다.

다른 예시적 실시예에서, 스파스(sparse) 지오메트리는 프로세스된 신호가 비디오 신호일 때, WO 2007/059795 A1에 개시된 프로세싱의 타입을 향상시키는데 사용된다. 이때, 방향 (dx,dt)는 dt=1의 값과, dx의 정수 값으로 제한될 수 있다. 이는 시간 t에서 프레임의 픽셀 및 시간 t+1에서의 프레임의 픽셀 사이의 맵핑:(x,t)→(x+dx,t+1),을 생성하는데 사용될 수 있고, WO 2007/059795 A1에서 사용된 첫번째 그룹화 추정(grouping estimation)의 실시예를 제공하는데 사용될 수 있다.

방향 선택 유닛(101)의 실시예에서, 후보 방향의 집합 Ω은 복수의 부집합 Ω₁,...,Ω_J(J>1)으로 분할되고, 후보들이 선택된 방향 D_τ'의 부집합으로 들어가도록 제공하기 위하여 부집합 Ω₁,...,Ω_J중 오직 하나만이 각 시간 τ'에서 방향 선택 유닛(101)에 의하여 고려된다. 흥미로운 것은 집합 Ω이 매 사이클(cycle) τ'에서 후보들이 전체적으로 스캔되기에는 너무 클 때이다. 예를 들면, 부집합 Ω_j(1≤j≤J)가 고려될 때, 도 3의 루프 330 또는 도 4의 루프 430은 Ω_j에는 포함되지만 D에는 포함되지 않는 방향 v에 대해 수행된다.

어떤 경우에, 전체 이미지 영역에 대한 광역 부집합 D_τ'의 선택에 추가적으로, 이미지 지원(support)을 픽셀들의 몇몇 윈도우 W_p _,q로 분할하는 것은 흥미롭다. 예를 들면, 다음과 같이 윈도우는 직사각형 영역으로 정의된다.

여기서, h 및 w는 각각 윈도우들의 높이와 너비이고(픽셀 단위), 윈도우 인덱스 p,q 는 1≤p≤P, 1≤q≤Q의 범위에 있다. 윈도우들의 총 수는 P×Q이다. P=Q=1이면, 이전에 설명한 전체 이미지 영역을 포함하는 하나의 윈도우가 있다. 각 윈도우 W_p _,q내의 각 방향 v에 대하여, 마진 m_p _,q(v｜D)는 이 윈도우 W_p _,q로 제한되는 이미지 영역을 스팬하는 합을 가진, 수학식 4와 유사한 식을 이용하여 계산될 수 있다.

방향의 지역 부집합 D_τ',p,q ⊂ D_τ'는 이 마진들을 이용하여 계산될 수 있다. 입력 이미지 I_t 및 I_t _{+1 내의} 윈도우 W_p _,q의 픽셀을 계산하는 비용 마진 m_p _,q(v|D)을 기반으로, 두번째 부집합 D_τ'의 부집합이 I_t ₊₁의 모든 영역에 대해 결정됨에 따라서 후보 방향의 세번째 부집합 D_τ',p,q이 결정된다. 방향 검출 유닛(102)이 픽셀 ζ=x에서 윈도우 W_p _,q들 중 하나에 존재하는 방향을 측정할 때, 오직 D_τ',p,q로부터의 후보 방향들만이 고려된다. 이는 나쁜 방향을 피하기 위한 검출의 강인함을 증가시키는 데 도움이 된다. 다시 도 7 내지 12에서 기술된 예를 참조하면, 상기 선택은 나쁜 방향 (-1,0,1/2) [또는 (-2,0,1)]을 제거하고, 오직 올바른 방향 (-5,0,1/2) [또는 (-10,0,1)]만을 사용하도록 할 수 있다. 영상이 더 복잡하고, 화상의 다른 어딘가에서 물체가 규칙성의 방향 (-1,0,1/2)을 나타낸다면, 이 벡터 (-1,0,1/2)는 D_τ'내에 존재하고, 유닛(101)에서 행해진 선택의 이익은 스크롤링 텍스트를 적절히 다루기 위하여 잃을 수 있다. 선택 마진이 더 작은 윈도우 W_p _,q에서 다시 계산된다면, W_p,q와 같은 윈도우가 스크롤링 텍스트와 규칙성의 단일 방향 (-1,0,1/2)를 가지는 물체를 모두 포함할 가능성은 훨씬 더 낮아질 것이다.

너무 작은 윈도우 W_p _,q를 사용한다면(예를 들면, 도 7 내지 12의 예에서 하나 또는 두 개의 "e"에 걸친 영역), 너무 작은 윈도우 상에서 서로 다른 두 개의 규칙성의 방향을 구별하는 것은 더 이상 가능하지 않기 때문에, 상기 선택은 어려울 수 있다. 재귀적으로(recurively) 이미지 지원을 윈도우로 분할하고 각 윈도우를 서브 윈도우로 분할함으로써, 멀티스케일 선택 방식은 상기 어려움을 피하도록 고안될 수 있다. 각 윈도우에 대하여, 방향의 부집합은 부모(parent) 영역(전체 이미지 또는 상위 계층 윈도우)에 대해 선택된 방향의 부집합의 부집합으로써 선택된다. 멀티스케일 선택 방식에서, 하나 또는 그 이상의 윈도우 W_p _,q는 복수의 서브 윈도우 W_p,q,r,s으로 더 분할되고, 각 서브 윈도우에 대하여 후보 방향의 4번째의 부집합 D_τ',p,q,r,s는, 입력 이미지 I_t 및 I_t ₊₁내의 서브 윈도우 W_p _,q,r,s의 픽셀에 대해 계산된 비용 마진 m_p _,q,r,s(v|D)를 기반으로 윈도우 W_p _.q에 대해 결정된 세번째 부집합 D_τ',p,q의 부집합으로 결정된다.

출력 이미지

의 서브 윈도우 W_p _,q,r,s의 픽셀에 대한 규칙성의 방향은 아마도 윈도우의 재귀적 분할의 하나 또는 그 이상의 반복(iteration) 후에 부집합 D_τ',p,q,r,s로부터 검출된다.

몇몇 실시예에서, 선택된 방향의 부집합 D_τ'는 다양한 기준을 만족시키기 위하여 제한될 수 있다. 예를 들면:

- 몇몇 특정 방향(전형적으로 (0,0,1)와 같은)은 이 방향들에 관련된 마진에 관계없이 D_τ'내에 영원히 머물도록 강제할 수 있다;

- 방향의 집합 Ω은 또한 R개의 클러스터(cluster) Ω⁽¹⁾,...,Ω^(R)로 분할될 수 있고, 각 클러스터 Ω^(r) (1≤r≤R, R>1)에 대하여 하나 또는 제한된 수의 방향만이 부집합 D_τ'에 포함되도록 선택하는 제한이 부과될 수 있다.

전술한 실시예는 일반적인 목적의 마이크로프로세서 또는 디지털 신호 프로세스에 의해 실행되는 소트프웨어의 수단으로 구현될 수 있고, 이 경우, 도 1 내지 6을 참조하여 기술된 모듈은 소프트웨어 모듈 또는 루틴(routine)의 전부 또는 일부로 이해될 수 있다. 또한, 비디오 인터폴레이션 블록(1303) 전 및/또는 후에 다른 비디오 프로세싱 블록(1302, 1304)에 추가적으로, 도 13에 나타난 하드웨어 요소로써, 예를 들어, 비디오 스트림을 인터폴레이트하기 위한 ASIC(application-specific integrated circuit) 또는 FPGA(field-programmable gate array), 구현될 수 있다. 또는, 비디오 프로세싱 블록(1303)은 전술한 잡음 감소 방법을 구현할 수 있다. 예시적인 실시예에서, 비디오 프로세싱 블록(1302, 1303, 1304)는 단일 칩(chip)(1301)에서 구현될 수 있다. 상기 칩은 비디오 입력 및 출력 인터페이스를 가지고, 외부의 RAM(random access memory) 장치(1305 및 1306)를 1302, 1303 및 1304에서 수행되는 서로 다른 비디오 프로세싱 단계에 요구되는 일시적인 저장 공간으로써 가진다. 더 완벽한 비디오 프로세싱 칩 또는 다른 기능을 포함하는 동등한 SOC(system-on-chip) 장치와 더불어, 본 실시예의 다른 변형은 동등하게 본 발명의 일부일 수 있다. 하드웨어 장치는 다양한 종류의 비디오 장치에 포함될 수 있다.

본 발명의 예시적인 실시예의 상세한 설명이 상기에서 주어지고 있지만, 다양한 대안(alternative), 수정(modification) 및 균등물(equiavalents)이 당업자에게 자명할 것이다. 그러므로 상술한 상세한 설명은 이하의 청구항에 의해 정의되는 본 발명의 범위를 제한하지 않는다.

Claims

출력 비디오 시퀀스의 합성된 이미지들의 픽셀들을 방향의 미리 정의된 집합 (Ω)에 속하는 규칙성(regularity)의 각 방향에 연관시키는 입력 비디오 시퀀스를 분석하는 방법에 있어서,
상기 방향의 미리 정의된 집합으로부터, 출력 시퀀스의 제1 이미지(
)의 영역에 대한 후보(candidate) 방향의 제1 부집합(D_τ)를 결정하는 단계;
상기 방향의 미리 정의된 집합으로부터, 입력 시퀀스의 이미지(I_t, I_t ₊₁) 및 상기 후보(candidate) 방향의 제1 부집합(D_τ)을 기반으로 상기 제1 이미지 다음에 오는 출력 시퀀스의 제2 합성된 이미지(
)에 대응하는 영역에 대한 후보 방향의 제2 부집합(D_τ')을 결정하는 단계; 및
상기 후보 방향의 제2 부집합으로부터 상기 제2 합성된 이미지의 상기 영역의 픽셀들에 대한 규칙성의 방향을 검출하는 단계를 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 1 항에 있어서,
상기 후보 방향의 제2 부집합(D_τ')을 결정하는 단계는,
적어도 하나의 방향 쌍(pair) v_r 및 v_a를 검출하는 단계, v_r은 후보 방향의 상기 제1 부집합(D_τ)에 속하고, v_a는 방향의 미리 정의된 집합(Ω)에 속하지만 상기 제1 부집합에는 속하지 않고, 상기 제1 및 제2 이미지
의 상기 영역에 대한 상기 제1 부집합과 관련된 비용 함수(cost function)는 v_a를 포함하는 수정된 부집합 및 v_r을 제외한 상기 제1 부집합의 방향에 관련된 비용 함수보다 더 높고; 및
상기 검출에 대한 응답으로, 상기 제2 부집합(D_τ')으로부터 v_r을 배제하고, 상기 제2 부집합으로 v_a를 포함시키는 단계를 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 1 항에 있어서,
상기 후보 방향들의 두번째 부집합(D_τ')을 결정하는 단계는,
상기 제1 부집합에 관련된 비용 함수에 대한 상기 제1 부집합(D_τ)의 개별적인 방향의 각각의 기여(contribution)에 관련된 제1 마진(m(v))을 평가하는 단계;
상기 제1 부집합에 대하여 상기 미리 정의된 집합(Ω)의 개별적인 방향의 추가로 인한 상기 비용 함수의 각각의 감소(decrement)에 관련된 제2 마진(m(v))을 평가하는 단계; 및
상기 미리 정의된 집합의 상기 방향을 평가하는 상기 제2 마진이 상기 제1 부집합의 상기 방향을 평가하는 상기 제1 마진을 넘어설 때, 상기 미리 정의된 집합의 방향을 상기 제1 부집합의 방향으로 대체하는 단계를 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항에 있어서,
상기 제1 부집합(D_τ)의 방향에 대한 상기 제1 마진(m(v))은 상기 비용 함수에 대한 상기 방향의 기여와 같은 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항 또는 제 4 항에 있어서,
상기 미리 정의된 집합(Ω)의 방향에 대한 상기 제2 마진(m(v))은 상기 제1 부집합(D_τ)에 대한 상기 방향의 추가로 인한 상기 비용 함수의 감소와 같은 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항 또는 제 4 항에 있어서,
상기 미리 정의된 집합(Ω)의 방향에 대한 상기 제2 마진 (m(v))은 상기 영역의 픽셀들에 걸친 지역(local) 마진의 합으로 추정되고,
픽셀 x 및 방향 v에 대한 상기 지역 마진은,
- 만약 v가 픽셀 위치 x에서 지역 비용을 최소화하는 관점에서 전체 미리 정의된 집합(Ω) 내에서 가장 좋은 방향이면, L_x(D)-L_x(v)이고, 여기서, L_x(v)는 방향 v에 대한 픽셀 위치 x에서 상기 지역 비용을 가리키고, L_x(D)는 상기 제1 부집합(D_τ)의 방향에 대한 픽셀 위치 x에서 지역 비용의 최소값을 가리킨다.
- 그 밖의 경우는 0인,
것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 제1 부집합(D_τ)내에서 가장 낮은 제1 마진을 가지는 제1 방향(v)을 선택하는 단계(501);
상기 제1 부집합(D_τ)을 제외한 상기 미리 정의된 집합(Ω)내에서 가장 높은 제2 마진을 가지는 제2 방향(w)을 선택하는 단계(502); 및
상기 선택된 제2 방향에 대한 상기 제2 마진(m(w))이 상기 선택된 제1 방향에 관한 상기 제1 마진(m(v))보다 높다면, 상기 제2 부집합(D_τ')으로부터 상기 선택된 제1 방향을 배제하고, 상기 선택된 제2 방향을 상기 제2 부집합(D_τ')으로 포함시키는 단계를 더 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 제1 부집합(D_τ)내에서 가장 낮은 제1 마진을 가지는 n 개의 방향 v₁, v₂,...,v_n을 마진이 증가하는 순서대로 선택하고 정렬하는 단계(601);
상기 제1 부집합(D_τ)을 제외한 상기 미리 정의된 집합(Ω)내에서 가장 높은 제2 마진을 가지는 n개의 방향 w₁, w₂,..., w_n을 마진이 감소하는 순서대로 선택하고, 정렬하는 단계(602); 및
상기 제1 부집합을 제외한 상기 미리 정의된 집합의 상기 n개의 정렬된 방향 w₁, w₂, ..., w_n 중 각 w_i에 대하여(1≤i≤n), 상기 제1 부집합을 제외한 상기 미리 정의된 집합의 상기 n개의 정렬된 방향 v₁, v₂,..,v_n에 대응하는 방향 v_i에 대한 상기 제1 마진(m(v_i))보다 상기 제2 마진(m(w_i))이 높다면, 상기 제2 부집합(D_τ')으로부터 v_i를 배제하고, w_i를 상기 제2 부집합(D_τ')으로 포함시키는 단계를 더 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 3 항 내지 제 8 항 중 어느 한 항에 있어서,
미리 설정된 임계치보다 낮은 평가된 마진(m(v))을 가지는 상기 미리 정의된 집합(Ω)의 방향을 상기 제2 부집합(D_τ')으로부터 배제하는 단계를 더 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 2 항 내지 제 9 항 중 어느 한 항에 있어서,
방향들의 주어진 부집합(D)과 관련된 상기 비용 함수는 상기 영역의 상기 픽셀에 걸쳐 상기 주어진 부집합의 서로 다른 방향들에 대한 지역 비용의 최소값들의 합인 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
이전의 청구항 중 어느 한 항에 있어서,
후보 방향들의 상기 제2 부집합(D_τ')을 결정하고, 상기 제2 부집합으로부터 방향들을 검출하는 단계는
상기 출력 시퀀스의 상기 제2 합성된 이미지(
)의 전 및 후에 각각의 시간 위치를 가지는 상기 입력 시퀀스의 적어도 두 개의 연속적인 이미지(I_t, I_t ₊₁) 사이의 지역 비용 함수를 추정하는 단계를 포함하고,
상기 지역 비용 함수는 상기 제2 부집합으로부터 상기 규칙성의 방향을 검출하는 단계보다 상기 두번째 부집합을 결정하는 단계에서 더 거칠게(coasely) 추정되는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
이전의 청구항 중 어느 한 항에 있어서,
상기 적어도 하나의 미리 설정된 방향은 상기 제1 또는 제2 부집합 (D_τ, D_τ')에 포함되도록 강제되는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
이전의 청구항 중 어느 한 항에 있어서,
상기 방향의 상기 미리 정의된 집합(Ω)은 복수의 클러스터(Ω^(r))로 분할되고,
후보 방향의 상기 제2 부집합(D_τ')의 결정에서 각 클러스터의 하나 또는 제한된 수의 방향은 상기 제2 부집합에 포함되도록 선택되는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
이전의 청구항 중 어느 한 항에 있어서,
비디오 시퀀스의 이미지는 복수의 윈도우(W_p,q)로 분할되고,
후보 방향의 상기 제2 부집합(D_τ')은 상기 제2 합성된 이미지의 전체 영역에 대응하는 영역에 대해 결정되며,
각각의 윈도우에 대하여,
상기 윈도우의 픽셀들에 대해 결정된 비용 마진을 기반으로 하여, 후보 방향들의 제3 부집합(D_τ',p,q)을 상기 제2 부집합의 부집합으로 결정하는 단계; 및
상기 후보 방향들의 상기 제3 부집합으로부터 상기 제2 합성된 이미지의 상기 윈도우의 픽셀들에 대한 상기 규칙성의 방향을 검출하는 단계를 더 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
상기 제 14 항에 있어서,
상기 윈도우(W_p,q)들 중 적어도 하나는 복수의 서브 윈도우(W_p,q,r,s)로 더 분할되고,
상기 윈도우의 각 서브 윈도우에 대하여,
상기 서브 윈도우의 픽셀들에 대해 결정된 비용 마진을 기반으로 하여, 후보 방향의 제4 부집합(D_τ',p,q,r,s)을 상기 제3 부집합(D_τ',p,q)의 부집합으로 결정하는 단계; 및
상기 후보 방향의 제4 부집합으로부터 상기 제2 합성된 이미지의 상기 서브 윈도우의 픽셀들에 대한 상기 규칙성의 방향을 검출하는 단계를 더 포함하는 것을 특징으로 하는 입력 비디오 시퀀스 분석 방법.
제 1 항 내지 제 15 항 중 어느 한 항의 방법에 따라서 비디오 시퀀스를 분석하도록 마련된 계산 회로를 포함하는 비디오 프로세싱 장치.
컴퓨터 프로세싱 유닛에서 상기 프로그램 제품이 실행될 때, 제 1 항 내지 제 15 항 중 어느 한 항의 방법에 따라 비디오 시퀀스를 분석하는 방법을 수행하는 명령을 포함하는 컴퓨터 프로그램 제품.
입력 비디오 시퀀스의 연속적인 이미지(I_t, I_t ₊₁)를 수신하는 단계;
규칙성의 각 방향에 출력 비디오 시퀀스의 합성된 이미지의 픽셀들을 연관시키기 위하여, 제 1 항 내지 제 15 항 중 어느 한 항의 방법을 적용하여 입력 비디오 시퀀스를 분석하는 단계; 및
상기 검출된 규칙성의 방향을 이용하여 상기 입력 비디오 시퀀스로부터 상기 출력 비디오 시퀀스를 생성하는 단계를 포함하는 비디오 프로세싱 방법.
제 18 항에 있어서,
상기 출력 비디오 시퀀스를 생성하는 단계는, 상기 검출된 규칙성의 방향을 이용하여 상기 입력 비디오 시퀀스의 연속적인 이미지 사이에서 인터폴레이션(interpolation)을 수행하는 단계를 포함하는 비디오 프로세싱 방법.
제 19 항에 있어서,
상기 인터폴레이션은 비디오 디인터레이싱(deinterlacing)을 포함하는 비디오 프로세싱 방법.
제 19 항에 있어서,
상기 인터폴레이션은 상기 입력 비디오 시퀀스의 프레임-률(frame-rate)을 변환하는 것을 포함하는 비디오 프로세싱 방법.
제 18 항에 있어서,
상기 출력 비디오 시퀀스를 생성하는 단계는 상기 검출된 규칙성의 방향을 이용하여 잡음 감소 동작을 상기 입력 비디오 시퀀스에 적용시키는 것을 포함하는 비디오 프로세싱 방법.
제 18 항 내지 제 22 항 중 어느 한 항의 방법에 따라서 비디오 시퀀스를 처리하도록 마련된 계산 회로를 포함하는 비디오 프로세싱 장치.