KR20140135968A

KR20140135968A - 초해상도화를 수행하는 방법 및 장치

Info

Publication number: KR20140135968A
Application number: KR1020147024989A
Authority: KR
Inventors: 조르디 살바도르; 악셀 코샬; 지크프리트 슈바이들러
Original assignee: 톰슨 라이센싱
Priority date: 2012-03-05
Filing date: 2013-03-05
Publication date: 2014-11-27
Also published as: WO2013131929A1; US20150104116A1; US9258518B2; JP6085620B2; EP2823461A1; CN104160422A; JP2015515179A

Abstract

초해상도화를 수행하는 방법은 입력 비디오 시퀀스(LR)의 고해상도 저주파수(HRLF) 시공간적 대역들을 내삽에 의해 생성하는 단계; 고해상도 고주파수(HRHF) 공간적 대역을 크로스-프레임 공간적 고주파수 외삽에 의해 합성하는 단계; 및 이들 2개의 대역을 혼합하여 시공간적으로 초해상도화된 비디오 시퀀스(HR)를 생성하는 단계를 포함한다. 초해상도화를 수행하는 대응 시스템은 입력 비디오 시퀀스(LR)의 고해상도 저주파수(HRLF) 시공간적 대역들이 내삽에 의해 생성되는 스테이지; 크로스-프레임 공간적 고주파수 외삽에 의해 고해상도 고주파수(HRHF) 공간적 대역이 합성되는 스테이지; 및 이들 2개의 대역을 혼합하여 시공간적으로 초해상도화된 비디오 시퀀스(HR)를 생성하는 스테이지를 포함한다.

Description

초해상도화를 수행하는 방법 및 장치{METHOD AND APPARATUS FOR PERFORMING SUPER-RESOLUTION}

본 발명은 시간 도메인에서, 또는 공간 도메인 및 시간 도메인에서 초해상도화(SR; super-resolution)를 수행하는 방법 및 장치에 관한 것이다.

"Space - Time Super - Resolution from a Single Video" by O. Shahar, A. Faktor and M. Irani (IEEE Conf. on Computer Vision and Pattern Recognition, 2011) [1]에서, 상이한 시간 및 공간적 스케일에서 입력 비디오 시퀀스의 여러 버전들을 포함하는 입력 비디오 시퀀스의 공간-시간 피라미드(space-time pyramid)가 생성된다. 그 후, (5×5 픽셀의 공간적 차원 및 3개의 프레임의 시간적 차원을 갖는) 시공간적인 비디오 패치마다, 피라미드에 걸쳐서 최선의 매칭 집합(a set of best matches)이 검색된다. 이러한 동작은 임의 추출 기반의 검색(a randomized-based search)을 통해 속도가 높아지지만, 비용이 상당히 높다. 그 후, 고전적인 재구성 기반 SR 기법들이 초해상도화된(super-resolved) 비디오 패치들을 생성하는데 사용되는데, 일단 합해지면 결과적으로 초해상도화된 비디오 시퀀스가 된다. 이 방법이 제공된 결과들에서 인상적으로(impressively) 작용하는 경우라도, 일반적인 시퀀스에서 적절히 동작할지는 명확하지 않은데, 상이한 특성의 모션들은 입력 비디오 시퀀스에서 상이한 공간 및 시간 스케일에서 재귀적으로 나타나지 않는다. 또한, 철저하지 않은 경우라도, 시공간적 검색은 실시간 애플리케이션에 이용될 수 없는 접근법을 제시하는 비용이 많이 드는 절차이다.

"On improving space - time super resolution using a small set of video inputs" by U. Mudenagudi, S. Banerjee and P. Kalra (Indian Conf. on Computer Vision, Graphics and Image Processing, 2008) [2]에서, 다양한 시공간적 시프트들(various spatio-temporal shifts)에 여러 버전이 존재하는 시퀀스의 초해상도화된 버전을 생성하는 방법이 제시되는데, 이는 그래프 컷(graph-cuts)을 사용하여 고전적인 재구성 기반의 초해상도화 공식의 MRF-MAP(Markov Random Field - Maximum A Posteriori) 모델을 해결한다(solve). 이 방법은 상이한 시공간 시프트에서 동일한 비디오 시퀀스의 여러 버전들의 존재를 요구하는데, 이는 이용 가능한 기록 물질(available recorded material)의 대부분에서 일어나지 않는 것이다.

"Spatio - temporal resolution enhancement of video sequence based in super-resolution reconstruction" by M. Haseyama, D. Izumi and M. Takizawa (ICASSP 2010) [3]에서, 합동 프레임 레이트 상향 변환 및 업스케일링(joint frame-rate up-conversion and up-scaling)을 생성하는 방법이 제시되는데, 이는 고전적인 재구성 기반의 초해상도화 모델에 기반한 것이다. 저자들은 제안된 방법이 시간적 초해상도화를 획득할 수 있다고 주장하고 있지만, 이러한 거동(behavior)을 설명하는 수학식은 획득된 것이 공간적으로 가장 가까운 초해상도화된 프레임들의 유연한 선형 내삽(smooth linear interpolation)이라는 것을 나타내는데, 이를 통해 일반적인 모션은 부정확하게 내삽된 프레임들을 생성할 것이다.

"Super - Resolution Without Explicit Subpixel Motion Estimation" [4] by H. Takeda, P. Milanfar, M. Protter and M. Elad (IEEE Trans. on Image Processing, vol. 18, no. 9, 2009)에서, 비디오 시퀀스들의 시공간적 초해상도는 블록 매칭을 통해 매칭 패치들을 정렬한 후 로컬 영역들에서 시공간 조종 필터들(space-time steering filters)을 사용함으로써 달성된다. 이러한 접근의 2개의 문제점은, 첫째로 시공간 조종 필터가 초해상도화될 영역의 비선형 오버-스무딩(non-linear over-smoothing)을 생성하는 것인데, 이는 비용이 많이 드는 비선형 사후 보정(post-correction) 및 디테일의 손실(loss of detail)을 요구하고, 둘째로 이 접근법은 모션 보상을 위한 메커니즘(블록 매칭)으로 인해 모션 범위의 제한된 부분 집합 하에서 정확히 내삽된 프레임만을 생성할 수 있다는 것이다.

본 발명은 비디오 시퀀스에서의 각 프레임의 해상도와 비디오 시퀀스의 프레임 레이트 중 적어도 하나의 개선을 위한 신규한 방법에 관한 것이다. 이러한 방법론은 동시 계류 중인 유럽 특허 출원 제12305046.0호에 설명된 방법의 일부를 이용한다. 본 출원에 언급된 바와 같이, 초해상도화 기법은 상이한 차원수(dimensionality)의 신호들에 적용될 만큼 충분히 유연하다(신호들이 정확히 샘플링되는, 즉 심각한 에일리어싱 아티팩트(aliasing artifact)를 보이지 않는다는 조건이 주어지는 경우). 본 발명의 혁신적인 기여들은 통상적인 비디오 시퀀스들(예를 들어, 15 내지 30 fps)에 존재하는 심각한 시간적 에일리어싱을 처리하는 메커니즘을 적어도 포함한다. 일 실시예에서, 전술된 애플리케이션으로부터의 일반적인 초해상도화 프레임워크에 포함된다. 이미지 프로세싱 문헌에는 관련 방법들이 초해상도화 및 프레임 레이트 상향 변환의 카테고리에 있다.

일반적인 아이디어로서, 입력 시퀀스의 비디오 프레임들은 부피 측정 구조(volumetric structure)에 초기에 적층되는데, 2개의 1차원들은 각 프레임에서 수직축 및 수평축을 나타내며, 제3의 차원은 시간을 나타낸다. 그 후, 초해상도화된 비디오 시퀀스의 저주파수 시공간적 대역들 및 공간적 고주파수 대역들은 별도로 생성된다. 초해상도화된 비디오 시퀀스의 저주파수 시공간적 대역들은 IRBM(Iterative Robust Block Matching) 방법 및 분석적 내삽을 통해 생성된다. 다음 스테이지에서, 공간적 고주파수 대역들은 비디오 시퀀스들에서 로컬 시공간적 자체 유사성(spatio-temporal self-similarity)을 활용함으로써 합성된다. 마지막으로, 저주파수 시공간적 대역들과 공간적 고주파수 대역들은 최종의 초해상도화된 비디오 시퀀스를 생성하기 위해 결합된다.

본 발명의 일 실시예에서, 저해상도 입력 비디오 시퀀스에 대해 초해상도화를 수행하는 방법은 내삽에 의해 입력 비디오 시퀀스의 고해상도 저주파수(HRLF) 시공간적 대역들을 생성하는 단계, 크로스-프레임 공간적 고주파수 외삽에 의해 고해상도 고주파수(HRHF) 공간적 대역을 합성하는 단계, 및 이들 대역을 혼합하여 시공간적 초해상도화된 비디오 시퀀스를 생성하는 단계를 포함한다.

본 발명의 일 실시예에서, 저해상도 입력 비디오 시퀀스에 대한 초해상도화를 수행하는 시스템은 입력 비디오 시퀀스의 고해상도 저주파수(HRLF) 시공간적 대역들이 내삽에 의해 생성되는 스테이지, 고해상도 고주파수(HRHF) 공간적 대역이 크로스-프레임 공간적 고주파수 외삽에 의해 합성되는 스테이지, 및 저주파수 시공간적 대역들(HRLF) 및 고해상도 고주파수 공간적 대역이 혼합되어 시공간적 초해상도화된 비디오 시퀀스(HR)를 생성하는 스테이지를 포함한다.

본 발명은 또한 컴퓨터로 하여금 전술되었고, 차후에 더 설명되는 방법을 수행하게 하는 실행 가능 명령어들을 갖는 컴퓨터 판독가능 매체에 관한 것이다.

제안된 방법의 하나의 이점은 최신 GPU들에 이용될 수 있는 초병렬 하드웨어(massively parallel hardware)에 적절한 방식으로 광범위한 모션들에서 정확한 모션 보상을 제공할 수 있다는 것이다. 이러한 방법을 이용하여 달성된 프레임 내삽 결과들은 광학 플로우 추정을 위한 고가의 종래기술 방법들과 경쟁 관계일 수도 있다. 다시 말하면, 이 방법은 비디오 시퀀스들에서 시간 축을 정확히 내삽할 수 있으며, 이로써 프레임 레이트 상향 변환을 효과적으로 야기한다.

제안된 방법의 하나의 이점은 이전에 언급된 유럽 특허 출원 제12305046.0호에서 제시된 고주파수 외간 메커니즘을 통해 입력 비디오 시퀀스의 공간 해상도를 개선할 수도 있다는 것이다. 본 발명에서, 출력 비디오 시퀀스의 고주파수 대역들을 합성하는 메커니즘은 3D 도메인으로 연장된 더 광범위한 검색 범위를 고려한다.

본 발명의 유리한 실시예들은 종속항, 다음의 상세한 설명, 및 도면들에 개시되어 있다.

본 발명의 예시적인 실시예들은 다음의 첨부 도면을 참조하여 설명된다.
도 1은 일 실시예에서 제안된 시스템의 구조를 도시한다.
도 2는 일 실시예에서 시공간적 내삽 서브시스템을 도시한다.
도 3은 IRBM(Iterative Robust Block Matching)의 일 실시예의 흐름도를 도시한다.
도 4는 원칙적으로 원하는 정규화된 시간적 위치 τ에서 새로운 프레임이 생성되는 방법을 도시한다.
도 5는 원칙적으로 HR/업샘플링된 프레임들이 획득되는 방법의 개요를 도시한다.
도 6은 2개의 예시적인 연속 저해상도 입력 프레임들을 도시한다.
도 7은 대응하는 초해상도화된 출력 프레임들을 도시한다.
도 8은 종래의 블록 매핑에 의해 생성된 아티팩트들 대 본 발명의 아티팩트가 없는 결과를 도시한다.
도 9는 공간적 초해상도화 프로세싱(spatial super-resolution processing)을 수행하는 방법의 일 실시예의 흐름도를 도시한다.
도 10은 원래 해상도 스케일에서 유사한 패치들의 고주파수 정보의 외삽에 의해 초해상도화된 이미지의 고주파수 대역의 합성을 도시한다.
도 11은 검색 윈도우의 예시적인 용법 및 위치들을 도시한다.
도 12는 오버랩을 포함하는 2D 입력 데이터 구조에서의 연속 패치들의 선택 및 연속 패치들을 위한 매칭 블록을 판단하는 원리를 도시한다.
도 13은 초해상도화된 이미지(S₁)를 생성하기 위한 내삽 저주파수 대역(L₁)과 외삽 고주파수 대역(H₁)의 혼합을 도시한다.
도 14는 인트라-프레임 내삽(Intra-frame Interpolation)의 원리 구조를 도시한다.
도 15는 저해상도 입력 데이터 구조의 초해상도화 프로세싱을 수행하는 장치의 구조를 도시한다.

도 1은 일 실시예에서 제안된 시스템의 구조를 도시한다. 도 1에서, LR(10)은 저해상도 입력 비디오 시퀀스이고, HRLF(15)는 고해상도 저주파수 내삽 대역이고, HRHF(16)는 고해상도 공간적 고주파수 합성 대역(high-resolution high-spatial-frequency synthesized band)이고, HR(17)은 HRLF(15) 및 HRHF(16) 대역들을 혼합한 후에 획득된 최종적인 초해상도화된 비디오 시퀀스이다. 고해상도 저주파수(HRLF) 내삽 대역(15)은 저해상도 입력 비디오 시퀀스(10)에 적용되는 시공간 내삽(11)으로 생성된다. 공간 HF 합성(12)이 HRLF 내삽 대역(15)에 적용되고, 이로써 원래 입력 시퀀스(10) 또한 사용된다. 공간 HF 합성(12)은 고해상도 공간적 고주파수 합성 대역(16)을 생성한다. HRLF 내삽 대역(15) 및 HRHF 합성 대역(16)이 합성되는데(13), 그 결과 초해상도화된 비디오 시퀀스(14)를 초래한다.

다음에는 시공간 내삽(11)이 상세히 설명된다. 시스템의 시공간 내삽 부분은 고해상도 출력 시퀀스의 저주파수 대역(HRLF)을 획득한다. 이에 대한 블록도가 도 2에 도시된다. 비디오 시퀀스의 시간 내삽은 큰 도전과제이다. 해결 방안으로서, 출력 순간(output time instant)(t)이 정수가 아닌 경우 저해상도 현재 프레임 및 그 이전 프레임이 내삽 프레임을 생성하는데 사용된다. 이는 모션 추정(IRBM(Iterative Robust Block Matching) 블록) 및 인터-프레임 내삽(inter-frame interpolation)을 통해 달성되는데, 그렇지 않고 출력 순간이 정수인 경우, 현재 순간에 대한 고해상도 저주파수 대역은 현재 프레임의 분석적 내삽으로서 획득된다.

다음으로, IRBM(Iterative Robust Block Matching)이 설명된다. 표준 비디오 시퀀스들에서의 높은 시간적 에일리어싱(temporal aliasing)으로 인해, 분석적 내삽(analytic interpolation)은 연속 프레임 사이의 시퀀스를 내삽하기 위해 적용될 수 없는데, 그 이유는 결과적으로 입력 비디오 시퀀스에 높은 모션 및 콘트라스트가 존재하는 경우 심각한 고스팅 아티팩트(ghosting artifact)들을 초래할 것이기 때문이다. 본 발명은 블록 매칭 알고리즘을 사용하는데, 반복적인 방식으로 대규모 선형 필터(large-scale linear filter)와 로컬 규모 비선형 필터(local-scale non-linear filter) 모두를 적용하여 보정된다. 여기에서는 IRBM(Iterative Robust Block Matching)이라고 지칭된다. 일 실시예에서, IRBM은 또한 고주파수 합성 스테이지에 사용되는데, 이하 참조한다.

도 3은 IRBM(Iterative Robust Block Matching) 프로세스의 예시적인 흐름도를 도시한다. IRBM에 대한 입력은 2개의 연속 비디오 프레임(I₁, I₂)이고, 출력은 제1 입력 이미지(I₁)(과거 프레임)에서의 각각의 오버랩되는 5×5 패치를 제2 입력 이미지(I₂)(미래 프레임)에서의 추정 위치와 연결하는 모션 벡터들(즉, 모션 필드(MF))(310)의 조밀 집합(dense set)이다. 5×5 픽셀 이외의 다른 패치 사이즈가 사용될 수도 있지만, 5×5는 특히 고속 프로세싱 및 고화질에 우수하다. 제1 단계는 이미지들에 블록 매칭(BM)(301)을 적용함으로써 모션 필드(MF)의 초기 추정치를 획득하는 것이다. 그 후, 일정한 횟수(i)(대개 5 내지 15, 예를 들어 10회 반복)의 반복적 보정(305)이 모션 필드 추정치에 적용된다. 이들은 대규모 선형 필터링(Large-scale Linear Filtering; 302), 축소 검색 윈도우 사이즈(shrinking search window size)를 이용한 가이드 블록 매칭(Guided Block Matching; 303), 및 로컬 규모 비선형 필터링(Local-scale Non-linear Filtering)(304)의 연쇄 적용(cascaded application)에 존재한다.

이미지에 대한 블록 매칭(301)은 예를 들어, 사이즈가 41×41 픽셀인 초기 검색 윈도우와 함께 행해진다. 대규모 선형 필터링(302)은 예를 들어 사이즈가 81×81인 커널(kernel)을 이용하여 모션 벡터들을 평균화한다. 가이드 블록 매칭(303)은 축소 검색 윈도우 사이즈를 이용하는데, 즉 MF는 검색 범위를 위한 오프셋으로서 사용되고, 이로써 반복 시마다 축소된 검색 윈도우를 가능하게 한다. 예시적으로, 일 실시예에서, 검색 윈도우는 지수형 감쇠에 따라 21×21에서 3×3가 된다. 로컬 규모 비선형 필터링(304)은 선형으로 감소하는 커널 사이즈를 갖는 중앙값 필터(median filter)를 사용한다. 일 실시예에서, 커널 사이즈는 예를 들어, 15×15 내지 5×5의 범위를 갖는다.

블록 매칭(301)의 초기 검색 윈도우 사이즈, 가이드 블록 매칭(303)의 검색 윈도우 사이즈, 및 로컬 규모 비선형 필터링(304)을 위한 중앙값 필터의 커널 사이즈와 같이 전술한 파라미터 중 적어도 일부는 적어도 패치 사이즈에 따라 달라질 수 있고, 예를 들어 값들 중 하나 이상은 대형 패치들 및/또는 CIF보다 큰 이미지들에 대해 더 높을 수 있다.

대규모 선형 필터링(302)에서의 제1 선형 필터의 하나의 효과는 모션 필드의 추정에서 평활도(smoothness)를 도입하는 것이다. 로컬 규모 비선형 필터링(304)에서의 제2 비선형 필터의 하나의 효과는 에지를 보존하면서 로컬 불변성(local constancy)을 도입하거나, 사실상, 잡음에 대한 강건성(robustness)을 도입하는 것이다. (대규모 선형 필터링(302)에서의) 평균화된 효과를 갖는 평활 필터(smoothing filter), 가이드 블록 매칭(303), 및 로컬 규모 비선형 필터링(304)에서 감소하는 윈도우 사이즈들을 갖는 (중앙값 필터와 같은) 강건성 필터(robust filter)의 반복적인 연쇄 적용은 실제 모션 필드(310)의 평활하고 강건한 근사화를 제공한다.

새로운 뷰(즉, 프레임)를 내삽하기 위한 이용 가능한 뷰들(즉, 프레임들)로부터의 데이터를 이용하기 위해, IRBM은 제2 이미지(I₂)를 현재 이미지(I₁)를 위한 레퍼런스로서 취한다. 이러한 방식으로, 전임자(predecessor)/후임자(successor)에 대한 각 이미지에 관한 조밀 모션 필드(dense motion field)가 획득된다.

다음으로, 도 2에 도시된 인터-프레임 내삽(102)이 설명된다. 서로 관련되어 있는 2개의 이미지 및 이들의 대응 모션 필드를 고려하면, 인터-프레임 내삽(102)의 출력은 고주파수 시간 정보가 결핍되어 있고, 0과 1 사이의 정규화된 시간적 위치에 있는 내삽된 프레임(q102)이다(0은 제1 이미지에 대응하고, 1은 제2 이미지에 대응함).

인터-프레임 내삽(102) 프로세스는 도 4에 예시된다. 처음에, 인터-프레임 내삽(102)에서, 출력 이미지는 예를 들어, 영으로 초기화된다(401). 그 후, 입력 비디오 시퀀스(10)로부터 2개의 입력 이미지(fr1, fr2) 중 첫 번째는 예를 들어, 사이즈가 5×5인 오버랩 패치들로 분할된다. 이들 패치 각각의 경우, 시간 내삽된 이미지에서의 위치는 선형 내삽에 의해, 즉 τ×MV1에 따라 중심(MV1)에서의 모션 벡터와 곱해진 τ에 의해 입력 이미지에서의 자신의 위치에 대한 변환(즉, 시프트)으로서 계산된다. 그 후, 변환된(즉, 시프트된) 패치는 가중 팩터(weighting factor)가 1-τ인 중간 출력 이미지(403)에 누산된다. 즉, 새로운 프레임의 시간적 위치가 제1 프레임(fr1)에 가까워질수록, 제1 프레임(fr1)으로부터의 패치를 위한 가중 팩터가 높아진다. 0으로 초기화된 가중 팩터 누산 버퍼(weighting factor accumulation buffer)(B_w,acc)는 출력 이미지에서 픽셀마다 적용된 가중 팩터들을 누산한다.

변환 크기의 값이 1-τ로 변경되고, 가중 팩터가 τ로 변경되는 것을 제외하고, 제2 이미지(fr2)는 동일한 방식으로 프로세싱된다. 즉, 새로운 프레임의 시간적 위치가 제2 프레임(fr2)에 가까워질수록, 제2 프레임(fr2)으로부터의 패치를 위한 가중 팩터가 높아진다.

양 이미지(fr1, fr2)의 모든 패치가 일단 프로세싱되면, 누산된 중간 출력 이미지(403)는 가중 팩터 누산 버퍼(B_w _, _acc)에서 검색된 누산된 가중 팩터에 의해 정규화되어, 그 결과로 시간적으로 내삽된 프레임(404)이 된다.

도 4에서, 2개의 가장 가까운 이미지를 결합함으로써, 원하는 정규화된 시간적 위치(τ)에 새로운 프레임이 생성된다. 양 방향으로의 모션 필드들은 IRBM에 의해 미리 획득되었다. 시간(t₁ 및 t₂)에서의 도시된 프레임들(fr1, fr2)로부터 제1 모션 벡터(MV1)가 획득된다. 전술된 실시예에서, 동일한 모션 벡터(MV1)가 두 프레임(fr1, fr2)으로부터의 기여(contributions)에 사용된다. 다른 실시예에서, 제2 모션 벡터(MV2)가 내삽에 사용되는데, 이는 시간 t₂에서의 프레임 fr2 및 시간 t₃에서의 그 다음에 뒤따르는 프레임(도시되지 않음)으로부터 획득된다.

일 실시예에서, 적어도 2개의 입력 프레임(fr1, fr2) 사이의 모션 필드를 생성하고, 출력 이미지 버퍼를 초기화하고(401), 출력 이미지의 시간적 위치 τ를 결정하고, 2개의 입력 프레임(fr1, fr2) 각각을 오버랩 패치들로 분할하고, 두 입력 프레임(fr1, fr2)에 대해 다음의 단계들, 즉 패치들마다, 결정된 시간적 위치에 따라 모션 벡터의 선형 내삽에 의해 출력 이미지에서 자신의 공간적 위치를 산출하는 단계, 패치들마다, 결정된 시간적 위치(1-τ)에 따라 가중 팩터를 산출하고 현재의 패치의 픽셀 값들을 가중 팩터와 곱하는 단계 - 여기서 각 패치의 가중화된 픽셀 값들이 획득됨 -, 각각의 패치의 산출된 공간적 위치들에서 패치들의 가중화된 픽셀 값들을 출력 이미지 버퍼에 누산하는 단계 - 여기서 각 패치는 픽셀의 가중화된 값을 산출된 위치에서의 출력 이미지의 픽셀들에 기여함 -; 출력 이미지의 각 픽셀에 기여하는 가중 팩터들을 가중 팩터 누산 버퍼에 누산하는 단계 - 여기서 누산된 가중 팩터가 픽셀마다 획득됨 -, 및 양 이미지(fr1, fr2)의 모든 패치들이 프로세싱된 경우, 가중 팩터 누산 버퍼에 포함되어 이로부터 검색될 수 있는 누산된 가중 팩터에 의해 누산된 중간 출력 이미지(403)를 정규화하는 단계를 수행함으로써 저주파수 시공간적 대역들의 시간적으로 내삽된 프레임이 획득된다.

다음으로, 도 2에 도시된 인트라-프레임 내삽(103)이 설명된다. 이러한 모듈은 전술된 유럽 특허 출원 제12305046.0호에서 설명되고 다음에 요약된 바와 같이, 임의의 원하는 합리적인 업스케일링 팩터에 의해 이미지의 업스케일링된 저주파수 대역의 생성에 상응한다. 인트라 프레임 내삽(103)은 시간적으로 동시에 일어나는 LR 입력 프레임들이 이용 가능한 이들 HR 프레임들의 HRHF 부분들을 획득하는데 사용된다. 이에 따라, 인트라-프레임 내삽(103)은 공간 도메인에서만 작용한다.

인트라-프레임 내삽(103)의 원리 구조는 도 14에 도시된다. 더 상세한 사항은 이하 설명되고, 도 9에 도시된다. 본 발명의 이러한 부분에 따르면, 단일 이미지를 초해상도화하는 단계는 3개의 스테이지(141 내지 143)를 포함한다. 제1 스테이지(141)에서, 입력 이미지의 내삽 기반 업-스케일링이 수행되고, 그 다음 저해상도 이미지에 대한 등가 저대역 통과 필터링 동작이 수행된다. 제2 스테이지(142)는 초해상도 이미지에서 검사된 패치와 (부분적으로 오버랩되는 패치들을 포함하는) 저해상도 저주파수 이미지에서의 로컬 이웃의 패치들 사이의 저주파수 매칭을 검색하고, 저해상도 이미지로부터 획득된 대응하는 고주파수 기여를 누산하는 단계를 포함한다. 제3 스테이지(143)는 외삽 고주파수 대역과 고해상도 이미지의 저주파수 대역의 기여를 합산하는 것을 포함한다.

일 실시예에서, 본 발명의 일 양태에 따른 단일 저해상도 디지털 입력 데이터 구조(S₀)의 초해상도 버전을 생성하는 방법은 단일 저해상도 디지털 입력 데이터 구조(S₀)를 업스케일링한 후 저대역 통과 필터링하여 업스케일링된 고해상도 데이터 구조의 저주파수 부분(L₁)을 획득하는 단계들을 포함한다. 또한, 저해상도 디지털 입력 데이터 구조(S₀)는 저주파수 부분(L₀) 및 고주파수 부분(H₀)으로 분리된다. 업스케일링된 고해상도 데이터 구조의 고주파수 부분(H₁ _, _init)이 생성되는데, 이 부분은 초기에 비어 있다. 그 후, 업스케일링된 고해상도 데이터 구조의 저주파수 부분(L₁)의 복수의 패치마다, 저해상도 디지털 입력 데이터 구조의 저주파수 부분(L₀)에서의 최선의 매칭 블록(best matching block)이 검색되고, 저해상도 디지털 입력 데이터 구조의 고주파수 부분(H₀)에서의 대응 블록이 결정된다. 그 다음에, 저해상도 디지털 입력 데이터 구조의 고주파수 부분(H₀)으로부터 결정된 블록은 업스케일링된 고해상도 데이터 구조의 저주파수 부분(L₁)에서의 전술된 패치가 갖는 위치에서, 업스케일링된 고해상도 데이터 구조의 고주파수 부분(H₁ _, _acc)에 추가된다. 마지막으로, 업스케일링된 고해상도 데이터 구조의 최종 고주파수 부분(H₁ _, _acc)은 정규화되고, 일 실시예에서 고대역 통과 필터링된다(195). 업스케일링된 고해상도 데이터 구조의 정규화되고 고대역 통과 필터링된 고주파수 부분(H₁)은 업스케일링된 고해상도 데이터 구조의 저주파수 부분(L₁)에 추가되며, 그 결과 단일 저해상도 디지털 입력 데이터 구조(S₀)의 초해상도 버전(S₁)이 개선된다. 디지털 입력 데이터 구조(S₀)는 1차원(1D), 2차원(2D), 또는 3차원(3D)일 수 있다. 본 발명의 일 실시예에서는 2개의 공간 차원과 1개의 시간 차원을 갖는 3D이다.

더 나은 이해의 용이성을 위해, "블록"이라는 용어는 저해상도 데이터 구조에서의 인접 값들의 그룹을 위해 이하 사용되지만, "패치"라는 용어는 고해상도 데이터 구조에서의 인접 값들의 그룹을 위해 사용된다. 그러나, 블록 및 패치는 동일한 사이즈(즉, 인접한 값들의 개수와 형상)를 가지며, 실질적으로 동일하다.

본 발명의 일 실시예에서, 인트라-프레임 내삽(103)은 도 15에 도시된 바와 같은 구조를 갖는 디지털 데이터의 저해상도 입력 데이터 구조(S₀)의 초해상도 프로세싱을 수행하는 장치에 의해 수행된다. 디지털 데이터의 저해상도 입력 데이터 구조(S₀)의 초해상도 프로세싱을 수행하기 위한 이러한 장치(900)는 입력 데이터 구조(S₀)를 필터링하는 제1 저대역 통과 필터(F_l _,0)(970) - 여기서 저주파수 입력 데이터 구조(L₀)가 획득됨 -; 입력 데이터 구조(S₀)와 저주파수 입력 데이터 구조(L₀) 사이의 차이를 산출하는 감산 유닛(예를 들어, 가산기, 감산기, 비교기, 또는 미분기)(980) - 이로써 고주파수 입력 데이터 구조(H₀)가 생성됨 -; 입력 데이터 구조(S₀)를 업스케일링하는 업스케일러(920); 업스케일링된 입력 데이터 구조를 필터링하는 제2 저대역 통과 필터(F_l,1)(930) - 여기서 저주파수 업스케일링 데이터 구조(L₁)가 획득됨 -, 저주파수 업스케일링 데이터 구조(L₁)에서 제1 위치에 있는 제1 패치를 결정하는 제1 결정 유닛(951), 제1 패치와 가장 잘 매칭되는 제1 블록을 저주파수 입력 데이터 구조(L₀)에서 검색하는 검색 유닛(952), 저주파수 입력 데이터 구조(L₀) 내의 상기 제1 블록의 위치를 결정하는 제2 결정 유닛(954), 결정된 위치에 있는 고주파수 입력 데이터 구조(H₀)에서의 제2 블록을 선택하는 선택기(955), 선택된 제2 블록의 픽셀 데이터를 제2 패치에 누산하는 누산기(957) - 제2 패치는 제1 위치에 있는 고주파수 업스케일링 데이터 구조에서의 패치임 -, 저주파수 업스케일링 데이터 구조들(L₁ 및 H₁ _, _acc)에서 복수의 패치를 위한 프로세싱의 반복을 제어하는 제어 유닛(950), 고주파수 업스케일링 데이터 구조에서 누산된 픽셀 값들을 정규화하여 정규화된 고주파수 업스케일링 데이터 구조(H_1,uf)를 획득하는 정규화 유닛(990), 정규화된 고주파수 업스케일링 데이터 구조(H_1,uf)를 필터링하는 고대역 통과 필터(995), 및 HP-필터링된 정규화된 고주파수 업스케일링 데이터 구조(H₁)를 저주파수 업스케일링 데이터 구조(L₁)와 결합(예를 들어, 추가)하는 결합 유닛(999) - 이에 의해 초해상도화된 데이터 구조(S₁)가 획득됨 - 을 포함한다. 초해상도 프로세싱을 수행하는 장치(900)가 인트라-프레임 내삽(103) 유닛에 사용되는 경우, 초해상도화된 데이터 구조(S₁)는 도 2에 도시된 LRLF이다. 이하, 필터(995)에 대한 더 상세한 설명이 제공된다.

본 발명의 적어도 본 실시예의 하나의 이점은 채택된 자체-평균화(self-averaging)로 인해, 종래의 방법들을 이용하는 것보다 업스케일링 데이터 구조에 더 적은 잡음이 유입된다. 인트라-프레임 내삽(103)의 본 실시예의 추가 이점은 단일 이미지를 대상으로 한다는 것이지만, 유리하게는 데이터베이스, 코드 북, 또는 이와 유사한 것을 요구하지 않고, 임의의 트레이닝 또는 트레이닝 데이터를 요구하지 않으며; 종래의 단일 이미지 방법들은 고주파수 예시들의 트레이닝된 검색을 위한 데이터베이스를 요구한다.

도 9는 본 발명의 일 실시예에서 디지털 1D, 2D, 또는 3D 데이터의 저해상도 입력 데이터 구조(S₀)의 초해상도 프로세싱을 수행하는 방법의 흐름도를 도시한다. 본 실시예에서, 방법은 제1 저대역 통과 필터(F_l,0)에 의해 입력 데이터 구조(S₀)를 필터링하는 단계(170) - 여기서 저주파수 입력 데이터 구조(L₀)가 획득됨 -; 가산기/감산기(180)에서 입력 데이터 구조(S₀)와 저주파수 입력 데이터 구조(L₀) 사이의 차이를 산출하는 단계 - 이에 의해 고주파수 입력 데이터 구조(H₀)가 생성됨 -; 입력 데이터 구조(S₀)를 업스케일링하고(120), 제2 저대역 통과 필터(F_l,1)에 의해 업스케일링된 입력 데이터 구조를 필터링하는 단계(130) - 여기서 저주파수 업스케일링 데이터 구조(L₁)가 획득됨 -, 제1 위치에서 제1 패치(P_n,L1)를 저주파수 업스케일링 데이터 구조(L₁)에서 결정하는 단계, 제1 패치(P_n,L1)와 가장 잘 매칭되는 제1 블록(B_n _, _L0)을 저주파수 입력 데이터 구조(L₀)에서 검색하는 단계(151, 152, 154), 및 저주파수 입력 데이터 구조(L₀) 내에 상기 제1 블록(B_n _, _L0)의 위치를 결정하는 단계, 결정된 위치에 있는 고주파수 입력 데이터 구조(H₀)에서의 제2 블록(B_n _, _H0)을 선택하는 단계(155), 선택된 제2 블록(B_n,H0)의 데이터 값들(예를 들어, 픽셀 데이터)을 제2 패치(P_n,H1)에 누산하는 단계(157) - 제2 패치는 (제1 패치(P_n,L1)를 위해 앞서 결정되었던) 제1 위치에 있는 고주파수 업스케일링 데이터 구조(H_1,acc)에서의 패치임 -, 저주파수 업스케일링 데이터 구조(L₁)에서 새로운 패치(P_n,L1)를 결정하는 단계, 선택된 패치(P_n _, _L1)와 가장 잘 매칭되는 블록(B_n _, _L0)을 저주파수 입력 데이터 구조(L₀)에서 검색하는 단계(151, 152, 154), 고주파수 입력 데이터 구조(H₀)에서 대응 블록(B_n _, _H0)을 선택하는 단계(155), 및 상기 새로운 패치(P_n _, _L1)의 위치에서 고주파수 업스케일링 데이터 구조(H₁ _, _acc)에서의 패치(P_n _, _H1)에 선택된 대응 블록(B_n _, _H0)의 픽셀 데이터를 누산하는 단계(157)를 반복하는 단계(150), 및 고주파수 업스케일링 데이터 구조(H_1,acc)에서의 누산된 필셀 값들을 정규화하고(190), HP-필터링(195)하는 단계 - 이로써 정규화된 고주파수 업스케일링 데이터 구조(H₁)가 획득됨 - 를 포함한다. 마지막으로, 정규화된 고주파수 업스케일링 데이터 구조(H₁)를 저주파수 업스케일링 데이터 구조(L₁)에 추가함으로써 초해상도화된 데이터 구조(S₁)가 획득된다.

일부 실시예에서, 제2 저대역 통과 필터(F_l,1)에 의한 필터링(130) 이후의 업스케일링된 입력 데이터 구조는 다운스케일링 팩터(d)에 의해 다운스케일링되는데(140), 여기서, n>d이다. 이에 따라, 저주파수 업스케일링 데이터 구조(L₁)를 위해 총 비-정수 업스케일링 팩터(n/d)가 획득된다. 고주파수 업스케일링 데이터 구조(H₁ _, _init)(또는 각각 H₁)는 저주파수 업스케일링 데이터 구조(L₁)와 동일한 사이즈를 갖는다. H₁의 사이즈는 사전에 정해지거나, L₁으로부터 도출될 수 있다. H₁은 초기화 단계(160)에서 이러한 사이즈의 비어 있는 데이터 구조(H_1,init)로 초기화된다. 이러한 실시예에서, 저주파수 업스케일링 데이터 구조(L₁)는 업스케일링 팩터(n)에 의해 입력 데이터 구조(S₀)를 업스케일링(120)하고, 상기 제2 저대역 통과 필터(F_l _,1)에 의해 업스케일링된 입력 데이터 구조를 필터링(130)하고, 다운스케일링 팩터(d)에 의해 다운스케일링 유닛(940)에서 필터링된 업스케일링된 입력 데이터 구조를 다운스케일링(140)함으로써 획득되는데, 여기서 n>d이다. 이에 따라, 최종 비-정수 업스케일링 팩터(n/d)가 획득된다.

도 10은 초해상도화된(즉, 고해상도) 이미지의 고주파수 대역(H₁)의 합성의 원리를 도시한다. 그것은 원래 해상도 스케일(H₀)에서의 유사한 패치들의 고주파수 정보의 외삽에 의해 달성된다. 다음의 설명에서, 고주파수 고해상도 데이터 구조(H₁)가 언급되면, 사실상 필터링되지 않은, 비정규화된 고주파수 고해상도 데이터 구조(H₁ _, _acc)를 의미한다는 점에 유의한다.

고해상도 이미지(L₁)의 저주파수 대역은 특정 오버랩을 갖는 작은 패치들(P_n _, _L1)(예를 들어, 5×5개의 픽셀)로 우선 분할된다. 오버랩양의 선택은 (오버랩이 더 많은 경우) 고주파수 아티팩트에 대한 강건성 및 (오버랩이 더 적은 경우) 계산 속도를 트레이드오프한다. 일 실시예에서, 각 방향으로 20-30%의 오버랩이 선택되는데, 즉, 예를 들어, 5개의 값들을 갖는 인접한 패치들의 경우, 2개의 값이 오버랩된다. 다른 실시예에서, 오버랩(overlap)은 더 높은데, 예를 들어 30-40%, 40-50%, 약 50%(예를 들어, 45-55%), 또는 최대 90%이다. 패치 사이즈의 20% 미만의 오버랩의 경우, 본 발명에 대한 아래 설명되는 효과가 대개 더 낮다.

최종적인 고주파수 대역(H₁)은 각 픽셀에 기여하는 패치들의 개수에 의해 정규화한 후에 획득되는데, 그 결과 평균 값이 된다. 패치들 사이의 오버랩이 클수록, 고주파수 외삽 프로세스로부터 초래되는 고주파수 아티팩트들의 억제가 더 우수하며, 더 많은 값들은 누산된다. 그 후, 각각의 저주파수 고해상도 패치(P_n _, _L1)의 경우, 평균 절대 차이(mean absolute difference)(MAD, 모션 추정이라고 알려짐)의 측면에서 최선의 매칭이 저해상도 이미지의 저주파수 대역(L₀)을 통해 로컬 검색 윈도우(예를 들어, 11×11개의 픽셀들)에서의 철저한 검색(exhaustive search) 이후에 획득된다. 최선의 매치는 저주파수 고해상도 패치(P_n _, _L1)와 동일한 사이즈(예를 들어, 5×5개의 픽셀들)를 갖는 저주파수 고해상도 이미지(L₀)로부터의 블록(P_n _, _L0)이다.

도 10에 도시된 바와 같이, 다음 단계를 이해하기 위해, 저해상도 저주파수 데이터 구조(L₀)가 저해상도 고주파수 데이터 구조(H₀)와 동일한 차원을 갖고, 고해상도 저주파수 데이터 구조(L₁)가 고해상도 고주파수 데이터 구조(H₁)와 동일한 차원을 갖는다는 점에 유의하는 것이 중요하다. 패치마다, (L₀ 내의) 매칭된 저주파수 저해상도 패치(P_n,L0)의 위치가 결정되고, 매칭된 저주파수 저해상도 패치(P_n,L0)의 위치에서의 (H₀ 내의) 대응하는 저해상도 고주파수 패치(P_n _, _H0)가 추출된다. 그 다음에, H₀로부터 추출된 저해상도 고주파수 패치(P_n _, _H0)는, 고해상도 저주파수 데이터 구조(L₁)에서의 현재의 패치(P_n _, _L1)가 갖는 동일한 위치에, 고해상도 이미지(H₁)의 고주파수 대역에 누산된다. 상세히 설명하면, H₀로부터 추출된 저해상도 고주파수 패치(P_n _, _H0)의 각각의 값(예를 들어, 픽셀)은 고해상도 이미지(H₁)의 고주파수 대역의 개별적인 패치에서 대응하는 값(예를 들어, 픽셀)에 누산된다. 이와 같은 방식으로, 고해상도 이미지(H₁)의 고주파수 대역은 패치-방향(patch-wise) 누산에 의해 합성된다. 오버랩되는 패치들에서 고해상도 이미지(L₁)의 저주파수 대역을 분할하고, 최선의 저주파수 매치를 찾고, 대응하는 고주파수 기여를 누산하는 프로세스는 도 11에 예시되어 있고, 이하 설명된다.

결과적으로, 고해상도 데이터 구조(H₁)의 최종(예비) 고주파수 대역에서의 각각의 값은 복수의 기여 패치들로부터의 값들의 합이다. L₁(및 양자가 동일한 차원을 갖기 때문에 결과적으로 H₁)에서의 패치 오버랩으로 인해, 적어도 2개의 패치로부터의 값들은 H₁에서의 많은 또는 모든 값들에 기여한다. 그러므로, 고해상도 데이터 구조(H₁)의 최종(예비) 고주파수 대역은 정규화된다(190). 이를 위해, 고주파수 고해상도 데이터 구조(H₁)에서의 각 값에 대한 H₀으로부터의 기여 값들의 개수는 합성 프로세스 동안 카운트되고, H₁ _, _acc에서의 각각의 누산 값은 결과적으로 기여들의 개수에 의해 분할된다.

도 11은 예시적으로 저해상도 저주파수 데이터 구조(L₀) 내의 검색 윈도우의 용도 및 위치확인(positioning)을 도시한다. L₁에서의 제1 패치(P₁₁ _, _L1)의 경우, 제1 최선의 매칭 블록(P₁₁ _, _L0)이 제1 검색 윈도우(W₁₁) 내의 L₀에서 검색된다. 패치들 모두는 동일한 사이즈를 갖는다. 검색 윈도우는 각 방향으로 적어도 하나의 값만큼 패치보다 크다(제1 패치와 관련하여, 에지에서는 제외함). 본 예시에서, 제1 최선의 매칭 블록(P₁₁ _, _L0)은 L₀에서 제1 검색 윈도우(W₁₁)의 좌측상부 코너에서 발견된다. 이러한 패치 및 블록을 위한 추가적인 프로세스는 전술한 바와 같다. 그 후, 후속 패치들은 수평 및/또는 수직으로 시프트되는데, 여기서 각각의 패치는 이전 패치를 오버랩한다. 본 발명에서, 검색은 하나 이상의 이웃 프레임들로 확장된다. 일 실시예에서, 바로 이웃 프레임이 검색되는데, 즉 ±1 프레임의 프레임 범위가 사용된다. 일 실시예에서, 바로 이웃 프레임과 바로 이웃 프레임의 바로 이웃 중 적어도 하나가 검색되는데, 즉 ±1 프레임 또는 ±2 프레임의 프레임 범위가 사용된다.

도 11에 도시된 예시에서, 제2 패치(P₁₂ _, _L1)가 소정의 패치 어드밴스(patch advance)에 의해 수평으로 시프트된 위치에서 선택된다. 패치 어드밴스는 패치 사이즈와 오버랩 사이의 차이이다. (예를 들어, 2D 데이터 구조들을 위해 수평 및 수직인) 상이한 차원에서의 패치 어드밴스들은 상이할 수 있는데, 이는 고해상도 출력 데이터 구조의 차원들에서의 상이한 효과 또는 품질들을 초래할 수 있지만, 이들은 대개 동일하다. 새로운 검색 윈도우(W₁₂)가 새로운 패치 위치에 따라 결정된다. 원칙적으로, 검색 윈도우들은 패치와 동일한 방향으로 진행하지만, 더 느리다. 이로 인해, 현재 검색 윈도우는 여기에서의 경우와 같이, 이전의 검색 윈도우와 동일한 위치에 있을 수 있다. 그러나, 다른 패치(P₁₂ _, _L1)가 검색 윈도우에서 검색되기 때문에, 최선의 매칭 패치(P₁₂ _, _L0)의 위치는 대개 상이할 것이다. 그 다음에, 최선의 매칭 패치(P₁₂ _, _L0)는 전술된 바와 같이 저주파수 고해상도 패치(P₁₂ _, _L1)의 위치에서 고해상도 고주파수 데이터 구조(H₁)에 누산된다. 후속 패치들(P₁₃ _, _L1, P₁₄ _, _L1)이 결정되고, 이들의 최선 매칭은 동일한 방식으로 검색된다. 도 11에 도시된 바와 같이, 검색 윈도우 내의 최선의 매칭 블록의 위치는 임의적이고, 입력 데이터(예를 들어, 이미지 내용)에 의존한다.

전술한 설명은 1차원(1D) 데이터 구조에 충분하다. 2D 데이터 구조들의 경우, 추가적인 후속 패치의 위치는 수직 패치 어드밴스에 의해 발견된다. 수직 패치 어드밴스는 수평 패치 어드밴스와 결합되거나 결합되지 않을 수 있다. 또한, 수직 패치 어드밴스는 P₂₁ _, _L1,…, P₂₃ _, _L1에 대해 도 11에 도시되고 전술한 바와 같이 오버랩을 포함한다.

검색 윈도우의 위치는 현재 패치의 위치에 따라 결정된다. 도 11에 도시된 바와 같이, 상이한 패치들의 검색 윈도우들(W₁₁,…,W₂₂)이 오버랩된다. L₀가 L₁보다 작은 데이터 구조이기 때문에, 각 차원으로의 검색 윈도우 어드밴스는 매우 작다. 일 실시예에서, 이들의 대응하는 패치가 L₁의 에지 위에 있으면, 검색 윈도우들은 L₀의 에지 위에 있고, 이들 에지 사이에 균일하게 및/또는 비례해서 이동된다.

(도 11에 도시되지 않은) 일 실시예에서, 검색 윈도우의 중심은 패치의 중심에 실질적으로 비례한 위치에 설정된다. 예를 들어, 패치의 중심이 고해상도 데이터 구조(L₁)의 3%에 있는 경우, 검색 윈도우의 중심은 저해상도 데이터 구조(L₀)의 대략 3%(어림수)에 있도록 설정된다. 이 경우, 에지 근처의 패치들에 대해, 검색 윈도우 사이즈가 축소될 수 있거나, 검색 윈도우는 저해상도 데이터 구조(L₀)로 완전히 시프트될 수 있다.

일반적으로, 검색 윈도우가 클수록, 매우 유사한 패치를 발견할 확률이 더 높다. 그러나, 사실상 검색 윈도우를 크게 증가시킴으로써 정확도 차이가 거의 예상되지 않을 것인데, 그 이유는 로컬 패치 구조가 일반적인 자연스러운 이미지들에서의 매우 로컬적인 영역에서만 발견될 가능성이 크기 때문이다. 더구나, 더 큰 검색 윈도우는 검색 중에 더 많은 프로세싱을 요구한다.

도 12는 이미지(즉, 2D 입력 데이터 구조)에서의 연속 패치들의 선택, 오버랩, 및 연속 패치들을 위한 매칭 블록을 판단하는 원리를 상세히 도시한다. 예시적으로, 패치들 및 블록들은 5×5개의 픽셀을 갖고, 검색 윈도우들은 12×12개의 픽셀을 갖는다. L₁에서의 제1 패치(P_1,L1)의 경우, 전술된 바와 같이, 검색 윈도우(W₁)는 L₀ 또는 이웃 LF 프레임에서 결정된다. 검색 윈도우(W₁) 내에서, 상이한 블록 위치들에서의 제1 패치의 비교가 수행되고, 최소 평균 절대 차이(MAD)를 갖는 블록(B_1, _L0)이 결정된다. 이 블록은 최선의 매칭 블록이다. 저해상도 저주파수 데이터 구조(L₀) 내의 위치가 결정되는데, 예를 들어 그의 좌측상부 코너는 제3 열 및 제3 행에 있다. 그 후, 대응하는 고주파수 저해상도 이미지(H₀)에서 동일한 위치에 있는 대응 패치(즉, 이웃일 수 있음)가 결정된다. 이에 따라, 그것은 좌측상부 코너가 제3 열 및 제3 행에 있는 5×5 픽셀 패치이다. 이러한 패치는 H₀로부터 추출되고, 현재 저주파수 고해상도 패치(P₁ _, _L1)의 위치, 즉 H₁의 좌측상부 코너(도 12a 참조)에 있는 H₁에 합산된다.

제2 패치(P_2,L1)는 도 12b에 도시된 바와 같이, 채택된 패치 어드밴스에 따라 선택된다. 이 경우, 패치 어드밴스는 양 차원에서 2개의 픽셀인데, 이는 5×5개의 픽셀의 패치 사이즈로 인해 오버랩은 3개라는 것을 의미한다. 이에 따라, 이러한 예시에서, 수직 오버랩(v_v) 및 수평 오버랩(v_h)은 동일하다. 더 느린 검색 윈도우 어드밴스로 인해, 검색 윈도우(W₂)는 이전 패치에서의 경우와 동일하다. 그러나, (임의의 이미지 내용에 따른) 상이한 픽셀 값들로 인해, 검색 윈도우 내의 다른 최선의 매칭 블록(B_2, _L0)이 발견된다. 전술한 바와 동일한 방식으로, 위치가 결정되고(예를 들어, 제7 열 및 제2 행에서의 좌측상부 코너), (제7 열 및 제2 행에서의 좌측상부 코너를 갖는) 대응 5×5 블록이 H₀로부터 추출되고, H₀로부터 추출된 블록은 제2 패치(P₂ _, _L1)의 위치에 있는, 즉, 제1 행 제3 열에 있는 좌측상부 코너를 갖는 고주파수 고해상도 이미지(H₁)에 추가된다. 이에 따라, 2개 이상의 상이한 패치에 속하는 특정 픽셀이 최선의 매칭 블록들의 대응 픽셀들로부터 누산되는데, 즉, 예시적으로, (도 12에 도시된 L₁에서의 위치에 대응하는) 고해상도 고주파수 이미지(H₁)의 제4 열, 제5 행에 있는 특정 픽셀 s는 설명된 바와 같은 프로세스의 현재 스테이지에서, (제1 패치의 최선의 매칭 블록(B_1, _L0)으로부터) 제6 열 제7 행에 있는 픽셀 및 (제2 패치의 최선의 매칭 블록(B_2, _L0)으로부터) 제8 열 제6 행에 있는 픽셀로부터 누산된 값을 갖는다. 전술된 바와 같이, 검색 윈도우는 복수의 패치가 프로세싱된 후에만 대개 어드밴스한다. 전술된 구성을 위해 도 12c에 예시적으로 도시된 바와 같이, 검색 윈도우(W₃)가 수평 방향으로 하나의 픽셀만큼 시프트되기 전에 3개의 패치 어드밴스(즉, 제4 패치)가 걸린다. 또한, 본 명세서에서는 패치 어드밴스(및 이로 인한 검색 윈도우 어드밴스)의 다양한 차원들의 순차적 순서가 어떠한 차이도 만들지 않는다는 점에 유의한다. 이에 따라, 도 12d에 도시된 패치는 L₁의 우측 에지까지 이전 패치들이 시프트된 후에 프로세싱될 수 있지만, 도 12a에 도시된 바와 같이 제1 패치 직후에 프로세싱될 수도 있다.

다음으로, 공간적 HF 합성(12)이 설명된다(도 1 참조). 공간적 HF 합성의 입력에서, (HRLF 대역을 따르는) 다수의 프레임 레이트 상향 변환 및 업스케일링된 입력 비디오 프레임들이 존재하는데, 이들은 부피 측정 구조에 적층된다. 축들 중 2개는 공간적 이미지 차원들에 대응하고, 제3 축은 시간적 차원에 대응한다.

일 실시예에서, 인터-프레임 내삽(102)에 대한 섹션에서 전술된 것과 매우 유사한, 공간적 HF 합성을 위한 방법이 채택된다. 차이점은 본 실시예에서, HF 예시는 고주파수 대역이 획득되어야 하는 패치의 로컬 이웃에서의 이미지들 중 임의의 것으로부터 취해질 수 있다는 것이다. 다시 말하면, 검색 윈도우는 각각의 패치에 중심을 둔 3D 부피이다.

이 기법이 (2D 패치들 대신 3D 패치들을 고려함으로써) 시간적 고주파수들을 복원하기 위해 적용될 수 있지만, 시간적 에일리어싱에서 높은 양의 에일리어싱이 일어날 수 있으며, 이는 가시적 고스팅 효과들을 유입시킬 수 있다. 따라서, 더 효과적인 접근법이 바람직할 수 있을 것이다. 이러한 문제점을 해결하기 위해, 본 발명의 일 실시예에서, 초해상도화하는 것(즉, 고주파수 대역을 합성하는 것)은 시간적 차원이 아닌, 단지 공간적 차원에서 행해진다. 본 실시예의 이점은 내삽 프레임들의 고해상도 버전들을 생성하도록 요구되는 고주파수 컴포넌트들이 저해상도 이웃 프레임들을 조사함으로써 획득될 수도 있다는 것이다.

다음으로, HRLF 내삽된 대역(15)과 HRHF 합성된 대역(16)의 혼합(13)이 설명된다. 혼합 유닛에서 수행되는 이러한 혼합(13)은 초해상도화된 비디오 시퀀스(14)를 초래한다. 일 실시예에서, 고대역 통과 필터(995)는 이 부분에서 공간적 차원들에 적용되어 내삽 HRLF 대역과 합성 HRHF 대역의 스펙트럼 호환성(spectral compatibility)을 보장한다. 도 13a는 초해상도화된 이미지(S₁)를 생성하는 HRLF(고해상도 저주파수) 대역(L₁)과 정규화된 고주파수 고해상도(HRHF) 대역(H₁)의 혼합을 예시적으로 도시한다. 저주파수 대역과의 스펙트럼 호환성을 보장하기 위해, 정규화된 고주파수 대역(H₁)은 고대역 통과 필터(995)를 사용하여 필터링된다. 다음에서, 이러한 고해상도 고대역 통과 필터(995)가 설명된다. 필터(F_h _,1)(995)는 전술된 필터링 단계(195)에서 사용되고, 바람직하게 제1 스테이지(11)에서 필터들(F_l _,0, F_l,1)(930, 970)과 동일한 방식으로 설계된다. 이 경우, 그 목적은 차단 주파수

를 갖는 고대역 통과 필터를 획득하는 것이다. 그 차수(order)는 저해상도 필터 차수의 스케일링된 버전, 즉

로 설정되고, 그 크기는

로 설정된다. 별도의 고대역 통과 필터의 최종 계수들은, 해밍 윈도우(Hamming window)의 중심에 정렬된 크로네커 델타(Kronecker delta)로부터 동일한 차단 주파수를 갖는 상보성 저대역 통과 필터의 계수들을 뺀 것으로 설정된다. 즉, 고대역 통과 필터는 전대역 통과 필터(계수들의 집합이 크로네커 델타와 같음)로부터 원하는 고대역 통과 필터와 동일한 차단 주파수를 갖는 저대역 통과 필터를 뺀 것으로서 정의된다. 이는 도 13b에 그래픽적으로 도시되어 있는데, 여기서 좌측은 고대역 통과 필터의 원하는 주파수 응답(HP)이고, 우측은 전대역 통과 필터(AP)와 전술한 저대역 통과 필터(LP)의 응답의 차이이다. 대역의 중첩(superposition)으로서 실제적인 혼합이 행해질 수 있는데, 여기서 LF 주파수 대역 및 HF 주파수 대역은 서로 간단하게 합쳐진다. 전술한 설명으로부터 명확해짐에 따라, 고해상도의 저주파수 대역(HRLF) 이미지(L₁)는 원칙적으로 내삽에 의해 획득되고, 고해상도의 고주파수 대역(HRHF) 이미지(H₁)는 원칙적으로 외삽에 의해 획득된다.

일례로서, 도 6에 도시된 2개의 연속적인 저해상도 입력 프레임(f₆₁ 및 f₆₂)을 고려해 볼 때, 초해상도화 출력 프레임들(f₇₁, f₇₂, f₇₃)(2x 공간적 및 1x 시간적 배율)이 도 7에 도시되어 있다. 도 7에서, 제1 프레임(f₇₁)은 초해상도화된 공간적 차원들로 제1 입력 프레임(f₆₁)으로부터 획득된다. 제2 프레임(f₇₂)은 초해상도화된 공간적 차원들을 갖는 새로운 프레임이다. 제3 프레임(f₇₃)은 초해상도화된 공간적 차원들로 제2 입력 프레임(f₆₂)으로부터 획득된다.

본 발명의 일반적인 아이디어는 원칙적으로 다른 기술 분야에 적용될 수 있다. 모션 보상 기법은 2개의 주어진 이미지들 사이의 모션을 결정하고, 더 정확하고 강건한 번들 조정 알고리즘(bundle-adjustment algorithm)들에 입력을 제공하여 2개의 뷰(view) 사이의 상대적 자세(relative pose)를 결정하는데 유용할 수 있다. 코딩 애플리케이션들에서, 밀집한 멀티-뷰 시퀀스들(dense multi-view sequences)은 중간 뷰들이 2개의 이웃 뷰들로부터 빠르고 정확하게 추측될 수 있다는 사실을 활용함으로써 데시메이트(decimate)될 수 있다. 이는 또한 (소정의 순간에 신규한 뷰들을 생성하는) 공간 및 (연속적인 순간 사이의 위치들을 추적하는) 시간 모두에서 더 우수한 3D 재구성을 제공하는 것을 도울 수 있다.

본 발명의 하나의 이점은 제안된 기법과 유사한 품질의 레벨을 갖는 내삽 비디오 프레임들을 생성할 수 있는 공지된 광학 플로우 추정 기법들보다 더 간단하고 그래서 더 저렴하다는 것이다. 이는 공간적 초해상도 알고리즘과 결합될 수 있는데, 이는 결국 비디오 시퀀스들에서 더 풍부하고 여분의 이용 가능한 정보를 활용하지 않을 것이다. 본 발명은 자연스럽고 복잡한 모션들을 다루는 이점을 갖는다. 고전적인 재구성 기반 멀티-프레임 초해상도 기법들은 일반적으로, 자연스럽고 복잡한 모션들을 다루지 못할 수 있다.

종래 기술에서는, 과도한 선명화(excessive sharpening) 또는 윤곽(contour)에 가까운 질감(texture)의 제거와 같은, 원치 않는 효과들을 생성하는 임의의 종래 모델들이 소개되었다. 또한, 프레임 내삽을 위한 고전적인 블록 매칭에 비해, 개시된 기법은 로컬 이웃에서의 유사한 패치들을 갖는 영역 내에 정확히 내삽된 프레임들을 생성한다. 예시적으로, 도 8은 개시된 IRBM(iterative robust block matching)에 의해 획득된 바와 같이 훨씬 더 적은 아티팩트들을 갖는 (우측의) 정확한 핸들링에 비해, 로컬 이웃들에 있는 유사한 패치들을 갖는 이러한 영역들에서의 블록 매칭에 의해 생성되는 (좌측의) 아티팩트들을 도시한다. 이 화상은 2개의 가장 가까운 이웃들로부터 내삽된 프레임의 상세 사항에 대응한다.

또 다른 이점들은, 광학 플로우 기법들에 비해, 대규모 모션 추정을 위한 이미지 피라미드를 초기에 구축할 필요가 없으며, 오히려 입력 이미지에 대해 직접적으로 작업할 수 있다는 점이며, 이로 인한 광학 플로우는 광학 플로우 기법들이 그러한 것처럼 부동 소수점 배치가 아니라 정수 배치를 제공하고, 모션 추정치들을 획득하기 위해 (에너지 최소화 방식들에서 통상적인 것처럼) 여러 번 반복할 필요가 없다.

도 5는 본 발명에 따라 고해상도 업샘플링된 프레임들이 획득되는 방법의 개요를 도시한다. 전술한 바와 같이, 저해상도 프레임들(f1,…, f4)은 우선 시간적으로 내삽되는데, 여기서 시간적으로 내삽된 저해상도 프레임(i1,…, i3)이 획득된다. 그 후, 고해상도(HR) 프레임들(F1, I1,…, I3, F4)은 다음과 같이 업샘플링 및 내삽에 의해 저해상도(LR) 프레임들(f1, i1,…, i3, f4)로부터 획득된다.

HR 프레임들의 저주파수(LF) 부분(HRLF 대역들)은 시간적으로 내삽된 프레임들을 포함하는, 각각의 시간적으로 동시에 일어나는 LR 프레임들로부터 공간적으로 업샘플링된다. 예를 들어, LF(F1)는 f1으로부터 업샘플링되고, LF(I1)는 i1으로부터 업샘플링된다. F1,…,F4와 같은 입력 시퀀스에서의 시간적 동시 프레임들을 갖는 HR 프레임들의 고주파수(HF) 부분/대역들은 입력 시퀀스의 LR 프레임들, 즉 f1,…, f4로부터 공간적으로 업샘플링된다.

I1, I2, I3과 같은 입력 시퀀스에서의 시간적 동시 프레임들을 갖지 않는 HR 프레임들의 HF 부분/대역들은 입력 시퀀스의 이웃 LR 프레임들, 즉 f1,…, f4로부터 공간적으로 업샘플링된 후에 내삽된다. 예를 들어, f1 및 f2는 업샘플링된 후 내삽되어 I1을 획득한다.

일 실시예에서, 비-정수 시간적 위치 τ에 있는 각각의 새로운 HF 이미지(I1,…, I3)는 2개의 별도의 부분, 즉 LF 부분 및 HF 부분에서 시간적으로 내삽된다. LF 부분은 시간적으로 내삽된 LR 이미지(i1)으로부터 획득되고(도 5 참조), 그 다음 (도 9에서의 단계들을 이용하여) 공간적 초해상도화에 의해 업스케일링된다. HF 부분은 시간적으로 내삽되지 않은 이웃 프레임(f1,…,f4)으로부터 획득된다. 또한, 이웃 프레임(f1,…, f4)은 (도 9에서의 단계를 이용하여) 공간적 초해상도화에 의해 업스케일링된다. 이점은 더 양호한 매칭 패치가 이웃 프레임에서 발견될 수 있다는 것이다.

일 실시예에서, 본 발명은 비디오 시퀀스들의 프레임 레이트를 증가시키고 출력 프레임들 각각을 공간적으로 초해상도화하기 위한 패치-기반 프레임워크를 제공한다. 패치 기반(또는 블록 기반) 이미지 프로세싱은 잡음 제거 또는 공간적 초해상도화와 같이 다양한 문제점들에서 큰 성능을 이미 보이고 있다. 여기서, 이러한 적응성(adaptability)은 단일 패치 기반 프레임워크에서 2개의 언급된 문제점들을 해결하기 위해 활용된다. 본 발명은 시간적 차원에서의 다량의 에일리어싱을 이용하여 모든 타입의 비디오 시퀀스들을 향상시키는데 적합하다. 즉, 본 발명은 주기적이거나 또는 매우 중복적인 시공간적 특징만을 갖는 시퀀스들에 초점을 맞추지 않는다. 시간적 샘플링 주파수들은 공간적 차원에서보다 거의 100배 낮다. (잠재적으로 특정 경우들에 잘 적응되지 않는 오버-피팅 이미지 모델(over-fitted image model)들을 초래할 수 있는) 공간적 초해상도 문제가 종래 기술로부터 벗어난다(kept free from priors)는 이점이 있다. 심각하게 불량 조건의 시간적 초해상도 문제는 선형 및 비선형 정규화기들을 갖는 MAP 모델을 이용하여 공식화된다. 다음에서, 시간 내삽에 대한 더 상세한 정보가 제공된다.

시간 내삽. 부피 측정 접근법으로서 비디오 시퀀스를 고려하면, 초해상도화된 비디오 시퀀스의 저주파수 대역을 생성하기 위해, 3개의 가용 차원들(2개의 공간적 차원 및 1개의 시간적 차원)에서 동일한 내삽 방식을 적용하는 것이 바람직할 것이다. 그러나, 그렇게 함으로써, 시간적 이벤트들을 정확히 내삽할 수 없을 것이다. 시간적 도메인은 일반적으로 나이퀴스트 한계(Nyquist limit) 미만이지만 대부분의 경우에 시각적 시스템이 연속적인 모션을 인식하기에 충분한 주파수로 샘플링된다.

시간적 이벤트들이 장면 내에서 재발하지 않는 경우에도 시간 해상도를 개선하기 위해, 우선 연속 프레임들 사이의 모션을 추정한 후, 선형 내삽에 의해 임의의 원하는 시간 위치에서 중간 프레임들을 생성하는 아이디어를 따르는 것을 제안한다.

이러한 방법의 나머지에서 고려되는 프레임워크에 따라, 차원이 5×5개의 픽셀인 소형 오버랩 패치들을 이용하는 패치 기반 접근법을 이용한다. P_i,j가 공간적 위치(i, j)에서 픽셀에 중심을 둔 패치를 따르는 픽셀들의 집합이고, #P_i _,j는 패치에 포함된 원소들의 개수라고 한다. 또한, u_i _,j 및 v_i _,j는 이러한 공간적 위치에서 각각 수평 및 수직 모션 컴포넌트들이라고 한다. 그러면, 2개의 연속 컬러 프레임 I₁(x, y) 및 I₂(x, y) 및 컬러 거리 ∥I₁(x₁, y₁) - I₂(x₂, y₂)∥₂를 고려할 때, 모션 필드를 추정하기 위해 다음의 변분 공식화(variational formulation)를 사용할 수 있다.

및

는 도메인 내에서 각각 가변성(일관성) 및 강건성(평활성)을 거부(부여)하는데 사용되고 위치 (i, j)에 중심을 둔, 로컬 규모의 이웃 및 대규모의 이웃이다. 고전적인 광학 플로우 공식을 사용함으로써, 제안된 데이터 항(data term)이 선형화되지 않는다는 점에 유의한다. 대신, 블록 매칭(BM) 데이터 항을 고려하는데, 이는 광학 플로우보다 더 많은 횟수의 관측을 사용하고, 멀티-스케일 프로세싱을 요구하지 않는 모션 추정 방식을 고려하게 하게 한다. 단점은 이러한 기능성의 최소화가 NP-하드 문제(NP-hard problem)라는 것이다.

우리가 이 문제를 다루는 것을 고려하는 첫 번째 옵션은 데이터 항을 볼록화(convexify)하는 것이다. 각 픽셀 주변에 구조화된 데이터 코스트(data cost)는 삼각형 메쉬(triangle mesh)로서 표현된, 낮은 볼록 껍질(convex hull)에 의해 대체되고, 투영된 최급 강하(projected steepest descent)는 데이터 항-볼록화된 기능에 대한 업데이트 단계들을 지수적으로 감소시키면서 사용된다. 마지막 반복 후에, 낮은 볼록 껍질의 가장 가까운 꼭지점(로컬 최솟값)이 각각의 위치에서의 최적의 후보로서 간주된다.

그러나, 이러한 접근법은 선택된 파라미터들에 매우 민감하다는 점에 유의한다. 수학식 1(비선형)에서 첫 번째 정규화 항의 가중치(λ₁)가 큰 값으로 설정되면, 업데이트 단계는 수렴에 도달하도록 크게 줄어들어야 하며, 그 결과 실행 시간이 더 길어진다. 그러므로, GPU들의 계산 능력에 더 적합한 추가적인 근사화를 고려하는데, 이는 결과적으로 우수한 품질 대 실행 시간 트레이드오프를 제공하는 반복적 블록 매칭(반복적-BM) 알고리즘을 야기한다.

일단 모션 필드가 양 방향(I₁으로부터 I₂로, 및 그 반대로)으로 계산되었으면, 시간적으로 내삽된 프레임은 중심 픽셀의 모션 벡터에 의해 가리켜지는 방향으로 각 이미지의 (사이즈가 5×5 픽셀인) 오버랩되는 변위된 패치들의 가중화된 선형 조합으로서 획득된다.

실험예에서, BM을 위한 초기 검색 윈도우 사이즈는 41×41개의 픽셀로 설정되고, 반복적-BM의 10회 반복 동안 3×3 픽셀들로 지수적으로 감소된다. 대규모 선형 필터의 영역(

)은 이들 10회 반복 동안 81×81의 사이즈로 계속 고정되어 있지만, 로컬 규모 비선형 필터의 영역(

)은 지수형 감쇠에 따라 21×21 픽셀들로부터 3×3 픽셀들로 줄어든다. 이러한 근사화에서의 검색 윈도우 사이즈 및 필터 영역들의 상대적 변화는 (여러 광학 플로우 추정 기법들에서 발견되는 바와 같이) 코오스-투-파인(coarse-to-fine) 변분 접근법(variational approach)에서의 정규화 가중치들의 변화로서 해석될 수 있다. 초기에 평활 필터의 가중치(수학식 1에서의 λ₂)는 데이터 코스트 항보다 약간 크지만, 대응하는 최적화 동안 (BM 검색 윈도우 사이즈가 지수적으로 감쇠됨에 따라) 지수적 성장을 겪는다. 에지-보존 필터(edge-preserving filter)의 가중치(λ₂)는 데이터 코스트 항보다 작은 것으로부터 마지막 스테이지에서 동일한 차원들을 갖는 필터 영역과 BM 검색 윈도우 사이즈 모두에 적용되는 지수형 감쇠에 따라 실질적으로 같아질 때까지 달라진다. 다양한 검색 윈도우 사이즈의 더 정확한 튜닝은 근소한 개선을 제공할 것이지만, 사용된 값들은 실험예에서의 그럴듯한 결과들을 제공하기에 충분했다.

3×3 픽셀의 작은 검색 윈도우 사이즈를 갖는 추가적인 바이어싱된 BM 단계는 내삽된 프레임의 랜더링 이전에 매칭 패치들이 실제 로컬 최소값들이 되도록 보장하는데 사용된다. 후반 동작은 GPU에서 구현하기에 간단하다.

수학식 1에서, λ₁ 및 λ₂가 곱해진 두 번째 피가수(summand) 및 세 번째 피가수는 픽셀 레벨(즉, 단일 픽셀)이 아닌, 블록 레벨로 적용된다는 점에 유의한다. 이는, 예를 들어, 광학 플로우 방법들에 대한 차이이다.

개시된 알고리즘은 그리디 알고리즘(greedy algorithm), 즉 전체적인 최적 선택을 하려고 시도하는 대신 로컬로 최적의 선택을 하는 알고리즘으로서 고려될 수 있다. 그리디 알고리즘은 이들이 수렴하기에 충분한 개수의 반복을 적용하는 것이 가능하지 않은 경우 "최적의" 방법들보다 더 나은 해결 방안을 제공할 수도 있다.

제안된 해결 방안의 하나의 이점은 값비싼 전역 최적화 방법들을 요구하지 않는 현재의 초병렬 하드웨어에 적합한 알고리즘을 이용하여 프레임 레이트 상향 변환 및 공간적 업-스케일링을 별로도 또는 공동 방식으로 획득할 수 있다는 것이다.

추가적인 이점으로서, 본 발명은 초병렬 플랫폼에 이용 가능한 하드웨어에 적합하도록 설계되기 때문에 특히 그래픽 하드웨어에서 용이하게 구현될 수 있으며, 고레벨의 품질을 갖는 프레임 내삽을 제공함으로써, 값비싼 광학 플로우 추정 방법들과 경쟁할 수 있는 강건한 블록 매칭 알고리즘을 제공한다.

추가적인 이점으로서, 본 발명은 크로스-스케일 자체-유사성(cross-scale self-similarity)을 갖는 신호들을 초해상도화하기 위한 일반 프레임워크에서의 통합을 허용하며, 그 결과 초해상도화된 비디오 프레임들 및 프레임 레이트 상향 변환을 공동으로 획득할 수 있다. 게다가, 프레임 레이트 상향 변환은 임의의 원하는 값으로 달성될 수 있다. 개시된 방법은 예를 들어, 2:3 풀다운 등과 같은 텔레시네(telecine)를 위한 고전적인 기법들을 개선할 수 있다.

다음에 여러 예시적인 실시예들이 요약되어 있다.

저해상도 입력 비디오 프레임 시퀀스에 대해 초해상도화를 수행하는 장치는 입력 비디오 프레임 시퀀스의 프레임들을 공간적으로 내삽하여 고해상도 저주파수의 시공간적 대역들을 생성하는 공간적 내삽 모듈, 입력 데이터 시퀀스의 비디오 프레임에 대해 크로스-프레임 공간적 고주파수 외삽을 수행하여 고해상도 고주파수 공간적 대역을 생성하는 공간적 외삽 모듈, 및 고해상도 저주파수 시공간적 대역들과 고해상도 고주파수 공간적 대역을 혼합하여 시공간적으로 초해상도화된 비디오 시퀀스를 획득하는 혼합 모듈을 포함한다.

크로스-프레임 공간적 고주파수 외삽의 일 실시예에서, 저주파수 시공간적 대역들의 시간적으로 내삽된 프레임들이 사용된다.

일 실시예에서, 이 장치는 저주파수 시공간적 대역들의 시간적으로 내삽된 프레임을 획득하는 모듈을 더 포함하고, 이는 적어도 2개의 입력 프레임 사이의 모션 필드를 생성하는 모션 필드 생성기 모듈; 출력 이미지 버퍼; 출력 이미지의 시간적 위치를 결정하는 제어 유닛; 2개의 입력 프레임 각각을 오버랩 패치들로 분할하는 분할 모듈; 하나의 또는 양자의 입력 프레임들의 패치마다, 결정된 시간적 위치에 따라 모션 벡터의 선형 내삽에 의해 출력 이미지에서의 패치의 공간적 위치를 산출하는 선형 보간기; 하나의 또는 양자의 입력 프레임들의 패치마다 결정된 시간적 위치에 따라 가중 팩터를 산출하고 가중 팩터와 현재 패치의 픽셀 값들을 곱하여 각각의 패치의 가중화된 픽셀 값들을 획득하는 가중 팩터 산출기; 출력 이미지 버퍼에서 각각의 패치의 산출된 공간적 위치들에서의 패치들의 가중화된 픽셀 값들을 누산하는 제1 누산기 - 각각의 패치는 픽셀들의 가중화된 값들을 산출된 위치에 있는 출력 이미지의 픽셀들에 기여함 -; 가중 팩터 누산 버퍼; 가중 팩터 누산 버퍼에서 출력 이미지의 각 픽셀에 기여하는 가중 팩터들을 누산하는 제2 누산기 - 누산된 가중 팩터는 픽셀마다 획득됨 -; 및 양 이미지의 모든 패치들이 프로세싱된 후 가중 팩터 누산 버퍼로부터 검색되는 누산된 가중 팩터에 의해 누산된 중간 출력 이미지를 정규화하는 정규화기 모듈을 포함한다.

일 실시예에서, 장치는 IRBM 유닛을 더 포함하며, 모션 필드는 IRBM에 의해 획득된다.

일 실시예에서, 고해상도 저주파수(HRLF) 시공간적 대역들과 고해상도 고주파수(HRHF) 공간적 대역을 혼합하는 혼합 모듈은 고해상도 고주파수(HRHF) 공간적 대역을 필터링하여 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역을 획득하는 고대역 통과 필터(995); 및 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역과 고해상도 저주파수(HRLF) 시공간적 대역들을 합하는 결합기를 포함한다.

일 실시예에서, 입력 비디오 프레임 시퀀스를 공간적으로 내삽하는 공간적 내삽 모듈은 입력 비디오 프레임 시퀀스의 입력 비디오 프레임들을 필터링하여 저주파수 입력 비디오 프레임들을 획득하는 제1 저대역 통과 필터(F_l _,0); 입력 비디오 프레임들과 저주파수 입력 비디오 프레임들 사이의 차이를 산출하여 고주파수 입력 비디오 프레임들을 생성하는 미분기(980); 입력 비디오 프레임들을 업스케일링하는 업스케일러(920) 및 업스케일링된 입력 비디오 프레임들을 필터링하는 제2 저대역 통과 필터(F_l _,1) - 여기서, 저주파수 업스케일링된 비디오 프레임이 획득됨 - ; 저주파수 업스케일링된 비디오 프레임들에서 제1 위치에 있는 제1 패치를 결정하는 프로세싱 모듈; 저주파수 입력 비디오 프레임들에서 제1 패치(P_n _, _L1)와 가장 잘 매칭되는 제1 블록을 검색하고, 저주파수 입력 비디오 프레임들(L₀) 내의 상기 제1 블록(B_n _, _L0)의 위치를 결정하는 검색 유닛(952); 결정된 위치에서 고주파수 입력 비디오 프레임들(H₀)에서의 제2 블록(B_n,H0)을 선택하는 선택기(955); 선택된 제2 블록(B_n _, _H0)의 픽셀 데이터를 제2 패치(P_n _, _H1)에 누산하는 누산기(957) - 제2 패치는 제1 위치에서 고주파수 업스케일링된 비디오 프레임들(H₁ _, _acc)에서의 패치임 -; 검색 유닛(952), 선택기(955), 및 누산기(957) 중 하나 이상을 제어하여 저주파수 업스케일링된 비디오 프레임들의 모든 패치를 프로세싱하는 제어 유닛(950); 고주파수 업스케일링된 비디오 프레임(H₁ _, _acc)에서의 누산된 픽셀 값들을 정규화하여 정규화된 고주파수 업스케일링된 비디오 프레임들을 획득하는 정규화 유닛(990); 및 정규화된 고주파수 업스케일링된 비디오 프레임들 중 적어도 하나를 저주파수 업스케일링된 비디오 프레임들 중 적어도 하나에 합산하여 공간적으로 초해상도화된 비디오 프레임을 획득하는 결합 유닛(999)을 포함한다.

본 발명의 바람직한 실시예에 적용되는 본 발명의 기본적인 신규한 특징들이 도시되고, 설명되고, 명시되어 있지만, 본 발명의 범위에서 벗어나지 않고, 설명된 장치 및 방법, 개시된 디바이스의 형태 및 상세사항, 및 이들의 동작에서의 다양한 생략 및 대체 및 변경이 당업자에 의해 수행될 수 있다는 점이 이해될 것이다. 동일한 결과들을 획득하기 위해 실질적으로 동일한 방식으로 실질적으로 동일한 기능을 수행하는 이들 요소의 모든 조합이 본 발명의 범위 내에 있다는 것을 명백히 의도한다. 하나의 설명된 실시예로부터 다른 실시예로의 요소들의 대체는 또한 충분히 의도되고 숙고된다. 언급된 모든 이미지들 및/또는 패치들은 반드시 그런 것은 아니지만, 컬러 이미지들 및/또는 컬러 패치들일 수 있다. 본 발명은 순전히 예시로서 설명되어 있으며, 본 발명의 범위에서 벗어나지 않고 상세사항이 수정될 수 있다는 점이 이해될 것이다. 명세서, (적절한 경우) 청구항, 및 도면에 개시된 각각의 특징은 독립적이거나 임의의 적절한 조합으로 제공될 수 있다. 특징들은 적절하다면 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 연결들은 적용 가능한 경우 무선 연결, 또는 유선이지만 반드시 직접적이거나 전용이 아닌 연결로서 구현될 수 있다. 청구항에 나타난 참조 부호들은 단지 예시적인 것으로서 청구항의 범위에 제한적인 영향을 미치지 않는다.

인용 문헌

[1] "Space - Time Super - Resolution from a Single Video ", O. Shahar, A. Faktor and M. Irani, IEEE Conf. on Computer Vision and Pattern Recognition, 2011

[2] "On improving space - time super resolution using a small set of video inputs ", U. Mudenagudi, S. Banerjee and P. Kalra, Indian Conf. on Computer Vision, Graphics and Image Processing, 2008

[3] "Spatio - temporal resolution enhancement of video sequence based in super-resolution reconstruction", M. Haseyama, D. Izumi and M. Takizawa, ICASSP 2010

[4] "Super-Resolution Without Explicit Subpixel Motion Estimation", H. Takeda, P. Milanfar, M. Protter and M. Elad, IEEE Trans. on Image Processing, vol. 18, no. 9, 2009

Claims

저해상도 입력 비디오 프레임 시퀀스에 대해 초해상도화(super-resolution)를 수행하는 방법으로서,
상기 입력 비디오 프레임 시퀀스(10)의 프레임들을 공간적으로 내삽(103)하여 고해상도 저주파수 시공간적 대역들(high-resolution, low-frequency spatial and temporal bands)(15)을 생성하는 단계;
상기 입력 데이터 시퀀스(10)의 비디오 프레임들에 대해 크로스-프레임 공간적 고주파수 외삽(cross-frame spatial high-frequency extrapolation)(12)을 수행하여 고해상도 고주파수 공간적 대역(a high-resolution, high-frequency spatial band)(16)을 생성하는 단계; 및
상기 고해상도 저주파수 시공간적 대역들(15)과 상기 고해상도 고주파수 공간적 대역(16)을 혼합(13)하여 시공간적으로 초해상도화된 비디오 시퀀스(a spatio-temporally super-resolved video sequence)(14)를 획득하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 크로스-프레임 공간적 고주파수 외삽(12)에서, 상기 저주파수 시공간적 대역들(15)의 시간적으로 내삽된 프레임들이 사용되는, 방법.
제2항에 있어서, 상기 저주파수 시공간적 대역들(15)의 시간적으로 내삽된 프레임은,
적어도 2개의 입력 프레임(fr1, fr2) 사이의 모션 필드(motion field)를 생성하는 단계;
출력 이미지 버퍼를 초기화하는 단계(401);
출력 이미지의 시간적 위치(τ)를 결정하는 단계;
상기 2개의 입력 프레임(fr1, fr2) 각각을 오버랩 패치들로 분할하는 단계; 및
두 입력 프레임(fr1, fr2)에 대해,
상기 패치들마다 상기 결정된 시간적 위치에 따라 모션 벡터(MV1)의 선형 내삽에 의해 상기 출력 이미지에서 자신의 공간적 위치를 산출하는 단계;
상기 패치들마다 상기 결정된 시간적 위치(1-τ)에 따라 가중 팩터(weighting factor)를 산출하고 현재의 패치의 픽셀 값들을 상기 가중 팩터와 곱하여 각 패치의 가중화된 픽셀 값들을 획득하는 단계;
상기 출력 이미지 버퍼에서 상기 개별 패치들의 상기 산출된 공간적 위치들에 있는 상기 패치들의 상기 가중화된 픽셀 값들을 누산하는 단계 - 각각의 패치는 상기 산출된 위치에 있는 상기 출력 이미지의 픽셀들에 그의 픽셀들의 가중화된 값들을 기여(contribute)함;
가중 팩터 누산 버퍼(weighting factor accumulation buffer)에서, 상기 출력 이미지의 각 픽셀에 기여하는 가중 팩터들을 누산하여 픽셀마다 누산된 가중 팩터를 획득하는 단계; 및
두 이미지(fr1, fr2)의 모든 패치들이 프로세싱되었으면,
상기 가중 팩터 누산 버퍼로부터 검색된 상기 누산된 가중 팩터에 의해 상기 누산된 중간 출력 이미지(403)를 정규화하는 단계를 수행하는 단계에 의해 획득되는, 방법.
제3항에 있어서, 상기 모션 필드는 IRBM(Iterative Robust Block Matching)에 의해 획득되는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 고해상도 저주파수(HRLF) 시공간적 대역들(15)과 상기 고해상도 고주파수(HRHF) 공간적 대역(16)을 혼합하는 단계(13)는,
상기 고해상도 고주파수(HRHF) 공간적 대역(16)을 고대역 통과 필터링(195)하여 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역을 획득하는 단계; 및
상기 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역(16)과 상기 고해상도 저주파수(HRLF) 시공간적 대역들(15)을 합산하는 단계를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 입력 비디오 프레임 시퀀스(10)를 공간적으로 내삽하는 단계(103)는,
제1 저대역 통과 필터(F_l,0)에 의해 상기 입력 비디오 프레임 시퀀스(10)의 입력 비디오 프레임들(S₀)을 필터링(170)하여 저주파수 입력 비디오 프레임들(L₀)을 획득하는 단계;
상기 입력 비디오 프레임들(S₀)과 상기 저주파수 입력 비디오 프레임들(L₀) 사이의 차이를 산출(180)하여 고주파수 입력 비디오 프레임들(H₀)을 생성하는 단계;
상기 입력 비디오 프레임들(S₀)을 업스케일링(120)하고, 제2 저대역 통과 필터(F_l _,1)에 의해 상기 업스케일링된 입력 비디오 프레임들을 필터링(130)하여 저주파수 업스케일링된 비디오 프레임들(L₁)을 획득하는 단계;
제1 위치에 있는 제1 패치(P_n _, _L1)를 상기 저주파수 업스케일링된 비디오 프레임들(L₁)에서 결정하는 단계;
상기 제1 패치(P_n,L1)와 가장 잘 매칭되는 제1 블록(B_n,L0)을 상기 저주파수 입력 비디오 프레임들(L₀)에서 검색(152, 154)하고, 상기 저주파수 입력 비디오 프레임들(L₀) 내의 상기 제1 블록(B_n _, _L0)의 위치를 결정하는 단계;
상기 결정된 위치에 있는 상기 고주파수 입력 비디오 프레임들(H₀)에서의 제2 블록(B_n,H0)을 선택하는 단계(155);
상기 선택된 제2 블록(B_n,H0)의 픽셀 데이터를 제2 패치(P_n,H1)에 누산하는 단계(157) - 상기 제2 패치는 상기 제1 위치에 있는 고주파수 업스케일링된 비디오 프레임들(H_1,acc)에서의 패치임 -;
상기 저주파수 업스케일링된 비디오 프레임들(L₁)에서 새로운 패치(P_n,L1)를 결정하는 단계, 상기 선택된 패치(P_n,L1)에 가장 잘 매칭되는 블록(B_n,L0)을 상기 저주파수 입력 비디오 프레임들(L₀)에서 검색하는 단계(152, 154), 상기 고주파수 입력 비디오 프레임들(H₀)에서 대응 블록(B_n _, _H0)을 선택하는 단계(155), 및 상기 새로운 패치(P_n,L1)의 위치에 있는 상기 고주파수 업스케일링된 비디오 프레임들(H_1,acc)에서의 패치(P_n,H1)에 상기 선택된 대응 블록(B_n,H0)의 픽셀 데이터를 누산하는 단계(157)를 반복하는 단계(150);
상기 고주파수 업스케일링된 비디오 프레임들(H_1,acc)에서 상기 누산된 픽셀 값들을 정규화하여(190) 정규화된 고주파수 업스케일링된 비디오 프레임들(H₁)을 획득하는 단계; 및
상기 정규화된 고주파수 업스케일링된 비디오 프레임들(H₁) 중 적어도 하나를 상기 저주파수 업스케일링된 비디오 프레임들(L₁) 중 적어도 하나에 합산하여 공간적으로 초해상도화된 비디오 프레임(15, S₁)을 획득하는 단계를 포함하는, 방법.
초해상도화를 수행하는 시스템으로서,
입력 비디오 시퀀스(LR)의 고해상도 저주파수(HRLF) 시공간적 대역들이 내삽에 의해 생성되는 스테이지;
고해상도 고주파수(HRHF) 공간적 대역이 크로스-프레임 공간적 고주파수 외삽에 의해 합성되는 스테이지; 및
이들 2개의 대역을 혼합하여 시공간적으로 초해상도화된 비디오 시퀀스(HR)를 생성하는 스테이지
를 포함하는, 시스템.
저해상도 입력 비디오 프레임 시퀀스에 대해 초해상도화를 수행하는 장치로서,
상기 입력 비디오 프레임 시퀀스(10)의 프레임들을 공간적으로 내삽(103)하여 고해상도 저주파수 시공간적 대역들(15)을 생성하는 공간적 내삽 모듈;
상기 입력 데이터 시퀀스(10)의 비디오 프레임들에 대해 크로스-프레임 공간적 고주파수 외삽(12)을 수행하여 고해상도 고주파수 공간적 대역(16)을 생성하는 공간적 외삽 모듈; 및
상기 고해상도 저주파수 시공간적 대역들(15)과 상기 고해상도 고주파수 공간적 대역(16)을 혼합(13)하여 시공간적으로 초해상도화된 비디오 시퀀스(14)를 획득하는 혼합 모듈
을 포함하는, 장치.
제8항에 있어서, 상기 크로스-프레임 공간적 고주파수 외삽(12)에서, 상기 저주파수 시공간적 대역들(15)의 시간적으로 내삽된 프레임들이 사용되는, 장치.
제9항에 있어서, 상기 저주파수 시공간적 대역들(15)의 시간적으로 내삽된 프레임을 획득하는 모듈을 더 포함하고, 상기 모듈은,
적어도 2개의 입력 프레임(fr1, fr2) 사이의 모션 필드를 생성하는 모션 필드 생성기 모듈;
출력 이미지 버퍼;
출력 이미지의 시간적 위치(τ)를 결정하는 제어 유닛;
상기 2개의 입력 프레임(fr1, fr2) 각각을 오버랩 패치들로 분할하는 분할 모듈;
하나의 또는 양자의 입력 프레임(fr1, fr2)의 패치마다, 상기 결정된 시간적 위치에 따라 모션 벡터(MV1)의 선형 내삽에 의해 상기 출력 이미지에서의 상기 패치의 공간적 위치를 산출하는 선형 보간기;
하나의 또는 양자의 입력 프레임들(fr1, fr2)의 패치마다 상기 결정된 시간적 위치(1-τ)에 따라 가중 팩터를 산출하고 상기 가중 팩터와 현재 패치의 픽셀 값들을 곱하여 각각의 패치의 가중화된 픽셀 값들을 획득하는 가중 팩터 산출기;
상기 출력 이미지 버퍼에서 상기 각각의 패치의 상기 산출된 공간적 위치들에서의 상기 패치들의 가중화된 픽셀 값들을 누산하는 제1 누산기 - 각각의 패치는 상기 산출된 위치에 있는 상기 출력 이미지의 픽셀들에 그의 픽셀들의 가중화된 값들을 기여함 -;
가중 팩터 누산 버퍼(B_w,acc);
상기 가중 팩터 누산 버퍼에서 상기 출력 이미지의 각 픽셀에 기여하는 가중 팩터들을 누산하여 누산된 가중 팩터를 픽셀마다 획득하는 제2 누산기; 및
두 이미지(fr1, fr2)의 모든 패치들이 프로세싱된 후 상기 가중 팩터 누산 버퍼로부터 검색되는 상기 누산된 가중 팩터에 의해 상기 누산된 중간 출력 이미지(403)를 정규화하는 정규화기 모듈을 포함하는, 장치.
제10항에 있어서, IRBM 유닛을 더 포함하고, 상기 모션 필드는 IRBM에 의해 획득되는, 장치.
제8항 내지 제11항 중 어느 한 항에 있어서, 상기 고해상도 저주파수(HRLF) 시공간적 대역들(15)과 상기 고해상도 고주파수(HRHF) 공간적 대역(16)을 혼합(13)하는 상기 혼합 모듈은,
상기 고해상도 고주파수(HRHF) 공간적 대역(16)을 필터링하여 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역을 획득하는 고대역 통과 필터(995); 및
상기 HP-필터링된 고해상도 고주파수(HRHF) 공간적 대역(16)과 상기 고해상도 저주파수(HRLF) 시공간적 대역들(15)을 합산하는 결합기를 포함하는, 장치.
제8항 내지 제12항 중 어느 한 항에 있어서, 상기 입력 비디오 프레임 시퀀스(10)를 공간적으로 내삽(103)하는 상기 공간적 내삽 모듈은,
상기 입력 비디오 프레임 시퀀스(10)의 입력 비디오 프레임들(S₀)을 필터링(170)하여 저주파수 입력 비디오 프레임들(L₀)을 획득하는 제1 저대역 통과 필터(F_l,0)(970);
상기 입력 비디오 프레임들(S₀)과 상기 저주파수 입력 비디오 프레임들(L₀) 사이의 차이를 산출(180)하여 고주파수 입력 비디오 프레임들(H₀)을 생성하는 미분기(980);
상기 입력 비디오 프레임들(S₀)을 업스케일링(120)하는 업스케일러(920) 및 상기 업스케일링된 입력 비디오 프레임들을 필터링(130)하는 제2 저대역 통과 필터(F_l _,1) - 여기서, 저주파수 업스케일링된 비디오 프레임들(L₁)이 획득됨 - ;
제1 위치에 있는 제1 패치(P_n _, _L1)를 상기 저주파수 업스케일링된 비디오 프레임들(L₁)에서 결정하는 프로세싱 모듈;
상기 제1 패치(P_n,L1)와 가장 잘 매칭되는 제1 블록(B_n,L0)을 상기 저주파수 입력 비디오 프레임들(L₀)에서 검색(152, 154)하고, 상기 저주파수 입력 비디오 프레임들(L₀) 내의 상기 제1 블록(B_n,L0)의 위치를 결정하는 검색 유닛(952);
상기 결정된 위치에 있는 상기 고주파수 입력 비디오 프레임들(H₀)에서의 제2 블록(B_n,H0)을 선택(155)하는 선택기(955);
상기 선택된 제2 블록(B_n,H0)의 픽셀 데이터를 제2 패치(P_n,H1)에 누산(157)하는 누산기(957) - 상기 제2 패치는 상기 제1 위치에 있는 고주파수 업스케일링된 비디오 프레임들(H₁ _, _acc)에서의 패치임 -;
상기 검색 유닛(952), 상기 선택기(955), 및 상기 누산기(957) 중 하나 이상을 제어하여 상기 저주파수 업스케일링된 비디오 프레임들(L₁)의 모든 패치들을 프로세싱하는 제어 유닛(950);
상기 고주파수 업스케일링된 비디오 프레임들(H_1,acc)에서 상기 누산된 픽셀 값들을 정규화하여(190) 정규화된 고주파수 업스케일링된 비디오 프레임들(H₁)을 획득하는 정규화 유닛(990); 및
상기 정규화된 고주파수 업스케일링된 비디오 프레임들(H₁) 중 적어도 하나를 상기 저주파수 업스케일링된 비디오 프레임들(L₁) 중 적어도 하나에 합산하여 공간적으로 초해상도화된 비디오 프레임(15, S₁)을 획득하는 결합 유닛(999)을 포함하는, 장치.