KR20110041528A

KR20110041528A - 전체 프레임을 평활화하고 보존된 디테일을 오버레이하여 압축 비디오 신호들의 품질을 개선하기 위한 시스템 및 방법

Info

Publication number: KR20110041528A
Application number: KR1020117003710A
Authority: KR
Inventors: 레오나드 토마스 브루턴; 그레그 랭카스터; 매트 셔우드; 대니 디. 로우
Original assignee: 월드플레이 (바베이도스) 인코포레이션
Priority date: 2008-07-19
Filing date: 2009-07-16
Publication date: 2011-04-21
Also published as: BRPI0916321A2; TW201016011A; CA2731240A1; MX2011000690A; MA32492B1; ZA201100640B; JP2011528825A; EP2319011A4; US20100014777A1; EP2319011A1; CN102099830A; RU2011106324A; WO2010009538A1; AU2009273705A1

Abstract

비디오 신호들을 디블록 및 디테일 영역들로 분리하고, 전체 프레임을 평활화한 다음, 각 평활화된 프레임을 프레임의 보존된 디테일 영역으로 덮어씀으로써, 압축 디지털 비디오 신호들의 품질을 개선하기 위한 시스템들 및 방법들이 개시된다. 디테일 영역은 컴퓨터의 효율을 개선하기 위해서 인접 프레임들에서 이용될 수도 있는 키 프레임들에서만 계산될 수도 있다. 이러한 개선은 키 프레임들에서의 확장된 디테일 영역을 계산함으로써 향상된다. 디테일 이미지가 덮어쓰여지는 평활 캔버스 이미지를 이용하는 개념은, 화가가 먼저 (일반적으로 넓고 큰 붓을 사용하여) 개략의 캔버스에 전체 그림을 그린 다음, (일반적으로 작고 미세한 붓을 사용하여) 필요한 디테일을 그 캔버스 위에 그림을 그리는 것과 유사하다.

Description

전체 프레임을 평활화하고 보존된 디테일을 오버레이하여 압축 비디오 신호들의 품질을 개선하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR IMPROVING THE QUALITY OF COMPRESSED VIDEO SIGNALS BY SMOOTHING THE ENTIRE FRAME AND OVERLAYING PRESERVED DETAIL}

본 발명은 디지털 비디오 신호들에 관한 것으로, 보다 구체적으로, 압축된 비디오 신호들을 디블록(Deblock) 및 디테일(Detail) 영역들로 분리하고, 전체 프레임을 평활화(smoothing)한 다음, 각 평활화된 프레임을 프레임의 보존된 디테일 영역으로 덮어씀으로써, 압축된 디지털 비디오 신호들의 품질을 개선하기 위한 시스템들 및 방법들에 관한 것이다.

비디오 신호들은 텍스트 정보 또는 오디오 신호들을 표시하기 위해 필요한 디지털 데이터량에 비해 대량의 디지털 데이터로 표시된다는 것이 공지되어 있다. 따라서, 디지털 비디오 신호들은, 높은 비트 레이트들로 전송될 때, 및 특히 이들 비트 레이트들이 비디오 디스플레이 디바이스들에 의해 요구되는 실시간 디지털 비디오 신호들에 대응해야만 할 때에는 비교적 큰 대역폭들을 점유한다.

특히, 케이블 또는 섬유(fiber)와 같은 통신 채널들을 통한 다수의 별개의 비디오 신호들의 동시 송신 및 수신은 종종 다양한 통신 채널들에서 이용 가능한 대역폭들을 공유하는 방식으로 이들 비디오 신호들을 주파수-다중화 또는 시간-다중화함으로써 달성된다.

디지털화된 비디오 데이터에는, 일반적으로 국제적으로 협정된 포맷팅 표준들(예를 들어, MPEG2, MPEG4, H264)에 따라 포맷팅된 미디어 파일들에 오디오 및 다른 데이터가 임베딩된다. 이러한 파일들은 일반적으로 인터넷을 통해 분배되고 다중화되며, 컴퓨터들, 휴대폰들, 디지털 비디오 레코더들에 및 콤팩트 디스크들(CD들) 및 디지털 비디오 디스크들(DVD들) 상에 개별적으로 저장된다. 많은 이들 디바이스들은 물리적으로 및 구별되지 않게 단일 디바이스들에 병합된다.

포맷팅된 미디어 파일들을 생성하는 처리에 있어서, 표시를 위해 필요한 디지털 데이터량을 감소시키기 위해서 파일 데이터에는 다양한 레벨들 및 종류들의 디지털 압축이 행해지고, 그렇게 함으로써, 다수의 다른 비디오 파일들과 다중화될 때 신뢰할 수 있는 동시 송신을 위해 필요한 대역폭 및 메모리 저장 요건을 감소시킨다.

인터넷은, 비디오 파일들이 중앙화된 서버로부터 말단 사용자로의 다운로드 송신 동안 많은 상이한 방식들로 및 많은 상이한 채널들(즉, 경로들)을 통해 다중화되는, 비디오 데이터 전달의 특히 복잡한 예를 제공한다. 그러나, 사실상 모든 경우들에 있어서, 소정의 원 디지털 비디오 소스(original digital video source) 및 말단 사용자의 수신되고 디스플레이된 비디오의 소정의 품질에 대해서, 결과적인 비디오 파일은 최소의 가능한 사이즈로 압축되는 것이 바람직하다.

포맷팅된 비디오 파일들은 완벽한 디지털화된 영화를 표시할 수 있다. 영화 파일들은 즉각적인 디스플레이를 위해 및 실시간 시청을 위해 또는 나중에 실시간으로 시청하기 위해 디지털 비디오 레코더들과 같은 말단-사용자 기록 디바이스들에 저장하기 위해 "요구가 있으면" 다운로드될 수도 있다.

따라서, 이들 비디오 파일들의 비디오 성분의 압축은, 송신의 목적들을 위해서, 대역폭을 절약할 뿐만 아니라, 이러한 영화 파일들을 저장하는데 필요한 전체 메모리를 감소시킨다.

상술된 통신 채널들의 수신단에서는, 단일-사용자 컴퓨팅 및 저장 디바이스들이 일반적으로 이용된다. 이러한 단일-사용자 디바이스들의 현재의 명확한 예들은, 일반적으로 말단-사용자의 비디오 디스플레이 디바이스(예를 들어, TV)에 출력-접속되거나, 동선 분배 케이블 라인(즉, 케이블 TV)에 직접적으로 또는 간접적으로 입력부가 접속되는, 개인용 컴퓨터 및 디지털 셋톱 박스 중 하나 또는 둘 다이다. 일반적으로, 이 케이블은 수백개의 실시간 다중화된 디지털 비디오 신호들을 동시에 전송하고, 종종 비디오 프로그래밍의 로컬 분배자로부터의 지상 비디오 신호들을 전달하는 광섬유 케이블에 입력부가 접속된다. 말단-사용자의 위성방송 수신 안테나들이 또한 방송 비디오 신호들을 수신하기 위해 사용된다. 말단-사용자가 지상 케이블 또는 위성을 통해 전달되는 비디오 신호들을 이용하든 안하든, 말단-사용자의 디지털 셋톱 박스들 또는 그에 상당하는 것들은 일반적으로 디지털 비디오 신호들을 수신하고, 시청될 특정 비디오 신호(즉, 소위 TV 채널 또는 TV 프로그램)를 선택하기 위해 사용된다. 이들 전송된 디지털 비디오 신호들은 종종 압축 디지털 포맷들이며, 따라서, 말단-사용자에 의해 수신된 후에 실시간으로 압축 해제(uncompress)되어야 한다.

대부분의 비디오 압축 방법들은 원 압축 해제된 비디오 신호의 디지털 근사화만 유지함으로써 디지털 비디오 데이터량을 감소시킨다. 따라서, 압축 이전의 원 비디오 신호와 압축 해제된 비디오 신호 사이에는 측정 가능한 차이가 존재한다. 이 차이는 비디오 왜곡으로서 규정된다. 소정의 비디오 압축 방법에 있어서, 비디오 왜곡 정도는 압축 비디오 데이터의 데이터량이 그 방법들에 대해 상이한 파라미터들을 선택함으로써 감소되는 만큼 거의 항상 커진다. 즉, 압축 레벨들이 증가함에 따라 비디오 왜곡이 증가하는 경향이 있다.

비디오 압축의 레벨이 증가할 때, 비디오 왜곡은 결국에는 인간 시각 시스템(HVS, human vision system)에 가시적이 되며, 결국 이 왜곡은 선택된 디스플레이 디바이스 상에서의 실시간 비디오의 일반적인 시청자에게 있어서는 시각적으로-불쾌하게 된다. 비디오 왜곡은 소위 비디오 아티팩트들(artifacts)이라고 한다. 비디오 아티팩트는 원 압축 해제된 비디오 장면에는 속하지 않기 때문에 HVS에 의해 해석되는 관찰된 비디오 콘텐트이다.

압축 동안 또는 압축 후에, 압축 비디오로부터 시각적으로-불쾌한 아티팩트들을 상당히 감쇠시키기 위한 방법들이 있다. 이들 방법들 대부분은 블록-기반 2차원(2D) 이산 코사인 변환(DCT, Discrete Cosine Transform) 또는 그와 근사한 것들을 이용하는 압축 방법들에만 적용한다. 다음에서는 이들 방법들을 DCT-기반이라고 언급한다. 이러한 경우들에 있어서, 단연코 가장 시각적으로-불쾌한 아티팩트들은 디스플레이된 비디오 장면에서의 아티팩트 블록들의 출현이다.

일반적으로, 블록들을 탐색하거나 그들이 비디오의 각 프레임에서 어디에 위치되는지의 선험적 지식을 요구함으로써 아티팩트 블록들을 감쇠시키는 방법들이 있다.

시각적으로-불쾌한 아티팩트들의 출현을 감쇠시키는 문제는, 비디오 데이터가 사전에 아마도 한 번 이상 압축되고 압축 해제되었을 경우, 또는 이전에 사이즈가 재설정되었거나, 재-포맷팅되었거나 또는 색이 재-혼합되는, 널리 발생하는 경우에 있어서는 특히 어렵다. 예를 들어, 비디오 데이터는 NTSC 포맷에서 PAL 포맷으로 재-포맷팅되었거나 또는 RGB 포맷에서 YCrCb 포맷으로 변환되었을 수도 있다. 이러한 경우들에 있어서, 아티팩트 블록들의 위치들의 선험적 지식은 거의 확실히 알려져 있지 않으며, 따라서, 이 지식에 의존하는 방법들은 실행되지 않는다.

비디오 아티팩트들의 출현을 감쇠시키기 위한 방법들은 압축 비디오 데이터를 표시하기 위해 필요한 전체 데이터량을 두드러지게 늘려서는 안된다. 이러한 제약은 주요한 설계 도전이다. 예를 들어, 디스플레이된 비디오의 각 프레임에서의 각 픽셀의 3개의 색상들 각각은 일반적으로 8비트로 표시되고, 따라서, 채색 픽셀당 24비트가 된다. 예를 들어, 시각적으로-불쾌한 아티팩트들이 분명히 나타나는 압축의 한계들에 달하면, H264(DCT-기반) 비디오 압축 표준은 그의 낮은 단에서 픽셀당 비트의 약 1/40번째에 대응하는 비디오 데이터의 압축을 달성할 수 있다. 따라서, 이것은 40x24=960 보다 좋은 평균 압축률에 대응한다. 따라서, 이러한 압축률에서, 비디오 아티팩트들을 감쇠시키기 위한 임의의 방법은 픽셀당 비트의 1/40번째에 대해 무의미한 수의 비트들을 부가해야 한다. 픽셀당 비트들의 평균 수가 일반적으로 비트의 1/40번째 이하가 되도록 압축률이 높을 때, 블록 아티팩트들의 출현을 감쇠시키기 위한 방법들이 필요하다.

DCT-기반 및 다른 블록-기반 압축 방법들에 있어서, 가장 심각한 시각적으로-불쾌한 아티팩트들은 비디오 장면의 로컬 공간적-시간적 특징들에 의존하는 방식들로 일반적으로 시간, 사이즈 및 방향이 변하는 작은 직사각형 블록들의 형태이다. 특히, 아티팩트 블록들의 성질은 비디오 장면 내 객체들의 국부적 움직임들 및 그 객체들이 포함하는 공간적 디테일의 양에 의존한다. 특정 비디오에 대해 압축률이 증가될 때, MPEG-기반 DCT-기반 비디오 인코더들은 각 블록 내 픽셀들의 강도들을 나타내는 소위 양자화 기본 함수들에 대해 점차적으로 보다 적은 비트들을 할당한다. 각 블록에 할당되는 비트들의 수는 HVS에 관한 광범위한 심리-시각적 지식(extensive psycho-visual knowledge)에 기초하여 결정된다. 예를 들어, 비디오 객체들의 모양들과 가장자리들 및 그들의 움직임들의 평활-시간적 궤도들은 심리-시각적으로 중요하며, 따라서, 모든 MPEG DCT 기반 방법들에서와 같이, 비트들은 그들의 충실도(fidelity)를 보장하도록 할당되어야 한다.

압축 레벨이 증가하기 때문에, 상술된 정확도를 유지하기 위한 목적으로, (소위 인코더에서의) 압축 방법은 결국에는 각 블록에 대해 일정한 (또는 거의 일정한) 강도를 할당하고, 이것은 보통 가장 시각적으로 불쾌한 블록-아티팩트이다. 아티팩트 블록들이 그들의 바로 이웃하는 블록들보다 비교적 균일한 강도에서 3%이상만큼 다르다면, 이들 블록들을 포함하는 공간 영역은 시각적으로-불쾌하다. 블록-기반 DCT형 방법들을 사용하여 심하게 압축된 비디오 장면들에 있어서, 많은 프레임들의 큰 영역들은 그러한 블록 아티팩트들을 포함한다.

압축 디지털 비디오 신호들을 디블록 및 디테일 영역들로 분리하고, 전체 프레임을 평활화한 다음, 각 평활화된 프레임을 프레임의 보존된 디테일 영역으로 덮어씀으로써, 압축 디지털 비디오 신호들의 품질을 개선하기 위한 시스템들 및 방법들이 개시되어 있다.

일 실시예에서, 이미지 프레임에서 디테일 영역을 구별하여 분리한 다음, 대응하는 캔버스 프레임을 얻기 위해 전체 이미지 프레임을 공간적으로 평활화하는 임의의 적절한 방법을 사용하기 위한 방법이 개시되어 있다. 이어서, 프레임의 분리된 디테일 영역은 대응하는 디블록킹된 이미지 프레임을 얻기 위해 캔버스 프레임과 조합된다.

개시된 실시예들의 이점은, 디테일 영역을 설명하는 경계들의 위치들과 상관없이 평활화 동작들이 완전한 이미지에 적용될 수도 있다는 것이다. 이것은 캔버스 프레임을 얻기 위해 풀-이미지 고속 평활화 알고리즘들이 이용될 수 있도록 한다. 이들 알고리즘들은, 예를 들어, 고속 풀-이미지 고속 푸리에 변환(FFT)-기반 평활화 방법들 또는 저역 통과 평활화 필터들로서 작용하는 광범위하게 이용 가능한 고도로 최적화된 FIR 또는 IIR 코드를 이용할 수 있다.

일 실시예에서, 이미지 프레임은 공간-평활화 전에 공간적으로 다운 샘플링될 수 있다. 이어서, 다운-샘플링된 이미지 프레임은 공간적으로-평활화되고, 결과적인 이미지가 풀 해상도로 업-샘플링되어 프레임의 분리된 디테일 부분들과 조합된다.

또 다른 실시예에서, 디테일 영역은, 예를 들어, 매 네 번째 프레임마다와 같이 키 프레임들에서 결정될 수 있다. 인접 프레임들에서의 객체들의 움직임들이 충분히 낮은 속도들을 갖는다면, 흔히 있는 일이지만, 디테일 영역은 인접한 비-키 프레임들에 대해 식별될 필요가 없을 수도 있고, 가장 가까운 키 프레임의 디테일 영역이 평활화된 캔버스 프레임 상에 덮어 쓰여질 수 있다.

또 다른 실시예에서, 확장된 디테일 영역을 얻기 위해 디테일 영역이 그 경계들 주위로 확장되도록 (또는 성장되도록), 디테일 영역(DET)에 대한 '성장(growing)' 처리가 모든 키 프레임들에 대해 이용된다.

상술된 설명은, 이어지는 상세한 설명이 보다 잘 이해될 수 있도록 하기 위해서 본 발명의 특징들 및 기술적 이점들을 상당히 개략적으로 개괄하였다. 본 발명의 특징들 및 이점들뿐만 아니라 부가적인 방법들이 이하 기술될 것이며, 본 발명의 청구항들의 주제를 이룰 것이다. 개시된 개념 및 특정 실시예는 본 발명의 동일한 목적들을 수행하기 위해 수정되거나 다른 구조들을 설계하기 위한 기초로서 쉽게 이용될 수도 있다는 것이 당업자에게 명백해야 한다. 또한, 이러한 동등한 구성들은 첨부된 청구항들에서 제시되는 것과 같은 본 발명의 정신 및 범위를 벗어나지 않는다는 것이 당업자에게 인식되어야 한다. 추가적인 주제들 및 이점들과 함께 동작의 구성 및 방법 모두에 관해, 본 발명의 특징이 될 것으로 여겨지는 새로운 특징들은 첨부 도면들과 관련하여 고려될 때 이하 상세한 설명으로부터 보다 잘 이해될 것이다. 그러나, 도면들 각각은 예시 및 설명의 목적으로만 제공되며, 본 발명의 한계들을 규정하는 것으로서 의도된 것이 아님이 명백히 이해될 것이다.

본 발명의 보다 완전한 이해를 위해서, 첨부 도면과 함께 이루어지는 이하 상세한 설명이 지금부터 언급된다.

도 1은 일반적인 농담이 고르지 않은 이미지 프레임을 도시하는 도면.
도 2는 (검정으로 나타낸) 디블록 영역들 및 (흰색으로 나타낸) 디테일 영역들로 분리된 도 1의 이미지를 도시하는 도면.
도 3은 프레임에서의 고립된 픽셀들의 선택의 일 예를 도시하는 도면.
도 4는 디블록 기준을 만족하지 않기 때문에 x 픽셀들만큼 떨어져 있고 디테일 영역(DET)에 속하는 후보 픽셀들(C_i)의 클로즈업을 도시하는 도면.
도 5는 9픽셀 십자-마스크를 사용하여 디블록 영역에 블록을 할당하기 위한 방법의 일 실시예를 도시하는 도면.
도 6은 이미지 프레임 내의 특정 위치에서 사용되는 9픽셀 십자-마스크의 예를 도시하는 도면.
도 7은 개선된 비디오 화질을 달성하기 위한 방법의 일 실시예를 도시하는 도면.
도 8 및 도 9는 본원에 기술되는 개념들에 따라 동작하는 방법의 일 실시예를 도시하는 도면.
도 10은 본원에 기술되는 개념들의 사용의 일 실시예를 도시하는 도면.

개시된 실시예의 일 양태는 평탄도 기준 및 불연속성 기준(flatness criteria and discontinuity criteria)을 사용하여 디블록킹을 하기 위한 비디오 신호의 각 프레임에서의 영역을 식별함으로써 실시간 비디오 신호들에서의 블록 아티팩트들의 출현을 감쇠시키는 것이다. 강건성(robustness)을 더욱 개선하기 위해 부가적인 변화도(gradient) 기준이 조합될 수 있다. 이들 개념들을 사용하면, 감소된 파일 사이즈와 연관된 아티팩트들의 시각적 영향들이 감소될 수 있기 때문에, 비디오 파일의 사이즈 (또는 비디오 신호들의 송신에 필요한 비트들의 수)가 감소될 수 있다. 본원에서 논의되는 개념들 중 일부는, 화가가 먼저 (보통 크고 넓은 붓을 사용하여) 공간적으로-평활한 캔버스에 전체 그림을 그린 다음 (보통 작고 미세한 붓으로) 필요한 디테일을 캔버스 위에 그리는 것과 유사하다.

이들 개념들을 수행하기 위한 방법의 일 실시예는 비디오 신호의 이미지 프레임들에 대해 3개의 파트들로 이루어져 있다.

1. 소위 디테일 영역(DET)으로부터 디블록 영역을 구별하는 디블록 영역(DEB)을 식별하기 위한 처리;

2. 디블록 영역에서의 블록 아티팩트들의 출현을 감쇠시킬(평활화할) 목적으로 디블록 영역(DEB)에 적용되는 동작; 및

3. 파트 2에서 얻어진 이제 평활화된 디블록 영역을 디테일 영역과 조합하기 위한 처리.

이 실시예의 방법에서, 공간-평활화 동작은 디블록 영역의 밖에서는 동작하지 않으며, 마찬가지로, 디테일 영역에서도 동작하지 않는다. 본원에 기술되는 바와 같이, 디블록 영역의 밖에서는 평활화가 발생하지 않도록, 공간-평활화 동작이 디블록 영역(DEB)의 경계들에 도달했음을 결정하기 위한 방법들이 이용된다.

사전에 블록-기반형의 비디오 압축(예를 들어, DCT-기반 압축) 및 압축 해제, 및 가능하게는 사이즈-재설정 및/또는 재-포맷팅 및/또는 색 재-혼합이 행해진 비디오 신호들은 일반적으로 이전 압축 동작들 동안 먼저 발생된 블록 아티팩트들의 시각적으로-불쾌한 잔여물들을 포함한다. 따라서, 블록-유도된 아티팩트들의 제거는 마지막 또는 현재 압축 동작에서 생성되는 블록들만의 출현을 감쇠시키는 것으로서는 완전히 달성될 수 없다.

많은 경우들에 있어서, 이들 사전에 생성된 블록들의 위치들에 관한 선험적 정보는 이용 가능하지 않고, 종종 미지의 위치들에서의 블록들은 불쾌한 아티팩트들에 기여한다. 이 방법의 실시예들은 블록들의 위치들의 선험적 지식을 필요로 하지 않는 기준으로 디블록킹될 영역을 식별한다.

일 실시예에서, 강도-평탄도(flatness-of-intensity) 기준 방법이 이용되고, 명확히 개별 블록들의 위치들을 찾거나 식별하는 일 없이 디블록킹될 각 비디오 프레임의 디블록 영역을 식별하기 위해 강도-불연속 기준 및/또는 강도-변화도(intensity-gradient) 기준이 이용된다. 디블록 영역은 일반적으로, 각 프레임에서, 다양한 사이즈들 및 모양들의 많은 접속되지 않은 서브-영역들로 이루어져 있다. 이 방법은 단지 이미지 프레임에서 디블록 영역을 식별하기 위해 이미지 프레임 내의 정보에 의존한다. 이러한 식별 이후에, 이미지 프레임의 나머지 영역은 디테일 영역으로서 규정된다.

비디오 장면들은 비디오 객체들로 이루어져 있다. 이들 객체들은 일반적으로 그들의 강도-가장자리들의 위치들과 움직임들 및 그들의 내부들의 텍스처에 대해 (HVS 및 연관된 신경 응답들에 의해) 구별되고 인식된다. 예를 들어, 도 1은, 실시간으로 디스플레이될 때 대응하는 비디오 클립에서 유사하게 나타나는 시각적으로-불쾌한 블록 아티팩트들을 포함하는 일반적인 이미지 프레임(10)을 도시한다. 일반적으로, 아주 잠깐 동안, HVS는 대응하는 비디오 클립에서 원 객체들을 인지하고 인식한다. 예를 들어, 얼굴 객체(101) 및 눈(14)과 코(15)와 같은 그 서브-객체들은 리본들(13) 및 챙(12)과 같은 서브-객체들을 차례로 포함하는 모자와 함께 HVS에 의해 빠르게 식별된다. HVS는, 매우 작은 디테일을 갖고 그 색 및 매끄러운 음영을 특징으로 하는 피부 텍스처와 같은 얼굴의 크게 드러난 내부를 인식한다.

도 1의 이미지 프레임에서는 분명히 보이지 않지만, 대응하는 전자적으로 디스플레이되는 실시간 비디오 신호에서는 분명히 보여지는 동안, 블록 아티팩트들은 다양한 사이즈들을 갖고, 그들의 위치들은 마지막 압축 동작 동안 생성된 블록들의 위치들로 제한되지 않는다. 마지막 압축 동작 동안 생성되는 블록들만을 감쇠시키는 것은 종종 충분하지 않다.

이 방법은, HVS가, 원 이미지에서 거의 일정한 강도 또는 평활화하게-가변하는 이미지 강도인 이미지의 상대적으로 크게 드러난 영역들에 위치되는 블록 아티팩트들 (및 그들의 연관된 가장자리 강도-불연속들)을 특히 눈치채고 그에 민감한 심리-시각 속성의 이점을 갖는다. 예를 들어, 도 1에서, HVS는 상대적으로 모자의 줄무늬들 사이에 위치되는 임의의 블록 아티팩트들은 눈치채지 못하지만, 얼굴 피부의 크게 드러난 매끄럽게-음영이 진 영역에 나타나는 블록 아티팩트들 및 또한 모자의 챙(의 아래에 있는) 왼쪽 측면의 크게 드러난 영역에서의 블록 아티팩트들을 특히 눈치채고 그에 민감하다.

블록 아티팩트들에 대한 HVS의 민감도의 또 다른 예로서, HVS가 환한 벽과 같이 균일하게-채색된 평탄한 음영 표면의 비디오 이미지를 인지하면, 약 3% 이상의 블록 가장자리 강도-불연속들은 시각적으로-불쾌한 반면에, 잔디의 잎들의 고도로 텍스처된 필드와 같이 고도로 텍스처된 객체의 비디오 이미지에서의 유사한 블록 가장자리 강도-불연속들은 일반적으로 HVS에서는 보이지 않는다. 높은 공간 디테일의 영역들에서보다 큰 드러난 평활-강도 영역들에서 블록들을 감쇠시키는 것이 더 중요하다. 이 방법은 HVS의 이러한 특징을 활용한다.

그러나, 상기 벽이 작은 고립된 영역들을 제외하고 시야로부터 가려진다면, HVS는 또다시 상대적으로 블록 아티팩트들을 눈치채지 못한다. 즉, 평활-강도의 영역들에 위치되더라도, 이들 영역들은 충분히 크지 않기 때문에, HVS는 이들 블록들에 대해 덜 민감하다. 이 방법은 HVS의 이 특징을 활용한다. 적어도 특정 실시예들에서, 이 방법은, 움직임의 속도가 충분히 빠르다면 HVS가 움직이는 객체들과 연관된 블록 아티팩트들을 상대적으로 눈치채지 못한다는 심리-시각 속성을 활용한다.

이미지 프레임에 이 방법을 적용하는 결과로서, 이미지는 적어도 2개의 영역들, 즉, 디블록 영역 및 나머지 디테일 영역으로 분리된다. 방법은, 상기 첫 번째로-식별된 디테일 영역 자체가 제 2 디블록 영역 및 제 2 디테일 영역으로, 및 이와 같이 순환적으로 분리되도록, 계층적으로 적용될 수 있다.

도 2는 (검정색으로 나타낸) 디블록 영역 및 (흰색으로 나타낸) 디테일 영역을 식별하는 결과(20)를 도시한다. 줄무늬들의 상세한 텍스처를 갖는 모자의 오른쪽 영역의 대부분에서와 같이, 눈(14), 코(15) 및 입은 얼굴 객체의 디테일 영역(흰색)에 속한다. 그러나, 모자의 왼쪽의 대부분은 거의 일정한 강도의 영역이고, 따라서, 챙(12)의 가장자리가 뚜렷한 불연속성의 영역이고 디테일 영역의 얇은 선 부분에 대응하는 동안 디블록 영역에 속한다.

다음에 기술되는 바와 같이, 디블록 영역이, HVS가 블록 아티팩트들을 대부분 눈치채고 그에 민감하며, 그에 따라서 디블록될 영역이 되는 영역임을 보장하기 위한 기준이 이용된다. 그때, 디테일 영역은 HVS가 블록 아티팩트들에 대해 특히 민감하지 않은 영역이다. 이 방법에서, 디블록 영역의 디블록킹은 공간 강도-평활화에 의해 달성될 수도 있다. 공간 강도-평활화의 처리는 저역 통과 필터링에 의해 또는 다른 수단에 의해 달성될 수도 있다. 강도-평활화는 평활화될 영역의 소위 고 공간 주파수들을 상당히 감쇠시키고, 그에 의해, 블록 아티팩트들의 가장자리들과 연관되는 강도의 가장자리-불연속성들을 상당히 감쇠시킨다.

이 방법의 일 실시예는 식별된 디블록 영역을 공간적으로-평활화하기 위해 공간적적으로-불변의 저역 통과 필터들을 이용한다. 이러한 필터들은 무한 임펄스 응답(IIR, Infinite Impulse Response) 필터들이나 유한 임펄스 응답(FIR, Finite Impulse Response) 필터들 또는 이러한 필터들의 조합일 수도 있다. 이들 필터들은 일반적으로 저역 통과 필터들이고, 디블록 영역의 소위 고 공간 주파수들을 감쇠시키기 위해 이용되며, 그에 의해, 강도들을 평활화하고 블록 아티팩트들의 출현을 감쇠시킨다.

디블록 영역(DEB) 및 디테일 영역(DET)의 상기 규정들은 둘 중 하나 또는 두 영역들의 추가의 신호 처리를 방해하지 않는다. 특히, 이 방법을 사용하면, DET 영역에는 새로운 영역들(DET1 및 DEB1)로의 추가적인 분리가 행해질 수 있고, 여기서, DEB1은 디블록킹을 위한 제 2 영역이고(DEB1 ∈ DET), 가능하게는 DEB를 디블록킹하기 위해 사용되는 것과는 상이한 디블록킹 방법 또는 상이한 필터를 사용한다. DEB1 및 DET1은 명백히 DET의 서브-영역들이다.

디블록 영역(DEB)을 식별하는 것은 종종 실시간으로 비디오를 상영하는 능력을 갖는 식별 알고리즘을 필요로 한다. 이러한 응용들에 있어서, 높은 레벨들의 연산 복잡도(예를 들어, 초당 다수의 곱셈-누적 동작들(MAC들)을 이용하는 식별 알고리즘들)는 비교적 적은 MACs/s를 이용하는 식별 알고리즘들 및 정수들에서 동작하는 간단한 논리 명령문들보다 덜 바람직하게 되는 경향이 있다. 이 방법의 실시예들은 비교적 적은 MACs/s를 사용한다. 유사하게, 이 방법의 실시예들은 오프-칩 메모리로의 및 오프-칩 메모리 밖으로의 대량의 데이터의 교환이 최소화되는 것을 보장한다. 이 방법의 일 실시예에서, 영역(DEB) (및 그에 따라 영역(DET))을 결정하기 위한 식별 알고리즘은, 심하게 압축된 비디오 칩들에서의 대부분의 시각적으로-불쾌한 블록들이 그들의 내부들 전체에 걸쳐 거의-일정한 강도를 갖는다는 점을 활용한다.

이 방법의 일 실시예에서, 디블록 영역(DEB)의 식별은 프레임에서 후보 영역들(C_i)을 선택함으로써 개시된다. 일 실시예에서, 이들 영역들(C_i)은 공간적 사이즈에서 하나의 픽셀만큼 작다. 다른 실시예들은 사이즈에서 하나의 픽셀보다 큰 후보 영역들(C_i)을 사용할 수도 있다. 각 후보 영역(C_i)은 기준의 세트에 의해 그 주위의 인접 영역에 대해 검사되고, 기준이 충족된다면, C_i가 이미지 프레임의 디블록 영역(DEB)에 속하는 것으로서 분류되도록 한다. C_i가 디블록 영역에 속하지 않는다면, 디테일 영역(DET)에 속하도록 설정된다. 이것은 모든 C_i의 집합이 DEB와 동일하다는 것을 의미하지 않고 단지 DEB의 서브-세트를 형성한다는 것을 주의해야 한다.

이 방법의 일 실시예에서, C_i가 디블록 영역(DEB)에 속하는지의 여부를 결정하기 위해 사용되는 기준의 세트는 다음과 같이 분류될 수도 있다.

a. 강도-평탄도 기준(F),

b. 불연속성 기준(D) 및

c. 내다보기/돌아보기(Look-Ahead/Look-Behind) 기준(L).

상기 기준 (또는 임의의 유용한 조합)이 만족되면, 후보 영역들(C_i)은 디블록 영역에 할당된다(즉, C_i ∈ DEB). 만족되지 않으면, 후보 영역(C_i)은 디테일 영역(DET)에 할당된다(즉, C_i ∈ DET). 특정 비디오 클립을 디블록킹할 때와 같은 특정 구현에서, 모든 세 종류들(F, D 및 L)의 기준이 필요하지 않을 수도 있다. 또한, 이들 기준은 이미지 프레임의 로컬 속성들에 기초하여 적응될 수도 있다. 이러한 로컬 속성들은 통계적일 수도 있거나, 또는 압축 및 압축 해제 처리들의 일부로서 사용되는 양자화 파라미터들 또는 움직임 파라미터들과 같은 인코더/디코더-관련 속성들일 수도 있다.

이 방법의 일 실시예에서, 후보 영역들(C_i)은, 계산 효율의 이유들로 인해, 이미지 프레임에서 띄엄띄엄-분포(sparsely-distributed)되도록 선택된다. 이것은 각 프레임에서 후보 영역들(C_i)의 수를 상당히 감소시키는 효과를 갖고, 그에 의해, 알고리즘 복잡도를 감소시키고 알고리즘의 스루풋(즉, 속도)을 증가시킨다.

도 3은, 프레임의 작은 영역에 대해서, 기준에 대해 도 1의 이미지 프레임을 검사하기 위해 이용될 수 있는, 선택된 띄엄띄엄-분포된 픽셀들을 도시한다. 도 3에서, 픽셀들(31-1 내지 31-6)은 수평 및 수직 방향들 모두에서 그들의 이웃들로부터 7개의 픽셀들만큼 떨어져 있다. 이들 픽셀들은 원 이미지의 픽셀들의 수의 거의 1/64번째를 차지하고, 이는 디블록 영역을 식별하기 위해 사용되는 임의의 화소-기반 알고리즘이 각 프레임에서의 픽셀들의 수의 1/64번째에서만 동작하는 하는 것을 의미하고, 그에 의해, 매 픽셀마다 기준을 검사하는 방법들에 대한 스루풋을 증가시키고 복잡도를 감소시킨다.

이 예시적인 예에서, 도 1에 대한 디블록킹 기준을 도 3의 띄엄띄엄-분포된 후보 영역에 적용하는 것은, 도 4에 도시된 바와 같이, 대응하는 띄엄띄엄-분포된 C_i ∈ DEB의 결과를 가져온다.

이 방법의 일 실시예에서, 전체 디블록 영역(DEB)은 상술된 띄엄띄엄-분포된 후보 영역들(C_i ∈ DEB)로부터 주변 영역들로 '성장'된다.

도 2에서의 디블록 영역의 식별은, 예를 들어, N을 7개의 픽셀들로 설정함으로써 도 4에서 띄엄띄엄-분포된 C_i로부터 '성장'되고, 그에 의해, 후보 영역 픽셀들(C_i)의 띄엄띄엄-분포는, 더욱 연속하여 접속되는 속성을 갖는 도 2에서의 훨씬 큰 디블록 영역으로 성장한다.

상기 성장 처리는 전체 디블록 영역(DEB)을 형성하기 위해 띄엄띄엄-분포된 C_i ∈ DEB를 공간적으로 접속한다.

이 방법의 일 실시예에서, 상기 성장 처리는 가장 가까운 후보 영역 픽셀(C_i)로부터의 픽셀의 수평 또는 수직 거리들인 적절한 거리 메트릭에 기초하여 수행된다. 예를 들어, 수직 및 수평 방향들에서 7픽셀들 만큼 떨어져서 선택된 후보 영역 픽셀들(C_i)에 대해서, 결과적인 디블록 영역은 도 2에 도시되어 있는 것과 같다.

하나의 개선안으로서, 디테일 영역(DET)을 미리 결정된 디블록 영역(DEB)으로 확장하기 위해서 디테일 영역(DET)에 성장 처리가 적용된다. 이것은 공간적으로 불변하는 저역 통과 평활화 필터들의 십자-마스크가 원 디테일 영역에서 돌출되는 것을 방지하기 위해 사용될 수 있고, 그에 의해, 원하지 않는 '후광(halo)' 효과들의 가능한 생성을 피하게 된다. 그렇게 함으로써, 디테일 영역은 감쇠되지 않은 블록들 또는 그 일부분들을 그의 확장된 경계들에 포함할 수도 있다. 이것은, 디테일 영역들에 근접한 그러한 블록 아티팩트들에 대한 HVS의 상대적인 무감각 때문에, 실질적인 문제가 아니다. 확장된 디테일 영역들을 사용하는 이점은, 높은 속도들을 갖는 움직이는 객체들을 더욱 효과적으로 커버하도록 함으로써, 키 프레임들이 임의의 소정의 비디오 신호에 대해 더 멀리 떨어져 있을 수 있도록 할 수 있다는 것이다. 이것은 차례로 스루풋을 개선하고 복잡도를 감소시킨다.

대안적인 거리 메트릭들이 이용될 수도 있다. 예를 들어, 후보 영역들(C_i)에서 중심에 있는 소정의 반경의 원들 내의 이미지 프레임의 모든 영역들에 대응하는 메트릭이 이용될 수도 있다.

상기 또는 다른 성장 처리들에 의해 얻어지는 디블록 영역은 디블록킹될 이미지 프레임의 일부를 둘러싸는(즉, 공간적으로 커버하는) 속성을 갖는다.

상기 성장 처리를 공식화하면, 전체 디블록 영역(DEB)(또는 전체 디테일 영역(DET))은, 주위의 성장된 영역(G_i)에 의해, (기준 C_i ∈ DEB 또는 C_i ∈ DET를 충족하는) 각 후보 영역(C_i)을 둘러쌈으로써 결정될 수 있고, 그로써, 전체 디블록 영역(DEB)(또는 전체 디테일 영역(DET))은 모든 C_i 및 모든 G_i의 합집합이다.

동등하게, 전체 디블록 영역은 논리적으로 다음과 같이 쓸 수 있다.

여기서, ∪는 영역들의 합집합이고, DET는 단순히 이미지 프레임의 나머지 부분들이다. 대안적으로, 다음 수식에 따라, (

를 사용하여) 한정하는 후보 영역들로부터 전체 디테일 영역(DET)이 결정될 수도 있다.

성장된 주변 영역들(G_i)(도 3의 32-1 내지 32-N)이 충분히 크다면, 그들은 이미지 프레임의 확대된 구역들에 걸쳐 인접한 디블록 영역(DEB)을 생성하는 것과 같은 방식으로 겹쳐지거나 접촉되도록 배열될 수도 있다.

이 방법의 일 실시예가 도 5에 도시되어 있으며, 디블록 영역 또는 디테일 영역(DET)에 할당될 후보 영역 픽셀들(C_i)을 식별하기 위한 9-픽셀 십자-마스크를 이용한다. 이 실시예에서, 후보 영역들(C_i)은 1x1 픽셀들(즉, 단일 픽셀)의 사이즈가다. 십자-마스크의 중심(픽셀 51)은 픽셀 x(r,c)에 있고, 여기서, (r,c)는 일반적으로 강도(x)가 x∈[0,1,2,3,...,255]로 주어지는 픽셀의 행 및 열 위치를 나타낸다. 이 실시예에서, 십자-마스크는 +(십자)를 형성하는 서로 직각인 2개의 단일 픽셀-폭 선들로 이루어진다는 것을 유념해야 한다. 소망한다면, 이 "십자"의 임의의 방향이 사용될 수 있다.

도 5에서는 8개의 독립적인 평탄도 기준이 ax, bx, cx, dx, ay, by, cy 및 dy로서 라벨링되어 있고, 8개의 대응하는 픽셀 위치들에 적용된다. 이하, 불연속성(즉, 강도-변화도) 기준이 십자-마스크(52) 내에 및 선택적으로는 십자-마스크(52) 외부에 적용된다.

도 6은 이미지 프레임(60) 내의 특정 위치에서 사용된 9픽셀 십자-마스크(52)의 예를 도시한다. 십자-마스크(52)는 특정 위치에 대해 도시되어 있으며, 일반적으로, 이미지 프레임에서의 다수의 위치들에서 기준에 대해 검사된다. 이미지 프레임(60)의 위치(61)와 같이 특정 위치에 대해, 십자-마스크(52)의 중심 및 8개의 강도-평탄도 기준(ax, bx, cx, dx, ay, by, cy 및 dy)이 기준에 대해 적용된다.

이들 8개의 평탄도 기준에 대해 사용되는 특정 식별 알고리즘들은 당업자들에게 공지되어 있는 것들 중 하나일 수 있다. 8개의 평탄도 기준은 논리적 표기인 ax∈F, bx∈F, ..., dy∈F로 씀으로써 만족된다. 충족되면, 대응하는 영역은 어떤 강도-평탄도 기준이 이용되었든 그에 따라 '충분히-평탄'하다.

각 후보 픽셀(x(r,c))에 대한 전체 평탄도 기준이 만족되었는지의 여부를 결정하기 위해 다음의 예시적인 논리 조건이 사용될 수도 있다.

만일

(ax∈F 및 bx∈F) 또는 (cx∈F 및 dx∈F) (1)

및

(ay∈F 및 by∈F) 또는 (cy∈F 및 dy∈F) (2)

그렇다면

C_i∈평탄.

마찬가지로, 상기 불(Boolean) 표현은 다음의 3개의 조건들 중 적어도 하나에 따라 표현 C_i∈평탄의 참의 결과를 가져온다.

a) 십자-마스크(52)는 완전히 충분히-평탄한 강도인 9-픽셀 영역 위에 놓이고, 그에 따라, 52가 완전히 블록의 내부에 놓이는 충분히-평탄한 영역들을 포함함

또는

b) 십자-마스크(52)는 4개의 위치들, 즉, (r+1,c) 또는 (r+2,c) 또는 (r-1,c) 또는 (r-2,c) 중 하나의 위치에서 불연속성 위에 놓이고, 나머지 3개의 위치들에서 평탄도 기준이 만족됨

또는

c) 십자-마스크(52)는 4개의 위치들, 즉, (r,c+1) 또는 (r,c+2) 또는 (r,c-1) 또는 (r,c-2) 중 하나의 위치에서 불연속성 위에 놓이고, 나머지 3개의 위치들에서 평탄도 기준이 만족됨.

상술된 처리에서, 후보 픽셀들을 식별하기 위해 필요한 것처럼, 십자-마스크(52)는, 표현 C_i∈평탄의 참을 유지하면서, 그들의 위치들과는 무관하게, 블록들의 불연속성 경계들 또는 블록들의 일부분들을 공간적으로 커버한다.

상기 논리의 보다 상세한 설명은 다음과 같다. (1) 및 (2)에서 모든 괄호 안의 표현들이 참일 때, 조건 a)는 참이다. b)에서 주어진 위치들 중 하나의 위치에 불연속성이 존재한다고 가정하자. 그러면, 괄호 안의 표현들 중 하나가 참이기 때문에, 표현 (2)는 참이다. c)에서 주어진 위치들 중 하나의 위치에 불연속성이 존재한다고 가정하자. 그러면, 괄호 안의 표현들 중 하나가 참이기 때문에, 표현 (1)은 참이다.

상기 불 논리를 사용하면, 그 위치와는 무관하게, 블록의 경계들 또는 블록의 일부분을 그리는 불연속성들을 십자-마스크(52)가 가로지를 때 평탄도 기준이 충족된다.

(후보 픽셀들(C_i)에 적용되는) 평탄도 기준(F)을 결정하기 위한 특정 알고리즘의 이용은 이 방법에 있어서는 중대하지는 않다. 그러나, 높은 스루풋 능력을 달성하기 위해서, 한가지 예시적인 알고리즘은, ax, bx, cx, dx, ay, by, cy 및 dy에 대한 간단한 수학적 평탄도 기준, 즉, 말로서 설명하면 '수평으로 인접한 및 수직으로 인접한 픽셀들간의 강도들의 제 1-포워드 차이의 크기(magnitude)'를 이용한다. 예를 들어, 2D 시퀀스 x(r,c)의 수직 방향에서의 제 1-포워드 차이는 간단히 x(r+1,c)-x(r,c)이다.

상술된 평탄도 기준은 가끔 비디오 신호마다 매 프레임의 매 영역에서 적절히 영역(DEB)을 식별하기에 충분하지 않다. 이제, 상기 평탄도 조건 C_i∈평탄이 C_i에서 후보 픽셀에 대해 충족된다고 가정하자. 그때, 이 방법에서, 압축 이전 및 이후에, 블록의 경계 아티팩트의 일부인 불연속성 및 원 이미지에 존재하는 소망의 디테일에 속하는 비-아티팩트 불연속성간의 구별을 개선하기 위해 크기-불연속성 조건(D)이 이용될 수도 있다.

크기-불연속성 기준 방법은 불연속성이 블록킹의 아티팩트로 가정되는 단순한 문턱값(D)을 설정한다. 강도 x에 관하여 C_i에서 픽셀 x(r,c)(61)를 써보면, 크기 불연속성 기준은 다음의 형태이고,

dx < D

여기서, dx는 십자-마스크(52)의 중심(r,c)에서의 강도의 불연속성의 크기가다.

필요한 D의 값은, 차례로 디코더 및 인코더로부터 얻어질 수 있거나 또는 공지된 압축 파일 사이즈로부터 추정될 수 있는, 압축 알고리즘의 인트라-프레임 양자화 단계 사이즈로부터 추론될 수 있다. 이 방식에서, D와 같거나 큰 원 이미지에서의 전이들은 블록킹 아티팩트들의 경계들에 대해 잘못 눈치채지 않으며, 그에 의해, 잘못되게 디블록킹된다. 이 조건과 평탄도 조건의 조합은 보다 엄중한 조건을 제공한다.

광범위한 상이한 종류들의 비디오 장면들에 걸쳐 블록 아티팩트들의 만족스러운 감쇠를 산출하기 위해 x(r,c)의 강도 범위의 10% 내지 20%로 범위가 정해지는 D에 대한 값들이 발견되었다.

C_i∈평탄 및 dx<D

비-아티팩트 불연속성들은 원 압축 해제된 이미지 프레임에 있기 때문에, (디블록킹되지 않아야 하는) 비-아티팩트 불연속성들이 거의 확실히 존재할 것이다. 이러한 비-아티팩트 불연속성들은, dx<D를 만족할 수도 있고, 또한, 상기 기준에 따라, 주위 영역이 C_i∈평탄을 야기하고, 그에 의해, 상기 기준을 충족하는 그러한 불연속성들을 이끌어내어 디블록킹을 위해 잘못 분류되도록 함으로써 잘못 평활화되는 경우에 존재할 수도 있다. 그러나, 이러한 비-아티팩트 불연속성들은 고도로 로컬화되는 이미지 디테일들에 대응한다. 실험들은 이러한 잘못된 디블록킹이 일반적으로 HVS에 대해 불쾌하지 않다는 것을 입증하였다. 그러나, 이러한 드문 경우들의 잘못된 디블록킹의 가능성을 상당히 감소시키기 위해서, 이 방법의 다음의 내다보기(LA) 및 돌아보기(LB) 실시예가 이용될 수도 있다.

특정 비디오 이미지 프레임들에서, 원 비디오 프레임에서의 필요한 원 디테일이 상기 로컬 평탄도 및 로컬 불연속성 조건들 모두를 충족하고, 그로써, 잘못 식별될 수도 있는(즉, 잘못된 디블록킹 및 잘못된 평활화가 행해지는), 특별한 수적인 조건들의 세트가 존재할 수도 있다는 것이 실험적으로 발견되었다. 마찬가지로, C_i의 작은 부분이 DET 대신 DEB에 잘못 할당될 수 있다. 이의 예로서, (압축 해제된 원 이미지 프레임에서) 객체의 가장자리에서의 수직-방향의 강도 전이는 디블록킹을 위한 평탄도 조건들 및 불연속성 조건들 모두를 충족할 수 있다. 이것은 가끔 디스플레이된 대응하는 실시간 비디오 신호에 시각적으로-불쾌한 아티팩트들을 유발할 수 있다.

다음의 LA 및 LB 기준은 선택적이고 상기 특별한 수적인 조건들을 다룬다. 그들은 십자-마스크(52)로부터 십자-마스크(52)의 외부에 적절히 위치된 위치들까지의 이미지의 강도의 변경을 측정함으로써 그렇게 행한다.

상기 기준 C_i∈평탄 및 dx<D가 충족되고 또한 '내다보기(LA)' 문턱값 기준 또는 '돌아보기(LB)' 문턱값 기준(L)을 초과하면, 후보 픽셀(C_i)은 디블록 영역에 할당되지 않는다. 도함수들의 크기들에 대해서, LA 및 LB 기준의 일 실시예는 다음과 같다.

만약

(dxA≥L) 또는 (dxB≥L) 또는 (dxC≥L) 또는 (dxD≥L)

이면,

상기에서, (dxA≥L)과 같은 항들은 단순히, 이 경우에는 픽셀(A)의 위치 밖에 있는 위치(r,c)로부터 측정되는 것과 같은 LA 크기-변화도의 크기 또는 변경 기준(dx)이 문턱값 숫자(L)보다 크거나 같다는 것을 의미한다. 다른 3개의 항들은 비슷한 의미들을 갖지만 위치들(B, C 및 D)에서의 픽셀들에 대한 것이다.

상기 LA 및 LB 기준의 효과는, L 또는 그 이상의 강도-크기 변경의 특정 간격 내에서 디블록킹이 발생할 수 없다는 것을 보장하는 것이다.

이들 LA 및 LB 제약들은 잘못된 디블록킹의 가능성을 감소시키는 소망의 효과를 갖는다. LA 및 LB 제약들은 또한, 평탄도 및 불연속성 기준과는 무관하게, 강도 변화도의 크기가 높은 가까운 이웃들에 있는 영역들에서의 원하지 않는 디블록킹을 방지하기에 충분하다.

C_i에서의 픽셀을 디블록 영역(DEB)에 할당하기 위해서, 상기 기준의 3개의 세트들을 조합함으로써 얻어지는 조합된 기준의 실시예가 다음과 같은 예시적인 기준을 표현될 수 있다.

만약

C_i∈평탄 및 x<D 및 ((dxA<L 및 dxB<L 및 dxC<L 및 dxD<L))

이면

C_i∈DEB

이 방법의 실시예에 따라서, 상기의 참은 쇼트 인티저들(short integers)에 대한 빠른 논리 동작들을 이용하여 하드웨어적으로 결정될 수도 있다. 상이한 종류들의 많은 비디오들에 걸친 상기 기준의 평가는 디블록 영역들(DEB)(및 그에 의해 보완적인 디테일 영역들(DET))을 적절히 식별할 때 그 강건성이 확인되었다.

많은 이전에-처리된 비디오들은 '스프레드-아웃(spread-out)' 블록 가장자리-불연속성들을 갖는다. 시각적으로-불쾌한 경우에, 스프레드-아웃 블록 가장자리-불연속성들은 수직 및/또는 수평 방향들에서 하나 이상의 픽셀을 가로지른다. 이것은, 다음의 예에서 설명되는 바와 같이, 디블록 영역에 대한 블록 가장자리-불연속성들의 부정확한 분류를 야기할 수 있다.

예를 들어, 기준 불연속성 문턱값(D=30)에 대해 x(r,c)=100으로부터 x(r,c+1)=140에서 발생하는, C_i∈평탄을 만족하는 평탄-강도 영역들을 분리시키는 크기 40의 수평 1-픽셀-폭 불연속성을 고려하자. 불연속성은, 픽셀(x(r,c))이 디블록 영역(DEB)에 속하지 않음을 의미하는, 40 크기가고 이것은 D를 초과한다. x(r,c)=100으로부터 x(r,c+1)=120으로 x(r,c+2)=140으로의 스프레드-아웃 불연속성이라면, 크기 40의 이 동일한 불연속성이 어떻게 분류되는지를 고려하자. 이 경우에, (r,c) 및 x(r,c+1)에서의 불연속성들은 각각 크기 20이고, 그들은 D의 값을 초과하지 않기 때문에, 이것은 잘못된 디블록킹이 발생하도록 한다. 즉, x(r,c) 및 x(r,c+1) 모두는 디블록 영역(DEB)에 잘못 할당될 수 있다.

유사한 스프레드-아웃 가장자리 불연속성들이 수직 방향에 존재할 수도 있다.

일반적으로, 몇몇 심하게-압축된 비디오 신호들에서 3픽셀들을 가로지르는 것이 또한 발견되었다고 할지라도, 이러한 스프레드-아웃 불연속성들은 2픽셀들을 가로지른다.

스프레드-아웃 가장자리-불연속성들을 정확하게 분류하기 위한 이 방법의 일 실시예는, 식별을 위해 사용될 수도 있는 상기 9-픽셀 십자-마스크(52)의 확장된 버전을 이용하고, 그에 의해, 스프레드-아웃 불연속성 경계들을 디블록킹하는 것이다. 예를 들어, 도 5의 9-픽셀 십자-마스크(52)에서 식별된 모든 후보 영역들은 1 픽셀 사이즈가지만, 유사한 논리를 이용하여, 전체 십자-마스크가 공간적으로-확장될(즉, 신장될) 수 없을 이유는 없다. 따라서, ax, bx, ... 등은 2픽셀들 만큼 떨어져 있으며, 2x2 픽셀들의 중심 영역을 둘러싼다. 상기 조합된 픽셀-레벨 디블록 조건은 실제로 여전하고, 다음의 세 가지 조건들 중 적어도 하나의 조건에 따라 C_i∈평탄이 되도록 설계된다.

d) 십자-마스크(52)(M)는 전체적으로 충분히-평탄한 강도인 20-픽셀 영역 위에 놓이고, 따라서, M이 전체적으로 블록의 내부에 놓이는 충분히-평탄한 영역들을 포함함

또는

e) 십자-마스크(52)는 4개의 1x2 픽셀 위치들인, (r+2:r+3,c) 또는 (r+4:r+5,c) 또는 (r-2:r-1,c) 또는 (r-4:r-3,c) 중 하나의 위치에서 2-픽셀 폭 불연속성 위에 놓이고, 나머지 3개의 위치들에서는 평탄도 기준을 만족함

또는

f) 십자-마스크(52)는 4개의 2x1 픽셀 위치들인, (r,c+2:c+3) 또는 (r,c+4:c+5) 또는 (r,c-2:c-1) 또는 (r,c-4:c-3) 중 하나의 위치에서 2-픽셀 폭 불연속성 위에 놓이고, 나머지 3개의 위치들에서 평탄도 기준을 만족함

이 방식에서, 요구되는 바와 같이, 표현 C_i∈평탄의 참을 유지하면서, 그들의 위치들과는 무관하게, 십자-마스크(M)는 1-픽셀-폭 경계들 및 블록들의 스프레드-아웃 2-픽셀-폭 경계들을 커버할 수 있다. 20-픽셀 십자-마스크에 필요한 연산들의 최소 수는 9-픽셀 버전에 대한 것과 동일하다.

상기 평탄도 및 불연속성 기준이 결정될 수도 있는 디테일들의 많은 변형들이 있다. 예를 들어, '평탄도'에 대한 기준은, 분산, 평균 및 표준 편차와 같은 통계적 측정치들, 및 일반적으로 부가적인 연산 비용 및 낮은 스루풋을 갖는 아웃라이어(outlier) 값들의 제거를 포함할 수 있다. 마찬가지로, 한정하는 불연속성들은 완전한 변경들보다는 아주 작은 강도 변경들을 수반할 수도 있고, 십자-마스크들(M)은 불연속성들이 두 방향들에서 여러 픽셀들에 걸쳐 퍼질 수 있도록 확장될 수 있다.

상기 기준의 특정 변형은 완전한 변경들보다는 아주 작은 강도 변경들과 관련된다. 이것은 HVS가 아주 작은 강도 변경들에 대해 거의 선형적인 방식으로 응답한다는 것이 공지되어 있기 때문에 중요하다. 아주 작은 변경들에 적응시키고, 그에 의해, 특히 이미지 프레임의 어두운 영역들에서 디블록킹의 인지를 개선하기 위한 상기 방법의 다수의 수정들이 있다. 그들은 다음을 포함한다.

i. 후보 픽셀(C_i)처럼 이미지 강도(x(r,c))를 평탄도 및 불연속성 기준에 직접 적용하는 대신, 전반적으로 강도의 로그(C_i=log_b(x(r,c)))가 사용되고, 여기서, 베이스 b는 10 또는 자연 지수 e=2.718...일 수 있다.

또는

ii. 강도 차이들의 크기들을 직접 이용하는 대신, 아주 작은 차이들이 평탄도, 불연속성들, 내다보기 및 돌아보기에 대한 기준의 모두 또는 일부로서 직접 사용된다. 예를 들어, 평탄도 기준은,

에서의 절대 강도 문턱값(e)으로부터

형태의 상대 문턱값(e_R)과 같은 상대 강도 항을 포함하는 문턱값으로 수정될 수도 있으며, 여기서, 부록의 예에서, 우리는 e=3, 및 x(r,c)에 의해 추정될 수 있는 최대 강도인 I_MAX=255를 사용하였다.

후보 영역들(C_i)은, 언더-샘플링으로 인해 대부분의 블록 아티팩트들의 경계들을 빠뜨리지 않는 이미지 프레임의 2D 공간을 충분히-밀집하여 샘플링하여야 한다. 블록-기반 압축 알고리즘들이 대부분의 블록들의 대부분의 경계들이 양 방향들에서 적어도 4 픽셀들만큼 분리되는 것을 보장하는 것으로 주어지면, 이 방법은 거의 모든 블록 경계 불연속성들을 빠뜨리지 않고 각 방향에서 4픽셀들의 간격들로 이미지 공간을 서브-샘플링하는 것이 가능하다. 실제로 각 방향에서 8픽셀들까지 작용하는 것을 발견하였다. 이것은 연산 오버헤드를 상당히 감소시킨다. 예를 들어, 각 방향에서의 4만큼의 서브-샘플링은 디블록 영역에 속하는 접속되지 않은 지점들의 세트를 유발한다. 이 방법의 실시예는 이러한 서브-샘플링을 이용한다.

후보 픽셀들이 양 방향들에서 L 픽셀들만큼 떨어져 있다고 가정하자. 그러면, LxL 정사각 블록들로 모든 후보 픽셀들을 둘러쌈으로써 얻어지는 영역과 같이, 디블록 영역은 띄엄띄엄-분포된 후보 픽셀들로부터 규정될 수도 있다. 이것은 효율적인 알고리즘과 함께 구현하기가 쉽다.

디블록 영역들이 식별되면, 농담이 고르지 않은 시각적으로-불쾌한 인지를 감쇠시키기 위해서 디블록 영역에 적용될 수 있는 매우 다양한 디블록킹 전략들이 있다. 한가지 방법은, 예를 들어, 공간적으로-불변하는 저역 통과 IIR 필터들 또는 공간적으로-불변하는 저역 통과 FIR 필터들 또는 FFT-기반 저역 통과 필터들을 사용함으로써, 디블록 영역에 평활화 동작을 적용하는 것이다.

이 방법의 일 실시예는 평활화 동작 이전에 원 이미지 프레임들을 다운 샘플링하는 것에 이어서 평활화 이후에 원 해상도로 업 샘플링한다. 평활화 동작이 더 작은 수의 픽셀들에 걸쳐 발생하기 때문에, 이 실시예는 더 빠른 전체 평활화를 달성한다. 이것은, 평활화 동작이 훨씬 작고(즉, 다운-샘플링된) 인접하는 이미지에 적용되기 때문에, 더 적은 메모리의 사용 및 더 작은 초당 곱셈 누적 동작들(MACs/s)의 결과를 가져온다.

순환적 이동 평균(즉, 박스) 2D 필터와 같은 특정 필터들을 제외하면, 2D FIR 필터들은 수행에 필요한 평활화 레벨에 따라 증가하는 연산 복잡도를 갖는다. 이러한 FIR 평활화 필터들은 평활화 레벨에 거의 비례하는 다수의 MACs/s를 필요로 한다.

(예를 들어, 양자화 파라미터 q>40을 갖는) 심하게-압축된 비디오들은 일반적으로, 픽셀당 적어도 11번의 덧셈들 및 10번까지의 곱셈들에 대응하는, 충분한 평활화 효과들을 달성하기 위해 11 보다 큰 차수의 FIR 필터들을 필요로 한다. 일반적으로 차수 2의 훨씬 낮은 차수의 IIR 필터들에 의해 유사한 레벨의 평활화가 달성될 수 있다. 이 방법의 일 실시예는 디블록 영역을 평활화하기 위한 IIR 필터들을 이용한다.

평활화를 위한 또 다른 방법은, 디테일 영역을 겹치지 않도록 필터들의 십자-마스크가 공간 위치의 함수로서 변경되는 방식으로, 평활화 필터들이 공간적으로-변화되는(즉, 공간-적응되는) 것을 제외하고는 상기 기술된 것과 유사하다. 이 방법에서, 필터의 차수 (및 그에 따라 십자-마스크 사이즈)는 디테일 영역의 경계에 가까워짐에 따라 적응적으로 감소된다.

비록 연산 비용이 증가함에도 불구하고, 십자-마스크 사이즈는 또한 필요한 평활화 레벨을 달성하기 위해 로컬 통계치에 기초하여 적응될 수도 있다. 이 방법은, 필터들의 응답이 디테일 영역을 덮어쓸 수(그에 의해 왜곡될 수) 없거나 디테일 영역의 가장자리들 주위에서 원하지 않는 '후광' 효과를 초래하도록 작은 디테일 영역들을 가로질러 관통할 수 없는 방식으로, 공간적으로-가변하는 평활화 레벨들을 이용한다.

이 방법의 추가의 개선안은, DET가 그 경계들 주위로 확장되도록, 모든 키 프레임들에 대해 상기 a)에서 디테일 영역(DET)에 '성장' 처리를 적용한다. 본원에 개시된 것과 같이, 경계들을 확장시키기 위해, 성장을 위해 사용되는 방법이 사용될 수도 있거나, 또는 다른 방법들이 당업자에게 공지되어 있다. 프레임들의 캔버스 이미지들(CAN)을 덮어쓰는, 인접한 이미지 프레임들에 대한 디테일 영역으로서 결과적인 확장된 디테일 영역(EXPDET)이 이 추가의 개선안에 사용된다. 이것은, 키 프레임들에서 디테일 영역(DET)(및 그 확장(EXPDET))을 식별하기 위해서만 필요하기 때문에, 스루풋을 증가시키고 연산 복잡도를 감소시킨다. DET 대신 EXPDET를 사용하는 것의 이점은 EXPDET가 DET에 의해 커버될 수 있는 것보다 높은 속도들을 갖는 움직이는 객체들을 더욱 효과적으로 커버하는 것이다. 이것은 키 프레임들로 하여금 소정의 비디오 신호에 대해 보다 멀리 떨어져 위치될 수 있도록 하며, 그에 의해, 스루풋을 개선하고 복잡도를 감소시킨다.

이 방법에서, 디테일 영역(DET)은 공간적으로 커버하기 위해 경계들에서 확장될 수도 있고, 그에 의해, 디블록 영역을 디블록킹하기 위해 사용된 평활화 동작에 의해 초래되는 가시적인 임의의 '후광' 효과를 일으킨다.

이 방법의 실시예에서, 공간적으로-가변하는 2D 순환적 이동 평균 필터(즉, 소위 2D 박스 필터)가 이용되며, 이는 2D 차수(L₁,L₂)의 빠른 순환적 2D FIR 필터링을 용이하게 하는 다음과 같은 2D Z 변환 전환 함수들을 갖는다.

대응하는 2D 순환적 FIR 입력-출력 차이 방정식은 다음과 같고,

여기서, y는 출력이고 x는 입력이다. 이 실시예는, 산술 복잡도가 낮고 평활화 레벨이 독립적이라는 이점을 갖는다.

방법의 특정 예에서, 차수 파라미터들(L₁,L₂)은 공간적으로-가변된다(즉, 상기 2D FIR 이동 평균 필터의 공간성은 평활화 필터들의 응답과 디테일 영역(DET)의 중첩을 피하도록 적응된다).

도 7은 본원에 개시된 개념들을 사용하여 개선된 비디오 화질을 달성하기 위한, 방법(70)과 같은, 방법의 일 실시예를 도시한다. 이 방법을 실시하기 위한 한가지 시스템은, 예를 들어, 아마도 도 10의 처리기(102-1 및/또는 104-1)의 제어 하에서, 도 8에 도시된 시스템(800)에서 작동하는 소프트웨어, 펌웨어 또는 ASIC에 의해 행해질 수 있다. 처리(701)는 디블록 영역을 결정한다. 처리(702)에 의해 결정되는 것과 같이, 모든 디블록 영역들이 발견되면, 처리(703)는 모든 디블록 영역들 및 함축적으로는 모든 디테일 영역들을 식별할 수 있다.

이어서, 처리(704)는 평활화를 시작할 수 있고, 그에 따라, 처리(705)는 N번째 디블록 영역의 경계에 언제 도달되었는지를 결정하고, 처리(706)가 N번째 영역의 평활화가 언제 완료되었는지를 결정하도록 한다. 처리(708)는 값 N에 1씩 더하여 영역들에 색인을 만들고, 처리(707)가 모든 디블록 영역들이 평활화되었음을 결정할 때까지, 처리들(704 내지 707)을 계속한다. 이어서, 처리(709)는, 개선된 이미지 프레임이 되도록, 평활화된 디블록 영역들과 각각의 디테일 영역들을 조합한다. 이들 동작들은 원한다면 병행하여 수행될 수 있기 때문에, 조합 처리를 시작하기 전에 모든 디블록 영역들이 평활화될 때까지 기다릴 필요는 없다는 것을 유념해야 한다.

도 8 및 도 9는 본원에 개시된 개념들에 따라 동작하는 방법의 일 실시예를 도시한다. 비디오 프레임이 제 1 디블록(또는 디테일) 영역을 결정하는 처리(801)에 있을 때, 처리(800)가 시작된다. 처리들(802 및 803)이, 모든 디블록(또는 디테일) 영역들이 결정되었음을 결정할 때, 처리(804)는 디테일 영역들을 보존한다. 선택적인 처리(805)는 비디오 프레임을 다운-샘플링하고, 처리(806)는 다운-샘플링되었든 그렇지 않든 전체 프레임을 평활화한다. 평활화 동작은 훨씬 작고(즉, 다운-샘플링된) 인접한 이미지에 적용되기 때문에, 프레임의 다운-샘플링은 보다 적은 메모리 및 보다 적은 MACs/s의 사용을 가져온다. 이것은 또한 평활화를 위해 요구되는 처리를 줄이고, 그에 의해, 전체 연산 효율을 개선하는 결과를 가져온다.

프레임이 다운-샘플링되었다면, 처리(807)는 프레임을 풀 해상도로 업-샘플링하고, 이어서, 처리(808)는 평활화된 프레임을 보존된 디테일 영역들로 덮어쓴다.

추가의 실시예와 관련하여, 도 9의 처리(900)에 대해 논의되는 바와 같이, 디테일 영역은, 예를 들어, 매 네 번째 프레임에서와 같이, 디테일 영역이 키 프레임들에서만 결정된다. 이것은 또한 방법의 전체 연산 효율을 상당히 개선시킨다. 따라서, 도 9에 도시된 바와 같이, 인접 프레임들에서의 객체들의 움직임들이 충분히 낮은 속도들을 갖는 비디오 장면들에서, 흔히 있는 일이지만, 디테일 영역은 인접한 비-키 프레임들의 그룹들에 대해 식별되지 않고, 대신, 가장 가까운 키 프레임의 디테일 영역이 캔버스 프레임에 덮어쓰여진다. 따라서, 처리(901)는 비디오 프레임들을 수신하고, 처리(902)는 매 N번째 프레임을 식별한다. 숫자 N은 때때로 변할 수 있고, 원한다면, 비디오 이미지에서 관련 움직임 또는 다른 인자들에 의해 제어된다. 처리(910)는 N의 선택을 제어할 수 있다.

처리(903)는 매 N번째 프레임의 평활화를 수행하고, 이어서, 처리(904)는 N 프레임들을 하나의 프레임으로부터 보존된 디테일들로 대체한다. 이어서, 처리(905)는 저장 또는 디스플레이를 위한 개선된 비디오 프레임들을 원하는 만큼 분배한다.

또 다른 추가의 실시예에서, 모든 키 프레임들에 대한 디테일 영역(DET)에 '성장' 처리가 적용되어, 디테일 영역이 그 경계들 주위에서 가장자리로 확장되도록 함으로써, 확장된 디테일 영역(EXPDET)이 발생되도록 한다. 확장된 디테일 영역(EXPDET)을 사용하는 이점은, 고속의 움직이는 객체들을 보다 효과적으로 커버함으로써, 키 프레임들이 임의의 소정의 비디오 신호에 대해 더 멀리 떨어져 위치될 수 있도록 한다는 것이다. 차례로, 이것은 또한 스루풋을 개선하고, 복잡도를 감소시킨다.

상술된 '성장'을 위한 방법 또는 상술된 보다 계획적인 방법 중 하나가 본 발명의 실시예들에 사용될 수도 있다. 그러나, 성장 방법이 사용될 때, 결과적인 확장된 디테일 영역(EXPDET)은, 프레임들의 캔버스 이미지들을 덮어쓰는, 인접 이미지 프레임들에 대한 디테일 영역의 위치에서 사용될 수 있다. 이것은, 매 프레임 대신 키 프레임들에서 디테일 영역(DET)(및 그 확장(EXPDET))을 식별할 수 있기 때문에, 스루풋을 증가시키고 연산 복잡도를 감소시킬 수 있다. DET 대신 EXPDET를 사용하는 한가지 이점은, EXPDET가 DET에 의해 커버될 수 있는 것보다 속도가 빠른 움직이는 객체들을 보다 효율적으로 커버하는 것이다. 이것은 키 프레임들이 소정의 비디오 신호에 대해 보다 멀리 떨어져 위치될 수 있도록 하며, 그에 의해, 스루풋을 개선하고 복잡도를 감소시킨다.

캔버스 방법은, DET 영역들의 경계들에 가까울 경우, 비-키 프레임들에서의 일부 블록 아티팩트들을 감쇠시키지 못할 수도 있다. 이것은, 키 프레임으로부터의 DET(또는 사용된다면, EXPDET)가 비-키 프레임들에서의 참의 DET 영역과 정확히 정렬하지 못할 수도 있기 때문이다. 그러나, 비-키 프레임들에서의 DET 또는 EXPDET 영역들의 경계들에서의 이들 감쇠되지 않은 블록들은 다음과 같은 이유 때문에 일반적으로 시각적으로-불쾌하지 않다.

1. HVS는 디테일 영역(DET)의 경계들에 가깝게 놓이는 유사한 블록들을 눈치채는 것보다 이미지 프레임의 비교적 큰 개방하여 접속된 영역들에서 발생하는 블록 아티팩트들에 보다 민감하다(즉, 더 잘 눈치채는). 이러한 HVS의 한계는 일반적인 시청자에게 심리-시각적 감쇠 실시간 효과를 제공한다.

2. 대부분의 비디오 프레임들에 대한 대부분의 객체들의 인터-프레임 움직임은, 키 프레임(프레임 n)의 디테일 영역(DET)이 n-1, n-2, n-3, n+1, n+2, n+3과 같은 인접한 비-키 프레임들에서 커버하는 것과 매우 유사한 프레임의 영역을 커버하는 것을 충분히 낮게 하며, 이는 객체들의 움직임이 원 비디오 신호에서 시간적으로-평활하기 때문이다.

3. 상기 1.에서의 심리-시각적 감쇠 효과는 움직임이 있는 디테일 영역(DET)의 일부분들의 부근에서 특히 명백하며, 또한, 그 움직임의 속도가 높을수록 HVS는 영역(DET)에 가깝게 놓이는 블록들에 덜 민감하다. 이것은 HVS가 일반적으로 고속으로 움직이는 객체들의 경계들을 둘러싸는 블록 아티팩트들을 눈치채지 않은 HVS의 심리-시각적 속성이다.

실험들은, 일반적으로, 프레임당 10 픽셀들보다 많지 않은 속도들에 대응하는 움직임 벡터들을 갖는 프레임 시퀀스들에 대해서, 키 프레임들은 적어도 원 비디오 시퀀스의 매 4개의 프레임들에 대해 하나의 키 프레임인 것과 같이 드물 수도 있는 것으로 확인되었다. 또한, 다운-샘플링된 이미지 프레임에 적용될 때, 캔버스 프레임을 얻기 위한 평활화가 낮은 공간적 해상도에서 발생할 수도 있다는 것을 기억해야 한다.

다운 샘플링된 이미지의 디블록킹은 일반적으로 원 공간 해상도의 1/16번째 또는 1/64번째에서, 및 풀 공간적-시간적 해상도의 캔버스 이미지를 얻기 위해 원 이미지를 평활화하는 것에 대해, 64x4=256까지의 인자의 연산 절약들을 나타내는, 원 시간적 해상도의 1/4보다 낮은 해상도에서 이루어질 수도 있다. 이들 공간적-시간적 다운 샘플링 개선들의 단점은 공간적 업-샘플링의 필요성 및 높은 움직임 객체들에 대한 가시적인 블록 아티팩트들의 가능성이다. 후자의 단점은 공간적 및 시간적 다운 샘플링의 정도를 적응시키기 위해 움직임 벡터 정보를 사용함으로써 제거될 수도 있다.

도 10은 본원에 개시된 개념들을 사용하는 일 실시예(100)를 도시한다. 시스템(100)에서, 비디오(및 오디오)가 입력으로서 제공된다(101). 이 비디오는 도시되어 있지는 않지만 로컬 저장소로부터 올 수 있거나, 또는 또 다른 위치로부터의 비디오 데이터 스트림(들)으로부터 수신된다. 이 비디오는, 생방송 스트림 또는 비디오 파일을 통해서와 같이 많은 형태들로 도착할 수 있고, 인코더(102)에 의해 수신되기 전에 선-압축될 수도 있다. 인코더(102)는, 본원에서 논의된 처리들을 사용하여, 처리기(102-1)의 제어 하에서 비디오 프레임들을 처리한다. 인코더(102)의 출력은 (도시되지 않은) 파일 저장 디바이스에 대해 이루어질 수 있거나, 또는 아마도 네트워크(103)를 통해 디코더(104)와 같은 디코더에 비디오 스트림으로서 전달된다.

하나 이상의 비디오 스트림이 디코더(104)에 전달되면, 본원에서 논의된 처리들에 따라 디코딩하기 위해 디지털 스트림의 다양한 채널들이 튜너(104-2)에 의해 선택될 수 있다. 처리기(104-1)는 디코딩을 제어하고, 디코딩된 출력 비디오 스트림은 저장소(105)에 저장될 수 있거나 또는 하나 이상의 디스플레이들(106)에 의해 디스플레이될 수 있거나, 또는 원한다면 (도시되지 않은) 다른 위치들로 분산될 수 있다. 다양한 비디오 채널들은 인코더(102)로부터와 같은 단일 위치로부터, 또는 도시되지 않은 상이한 위치들로부터 전송될 수 있다. 디코더로부터 인코더로의 송신은 송신 미디어에 대한 대역폭을 아끼면서 유선 또는 무선 송신을 사용하여 임의의 공지된 방식으로 수행될 수 있다.

본 발명 및 그 이점들이 상세히 기술되었지만, 첨부된 청구항들에 의해 규정되는 것과 같은 본 발명의 정신 및 범위로부터 벗어나지 않고 다양한 변경들, 대체들 및 대안들이 본원에서 이루어질 수 있다는 것을 유념해야 한다. 또한, 본원의 범위는 상세한 설명에 기술된 처리, 기계, 제조, 물질의 구성, 수단, 방법들 및 단계들의 특정 실시예들로 제한되는 것으로 의도된 것은 아니다. 당업자들이 본 발명의 개시로부터 쉽게 인식할 수 있는 바와 같이, 실질적으로 동일한 기능을 수행하거나 본원에 기술된 대응하는 실시예들과 실질적으로 동일한 결과를 달성하는 현존하는 또는 추후 개발될 처리들, 기계들, 제조, 물질의 구성들, 수단, 방법들 또는 단계들은 본 발명에 따라 이용될 수도 있다. 따라서, 첨부된 청구항들은 그 범위 내에서 그러한 처리들, 기계들, 제조, 물질의 구성들, 수단, 방법들 또는 단계들을 포함하는 것으로 의도된다.

10 : 이미지 프레임 31-1 내지 31-6 : 픽셀
52 : 십자-마스크 102 : 인코더
103 : 네트워크 104 : 디코더
105 : 저장소 106 : 디스플레이

Claims

이미지 프레임으로부터 아티팩트들(artifacts)을 제거하기 위한 방법으로서, 상기 아티팩트들은 HVS에 시각적으로 지장(visually disruptive)을 주는, 상기 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법에 있어서:
각 이미지 프레임의 디지털 표시의 디테일 영역을 유지되는 이미지 프레임으로 결정하는 단계;
상기 결정된 각 디테일 영역을 유지하는 단계;
상기 각 이미지 프레임에 대응하는 평활화된(smoothed) 프레임들을 생성하기 위해 상기 각 이미지 프레임의 전체의 원 디지털 표시를 평활화하는 단계; 및
상기 각 평활화된 이미지 프레임을 상기 유지된 이미지 프레임으로 덮어쓰는 단계를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
강도-평탄도(intensity-flatness); 불연속성(discontinuity); 내다보기(look-ahead); 돌아보기(look-behind)의 기준 중 적어도 하나가 상기 디테일 영역을 결정하기 위해 사용되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 2 항에 있어서,
상기 기준의 파라미터들은, 아티팩트 블록들의 위치들이 선험적으로 알려지지 않은 압축된 이미지 프레임들에 대해 아티팩트 감쇠가 발생하도록 선택되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 3 항에 있어서,
상기 아티팩트 블록들은, 사전에 압축된 다수의 횟수들; 재-포맷팅된 이미지 프레임들; 색-혼합된 이미지 프레임들; 사이즈가 재설정된 이미지 프레임들 중 하나 이상으로 인해, 상기 압축된 비디오 프레임들에서 발생하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 3 항에 있어서,
상기 강도-평탄도 기준은 로컬 변수 및 강도들의 로컬 평균을 포함하는 통계적 측정치들을 이용하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 3 항에 있어서,
강도 변경 기준은 강도의 아주 적은 변경들에 기초하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 2 항에 있어서,
상기 평활화는 블록들 및 다른 아티팩트들을 감쇠시키는 것을 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 유지하고 평활화하고 조합하는 단계는 DCT-기반 인코더 내에서 발생하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 8 항에 있어서,
상기 평활화는 FIR 필터들 및 IIR 필터들 중 적어도 하나를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 9 항에 있어서,
상기 필터들은 공간적으로-가변하거나 또는 공간적으로-불변하는 것 중 하나일 수 있는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 11 항에 있어서,
상기 평활화는 적어도 하나의 이동 평균 FIR 2D 박스 필터를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 결정하는 단계는:
후보 영역들을 선택하는 단계; 및
선택된 후보 영역 단위로 선택된 후보에 대해, 선택된 후보 영역이 특정 기준에 따라 상기 디테일 영역에 속하는지의 여부를 결정하는 단계를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 12 항에 있어서,
상기 후보 영역들은 각 이미지 프레임에서 띄엄띄엄 위치되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
각각 복수의 디지털 비디오 프레임들을 갖는 복수의 디지털 비디오 스트림들을 디바이스에서 수신하는 단계를 더 포함하고,
상기 얻는 단계는, 상기 디바이스에서 상기 수신된 디지털 비디오 스트림들 중 하나를 선택하는 단계를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 평활화하는 단계는 평활화 이전에 상기 이미지 프레임을 다운-샘플링하는 단계를 포함하는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 15 항에 있어서,
상기 다운-샘플링된 이미지는 공간적으로-평활화되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 16 항에 있어서,
상기 평활화된 이미지는 상기 조합 이전에 풀 해상도를 얻기 위해 업-샘플링되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 디테일 영역은 인접한 프레임들의 디테일 영역들을 커버하도록 그 경계들을 넘어서 확장되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 18 항에 있어서,
상기 확장된 디테일 영역은 적어도 N개의 프레임들만큼 떨어져 있는 비-인접 키 프레임들에서만 결정되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 19 항에 있어서,
상기 N은 적어도 4개의 프레임들인, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 19 항에 있어서,
상기 키 프레임들로부터의 상기 디테일 영역은 비-키 프레임들로부터의 디테일 영역 대신 인접한 상기 비-키 프레임들에서 사용되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 디테일 영역은 적어도 N개의 프레임들만큼 떨어져 있는 비-인접 키 프레임들에서만 결정되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 22 항에 있어서,
상기 N은 적어도 4개의 프레임들인, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 22 항에 있어서,
상기 키-프레임들로부터의 상기 디테일 영역은 비-키 프레임들로부터의 디테일 영역 대신 인접한 상기 비-키 프레임들에서 사용되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
제 1 항에 있어서,
상기 디테일 영역의 검출을 개선하기 위해 상기 이미지 프레임을 압축하는데 사용되는 압축 처리로부터 부가 정보를 사용하는 단계를 더 포함하고, 상기 부가 정보는, 움직임 벡터들, 양자화 단계 사이즈들, 및 블록들의 위치들의 목록으로부터 선택되는, 이미지 프레임으로부터 아티팩트들을 제거하기 위한 방법.
비디오를 표시하기 위한 시스템에 있어서:
픽셀당 특정 수의 비트들을 갖는 제 1 비디오 프레임을 얻기 위한 입력으로서, 상기 특정 수는, 상기 비디오 프레임이 디스플레이에 표시될 때, 상기 디스플레이가 인간 시각 시스템(HVS)에 인지 가능한 아티팩트들을 산출하도록 하는 것인, 상기 입력; 및
상기 제 1 비디오 프레임으로부터 제 2 비디오 프레임을 생성하기 위한 회로로서, 상기 제 2 비디오 프레임은, 상기 제 2 비디오 프레임이 상기 디스플레이에 표시될 때 상기 HVS에 덜 인지되는 아티팩트들을 산출하는, 상기 회로를 포함하고,
상기 회로는:
각 이미지 프레임의 디지털 표시의 디테일 영역을 유지되는 이미지 프레임으로 결정하고 유지하고;
상기 각 이미지 프레임에 대응하는 평활화된 프레임들을 생성하기 위해 상기 각 이미지 프레임의 전체의 원 디지털 표시를 평활화하고;
상기 각 평활화된 이미지 프레임을 상기 각 유지된 이미지 프레임으로 덮어쓰는 기능들을 수행하기 위한 처리기를 포함하는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
사용자로 하여금 복수의 디지털 비디오 스트림들 중 하나를 선택할 수 있도록 하기 위한 튜너로서, 상기 각 비디오 스트림은 복수의 디지털 비디오 프레임들을 포함하는, 상기 튜너를 더 포함하는, 비디오를 표시하기 위한 시스템.
제 27 항에 있어서,
상기 결정 수단은, 상기 디블록 영역을 결정하기 위한 다음의 기준, 강도-평탄도, 불연속성, 내다보기, 돌아보기 중 적어도 하나를 사용하여 처리하는 것을 포함하는, 비디오를 표시하기 위한 시스템.
제 28 항에 있어서,
상기 기준의 파라미터들은, 아티팩트 블록들의 위치들이 선험적으로 알려져 있지 않은 압축된 이미지 프레임들에 대해 아티팩트 감쇠가 발생하도록 선택되는, 비디오를 표시하기 위한 시스템.
제 29 항에 있어서,
상기 아티팩트 블록들은, 사전에 압축된 다수의 횟수들; 재-포맷팅된 이미지 프레임들; 색-혼합된 이미지 프레임들; 사이즈가 재설정된 이미지 프레임들 중 하나 이상으로 인해 상기 압축된 비디오 프레임들에서 발생하는, 비디오를 표시하기 위한 시스템.
제 30 항에 있어서,
상기 강도-평탄도 기준은 로컬 변수 및 강도들의 로컬 평균을 포함하는 통계적 측정치들을 이용하는, 비디오를 표시하기 위한 시스템.
제 30 항에 있어서,
상기 강도 변경 기준은 강도의 아주 적은 변경들에 기초하는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
상기 처리기는 DCT-기반 인코더의 일부인, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
상기 결정 수단은:
후보 영역들을 선택하기 위한 수단; 및
선택된 후보 영역 단위로 선택된 후보에 대해, 선택된 후보 영역이 특정 기준에 따라 상기 디테일 영역에 속하는지의 여부를 결정하기 위한 수단을 포함하는, 비디오를 표시하기 위한 시스템.
제 34 항에 있어서,
상기 후보 영역들은 각 이미지 프레임에서 띄엄띄엄 위치되는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
상기 평활화는 평활화 이전에 상기 이미지 프레임을 다운-샘플링하는 것을 포함하는, 비디오를 표시하기 위한 시스템.
제 36 항에 있어서,
상기 다운-샘플링된 이미지는 공간적으로-평활화되는, 비디오를 표시하기 위한 시스템.
제 36 항에 있어서,
상기 조합 이전에 풀 해상도를 얻기 위해 상기 평활화된 이미지를 업-샘플링하기 위한 수단을 더 포함하는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
인접한 프레임들의 디테일 영역들을 커버하도록 그 경계들을 넘어서 상기 디테일 영역을 확장하기 위한 수단을 더 포함하는, 비디오를 표시하기 위한 시스템.
제 39 항에 있어서,
상기 확장된 디테일 영역은 적어도 N개의 프레임들만큼 떨어져 있는 비-인접 키 프레임들에서만 결정되는, 비디오를 표시하기 위한 시스템.
제 40 항에 있어서,
상기 N은 적어도 4개의 프레임들인, 비디오를 표시하기 위한 시스템.
제 40 항에 있어서,
상기 키 프레임들로부터의 상기 디테일 영역은 비-키 프레임들로부터의 디테일 영역 대신 인접한 상기 비-키프레임들에서 사용되는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
상기 디테일 영역은 적어도 N개의 프레임들만큼 떨어져 있는 비-인접 키 프레임들에서만 결정되는, 비디오를 표시하기 위한 시스템.
제 43 항에 있어서,
상기 N은 적어도 4개의 프레임들인, 비디오를 표시하기 위한 시스템.
제 43 항에 있어서,
상기 키 프레임들로부터의 상기 디테일 영역은 비-키 프레임들로부터의 디테일 영역 대신 인접한 상기 비-키 프레임들에서 사용되는, 비디오를 표시하기 위한 시스템.
제 26 항에 있어서,
상기 디테일 영역의 검출을 개선하기 위해 상기 이미지 프레임을 압축하는데 사용되는 압축 처리로부터의 부가 정보를 사용하기 위한 수단을 더 포함하고, 상기 부가 정보는, 움직임 벡터들, 양자화 단계 사이즈들 및 블록들의 위치들의 목록으로부터 선택되는, 비디오를 표시하기 위한 시스템.
비디오를 표시하는 방법에 있어서:
픽셀 당 특정 수의 비트들을 갖는 제 1 비디오 프레임을 얻는 단계로서, 상기 특정 수는, 상기 비디오 프레임이 디스플레이에 표시될 때, 상기 디스플레이가 인간 시각 시스템(HVS)에 인지 가능한 아티팩트들을 산출하도록 하는, 상기 제 1 비디오 프레임을 얻는 단계; 및
상기 제 1 비디오 프레임으로부터 제 2 비디오 프레임을 생성하는 단계로서, 상기 제 2 비디오 프레임은 상기 제 2 비디오 프레임이 상기 디스플레이에 표시될 때 상기 HVS에 덜 인지되는 아티팩트들을 산출하는, 상기 제 2 비디오 프레임을 생성하는 단계를 포함하고,
상기 제 2 비디오 프레임을 생성하는 단계는,
상기 각 프레임 내에서 디테일 영역들을 결정하는 단계;
상기 결정된 디테일 영역들을 보존하는 단계;
상기 각 프레임의 전체를 평활화하는 단계; 및
상기 각 평활화된 프레임을 상기 각 보존된 디테일 영역과 조합하는 단계를 포함하는, 비디오를 표시하는 방법.
제 47 항에 있어서,
상기 조합하는 단계는, 상기 각 평활화된 프레임을 상기 보존된 디테일 영역으로 덮어쓰는 단계를 포함하는, 비디오를 표시하는 방법.
제 48 항에 있어서,
디바이스에서 복수의 디지털 비디오 스트림들을 수신하는 단계로서, 상기 각 스트림은 복수의 상기 디지털 비디오 프레임들을 갖는, 상기 복수의 디지털 비디오 스트림들을 수신하는 단계를 더 포함하고,
상기 제 1 비디오 프레임을 얻는 단계는, 상기 디바이스에서 상기 수신된 디지털 비디오 스트림들 중 하나를 선택하는 단계를 포함하는, 비디오를 표시하는 방법.
제 49 항에 있어서,
상기 평활화하는 단계는, 평활화 이전에 상기 이미지 프레임을 다운-샘플링하는 단계를 포함하는, 비디오를 표시하는 방법.
제 50 항에 있어서,
상기 다운-샘플링된 이미지는 공간적으로-평활화되는, 비디오를 표시하는 방법.
제 50 항에 있어서,
상기 평활화된 이미지는 상기 조합 이전에 풀 해상도를 얻기 위해 업-샘플링되는, 비디오를 표시하는 방법.