KR101622450B1

KR101622450B1 - 변환을 이용하는 비디오 인코딩 및 디코딩

Info

Publication number: KR101622450B1
Application number: KR1020137021515A
Authority: KR
Inventors: 마르타 므라크; 안드레아 가브리엘리니; 니콜라 스프리얀; 데이비드 플린
Original assignee: 브리티쉬브로드캐스팅코퍼레이션
Priority date: 2011-06-27
Filing date: 2012-06-19
Publication date: 2016-05-18
Also published as: KR20140027932A; TW201320751A; GB2492333A; JP2014523175A; EP3026911A1; PL2652954T3; WO2013001279A3; CN103404141B; JP6063935B2; CN105847815B; US8923406B2; US20140056362A1; TWI516095B; CN105847815A; JP6328220B2; EP2652954B1; JP2017098975A; WO2013001278A1; GB201110873D0; WO2013001279A2

Abstract

블록의 행들 및 열들에 작용하는 공간적 변환을 이용하는 비디오 인코딩 또는 디코딩은, 행들 및 열들에 대한 변환; 행들만에 대한 변환; 열들만에 대한 변환; 무변환을 포함하는 변환 스킵 모드들의 집합을 수반한다. 선탠된 모드의 지시자는 디코더에 제공된다. 변환되지 않은 이미지 값들을 변환된 계수들과 동일한 레벨로 가져오기 위하여 스킵된 변환의 변환 벡터의 놈(norm)에 의존하는 팩터에 의해 계수들이 스케일링된다.

Description

변환을 이용하는 비디오 인코딩 및 디코딩{VIDEO ENCODING AND DECODING USING TRANSFORMS}

본 발명은 비디오 압축(compression) 및 압축 해제(decompression) 시스템들에 관한 것으로, 특히 스케일링(scaling), 양자화(quantisation), 스캐닝(scanning) 및 시그널링(signalling)을 포함하는 변환 기능들 및 관련 도구들의 적응적인 사용에 의한, 예측 및 엔트로피 코딩 간 적응적인 모델 신호 표현에 대한 프레임워크에 관한 것이다.

비디오 시퀀스들의 전송 및 저장은 예컨대 TV 방송들, 인터넷 비디오 스트리밍 서비스들 및 비디오 회의와 같은 여러 응용에서 채택된다.

로우 포맷(raw format)의 비디오 시퀀스들은 표현되기 위하여 매우 많은 양의 데이터를 필요로 하며, 이는 시퀀스의 각 초(second)가 수십개의 개별적인 프레임들로 구성되고 각 프레임은 전형적으로 픽셀 당 적어도 8 비트에 의해 표현되기 때문인데, 각 프레임은 수백 또는 수천개의 픽셀들을 필요로 한다. 전송 및 저장 비용을 최소화하기 위하여 로우 비디오 데이터에는 비디오 압축이 이용된다. 그 목표는 가능한 적은 용량(capacity)으로, 다시 말해서 가능한 적은 비트로 원본(original) 정보를 표현하는 것이다. 비디오 시퀀스를 표현하기 위하여 필요한 용량의 감소는 압축된 시퀀스의 비디오 품질, 다시 말해서 원본의 압축되지 않은 비디오 시퀀스에 대한 그것의 유사성에 영향을 미칠 것이다.

AVC/H.264와 같은 최근의 비디오 인코더들은 압축된 비디오 시퀀스의 비디오 품질의 바람직한 레벨을 달성함과 동시에 비디오 암축의 최대 레벨을 달성하기 위하여 4개의 주요 프로세스들, 즉 예측, 변환, 양자화 및 엔트로피 코딩을 사용한다. 예측 프로세스는 데이터를 표현하기 위하여 필요한 용량을 크게 감소시키기 위하여 비디오 시퀀스들에서 발견되는 시간적, 공간적 리던던시(redundancy)를 이용한다. 데이터를 예측하기 위하여 이용되는 해당 메커니즘은 인코더 및 디코더 모두에 알려져 있으며, 그에 따라 원본 신호를 재구성하기 위하여 오직 오류 신호, 또는 잔여(residual)만이 디코더로 송신된다. 이 프로세서는 전형적으로 전체 프레임들 보다는 데이터의 블록들(예컨대, 8x8 픽셀들)에 대하여 수행된다. 예측은 전형적으로 이미 재구성된 프레임들 또는 동일한 프레임에 속하는 재구성된 픽셀들의 블록들에 대해서 수행된다.

변환 프로세스는 잔여 신호들 내에 존재하는 상관(correlation)을 이용하는 것을 목적으로 한다. 그것은 신호의 에너지를 소수의 계수들로 집중시킴으로서 수행된다. 그에 따라 변환 계수들은 표현되기 위해 전형적으로 잔여 신호의 픽셀들보다 적은 수의 비트를 필요로 한다. H.264는 이산 코사인 변환(Discrete Cosine Transform, DCT)에 기초하는 4x4 및 8x8 정수 타입 변환들을 이용한다.

변환 프로세스의 출력에서 데이터를 나타내기 위하여 요구되는 용량은 많은 응용들에 대하여 여전히 너무 높을 수 있다. 게다가, 압축된 신호에 대한 용량의 바람직한 레벨을 달성하기 위하여 변환 프로세스를 수정하는 것은 불가능하다. 신호를 나타내기 위하여 필요한 용량의 더 많은 감소를 허용함으로써, 양자화 프로세스는 그것을 처리한다. 이 프로세스는 파괴적(destructive)이라는 점, 즉 재구성된 시퀀스는 원본과 다르게 보일 것이라는 점이 주지되어야 한다.

엔트로피 코딩 프로세스는 모든 0이 아닌 양자화된 변환 계수들 및 프로세스들이 비트들의 스트림으로 효율적으로 표현되도록 한다. 이는 압축된 비디오 시퀀스를 나타내기 위하여 필요한 용량을 최소화하기 위하여 특정한 순서로 변환 계수들을 읽는 것, 즉 스캐닝하는 것을 필요로 한다.

위 기술은 비디오 인코더에 적용된다. 비디오 디코더는 위의 모든 프로세스들을 대략 역순으로 수행할 것이다. 특히, 디코더 측에서의 변환 프로세스는 인코더에서 이용된 변환의 역(inverse)의 사용을 필요로 할 것이다. 유사하게, 엔트로피 코딩은 엔트로피 디코딩이 되고 양자화 프로세스는 역 스케일링(inverse scaling)이 된다. 예측 프로세스는 인코더 및 디코더 모두에서 동일하게 정확한 방식으로 전형적으로 수행된다.

본 발명은 코딩의 변환 부분에 관한 것이며, 그에 따라 변환 프로세스에 대한 보다 철저한 리뷰가 여기에서 나타난다.

잔여 신호의 통계학적 특성들은 작은 수의 계수들로 입력 신호의 에너지를 압축하기 위한 변환(즉, DCT)의 능력에 영향을 미친다. 잔여 신호는 예측의 품질 및 예측이 공간적 또는 시간적 리던던시를 이용하는지 여부에 따라 매우 상이한 통계적 특성들을 나타낸다. 예측의 품질에 영향을 미치는 다른 요인들은 이용되는 블록들의 크기 및 처리되는 시퀀스의 공간적/시간적 특징들이다.

고도로 상관된 Markov-I 신호들에 대하여 DCT가 최대 에너지 압축 성능에 도달한다는 점이 잘 알려져 있다. DCT의 에너지 압축 성능은 신호 상관이 약해짐에 따라 떨어지기 시작한다. 예를 들어, 보다 낮은 인접 상관 특징들을 갖는 입력 신호들에 대하여 이산 사인 변환(Discrete Sine Transform, DST)이 어떻게 DCT를 능가할 수 있는지를 나타내는 것이 가능하다.

이미지 및 비디오 코딩에서 DCT 및 DST는 일반적으로 블록들, 즉 2D 신호들에 사용된다. 이는 1차원 변환이 한 방향(예컨대, 수평 방향)으로 먼저 수행된 후 다른 방향으로 1차원 변환이 수행됨을 의미한다. 이미 언급한 바와 같이 변환의 에너지 압축 능력은 입력 신호의 통계에 의존한다. 변환에 대한 2차원 신호 입력이 두 개의 수직 및 수평 축들을 따라서 상이한 통계를 나타내는 것이 가능하며, 실제로 그것은 어떤 환경 하에서 일반적이기도 하다. 이 경우 각 축에 대한 최고 성능의 변환을 선택하는 것이 바람직할 것이다. 유사한 접근이 개발 중인 새로운 ISO 및 ITU 비디오 코딩 표준, 즉 고효율 비디오 코딩(High Efficiency Video Coding, HEVC) 내에서 이미 시도되어 왔다. 특히, DCT-유사 변환 [2] 및 DST [3]와 같은 두 개의 개별적인 1차원 변환들의 조합이 개발 중인 HEVC 표준에서 사용되어 왔다.

DCT에 기초한 이전의 코딩 표준들은 2차원 변환(2D DCT)을 이용하는 반면에, 새로운 솔루션들은 인트라 예측된 블록들, 즉 공간적으로 예측되는 블록들에 대하여 DCT 및 DST의 조합을 적용한다. 방향적 예측(directional prediction)이 수직보다 수평에 더 가까운 방향으로부터 이루어질 때, 행들(rows)의 변환에 대하여 DCT보다 DST가 더 나은 선택이라는 점이 나타났으며, 유사하게, 방향적 예측이 수직에 더 가까울 때 열들(columns)의 변환에 대하여 DST가 더 나은 선택이라는 점이 나타났다. 남은 방향(예컨대, DST가 열들에 적용될 때 행들에 대하여)에서는 DCT가 이용된다.

구현 목적을 위하여, 비디오 코딩에서는 DCT 및 DST의 정수 근사들(integer approximations)을 이용하는 것이 일반적인데, 이는 이 문서의 나머지에서 단순히 DCT 및 DST로 지칭될 것이다. 정수 DCT-유사 변환을 위한 솔루션들 중 하나는 16 비트 중간 데이터 표현을 이용하며 부분적 버터플라이(partial butterfly)로 알려져 있다. 그것의 주요 속성들은 DCT와 동일한 (반)대칭 속성들, 거의 직교하는 기초 벡터들, 각 변환 단계 이전 및 이후의 16 비트 데이터 표현, 모든 내부 곱셈에 대한 16 비트 곱셉기들 및 (역)양자화 중 기초 벡터들의 상이한 놈들(norms)의 상관을 필요로 하지 않는다는 점이다.

일 측면에서, 본 발명은 이미지 값들의 블록의 행들(rows)에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들(columns)에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하는 비디오 인코딩 방법에 특징이 있으며, 상기 방법은 행 변환 및 열 변환 중 하나 또는 모두가 스킵되는(skipped) 스킵 모드를 포함하는 변환 모드들의 집합을 설정하는(establishing) 단계; 상기 모드들 중 하나를 선택하는 단계; 변환이 스킵된 임의의 블록에 대하여, 그 블록의 대응하는 이미지 값들에 스케일링 팩터(scaling factor)를 적용하는 단계―상기 스케일링 팩터는 변환되지 않은 이미지 값들을 변환된 계수들과 동일한 레벨로 가져오기 위하여 스킵된 변환의 변환 벡터의 놈(norm)에 의존함―; 및 디코더에 대하여 상기 선택된 모드의 지시자(indication)를 제공하는 단계를 포함한다.

본 발명은 또한 이미지 값들의 블록의 행들에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하여 인코딩된 비디오의 디코딩 방법에 특징이 있으며, 상기 방법은 행 변환 및 열 변환 중 하나 또는 모두가 스킵된 변환 스킵 모드의 지시자를 수신하는 단계; 상기 모드에 따라서 역변환들을 적용하는 단계 및 임의의 변환되지 않은 이미지 값들에 역스케일링을 적용하는 단계를 포함하고, 스케일링 팩터는 스킵된 변환의 변환 벡터의 놈(norm)에 의존한다.

스케일링된(scaled) 행 또는 열 내의 모든 계수들에 대하여 동일한 스케일링 팩터들이 이용될 수 있다.

다른 측면에서, 본 발명은 이미지 값들의 블록의 행들에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하는 비디오 인코딩 방법에 특징이 있으며, 상기 방법은 행 변환 및 열 변환 중 하나 또는 모두가 스킵되는 스킵 모드를 포함하는 변환 모드들의 집합을 설정하는 단계; 상기 모드들 중 하나를 선택하는 단계; 변환이 스킵된 임의의 블록에 대하여 스킵된 변환에 따라 양자화 단계를 적응시키는(adapting) 단계 및 디코더에 대하여 상기 선택된 모드의 지시자를 제공하는 단계를 포함한다.

이러한 측면에서, 본 발명은 또한 이미지 값들의 블록의 행들에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하여 인코딩된 비디오의 디코딩 방법에 특징이 있으며, 상기 방법은 행 변환 및 열 변환 중 하나 또는 모두가 스킵된 변환 스킵 모드의 지시자를 수신하는 단계; 상기 모드에 따라서 역변환들을 적용하는 단계 및 스킵된 변환에 따라 적응된 역양자화를 적용하는 단계를 포함한다.

바람직하게는, 열들에 작용된 변환이 스킵될 때 각 열에서 동일한 값들을 갖는 양자화 매트릭스가 적용되고, 행들에 적용된 변환이 스킵될 때 각 행에서 동일한 값들을 갖는 양자화 매트릭스가 적용된다.

또 다른 측면에서, 본 발명은 블록의 행들 및 열들에 작용하는 공간적 변환을 이용하는 비디오 인코딩 방법에 특징이 있으며, 상기 방법은 변환 스킵 모드들의 집합을 설정하는 단계; 상기 모드들 중 하나를 선택하는 단계; 및 디코더에 대하여 상기 선택된 모드의 지시자를 제공하는 단계를 포함하고, 블록 내에서 인코딩/디코딩되는 최초 및 마지막 계수들의 위치들은 상기 디코더로 시그널링되고(signalled) 상기 최초 및 마지막 계수들 사이에서 계수들의 스캐닝이 수행된다.

이러한 측면에서, 본 발명은 또한 변환 스킵 모드들의 집합과 함께, 블록의 행들 및 열들에 작용하는 공간적 변환을 이용하여 인코딩된 비디오의 디코딩 방법에 특징이 있으며, 상기 방법은 상기 변환 스킵 모드의 지시자를 수신하는 단계; 상기 모드에 따라서 역변환들을 적용하는 단계; 디코딩될 블록 내 최초 및 마지막 계수들의 위치들의 지시자를 수신하는 단계 및 상기 최초 및 마지막 계수들 사이에서 계수들을 스캐닝하는 단계를 포함한다.

이중 스캔(double scan)이 수행될 수 있는데, 여기서 변환 계수들의 블록은 계수들의 서브 블록들(sub-blocks)로 표현되고, 각 서브 블록은 서브 블록 레벨 스캔 내에서 방문되고(visited), 각 서브 블록 내부에서는 스캔이 이용된다.

이어지는 바람직한 특징들은 앞서 설명된 본 발명의 측면들 각각과 관련된다.

변환 스킵 모드들의 집합은 행들 및 열들에 대한 변환; 및 무변환(no transform)의 두 모드를 포함할 수 있다. 대안적으로, 변환 스킵 모드들의 집합은 행들 및 열들에 대한 변환; 행들만에 대한 변환; 열들만에 대한 변환; 및 무변환의 네 모드들을 포함할 수 있다.

모드 선택은 코드워드(codeword)가 할당된 각 모드와 함께 디코더로 시그널링될 수 있다. YUV 블록의 모든 성분들(밝기(luminance) - Y 및 색상(chrominance) - U 및 V)에 대하여 동일한 변환 스킵 모드가 사용될 수 있다. 변환 스킵 모드는 블록들의 한 그룹에 대해서, 하나의 YUV 블록의 모든 성분들에 대하여 시그널링될 수 있고, 블록들의 다른 그룹에 대해서, 각 성분에 대하여 개별적으로 시그널링될 수 있다. 그에 따라 HEVC에서 인터(INTER) 코딩된 블록들에 대한 조인트 YUV 모드 시그널링을 갖는 것이 유용할 수 있고, 인트라(INTRA) 코딩된 블록들에 대하여 각 성분들에 대한 개별적인 TSM 모드를 갖는 것이 유용할 수 있다.

오직 0 값의 계수들을 갖는 블록들에 대하여 변환 스킵 모드는 시그널링될 필요가 없을 수 있다. 밝기 성분이 오직 0 값들만을 가질 때 그것은 시그널링될 필요가 없을 수 있으며, 이 경우 색상 성분들에 대하여 2D 변환이 사용된다. 블록의 상부 왼쪽 코너(top-left corner)(DC 성분)가 오직 0이 아닌 값의 밝기 성분의 계수일 때 그것은 시그널링될 필요가 없을 수 있으며, 이 경우 색상 성분들에 대하여 2D 변환이 사용된다. 변환 스킵 모드는 오직 미리 정해진 다른 모드들(예컨대, 오직 다른 프레임들로부터 예측된 모드)을 갖는 블록들에 대해서만 시그널링될 수 있다.

몇몇 예시들에서, 엔트로피 코딩 단계에서 블록 내 계수들이 스캔되는 순서는 변환 스킵 모드에 따라서 적응될 수 있다. 그에 따라, 행 변환이 스킵되고 열들의 변환이 유지될 때 행 별(row-by-row) 스캐닝이 채택될 수 있고, 열 변환이 스킵되고 행들에 대한 변환이 유지될 때 열 별(column-by-column) 스캐닝이 채택될 수 있다.

이제 수반되는 도면들을 참조하여 예시의 방식에 의해 본 발명이 기술될 것이다.
도 1은 본 발명의 일 실시예에 다른 인코더에 대한 특징을 도시하는 블록 다이어그램이다.
도 2는 해당 실시예에 따른 디코더에 대한 특징을 도시하는 블록 다이어그램이다.
도 3은 알려진 지그 재그 스캐닝 접근법에 대한 대안을 도시하는 다이어그램이다.
도 4는 다른 대안적인 스캐닝 접근법을 도시하는 다이어그램이다.
도 5는 본 발명의 다른 실시예에 따른 인코더에 대한 특징을 도시하는 블록 다이어그램이다.
도 6은 본 발명의 다른 실시예에 따른 디코더에 대한 특징을 도시하는 블록 다이어그램이다.

본 발명은 변환 프로세스를 수행하기 위한 모드 - 변환 스킵 모드(Transform Skip Mode, TSM)를 나타낸다. 전술한 바와 같이, 비디오 코딩에서 사용되는 가장 일반적인 변환은 DCT이다. 그것의 에너지 압축 성능은 잔여 신호(residual)의 상관에 의존한다. 또한 2D DCT를 보다 비효율적으로 만들도록, 어떻게 잔여 신호가 오직 한 반향으로 고도로 비상관, 또는 상관될 수 있는지가 기술되었다. 율 왜곡에 기반하여(in a rate-distortion sense) 인코더가 그러한 결정을 만들 때 변환 프로세스를 스킵하는 것이 제안된다. 선택된 변환 모드는 디코더로 시그널링되어야 하며, 디코더는 그 후 시그널링에서 정의된 바와 같은 변환/스킵 변환의 조합을 수행한다.

두 모드들, 즉 2D 변환(행 변환 및 열 변환을 포함)을 수반하는 제1 모드 및 무변환(no transforms)을 수반하는 제2 변환과 함께 동작하는 것이 가능하다.

이어지는 기술의 대부분에서 이 모드들은 단지 행 변환을 스킵하거나 단지 열 변환을 스킵하는 것에 의해 형성되는 부가적인 모드들에 의해 보충된다. 그에 따라, 네 가지 변환 모드들은 표 1에 나타난 바와 같이 정의된다.

TSM	행들에 대한 변환	열들에 대한 변환	비고
TS0	+	+	2D 변환
TS1	+	-	1D 변환
TS2	-	+	1D 변환
TS3	-	-	무변환

표 1 - 변환 스킵 모드 옵션들

TS0 모드는 2D 변환, 즉 2D DCT에 대응한다. TS1 모드는 직교 방향에서의 변환 스킵, 즉 열들의 변환의 스킵으로 이어지는 1차원 수평 DCT의 응용을 정의한다. TS2는 오직 열들만 변환되는 수평 변환의 스킵을 정의한다. 마지막으로, TS3 모드는 양 축에서의 변환들을 완전히 스킵하며, 다시 말해서 입력 신호에 대하여 어떠한 변환도 적용되지 않는다.

도 1 및 2는 인코더 및 디코더에 대한 핵심 변환 스킵 모드 블록 다이어그램들을 각각 나타낸다. TS0: (1, 1), TS1: (1, 0), TS2: (0, 1) 및 TS3: (0, 0)과 같이 각 변환 스킵 모드는 플래그들의 대응하는 (Tf0, Tf1) 쌍과 함께 선택된다.

적응적 옵션을 가능하게 하는 압축된 비트스트림으로부터의 임의의 다른 부가적인 비트들과 같이, 변환 스킵 모드의 시그널링은 손실이 클 수 있다(can be costly). 따라서 코딩 효율성을 최대화하하기 위하여 여러가지 전략들이 고안된다.

네 가지 TSM 옵션들은 주의깊게 설계된 코드 워드들을 이용하여 시그널링될 수 있다. 그 코드 워드들은 각 블록에 대하여 전송될 필요는 없으나, 요구되는 비트 레이트(bit-rate)를 절약하기 위하여 몇몇 다른 방법들이 이용될 수 있다.

시그널링 손실(signalling cost)을 줄이기 위한 몇몇 가능성들은 다음과 같이 열거된다. 각 옵션은 인코더 및 디코더의 변환 관련 부분들에 영향을 미친다.

1. YUV 블록의 모든 성분들(밝기 - Y 및 색상 - U 및 V)에 대하여 사용되는 동일한 변환 모드; 그에 따라 Y, U 및 V 병치된(collocated) 블록들에 대하여 오직 하나의 TSM 선택이 전송됨.

2. 모든 양자화된 블록들(Y, U 및 V)이 오직 0 값의 계수들을 가질 때 시그널링되지 않는 TSM.

3. Y 블록이 오직 0 값의 계수들을 가질 때 블록들에 대하여 시그널링되지 않는 TSM, 그 후 U 및 V 성분들에 대하여 2D DCT가 사용됨.

4. 특정한 다른 모드들(예컨대, 양방향 예측(bidirectional predicted))을 수반하는 블록들에 대해서만 시그널링되는 TSM; 그렇지 않으면 2D-DCT가 적용됨.

5. 블록들의 집합에 대하여 시그널링되는 TSM의 응용(만약 "on"이면 TS 모드들은 해당 집합으로부터의 각 블록에 대하여 시그널링됨).

6. 블록들의 집합들에 대하여 시그널링되는 TSM(예컨대 모든 서브 블록들은 동일한 TSM을 공유함).

7. 특정한 다른 블록 특징들이 존재할 때 시그널링되는 TSM; 예컨대 Y 블록이 오직 하나의 0이 아닌 값을 갖고, 그 값이 블록의 상부 왼쪽 코너(DC 성분)에 존재할 때 시그널링되지 않는 TSM; 그 경우 모든 성분들에 대하여 2D-DCT가 사용됨.

네 가지 TSM 모드들(2D 변환, 두 가지 1D 블록 변환들 및 블록에 대하여 스킵된 변환)은 여러가지 코드 워드들로, 예컨대 단순한 2비트 워드들, 또는 더 많은 비트들로(즉, 1진 코드들(unary codes)로) 정의될 수 있다.

TSM	2비트 시그널링	1진 코드
TS0	11	1
TS1	10	01
TS2	01	001
TS3	00	000

만약 산술 코딩(arithmetic coding)이 사용된다면, 현재 블록 크기 및 QP 값에 의존하여, 코드 워드의 각 빈(bin)은 상이한 확률 모델들(즉, 각 슬라이스에 대한 초기 컨텍스트 상태들(initial context states)로 인코딩될 수 있다.

반면에, 만약 가변 길이 코딩이 사용된다면, 시그널링 오버헤드를 줄이기 위하여, TSM 코드 워드들은 다른 신택스 요소들(syntax elements)과 무관하게 인코딩될 수 있거나 다른 신택스 요소들과 병합될 수 있다.

몇몇 접근법들에서, 블록은 언제나 즉시 변환되지는 않고, 보다 작은 서브 유닛들로 그것을 분할하기 위한 옵션들이 적용되며, 변환들은 각 서브 유닛들에 적용된다. 그러한 변환 구조의 전형이 잔여 쿼드트리(Residual QuadTree, RQT) 방법이다. 보다 작은 유닛들로 더 이상 나누어지지 않는 블록들에 대한 TSM의 응용이 지금까지 취해져 왔지만, TSM은 그러한 다중 분할 변환 구조들에 대해서도 적용될 수 있다. 여러가지 옵션들이 확인된다.

1. TSM은 블록 레벨에서 결정되고, 동일한 변환 선택이 각 서브 유닛에 적용된다.

2. TSM은 변환 구조의 루트(root) 레벨에서만, 즉, 다중 분할 구조가 가능해질 때 블록이 보다 작은 유닛들로 더 이상 분할되지 않을 시 가능해진다. 만약 블록이 보다 작은 유닛들로 분할되면, 각 유닛은 2D 변환을 이용하여 변환된다.

3. TSM은 각 서브 유닛에 대하여, 그것의 깊이와 무관하게 결정되고 시그널링된다.

4. TSM은 유닛들의 특정한 깊이(크기)까지, 서브 유닛들에 대하여 결정되고 시그널링된다. TSB가 시그널링되지 않을 때, 보다 하위의 서브 유닛들에 대하여 2D 변환이 사용된다.

변환이 한 방향 또는 양 방향으로 수행되지 않을 때 블록 내 계수들은 상이한 특징들을 가질 수 있다. 따라서 주어진 계수들을 보다 잘 압축하기 위하여, 변환 스킵 모드에 따라 상이한 코딩 전략들이 적용될 수 있다.

2D 변환이 블록에 적용될 때, 생성되는 계수들은 종종 블록의 상부 왼쪽 코너, 다시 말해서 저 주파수 성분들 쪽으로 그룹화된다. 따라서 지그 재그 스캐닝과 같은 종래의 스캐닝은 그러한 신호들의 코딩을 위한 훌륭한 선택이다.

만약 1D 변환만이 적용된다면(TS1 또는 TS2), 적응적인 스캐닝이 사용될 수 있다. 예를 들어, 행 별, 또는 열 별 스캐닝이 TS2 및 TS1 케이스들에 대하여 각각 사용될 수 있는데, 이는 적용된 변환이 보다 낮은 주파수들을 향하여 계수들을 집중시키는 것을 예측할 수 있기 때문이다.

임의의 방향으로 변환이 적용되지 않는 TS3 케이스에 대하여, (2D 변환된 블록에 대하여 사용되는) 종래의 스캔이 사용될 수 있다. 대안적으로, 0이 아닌 계수들이 균일하게 분산되지 않는 확률을 고려하지 않는(해당 결정에 변환을 수행하지 않는 것이 내재되는) 상이한 스캐닝 패턴이 채택될 수 있다. 예를 들어, 계수들은 0인 계수들의 "바다들(seas)"로 둘러싸인 "섬들(islands)"로 그룹화될 수 있다.

그에 따라, 하나의 새로운 배열에서, 블록 내 최초 및 마지막의 유효(significant) 계수들의 위치들은 비트스트림 내에서 전송될 수 있고, 블록 내 계수들의 종래 스캐닝이 그 후 수행될 수 있다. 이는 도 3에 나타나는데 도 3에서 하얀 사각형들은 인코딩되지 않았으며 0 값을 갖는 계수들을 나타내고, 회색 사각형들은 인코딩될, 즉 유효(0이 아닌) 계수들을 포함하는 계수들을 나타내고, 최초로 인코딩된 계수는 "F"로 표시되며 마지막으로 인코딩된 계수는 "L"로 표시된다. 스캐닝은 최초 및 마지막 계수에 의해 정의되는 영역에 속하는 행들 및 열들에 대해서만 수행된다. 이 스캐닝 방법에서, 최초 계수의 x 및 y 좌표는 마지막 유효 계수의 x 및 y 좌표와 동일하거나 그보다 작아야 한다.

이 배열은 0이 아닌 계수들이 클러스터되는(clustered) 경우 고효율의 코딩으로 이어져야 하나, 블록 내 최초 및 마지막 유효 계수들의 위치를 결정하는 인코더 내의 부가적인 복잡성을 요구함과 함께 그러한 위치들을 디코더로 시그널링해야 하는 필요성을 갖는다.

대안에서, 도 4에 묘사된 바와 같이 이중 지그 재그 스캔이 사용되는데, 도 4에서 변환 계수들의 블록은 계수들의 서브 블록들로 표현된다. 각 서브 블록은 서브 블록 레벨 지그 재그 스캔 내에서 방문되며, 각 블록 내부에서 지그 재그 스캔(또는 임의의 다른 스캔)이 사용된다. 이는 공간적으로 가까운 경향이 있는 0이 아닌 계수들의 보다 나은 그룹핑을 가능하게 한다.

1D 변환들 중 어느 하나 또는 모두를 스킵하도록 결정이 내려지면, 스킵된 변환 또는 변환들을 조절(accommodate)하기 위한 프로세스의 다른 요소들을 변경시킬 필요성을 최소화 또는 제거하는 것이 바람직할 것이다.

여기서, 적응적인 변환 단계를 위한 두 개의 구현 전략들이 확인된다.

1) 선택된 행들/열들의 변환의 스킵, 및 양자화 단계의 수정

2) 적절한 스케일링 단계에 의한 선택된 행들/열들의 변환의 교체 및 필요한 경우 양자화 단계의 적응(adapting)

첫 번째 전략은 도 1 및 2에 적절히 표현되며, 스케일링을 이용하는 두 번째 전략은 도 5 및 6에 묘사된다. 스케일링이 수행되는 중요한 이유 중 하나는 변환 블록들 사이에서, 가장 높이 지원되는 정밀도(precision)과 함께, 신호의 레벨들을 유지하는 것이다. 이는 도 5 및 6에서 점선을 이용하여 표시된다.

스케일링은 각 입력 픽셀 값을 대응하는 변환 벡터들의 놈-2(norm-2)로부터 유도되는 팩터(factor)로 스케일링함에 따라 수행된다(대응하는 변환 벡터들의 놈-2는 만약 변환이 선택된 경우, 행/열 내의 동일한 위치에서, 변환 계수 값을 획득하기 위해 사용될 것이다). 몇몇 변환들은 각 벡터의 직교정규(orthonormal) 속성들에 가까운 속성을 가지며 이 속성은 스케일링 설계를 보다 단순화시킬 수 있는데 이는 변환이 스킵되는 전체 행/열을 적절히 스케일링하기 위하여 단일 값이 사용될 수 있기 때문이다.

다음으로, 16 비트 중간 데이터 표현을 수반하는 정수 DCT 변환의 컨텍스트에서 스케일링 전략들이 논의된다. 그러나, 이는 오직 예시임이 인지될 것이다.

HEVC에서 사용되는 변환들은 놈들(TN_N)을 갖는데, 여기서 N은 변환의 크기로 다음 수들에 가깝다.

- 4 포인트 변환: TN₄ = 128 = 2⁷; TNS₄ = 7;

- 8 포인트 변환: TN₈ = 181 = 2^7.5; TNS₈ = 7.5;

- 16 포인트 변환: TN₁₆ = 256 = 2⁸; TNS₁₆ = 8;

- 32 포인트 변환: TN³² = 362 = 2^8.5. TNS₃₂ = 8.5;

여기서 TNS는 대응하는 변환 놈 쉬프트(Transform Norm Shift) 파라미터(왼쪽 비트 쉬프팅에 의해 표현되는 2의 제곱)이다. HEVC에서 각 변환 벡터는 미세하게 다른 놈을 가질 수 있으나, 이 숫자들은 실질적인 구현을 위한 훌륭한 추정치들임을 유의한다. 이러한 사실은 또한 16 비트 중간 데이터 표현을 유지하기 위한 변환 레벨 조절 및 양자화의 설계에서도 반영된다. 예를 들어, HEVC 디코더 설계에서, 16 비트 값은 역 변환으로 유입된다. 열(1단계 역(inverse)) 및 행(2단계 역) 변환들 사이에서 16 비트 정밀도에 도달하기 위하여, 그리고 행 변환 이후 9+DB 정밀도에 도달하기 위하여, 다음의 신호 레벨 비트 쉬프트들이 이루어진다(N x N 블록 크기를 고려):

SHIFT = TNS_N - SHIFT_INV_1ST + TNS_N - (SHIFT_INV_2ND - DB)

여기서, 표준에 의해, SHIFT_INV_1ST = 7 이고 SHIFT_INV_2ND = 12 이며, DB는 프로세싱에 대한 비트 깊이(bit-depth) 증가이다(예컨대, 0 또는 2). 내부 프로세싱 비트 깊이는 B = 8 + DB 이다. 따라서, SHIFT는 다음과 같다:

SHIFT = 2·TNS_N - 19 + DB = 2·TNS_N - 27 + B

이는 HEVC 양자화에서 사용되는 파라미터 변환 쉬프트에 대응한다. 이는 4 x 4 블록이 고려되는 예시에 대하여(TNS₄ = 7),

-SHIFT₄ = 13 - B

로 이어지는데, 다시 말해서 13 - B 만큼 오른쪽으로 쉬프트된다.

이 예시는 TS3에 대한 신호 레벨 조절을 다루기 위하여 사용될 수 있으나, 오직 한 방향으로 변환이 적용될 때 몇몇 부가적인 고려사항들이 고려되어야 한다. 그것은 TNS_N이 언제나 정수가 아니기 때문이며, 그에 따라 비트 쉬프팅이 레벨 조절을 위한 유일한 옵션이 아니기 때문이다. 그러한 조합들을 위한 통합된 설계들을 다루기 위한 다른 옵션들은 이어지는 텍스트에서 다루어진다.

변환이 스케일링으로 교체될 때, 적응적인 변환 단계는 그것이 정수 DCT 변환 내에서 16 비트 중간 데이터 표현들을 수반하여, 즉 그것의 일부를 교체하고 원래의 2D 변환을 지원하는 코덱의 나머지와 호환 가능해지는 목적을 수반하여 인터리빙될 수 있는 방식으로 설계된다. 예를 들어, 열들에 적용되는 2D 변환의 일부와 여전히 호환 가능한 방식으로 행들에 대하여 변환을 적용하지 않을 수 있다. 이는 2D 변환에 대하여 적용된 양자화가 적응적인 변환 선택과 함께 사용될 수도 있음을 의미한다.

정 변환 스킵(forward transform skip)은 행들 및 열들에 대하여 각각 정의된다.

행들의 샘플들 x에 대하여 변환 스킵은 다음과 같이 적용된다:

y = (x·scale + offset) right shifted by S bits (a)

여기서:

S = M - 1 + DB

offset = 1 left shifted by (S - 1) bits

DB = B - 8 bit-depth increment for processing

M = log2(N), 여기서 N은 픽셀들의 수 내 행/열 크기, 그리고 scale은 부호없는 정수 곱셈임.

열들에 대하여, 변환 스킵은 x가 열들의 샘플들인 (a)에서와 같이 적용되나,

S = M + 6

offset = 1 left shifted by (S - 1) bits

이다.

2D 변환에서와 같이, 이러한 식으로 각 변환 단계 이후 16의 비트 너비(bit-width)가 보장된다.

다시, 스케일 팩터들은 관련 변환 벡터들의 놈-2 근처에 존재하도록(scale_N ² = TN_N ² = N·64²) 그리고 정수가 되도록 설계된다. 열들의 샘플들 x에 대하여 역 변환 스킵이 다음과 같이 적용되며,

y = (x·scale + offset) right shifted by S bits

여기서:

S = 7

offset = 1 left shifted by (S-1) bits

이고 scale은 앞선 스킵에서와 동일하다.

행들에 대하여 동일한 변환 스킵 동작이 적용되나,

S = 12 - DB, 여기서 DB는 정 변환 스킵에서와 동일하다.

픽셀들의 불필요한 처리를 줄이기 위하여, 하나 또는 모든 1D 변환들이 스킵될 때, 스케일링은 양자화로 이동될 수 있다. 또한(예컨대), 만약 오직 수직 변환만이 유지되면, 픽셀들의 최대 16 비트 표현을 보장하기 위하여 그것이 적응될 수 있다. 이는 이용 가능한 비트 너비로 이루어지도록 완전한 사용을 가능하게 한다. 따라서, 양자화에서의 스케일링은 스킵된 변환에 관련된 스케일링뿐만 아니라 변환 내의 새로운 스케일링에 관련된 스케일링으로 인해 적응되어야 한다.

TSM = TS0 (2D 변환)

일반적인 2D 변환 및 대응하는 양자화가 사용된다.

TSM - TS1 (행들에 대한 1D 변환) 및 TS2 (열들에 대한 1D 변환)

양쪽 케이스에서 정 변환은 행들에 대한 원래의 변환에 대응하며

y = (x + offset) right shifted by S bits, (b)

여기서:

x는 잔여 블록의 원래 값이고,

S = M - 1 + DB,

offset = 1 left shifted by (S - 1) bits

그리고 M 및 DB는 (a)에서와 같다.

이는 16 비트 중간 데이터 정밀성을 보장한다.

양자화가 적응되며 현재 신호가 위치하는 레벨을 고려한다.

TSM = TS3 (무변환)

잔여 픽셀들은 플랫 매트릭스(flat matrix)를 이용하여 직접 양자화되어 신호의 레벨은 2D 변환되고 양자화되는 양자화된 계수들의 레벨들과 대응된다.

이어서 도 7을 참조하여 변환이 스킵될 때 신호의 레벨이 어떻게 조절될 수 있는지에 대한 다른 예시가 나타난다. 이 예시에서는 원하는 성능을 달성하기 위하여 요구되는 동작들의 수를 줄이는 것이 목적이다. 변환 또는 그것의 일부가 스킵 또는 교체될 수 있는 그러한 컨텍스트에서, 이 테크닉은 하나 이상의 기본 동작들의 조합을 이용한다:

1. 변환 단계 내에서 비트 쉬프팅으로의 변경

2. 2보다 작은 팩터에 의한 신호의 스케일링에 대응하는 양자화의 적응

3. 양자화 외부의 스칼라(scalar)에 의한 변환 또는 그것의 일부의 교체

신호의 각 스케일링은 2^N(N은 양의 정수)의 팩터에 의한 스케일링 및 2보다 작은 팩터 M에 의한 스케일링에 의해 표현될 수 있다. 이 경우 이전의 예시에서와 마찬가지로 N은 변환 크기임을 유의한다. 본 발명에서, 동작 1은 2^N의 팩터에 의한 스케일링(비트 쉬프팅)을 가능하게 하고 동작 2는 M에 의한 스케일링을 가능하게 한다. M의 선택은 전형적으로 제한되고 양자화 설계에 의존한다. 비디오 코딩에서 1D 변환의 전형적인 성분은 비트 쉬프팅이다. 따라서 여기서 적용되는 동작 1은 2^N의 팩터에 의한 신호 레벨의 조절을 손쉽게 가능하게 한다. 양쪽 변환들이 스킵되는 경우, 신호의 레벨의 조절은 도 7의 "스케일링" 블록에서 수행될 수 있는데, 이는 동작 3에 대응한다. 어떠한 경우에도, 2보다 작은 팩터에 의한 신호의 조절, 양자화 파라미터 오프셋, 또는 양자화 스케일링 팩터는 요구되는 신호 레벨 조절을 수행하기 위하여 적절하게 선택될 수 있다. 예를 들어, 고효율 비디오 코딩(HEVC)에서, 3의 오프셋을 양자화 파라미터에 더하는 것은 sqrt(2) (루트 2)에 의해 신호의 레벨을 조절하는 것과 동등하다.

본 발명이 오직 예시의 방식에 의해 기술되었음과 첨부된 청구항에서 설명되는 바와 같이 본 발명의 범위를 벗어나지 않으면서 넓은 범위의 수정이 가능하다는 점이 이해될 것이다. 여기서 특정 조합으로 기술된 특징들은 명확히 언급된 것들 이상의 다른 조합으로 유용한 응용을 발견할 수 있으며 특정한 경우들에서는 단독으로 사용될 수 있다. 예를 들어,

블록 내에서 인코딩/디코딩될 최초 및 마지막 계수들의 위치는 디코더로 시그널링되고 계수들의 스캐닝은 상기 최초 및 마지막 계수들 사이에서 수행되거나;

이중 스캔이 수행되고, 변환 계수들의 블록이 계수들의 서브 블록들로 표현되고; 각 서브 블록은 서브 블록 레벨 지그 재그 스캔에서 방문되고, 각 서브 블록 내부에서는 부가적인 스캔 패턴이 사용되는;

비디오 코딩 또는 디코딩에서 스캐닝 접근법들은 변환 스킵 모드의 케이스를 넘어 유용할 수 있다.

본 발명의 측면들이 네 가지 스킵 모드들과 함께 도시되었으나, 앞서 주지된 바와 같이 특정 응용들에서는 해당 모드들 중 오직 두 가지만으로 동작하는 것이 가능할 것이다.

Claims

이미지 값들의 블록의 행들(rows)에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 상기 블록의 열들(columns)에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하는 프로세서에서의 비디오 인코딩 방법에 있어서,
상기 행 변환 및 상기 열 변환 중 하나 또는 모두가 스킵되는(skipped) 변환 스킵 모드를 포함하는 변환 모드들의 집합을 설정하는(establishing) 단계;
상기 모드들 중 하나를 선택하는 단계;
변환이 스킵된 임의의 블록에 대하여, 해당 블록의 대응하는 이미지 값들에 스케일링 팩터(scaling factor)를 적용하는 단계, 여기서, 변환되지 않은 이미지 값들을 변환된 계수들과 동일한 레벨로 가져오기 위하여 상기 스케일링 팩터는 스킵된 변환의 변환 벡터의 놈-2(norm-2)에 의존함; 및
디코더에 대하여 상기 선택된 모드의 지시자(indication)를 제공하는 단계를
포함하는 비디오 인코딩 방법.
제1항에 있어서,
모드 선택은 코드워드(codeword)가 할당된 각 모드와 함께 디코더로 시그널링되는
비디오 인코딩 방법.
제1항에 있어서,
엔트로피 코딩 단계에서 블록 내 계수들이 스캔되는 순서는 변환 스킵 모드에 따라서 적응되는
비디오 인코딩 방법.
제3항에 있어서,
상기 행 변환이 스킵되고 열들에 대한 변환이 유지될 때 행 별(row-by-row) 스캐닝이 채택되고, 상기 열 변환이 스킵되고 행들에 대한 변환이 유지될 때 열 별(column-by-column) 스캐닝이 채택되는
비디오 인코딩 방법.
제1항에 있어서,
변환 스킵 모드는 블록들의 한 그룹에 대해서, 하나의 YUV 블록의 모든 성분들에 대하여 시그널링되고, 블록들의 다른 그룹에 대해서, 각 성분에 대하여 개별적으로 시그널링되는
비디오 인코딩 방법.
제1항에 있어서,
YUV 블록의 모든 성분들(밝기(luminance) - Y 및 색상(chrominance) - U 및 V)에 대하여 동일한 변환 스킵 모드가 사용되는
비디오 인코딩 방법.
제6항에 있어서,
상기 변환 스킵 모드는 밝기 성분이 오직 0 값을 가질 때 시그널링되지 않고;
이 경우 색상 성분들에 대하여 2D 변환이 사용되는
비디오 인코딩 방법.
제6항에 있어서,
상기 변환 스킵 모드는 블록의 상부 왼쪽 코너(top-left corner)(DC 성분)가 오직 0이 아닌 값의 밝기 계수일 때 시그널링되지 않고 이 경우 색상 성분들에 대하여 2D 변환이 사용되는
비디오 인코딩 방법.
제1항에 있어서,
상기 변환 스킵 모드는 오직 0 값의 계수들만을 갖는 블록들에 대해서 시그널링되지 않는
비디오 인코딩 방법.
제1항에 있어서,
상기 변환 스킵 모드는 미리 정해진 다른 모드들을 갖는 블록들에 대해서만 시그널링되는
비디오 인코딩 방법.
제1항에 있어서,
상기 변환 스킵 모드는 블록들의 집합에 대하여 시그널링되는
비디오 인코딩 방법.
이미지 값들의 블록의 행들에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하여 인코딩된 프로세서에서의 비디오 디코딩 방법에 있어서,
상기 행 변환 및 상기 열 변환 중 하나 또는 모두가 스킵된 변환 스킵 모드의 지시자를 수신하는 단계;
상기 모드에 따라서 역변환들을 적용하는 단계; 및
임의의 변환되지 않은 이미지 값들에 역스케일링을 적용하는 단계를 포함하고,
스케일링 팩터는 스킵된 변환의 변환 벡터의 놈-2(norm-2)에 의존하는
비디오 디코딩 방법.
제12항에 있어서,
스케일링된(scaled) 행 또는 열 내의 모든 계수들에 대하여 동일한 스케일링 팩터들이 이용되는
비디오 디코딩 방법.
제12항에 있어서,
이중 스캔(double scan)이 수행되고, 변환 계수들의 블록은 계수들의 서브 블록들(sub-blocks)로 표현되고;
각 서브 블록은 서브 블록 레벨 스캔 내에서 방문되고(visited), 각 서브 블록 내부에서는 스캔이 이용되는
비디오 디코딩 방법.
제12항에 있어서,
상기 변환 스킵 모드들의 집합은
행들 및 열들에 대한 변환;
무변환을 포함하는
비디오 디코딩 방법.
제12항에 있어서,
상기 변환 스킵 모드들의 집합은
행들 및 열들에 대한 변환;
오직 행들만에 대한 변환;
오직 열들만에 대한 변환;
무변환을 포함하는
비디오 디코딩 방법.
이미지 값들의 블록의 행들에 작용하고 행 변환 벡터를 갖는 행 변환 및 이미지 값들의 블록의 열들에 작용하고 열 변환 벡터를 갖는 열 변환을 이용하여 인코딩된 비디오를 디코딩하기 위한 비디오 디코더에 있어서,
상기 디코더는 상기 행 변환 및 상기 열 변환 중 하나 또는 모두가 스킵된 변환 스킵 모드의 지시자를 수신하도록 적응되고;
상기 디코더는 상기 모드에 따라서 역변환들을 적용하는 역변환부를 포함하고 임의의 변환되지 않은 이미지 값들에 역스케일링을 적용하도록 적응되고,
스케일링 팩터는 스킵된 변환의 변환 벡터의 놈-2(norm-2)에 의존하는
비디오 디코더.
삭제
삭제
삭제
삭제
삭제
삭제
삭제