KR20210000282A

KR20210000282A - 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치

Info

Publication number: KR20210000282A
Application number: KR1020200077014A
Authority: KR
Inventors: 강제원; 박상효; 박승욱; 임화평
Original assignee: 현대자동차주식회사; 이화여자대학교 산학협력단; 기아자동차주식회사
Priority date: 2019-06-24
Filing date: 2020-06-24
Publication date: 2021-01-04
Also published as: EP3985978A4; CN114097233A; EP3985978A1

Abstract

동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치를 개시한다.
본 개시의 일 측면에 따르면, 비디오 데이터를 복호화하는 장치는 비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화하는 복호화부 및 상기 신택스 엘리먼트가 지시하는 현재 블록의 인트라 예측 타입에 기반하여 행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 인트라 예측부를 포함한다.

Description

동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치{METHOD AND APPARATUS FOR INTRA PREDICTION CODING OF VIDEO DATA}

본 발명은 동영상 데이터의 부호화 및 복호화에 관한 것이다.

동영상 데이터는 음성 데이터나 정지 영상 데이터 등에 비하여 많은 데이터량을 가지기 때문에, 압축을 위한 처리 없이 그 자체를 저장하거나 전송하기 위해서는 메모리를 포함하여 많은 하드웨어 자원을 필요로 한다.

따라서, 통상적으로 동영상 데이터를 저장하거나 전송할 때에는 부호화기를 사용하여 동영상 데이터를 압축하여 저장하거나 전송하며, 복호화기에서는 압축된 동영상 데이터를 수신하여 압축을 해제하고 재생한다. 이러한 동영상 압축 기술로는 H.264/AVC를 비롯하여, H.264/AVC에 비해 약 40% 정도의 부호화 효율을 향상시킨 HEVC(High Efficiency Video Coding)가 존재한다.

그러나, 픽쳐의 크기 및 해상도, 프레임율이 점차 증가하고 있고, 이에 따라 부호화해야 하는 데이터량도 증가하고 있으므로 기존의 압축 기술보다 더 부호화 효율이 좋고 화질 개선 효과도 높은 새로운 압축 기술이 요구된다.

본 발명은 동영상 데이터의 블록을 인트라 예측 코딩하는 개선된 기법들을 제시한다.

본 개시의 일 측면에 따르면, 비디오 데이터를 복호화하는 방법으로서, 비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화하는 단계 - 상기 인트라 예측 타입은 행렬 기반 인트라 예측(matrix based intra prediction: MIP)과 정규 인트라 예측(regular intra prediction)을 포함함 -; 및 상기 신택스 엘리먼트가 지시하는 현재 블록의 인트라 예측 타입에 기반하여 행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계를 포함한다.

상기 방법은, 상기 정규 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계의 일부로서, 상기 방법은 상기 현재 블록에 인접한 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM(Most Probable Mode) 후보들을 도출하여 상기 현재 블록에 대한 MPM 리스트를 구성하는 단계 및 상기 MPM 리스트에 기초하여 상기 현재 블록에 대한 정규 인트라 예측 모드를 도출하는 단계를 포함한다. MPM 후보들을 도출함에 있어서, 상기 주변 블록의 인트라 예측 타입이 행렬 기반 인트라 예측인 경우에, 상기 주변 블록의 정규 인트라 예측 모드는 PLANAR 모드로 설정된다.

상기 방법은, 상기 행렬 기반 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계의 일부로서, 상기 비트스트림으로부터 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트를 복호화하는 단계; 상기 현재 블록의 크기 및 형상에 기초하여 상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계; 상기 행렬 기반 인트라 예측 모드에 대해 미리 정의된 행렬과 상기 경계 벡터 간의 행렬-벡터 곱셈에 기초하여, 상기 현재 블록에 대한 예측 샘플들을 생성하는 단계; 및 상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계를 포함한다.

본 개시의 다른 측면에 따르면, 비디오 데이터를 복호화하는 장치로서, 비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화하는 복호화부 - 상기 인트라 예측 타입은 행렬 기반 인트라 예측과 정규 인트라 예측을 포함함 -; 및 상기 신택스 엘리먼트가 지시하는 현재 블록의 인트라 예측 타입에 기반하여행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 인트라 예측부를 포함한다.

상기 인트라 예측부는, 상기 정규 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서, 상기 현재 블록에 인접한 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM 후보들을 도출하여 상기 현재 블록에 대한 MPM 리스트를 구성하고, 상기 MPM 리스트에 기초하여 상기 현재 블록에 대한 정규 인트라 예측 모드를 도출한다. MPM 후보들을 도출함에 있어서, 상기 인트라 예측부는 상기 주변 블록의 인트라 예측 타입이 행렬 기반 인트라 예측인 경우에 상기 주변 블록의 정규 인트라 예측 모드를 PLANAR 모드로 설정(간주)한다.

상기 행렬 기반 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서, 상기 인트라 예측부는, 상기 비트스트림으로부터 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트를 복호화하는 단계; 상기 현재 블록의 크기 및 형상에 기초하여 상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계; 상기 행렬 기반 인트라 예측 모드에 대해 미리 정의된 행렬과 상기 경계 벡터 간의 행렬-벡터 곱셈에 기초하여, 상기 현재 블록에 대한 예측 샘플들을 생성하는 단계; 및 상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계를 수행할 수 있다.

도 1은 본 개시의 기술들을 구현할 수 있는 영상 부호화 장치에 대한 예시적인 블록도이다.
*도 2는 QTBTTT 구조를 이용하여 블록을 분할하는 방법을 설명하기 위한 도면이다.
도 3a는 복수의 인트라 예측 모드들을 나타낸 도면이다.
도 3b는 광각 인트라 예측모드들을 포함한 복수의 인트라 예측 모드들을 나타낸 도면이다.
도 4는 본 개시의 기술들을 구현할 수 있는 영상 복호화 장치의 예시적인 블록도이다.
도 5는 본 개시의 기법들에서 사용될 수도 있는 MIP 기술의 주요 프로세스를 도식화한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 MIP 기반으로 블록을 예측하는 개략적인 프로세스를 도시한 흐름도이다.
도 7a 내지 도 7c는 왼쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성하는 예시적인 방법을 보이는 개념도이다.
도 8a 내지 도 8c는 위쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성하는 예시적인 방법을 보이는 개념도이다.
도 9는 왼쪽 이웃 샘플들, 경계 벡터, 및 이로부터 예측된 예측 샘플들을 보인다.
도 10은 위쪽 이웃 샘플들, 경계 벡터, 및 이로부터 예측된 예측 샘플들을 보인다.
도 11은 본 발명의 일 실시예에 따른 비디오 데이터를 복호화하는 방법을 예시하는 흐름도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성 요소들에 식별 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 개시의 기술들을 구현할 수 있는 영상 부호화 장치에 대한 예시적인 블록도이다. 이하에서는 도 1을 참조하여 영상 부호화 장치와 이 장치의 하위 구성들에 대하여 설명하도록 한다.

영상 부호화 장치는 픽처 분할부(110), 예측부(120), 감산기(130), 변환부(140), 양자화부(145), 재정렬부(150), 엔트로피 부호화부(155), 역양자화부(160), 역변환부(165), 가산기(170), 필터부(180) 및 메모리(190)를 포함하여 구성될 수 있다.

영상 부호화 장치의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.

하나의 영상(비디오)는 복수의 픽처들로 구성된다. 각 픽처들은 복수의 영역으로 분할되고 각 영역마다 부호화가 수행된다. 예를 들어, 하나의 픽처는 하나 이상의 타일(Tile) 또는/및 슬라이스(Slice)로 분할된다. 여기서, 하나 이상의 타일을 타일 그룹(Tile Group)으로 정의할 수 있다. 각 타일 또는/슬라이스는 하나 이상의 CTU(Coding Tree Unit)로 분할된다. 그리고 각 CTU는 트리 구조에 의해 하나 이상의 CU(Coding Unit)들로 분할된다. 각 CU에 적용되는 정보들은 CU의 신택스로서 부호화되고, 하나의 CTU에 포함된 CU들에 공통적으로 적용되는 정보는 CTU의 신택스로서 부호화된다. 또한, 하나의 슬라이스 내의 모든 블록들에 공통적으로 적용되는 정보는 슬라이스 헤더의 신택스로서 부호화되며, 하나의 픽처들을 구성하는 모든 블록들에 적용되는 정보는 픽처 파라미터 셋(PPS, Picture Parameter Set) 혹은 픽처 헤더에 부호화된다. 나아가, 복수의 픽처가 공통으로 참조하는 정보들은 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)에 부호화된다. 그리고, 하나 이상의 SPS가 공통으로 참조하는 정보들은 비디오 파라미터 셋(VPS, Video Parameter Set)에 부호화된다. 또한, 하나의 타일 또는 타일 그룹에 공통으로 적용되는 정보는 타일 또는 타일 그룹 헤더의 신택스로서 부호화될 수도 있다.

픽처 분할부(110)는 CTU(Coding Tree Unit)의 크기를 결정한다. CTU의 크기에 대한 정보(CTU size)는 SPS 또는 PPS의 신택스로서 부호화되어 영상 복호화 장치로 전달된다.

픽처 분할부(110)는 영상을 구성하는 각 픽처(picture)를 미리 결정된 크기를 가지는 복수의 CTU(Coding Tree Unit)들로 분할한 이후에, 트리 구조(tree structure)를 이용하여 CTU를 반복적으로(recursively) 분할한다. 트리 구조에서의 리프 노드(leaf node)가 부호화의 기본 단위인 CU(coding unit)가 된다.

트리 구조로는 상위 노드(혹은 부모 노드)가 동일한 크기의 네 개의 하위 노드(혹은 자식 노드)로 분할되는 쿼드트리(QuadTree, QT), 또는 상위 노드가 두 개의 하위 노드로 분할되는 바이너리트리(BinaryTree, BT), 또는 상위 노드가 1:2:1 비율로 세 개의 하위 노드로 분할되는 터너리트리(TernaryTree, TT), 또는 이러한 QT 구조, BT 구조 및 TT 구조 중 둘 이상을 혼용한 구조일 수 있다. 예컨대, QTBT(QuadTree plus BinaryTree) 구조가 사용될 수 있고, 또는 QTBTTT(QuadTree plus BinaryTree TernaryTree) 구조가 사용될 수 있다. 여기서, BTTT를 합쳐서 MTT(Multiple-Type Tree)라 지칭될 수 있다.

도 2는 QTBTTT 분할 트리 구조를 보인다. 도 2에서 보는 바와 같이, CTU는 먼저 QT 구조로 분할될 수 있다. 쿼드트리 분할은 분할 블록(splitting block)의 크기가 QT에서 허용되는 리프 노드의 최소 블록 크기(MinQTSize)에 도달할 때까지 반복될 수 있다. QT 구조의 각 노드가 하위 레이어의 4개의 노드들로 분할되는지 여부를 지시하는 제1 플래그(QT_split_flag)는 엔트로피 부호화부(155)에 의해 부호화되어 영상 복호화 장치로 시그널링된다. QT의 리프 노드가 BT에서 허용되는 루트 노드의 최대 블록 크기(MaxBTSize)보다 크지 않은 경우, BT 구조 또는 TT 구조 중 어느 하나 이상으로 더 분할될 수 있다. BT 구조 및/또는 TT 구조에서는 복수의 분할 방향이 존재할 수 있다. 예컨대, 해당 노드의 블록이 가로로 분할되는 방향과 세로로 분할되는 방향 두 가지가 존재할 수 있다. 도 2와 같이, MTT 분할이 시작되면, 노드들이 분할되었는지 여부를 지시하는 제2 플래그(mtt_split_flag)와, 분할이 되었다면 추가적으로 분할 방향(vertical 혹은 horizontal)을 나타내는 플래그 및/또는 분할 타입(Binary 혹은 Ternary)을 나타내는 플래그가 엔트로피 부호화부(155)에 의해 부호화되어 영상 복호화 장치로 시그널링된다. 대안적으로, 각 노드가 하위 레이어의 4개의 노드들로 분할되는지 여부를 지시하는 제1 플래그(QT_split_flag)를 부호화하기에 앞서, 그 노드가 분할되는지 여부를 지시하는 CU 분할 플래그(split_cu_flag)가 부호화될 수도 있다. CU 분할 플래그(split_cu_flag) 값이 분할되지 않았음을 지시하는 경우, 해당 노드의 블록이 분할 트리 구조에서의 리프 노드(leaf node)가 되어 부호화의 기본 단위인 CU(coding unit)가 된다. CU 분할 플래그(split_cu_flag) 값이 분할됨을 지시하는 경우, 영상 부호화 장치는 전술한 방식으로 제1 플래그부터 부호화를 시작한다.

트리 구조의 다른 예시로서 QTBT가 사용되는 경우, 해당 노드의 블록을 동일 크기의 두 개 블록으로 가로로 분할하는 타입(즉, symmetric horizontal splitting)과 세로로 분할하는 타입(즉, symmetric vertical splitting) 두 가지가 존재할 수 있다. BT 구조의 각 노드가 하위 레이어의 블록으로 분할되는지 여부를 지시하는 분할 플래그(split_flag) 및 분할되는 타입을 지시하는 분할 타입 정보가 엔트로피 부호화부(155)에 의해 부호화되어 영상 복호화 장치로 전달된다. 한편, 해당 노드의 블록을 서로 비대칭 형태의 두 개의 블록으로 분할하는 타입이 추가로 더 존재할 수도 있다. 비대칭 형태에는 해당 노드의 블록을 1:3의 크기 비율을 가지는 두 개의 직사각형 블록으로 분할하는 형태가 포함될 수 있고, 혹은 해당 노드의 블록을 대각선 방향으로 분할하는 형태가 포함될 수도 있다.

CU는 CTU로부터의 QTBT 또는 QTBTTT 분할에 따라 다양한 크기를 가질 수 있다. 이하에서는, 부호화 또는 복호화하고자 하는 CU(즉, QTBTTT의 리프 노드)에 해당하는 블록을 '현재블록'이라 칭한다. QTBTTT 분할의 채용에 따라, 현재블록의 모양은 정사각형뿐만 아니라 직사각형일 수도 있다.

예측부(120)는 현재블록을 예측하여 예측블록을 생성한다. 예측부(120)는 인트라 예측부(122)와 인터 예측부(124)를 포함한다.

일반적으로, 픽처 내 현재블록들은 각각 예측적으로 코딩될 수 있다. 일반적으로 현재블록의 예측은 (현재블록을 포함하는 픽처로부터의 데이터를 사용하는) 인트라 예측 기술 또는 (현재블록을 포함하는 픽처 이전에 코딩된 픽처로부터의 데이터를 사용하는) 인터 예측 기술을 사용하여 수행될 수 있다. 인터 예측은 단방향 예측과 양방향 예측 모두를 포함한다.

인트라 예측부(122)는 현재블록이 포함된 현재 픽처 내에서 현재블록의 주변에 위치한 픽셀(참조 픽셀)들을 이용하여 현재블록 내의 픽셀들을 예측한다. 예측 방향에 따라 복수의 인트라 예측모드가 존재한다. 예컨대, 도 3a에서 보는 바와 같이, 복수의 인트라 예측모드는 planar 모드와 DC 모드를 포함하는 2개의 비방향성 모드와 65개의 방향성 모드를 포함할 수 있다. 각 예측모드에 따라 사용할 주변 픽셀과 연산식이 다르게 정의된다. 아래 표는 인트라 예측 모드들 번호와 이름을 열거한다.

직사각형 모양의 현재블록에 대한 효율적인 방향성 예측을 위해, 도 3b에 점선 화살표로 도시된 방향성 모드들(67 ~ 80번, -1 ~ -14 번 인트라 예측모드들)이 추가로 사용될 수 있다. 이들은 "광각 인트라 예측모드들(wide angle intra-prediction modes)"로 지칭될 수 있다. 도 3b에서 화살표들은 예측에 사용되는 대응하는 참조샘플들을 가리키는 것이며, 예측 방향을 나타내는 것이 아니다. 예측 방향은 화살표가 가리키는 방향과 반대이다. 광각 인트라 예측모드들은 현재블록이 직사각형일 때 추가적인 비트 전송 없이 특정 방향성 모드를 반대방향으로 예측을 수행하는 모드이다. 이때 광각 인트라 예측모드들 중에서, 직사각형의 현재블록의 너비와 높이의 비율에 의해, 현재블록에 이용 가능한 일부 광각 인트라 예측모드들이 결정될 수 있다. 예컨대, 45도보다 작은 각도를 갖는 광각 인트라 예측모드들(67 ~ 80번 인트라 예측모드들)은 현재블록이 높이가 너비보다 작은 직사각형 형태일 때 이용 가능하고, -135도보다 큰 각도를 갖는 광각 인트라 예측모드들(-1 ~ -14 번 인트라 예측모드들)은 현재블록이 높이가 너비보다 큰 직사각형 형태일 때 이용 가능하다.

인트라 예측부(122)는 현재블록을 부호화하는데 사용할 인트라 예측모드를 결정할 수 있다. 일부 예들에서, 인트라 예측부(122)는 여러 인트라 예측모드들을 사용하여 현재블록을 인코딩하고, 테스트된 모드들로부터 사용할 적절한 인트라 예측모드를 선택할 수도 있다. 예를 들어, 인트라 예측부(122)는 여러 테스트된 인트라 예측모드들에 대한 레이트 왜곡(rate-distortion) 분석을 사용하여 레이트 왜곡 값들을 계산하고, 테스트된 모드들 중 최선의 레이트 왜곡 특징들을 갖는 인트라 예측모드를 선택할 수도 있다.

인트라 예측부(122)는 복수의 인트라 예측모드 중에서 하나의 인트라 예측모드를 선택하고, 선택된 인트라 예측모드에 따라 결정되는 주변 픽셀(참조 픽셀)과 연산식을 사용하여 현재블록을 예측한다. 선택된 인트라 예측모드에 대한 정보는 엔트로피 부호화부(155)에 의해 부호화되어 영상 복호화 장치로 전달된다.

또한, 인트라 예측부(122)는 후술하는 행렬 기반 인트라 예측(Matrix-based Intra Prediction: MIP)을 이용하여, 현재블록에 대한 예측블록을 생성할 수도 있다. 인트라 예측부(122)는 현재블록의 좌측에 재구성된 샘플들과 현재블록의 상측에 재구성된 샘플들로부터 유도된 경계 벡터와 미리 정의된 행렬 및 오프셋 벡터를 이용하여 현재블록에 대한 예측블록을 생성할 수도 있다.

인터 예측부(124)는 움직임 보상 과정을 통해 현재블록에 대한 예측블록을 생성한다. 인터 예측부(124)는 현재 픽처보다 먼저 부호화 및 복호화된 참조픽처 내에서 현재블록과 가장 유사한 블록을 탐색하고, 그 탐색된 블록을 이용하여 현재블록에 대한 예측블록을 생성한다. 그리고, 현재 픽처 내의 현재블록과 참조픽처 내의 예측블록 간의 변위(displacement)에 해당하는 움직임벡터(motion vector)를 생성한다. 일반적으로, 움직임 추정은 루마(luma) 성분에 대해 수행되고, 루마 성분에 기초하여 계산된 모션 벡터는 루마 성분 및 크로마 성분 모두에 대해 사용된다. 현재블록을 예측하기 위해 사용된 참조픽처에 대한 정보 및 움직임벡터에 대한 정보를 포함하는 움직임 정보는 엔트로피 부호화부(155)에 의해 부호화되어 영상 복호화 장치로 전달된다.

감산기(130)는 현재블록으로부터 인트라 예측부(122) 또는 인터 예측부(124)에 의해 생성된 예측블록을 감산하여 잔차블록을 생성한다.

변환부(140)는 잔차블록을 하나 이상의 변환블록들로 나누고, 변환을 하나 이상의 변환 블록들에 적용하여, 변환블록들의 잔차 값들을 픽셀 도메인에서 주파수 도메인으로 변환한다. 주파수 도메인에서, 변환된 블록들은 하나 이상의 변환 계수 값들을 포함하는 계수 블록들이라고 지칭된다. 변환에는 2차원 변환 커널이 사용될 수 있으며, 수평 방향 변환과 수직 방향 방향에 각각 1차원 변환 커널이 사용될 수도 있다. 변환 커널은 이산 코사인 변환(DCT), 이산 사인 변환(DST) 등에 기반할 수 있다.

변환부(140)는 잔차블록의 전체 크기를 변환 단위로 사용하여 잔차블록 내의 잔차 신호들을 변환할 수 있다. 또한, 변환부(140)는 잔차블록을 수평 혹은 수직 방향으로 2개의 서브블록으로 분할하고, 변환을 2개의 서브블록 중 하나에만 수행할 수 있다. 따라서, 변환 블록의 사이즈는 잔차 블록의 사이즈(따라서 예측블록의 사이즈)와 상이할 수도 있다. 변환이 수행되지 않는 서브블록에는 논-제로 잔차 샘플 값들이 존재하지 않거나 매우 희소할 수 있다. 변환이 수행되지 않는 서브블록의 잔차 샘플들은 시그널링되지 않으며, 영상 복호화 장치에 의해 모두 "0"으로 간주될 수 있다. 분할 방향과 분할 비율에 따라 여러 파티션 타입들이 존재할 수 있다. 변환부(140)는 잔차블록의 코딩 모드(혹은 변환 모드)에 관한 정보(예컨대, 잔차 블록을 변환하였는지 아니면 잔차 서브블록을 변환하였는지를 나타내는 정보, 잔차블록을 서브블록들로 분할하기 위해 선택된 파티션 타입을 나타내는 정보, 변환이 수행되는 서브블록을 식별하는 정보 등을 포함하는 정보)를 엔트로피 부호화부(155)에 제공할 수 있다. 엔트로피 부호화부(155)는 잔차블록의 코딩 모드(혹은 변환 모드)에 관한 정보를 부호화할 수 있다.

양자화부(145)는 변환부(140)로부터 출력되는 변환 계수들을 양자화하고, 양자화된 변환 계수들을 엔트로피 부호화부(155)로 출력한다. 양자화부(145)는, 어떤 블록 혹은 프레임에 대해, 변환 없이, 관련된 잔차 블록을 곧바로 양자화할 수도 있다.

재정렬부(150)는 양자화된 잔차값에 대해 계수값의 재정렬을 수행할 수 있다. 재정렬부(150)는 계수 스캐닝(coefficient scanning)을 통해 2차원의 계수 어레이를 1차원의 계수 시퀀스로 변경할 수 있다. 예를 들어, 재정렬부(150)에서는 지그-재그 스캔(zig-zag scan) 또는 대각선 스캔(diagonal scan)을 이용하여 DC 계수부터 고주파수 영역의 계수까지 스캔하여 1차원의 계수 시퀀스를 출력할 수 있다. 변환 단위의 크기 및 인트라 예측모드에 따라 지그-재그 스캔 대신 2차원의 계수 어레이를 열 방향으로 스캔하는 수직 스캔, 2차원의 블록 형태 계수를 행 방향으로 스캔하는 수평 스캔이 사용될 수도 있다. 즉, 변환 단위의 크기 및 인트라 예측모드에 따라 지그-재그 스캔, 대각선 스캔, 수직 방향 스캔 및 수평 방향 스캔 중에서 사용될 스캔 방법이 결정될 수도 있다.

엔트로피 부호화부(155)는, CABAC(Context-based Adaptive Binary Arithmetic Code), 지수 골롬(Exponential Golomb) 등의 다양한 부호화 방식을 사용하여, 재정렬부(150)로부터 출력된 1차원의 양자화된 변환 계수들의 시퀀스를 부호화함으로써 비트스트림을 생성한다.

또한, 엔트로피 부호화부(155)는 블록 분할과 관련된 CTU size, CU 분할 플래그, QT 분할 플래그, MTT 분할 타입, MTT 분할 방향 등의 정보를 부호화하여, 영상 복호화 장치가 영상 부호화 장치와 동일하게 블록을 분할할 수 있도록 한다. 또한, 엔트로피 부호화부(155)는 현재블록이 인트라 예측에 의해 부호화되었는지 아니면 인터 예측에 의해 부호화되었는지 여부를 지시하는 예측 타입에 대한 정보를 부호화하고, 예측 타입에 따라 인트라 예측정보(즉, 인트라 예측모드에 대한 정보) 또는 인터 예측정보(참조픽처 및 움직임벡터에 대한 정보)를 부호화한다.

역양자화부(160)는 양자화부(145)로부터 출력되는 양자화된 변환 계수들을 역양자화하여 변환 계수들을 생성한다. 역변환부(165)는 역양자화부(160)로부터 출력되는 변환 계수들을 주파수 도메인으로부터 공간 도메인으로 변환하여 잔차블록을 복원한다.

가산부(170)는 복원된 잔차블록과 예측부(120)에 의해 생성된 예측블록을 가산하여 현재블록을 복원한다. 복원된 현재블록 내의 픽셀들은 다음 순서의 블록을 인트라 예측할 때 참조 픽셀로서 사용된다.

필터부(180)는 블록 기반의 예측 및 변환/양자화로 인해 발생하는 블록킹 아티팩트(blocking artifacts), 링잉 아티팩트(ringing artifacts), 블러링 아티팩트(blurring artifacts) 등을 줄이기 위해 복원된 픽셀들에 대한 필터링을 수행한다. 필터부(180)는 디블록킹 필터(182)와 SAO(Sample Adaptive Offset) 필터(184)를 포함할 수 있다.

디블록킹 필터(180)는 블록 단위의 부호화/복호화로 인해 발생하는 블록킹 현상(blocking artifact)을 제거하기 위해 복원된 블록 간의 경계를 필터링하고, SAO 필터(184)는 디블록킹 필터링된 영상에 대해 추가적인 필터링을 수행한다. SAO 필터(184)는 손실 부호화(lossy coding)로 인해 발생하는 복원된 픽셀과 원본 픽셀 간의 차이를 보상하기 위해 사용되는 필터이다.

디블록킹 필터(182) 및 SAO 필터(184)를 통해 필터링된 복원블록은 메모리(190)에 저장된다. 한 픽처 내의 모든 블록들이 복원되면, 복원된 픽처는 이후에 부호화하고자 하는 픽처 내의 블록을 인터 예측하기 위한 참조 픽처로 사용될 수 있다.

도 4는 본 개시의 기술들을 구현할 수 있는 영상 복호화 장치의 예시적인 기능 블록도이다. 이하에서는 도 4를 참조하여 영상 복호화 장치와 이 장치의 하위 구성들에 대하여 설명하도록 한다.

영상 복호화 장치는 엔트로피 복호화부(410), 재정렬부(415), 역양자화부(420), 역변환부(430), 예측부(440), 가산기(450), 필터부(460) 및 메모리(470)를 포함하여 구성될 수 있다.

도 1의 영상 부호화 장치와 마찬가지로, 영상 복호화 장치의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.

엔트로피 복호화부(410)는 영상 부호화 장치에 의해 생성된 비트스트림을 복호화하여 블록 분할과 관련된 정보를 추출함으로써 복호화하고자 하는 현재블록을 결정하고, 현재블록을 복원하기 위해 필요한 예측정보와 잔차신호에 대한 정보 등을 추출한다.

엔트로피 복호화부(410)는 SPS(Sequence Parameter Set) 또는 PPS(Picture Parameter Set)로부터 CTU size에 대한 정보를 추출하여 CTU의 크기를 결정하고, 픽처를 결정된 크기의 CTU로 분할한다. 그리고, CTU를 트리 구조의 최상위 레이어, 즉, 루트 노드로 결정하고, CTU에 대한 분할정보를 추출함으로써 트리 구조를 이용하여 CTU를 분할한다.

예컨대, QTBTTT 구조를 사용하여 CTU를 분할하는 경우, 먼저 QT의 분할과 관련된 제1 플래그(QT_split_flag)를 추출하여 각 노드를 하위 레이어의 네 개의 노드로 분할한다. 그리고, QT의 리프 노드에 해당하는 노드에 대해서는 MTT의 분할과 관련된 제2 플래그(MTT_split_flag) 및 분할 방향(vertical / horizontal) 및/또는 분할 타입(binary / ternary) 정보를 추출하여 해당 리프 노드를 MTT 구조로 분할한다. 이를 통해 QT의 리프 노드 이하의 각 노드들을 BT 또는 TT 구조로 반복적으로(recursively) 분할한다.

또 다른 예로서, QTBTTT 구조를 사용하여 CTU를 분할하는 경우, 먼저 CU의 분할 여부를 지시하는 CU 분할 플래그(split_cu_flag)를 추출하고, 해당 블록이 분할된 경우, 제1 플래그(QT_split_flag)를 추출할 수도 있다. 분할 과정에서 각 노드는 0번 이상의 반복적인 QT 분할 후에 0번 이상의 반복적인 MTT 분할이 발생할 수 있다. 예컨대, CTU는 바로 MTT 분할이 발생하거나, 반대로 다수 번의 QT 분할만 발생할 수도 있다.

다른 예로서, QTBT 구조를 사용하여 CTU를 분할하는 경우, QT의 분할과 관련된 제1 플래그(QT_split_flag)를 추출하여 각 노드를 하위 레이어의 네 개의 노드로 분할한다. 그리고, QT의 리프 노드에 해당하는 노드에 대해서는 BT로 더 분할되는지 여부를 지시하는 분할 플래그(split_flag) 및 분할 방향 정보를 추출한다.

한편, 엔트로피 복호화부(410)는 트리 구조의 분할을 통해 복호화하고자 하는 현재블록을 결정하게 되면, 현재블록이 인트라 예측되었는지 아니면 인터 예측되었는지를 지시하는 예측 타입에 대한 정보를 추출한다. 예측 타입 정보가 인트라 예측을 지시하는 경우, 엔트로피 복호화부(410)는 현재블록의 인트라 예측정보(인트라 예측모드)에 대한 신택스 엘리먼트를 추출한다. 예측 타입 정보가 인터 예측을 지시하는 경우, 엔트로피 복호화부(410)는 인터 예측정보에 대한 신택스 엘리먼트, 즉, 움직임벡터 및 그 움직임벡터가 참조하는 참조픽처를 나타내는 정보를 추출한다.

한편, 엔트로피 복호화부(410)는 잔차블록의 코딩 모드에 관한 정보(예컨대, 잔차블록이 부호화되었는지 잔차블록의 서브블록만이 부호화되었는지 여부에 관한 정보, 잔차블록을 서브블록들로 분할하기 위해 선택된 파티션 타입을 나타내는 정보, 부호화된 잔차 서브블록을 식별하는 정보, 양자화 파라미터 등)를 비트스트림으로부터 추출한다. 또한, 엔트로피 복호화부(410)는 잔차신호에 대한 정보로서 현재블록의 양자화된 변환계수들에 대한 정보를 추출한다.

재정렬부(415)는, 영상 부호화 장치에 의해 수행된 계수 스캐닝 순서의 역순으로, 엔트로피 복호화부(410)에서 엔트로피 복호화된 1차원의 양자화된 변환계수들의 시퀀스를 다시 2차원의 계수 어레이(즉, 블록)로 변경할 수 있다.

역양자화부(420)는 양자화된 변환계수들을 역양자화하고, 역변환부(430)는, 잔차블록의 코딩 모드에 관한 정보를 기초로, 역양자화된 변환계수들을 주파수 도메인으로부터 공간 도메인으로 역변환하여 잔차신호들을 복원함으로써 현재블록에 대한 복원된 잔차블록을 생성한다.

역변환부(430)는, 잔차블록의 코딩 모드에 관한 정보가 영상 부호화 장치에서 현재블록의 잔차블록이 부호화되었다고 지시하는 경우에, 역양자화된 변환계수들에 대해 현재블록의 사이즈(따라서, 복원될 잔차블록의 사이즈)를 변환 단위로 사용하여 역변환을 수행하여 현재블록에 대한 복원된 잔차블록을 생성한다.

또한, 역변환부(430)는, 잔차블록의 코딩 모드에 관한 정보가 영상 부호화 장치에서 잔차블록의 하나의 서브블록만이 부호화되었다고 지시하는 경우에, 역양자화된 변환계수들에 대해, 변환된 서브블록의 사이즈를 변환 단위로 사용하여, 역변환을 수행하여 변환된 서브블록에 대한 잔차신호들을 복원하고, 비변환된 서브블록에 대한 잔차신호들을 "0" 값으로 채움으로써, 현재블록에 대한 복원된 잔차블록을 생성한다.

예측부(440)는 인트라 예측부(442) 및 인터 예측부(444)를 포함할 수 있다. 인트라 예측부(442)는 현재블록의 예측 타입이 인트라 예측일 때 활성화되고, 인터 예측부(444)는 현재블록의 예측 타입이 인터 예측일 때 활성화된다.

인트라 예측부(442)는 엔트로피 복호화부(410)로부터 추출된 인트라 예측모드에 대한 신택스 엘리먼트로부터 복수의 인트라 예측모드 중 현재블록의 인트라 예측모드를 결정하고, 인트라 예측모드에 따라 현재블록 주변의 참조 픽셀들을 이용하여 현재블록을 예측한다. 또한, 인트라 예측부(442)는 후술하는 행렬 기반 인트라 예측(Matrix-based Intra Prediction: MIP)을 이용하여, 현재블록에 대한 예측블록을 생성할 수도 있다. 인트라 예측부(422)는 현재블록의 좌측에 재구성된 샘플들과 현재블록의 상측에 재구성된 샘플들로부터 유도된 경계 벡터와 미리 정의된 행렬 및 오프셋 벡터를 이용하여 현재블록에 대한 예측블록을 생성할 수도 있다.

인터 예측부(444)는 엔트로피 복호화부(410)로부터 추출된 인트라 예측모드에 대한 신택스 엘리먼트를 이용하여 현재블록의 움직임벡터와 그 움직임벡터가 참조하는 참조픽처를 결정하고, 움직임벡터와 참조픽처를 이용하여 현재블록을 예측한다.

가산기(450)는 역변환부로부터 출력되는 잔차블록과 인터 예측부 또는 인트라 예측부로부터 출력되는 예측블록을 가산하여 현재블록을 복원한다. 복원된 현재블록 내의 픽셀들은 이후에 복호화할 블록을 인트라 예측할 때의 참조픽셀로서 활용된다.

필터부(460)는 디블록킹 필터(462) 및 SAO 필터(464)를 포함할 수 있다. 디블록킹 필터(462)는 블록 단위의 복호화로 인해 발생하는 블록킹 현상(blocking artifact)를 제거하기 위해, 복원된 블록 간의 경계를 디블록킹 필터링한다. SAO 필터(464)는 손실 부호화(lossy coding)으로 인해 발생하는 복원된 픽셀과 원본 픽셀 간의 차이를 보상하기 위해, 디블록킹 필터링 이후의 복원된 블록에 대해 추가적인 필터링을 수행한다. 디블록킹 필터(462) 및 SAO 필터(464)를 통해 필터링된 복원블록은 메모리(470)에 저장된다. 한 픽처 내의 모든 블록들이 복원되면, 복원된 픽처는 이후에 부호화하고자 하는 픽처 내의 블록을 인터 예측하기 위한 참조 픽처로 사용된다.

본 개시의 기술들은 일반적으로 인트라 예측 코딩과 관련되어 있다. 이하의 설명은 주로 복호화 기술, 즉 비디오 복호화기의 동작에 초점이 맞춰져 있으며, 부호화 기술들에 대한 설명은, 포괄적으로 설명된 복호화 기술과 반대이므로, 간략화된다.

차세대 비디오 코딩 표준(VVC; Versatile Video Coding)에 대한 논의에서, HEVC(High Efficiency Video Coding) 표준과 비교하여 더 나은 코딩 성능을 가능하게 하는 몇 가지 새로운 코딩 도구들이 도입되었다. VVC에 도입된 다중 변환 선택(Multiple Transform Selection; MTS) 기법은 DCT-2, DST-7 및 DCT-8를 포함하는 세 개의 삼각함수 변환들(Trigonometric Transforms)에 의존하며, 비디오 부호화기는 율-왜곡 비용을 최대화하는 수평 및 수직 변환을 선택할 수 있다.

MTS가 적용되는 블록에 대해, 가로 방향과 세로 방향으로 어떠한 변환 커널이 사용되는 지를 시그널링하기 위해, 하나 혹은 그 이상의 신택스 엘리먼트들이 코딩될 수 있다.

일 예로, 표 3과 같은 미리 정의된 매핑 테이블과 함께, 3개의 플래그들(MTS_CU_flag, MTS_Hor_flag, MTS_Ver_flag)이 사용될 수 있다.

먼저, DCT-2가 수평 방향과 수직 방향 모두에 사용되는지 여부를 나타내는 하나의 플래그(MTS_CU_flag)가 시그널링될 수 있다. DCT-2를 양방향으로 적용되지 않을 경우에, DST-7와 DCT-8 중에서 어떤 변환 커널을 수평 방향으로 적용할지를 나타내는 하나의 플래그(MTS_Hor_flag)가 시그널링되고, DST-7와 DCT-8 중에서 어떤 변환 커널을 수직 방향으로 적용할지를 나타내는 하나의 플래그(MTS_Ver_flag)가 시그널링될 수 있다. DST-7 및 DCT-8는 최대 32Х32의 블록 사이즈에 대해 이용될 수 있으며, DCT-2는 최대 64Х64의 블록 사이즈에 대해 이용될 수 있다. 따라서, MTS_CU_flag는 블록의 사이즈(너비 및 높이)가 32보다 작거나 같고, 블록이 적어도 하나의 비-제로 잔차 신호를 가지는 경우에 시그널링될 수 있다. MTS_CU_flag가 존재하지 않으면, MTS_CU_flag는 0으로 추론될 수 있다.

대안적으로, 표 4와 같은 미리 정의된 매핑 테이블과 함께 MTS 커널 인덱스를 나타내는 신택스 엘리먼트(tu_mts_idx)이 사용될 수 있다. tu_mts_idx는 MTS 커널 인덱스로 나타내고, 각 인덱스 값에 따라 가로 및 세로 방향의 커널들이 선택된다. 표 4에서 trTypeHor와 trTypeVer는 가로 방향과 세로 방향의 커널의 종류를 나타낸다. 0은 DCT-2, 1은 DST-7, 2는 DCT-8을 의미한다. 예를 들어, tu_mts_idx = 2이면, 가로 방향으로는 DCT-8이, 세로 방향으로는 DST-7이 사용된다.

tu_mts_idx는 SPS에서 sps_explicit_mts_enabled_flag가 1일 때만 시그널링된다. 명시적으로 MTS 인덱스를 시그널링하기 때문에 이것을 ExplicitMTS 라고 한다. 반면, tu_mts_idx는 명시적으로 나타내지 않고 부호화기 및 복호화기에서 암시적(implicit)으로 유도될 수도 있으며, 이를 ImplicitMTS라고 한다. ImplicitMTS는 SPS에서 sps_explicit_mts_enabled_flag가 0일 때 수행될 수 있다. ImplicitMTS 사용 시에, 변환 커널의 선택은 블록에 사용된 인트라 예측 모드, 인터 예측 모드, 블록 크기 등과 같은 정보를 기반으로 수행될 수 있다. 예컨대, 블록의 너비가 4 이상이며 16 이하인 경우에는 가로 방향의 커널로 DST-7을 사용하고 그렇지 않은 경우 DCT-2를 사용한다. 또한, 블록의 높이가 4 이상이며 16 이하인 경우에는 세로 방향의 커널로 DST-7을 사용하고 그렇지 않은 경우 DCT-2를 사용한다. 즉, 블록의 크기가 작은 경우에는 예측 잔차 신호의 방향성이 크기 때문에 DST-7을 사용하고, 상대적으로 큰 블록인 경우 좀더 균일한 특성을 갖는 잔차 신호의 특성이 강하므로 DCT-2 커널을 사용할 수 있다.

표 5는 VVC draft 5에서 규정하고 있는 변환 유닛 신택스의 일부를 보인다. 아래의 신택스에서, 엘리먼트들의 회색화는 이해를 돕기 위해 사용된다.

변환 블록은 변환 동작 없이 코딩될 수 있으며, 이는 적어도 하나의 비-제로 계수를 가지는 변환 블록에 대해 시그널링되는 신택스 엘리먼트 transform_skip_flag에 의해 지시된다. 변환 블록의 코딩 모드의 상위 레벨 제어는 SPS(Sequential Parameter Set)와 같은 HLS(High-Level Syntax) 엘리먼트들 transform_skip_enabled_flag 및 log2_transform_skip_max_size_minus2에 의해 달성된다. transform_skip_enabled_flag가 1 인 경우, 높이와 너비가 "1 << (log2_ transform_skip_max_size_minus2 + 2)" 이하인 변환 블록에 대해 transform_skip_flag가 코딩된다. transform_skip_flag가 1 인 경우, 관련 변환 블록은 변환 생략 모드로 코딩되고, 그렇지 않으면 관련 변환 블록에 MTS 기반의 변환이 적용될 수 있다.

한편, 행렬 기반 인트라 예측(Matrix-based Intra Prediction: MIP)은 VTM 5.0에 도입된 새로운 인트라 예측 기술이다. 원래의 아이디어는 신경망에 기초한 인트라 예측 기술, 즉, 인접한 재구성된 픽셀들에 기초하여 현재의 PU 픽셀 값들을 예측하기 위해 다층 신경망을 사용하는 것이다. 그러나 신경망을 이용한 예측 방법의 높은 복잡성으로 인해, 사전에 훈련된 행렬들을 이용한 아핀 선형 변환에 기초한 인트라 예측 기술이 도입되었다.

너비 W 및 높이 H를 갖는 직사각형 블록 PU를 예측하기 위해, MIP는 블록의 좌측에 재구성된 H개의 샘플들과 블록 상측의 재구성된 W개의 샘플들을 입력으로서 취한다. 그리고 최종 예측된 픽셀들은 평균화(Averaging), 행렬-벡터 곱셈(Matrix-Vector Multiplication) 및 선형 보간(Linear Interpolation) 등에 의해 얻어진다.

MIP가 적용되는 블록의 사이즈들은 다음과 같이 3개의 카테고리로 분류된다.

idx(W,H)에 따라, MIP 모드의 개수(numModes), 경계크기(boundarySize), 예측블록의 크기(predW, predH, predC)가 다음과 같이 정의된다. 아래 표에서 MipSizeId = idx(W,H)이다.

도 5는 본 개시의 기법들에서 사용될 수도 있는 MIP 기술의 주요 프로세스를 도식화한 개념도이다.

(1) 평균 연산(Averaging)

이 단계의 주요 목적은 참조 샘플들을 정규화하는 것이다. 블록 크기 및 형상에 따라(즉, MipSizeId에 따라), 4 또는 8개의 샘플들이 얻어진다. 현재 블록의 너비와 높이가 모두 4인 경우(W=H=4), 왼쪽으로부터 2개와 상단으로부터 2개를 포함한 총 4개의 샘플들이 얻어진다(boundarySize = 2). 나머지 경우에는 왼쪽으로부터 4개와 상단으로부터 4개를 포함한 총 8개의 샘플들이 얻어진다(boundarySize = 4).

도 5에서 보이듯이, 상측 이웃 샘플들은

로 표기되고, 좌측 이웃 샘플들은

로 표기된다.

와

에 대해 각각 평균 연산을 수행하여, 다운 샘플링된 샘플 세트

와

가 얻어진다. 평균 연산은 다음과 같은 다운 샘플링 프로세스이다.

위 수학식에서 bDwn은 다운 샘플링의 스케일 값(nTbs / boundarySize)이며, refS는 오리지널 참조샘플을 가리킨다. 계산된 redS는 좌측 이웃의 경우

로 저장되고, 상측 이웃의 경우

로 저장된다.

다운 샘플링된 참조 샘플들은 길이 4 또는 8의 벡터로 스티칭된다. 벡터-행렬 곱셈 연산에 입력되는 축소된 경계 벡터

은 아래의 수학식과 같이 정의된다. 예를 들어, W=H=4이고 MIP 모드가 18 미만인 경우

와

의 순서로 접합하여 경계 벡터를 구성하며, W=H=4이고 MIP 모드가 18이상이면

와

의 순서로 접합된다. 아래 수학식에서, "mode" 는 MIP 모드를 의미한다.

(2) 행렬-벡터 곱셈(Matrix-Vector Multiplication)

이 단계에서, 축소된 경계 벡터

로부터 현재 블록의 다운 샘플링된 예측 신호

가 생성된다.

는 행렬-벡터의 곱과 오프셋의 합으로 다음과 같이 계산한다.

의 크기는 W_red × H_red 이며, W_red 와 H_red 는 현재 블록의 크기와 형상에 따라 아래와 같이 정의된다. 행렬 A 는 W_red * H_red 만큼의 행(row)들을 가지고, W=H=4 인 경우는 4 개의 열(column)을 가지며, 그 외에는 8 개의 열들을 가진다. 오프셋 벡터 b 는 W_red * H_red 크기의 벡터이다.

블록에 대해 사용될 수 있는 행렬 A 와 오프셋 벡터 b 의 세트들 S₀, S₁, S₂이 블록의 사이즈들의 카테고리별로 미리 정의된다. 세트 S 의 인덱스(0, 1, 2)는 전술한 MipSizeId(즉, idx(W,H))에 따라 선택되며, 행렬 A 와 오프셋 벡터 b 는 세트 S₀, S₁, S₂ 중 하나의 세트로부터 현재 블록에 대해 적용되는 MIP 모드에 따라 추출된다.

세트 S₀ 은 각각 16행과 4열을 갖는 18개의 행렬( A ₀) 과 18개의 16차원 오프셋 벡터( b ₀)로 구성되며, 4×4 인 블록에 사용된다. 세트 S₁ 은 각각 16행과 8열을 갖는 10개의 행렬( A ₁)와 10개의 16차원 오프셋 벡터( b ₁)로 구성되며, 4×8, 8×4 및 8×8 크기의 블록에 사용된다. 마지막으로, 세트 S₂ 는 각각 64행과 8열을 갖는 6개의 행렬( A ₂)과 6개의 64차원 오프셋 벡터( b ₂)으로 구성되며, 나머지 모든 블록 모양에 사용된다.

(3) 픽셀 보간 (interpolation)

보간은 업 샘플링 프로세스이다. 전술한 바와 같이,

는 원래 블록의 다운 샘플링된 예측 신호이다. 이 때 크기 predW 과 predH 을 갖는 다운 샘플링된 예측 블록이 다음과 같이 정의된다.

pred_red[x][y], with x = 0..predW 1, y = 0..predH - 1

나머지 위치에서의 예측 신호를 각 방향에 따라 선형 보간하여 생성하는 원 블록 크기(nTbW, nTbH)의 예측 블록은 다음과 같이 정의된다.

predSamples[x][y], with x = 0..nTbW - 1, y = 0..nTbH - 1

수평 및 수직 업샘플링 스케일 팩터인 upHor(= nTbW / predW)과 upVer (= nTbH / predH)에 의존하여, 다음과 같이,

로부터 predSamples의 일부 혹은 전부가 채워진다.

predSamples[(x+1)　*　upHor - 1][(y+1) * upVer - 1] = pred_red [x][y]

upHor = 1이면

로부터 predSamples의 수평 방향의 모든 위치가 채워지며, upVer = 1이면

로부터 predSamples의 수직 방향의 모든 위치가 채워진다.

이 후 bi-linear 보간법을 통해 predSamples의 나머지 비어있는 샘플들이 채워진다. 수평 방향의 보간과 수직 방향의 보간은 업샘플링 프로세스이다. predSamples 내 좌측 및 상측 샘플들의 보간을 위해, 다운 샘플링된 샘플들

이 predSamples[x][-1] 값들에 할당되며, 좌측의 원래 참조샘플들

이 predSamples[-1][y] 값들에 할당된다.

(4) MIP 인트라 예측 모드의 시그널링

*인트라 예측 코딩되는 각 코딩 유닛(CU)에 대해, 행렬 기반의 인트라 예측 모드(즉, MIP 모드)가 적용되는지 여부를 나타내는 플래그가 전송된다. VVC 5 초안에서는 MIP 모드의 시그널링을 위해, 행렬 기반의 인트라 예측이 아닌 기존의 인트라 예측 모드(이하 '정규 인트라 예측 모드')와 동일하게, MPM 리스트를 사용한다. 예를 들어, MIP 모드의 시그널링을 위해 intra_mip_mpm_flag, intra_mip_mpm_idx, 및 intra_mip_mpm_remainder가 사용된다. intra_mip_mpm_idx는 truncated binary code로 코딩되며, intra_mip_mpm_remainder는 fixed length code로 코딩된다.

코딩 블록(CU)의 크기에 따라, 최대 35개의 MIP 모드들이 지원될 수 있다. 예를 들어, max (W, H) <= 8 및 W*H <32 인 CU에 대해, 35 개의 모드가 이용 가능하다. 그리고 각각 max(W, H) = 8 과 max(W, H) > 8인 CU에 대해 각각 19개 및 11개의 예측 모드가 사용된다. 또한, 한 쌍의 모드(두 개의 모드)가, 메모리 요구 사항을 줄이기 위해, 행렬 및 오프셋 벡터를 공유할 수 있다. 구체적인 공유 모드는 다음과 같이 계산된다. 예컨대, 4×4 코딩 블록에 대해, mode 19는 mode 2에 대해 할당된 행렬의 전치 행렬 (transposed matrix)을 사용한다.

행렬 기반의 인트라 예측(MIP)가 아닌 정규 인트라 예측 모드가 적용되는 블록(이하 '정규 블록'으로 지칭됨)의 주위에 MIP가 적용이 되는 블록이 있는 경우에 정규 블록의 MPM 유도를 위해 MIP 모드와 정규 모드들 간에 정의된 맵핑 테이블이 이용될 수 있다. 맵핑 테이블은 이웃 MIP가 적용되는 블록의 MIP 모드로부터 유사한 특성의 정규 모드를 도출하는데 사용된다. 이렇게 유도한 정규 모드는 정규 블록의 MPM 유도에 사용된다. 유사하게 크로마 DM 유도에서 사용하는 동일 위치의 휘도 블록이 MIP를 적용하는 경우에도 매핑 테이블을 이용해서 정규 모드를 도출하고 크로마 DM 유도에 사용한다. 아래 식은 맵핑 테이블을 이용한 정규 모드와 MIP 모드의 맵핑을 표현한다.

이상에서 설명한 바와 같이, VVC draft 5에서는, 블록을 MIP 기반으로 예측할 때, 항상 블록 좌측의 재구성된 주변 샘플들

과 블록 상단의 재구성된 주변 샘플들

이 이용된다. 이러한 접근법은 블록의 텍스처가 방향 특성을 가지는 블록의 경우에 예측 성능을 저해할 수도 있다. 또한, VVC draft 5에서는 predSamples 내 상측 샘플들의 보간을 위해, 도 5에 보인 바와 같이, 다운 샘플링된 샘플 세트

을 predSamples[x][-1] 값들에 할당하여 사용함으로써, 보간 프로세스를 필요 이상으로 복잡하게 만든다. 나아가, VVC draft 5에서는, MIP 모드와 정규 모드의 시그널링을 위해 각각 MPM 리스트를 사용함에 따라, MIP 모드와 정규 모드 간의 매핑 등이 요구되는 등 많은 검사와 조건으로 인해 구현이 매우 복잡해질 수 있다.

이러한 관점에서, 본 개시는 MPM 코딩에 대한 몇몇 개선된 기법을 제시한다. 본 개시의 일 측면에 따르면, MIP 모드의 구현 복잡도를 낮추고, 블록의 텍스처가 가질 수 있는 방향 특성을 고려할 수도 있는 접근법들이 제시된다.

도 6은 본 발명의 일 실시예에 따른 MIP 기반으로 블록을 예측하는 개략적인 프로세스를 도시한 흐름도이다.

1. MIP 모드의 복호화 단계 (S610)

비디오 복호화기는 인트라 예측 모드로 코딩된 코딩 유닛(CU)에 대해, 인트라 예측 타입이 행렬 기반의 인트라 예측(MIP)인지 여부를 나타내는 플래그를 복호화한다. MIP가 적용되는 경우에, 가용한 복수의 MIP 모드들 중에서, 현재의 코딩 유닛에 사용된 MIP 모드를 지시하는 신택스 엘리먼트를 복호화한다.

기존의 인트라 예측 모드(정규 인트라 예측 모드)와 상이하게, MIP 모드의 시그널링을 위해 MPM 리스트가 사용되지 않을 수도 있다. 예를 들어, 복수의 MIP 모드들 중에서, 현재의 코딩 유닛에 사용된 MIP 모드를 지시하는, 절삭된 이진 코드(truncated binary code)로 코딩될 수 있는, 하나의 신택스 엘리먼트(예컨대, intra_mip_mode)가 사용될 수 있다.

VVC 5 초안에 기초하여 제안된 예시적인 변환 유닛 신택스의 일부가 이하에 제공된다. 아래의 신택스에서, 엘리먼트들의 회색화는 이해를 돕기 위해 사용된다.

intra_mip_flag [ x0 ][ y0 ] 가 1인 경우는 현재 블록의 인트라 예측 타입이 행렬 기반의 인트라 예측(MIP)임을 가리킨다. intra_mip_flag [ x0 ][ y0 ] 가 0인 경우는 현재 블록의 인트라 예측 타입이 행렬 기반의 인트라 예측이 아닌 정규의 인트라 예측임을 가리킨다. intra_mip_flag [ x0 ][ y0 ] 이 존재하지 않으면 0과 같다고 추론될 수 있다. intra_mip_mode [ x0 ][ y0 ] 는 행렬 기반의 인트라 예측(MIP)에서 현재의 블록에 대해 사용되는 MIP 모드를 지정한다.

예측 신호 생성에 사용될 현재 코딩 블록의 이웃 샘플들이 MIP 모드에 따라 상이하게 결정될 수 있다. 일 예로, 4×4 크기의 코딩 블록에 대해, 예컨대, 35개의 MIP 모드가 사용가능하며, 모드의 범위에 따라 예측 신호 생성에 사용될 이웃샘플이 다음과 같이 결정될 수 있다.

현재의 코딩 블록의 픽셀들이 수평 방향 특성을 가지는 경우에, 왼쪽 이웃 샘플들을 이용하여 예측 신호를 생성하는 것이 유리할 수 있다. 유사하게, 현재의 코딩 블록의 픽셀들이 수직 방향 특성을 가지는 경우에, 위쪽 이웃 샘플들을 이용하여 예측 신호를 생성하는 것이 유리할 수 있다.

블록이 가지는 방향 특성에 적합한 MIP 모드를 선택하기 위해, 비디오 부호화기는 인트라 예측 모드의 정규 모드들을 적용하여, 각 모드에 따른 블록의 왜곡값(distortion)을 계산할 수 있다. 수평방향의 예측모드(예컨대, INTRA_ANGULAR_14 ~ INTRA_ANGULAR_22)의 왜곡값이 다른 모드들에 비하여 적은 경우 수평방향이 현재의 코딩 블록의 주요 방향으로 결정될 수 있다. 반대로, 수직방향의 예측모드(예컨대, INTRA_ANGULAR_46 ~ INTRA_ANGULAR_54)의 왜곡값이 다른 모드들에 비하여 적은 경우 수직방향이 현재의 코딩 블록의 주요 방향으로 결정될 수 있다.

수평방향이 주요 방향인 경우, 부호화기는 왼쪽 이웃 샘플들만을 이용하는 MIP 모드들 중 하나를 현재의 코딩 블록에 할당한다. 반대로, 수직방향이 주요 방향인 경우, 부호화기는 위쪽 이웃 샘플들만을 이용하는 MIP 모드들 중 하나를 현재의 코딩 블록에 할당할 수 있다.

이하에서는 설명의 편의를 위해, 왼쪽 이웃 샘플들을 이용하는 경우와 위쪽 이웃 샘플들을 이용하는 경우를 구분하여, 경계 벡터 및 이로부터 예측 샘플들을 결정하는 방법을 설명한다. 왼쪽 및 위쪽 이웃 샘플들을 모두 이용하는 경우의 프로세스는 도 5를 참조하여 설명한 것과 실질적으로 동일할 수 있다.

2-1. 경계 벡터 생성- 왼쪽 이웃 샘플들 이용 (S620)

도 7a 내지 도 7c는 왼쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성하는 예시적인 방법을 보이는 개념도이다.

일 예로, 도 7a에 예시된 바와 같이, 현재의 코딩 블록의 크기(높이)와 경계 벡터

의 크기가 동일한 경우에, 왼쪽 이웃 샘플 세트

을 이용하여 같은 크기의 경계 벡터

가 채워질 수 있다. 예컨대, 왼쪽 이웃 샘플들 각각이 경계 벡터의 엔트리에 포함될 수 있다.

다른 일 예로, 도 7b에 예시된 바와 같이, 왼쪽에 이웃한 두 개의 열을 이용하여, 각 행의 두 픽셀 간의 평균값을 계산함으로써, 경계 벡터

가 채워질 수 있다.

또 다른 일 예로, 도 7c에 예시된 바와 같이, 왼쪽 이웃 샘플 세트

로부터 얻어진 다운 샘플링된 샘플 세트

을 이용하여 경계 벡터

가 채워질 수도 있다.

는

을 두 샘플씩 평균하여 얻어질 수 있다.

코딩 블록의 크기에 따라, 적응적으로

와

가 사용될 수도 있다. 예를 들어, 아래 수학식과 같이, H<=8 이면

가 사용되고, 그 외에는

가 사용될 수 있다.

2-2. 경계 벡터 생성 - 위쪽 이웃 샘플들 이용 (S620)

도 8a 내지 도 8c는 위쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성하는 예시적인 방법을 보이는 개념도이다.

일 예로, 도 8a에 예시된 바와 같이, 현재의 코딩 블록의 크기(너비)와 경계 벡터

의 크기가 동일한 경우에, 위쪽 이웃 샘플 세트

을 이용하여 같은 크기의 경계 벡터

가 채워질 수 있다. 예컨대, 위쪽 이웃 샘플들 각각이 경계 벡터의 엔트리에 포함될 수 있다.

다른 일 예로, 도 8b에 예시된 바와 같이, 위쪽에 이웃한 두 개의 행을 이용하여, 각 열의 두 픽셀 간의 평균값을 계산함으로써, 경계 벡터

가 채워질 수 있다.

또 다른 일 예로, 도 8c에 예시된 바와 같이, 위쪽 이웃 샘플 세트

로부터 얻어진 다운 샘플링된 샘플 세트

을 이용하여 경계 벡터

가 채워질 수도 있다.

는

을 두 샘플씩 평균하여 얻어질 수 있다.

코딩 블록의 크기에 따라, 적응적으로

와

가 사용되고, 그 외에는

가 사용될 수 있다.

3. 행렬-벡터 곱셈 및 오프셋 가산 (S630)

비디오 복호화기는, 경계 벡터

에 대해, 행렬-벡터 곱 연산을 수행하고 오프셋 벡터를 가산한다. 행렬(A)과 오프셋 벡터(b)은 복호화된 MIP 모드 k에 따라 결정될 수 있다. 그 결과는 원래 블록의 예측 신호 또는 서브 샘플링 된 예측 신호

가 생성된다.

는 다음과 같이 계산한다.

여기서,

의 크기는 W_red × H_red 이다.

왼쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성한 경우에, W_red 와 H_red 는 코딩 블록의 크기에 따라 다음과 같이 결정될 수 있다.

위쪽 이웃 샘플들을 이용하여 행렬-벡터 곱셈 연산에 입력되는 경계 벡터를 구성한 경우에, W_red 와 H_red 는 코딩 블록의 크기에 따라 다음과 같이 결정될 수 있다.

생성된

의 크기가 코딩 블록의 샘플 숫자보다 작은 경우 보간이 필요하다.

4. 선형 보간 (S640)

도 9는 왼쪽 이웃 샘플들, 경계 벡터, 및 이로부터 예측된 예측 샘플들을 보인다. 도 9에서, 현재의 코딩 블록에 대한 예측 블록 predSamples[x][y] 내에 삼각형으로 표시된 픽셀들은 생성된

로부터 할당된 값이다.

도 9을 참조하면, 예측 블록 predSamples[x][y] 내 비어있는 픽셀들을 결정하기 위해, 다양한 보간 방법들이 사용될 수 있다.

예를 들어, 1번 픽셀과 같이, 왼쪽 이웃 샘플, 윗쪽 이웃 샘플 및 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수 있다. 다른 예로, 2번 픽셀과 같이, 윗쪽 이웃 샘플 및 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수 있다. 또 다른 예로, 3번 픽셀과 같이, 위쪽

과 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수도 있다. 또 다른 예로, 4번 픽셀과 같이, 왼쪽 이웃 샘플, 위쪽

및 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수도 있다.

도 10은 위쪽 이웃 샘플들, 경계 벡터 및 이로부터 얻어진 예측 샘플들을 보인다. 도 10에서, 현재의 코딩 블록에 대한 예측 블록 predSamples[x][y] 내에 삼각형으로 표시된 픽셀들은 생성된

로부터 할당된 값이다.

도 10를 참조하면, 예측 블록 predSamples[x][y] 내 비어있는 픽셀들을 결정하기 위해, 다양한 보간 방법들이 사용될 수 있다. 예를 들어, 1번 픽셀과 같이, 왼쪽 이웃 샘플, 윗쪽 이웃 샘플 및 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수 있다. 다른 예로, 2번 픽셀과 같이, 왼쪽 이웃 샘플, 위쪽

과 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수도 있다. 또 다른 예로, 4번 픽셀과 같이, 위쪽 이웃 샘플 및 아래쪽

을 이용하여 비어있는 픽셀 값을 결정할 수도 있다.

도 9 및 도 10에 예시된 것과 달리, 예측 블록 predSamples[x][y] 내 비어있는 픽셀들을 결정하기 위해, 상단의 오리지널 참조샘플들

이 predSamples[x][-1] 값들에 할당되고, 좌측의 오리지널 참조샘플들

이 predSamples[-1][y] 값들에 할당될 수도 있다.

이상의 실시예는 MIP 기반으로 예측 블록을 생성함에 있어서 블록의 방향성이 고려될 수 있도록, MIP 모드에 따라 현재 블록의 이웃 샘플들을 선택적으로 사용하는 방식을 도입했다.

본 발명의 다른 측면에 따르면, MIP 모드에 따라 경계 벡터를 생성하는 데에 사용되는 이웃 샘플 세트를 달리하는 것 대신에, 경계 벡터에 대해 적용될 행렬 A 와 오프셋 b 의 값을 수정하는 방식을 사용할 수도 있다.

경계 벡터에 대한 행렬-벡터 곱셈 연산과 오프셋 가산 연산에 적용되는 행렬 A 와 오프셋 b 를 다음과 같이 두 부분으로 구분할 수 있다.

A2 와 b2 가 가지는 값들을 0으로 근사하면, 예측 신호

는 주로 왼쪽 이웃 픽셀

에 영향을 받게 되며, 이는 블록의 텍스처가 수평 방향성을 가지는 블록에 대해 유용할 수 있다. A1 와 b1 가 가지는 값을 0으로 근사하면, 예측 신호

는 주로 위쪽 이웃 픽셀

에 영향을 받게 되며, 이는 블록의 텍스처가 수직 방향성을 가지는 블록에 대해 유용할 수 있다.

비디오 부호화기 및 복호화기는 현재 블록의 MIP 모드에 따라 경계 벡터에 대한 적용될 행렬 A 와 오프셋 b 의 값을 수정하여 사용할 수 있다. 일 예로, 4×4 크기의 코딩 유닛에 대해, 예컨대, 35개의 MIP 모드가 사용가능하며, 모드의 범위에 따라 경계 벡터에 대한 적용될 행렬 A 와 오프셋 b 의 값을 수정하여 사용할 수 있다.

전술한 바와 같이, VVC draft 5는 코딩블록(CU)의 크기 및 형상에 따라 최대 35개의 MIP 모드들이 지원한다. 예를 들어, max (W, H) <= 8 && W*H <32 인 CU에 대해, 35 개의 모드가 이용 가능하며, 각각 max(W, H) = 8 및 max(W, H) > 8인 CU에 대해 각각 19개 및 11개의 예측 모드가 사용된다. 또한, 한 쌍의 모드(두 개의 모드)가, 메모리 요구 사항을 줄이기 위해, 행렬 및 오프셋 벡터를 공유할 수 있다. 예컨대, 4×4 코딩 블록에 대해, mode 19는 mode 2에 대해 할당된 행렬의 전치 행렬(transposed matrix)을 사용한다. 나아가, MIP 모드와 블록의 크기에 따라 결정되는 순서로

와

를 접합함으로써, 벡터-행렬 곱셈 연산에 입력되는 경계 벡터

가 생성된다.

복잡도를 낮추면서도 실질적으로 동등한 수준의 코딩 효율을 달성할 수 있는 개선된 접근법이 사용될 수 있다. 본 개시의 다른 측면에 따르면, 하나의 모드가 다른 하나의 모드가 사용하는 행렬을 전치하여 사용하는 종래의 방식 대신에, 각 모드에 대해, 벡터-행렬 곱셈에 사용되는 경계 벡터

를 구성하는

와

를 접합하는 순서를 변경 가능하도록 구성된 새로운 방식이 사용될 수 있다. 비디오 부호화기는 각 모드에 대해, 경계 벡터

를 구성하는

와

를 접합하는 순서를 지시하는 신택스 엘리먼트를 시그널링할 수 있다. 이러한 방식에 따르면, 가용한 MIP 모드의 수는 기존의 방식에 비해 절반 수준으로 줄어들 수 있으며, 경계 벡터의 생성 및 벡터-행렬 곱셈 연산을 위한 코딩 복잡도를 감소시킬 수 있다.

한편, 표 5의 신택스 구조와 관련하여 설명한 바와 같이, 특정 조건들을 만족하는 변환 유닛에 대해서는 매번 변환생략 관련 신택스 요소인 transform_skip_flag를 시그널링하며, transform_skip_flag가 참이 아닌 경우, SPS에서의 플래그들(sps_explicit_mts_inter_enabled_flag, sps_explicit_mts_intra_enabled_flag)에 따라 다중변환선택 관련 신택스 요소인 tu_mts_idx를 전송해야 하므로, 비트스트림에서 전송할 비트 수에 부담을 주게 된다.

그러나 이러한 다중변환선택 및 변환생략은 잔차 신호의 특성과 밀접하게 관련되어 있으며, 그에 따라 블록에 사용된 예측 모드와 무관하게, 변환 관련 신택스 요소들을 항상 시그널링하는 것이 효율적이지 않을 수도 있다. 본 발명자들은 평균값 연산과 보간 연산을 포함하는 행렬 기반 인트라 예측(MIP) 기법의 프로세스 고려할 때, MIP가 적용된 블록의 잔차신호는 변환 도메인에서 저주파수 성분이 우세한 특성을 가지며, 복잡한 움직임과 텍스처를 포함하는 블록과 같이 픽셀간 상관관계가 적을 수 있는 블록에는 MIP가 적용되지 않을 가능성이 높다는 점에 주목한다. 따라서, MIP가 사용된 블록에 대해서는 변환 생략(transform skip)이 적용되지 않을 가능성이 높다.

이러한 관점에서, 블록에 MIP가 적용되는지 여부에 무관하게, 다중변환선택 관련 신택스 엘리먼트인 tu_mts_idx와 변환생략 관련 신택스 엘리먼트인 transform_skip_flag를 항상 시그널링하는 접근법은 그리 효율적이지 않을 수 있다.

본 개시의 일 측면에 따르면, MIP 적용 여부에 따라 변환 관련 신택스 요소들의 시그널링이 생략될 수 있으며, 생략된 신택스 요소들은 비디오 복호화기에 의해 암시적으로 추론될 수 있다.

일 실시예에서, MIP 플래그에 따라 다중변환선택(MTS) 기법이 암시적으로 적용될 수 있다. 아래의 표와 같이, intra_mip_flag가 참이 아닌 경우에만 transform_skip_flag와 tu_mts_idx가 코딩될 수 있다. intra_mip_flag가 참인 경우에는, transform_skip_flag는 0으로 추론되고, tu_mts_idx도 0으로 추론되며, implicit MTS를 적용되는 것으로 추론된다. 따라서, 가로 및 세로 방향의 변환 커널은 블록 크기에 따라 결정될 수 있다. 아래의 신택스에서, 엘리먼트들의 회색화는 신택스에서의 잠재적 변화들을 표시하기 위해 또는 이해를 돕기 위해 사용된다.

다른 실시예에서, MIP 플래그에 따라 다중변환선택(MTS) 기법이 명시적으로 적용될 수 있다. 아래의 표와 같이, intra_mip_flag가 참이 아닌 경우에만 transform_skip_flag와 tu_mts_idx가 코딩될 수 있다. intra_mip_flag가 참인 경우에는, transform_skip_flag는 0으로 추론되고, tu_mts_idx는 명시적으로 시그널링되어 explicit MTS가 적용된다. 아래의 신택스에서, 엘리먼트들의 회색화는 신택스에서의 잠재적 변화들을 표시하기 위해 또는 이해를 돕기 위해 사용된다.

가능한 다른 실시예에서, 복잡한 움직임과 텍스처를 포함하는 작은 크기의 블록과 같이 픽셀 간 상관관계가 적을 수 있는 블록에는 MIP를 명시적으로 적용하지 않을 수 있다. MIP가 적용된 4x4 CU에는 변환 생략(TS)이 적용되지 않을 수도 있다. 또한, 변환 생략(TS)이 적용된 4x4 CU에는 MIP가 적용되지 않을 수도 있다. 또한, MIP는 TS와 함께 4x4 CU에 적용이 되지 않을 수도 있다.

종래의 접근법에서, MPM(Most Probable Mode)를 사용하는 인트라 예측 코딩이 사용될 수 있다. 예를 들어, HEVC에서, 3개의 MPM들의 리스트는 왼쪽 및 위쪽 블록의 인트라 예측 모드로부터 구성된다. 이러한 방법의 단점은 더 많은 모드(MPM이 아닌 인트라 모드)가 더 많은 비트로 코딩되어야 하는 non-MPM들에 속한다는 것이다. MPM의 수를 3개 이상의 엔트리(예를 들어, 6개의 MPM 모드)로 확장하기 위한 몇몇 방법이 제안되었다. 그러나 더 많은 엔트리가 포함된 이러한 MPM 리스트를 구성하려면 더 많은 검사와 조건이 필요할 수 있으며 이로 인해 구현이 더 복잡해질 수 있다.

전술한 바와 같이, VVC draft 5에서는, MIP 모드와 정규 모드의 시그널링을 위해 각각 MPM 리스트를 사용함에 따라, MIP 리스트를 구성하기 위해 MIP 모드와 정규 모드 간의 매핑 등이 요구되는 등 많은 검사와 조건으로 인해 구현이 매우 복잡해질 수 있다.

MPM 리스트 구성의 복잡성을 낮게 유지하기 위해, 현재블록에 인접한 좌측블록 및 상단블록의 인트라 예측 모드를 이용하여 6개의 MPM 후보들을 포함하는 MPM 리스트가 구성될 수 있다. MPM 후보들은 디폴트 인트라 예측 모드(예컨대, PLANAR 모드), 주변 블록의 인트라 예측 모드, 주변 블록의 인트라 예측 모드로부터 파생된 인트라 예측 모드로 구성될 수 있다. 주변 블록의 인트라 예측 모드가 이용하지 않을 때(예를 들어, 주변 블록이 인터 예측된 경우, 주변 블록이 다른 슬라이스 혹은 다른 타일에 위치한 경우), 주변 블록의 인트라 예측 모드의 인트라 예측 모드는 Planar로 설정될 수 있다.

좌측블록의 모드(Left) 및 상단블록의 모드(Above)의 인트라 예측 모드의 타입에 따라 크게 4가지 경우로 구분되며, Left와 Above가 서로 다르며 두 모드가 모두 방향성 모드인 경우 Left와 Above의 차이에 따라 4가지로 경우로 더 구분하여 MPM 리스트가 생성될 수 있다. 아래 표에서 Max는 Left와 Above 중 큰 모드를 가리키며, MIN는 Left와 Above 중 작은 모드를 가리킨다.

평균값 연산과 보간 연산을 포함하는 행렬 기반 인트라 예측(MIP) 기법의 특성상, MIP가 적용된 블록의 잔차신호는 변환 도메인에서 저주파수 성분이 우세할 수 있다. 이러한 잔차 특성은 Planar 모드 혹은 DC 모드가 적용된 블록의 잔차신호와 유사하다는 데에 주목한다. 따라서, 정규 인트라 예측 모드로 코딩되는 블록의 MPM 리스트를 유도하는 함에 있어서, 이러한 잔차신호의 유사성을 고려하는 것이 유용할 수 있다.

본 개시의 일 측면에 따르면, 정규의 인트라 예측 모드로 코딩된 블록(즉, 정규 블록)에 대해 MPM 리스트를 유도함에 있어서, 주변 블록이 MIP 모드로 코딩된 경우에, 주변 블록의 인트라 예측 모드가 planar 모드(혹은 DC 모드)인 것으로 간주될 수 있다. 일 예로, 주변 블록에 MIP 모드가 적용된 경우에, 그 주변 블록의 MIP 모드 대신 Planar 모드(혹은 DC 모드)를 MPM 리스트에 추가할 수 있다.

유사하게, 크로마 DM(direct mode) 유도 시에도, 동일 위치의 루마 블록에 MIP가 적용된 경우에, MIP 모드와 정규 모드 간의 매핑 테이블을 사용하는 대신에, 그 루마 블록의 인트라 예측 모드는 planar 모드(혹은 DC 모드)로 간주될 수 있다. 따라서, 부호화기는, 크로마 블록에 대한 인트라 예측 모드를 특정하는 신택스 엘리먼트를 파싱하고, 그 신택스 엘리먼트에 의해 크로마 블록의 인트라 예측 모드가 동일 위치의 루마 블록의 인트라 예측 모드를 그대로 이용한다고 지시되고, 그 동일 위치의 루마 블록에 MIP가 적용된 경우에, 그 루마 블록의 인트라 예측 모드는 planar 모드(혹은 DC 모드)로 간주될 수 있다. 즉, 크로마 DM(direct mode) 에서 동일 위치의 루마 블록에 MIP가 적용된 경우에, 크로마 블록의 인트라 예측 모드는 planar 모드(혹은 DC 모드)로 결정될 수 있다.

비디오 부호화기는 현재블록의 인트라 예측 모드가 MPM에 해당하는지 여부를 나타내는 1비트 플래그(예컨대, mpm_flag)를 시그널링할 수 있다. 전형적으로, 현재블록의 인트라 예측 모드가 MPM에 해당하는 경우에, 6개의 MPM들 중에서 하나(즉, Planar 모드)를 지시하는 MPM 인덱스가 추가로 시그널링된다. 위 표에서 Planar 모드가 항상 MPM 리스트에 포함됨에 주목한다. 따라서, 부호화기는 현재블록의 인트라 예측 모드가 Planar 모드인 경우에, 현재블록의 인트라 예측 모드가 Planar 모드인지 여부를 (예컨대, 1비트 플래그를 이용하여) 명시적으로 시그널링하고, 현재블록의 인트라 예측 모드가 나머지 5개의 MPM 중 하나와 동일한 경우에, 나머지 5개의 MPM 중에서 하나를 지시하는 MPM 인덱스를 추가로 시그널링하는 것이 효율적일 수 있다. 현재블록의 인트라 예측 모드가 MPM에 해당하지 않는 경우에, 6개의 MPM들을 제외한 나머지 61개의 non-MPM들 중 하나를 지시하는 신택스 엘리먼트가 절삭된 이진 코드(truncated binary code)를 이용하여 부호화될 수 있다.

도 11은 본 발명의 일 실시예에 따른 비디오 데이터를 복호화하는 방법을 예시하는 흐름도이다.

비디오 복호화기는 비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화할 수 있다(S1110). 인트라 예측 타입은 행렬 기반 인트라 예측(matrix based intra prediction: MIP)과 정규 인트라 예측(regular intra prediction)을 포함한다. 상기 신택스 엘리먼트는 현재 블록의 크기 및 형상에 대해 허용되는 복수의 행렬 기반 인트라 예측 모드들 중에서 하나를 특정하는 절삭된 이진 코드(truncated binary code) 일 수 있다.

비디오 복호화기는 현재 블록의 인트라 예측 타입에 기반하여 행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 현재 블록에 대한 예측 블록을 생성할 수 있다.

비디오 복호화기는 정규 인트라 예측을 수행하여 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서, 다음과 같은 단계들(S1120~S1140)을 수행할 수 있다. 비디오 복호화기는 현재 블록에 인접한 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM(Most Probable Mode) 후보들을 도출하여 상기 현재 블록에 대한 MPM 리스트를 구성하고(S1120), MPM 리스트에 기초하여 상기 현재 블록에 대한 정규 인트라 예측 모드를 도출할 수 있다(S1130). 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM 후보들을 도출함에 있어서, 비디오 복호화기는 주변 블록의 인트라 예측 타입이 행렬 기반 인트라 예측인 경우에, 주변 블록의 정규 인트라 예측 모드는 PLANAR 모드로 설정(간주)할 수 있다. 복호화기는 현재 블록의 정규 인트라 예측 모드를 이용하여 현재 블록에 대한 예측 블록을 생성할 수 있다(S1140).

비디오 복호화기는 행렬 기반 인트라 예측을 수행하여 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서, 다음과 같은 단계들(S1121~S1151)을 수행할 수 있다. 비디오 복호화기는, 현재 블록에 대한 행렬 기반 인트라 예측 모드를 결정하기 위해, 비트스트림으로부터 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트를 복호화할 수 있다(S1121). 비디오 복호화기는 현재 블록의 크기 및 형상에 기초하여 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하고(S1131), 현재 블록에 대한 행렬 기반 인트라 예측 모드에 대해 미리 정의된 행렬과 경계 벡터 간의 행렬-벡터 곱셈에 기초하여, 현재 블록에 대한 예측 샘플들을 생성할 수 있다(S1141). 비디오 복호화기는 예측 샘플들을 기초로 선형 보간, 클리핑 등을 수행하여 현재 블록에 대한 예측 블록을 도출할 수 있다(S1151).

비디오 복호화기는 현재 블록에 인접한 좌측 주변 샘플들의 세트 및 상측 주변 샘플들의 세트 중에서, 현재 블록에 대한 행렬 기반 인트라 예측 모드에 의존하여, 선택된 하나 혹은 두 개의 세트들로부터 상기 경계 벡터를 도출할 수 있다.

비디오 복호화기는 비트스트림으로부터 현재 블록에 인접한 좌측 주변 샘플들로부터 도출된 경계 벡터의 제 1 엔트리들과 현재 블록에 인접한 상측 주변 샘플들로부터 도출된 경계 벡터의 제 2 엔트리들 간의 접합 순서를 지시하는 신택스 엘리먼트를 복호화할 수 있다. 비디오 복호화기는 지시되는 접합 순서에 따라 제 1 엔트리들과 제 2 엔트리들을 접합하여 경계 벡터를 생성할 수 있다.

상기 경계 벡터의 엔트리들은, 상기 현재 블록의 크기 및 형상에 따라, 상기 현재 블록에 인접한 좌측 주변 샘플들로부터 다운 샘플링된 값들 또는 상기 현재 블록에 인접한 좌측 주변 샘플들로 채워질 수 있다.

비디오 복호화기는 예측 샘플들을 기초로 현재 블록에 대한 예측 블록을 도출하기 위해, 예측 샘플들을 예측 블록 내 위치들에 할당할 수 있다. 예측 블록 내 예측 샘플들이 할당되지 않은 위치들에 대한 예측 샘플값을 생성하기 위해, 예측 샘플들, 현재 블록에 인접한 좌측 주변 샘플들 및 현재 블록에 인접한 상측 주변 샘플들에 대한 선형 보간을 수행할 수 있다.

이상의 설명에서 예시적인 실시예들은 많은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 하나 이상의 예시들에서 설명된 기능들 혹은 방법들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 본 명세서에서 설명된 기능적 컴포넌트들은 그들의 구현 독립성을 특히 더 강조하기 위해 "...부(unit)" 로 라벨링되었음을 이해해야 한다.

한편, 본 개시에서 설명된 다양한 기능들 혹은 방법들은 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 비일시적 기록매체에 저장된 명령어들로 구현될 수도 있다. 비일시적 기록매체는, 예를 들어, 컴퓨터 시스템에 의하여 판독가능한 형태로 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 예를 들어, 비일시적 기록매체는 EPROM(erasable programmable read only memory), 플래시 드라이브, 광학 드라이브, 자기 하드 드라이브, 솔리드 스테이트 드라이브(SSD)와 같은 저장매체를 포함한다.

이상의 설명은 본 발명의 기술적 사상에 따른 몇몇 실시예를 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 예시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술적 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

비디오 데이터를 복호화하는 방법으로서,
비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화하는 단계 - 상기 인트라 예측 타입은 행렬 기반 인트라 예측(matrix based intra prediction: MIP)과 정규 인트라 예측(regular intra prediction)을 포함함 -; 및
상기 신택스 엘리먼트가 지시하는 현재 블록의 인트라 예측 타입에 기반하여 행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계
를 포함하고,
상기 정규 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계는,
상기 현재 블록에 인접한 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM(Most Probable Mode) 후보들을 도출하여 상기 현재 블록에 대한 MPM 리스트를 구성하는 단계; 및
상기 MPM 리스트에 기초하여 상기 현재 블록에 대한 정규 인트라 예측 모드를 도출하는 단계를 포함하고,
상기 주변 블록의 인트라 예측 타입이 행렬 기반 인트라 예측인 경우에, 상기 주변 블록의 정규 인트라 예측 모드는 PLANAR 모드로 설정되는 것을 특징으로 하는,
방법.
제 1 항에 있어서,
상기 행렬 기반 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 단계는,
상기 비트스트림으로부터 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트를 복호화하는 단계;
상기 현재 블록의 크기 및 형상에 기초하여 상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계;
상기 행렬 기반 인트라 예측 모드에 대해 미리 정의된 행렬과 상기 경계 벡터 간의 행렬-벡터 곱셈에 기초하여, 상기 현재 블록에 대한 예측 샘플들을 생성하는 단계; 및
상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계
를 포함하는 것을 특징으로 하는, 방법.
제 2 항에 있어서,
상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트는,
상기 현재 블록의 크기 및 형상에 대해 허용되는 복수의 행렬 기반 인트라 예측 모드들 중에서 하나를 특정하는 절삭된 이진 코드(truncated binary code)인 것을 특징으로 하는, 방법.
제 3 항에 있어서,
상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계는,
상기 현재 블록에 인접한 좌측 주변 샘플들의 세트 및 상측 주변 샘플들의 세트 중에서, 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드에 의존하여, 선택된 하나 혹은 두 개의 세트들로부터 상기 경계 벡터를 도출하는 단계를 포함하는 것을 특징으로 하는, 방법.
제 3 항에 있어서,
상기 현재 블록에 인접한 주변 샘플들로부터 경계 벡터를 도출하는 단계는,
상기 비트스트림으로부터 상기 현재 블록에 인접한 좌측 주변 샘플들로부터 도출된 상기 경계 벡터의 제 1 엔트리들과 상기 현재 블록에 인접한 상측 주변 샘플들로부터 도출된 상기 경계 벡터의 제 2 엔트리들 간의 접합 순서를 지시하는 신택스 엘리먼트를 복호화하는 단계; 및
상기 접합 순서에 따라 상기 제 1 엔트리들과 상기 제 2 엔트리들을 접합하여 상기 경계 벡터를 생성하는 단계
를 포함하는 것을 특징으로 하는, 방법.
제 3 항에 있어서,
상기 경계 벡터의 엔트리들은,
상기 현재 블록의 크기 및 형상에 따라, 상기 현재 블록에 인접한 좌측 주변 샘플들로부터 다운 샘플링된 값들 또는 상기 현재 블록에 인접한 좌측 주변 샘플들로 채워지는 것을 특징으로 하는, 방법.
제 3 항에 있어서,
상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계는,
상기 예측 샘플들을 상기 예측 블록 내 위치들에 할당하는 단계; 및
상기 예측 샘플들, 상기 현재 블록에 인접한 좌측 주변 샘플들 및 상기 현재 블록에 인접한 상측 주변 샘플들에 대한 선형 보간을 이용하여, 상기 예측 블록 내 상기 예측 샘플들이 할당되지 않은 위치들에 대한 예측 샘플값을 생성하는 단계
를 포함하는 것을 특징으로 하는, 방법.
제 2 항에 있어서,
상기 현재블록은 루마(luma) 성분으로 이루어진 루마 블록인 것을 특징으로 하는, 방법.
제 8 항에 있어서,
상기 루마 블록에 상기 행렬 기반 인트라 예측이 수행되고, 상기 루마 블록에 대응하는 크로마 블록의 인트라 예측 모드가 상기 루마 블록의 인트라 예측 모드를 그대로 이용하는 경우에, 상기 루마 블록에 대한 정규 인트라 예측 모드는 PLANAR 모드로 설정되는 것을 특징으로 하는, 방법.
비디오 데이터를 복호화하는 장치로서,
비트스트림으로부터 비디오 데이터의 현재 블록의 인트라 예측 타입을 지시하는 신택스 엘리먼트를 복호화하는 복호화부 - 상기 인트라 예측 타입은 행렬 기반 인트라 예측과 정규 인트라 예측을 포함함 -; 및
상기 신택스 엘리먼트가 지시하는 현재 블록의 인트라 예측 타입에 기반하여 행렬 기반 인트라 예측 또는 정규 인트라 예측을 선택적으로 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 인트라 예측부
를 포함하고,
상기 인트라 예측부는,
상기 정규 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서,
상기 현재 블록에 인접한 주변 블록들의 정규 인트라 예측 모드를 기초로 MPM(Most Probable Mode) 후보들을 도출하여 상기 현재 블록에 대한 MPM 리스트를 구성하고,
상기 MPM 리스트에 기초하여 상기 현재 블록에 대한 정규 인트라 예측 모드를 도출하되, 상기 주변 블록의 인트라 예측 타입이 행렬 기반 인트라 예측인 경우에, 상기 주변 블록의 정규 인트라 예측 모드를 PLANAR 모드로 설정하는 것을 특징으로 하는, 장치.
제 10 항에 있어서,
상기 인트라 예측부는,
상기 행렬 기반 인트라 예측을 수행하여 상기 현재 블록에 대한 예측 블록을 생성하는 것의 일부로서,
상기 비트스트림으로부터 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트를 복호화하는 단계;
상기 현재 블록의 크기 및 형상에 기초하여 상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계;
상기 행렬 기반 인트라 예측 모드에 대해 미리 정의된 행렬과 상기 경계 벡터 간의 행렬-벡터 곱셈에 기초하여, 상기 현재 블록에 대한 예측 샘플들을 생성하는 단계; 및
상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계
를 수행하는 것을 특징으로 하는, 장치.
제 11 항에 있어서,
상기 현재 블록에 대한 행렬 기반 인트라 예측 모드를 지시하는 신택스 엘리먼트는,
상기 현재 블록의 크기 및 형상에 대해 허용되는 복수의 행렬 기반 인트라 예측 모드들 중에서 하나를 특정하는 절삭된 이진 코드(truncated binary code)인 것을 특징으로 하는, 장치.
제 12 항에 있어서,
상기 현재 블록에 인접한 주변 샘플들을 이용하여 경계 벡터를 도출하는 단계는,
상기 현재 블록에 인접한 좌측 주변 샘플들의 세트 및 상측 주변 샘플들의 세트 중에서, 상기 현재 블록에 대한 행렬 기반 인트라 예측 모드에 의존하여, 선택된 하나 혹은 두 개의 세트들로부터 상기 경계 벡터를 도출하는 단계를 포함하는 것을 특징으로 하는, 장치.
제 12 항에 있어서,
상기 현재 블록에 인접한 주변 샘플들로부터 경계 벡터를 도출하는 단계는,
상기 비트스트림으로부터 상기 현재 블록에 인접한 좌측 주변 샘플들로부터 도출된 상기 경계 벡터의 제 1 엔트리들과 상기 현재 블록에 인접한 상측 주변 샘플들로부터 도출된 상기 경계 벡터의 제 2 엔트리들 간의 접합 순서를 지시하는 신택스 엘리먼트를 복호화하는 단계; 및
상기 접합 순서에 따라 상기 제 1 엔트리들과 상기 제 2 엔트리들을 접합하여 상기 경계 벡터를 생성하는 단계
를 포함하는 것을 특징으로 하는, 장치.
제 12 항에 있어서,
상기 경계 벡터의 엔트리들은,
상기 현재 블록의 크기 및 형상에 따라, 상기 현재 블록에 인접한 좌측 주변 샘플들로부터 다운 샘플링된 값들 또는 상기 현재 블록에 인접한 좌측 주변 샘플들로 채워지는 것을 특징으로 하는, 장치.
제 12 항에 있어서,
상기 예측 샘플들을 기초로 상기 현재 블록에 대한 예측 블록을 도출하는 단계는,
상기 예측 샘플들을 상기 예측 블록 내 위치들에 할당하는 단계; 및
상기 예측 샘플들, 상기 현재 블록에 인접한 좌측 주변 샘플들 및 상기 현재 블록에 인접한 상측 주변 샘플들에 대한 선형 보간을 이용하여, 상기 예측 블록 내 상기 예측 샘플들이 할당되지 않은 위치들에 대한 예측 샘플값을 생성하는 단계
를 포함하는 것을 특징으로 하는, 장치.
제 11 항에 있어서,
상기 현재블록은 루마(luma) 성분으로 이루어진 루마 블록인 것을 특징으로 하는, 장치.
제 17 항에 있어서,
상기 루마 블록에 상기 행렬 기반 인트라 예측이 수행되고, 상기 루마 블록에 대응하는 크로마 블록의 인트라 예측 모드가 상기 루마 블록의 인트라 예측 모드를 그대로 이용하는 경우에, 상기 루마 블록에 대한 정규 인트라 예측 모드는 PLANAR 모드로 설정되는 것을 특징으로 하는, 장치.