KR20200055124A

KR20200055124A - 비디오 인코딩 및 비디오 디코딩을 위한 방법들 및 장치들

Info

Publication number: KR20200055124A
Application number: KR1020207012476A
Authority: KR
Inventors: 앙투안 로베르; 파브리쓰 르레아넥; 탕기 푸아리에
Original assignee: 인터디지털 브이씨 홀딩스 인코포레이티드
Priority date: 2017-10-05
Filing date: 2018-10-04
Publication date: 2020-05-20
Also published as: CN111418209B; US20200288166A1; EP3468196A1; CN111418209A; EP3692719A1; WO2019070944A1

Abstract

화상 내의 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보를 결정하고, 적어도 하나의 예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하고, 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하고, 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하고, 대응하는 움직임 필드에 기초하여 블록을 인코딩하는 것에 대해 구현들이 설명된다.

Description

비디오 인코딩 및 비디오 디코딩을 위한 방법들 및 장치들

본 실시예들 중 적어도 하나는 일반적으로, 예를 들어, 비디오 인코딩 또는 디코딩을 위한 방법 또는 장치에 관한 것이고, 특히, 비디오 인코더 또는 비디오 디코더를 위한 예를 들어 아핀 모델(affine model)과 같은 움직임 모델(motion model)에 기초하여 움직임 보상(motion compensation)을 위한 예측기 후보들의 세트(set of predictor candidates)로부터 예측기 후보(predictor candidate)를 선택하기 위한 방법 또는 장치에 관한 것이다.

높은 압축 효율을 달성하기 위해, 이미지 및 비디오 코딩 방식들은 대체로 움직임 벡터 예측(motion vector prediction)을 포함하는 예측, 및 비디오 컨텐츠에서 공간 및 시간 리던던시(redundancy)를 활용하기 위한 변환을 이용한다. 일반적으로, 인트라(intra) 또는 인터(inter) 프레임 상관관계를 이용하기 위해 인트라 예측 또는 인터 예측이 사용되고, 다음으로, 종종 예측 에러들(prediction errors) 또는 예측 잔차들(prediction residuals)로 표시되는, 원본 이미지(original image)와 예측된 이미지(predicted image) 사이의 차이점들은, 변환되고, 양자화되고, 엔트로피 코딩된다. 비디오를 재구성하기 위해, 압축된 데이터들은 엔트로피 코딩, 양자화, 변환, 및 예측에 대응하는 역 프로세스들에 의해 디코딩된다.

높은 압축 기술에 대한 최근의 추가는 아핀 모델링(affine modeling)에 기초한 움직임 모델을 사용하는 것을 포함한다. 특히, 아핀 모델링은 비디오 화상들(video pictures)의 인코딩 및 디코딩을 위한 움직임 보상에 이용된다. 일반적으로, 아핀 모델링은, 예를 들어, 화상 블록의 각각의 코너들에서의 움직임을 나타내는 두 개의 컨트롤 포인트 움직임 벡터들(control point motion vectors, CPMVs)과 같은 적어도 두 개의 파라미터들을 이용하는 모델이고, 그것은 예를 들어 회전 및 호모세티(homothety)(줌)를 시뮬레이션하기 위해 전체 화상 블록에 대한 움직임 필드(motion field)를 유도하는 것을 허용한다.

적어도 하나의 실시예의 일반적인 양태에 따르면, 비디오 인코딩을 위한 방법이 개시된다. 비디오 인코딩을 위한 방법은:

화상 내의 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보를 결정하는 단계;

적어도 하나의 예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들(control point generator motion vectors)을 결정하는 단계;

인코딩되는 블록에 대해, 적어도 하나의 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들(control point motion vectors)을 결정하는 단계;

블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드(motion field)를 결정하는 단계 -대응하는 움직임 필드는 인코딩되는 블록의 서브 블록들(sub-blocks)의 예측에 사용되는 움직임 벡터들을 식별함-;

대응하는 움직임 필드에 기초하여 블록을 인코딩하는 단계를 포함한다.

적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 비디오 디코딩을 위한 방법이 개시된다. 비디오 디코딩을 위한 방법은:

화상 내의 디코딩되는 블록에 대해, 예측기 후보를 결정하는 단계;

예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계;

디코딩되는 블록에 대해, 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계;

블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하는 단계 -대응하는 움직임 필드는 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및

대응하는 움직임 필드에 기초하여 블록을 디코딩하는 단계를 포함한다.

적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 비디오 인코딩을 위한 장치가 개시된다. 이러한 인코딩 장치는:

화상 내의 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보를 결정하기 위한 수단;

적어도 하나의 예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 수단;

인코딩되는 블록에 대해, 적어도 하나의 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 수단;

블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하기 위한 수단 -대응하는 움직임 필드는 인코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및

대응하는 움직임 필드에 기초하여 블록을 인코딩하기 위한 수단을 포함한다.

적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 비디오 디코딩을 위한 장치가 개시되고, 여기서 디코딩 장치는:

화상 내의 디코딩되는 블록에 대해, 예측기 후보를 결정하기 위한 수단;

예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 수단;

디코딩되는 블록에 대해, 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 수단;

블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하기 위한 수단 -대응하는 움직임 필드는 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-;

대응하는 움직임 필드에 기초하여 블록을 디코딩하기 위한 수단을 포함한다.

적어도 하나의 실시예에 따르면, 예측기 후보에 연관된 움직임 정보는 비 아핀 움직임 정보(non affine motion information)에 해당한다. 이 방식에서, 비 아핀 움직임 모델을 사용함으로써 아핀 움직임 모델의 예측이 개선된다. 비 아핀 움직임 모델은 병진 움직임 모델(translational motion model)이고, 여기서 병진을 나타내는 오직 하나의 움직임 벡터만이 모델에서 코딩된다. 아핀 움직임 모델을 예측하기 위한 후보 예측기들의 숫자가 증가되고, 따라서 압축 효율이 개선된다.

적어도 하나의 실시예에 따르면, 예측기 후보가 예측기 후보들의 세트 내에 포함되고, 인코딩/디코딩되는 블록에 대해, 예측기 후보들의 세트 내의 예측기 후보에 대응하는 인덱스가 인코더에서 인코딩되거나 디코더에 의해 수신된다.

적어도 하나의 실시예에 따르면, 예측기 후보에 대해, 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계는:

- 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계,

- 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트로부터 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계를 포함한다.

이 실시예에 따르면, 아핀 움직임 모델이 예측기 후보에 연관된 움직임 정보에 기초하여 예측기 후보에 대해 추정된다.

적어도 하나의 실시예에 따르면, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들은 예측기 후보의 상부 좌측 코너의 움직임 벡터

, 예측기 후보의 상부 우측 코너의 움직임 벡터

, 및 예측기 후보의 좌측 하부 코너의 움직임 벡터

를 포함하고, 여기서 블록에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들은 블록의 상부 좌측 코너의 움직임 벡터

및 블록의 상부 우측 코너의 움직임 벡터

을 포함하고, 움직임 벡터

및

은 다음에 의해 결정된다:

여기서

은 각각 화상 내의 블록 및 예측기 후보의 수직 포지션이고,

은 각각 화상 내의 블록 및 예측기 후보의 수평 포지션이고,

은 블록의 수평 사이즈이고,

및

은 각각 예측기 후보의 수평 및 수직 사이즈이다.

적어도 하나의 실시예에 따르면, 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관되며, 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 대해, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계는, 예측기 후보의 적어도 두 개의 서브 블록들에 각각 연관된 적어도 두 개의 움직임 벡터들에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계, 및 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들이 아핀 움직임 모델을 만족하는 것을 검증하는 단계를 포함한다.

이 실시예에 따르면, 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계는 간단하고, 높은 계산들을 암시하지 않는다. 이 실시예에 따르면, 예측기 후보의 서브 블록들에 의해 제공되는 움직임 모델이 아핀 움직임 모델을 만족하는 것이 검증된다.

적어도 하나의 실시예에 따르면, 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관되고, 예측기 후보에 대해, 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계는, 예측기 후보의 적어도 세 개의 서브 블록들의 적어도 두 개의 구별되는 세트들에 대해, 각각의 세트의 적어도 세 개의 서브 블록들에 각각 연관되는 움직임 벡터들에 기초하여, 적어도 두 개의 세트에 각각 연관되는 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계, 및 각각의 세트에 연관된 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 평균함으로써 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 계산하는 단계를 포함한다.

이 실시예에 따르면, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들의 복수의 세트들이 예측기 후보의 서브 블록들에 연관된 움직임 벡터들에 기초하여 예측기 후보에 대해 결정된다. 서브 블록들의 복수의 구별되는 세트들이 사용된다. 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들은 다음으로 각각의 세트로부터의 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 평균함으로써 계산된다.

적어도 하나의 실시예에 따르면, 포지션

에서의 컨트롤 포인트 생성기 움직임 벡터

는 다음에 의해 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들로부터 결정된다:

여기서

는 예측기 후보의 상부-좌측 코너의 컨트롤 포인트 움직임 벡터에 대응하고,

는 예측기 후보의 상부-우측 코너의 컨트롤 포인트 움직임 벡터에 대응하고,

는 예측기 후보의 폭이다.

적어도 하나의 실시예에 따르면, 예측기 후보에 연관된 움직임 정보는 다음으로부터 유도된다:

- 각각 두 개의 레퍼런스 프레임들 내의 두 개의 레퍼런스 블록들 사이의 양방향 템플릿 매칭(bilateral template matching),

- 예측기 후보의 제1 공간적 이웃 블록의 움직임 정보에 의해 식별되는 레퍼런스 프레임의 레퍼런스 블록,

- 예측기 후보의 공간적 및 시간적 이웃 블록들의 움직임 벡터들의 평균.

적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 임의의 앞선 설명들의 방법 또는 장치에 따라 생성된 데이터 콘텐츠를 포함하는 비일시적 컴퓨터 판독 가능 매체가 제시된다.

적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 임의의 앞선 설명들의 방법 또는 장치에 따라 생성된 비디오 데이터를 포함하는 신호가 제공된다.

본 실시예들 중 하나 이상은 또한 위에서 설명된 임의의 방법들에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들을 저장하고 있는 컴퓨터 판독 가능 저장 매체를 제공한다. 본 실시예들은 또한 위에서 설명된 방법들에 따라 생성된 비트스트림(bitstream)을 저장하고 있는 컴퓨터 판독 가능 저장 매체를 제공한다. 본 실시예들은 또한 위에서 설명된 방법들에 따라 생성된 비트스트림을 전송하기 위한 방법 및 장치를 제공한다. 본 실시예들은 또한 임의의 설명된 방법들을 수행하기 위한 명령어들을 포함하는 컴퓨터 프로그램 제품을 제공한다.

도 1은 HEVC(High Efficiency Video Coding) 비디오 인코더의 일 실시예의 블록도를 도시한다.
도 2a는 HEVC 레퍼런스 샘플 생성을 묘사하는 그림의 예이다.
도 2b는 HEVC에서의 움직임 벡터 예측을 묘사하는 그림의 예이다.
도 3은 HEVC 비디오 디코더의 일 실시예의 블록도를 도시한다.
도 4는 압축된 HEVC 화상을 나타내는 코딩 트리 유닛(Coding Tree Unit, CTU) 및 코딩 트리(CT) 개념들의 예를 도시한다.
도 5는 코딩 트리 유닛(CTU)을 코딩 유닛들(Coding Units, CUs), 예측 유닛들(Prediction Units, PUs), 및 변환 유닛들(Transform Units, TUs)로 분할한 것의 예를 도시한다.
도 6은 JEM(Joint Exploration Model)에서 사용되는 움직임 모델로서의 아핀 모델의 예를 도시한다.
도 7은 JEM(Joint Exploration Model)에서 사용되는 4x4 서브-CU 기반 아핀 움직임 벡터 필드의 예를 도시한다.
도 8a는 아핀 인터 CU들에 대한 움직임 벡터 예측 후보들의 예를 도시한다.
도 8b는 아핀 머지 모드(Affine Merge mode)에서 움직임 벡터 예측 후보들의 예를 도시한다.
도 9는 아핀 머지 모드 움직임 모델의 경우에서 아핀 컨트롤 포인트 움직임 벡터들의 공간적 유도의 예를 도시한다.
도 10은 적어도 하나의 실시예의 일반적인 양태에 따른 예시 방법을 도시한다.
도 11은 적어도 하나의 실시예의 일반적인 양태에 따른 다른 예시 방법을 도시한다.
도 12는 또한 적어도 하나의 실시예의 일반적인 양태에 따른 다른 예시 방법을 도시한다.
도 13은 또한 적어도 하나의 실시예의 일반적인 양태에 따른 다른 예시 방법을 도시한다.
도 14는 적어도 하나의 실시예의 일반적인 양태에 따른 인터-CU의 아핀 머지 모드를 평가하기 위한 프로세스/신택스의 예를 도시한다.
도 15는 적어도 하나의 실시예의 일반적인 양태에 따른 아핀 머지 모드에서 예측기 후보를 결정하기 위한 프로세스/신택스의 예를 도시한다.
도 16은 비-아핀 움직임 모델을 가지는 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 프로세스/신택스의 예를 도시한다.
도 17a는 비-아핀 움직임 모델을 가지는 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 프로세스/신택스의 예를 도시한다.
도 17b는 비-아핀 움직임 모델을 가지는 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 프로세스/신택스의 다른 예를 도시한다.
도 18은 적어도 하나의 실시예의 일반적인 양태에 따른 예측기 후보 선택 프로세스/신택스의 예를 도시한다.
도 19는 적어도 하나의 실시예의 일반적인 양태에 따른 복수의 예측기 후보들의 세트를 만들기 위한 프로세스/신택스의 예를 도시한다.
도 20은 적어도 하나의 실시예의 일반적인 양태에 따른 각각의 예측기 후보에 대한 상부-좌측 및 상부-우측 코너 CPMV들의 유도 프로세스/신택스의 예를 도시한다.
도 21은 각각 두 개의 레퍼런스 프레임들 내의 두 개의 레퍼런스 블록들 사이의 양방향 템플릿 매칭을 사용하여 코딩된 CU의 예를 도시한다.
도 22는 서브 블록들로 분할된 양방향 템플릿 매칭을 사용하여 코딩된 CU의 예를 도시한다.
도 23은 JEM의 ATMVP 모드에서 코딩된 CU의 예를 도시한다.
도 24는 JEM의 STMVP 모드에서 코딩된 CU의 예를 도시한다.
도 25는 실시예들의 다양한 양태들이 구현될 수 있는 예시 장치의 블록도를 도시한다.

도 1은 예시적인 고효율 비디오 코딩(HEVC) 인코더(100)를 도시한다. HEVC는 JCT-VC(Joint Collaborative Team on Video Coding)에 의해 개발된 압축 표준이다(예를 들어, "ITU-T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (10/2014), SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS, Infrastructure of audiovisual services - Coding of moving video, High efficiency video coding, Recommendation ITU-T H.265"를 보라).

HEVC에서, 하나 이상의 화상들을 가진 비디오 시퀀스를 인코딩하기 위해, 화상은 하나 이상의 슬라이스들로 분할되고, 여기서 각각의 슬라이스는 하나 이상의 슬라이스 세그먼트들(slice segments)을 포함할 수 있다. 슬라이스 세그먼트는 코딩 유닛들, 예측 유닛들, 및 변환 유닛들로 조직된다.

본 출원에서, "재구성된(reconstructed)" 및 "디코딩된(decoded)"이라는 용어들은 상호교환 가능하게 사용될 수 있고, "인코딩된(encoded)" 또는 "코딩된(coded)"이라는 용어들도 상호교환 가능하게 사용될 수 있으며, "화상(picture)" 및 "프레임(frame)"이라는 용어들도 상호교환 가능하게 사용될 수 있다. 필수적으로는 아니지만, 대체로, "디코딩된"은 디코더 측에서 사용되는 반면 용어 "재구성된"은 인코더 측에서 사용된다.

HEVC 규격은 "블록들(blocks)" 및 "유닛들(units)" 사이를 구별하며, 여기서 "블록"은 샘플 어레이 내의 특정 영역(예를 들어, 루마(luma), Y)을 처리하고, "유닛"은 모든 인코딩된 컬러 컴포넌트들(Y, Cb, Cr, 또는 단색)의 공동 위치된(collocated) 블록들, 신택스 요소들, 및 블록들과 연관된 예측 데이터들(예를 들어, 움직임 벡터들)을 포함한다.

코딩을 위해, 화상은 구성 가능한 사이즈의 사각형 모양의 코딩 트리 블록들(CTB)로 분할되고, 코딩 트리 블록들의 연속적인 세트는 슬라이스로 그룹화된다. 코딩 트리 유닛(CTU)은 인코딩된 컬러 컴포넌트들의 CTB들을 포함한다. CTB는 코딩 블록들(CB)로 분할하는 쿼드트리(quadtree)의 루트이고, 코딩 블록은 하나 이상의 예측 블록들(PB)로 분할될 수 있고, 변환 블록들(TBs)로 분할하는 쿼드트리의 루트를 형성한다. 코딩 블록, 예측 블록, 및 변환 블록에 대응하여, 코딩 유닛(CU)은 예측 유닛들(PUs), 및 변환 유닛들(TUs)의 트리-구조의 세트를 포함하고, PU는 모든 컬러 컴포넌트들에 대한 예측 정보를 포함하고, TU는 각각의 컬러 컴포넌트에 대한 잔차 코딩 신택스 구조를 포함한다. 루마 컴포넌트의 CB, PB, 및 TB의 사이즈를 대응하는 CU, PU, 및 TU에 적용한다. 본 출원에서, 용어 "블록"은, 예를 들어, CTU, CU, PU, TU, CB, PB, 및 TB 중 임의의 것을 지칭하는 데 사용될 수 있다. 추가적으로, "블록"은 또한 H.264/AVC 또는 다른 비디오 코딩 표준들에서 특정된 바와 같은 매크로블록(macroblock) 및 파티션을 지칭하는 데 사용될 수 있고, 더 일반적으로는 다양한 사이즈들의 데이터의 어레이를 지칭하는 데 사용될 수 있다.

예시적인 인코더(100)에서, 화상은 아래 설명된 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 화상은 CU들의 유닛들에서 처리된다. 각각의 CU는 인트라 또는 인터 모드를 사용하여 인코딩된다. CU가 인트라 모드에서 인코딩될 때, 인트라 예측(160)을 수행한다. 인터 모드에서, 움직임 추정(175) 및 보상(170)이 수행된다. 인코더는 CU를 인코딩하기 위해 인트라 모드 또는 인터 모드 중 하나를 결정(105)하고, 예측 모드 플래그에 의해 인트라/인터 결정을 표시한다. 예측 잔차들은 원본 이미지 블록으로부터 예측된 블록을 감산(110)함으로써 계산된다.

인트라 모드에서 CU들은 동일한 슬라이스 내의 재구성된 이웃 샘플들로부터 예측된다. DC, 평면(planar), 및 33개의 각도 예측 모드들을 포함하는 35개의 인트라 예측 모드들의 세트가 HEVC에서 이용 가능하다. 인트라 예측 레퍼런스는 현재 블록에 인접한 행 및 열로부터 재구성된다. 레퍼런스는 이전에 재구성된 블록들로부터 이용 가능한 샘플들을 사용하여 수평 및 수직 방향들에서 블록 사이즈의 두 배에 걸쳐 확장한다. 인트라 예측을 위해 각도 예측 모드가 이용될 때, 레퍼런스 샘플들은 각도 예측 모드에 의해 표시된 방향을 따라서 복사될 수 있다.

현재 블록에 적용 가능한 루마 인트라 예측 모드는 두 가지 상이한 옵션들을 사용하여 코딩될 수 있다. 만약 적용 가능한 모드가 세 개의 가장 가능성 있는 모드들(most probable modes, MPM)로 구성된 리스트에 포함된다면, 모드는 MPM 리스트 내의 인덱스에 의해 시그널링된다. 그렇지 않으면, 모드는 모드 인덱스의 고정 길이 이진화(fixed-length binarization)에 의해 시그널링된다. 3개의 가장 가능성있는 모드들은 최상부 및 좌측 이웃 블록들의 인트라 예측 모드들로부터 유도된다.

인터 CU의 경우, 대응하는 코딩 블록은 하나 이상의 예측 블록들로 추가로 분할된다. 인터 예측은 PB 레벨 상에서 수행되며, 대응하는 PU는 어떻게 인터 예측이 수행될지에 대한 정보를 포함한다. 움직임 정보(즉, 움직임 벡터 및 레퍼런스 화상 인덱스)는 두 가지 방법들, 즉, "머지 모드" 및 "AMVP(advanced motion vector prediction)"로 시그널링될 수 있다.

머지 모드에서, 비디오 인코더 또는 디코더는 이미 코딩된 블록들에 기초하여 후보 리스트를 모으고, 비디오 인코더는 후보 리스트에서 후보들 중 하나에 대한 인덱스를 시그널링한다. 디코더 측에서는, 시그널링된 후보에 기초하여 움직임 벡터(MV) 및 레퍼런스 화상 인덱스가 재구성된다.

머지 모드에서의 가능한 후보들의 세트는 공간적 이웃 후보들, 시간적 후보, 및 생성된 후보들로 이루어진다. 도 2a는 현재 블록(210)에 대한 다섯 개의 공간적 후보들 {a₁, b₁, b₀, a₀, b₂}의 위치들을 보여주며, 여기서 a₀및 a₁은 현재 블록의 좌측에 있고, b₁, b₀, b₂는 현재 블록의 상단에 있다. 각각의 후보 포지션에 대해, 이용 가능성은 a₁, b₁, b₀, a₀, b₂의 순서에 따라 체크되고, 다음으로 후보들 내의 리던던시는 제거된다.

레퍼런스 화상 내에 공동 위치된 위치의 움직임 벡터는 시간적 후보의 유도에 사용될 수 있다. 적용 가능한 레퍼런스 화상은 슬라이스 기반으로 선택되고 슬라이스 헤더(header) 내에 표시되며, 시간적 후보에 대한 레퍼런스 인덱스는 i_ref = 0으로 설정된다. 만약 공동 위치된 PU의 화상 및 공동 위치된 PU가 예측되는 레퍼런스 화상 사이의 POC 거리(td)가 현재 화상 및 공동 위치된 PU를 포함하는 레퍼런스 화상 사이의 거리(tb)와 같다면, 공동 위치된 움직임 벡터 mv_col이 시간적 후보로서 바로 사용될 수 있다. 그렇지 않으면, 스케일링된 움직임 벡터 tb/td*mv_col이 시간적 후보로서 사용될 수 있다. 현재 PU가 어디에 위치되는지에 따라서, 공동 위치된 PU는 현재 PU의 하부-우측 또는 중심에서의 샘플 위치에 의해 결정된다.

머지 후보들의 최대 개수 N은 슬라이스 헤더에서 특정된다. 만약 머지 후보들의 개수가 N보다 크면, 오직 처음 N-1개의 공간적 후보들 및 시간적 후보가 사용된다. 그렇지 않으면, 만약 머지 후보들의 개수가 N보다 작으면, 후보들의 세트는 이미 존재하는 후보들의 조합들, 또는 널(null) 후보들로서 생성된 후보들로 최대 개수인 N까지 채워진다. 머지 모드에서 사용되는 후보들은 본 출원에서 "머지 후보들(merge candidates)"로 지칭될 수 있다.

만약 CU가 스킵 모드(skip mode)를 표시하면, 머지 후보들의 리스트가 1보다 큰 경우에만 머지 후보에 대해 적용 가능한 인덱스가 표시되고, CU에 대해 어떤 추가적인 정보도 코딩되지 않는다. 스킵 모드에서, 움직임 벡터는 잔차 업데이트 없이 적용된다.

AMVP에서, 비디오 인코더 또는 디코더는 이미 코딩된 블록들로부터 결정된 움직임 벡터들에 기초하여 후보 리스트들을 모은다. 비디오 인코더는 다음으로 움직임 벡터 예측기(MVP)를 식별하기 위해 후보 리스트 내의 인덱스를 시그널링하고, 움직임 벡터 차이(MVD)를 시그널링한다. 디코더 측에서, 움직임 벡터(MV)는 MVP+MVD로서 재구성된다. 적용 가능한 레퍼런스 화상 인덱스는 또한 AMVP에 대한 PU 신택스에서 명시적으로 코딩된다.

AMVP에서 오직 두 개의 공간적 움직임 후보들만 선택된다. 두 개의 세트들에 표시된 바와 같은 검색 순서를 유지하면서, 제1 공간적 움직임 후보는 좌측 포지션들 {a₀, a₁}에서 선택되고, 제2 공간적 움직임 후보는 위쪽 포지션들 {b₀, b₁, b₂}로부터 선택된다. 만약 움직임 벡터 후보들의 수가 2와 같지 않다면, 시간적 MV 후보가 포함될 수 있다. 만약 후보들의 세트가 여전히 다 채워지지 않았다면, 다음으로 제로(zero) 움직임 벡터들이 사용된다.

만약 공간적 후보의 레퍼런스 화상 인덱스가 현재 PU에 대한 레퍼런스 화상 인덱스에 대응한다면(즉, 레퍼런스 화상 리스트와 독립적으로, 동일한 레퍼런스 화상 인덱스를 사용하거나 둘 다 롱텀(long-term) 레퍼런스 화상들을 사용할 경우), 공간적 후보 움직임 벡터는 바로 사용된다. 그렇지 않으면, 만약 양쪽 레퍼런스 화상들이 숏텀(short-term) 화상들이면, 후보 움직임 벡터는 현재 화상과 현재 PU의 레퍼런스 화상 사이의 거리(tb) 및 현재 화상과 공간적 후보의 레퍼런스 화상 사이의 거리(td)에 따라서 스케일링된다. AMVP 모드에서 사용되는 후보들은 본 출원에서 "AMVP 후보들"로 지칭될 수 있다.

표기의 편의를 위해, 인코더 측에서 "머지" 모드에서 테스트되는 블록 또는 디코더 측에서 "머지" 모드에서 디코딩되는 블록은 "머지" 블록으로 표기되고, 인코더 측에서 AMVP 모드에서 테스트되는 블록 또는 디코더 측에서 AMVP 모드에서 디코딩되는 블록은 "AMVP" 블록으로 표기된다.

도 2b는 AMVP를 사용한 예시적인 움직임 벡터 표현을 도시한다. 인코딩될 현재 블록(240)에 대해, 움직임 벡터(MV_current)는 움직임 추정(motion estimation)을 통해 획득될 수 있다. 좌측 블록(230)으로부터의 움직임 벡터(MV_left) 및 위쪽 블록(220)으로부터의 움직임 벡터(MV_above)를 사용하여, 움직임 벡터 예측기는 MVP_current로서 MV_left 및 MV_above로부터 선택될 수 있다. 움직임 벡터 차이는 다음으로 MVD_current = MV_current - MVP_current 로 계산될 수 있다.

움직임 보상 예측은 예측을 위한 하나 또는 두 개의 레퍼런스 화상들을 이용하여 수행될 수 있다. P 슬라이스들에서, 오직 단일 예측 레퍼런스만이 인터 예측을 위해 사용될 수 있고, 그에 의해 예측 블록에 대한 단일-예측(uni-prediction)을 가능하게 한다. B 슬라이스들에서, 두 개의 레퍼런스 화상 리스트들이 이용 가능하고, 단일-예측 또는 이중-예측(bi-prediction)이 사용될 수 있다. 이중-예측에서, 각각의 레퍼런스 화상 리스트들로부터 하나의 레퍼런스 화상이 사용된다.

HEVC에서, 움직임 보상을 위한 움직임 정보의 정밀도는 루마 컴포넌트에 대해 1/4-샘플(또한 쿼터-펠(quarter-pel) 또는 1/4-펠로 지칭됨)이고 4:2:0 구성에 대한 크로마(chroma) 컴포넌트들에 대해 1/8-샘플(또한 1/8-펠로 지칭됨)이다. 7-탭(tap) 또는 8-탭 보간 필터는 단편적-샘플(fractional-sample) 포지션들의 보간법을 위해 사용되고, 즉, 루마에 대해 수평 및 수직 방향들 양쪽에서 전체 샘플 위치들의 1/4, 1/2 및 3/4가 다루어질 수 있다.

예측 잔차들은 다음으로 변환(125)되고 양자화(130)된다. 움직임 벡터들 및 다른 신택스 요소들뿐만 아니라 양자화된 변환 계수들은 비트스트림을 출력하도록 엔트로피 코딩(145)된다. 인코더는 또한 변환을 스킵하고, 4x4 TU 기반으로 비-변환된 잔차 신호에 직접 양자화를 적용할 수 있다. 인코더는 또한 변환 및 양자화 양쪽 모두를 우회할 수 있는데, 즉, 잔차는 변환 또는 양자화 프로세스의 적용없이 직접 코딩된다. 직접적인 PCM 코딩에서는, 예측이 적용되지 않으며 코딩 유닛 샘플들이 비트스트림으로 직접 코딩된다.

인코더는 향후 예측들에 대한 레퍼런스를 제공하기 위해 인코딩된 블록을 디코딩한다. 예측 잔차들을 디코딩하기 위해, 양자화된 변환 계수들은 역양자화(140)되고 역변환(150)된다. 디코딩된 예측 잔차들 및 예측된 블록을 결합하면(155), 이미지 블록이 재구성된다. 루프 내 필터들(165)은, 예를 들어, 인코딩 아티팩트들(artifacts)을 감소시키기 위한 디블로킹/SAO(Sample Adaptive Offset) 필터링을 수행하기 위해, 재구성된 화상에 적용된다. 필터링된 이미지는 레퍼런스 화상 버퍼(180)에 저장된다.

도 3은 예시적인 HEVC 비디오 디코더(300)의 블록도를 도시한다. 예시적인 디코더(300)에서, 비트스트림은 아래 설명되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(300)는 비디오 데이터 인코딩의 일부로서 비디오 디코딩을 수행하는, 도 1에서 설명된 바와 같은 인코딩 패스(pass)에 역방향인 디코딩 패스를 일반적으로 수행한다.

특히, 디코더의 입력은 비디오 인코더(100)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림이 변환 계수들, 움직임 벡터들, 및 다른 코딩된 정보를 획득하기 위해 첫째로 엔트로피 디코딩된다(330). 변환 계수들이 예측 잔차들을 디코딩하기 위해 역양자화되고(340) 역변환된다(350). 디코딩된 예측 잔차들과 예측된 블록을 결합(355)시키는 것에 의해, 이미지 블록이 재구성된다. 예측 블록은 인트라 예측(360) 또는 움직임 보상된 예측(motion-compensated prediction)(즉, 인터 예측)(375)으로부터 획득될 수 있다(370). 앞서 설명된 바와 같이, AMVP 및 머지 모드 기술들은 움직임 보상을 위한 움직임 벡터들을 유도하기 위해 사용될 수 있고, 이는 레퍼런스 블록의 서브-정수 샘플들에 대한 보간된 값들을 계산하기 위해 보간 필터들을 사용할 수 있다. 루프 내 필터들(365)은 재구성된 이미지에 적용된다. 필터링된 이미지는 레퍼런스 화상 버퍼(380)에 저장된다.

언급된 바와 같이, HEVC에서, 비디오의 연속하는 화상들 사이에 존재하는 리던던시를 활용하기 위해 움직임 보상된 시간적 예측이 이용된다. 그것을 행하기 위해, 움직임 벡터가 각각의 예측 유닛(PU)과 연관된다. 위에서 설명된 바와 같이, 각각의 CTU는 압축된 도메인에서 코딩 트리에 의해 표현된다. 이것은 CTU의 쿼드-트리 분할이고, 여기서 각각의 리프(leaf)는 코딩 유닛(CU)이라 불리고, 또한 CTU들(410 및 420)에 대해 도 4에서 도시된다. 각각의 CU에는 다음으로 예측 정보로서 일부 인트라 또는 인터 예측 파라미터들이 주어진다. 그렇게 하기 위해, CU는 하나 이상의 예측 유닛들(PUs)로 공간적으로 분할될 수 있고, 각각의 PU는 일부 예측 정보를 할당 받을 수 있다. 인트라 또는 인터 코딩 모드는 CU 레벨 상에서 할당된다. 이러한 개념들은 예시적인 CTU(500) 및 CU(510)에 대해 도 5에서 추가로 도시된다.

HEVC에서, 하나의 움직임 벡터가 각각의 PU에 할당된다. 이 움직임 벡터는 고려되는 PU의 움직임 보상된 시간적 예측에 사용된다. 그러므로, HEVC에서, 예측된 블록 및 이것의 레퍼런스 블록을 연결하는 움직임 모델은 단순히 레퍼런스 블록 및 대응하는 움직임 벡터에 기초한 번역 또는 계산으로 이루어진다.

HEVC에 대한 개선들을 만들기 위해, 레퍼런스 소프트웨어 및/또는 서류 JEM(Joint Exploration Model)이 JVET(Joint Video Exploration Team)에 의해 개발되고 있다. 하나의 JEM 버전(예를 들어, "Algorithm Description of Joint Exploration Test Model 5", Document JVET-E1001_v2, Joint Video Exploration Team of ISO/IEC JTC1/SC29/WG11, 5rd meeting, 12-20 January 2017, Geneva, CH)에서, 일부 추가적인 움직임 모델들이 시간적 예측을 개선하기 위해 지원된다. 이를 위해, PU가 서브-PU들로 공간적으로 분할될 수 있고 모델은 각각의 서브-PU를 전용 움직임 벡터에 할당하기 위해 사용될 수 있다.

JEM의 더 최근 버전들(예를 들어, "Algorithm Description of Joint Exploration Test Model 2", Document JVET-B1001_v3, Joint Video Exploration Team of ISO/IEC JTC1/SC29/WG11, 2rd meeting, 20-26 February 2016, San Diego, USA)에서, CU는 더 이상 PU들 또는 TU들로 분할되도록 지정되지 않는다. 대신에, 더 유연한 CU 사이즈들이 사용될 수 있고, 일부 움직임 데이터는 각각의 CU에 직접 할당될 수 있다. JEM의 더 새로운 버전들 하의 이 새로운 코덱 디자인에서, CU는 서브-CU들로 분할될 수 있고 움직임 벡터는 분할된 CU의 각각의 서브-CU에 대해 계산될 수 있다.

JEM에서 소개된 새로운 움직임 모델들 중 하나는 CU 내의 움직임 벡터들을 표현하기 위한 움직임 모델로서 아핀 모델의 사용이다. 사용된 움직임 모델은 도 6에서 도시되고 아래 보여지는 수학식 1에 의해 표현된다. 아핀 움직임 필드는 도 6의 고려되는 블록(600) 내의 각각의 포지션 (x, y)에 대한 다음의 움직임 벡터 컴포넌트 값들을 포함한다:

수학식 1: 예측을 위해 CU 내부의 움직임 필드를 생성하는 데 사용되는 아핀 움직임 모델,

여기서

및

는 대응하는 움직임 필드를 생성하기 위해 사용되는 컨트롤 포인트 움직임 벡터들이고,

는 인코딩되는 또는 디코딩되는 블록의 상부-좌측 코너의 컨트롤 포인트 움직임 벡터에 대응하고,

는 인코딩되는 또는 디코딩되는 블록의 상부-우측 코너의 컨트롤 포인트 움직임 벡터에 대응하고, w는 인코딩되는 또는 디코딩되는 블록의 폭이다.

복잡도를 줄이기 위해, 도 7에 도시된 바와 같이, 움직임 벡터는 고려되는 CU(700)의 각각의 4x4 서브 블록(서브-CU)에 대해 계산된다. 각각의 서브 블록의 각각의 중심 포지션에 대해, 아핀 움직임 벡터는 컨트롤 포인트 움직임 벡터들로부터 계산된다. 획득된 MV는 1/16 펠(pel) 정확도로 표현된다. 그 결과, 아핀 모드에서의 코딩 유닛의 보상은 그 자신의 움직임 벡터를 갖는 각각의 서브 블록의 움직임 보상 예측으로 구성된다. 서브 블록들에 대한 이러한 움직임 벡터들은 도 7에서 각각의 서브 블록들에 대한 화살표로서 각각 보여진다.

아핀 움직임 보상은 JEM에서 두 가지 방법: 아핀 인터(AF_AMVP) 모드 및 아핀 머지 모드로 사용될 수 있다. 그들은 다음 섹션들에서 소개된다.

아핀 인터(AF_AMVP) 모드: 사이즈가 8x8보다 큰, AMVP 모드에서의 CU는 아핀 인터 모드에서 예측될 수 있다. 이것은 비트스트림 내의 플래그를 통해 시그널링된다. 그 CU에 대한 아핀 움직임 필드의 생성은 움직임 벡터 차동(motion vector differential) 및 컨트롤 포인트 움직임 벡터 예측(control point motion vector prediction, CPMVP)의 추가를 통해 디코더에 의해 획득되는 컨트롤 포인트 움직임 벡터들(CPMVs)을 결정하는 것을 포함한다. CPMVP들은 움직임 벡터 후보들의 페어이고, 인코딩되는 또는 디코딩되는 현재 CU(800)에 대해 도 8a에서 도시되는 세트 (A, B, C) 및 (D, E)로부터 각각 취해진다.

아핀 머지 모드: 아핀 머지 모드에서, CU-레벨 플래그는 머지 CU가 아핀 움직임 보상을 이용하는지를 표시한다. 그렇다면, 다음으로 아핀 모드에서 코딩되는 제1 이용 가능한 이웃 CU가 인코딩되는 또는 디코딩되는 현재 CU(880)에 대해 도 8b의 후보 포지션들의 정렬된 세트 A, B, C, D, E 중에서 선택된다. JEM에서의 이 후보 포지션들의 정렬된 세트는 도 2a에서 보이는 바와 같이, 그리고 앞서 설명된 바와 같이 HEVC에서의 머지 모드에서의 공간적 이웃 후보들과 동일하다는 점에 유의한다.

아핀 모드에서 제1 이웃 CU가 획득되면, 다음으로 이웃 아핀 CU의 상부-좌측, 상부-우측 및 하부-좌측 코너들로부터 세 개의 CPMV들

,

및

가 검색되거나 계산된다. 예를 들어, 도 9는 아핀 모드에서의 이러한 제1 결정된 이웃 CU(910)가 인코딩되는 또는 디코딩되는 현재 CU(900)에 대한 도 8b의 A 포지션인 것을 보여준다. 이웃 CU(910)의 이 세 개의 CPMV들에 기초하여, 현재 CU(900)의 상부-좌측 및 상부-우측 코너들의 두 개의 CPMV들은 다음에 의해 유도된다:

수학식 2: 선택된 이웃 CU의 세 개의 컨트롤-포인트 움직임 벡터들에 기초하여 현재 CU의 CPMV들의 유도

여기서

는 각각 화상 내의 현재 CU 및 선택된 이웃 CU의 수직 포지션이고,

는 각각 화상 내의 현재 CU 및 선택된 이웃 CU의 수평 포지션이고,

은 현재 CU의 수평 사이즈이고,

,

는 각각 선택된 이웃 CU의 수평 및 수직 사이즈이다.

현재 CU의 컨트롤 포인트 움직임 벡터들

및

이 획득된 때, 인코딩되는 또는 디코딩되는 현재 CU 내부의 움직임 필드는 도 6에 관하여 위에서 설명된 바와 같이 수학식 1의 모델을 통해, 4x4 서브-CU 기반에서 계산된다.

따라서, 적어도 하나의 실시예의 일반적인 양태는 고려된 비디오 코덱의 압축 성능이 개선될 수 있도록 JEM에서의 아핀 머지 모드의 성능을 개선하는 것을 목표로 한다. 그러므로, 적어도 하나의 실시예에서, 예를 들어, 아핀 머지 모드에서 코딩되는 코딩 유닛들에 대해, 증강 및 개선된 아핀 움직임 보상 장치 및 방법이 제시된다. 제안된 증강 및 개선된 아핀 모드는 아핀 머지 모드 또는 아핀 인터 모드를 사용하여 코딩되지 않는 예측기 후보들을 평가하는 것을 포함한다.

이전에 언급되었듯이, 현재 JEM에서, 주변 CU들 중에서 아핀 머지 모드에서 코딩된 제1 이웃 CU는 인코딩되는 또는 디코딩되는 현재 CU와 연관된 아핀 움직임 모델을 예측하기 위해 선택된다. 즉, 도 8b의 정렬된 세트 (A, B, C, D, E) 중에서 아핀 모드에서 코딩된 제1 이웃 CU 후보는 현재 CU의 아핀 움직임 모델을 예측하기 위해 선택된다. 이웃 CU 후보 중 어느 것도 아핀 모드로 코딩되지 않는 경우, 현재 CU의 아핀 움직임 모델에 대해 어떠한 예측도 이용 가능하지 않다.

따라서, 적어도 하나의 실시예에서, 예측기 후보가 아핀 머지 모드에서 현재 CU를 코딩하기 위해 결정된다. 이러한 예측기 후보는 비 아핀 움직임 모델에 대응하는 움직임 정보에 연관되어 있다. 예를 들어, 이러한 예측기 후보는 비 아핀 모드, 즉 HEVC로부터 알려진 것과 같은 병진 모델에서 이전에 코딩된 CU에 대응할 수 있다.

따라서, 적어도 하나의 실시예에서, 예측기 후보는 예측기 후보들의 세트로부터 선택된다. 예측기 후보들의 세트는 아핀 모드를 사용하여 이전에 코딩된 CU 및 비 아핀 모드를 사용하여 이전에 코딩된 CU를 포함할 수 있다. 예측기 후보들의 세트로부터, 아핀 머지 모드에서 현재 CU를 코딩할 때 최상의 코딩 효율을 제공하는 예측기 후보가 선택된다. 이 실시예의 개선들은, 일반적인 레벨에서, 그러므로, 예를 들어 다음을 포함한다:

- CU의 아핀 움직임 모델의 예측을 위한 후보들의 좋은 세트를 제공할 것 같은 복수의 예측기 후보들의 세트를 구성(인코더/디코더에 대해);

- 구성된 세트 중에서 현재 CU의 컨트롤 포인트 움직임 벡터에 대한 하나의 예측기를 선택(인코더/디코더에 대해); 및/또는

- 현재 CU의 컨트롤 포인트 움직임 벡터 예측기의 인덱스를 시그널링/디코딩(인코더/인코더에 대해)

따라서, 도 10은 적어도 하나의 실시예의 일반적인 양태에 따른 예시적인 인코딩 방법(1000)을 도시한다. 블록(1010)에서, 방법(1000)은, 화상 내의 인코딩되는 블록에 대해, 예측기 후보를 결정한다. 예측기 후보는 움직임 정보에 연관된다. 즉, 예측기 후보는 연관된 움직임 정보를 사용하는 움직임 보상 예측에 기초한 임의의 방법에 의해 인터(INTER) 모드에서 이전에 코딩되었다. 적어도 하나의 실시예에 따르면, 예측기 후보는 미리 결정된 기준을 검증하는데, 예를 들어 예측기 후보는 아핀 움직임 모델에 가까운(close) 움직임 정보에 연관된다.

블록(1020)에서, 방법(1000)은, 예측기 후보에 대해, 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정한다. 이러한 결정에 대한 추가적인 상세들은 도 16에 관하여 아래에 주어진다. 블록(1030)에서, 방법(1000)은 인코딩되는 블록에 대해, 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 블록(1040)에서, 방법(1000)은, 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하고, 여기서 대응하는 움직임 필드는 인코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별한다. 블록(1050)에서, 방법(1000)은 대응하는 움직임 필드에 기초하여 블록을 인코딩한다.

도 11은 적어도 하나의 실시예의 일반적인 양태에 따른 예시적인 인코딩 방법(1100)을 도시한다. 블록(1110)에서, 방법(1100)은, 화상 내의 인코딩되는 블록에 대해, 예측기 후보들의 세트를 결정한다. 적어도 하나의 실시예에 따르면, 예측기 후보들의 세트로부터의 적어도 하나의 예측기 후보는 미리 결정된 기준을 검증하는데, 예를 들어 적어도 하나의 예측기 후보는 아핀 움직임 모델에 가까운 움직임 정보에 연관된다.

블록(1120)에서, 방법(1100)은 예측기 후보들의 세트 중에서 예측기 후보를 선택한다. 블록(1130)에서, 방법(1100)은, 선택된 예측기 후보에 대해, 선택된 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정한다. 이러한 결정에 대한 추가적인 상세들은 도 16에 관하여 아래에 주어진다. 블록(1140)에서, 방법(1100)은, 인코딩되는 블록에 대해, 선택된 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 블록(1150)에서, 방법(1100)은, 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하고, 여기서 대응하는 움직임 필드는 인코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별한다. 블록(1160)에서, 방법(1100)은 하나 이상의 기준에 따라서, 그리고 대응하는 움직임 필드에 기초하여 선택된 예측기 후보들을 평가한다. 예를 들어, 방법(1100)은 블록(1150)에서 결정된 움직임 필드를 사용하여 블록을 인코딩하는 것에 대한 레이트-왜곡 비용(rate-distortion cost)을 추정하고, 그 레이트-왜곡 비용을 선택된 예측기 후보에 연관시켜 저장한다. 블록(1160)에서, 만약 예측기 후보들의 세트의 모든 예측기 후보들이 평가되었다면, 방법(1100)은 블록(1170)으로 넘어간다. 만약 예측기 후보들의 세트의 하나 이상의 예측기 후보들이 평가되지 않았다면, 방법(1100)은 예측기 후보들의 세트로부터 새로운 예측기 후보를 선택하기 위해 블록(1120)으로 넘어간다. 블록(1170)에서, 방법(1100)은 평가에 기초하여 예측기 후보들의 세트로부터 예측기 후보를 선택한다. 예를 들어, 인코딩되는 블록에 대해 가장 낮은 레이트-왜곡 비용을 제공하는 예측기 후보가 선택된다. 블록(1180)에서, 방법(1100)은 블록(1170)에서 선택된 예측기 후보에 기초하여 블록을 인코딩한다. 블록(1190)에서, 방법(1100)은 블록(1170)에서 선택된 예측기 후보의 인덱스를 인코딩한다. 이 인덱스는 예측기 후보들의 세트로부터 예측기 후보를 검색하기 위해 디코더에 의해 사용된다.

도 12는 적어도 하나의 실시예의 일반적인 양태에 따른 예시적인 디코딩 방법(1200)을 도시한다. 블록(1210)에서, 방법(1200)은, 화상 내의 디코딩되는 블록에 대해, 예측기 후보를 결정한다. 예측기 후보는 움직임 정보에 연관된다. 즉, 예측기 후보는 연관된 움직임 정보를 사용하는 움직임 보상 예측에 기초한 임의의 방법에 의해 이전에 디코딩되고 재구성되었다. 블록(1220)에서, 방법(1200)은, 예측기 후보에 대해, 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정한다. 이러한 결정에 대한 추가적인 상세들은 도 16에 관하여 아래에 주어진다. 블록(1230)에서, 방법(1200)은 디코딩되는 블록에 대해, 예측기 후보에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 블록(1240)에서, 방법(1200)은, 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하고, 여기서 대응하는 움직임 필드는 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별한다. 블록(1250)에서, 방법(1200)은 대응하는 움직임 필드에 기초하여 블록을 디코딩한다.

도 13은 적어도 하나의 실시예의 일반적인 양태에 따른 예시적인 디코딩 방법(1300)을 도시한다. 블록(1310)에서, 방법(1300)은, 화상 내의 디코딩되는 블록에 대해, 예측기 후보들의 세트를 결정한다. 블록(1320)에서, 방법(1300)은, 화상 내의 디코딩되는 블록에 대해, 예측기 후보들의 세트 내의 특정 예측기 후보에 대응하는 인덱스를 수신한다. 다양한 실시예들에서, 특정 예측기 후보는 인코더에서 선택되었고, 인덱스는 복수의 예측기 후보들 중 하나가 선택되는 것을 허용한다. 방법(1300)은 수신된 인덱스를 사용하여 예측기 후보의 세트 내에서 예측기 후보를 선택한다. 블록(1330)에서, 방법(1300)은, 선택된 예측기 후보에 대해, 선택된 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정한다. 이러한 결정에 대한 추가적인 상세들이 도 16에 관하여 아래에 주어진다. 블록(1340)에서, 방법(1300)은 디코딩되는 블록에 대해, 선택된 예측기 후보에 대해 결정된 하나 이상의 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 블록(1350)에서, 방법(1300)은, 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하고, 여기서 대응하는 움직임 필드는 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별한다. 블록(1360)에서, 방법(1300)은 대응하는 움직임 필드에 기초하여 블록을 디코딩한다.

도 14는 JEM에서 기존의 아핀 머지 모드에서 인코딩되는 또는 디코딩되는 현재 CU의 아핀 움직임 필드 예측에 사용되는 프로세스/신택스(1400)의 실시예의 상세를 도시한다. 이 프로세스/신택스(1400)로의 입력(1401)은 도 7에서 보여지는 바와 같이 서브 블록들의 아핀 움직임 필드를 생성하기를 원하는 현재 코딩 유닛이다. 블록(1410)에서, 현재 블록에 대한 아핀 머지 CPMV들은 예를 들어 도 6, 도 7, 도 8b, 및 도 9에 관하여 위에서 설명된 바와 같이 선택된 예측기 후보와 함께 획득된다. 이 예측기 후보의 유도는 또한 적어도 하나의 실시예에 따라 도 15에 관하여 이후에 더 상세히 설명된다.

결과적으로, 블록(1420)에서, 상부-좌측 및 상부-우측 컨트롤 포인트 움직임 벡터들

및

이 다음으로 현재 CU와 연관된 아핀 움직임 필드를 계산하기 위해 사용된다. 이것은 이전에 설명된 바와 같이 수학식 1에 따라 각각의 4x4 서브 블록에 대한 움직임 벡터를 계산하는 것으로 구성된다. 블록들(1430 및 1440)에서, 현재 CU에 대해 움직임 필드가 획득되면, 4x4 서브 블록 기반 움직임 보상 및 다음으로 OBMC(Overlapped Block Motion Compensation)를 포함하여, 현재 CU의 시간적 예측이 일어난다. 블록들(1450 및 1460)에서, 잔차 데이터(residual data)와 함께 또는 잔차 데이터 없이 연속적으로, 현재 CU가 코딩 및 재구성된다. 예를 들어, 블록(1450)에서, 현재 CU는 잔차 코딩 없이 인트라 모드를 사용하여 첫째로 코딩된다. 블록(1460)에서, 현재 CU를 인코딩하는 가장 좋은 방법(예를 들어, 최소 레이트 왜곡 비용을 가지는 방법)이 다음으로 선택되고, 이것은 아핀 머지 모드에서 현재 CU의 코딩을 제공한다. 다음으로 아핀 머지 코딩 모드는 고려되는 비디오 코딩 시스템에서 현재 CU에 대해 이용 가능한 다른 코딩 모드들(예를 들어, 잔차 코딩과 함께하는 인터 모드를 포함함)과 함께 레이트 왜곡(RD) 경쟁에 놓여진다. RD 경쟁에 기초하여 모드가 선택되고, 그 모드는 현재 CU를 인코딩하는 데 사용되고, 그 모드에 대한 인덱스 또한 다양한 실시예들에서 인코딩된다.

적어도 하나의 구현에서, 잔차 플래그가 사용된다. 블록(1450)에서, 플래그가 활성화되어 코딩이 잔차 데이터와 함께 수행되는 것을 표시한다. 블록(1460)에서, 현재 CU가 (잔차와 함께) 완전히 코딩 및 재구성되어 대응하는 RD 비용을 제공한다. 다음으로 플래그가 비활성화되어 코딩이 잔차 데이터 없이 수행되는 것을 표시하고, 프로세스는 CU가 (잔차 없이) 코딩되어 대응하는 RD 비용을 제공하는 블록(1460)으로 돌아간다. 2개의 이전의 것들 사이의 최저 RD 비용은 잔차가 코딩되어야 하는지 아닌지를 (정상(normal) 또는 생략(skip)) 나타낸다. 다음으로 이 최적의 RD 비용은 다른 코딩 모드들과의 경쟁에 놓여진다. 레이트 왜곡 결정이 아래에서 더 상세히 설명될 것이다.

도 15는 현재 CU의 아핀 움직임 필드의 하나 이상의 컨트롤 포인트들을 예측하기 위해 사용되는 프로세스/신택스(1500)의 실시예의 상세를 보여준다. 이것은 도 8b의 공간적 포지션들 (A, B, C, D, E) 중에서 현재 CU에 대한 아핀 움직임 모델의 하나 이상의 컨트롤 포인트들을 유도하는 것에 적합한 CU를 검색하도록 구성된다. 이러한 적합한 CU는 미리 결정된 기준을 검증할 수 있는데, 예를 들어 이러한 CU는 아핀 움직임 모델에 가까운 움직임 정보를 사용하여 이전에 인코딩되었다. 이러한 코딩 모드들의 예시들은 도 20a, 도 20b, 도 21 내지 도 23에 관하여 이후에 주어진다.

도 8b의 공간적 포지션들 (A, B, C, D, E)은 순차적인 순서로 평가되고, 미리 결정된 기준을 검증하는 CU에 대응하는 제1 포지션이 선택된다. 다음으로, 프로세스/신택스(1500)는 인코딩될 현재 CU에 할당되는 아핀 움직임 필드를 생성하기 위해 이후에 사용될 현재 CU에 대한 컨트롤 포인트 움직임 벡터들을 계산하도록 구성된다. 이 컨트롤 포인트 계산은 다음과 같이 진행한다. 선택된 포지션을 포함하는 CU가 결정된다. 이전에 설명된 바와 같이 이것은 현재 CU의 이웃 CU들 중 하나이다. 다음으로, 선택된 이웃 CU 내부의 상부-좌측, 상부-우측, 및 하부-좌측 코너들로부터 세 개의 CPMV들

,

및

가 검색되거나 결정된다. 단순화를 위해, 여기서, 세 개의 CPMV들

,

및

는 컨트롤 포인트 생성기 움직임 벡터들로 지칭된다. 만약 컨트롤 포인트 생성기 움직임 벡터들이 아직 결정되지 않았다면, 그리고 만약 이웃 CU가 아핀 모드에 있지 않다면, 이웃 CU에 대한 컨트롤 포인트 생성기 움직임 벡터들은 도 16에 관하여 설명된 바와 같이 결정된다. 만약 컨트롤 포인트 생성기 움직임 벡터들이 선택된 이웃 CU에 대해 이미 결정되었다면, 세 개의 CPMV들

,

, 및

가 검색된다. 만약 선택된 이웃 CU가 아핀 모드에 있다면, 컨트롤 포인트 생성기 움직임 벡터들(CPMV들

,

, 및

)이 수학식 1을 사용하여 선택된 이웃 CU의 상부-좌측 및 상부-우측 CPMV들

및

으로부터 결정된다. 마지막으로, 현재 CU의 상부-좌측 및 상부-우측 CPMV들

, 및

은 도 9에 관하여 이전에 설명된 바와 같이, 수학식 2에 따라, 세 개의 CPMV들

,

, 및

로부터 유도된다.

적어도 하나의 실시예에 따르면, 도 16은 예측기 후보에 대해, 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 방법(1600)을 보여준다. 블록(1610)에서, 방법(1600)은 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정한다. 추가적인 상세들은 도 17에 관하여 아래에 주어진다. 블록(1620)에서, 방법(1600)은 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트로부터 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정한다.

실시예에 따르면, 예측기 후보의 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들은 예측기 후보의 상부 좌측 코너의 움직임 벡터

, 예측기 후보의 상부 우측 코너의 움직임 벡터

, 및 예측기 후보의 좌측 하부 코너의 움직임 벡터

를 포함한다. 인코딩될 현재 CU의 CPMV

및

은 수학식 2를 사용하여 결정된다.

적어도 하나의 실시예에 따르면, 도 17a는 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하기 위한 방법(1700)을 보여준다. 실시예에 따르면, 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관된다. 블록(1710)에서, 방법(1700)은 예측기 후보의 적어도 두 개의 서브 블록들에 각각 연관된 적어도 두 개의 움직임 벡터들에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 예를 들어, 만약 우리가

를 예측기 후보의 제1 서브 블록의 움직임 벡터로,

를 예측기 후보의 제1 행(line)의 마지막 서브 블록의 움직임 벡터로,

를 예측기 후보의 제1 열(column)의 마지막 서브 블록의 움직임 벡터로,

를 예측기 후보의 마지막 행 및 마지막 열의 서브 블록의 움직임 벡터로 나타낸다면, 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들은 예측기 후보의 상부-좌측 코너 포인트 움직임 벡터(

)에 대해

로, 그리고 예측기 후보의 상부-우측 코너 포인트 움직임 벡터(

)에 대해

로 설정될 수 있다. 블록(1720)에서, 방법(1700)은 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들이 아핀 움직임 모델을 만족하는지 검증한다. 예를 들어, 방법(1700)은 수학식 1 및 예측기 후보의 CPMV들로서의

및

를 사용하여 움직임 벡터들

및

을 추정한다. 블록(1720)에서, 방법(1700)은 다음으로 추정된 움직임 벡터들

및

을 대응하는 서브 블록들에 연관된 움직임 벡터들

및

와 비교한다. 만약 각각의 움직임 벡터들이 각도들 및 놈 값들(norm values)에서 가깝다면(close), 블록(1710)에서 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들은 아핀 움직임 모드에 가깝고, 블록(1710)에서 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 연관된 예측기 후보는 아핀 모드에서 코딩된 블록에 대한 예측기 후보로서 사용될 수 있다.

각각의 움직임 벡터들은 만약 그들의 놈(norm) 사이의 절대차(absolute difference)가 임계값보다 낮고 두 개의 움직임 벡터들 사이의 각도가 다른 임계값보다 낮으면 가깝고, 여기서 임계값들은 고정된 값들, 예를 들어 놈에 대해 픽셀 하나, 또는 각도에 대해 45°, 또는 움직임 벡터 정밀도에 따른 값 세트, 예를 들어 벡터의 정밀도의 4배, 또는 움직임 벡터의 사이즈에 따른 값 세트일 수 있다.

적어도 하나의 실시예에 따르면, 도 17b는 예측기 후보에 연관된 움직임 정보에 기초하여, 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하기 위한 방법(1700')을 보여준다. 실시예에 따르면, 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관된다. 블록(1710')에서, 방법(1700')은, 예측기 후보의 적어도 세 개의 서브 블록들의 적어도 두 개의 구별되는 세트들에 대해, 각각의 세트의 적어도 세 개의 서브 블록들에 각각 연관된 움직임 벡터들에 기초하여, 적어도 두 개의 세트들에 각각 연관된 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정한다. 예를 들어, 도 22에 도시된 바와 같이, CU(현재 블록)는 네 개의 서브 블록들 S₀, S_w, S_h 및 S_wh를 포함하고, 각각의 서브 블록은 움직임 벡터

,

및

에 각각 연관된다. 서브 블록들의 복수의 구별되는 세트들은 (S₀, S_w, S_h), (S₀, S_w, S_wh), (S₀, S_h, S_wh), 및 (S_w, S_h, S_wh)로서 정의될 수 있다. 서브 블록들의 각각의 세트에 대해, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들이 수학식 1을 사용하여 예측기 후보에 대해 추정된다. 즉, 블록(1710')에서, 수학식 1의 파라미터들

,

및

는 세트의 서브 블록들에 각각 연관된 움직임 벡터들을 사용하여 각각의 세트에 대해 결정된다. 파라미터들

의 복수의 세트들이 따라서 획득된다. 블록(1720')에서, 방법(1700')은 블록(1710')에서 결정된 각각의 세트에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 평균함으로써 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 계산한다. 즉, 예측기 후보에 대한 파라미터들

,

및

는 서브 블록들의 각각의 세트로부터 획득된 파라미터들

,

및

를 평균함으로써 획득된다. 다른 변형에 따르면, 예측기 후보에 대한 파라미터들

,

및

는 서브 블록들의 각각의 세트로부터 파라미터들

,

및

의 중간값(median)으로서 획득된다.

적어도 하나의 실시예의 하나의 일반적인 양태는 복수의 예측기 후보들의 세트 중에서, 인코딩되는 또는 디코딩되는 현재 CU의 CPMV들을 유도하기 위한 더 나은 움직임 예측기 후보를 선택하도록 구성된다. 인코더 측에서, 하나의 예시적인 실시예의 하나의 양태에 따르면, 현재 CPMV들을 예측하기 위해 사용되는 후보는 레이트 왜곡 비용 기준에 따라 선택된다. 다른 예시적인 실시예의 다른 양태에 따르면, 이것의 인덱스는 다음으로 디코더를 위한 출력 비트-스트림에서 코딩된다. 디코더는, 다음으로, 대응하는 관련된 데이터를 유도하기 위해 비트-스트림으로부터 선택된 후보에 대응하는 인덱스를 수신하고 디코딩한다.

다른 예시적인 실시예의 다른 양태에 따르면, 여기서 사용되는 CPMV들은, 도 6에서 보여지는 바와 같이, 코딩되는 또는 디코딩되는 현재 CU의 상부-우측 및 상부-좌측 포지션들에서의 두 개로 제한되지 않는다. 다른 실시예들은, 예를 들어, 코너 4x4 서브 블록들의 중심, 또는 코너 4x4 서브 블록들의 내부 코너와 같은 포지션(들)에서 움직임 필드를 유도할 수 있는 한, 예를 들어, 오직 하나의 벡터 또는 두 개 보다 많은 벡터들을 포함하고, 이 CPMV들의 포지션들은 예를 들어, 다른 코너 포지션들에 있거나, 현재 블록의 내부 또는 외부의 임의의 포지션들에 있다.

예시적인 실시예에서, 조사되는 가능성 있는 후보 예측기들의 세트는, 도 8b에서 도시된 바와 같이, JEM에서 기존 아핀 머지 모드에서 CPMV 예측기를 검색하기 위해 사용되는 포지션들의 세트 (A, B, C, D, E)와 동일하다. 도 18은 이 실시예의 일반적인 양태에 따라 현재 CU의 아핀 움직임 모델을 예측하기 위한 최상의 후보를 선택하기 위한 하나의 예시적인 선택 프로세스/신택스(1800)의 상세들을 도시한다. 하지만, 다른 실시예들은 A, B, C, D, E와 다른 예측기 포지션들의 세트를 사용하고, 그것은 세트 내에 더 적거나 더 많은 원소들을 포함할 수 있다.

블록(1801)에서 보여지는 바와 같이, 이 예시적인 실시예(1800)에 대한 입력은 또한 인코딩되는 또는 디코딩되는 현재 CU의 정보이다. 블록(1810)에서, 아래 설명되는 도 19의 알고리즘(1900)에 따라, 복수의 예측기 후보들의 세트가 구성된다. 도 19의 알고리즘(1900)은 도 15와 함께 설명된 미리 결정된 기준을 만족하는 과거 CU에 대응하는 도 8a에서 보여지는 모든 이웃 포지션들 (A, B, C, D, E)을 현재 CU 아핀 움직임의 예측을 위한 후보들의 세트로 모으는 것을 포함한다. 따라서, 도 15에서와 같이 미리 결정된 기준을 만족하는 과거 CU가 발견되는 때 멈추는 것 대신에, 프로세스/신택스(1800)는 현재 CU에 대해 모든 가능한 후보들을 저장한다.

도 18의 블록(1810)에서 보여지는 바와 같이 도 19의 프로세스가 완료되면, 도 18의 프로세스/신택스(1800)는, 블록(1820)에서, 블록(1810)에서 제공된 세트의 각각의 후보로부터 예측된 상부-좌측 및 상부-우측 코너 CPMV들을 계산한다. 블록(1820)의 이 프로세스는 도 20에 의해 더 상세 설명되고 도시된다.

다시, 도 20은 도 18의 블록(1820)의 상세를 보여주고, 앞선 단계(도 18의 블록(1810))로부터 결정되고 발견된 각각의 후보에 대한 루프를 포함한다. 예측기 후보들의 세트 내의 각각의 예측기 후보에 대해, 그 후보의 공간적 포지션을 포함하는 CU가 결정된다. 다음으로 각각의 레퍼런스 리스트 L0 및 L1(B 슬라이스의 경우에서)에 대해, 현재 CU의 움직임 필드를 생성하는 데 유용한 컨트롤 포인트 움직임 벡터들

및

은, 결정된 CU의 CPMV들

,

및

를 사용하여, 수학식 2에 따라 유도된다. 만약 결정된 CU가 아핀 모드에 있지 않다면, 결정된 CU의 CPMV들

,

및

는 도 16에 관하여 설명된 바와 같이 결정된다. 각각의 후보에 대한 두 개의 CPMV들은 다음으로 후보 CPMV들의 세트에 저장된다.

도 20의 프로세스가 완료되고 프로세스가 도 18로 돌아가면, 각각의 아핀 머지 예측기 후보에 대한 루프(1830)가 수행된다. 이것은 예를 들어 최저 레이트 왜곡 비용을 초래하는 CPMV 후보를 선택할 수 있다. 각각의 후보에 대한 루프(1830) 내부에, 도 14에서 보여지는 바와 같은 프로세스와 유사한 다른 루프(1840)가 이전에 설명된 바와 같이 각각의 CPMV 후보들과 함께 현재 CU를 코딩하기 위해 사용된다. 도 14의 알고리즘은 모든 후보들이 평가되었을 때 끝나고, 이것의 출력은 최상의 예측기의 인덱스를 포함할 수 있다. 이전에 표시된 바와 같이, 예로서, 최소 레이트 왜곡 비용을 가진 후보가 최상의 예측기로서 선택될 수 있다. 다양한 실시예들이 현재 CU를 인코딩하기 위한 최상의 예측기를 사용하고, 특정 실시예들은 또한 최상의 예측기에 대한 인덱스를 인코딩한다.

본 기술분야의 통상의 기술자에게 공지된 바와 같이, 레이트 왜곡 비용의 결정의 하나의 예는, 다음과 같이 정의된다:

여기서

는 원본 블록과, 고려된 후보로 현재 CU를 인코딩 및 디코딩하는 것에 의해 획득된 재구성된 블록 사이의 왜곡(전형적으로 L2 거리(distance))을 나타내고;

은 레이트 비용, 예를 들어 고려된 후보로 현재 블록을 코딩하는 것에 의해 생성된 비트들의 수를 나타내고;

는 비디오 시퀀스가 인코딩되고 있는 레이트 타겟을 나타내는 라그랑주 파라미터(Lagrange parameter)이다.

본 출원에서 설명된 예시적인 후보 세트 확장 방법들의 하나의 장점은 주어진 CU와 연관된 아핀 움직임 필드를 구성하는 데 사용될 수 있는 후보 컨트롤 포인트 움직임 벡터들(Control Point Motion Vectors)의 세트의 다양성의 증가이다. 따라서, 본 실시예들은 비디오 컨텐츠 인코딩 및 디코딩의 컴퓨팅 기술에 기술적인 진보를 제공한다. 예를 들어, 본 실시예들은 JEM에서 아핀 머지 코딩 모드에 의해 제공되는 레이트 왜곡 성능을 개선한다. 이러한 방식으로, 고려된 비디오 코덱의 전체 레이트 왜곡 성능이 개선되었다.

또한, 적어도 하나의 실시예의 다른 일반적인 양태에 따르면, 이전에 설명된 바와 같은 아핀 인터 모드는 또한 예측기 후보들의 확장된 리스트를 가짐으로써 여기에 제시된 모든 현재 교시들과 함께 개선될 수 있다. 도 8a와 관련하여 위에서 설명된 바와 같이, 아핀 인터 CU의 하나 이상의 CPMVP들은 그들의 코딩 모드에 상관없이 이웃 움직임 벡터들로부터 유도된다. 도 17에서 개시된 바와 같이, 미리 결정된 기준을 만족하는 이웃 CU의 CPMV들을 유도하는 것이 가능하다. 즉, 도 17에 관하여 설명된 방법에 따르면, 아핀 움직임 모델에 가까운 움직임 정보에 연관된 이웃 CU에 대해, 그 이웃 CU에 대한 추정된 CPMV들을 유도하는 것이 가능하다. 그러므로, 이전에 설명된 바와 같은 아핀 머지 모드에서와 같이, 현재 아핀 인터 CU의 하나 이상의 CPMVP들을 구성하기 위해 아핀 움직임 모델에 가까운 움직임을 가진 이웃들을 이용하는 것이 가능하다. 그 경우, 고려된 후보들은 아핀 머지 모드에 대해 위에서 설명된 것과 동일한 리스트일 수 있다(예를 들어, 오직 공간적 후보들만으로 제한되지 않음).

따라서, 예측기 후보들의 세트는 더 많은 예측기 후보들을 사용하여, 현재 HEVC 및 JEM에 의해 제공되는 압축/압축 해제를 개선하기 위해 제공된다. 프로세스는 더 효율적일 것이고, 추가적인 인덱스를 전송하는 것이 요구될 수 있음에도 불구하고 코딩 이득(coding gain)이 관찰될 것이다.

도 10 내지 도 13과 관련하여 설명된 실시예들에 따르면, 선택된 적어도 하나의 예측기 후보는 미리 결정된 기준을 만족시킨다. 예측기 후보가 아핀 모드에 있지 않음에도 불구하고, 이러한 예측기 후보는 아핀 움직임 모델에 가까운 움직임 정보에 연관된다.

도 21 내지 도 24는 미리 결정된 기준을 만족하는 예측기 후보들을 제공할 수 있는 코딩 모드들을 도시한다.

실시예에 따르면, 만약 예측기 후보가 다음으로부터 유도되는 움직임 정보에 연관된다면 예측기 후보는 미리 결정된 기준을 만족한다:

- 각각의 두 개의 레퍼런스 프레임들 내의 두 개의 레퍼런스 블록들 사이의 양방향 템플릿 매칭, 또는

- 예측기 후보의 제1 공간적 이웃 블록의 움직임 정보에 의해 식별되는 레퍼런스 프레임의 레퍼런스 블록, 또는

도 21은 각각의 두 개의 레퍼런스 프레임들(Ref0, Ref1) 내의 두 개의 레퍼런스 블록들 사이의 양방향 템플릿 매칭을 사용하여 예측된 화상(현재 화상)의 현재 CU(현재 블록)를 도시한다. 현재 CU의 움직임 벡터는 양방향 템플릿 매칭 비용 최소화에 따라 개선된다. 도 22에서 도시된 바와 같이, 다음으로, 이 현재 CU는 더 작은 서브 블록들(s₀, s_w, s_h, s_wh)로 분할되고, 각각의 서브 블록에 대한 움직임 벡터는 서브 블록 레벨에서 독립적으로 양방향 템플릿 매칭 비용과 함께 더 개선된다.

CU에서 또는 서브 블록 레벨에서, 템플릿들은 도 21에 보여지는 바와 같이 레퍼런스 프레임들 내의 레퍼런스 블록들로서 정의된다. 제1 템플릿은 특정 레퍼런스 프레임 리스트로부터의 레퍼런스 프레임을 참조하는 후보 움직임 벡터를 통해 획득된다(예를 들어, 레퍼런스 프레임 리스트 0의 레퍼런스 프레임 0 상의 MV0과 함께). 움직임 궤적이 현재 프레임 내의 현재 CU를 통과하도록, 제2 템플릿은 후보 움직임 벡터(MV1)의 스케일링된 버전과 함께 (레퍼런스 프레임 리스트 1의 레퍼런스 프레임 0 상의) 다른 레퍼런스 프레임 리스트로부터의 레퍼런스 프레임 내에서 획득된다. 그러면, 연관된 양방향 템플릿 매칭 비용은 이 두 개의 레퍼런스 블록들(템플릿들) 사이의 SAD이다.

양방향 템플릿 매칭에 따르면, 양방향 모드를 사용하여 코딩된 CU가 그것의 서브 블록들 각각에 대해 약간 다른 움직임 벡터를 가지기 때문에, 서브 블록들의 움직임 벡터들은 움직임 필드로서 해석될 수 있다. 일부 경우들에서, 이 움직임 필드는 아핀 움직임 필드와 가까울 수 있다. 다음으로, 추정된 CPMV들이 아핀 코딩 모드를 예측하기 위한 예측기 후보로서 사용될 수 있도록, 그 CU에 대해 그것의 CPMV로 가장 가까운 아핀 움직임 필드, 즉, 가장 가까운 아핀 모델을 추정하는 것이 가능하다. 양방향 템플릿 매칭에서 코딩된 CU에 대해 가장 가까운 아핀 움직임 필드를 추정하는 것은 도 17에 관하여 설명된 바와 같이 수행될 수 있다.

도 23은 예측기 후보의 제1 공간적 이웃 블록의 움직임 정보에 의해 식별되는 레퍼런스 프레임(Ref0)의 레퍼런스 블록을 사용하여 예측되는 화상(현재 화상)의 현재 CU를 도시한다. 이러한 코딩 모드는 또한 JEM에서 ATMVP(Alternative Temporal Motion Vector Prediction)로서 알려져 있다. ATMVP 후보는 머지 예측기 리스트로부터 제1 공간적 후보에 의해 주어진 포지션에서 레퍼런스 프레임 Ref0에서 관찰된 파티셔닝을 재생하는 것을 목표로 한다. 제1 머지 (공간적) 후보는 움직임 벡터 및 현재 레퍼런스 프레임을 제공한다(예를 들어, 도 23의 MV0 및 Ref0). 대응하는 보상된 블록 내에서 관찰된 파티션들은 현재 것으로 복사되고, 연관된 움직임 벡터들은 현재 레퍼런스 프레임에 따라 스케일링된다. 복사된 파티션들은 임의의 모드들로 코딩될 수 있는 하나 또는 여러 CU들로부터 올 수 있다. 따라서, 파티션들이 아핀 모드, 템플릿 및/또는 FRUC 양방향 CU들로부터 올 때, 대응하는 아핀 모델(CPMV)을 추정 및 저장한 다음, 아핀 코딩 모드에 대한 예측기로서 추정된 아핀 모델을 사용하는 것이 가능하다. ATMVP에서 코딩된 CU에 대한 아핀 모델을 추정하는 것은 도 17에 관하여 설명된 바와 같이 수행될 수 있다. ATMVP에서 코딩된 CU에 대해, CU의 파티션들은 4x4 서브 블록들로 분할될 수 있고, 각각의 4x4 서브 블록들은 이것이 속하는 파티션의 움직임 정보에 연관된다. 도 17에 개시된 프로세스는 다음으로 CU에 대한 아핀 모델을 획득하기 위해 CU의 각각의 4x4 서브 블록들에 수행된다.

JEM에서, CU는 STMVP 모드에서 코딩될 수 있고, 여기서 그 CU에 대한 움직임 정보는 CU의 공간적 및 시간적 이웃 블록들의 움직임 벡터들의 평균으로서 유도된다. STMVP 후보는 도 24에 보여지는 바와 같이 4x4 서브 블록 레벨에서 공간적 및 시간적 이웃 움직임 벡터들의 평균을 수행한다. 각각의 서브 블록의 움직임 벡터는 상부 및 좌측 공간적 이웃 움직임 벡터들 및 하부-우측 시간적 움직임 벡터의 평균으로서 정의된다. 예를 들어, A 서브 블록의 움직임 벡터는 공간적 b 및 c 움직임 벡터들 및 D 시간적 움직임 벡터의 평균이다. 만약 주변 및 시간적 이웃들이 아핀, 템플릿 및/또는 FRUC 양방향 CU들로부터 온다면, STMVP 움직임 벡터들은 아핀 움직임 필드에 가까울 것이다. 다음으로, 도 17에서 설명된 바와 같이 STMVP에서 코딩된 CU에 대한 대응하는 아핀 모델(CPMV)을 추정 및 저장하는 것과 이것을 아핀 코딩 모드에 대한 예측기로서 사용하는 것이 가능할 것이다.

도 25는 예시적인 실시예들의 다양한 양태들이 구현될 수 있는 예시적인 시스템(2500)의 블록도를 도시한다. 시스템(2500)은 아래 설명되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있고, 전술된 프로세스들을 수행하도록 구성된다. 이러한 디바이스들의 예들은, 개인용 컴퓨터들, 랩톱 컴퓨터들, 스마트폰들, 태블릿 컴퓨터들, 디지털 멀티미디어 셋톱 박스들, 디지털 텔레비전 수신기들, 개인용 비디오 레코딩 시스템들, 연결된 가정용 기기들, 및 서버들을 포함하지만 이에 제한되는 것은 아니다. 시스템(2500)은, 앞서 설명된 예시적인 비디오 시스템들의 전부 또는 일부를 구현하기 위해, 도 25에 도시된 바와 같이 그리고 본 기술분야의 통상의 기술자에 의해 공지된 바와 같이, 통신 채널을 통해 다른 유사한 시스템들, 및 디스플레이에 통신가능하게 결합될 수 있다.

시스템(2500)의 다양한 실시예들은 앞서 논의된 바와 같이 다양한 프로세스들을 구현하기 위해 그 안에 로딩된 명령어들을 실행하기 위해 구성되는 적어도 하나의 프로세서(2510)를 포함한다. 프로세서(2510)는 임베디드 메모리, 입출력 인터페이스, 및 본 기술분야에서 공지된 다양한 다른 회로들을 포함할 수 있다. 시스템(2500)은 또한 적어도 하나의 메모리(2520)(예를 들어, 휘발성 메모리 디바이스, 비휘발성 메모리 디바이스)를 포함할 수 있다. 시스템(2500)은 EEPROM, ROM, PROM, RAM, DRAM, SRAM, 플래시, 자기 디스크 드라이브, 및/또는 광학 디스크 드라이브를 포함하지만 이에 제한되는 것은 아닌, 비휘발성 메모리를 포함할 수 있는 저장 디바이스(2540)를 추가적으로 포함할 수 있다. 저장 디바이스(2540)는 비제한적 예시로서, 내부(internal) 저장 디바이스, 부착(attached) 저장 디바이스, 및/또는 네트워크 접근 가능(network accessible) 저장 디바이스를 포함할 수 있다. 시스템(2500)은 또한 인코딩된 비디오 및/또는 디코딩된 비디오를 제공하기 위해 데이터를 프로세스하도록 구성되는 인코더/디코더 모듈(2530)을 포함할 수 있고, 인코더/디코더 모듈(2530)은 그 자신의 프로세서 및 메모리를 포함할 수 있다.

인코더/디코더 모듈(2530)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 공지된 바와 같이, 이러한 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 양쪽을 포함할 수 있다. 추가적으로, 인코더/디코더 모듈(2530)은 시스템(2500)의 개별적 요소로 구현될 수 있거나 본 기술분야의 통상의 기술자에게 알려진 바와 같이 하드웨어와 소프트웨어의 결합으로서 하나 이상의 프로세서들(2510) 안에 통합될 수 있다.

앞서 설명된 다양한 프로세스들을 수행하기 위해 하나 이상의 프로세서들(2510) 상에 로딩될 프로그램 코드는 저장 디바이스(2540) 내에 저장될 수 있고 프로세서들(2510)에 의한 실행을 위해 메모리(2520) 상에 순차적으로 로딩될 수 있다. 예시적인 실시예들에 따르면, 프로세서(들)(2510), 메모리(2520), 저장 디바이스(2540), 및 인코더/디코더 모듈(2530) 중 하나 이상은 앞서 논의된 프로세스들의 수행 동안 입력 비디오, 디코딩된 비디오, 비트스트림, 수학식들, 포뮬라들, 매트릭스들, 변수들, 연산들, 및 연산 로직들을 포함하나 이에 제한되지 않는, 하나 이상의 다양한 아이템들을 저장할 수 있다.

시스템(2500)은 또한 통신 채널(2560)을 통한 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(2550)를 포함할 수 있다. 통신 인터페이스(2550)는 통신 채널(2560)로부터 데이터를 송신 및 수신하도록 구성된 트랜시버를 포함할 수 있으나 이에 제한되지 않는다. 통신 인터페이스(2550)는 모뎀 또는 네트워크 카드를 포함할 수 있으나 이에 제한되지 않으며, 통신 채널(2550)은 유선 및/또는 무선 매체 안에 구현될 수 있다. 시스템(2500)의 다양한 컴포넌트들이 내부 버스들, 와이어들, 및 인쇄 회로 보드들을 포함하나 이에 제한되지 않는 다양한 알맞은 연결들을 사용하여 연결되거나 통신에 관하여 결합될 수 있다(도 25에서 보여지지 않음).

예시적인 실시예들은 프로세서(2510)에 의해 또는 하드웨어에 의해 구현된 컴퓨터 소프트웨어에 의해, 또는 하드웨어 및 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예시로서, 예시적인 실시예들은 하나 이상의 집적 회로들에 의해 구현될 수 있다. 메모리(2520)는 기술적 환경에 적절한 임의의 타입일 수 있고, 비제한적인 예시들로서, 광학 메모리 디바이스들, 자기 메모리 디바이스들, 반도체 기반 메모리 디바이스들, 고정 메모리, 및 이동식 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 프로세서(2510)는 기술적 환경에 적절한 임의의 타입일 수 있고, 비제한적인 예시로서, 마이크로프로세서들, 일반적인 목적의 컴퓨터들, 특별한 목적의 컴퓨터들, 및 멀티-코어 아키텍처 기반 프로세서들 중 하나 이상을 포함할 수 있다.

여기서 설명된 구현들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의되더라도(예를 들어, 방법으로서만 논의됨), 논의되는 특징들의 구현은 또한 다른 형태들(예를 들어, 장치 또는 프로그램)로 구현될 수 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 예를 들어, 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 로직 디바이스를 포함하는 프로세싱 디바이스들을 일반적으로 지칭하는, 예를 들어 프로세서와 같은 장치로 구현될 수 있다. 프로세서들은 또한, 예를 들어, 컴퓨터들, 휴대폰들, PDA(portable/personal digital assistant)들, 및 최종 사용자들 간의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은, 통신 디바이스들을 포함한다.

더욱이, 본 기술분야의 통상의 기술자는 도 1에서 보여지는 예시적인 HEVC 인코더(100) 및 도 3에서 보여지는 예시적인 HEVC 디코더가 더 나은 압축/압축 해제를 성취하기 위해 개시된 개선들을 기존 HEVC 표준들에 구현하기 위한 본 개시내용의 상기 교시들에 따라 수정될 수 있음을 손쉽게 이해할 수 있다. 예를 들어, 도 1의 예시적인 인코더(100) 내의 엔트로피 코딩(145), 움직임 보상(170), 및 움직임 추정(175), 및 도 3의 예시적인 디코더 내의 엔트로피 디코딩(330), 및 움직임 보상(375)은 기존 JEM에 대한 향상된 아핀 머지 예측의 제공을 포함하는 본 개시내용의 하나 이상의 예시적인 양태들을 구현하기 위한 개시된 교시들에 따라 수정될 수 있다.

"하나의 실시예" 또는 "실시예" 또는 "하나의 구현" 또는 "구현"뿐만 아니라, 그의 다른 변형들에 대한 참조는 실시예와 관련하여 설명된 특정한 특징, 구조, 특성 등이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전반의 다양한 장소들에 나타나는 문구 "하나의 실시예에서" 또는 "실시예에서" 또는 "하나의 구현에서" 또는 "구현에서"는 물론 임의의 다른 변형들의 출현들이 반드시 동일한 실시예를 모두 지칭하는 것은 아니다.

추가적으로, 본 출원 또는 이것의 청구범위는, 정보의 다양한 조각들을 "결정"하는 것을 언급할 수 있다. 정보를 결정하는 것은 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것 또는 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 출원 또는 이것의 청구범위는 다양한 정보의 조각들에의 "액세스(accessing)"를 언급할 수 있다. 정보에 액세스하는 것은, 예를 들어, 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 처리하는 것, 정보를 전송하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.

추가적으로, 본 출원 또는 이것의 청구범위는 정보의 다양한 조각들을 "수신"하는 것을 언급할 수 있다. 수신하는 것은, "액세스"에서와 같이, 광의의 용어로 의도된다. 정보의 수신은 예를 들어 정보의 액세스 또는 (예를 들어, 메모리로부터의) 정보의 검색 중 하나 이상을 포함할 수 있다. 또한, "수신"은 통상적으로 예를 들어 정보의 저장, 정보의 처리, 정보의 전송, 정보의 이동, 정보의 복사, 정보의 소거, 정보의 계산, 정보의 결정, 정보의 예측 또는 정보의 추정과 같은 동작들 동안 하나의 방식 또는 다른 방식으로 수반된다.

본 기술분야의 통상의 기술자에게 명백한 바와 같이, 구현들은 예를 들어 저장되거나 또는 전송될 수 있는 정보를 반송(carry)하도록 포맷된 다양한 신호들을 생성할 수 있다. 이 정보는 예를 들어 방법을 수행하기 위한 명령어들 또는 설명된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 비트스트림을 반송하도록 포맷될 수 있다. 이러한 신호는 예를 들어 (예를 들어, 스펙트럼의 라디오 주파수 부분을 사용하여) 전자기파로서 또는 기저대역 신호로서 포맷될 수 있다. 포맷은, 예를 들어 데이터 스트림을 인코딩하고 인코딩된 데이터 스트림으로 반송파를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 바와 같이 여러 상이한 유선 또는 무선 연결들을 통해 전송될 수 있다. 신호는 프로세서 판독 가능한 매체 상에 저장될 수 있다.

Claims

비디오 인코딩을 위한 방법으로서,
화상 내의 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보(predictor candidate)를 결정하는 단계;
상기 적어도 하나의 예측기 후보에 대해, 상기 적어도 하나의 예측기 후보에 연관된 움직임 정보(motion information)에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들(control point generator motion vectors)을 결정하는 단계;
상기 인코딩되는 블록에 대해, 상기 적어도 하나의 예측기 후보에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들(control point motion vectors)을 결정하는 단계;
상기 블록에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드(motion field)를 결정하는 단계 -상기 대응하는 움직임 필드는 상기 인코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및
상기 대응하는 움직임 필드에 기초하여 상기 블록을 인코딩하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 적어도 하나의 예측기 후보는 예측기 후보들의 세트에 포함되고, 상기 비디오 인코딩을 위한 방법은 상기 예측기 후보들의 세트로부터의 상기 적어도 하나의 예측기 후보에 대한 인덱스를 인코딩하는 단계를 더 포함하는, 방법.
비디오 디코딩을 위한 방법으로서,
화상 내의 디코딩되는 블록에 대해, 예측기 후보를 결정하는 단계;
상기 예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계;
상기 디코딩되는 블록에 대해, 상기 예측기 후보에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계;
상기 블록에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하는 단계 -상기 대응하는 움직임 필드는 상기 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및
상기 대응하는 움직임 필드에 기초하여 상기 블록을 디코딩하는 단계
를 포함하는, 방법.
제3항에 있어서, 상기 예측기 후보는 예측기 후보들의 세트 내에 포함되고, 상기 디코딩되는 블록에 대해, 상기 예측기 후보를 결정하는 단계는 상기 예측기 후보들의 세트 내의 상기 예측기 후보에 대응하는 인덱스를 수신하는 단계를 포함하는, 방법.
비디오 인코딩을 위한 장치로서,
화상 내의 인코딩되는 블록에 대해, 적어도 하나의 예측기 후보를 결정하기 위한 수단;
상기 적어도 하나의 예측기 후보에 대해, 상기 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 수단;
상기 인코딩되는 블록에 대해, 상기 적어도 하나의 예측기 후보에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 수단;
상기 블록에 대해 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하기 위한 수단 -상기 대응하는 움직임 필드는 상기 인코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및
상기 대응하는 움직임 필드에 기초하여 상기 블록을 인코딩하기 위한 수단
을 포함하는, 장치.
비디오 디코딩을 위한 장치로서,
화상 내의 디코딩되는 블록에 대해, 예측기 후보를 결정하기 위한 수단;
상기 예측기 후보에 대해, 적어도 하나의 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하기 위한 수단;
상기 디코딩되는 블록에 대해, 상기 예측기 후보에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하기 위한 수단;
상기 블록에 대해 결정된 상기 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들에 기초하여, 대응하는 움직임 필드를 결정하기 위한 수단 -상기 대응하는 움직임 필드는 상기 디코딩되는 블록의 서브 블록들의 예측에 사용되는 움직임 벡터들을 식별함-; 및
상기 대응하는 움직임 필드에 기초하여 상기 블록을 디코딩하기 위한 수단
을 포함하는, 장치.
제1항 또는 제3항의 방법, 또는 제4항 또는 제5항의 장치에 있어서, 상기 예측기 후보에 연관된 움직임 정보는 병진 움직임 정보(translational motion information)에 대응하는, 방법 또는 장치.
제1항 또는 제3항에 있어서, 상기 예측기 후보에 대해, 상기 예측기 후보에 연관된 움직임 정보에 기초하여, 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계는:
- 상기 예측기 후보에 연관된 움직임 정보에 기초하여, 상기 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계, 및
- 상기 예측기 후보에 연관된 상기 하나 이상의 대응하는 컨트롤 포인트로부터 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들을 결정하는 단계
를 포함하는, 방법.
제8항에 있어서, 상기 하나 이상의 대응하는 컨트롤 포인트 생성기 움직임 벡터들은 상기 예측기 후보의 상부 좌측 코너의 움직임 벡터
, 상기 예측기 후보의 상부 우측 코너의 움직임 벡터
, 및 상기 예측기 후보의 좌측 하부 코너의 움직임 벡터
를 포함하고, 상기 블록에 대한 상기 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들은 상기 블록의 상부 좌측 코너의 움직임 벡터
및 상기 블록의 상부 우측 코너의 움직임 벡터
을 포함하고, 움직임 벡터
및
은 다음에 의해 결정되고:

여기서
는 각각 상기 화상 내의 상기 블록 및 상기 예측기 후보의 수직 포지션이고,
는 각각 상기 화상 내의 상기 블록 및 상기 예측기 후보의 수평 포지션이고,
은 상기 블록의 수평 사이즈이고,
,
는 각각 상기 예측기 후보의 수평 및 수직 사이즈인, 방법.
제8항에 있어서, 상기 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관되고, 상기 예측기 후보에 대해, 상기 예측기 후보에 연관된 움직임 정보에 기초하여, 상기 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계는:
- 상기 예측기 후보의 적어도 두 개의 서브 블록들에 각각 연관된 적어도 두 개의 움직임 벡터들에 기초하여, 상기 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계, 및
- 상기 예측기 후보에 연관된 상기 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들이 아핀 움직임 모델(affine motion model)을 만족하는지 검증하는 단계
를 포함하는, 방법.
제8항에 있어서, 상기 예측기 후보는 하나 이상의 서브 블록들을 포함하고, 각각의 서브 블록은 적어도 하나의 움직임 벡터에 연관되고, 상기 예측기 후보에 대해, 상기 예측기 후보에 연관된 움직임 정보에 기초하여, 상기 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트를 결정하는 단계는:
- 상기 예측기 후보의 적어도 세 개의 서브 블록들의 적어도 두 개의 구별되는 세트들에 대해, 각각의 세트의 상기 적어도 세 개의 서브 블록들에 각각 연관된 상기 움직임 벡터들에 기초하여, 상기 적어도 두 개의 세트들에 각각 연관된 상기 예측기 후보에 대한 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 결정하는 단계, 및
- 각각의 세트에 연관된, 결정된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 평균함으로써 상기 예측기 후보에 연관된 하나 이상의 대응하는 컨트롤 포인트 움직임 벡터들을 계산하는 단계
를 포함하는, 방법.
제1항 내지 제11항 중 어느 한 항의 방법 또는 장치에 있어서, 예측기 후보에 연관된 움직임 정보는:
- 각각 두 개의 레퍼런스 프레임들 내의 두 개의 레퍼런스 블록들 사이의 양방향 템플릿 매칭(bilateral template matching),
- 상기 예측기 후보의 제1 공간적 이웃 블록의 움직임 정보에 의해 식별되는 레퍼런스 프레임의 레퍼런스 블록,
- 상기 예측기 후보의 공간적 및 시간적 이웃 블록들의 움직임 벡터들의 평균
중 적어도 하나로부터 유도되는, 방법 또는 장치.
제1항 내지 제12항 중 어느 한 항의 방법 또는 장치에 따라 생성된 데이터 콘텐츠를 포함하는, 비일시적 컴퓨터 판독 가능 매체(non-transitory computer readable medium).
제1항 내지 제13항 중 어느 한 항의 방법 또는 장치에 따라 생성된 비디오 데이터를 포함하는, 신호.
제1항 내지 제14항 중 어느 한 항의 방법에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들이 저장된, 컴퓨터 판독 가능 저장 매체(computer readable storage medium).