KR20220140642A

KR20220140642A - 비디오 코딩에서의 신택스 엘리먼트의 시그널링을 위한 방법 및 장치

Info

Publication number: KR20220140642A
Application number: KR1020227034199A
Authority: KR
Inventors: 이-원 천; 샤오위 슈; 중-촨 마; 홍-정 주; 웨이 천; 샹린 왕; 빙 위
Original assignee: 베이징 다지아 인터넷 인포메이션 테크놀로지 컴퍼니 리미티드
Priority date: 2020-03-31
Filing date: 2021-03-23
Publication date: 2022-10-18
Also published as: MX2022012250A; EP4111692A1; CN115552907A; JP2023511788A; CN116405699A; WO2021202174A1; US20230031699A1; JP7488358B2; EP4111692A4

Abstract

비디오 코딩을 위한 방법 및 장치가 제공된다. 방법은 디코더가 하나 이상의 참조 픽처 리스트가 픽처와 연관된 픽처 헤더(PH)에서 시그널링되는지 여부, 및 하나 이상의 참조 픽처 리스트가 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적인 것을 지시하는지 여부를 결정하는 것을 포함한다. 방법은 디코더가 하나 이상의 참조 픽처 리스트가 PH에서 시그널링되고 하나 이상의 참조 픽처 리스트가 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 하나 이상의 제약을 PH 내의 하나 이상의 신택스 엘리먼트에 추가하는 것을 더 포함한다.

Description

비디오 코딩에서의 신택스 엘리먼트의 시그널링을 위한 방법 및 장치

본 출원은 2020년 3월 31일자로 출원된 "Signaling of Syntax Elements in Video Coding(비디오 코딩에서의 신택스 엘리먼트의 시그널링)"이라는 명칭의 미국 가출원 제63/003,226호에 대한 우선권을 주장하고, 이 미국 가출원의 전체내용은 모든 목적을 위하여 참조로 통합된다.

본 개시내용은 비디오 코딩 및 압축에 관한 것으로, 특히, 다음으로 제한되지는 않는, 비디오 코딩에서의 신택스 엘리먼트의 시그널링을 위한 방법 및 장치에 관한 것이다.

다양한 비디오 코딩 기법은 비디오 데이터를 압축하기 위하여 이용될 수 있다. 비디오 코딩은 하나 이상의 비디오 코딩 표준에 따라 수행된다. 예를 들어, 요즘, 일부 널리-공지된 비디오 코딩 표준은 ISO/IEC MPEG 및 ITU-T VECG에 의해 공동으로 개발되는 다용도 비디오 코딩(Versatile Video Coding)(VVC), 고효율 비디오 코딩(Efficiency Video Coding)(HEVC, 또한, H.265 또는 MPEG-H Part2로서 공지됨), 및 진보된 비디오 코딩(Advanced Video Coding)(AVC, 또한, H.264 또는 MPEG-4 파트(Part) 10으로서 공지됨)을 포함한다. AOMedia Video 1(AV1)은 그 선행 표준 VP9에 대한 계승자로서 오픈 미디어 동맹(Alliance for Open Media)(AOM)에 의해 개발되었다. 디지털 오디오 및 디지털 비디오 압축 표준을 지칭하는 오디오 비디오 코딩(Audio Video Coding)(AVS)은 중국의 오디오 및 비디오 코딩 표준 작업그룹에 의해 개발된 또 다른 비디오 압축 표준 시리즈이다. 대부분의 현존하는 비디오 코딩 표준은, 즉, 비디오 이미지 또는 시퀀스에서 존재하는 중복성을 감소시키기 위하여 블록-기반 예측 방법(예컨대, 인터-예측, 인트라-예측)을 이용하여, 그리고 예측 에러의 에너지를 압축하기 위하여 변환 코딩을 이용하여 유명한 하이브리드 비디오 코딩 프레임워크(hybrid video coding framework) 상에서 구축된다. 비디오 코딩 기법의 중요한 목표는 비디오 품질에 대한 열화를 회피하거나 최소화하면서, 비디오 데이터를, 더 낮은 비트 레이트를 이용하는 형태로 압축하기 위한 것이다.

본 개시내용은 비디오 코딩에서의 신택스 엘리먼트의 시그널링에 관련되는 기법의 예를 제공한다.

본 개시내용의 제1 양태에 따르면, 비디오 코딩을 위한 방법이 제공된다. 방법은 디코더가 하나 이상의 참조 픽처 리스트가 픽처와 연관된 픽처 헤더(picture header)(PH)에서 시그널링되는지 여부, 및 하나 이상의 참조 픽처 리스트가 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적(bi-predictive)인 것을 지시하는지 여부를 결정하는 것을 포함한다. 또한, 방법은 디코더가 하나 이상의 참조 픽처 리스트가 PH에서 시그널링되고 하나 이상의 참조 픽처 리스트가 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 하나 이상의 제약(constraint)을 PH 내의 하나 이상의 신택스 엘리먼트에 추가하는 것을 포함한다.

본 개시내용의 제2 양태에 따르면, 비디오 코딩을 위한 방법이 제공된다. 방법은 디코더가 하나 이상의 시간적 모션 벡터 예측자가 픽처의 PH와 연관된 하나 이상의 슬라이스에 대한 인터 예측(inter prediction)을 위하여 이용되는지 여부를 특정하기 위하여 인에이블된 플래그(enabled flag)를 이용하는 것을 포함한다. 방법은 디코더가 스케일링 비율 계산을 위하여 픽처의 크기에 적용된 복수의 오프셋에 따라 인에이블된 플래그의 값을 제약하는 것을 더 포함한다.

본 개시내용의 제3 양태에 따르면, 비디오 코딩을 위한 장치가 제공된다. 장치는 하나 이상의 프로세서, 및 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리를 포함한다. 하나 이상의 프로세서는, 명령의 실행 시에, 하나 이상의 참조 픽처 리스트가 픽처와 연관된 PH에서 시그널링되는지 여부, 및 하나 이상의 참조 픽처 리스트가 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적인 것을 지시하는지 여부를 결정하도록 구성된다. 또한, 하나 이상의 프로세서는 하나 이상의 참조 픽처 리스트가 PH에서 시그널링되고 하나 이상의 참조 픽처 리스트가 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 하나 이상의 제약을 PH 내의 하나 이상의 신택스 엘리먼트에 추가하도록 구성된다.

본 개시내용의 제4 양태에 따르면, 비디오 코딩을 위한 장치가 제공된다. 장치는 하나 이상의 프로세서, 및 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리를 포함한다. 하나 이상의 프로세서는, 명령의 실행 시에, 하나 이상의 시간적 모션 벡터 예측자가 픽처의 PH와 연관된 하나 이상의 슬라이스에 대한 인터 예측을 위하여 이용되는지 여부를 특정하기 위하여 인에이블된 플래그를 이용하도록 구성된다. 하나 이상의 프로세서는 스케일링 비율 계산을 위하여 픽처의 크기에 적용된 복수의 오프셋에 따라 인에이블된 플래그의 값을 제약하도록 추가로 구성된다.

본 개시내용의 제5 양태에 따르면, 컴퓨터-실행가능 명령을 저장하는, 비디오 코딩을 위한 비-일시적 컴퓨터 판독가능 저장 매체가 제공된다. 명령은, 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 하나 이상의 컴퓨터 프로세서로 하여금, 본 개시내용의 제1 양태에 따른 비디오 코딩을 위한 방법을 수행하게 한다.

본 개시내용의 제6 양태에 따르면, 컴퓨터-실행가능 명령을 저장하는, 비디오 코딩을 위한 비-일시적 컴퓨터 판독가능 저장 매체가 제공된다. 명령은, 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 하나 이상의 컴퓨터 프로세서로 하여금, 본 개시내용의 제2 양태에 따른 비디오 코딩을 위한 방법을 수행하게 한다.

본 개시내용의 예의 더욱 특정한 설명은 첨부된 도면에서 예시된 구체적인 예를 참조하여 제공될 것이다. 이 도면은 일부 예만을 도시하고, 그러므로, 범위에 있어서 제한하는 것으로 고려되지 않는다면, 첨부 도면의 이용을 통해 예는 추가적으로 구체적으로 그리고 상세하게 설명되고 기술될 것이다.
도 1은 본 개시내용의 일부 구현예에 따라, 예시적인 비디오 인코더를 예시하는 블록도이다.
도 2는 본 개시내용의 일부 구현예에 따라, 예시적인 비디오 디코더를 예시하는 블록도이다.
도 3은 본 개시내용의 일부 구현예에 따라, 다수의 코딩 트리 유닛(coding tree unit)(CTU)으로 분할된 픽처의 예를 예시한다.
도 4a 내지 도 4d는 본 개시내용의 일부 구현예에 따라, 멀티-유형 트리 분할 모드를 예시하는 개략도이다.
도 5는 본 개시내용의 일부 구현예에 따라, 비디오 코딩을 위한 예시적인 장치를 예시하는 블록도이다.
도 6은 본 개시내용의 일부 구현예에 따라, 비디오 코딩의 예시적인 프로세스를 예시하는 흐름도이다.
도 7은 본 개시내용의 일부 구현예에 따라, 비디오 코딩의 예시적인 프로세스를 예시하는 흐름도이다.

그 예가 첨부 도면에서 예시되는 구체적인 구현예에 대해 지금부터 상세하게 참조가 행해질 것이다. 다음의 상세한 설명에서는, 수많은 비-제한적인 구체적인 세부사항이 본 명세서에서 제시된 발명 요지를 이해하는 것을 보조하기 위하여 기재된다. 그러나, 다양한 대안이 이용될 수 있다는 것이 본 기술분야에서의 통상의 기술자에게 분명할 것이다. 예를 들어, 본 명세서에서 제시된 발명 요지는 디지털 비디오 능력을 갖는 많은 유형의 전자 디바이스 상에서 구현될 수 있다는 것이 본 기술분야에서의 통상의 기술자에게 분명할 것이다.

"하나의 실시예", "실시예", "예", "일부 실시예", "일부 예", 또는 유사한 언어에 대한 이 명세서 전반에 걸친 참조는 설명된 특정한 특징, 구조, 또는 특성이 적어도 하나의 실시예 또는 예 내에 포함된다는 것을 의미한다. 하나 이상의 실시예와 관련하여 설명된 특징, 구조, 엘리먼트, 또는 특성은, 이와 다르게 명백하게 특정되지 않으면, 다른 실시예에 또한 적용가능하다.

개시내용의 전반에 걸쳐, 용어 "제1", "제2", "제3" 등은 이와 다르게 명백히 특정되지 않으면, 임의의 공간적 또는 연대기적 순서를 암시하지 않으면서, 관련된 엘리먼트, 예컨대, 디바이스, 컴포넌트, 구성, 단계 등에 대한 오직 참조를 위한 명명법으로서 모두 이용된다. 예를 들어, "제1 디바이스" 및 "제2 디바이스"는 2개의 별도로 형성된 디바이스, 또는 동일한 디바이스의 2개의 파트, 컴포넌트, 또는 동작 상태를 지칭할 수 있고, 임의적으로 명명될 수 있다.

용어 "모듈", "서브-모듈", "회로", "서브-회로", "회로부", "서브-회로부", "유닛", 또는 "서브-유닛"은 하나 이상의 프로세서에 의해 실행될 수 있는 코드 또는 명령을 저장하는 메모리(공유, 전용, 또는 그룹)를 포함할 수 있다. 모듈은 저장된 코드 또는 명령을 갖거나 갖지 않는 하나 이상의 회로를 포함할 수 있다. 모듈 또는 회로는 직접적으로 또는 간접적으로 접속되는 하나 이상의 컴포넌트를 포함할 수 있다. 이 컴포넌트는 서로 물리적으로 부착되거나 부착되지 않을 수 있거나, 서로에 인접하게 위치되거나 위치되지 않을 수 있다.

본 명세서에서 이용된 바와 같이, 용어 "~경우" 또는 "~때"는 맥락에 따라 "~할 시에" 또는 "~에 응답하여"를 의미하도록 이해될 수 있다. 이 용어는, 청구항에서 나타날 경우에, 관련된 제한 또는 특징이 조건적이거나 임의적이라는 것을 지시하지 않을 수 있다. 예를 들어, 방법은 i) 조건 X가 존재할 때 또는 존재할 경우에, 기능 또는 액션 X'이 수행되고, ii) 조건 Y가 존재할 때 또는 존재할 경우에, 기능 또는 액션 Y'이 수행되는 단계를 포함할 수 있다. 방법은 기능 또는 액션 X'을 수행하는 능력, 및 기능 또는 액션 Y'을 수행하는 능력의 둘 모두로 구현될 수 있다. 따라서, 기능 X' 및 Y'은 상이한 시간에, 방법의 다수의 실행 시에 둘 모두 수행될 수 있다.

유닛 또는 모듈은 순수하게 소프트웨어에 의해, 순수하게 하드웨어에 의해, 또는 하드웨어 및 소프트웨어의 조합에 의해 구현될 수 있다. 예를 들어, 순수한 소프트웨어 구현예에서, 유닛 또는 모듈은 특정한 기능을 수행하기 위하여, 직접적으로 또는 간접적으로 함께 링크되는 기능적으로 관련된 코드 블록 또는 소프트웨어 컴포넌트를 포함할 수 있다.

도 1은 블록-기반 프로세싱을 이용하여 많은 비디오 코딩 표준과 함께 이용될 수 있는 예시적인 블록-기반 하이브리드 비디오 인코더(100)를 예시하는 블록도를 도시한다. 인코더(100)에서, 비디오 프레임은 프로세싱을 위하여 복수의 비디오 블록으로 파티셔닝(partition)된다. 각각의 주어진 비디오 블록에 대하여, 예측은 인터 예측 접근법 또는 인트라 예측 접근법의 어느 하나에 기초하여 형성된다. 인터 예측에서, 하나 이상의 예측자(predictor)는 이전에 재구성된 프레임으로부터의 픽셀에 기초하여, 모션 추정(motion estimation) 및 모션 보상(motion compensation)을 통해 형성된다. 인트라 예측에서는, 예측자가 현재 프레임 내의 재구성된 픽셀에 기초하여 형성된다. 모드 판정(mode decision)을 통해, 최상의 예측자는 현재 블록을 예측하기 위하여 선택될 수 있다.

현재 비디오 블록과 그 예측자 사이의 차이를 나타내는 예측 잔차는 변환 회로부(102)로 전송된다. 그 다음으로, 변환 계수는 엔트로피 감소를 위하여 변환 회로부(102)로부터 양자화 회로부(104)로 전송된다. 양자화된 계수는 그 다음으로, 압축된 비디오 비트스트림을 생성하기 위하여 엔트로피 코딩 회로부(106)로 이송된다. 도 1에서 도시된 바와 같이, 비디오 블록 파티션 정보, 모션 벡터, 참조 픽처 인덱스, 및 인트라 예측 모드와 같은, 인터 예측 회로부 및/또는 인트라 예측 회로부(112)로부터의 예측-관련된 정보(110)는 또한, 엔트로피 코딩 회로부(106)를 통해 이송되고, 압축된 비디오 비트스트림(114)으로 저장된다.

인코더(100)에서, 디코더-관련된 회로부는 또한, 예측의 목적을 위해 픽셀을 재구성하기 위하여 필요하다. 먼저, 예측 잔차는 역 양자화(116) 및 역 변환 회로부(118)를 통해 재구성된다. 이 재구성된 예측 잔차는 현재 비디오 블록에 대한 비-필터링되어 재구성된 픽셀을 생성하기 위하여 블록 예측자(120)와 합성된다.

인트라 예측(또한, "공간적 예측(spatial prediction)"으로서 지칭됨)은 현재 비디오 블록을 예측하기 위하여 동일한 비디오 픽처 및/또는 슬라이스 내의 (참조 샘플로 칭해지는) 이미 코딩된 이웃하는 블록의 샘플로부터의 픽셀을 이용한다. 공간적 예측은 비디오 신호 내에 내재한 공간적 중복성을 감소시킨다.

인터 예측(또한, "시간적 예측(temporal prediction)"으로서 지칭됨)은 현재 비디오 블록을 예측하기 위하여 이미-코딩된 비디오 픽처로부터의 재구성된 픽셀을 이용한다. 시간적 예측은 비디오 신호 내에 내재한 시간적 중복성을 감소시킨다. 주어진 코딩 유닛(coding unit)(CU) 또는 코딩 블록에 대한 시간적 예측 신호는 통상적으로, 현재 CU와 그 시간적 기준 사이의 모션의 양 및 방향을 지시하는 하나 이상의 모션 벡터(motion vector)(MV)에 의해 시그널링된다. 또한, 다수의 참조 픽처가 지원될 경우에, 하나의 참조 픽처 인덱스가 추가적으로 전송되고, 이러한 참조 픽처 인덱스는 시간적 예측 신호가 참조 픽처 저장소 내의 어느 참조 픽처로부터 나오는지를 식별하기 위하여 이용된다.

공간적 및/또는 시간적 예측이 수행된 후에, 인코더(100) 내의 인트라/인터 모드 판정 회로부(121)는 예를 들어, 레이트-왜곡(rate-distortion) 최적화 방법에 기초하여 최상의 예측 모드를 선택한다. 블록 예측자(120)는 그 다음으로, 현재 비디오 블록으로부터 감산되고; 결과적인 예측 잔차는 변환 회로부(102) 및 양자화 회로부(104)를 이용하여 역-상관(de-correlate)된다. 결과적인 양자화된 잔차 계수는 재구성된 잔차를 형성하기 위하여 역 양자화 회로부(116)에 의해 역 양자화되고 역 변환 회로부(118)에 의해 역 변환되고, 이러한 재구성된 잔차는 그 다음으로, CU의 재구성된 신호를 형성하기 위하여 예측 블록에 다시 가산된다. 또한, 디블록킹 필터(deblocking filter), 샘플 적응적 오프셋(sample adaptive offset)(SAO), 및/또는 적응적 인-루프 필터(adaptive in-loop filter)(ALF)와 같은 인-루프 필터링(115)은, 재구성된 CU가 픽처 버퍼(117)의 참조 픽처 저장소 내에 넣어져서 미래의 비디오 블록을 코딩하기 위하여 이용되기 전에, 재구성된 CU에 대해 적용될 수 있다. 출력 비디오 비트스트림(114)을 형성하기 위하여, 코딩 모드(인터 또는 인트라), 예측 모드 정보, 모션 정보, 및 양자화된 잔차 계수는 모두 엔트로피 코딩 유닛(106)으로 전송되어, 비트-스트림을 형성하기 위하여 추가로 압축되고 팩킹(pack)된다.

예를 들어, 디블록킹 필터는 AVC, HEVC 뿐만 아니라, VVC의 지금-현재의 버전에서 이용가능하다. HEVC에서, SAO(sample adaptive offset)(샘플 적응적 오프셋)로 칭해진 추가적인 인-루프 필터는 코딩 효율을 추가로 개선시키기 위하여 정의된다. VVC 표준의 지금-현재의 버전에서는, ALF(adaptive loop filter)(적응적 루프 필터)로 칭해진 또 다른 인-루프 필터가 적극적으로 조사되고 있고, 그것은 최종적인 표준 내에 포함될 양호한 기회를 가진다.

이러한 인-루프 필터 동작은 임의적이다. 이러한 동작을 수행하는 것은 코딩 효율 및 시각적 품질을 개선시키는 것을 돕는다. 이들은 또한, 연산 복잡도를 절약하기 위하여 인코더(100)에 의해 내려진 판정으로서 턴오프(turn off) 될 수 있다.

인트라 예측은 통상적으로 비필터링되어 재구성된 픽셀에 기초하는 반면, 인터 예측은 이 필터 옵션이 인코더(100)에 의해 턴온(turn on) 될 경우에, 필터링되어 재구성된 픽셀에 기초한다.

도 2는 많은 비디오 코딩 표준과 함께 이용될 수 있는 예시적인 블록-기반 비디오 디코더(200)를 예시하는 블록도이다. 디코더(200)는 도 1의 인코더(100)에서 존재하는 재구성-관련된 섹션과 유사하다. 디코더(200)에서, 착신 비디오 비트스트림(201)은 양자화된 계수 레벨 및 예측-관련된 정보를 도출하기 위하여 엔트로피 디코딩(202)을 통해 먼저 디코딩된다. 양자화된 계수 레벨은 그 다음으로, 재구성된 예측 잔차를 획득하기 위하여 역 양자화(204) 및 역 변환(206)을 통해 프로세싱된다. 인트라/인터 모드 선택기(212)에서 구현된 블록 예측자 메커니즘은 디코딩된 예측 정보에 기초하여, 인트라 예측(208) 또는 모션 보상(210) 중의 어느 하나를 수행하도록 구성된다. 비필터링되어 재구성된 픽셀들의 세트는 합산기(214)를 이용하여, 역 변환(206)으로부터의 재구성된 예측 잔차 및 블록 예측자 메커니즘에 의해 생성된 예측 출력을 합산함으로써 획득된다.

재구성된 블록은 이것이 참조 픽처 저장소로서 기능하는 픽처 버퍼(213) 내에 저장되기 전에, 인-루프 필터(209)를 추가로 지나갈 수 있다. 픽처 버퍼(213) 내의 재구성된 비디오는 디스플레이 디바이스를 구동하기 위하여 전송될 수 있을 뿐만 아니라, 미래의 비디오 블록을 예측하기 위하여 이용될 수 있다. 인-루프 필터(209)가 턴온되는 상황에서, 필터링 동작은 최종적인 재구성된 비디오 출력(222)을 도출하기 위하여 이 재구성된 픽셀에 대해 수행된다.

VVC, JEM, HEVC, MPEG-4, 파트 10과 같은, 위에서 언급된 비디오 코딩/디코딩 표준은 개념적으로 유사하다. 예를 들어, 이들은 모두 블록-기반 프로세싱을 이용한다. 일부 표준에서의 블록 파티셔닝 방식은 이하에서 상술된다.

고효율 비디오 코딩(High Efficient Video Coding)(HEVC)

HEVC는 하이브리드 블록-기반 모션-보상된 변환 코딩 아키텍처에 기초한다. 압축을 위한 기본적인 유닛은 CTU로 칭해진다. 최대 CTU 크기는 최대한으로 64 x 64 루마 픽셀, 및 4:2:0 크로마 포맷(chroma format)에 대한 32 x 32 크로마 픽셀의 2개의 블록으로서 정의된다. 각각의 CTU는 하나의 CU를 포함할 수 있거나, 사전정의된 최소 CU 크기에 도달할 때까지 4개의 더 작은 CU로 재귀적으로(recursively) 분할될 수 있다. 각각의 CU(또한, 리프 CU(leaf CU)로 명명됨)는 하나 또는 다수의 예측 유닛(prediction unit)(PU), 및 변환 유닛(transform unit)(transform unit)(TU)의 트리(tree)를 포함한다.

일반적으로, 모노크롬 컨텐츠(monochrome content)를 제외하고, CTU는 하나의 루마 코딩 트리 블록(coding tree block)(CTB) 및 2개의 대응하는 크로마 CTB를 포함할 수 있고; CU는 하나의 루마 코딩 블록(coding block)(CB) 및 2개의 대응하는 크로마 CB를 포함할 수 있고; PU는 하나의 루마 예측 블록(prediction block)(PB) 및 2개의 대응하는 크로마 PB를 포함할 수 있고; TU는 하나의 루마 변환 블록(transform block)(TB) 및 2개의 대응하는 크로마 TB를 포함할 수 있다. 그러나, 최소 TB 크기는 루마 및 크로마 둘 모두에 대하여 4x4이고(즉, 2x2 크로마 TB가 4:2:0 컬러 포맷에 대하여 지원되지 않음) 각각의 인트라 크로마 CB는 대응하는 인트라 루마 CB 내의 인트라 루마 PB의 수에 관계없이 오직 하나의 인트라 크로마 PB를 항상 가지므로, 예외가 발생할 수 있다.

인트라 CU에 대하여, 루마 CB는 하나 또는 4개의 루마 PB에 의해 예측될 수 있고, 2개의 크로마 CB의 각각은 하나의 크로마 PB에 의해 항상 예측되고, 여기서, 각각의 루마 PB는 하나의 인트라 루마 예측 모드를 가지고, 2개의 크로마 PB는 하나의 인트라 크로마 예측 모드를 공유한다. 또한, 인트라 CU에 대하여, TB 크기는 PB 크기보다 클 수 없다. 각각의 PB에서, 인트라 예측은 TB의 이웃하는 재구성된 샘플로부터 PB 내부의 각각의 TB의 샘플을 예측하기 위하여 적용된다. 각각의 PB에 대하여, 33개의 방향성 인트라 예측 모드에 추가적으로, DC 및 평면형 모드는 또한, 평탄한 영역 및 점차적으로 변동되는 영역을 각각 예측하기 위하여 지원된다.

각각의 인터 PU에 대하여, 인터, 스킵(skip), 및 병합(merge)을 포함하는 3개의 예측 모드 중의 하나가 선택될 수 있다. 일반적으로 말하면, 모션 벡터 경합(motion vector competition)(MVC) 방식은 공간적 및 시간적 모션 후보를 포함하는 주어진 후보 세트로부터 모션 후보를 선택하기 위하여 도입된다. 모션 추정에 대한 다수의 참조는 2개의 가능한 재구성된 참조 픽처 리스트(즉, 리스트 0 및 리스트 1)에서 최상의 참조를 발견하는 것을 허용한다. 인터 모드(AMVP 모드로 칭해지고, 여기서, AMVP는 진보된 모션 벡터 예측(advanced motion vector prediction)을 나타냄)에 대하여, 인터 예측 지시자(리스트 0, 리스트 1, 또는 양방향 예측), 참조 인덱스, 모션 후보 인덱스, 모션 벡터 차이(motion vector difference)(MVD), 및 예측 잔차가 전송된다. 스킵 모드 및 병합 모드에 관하여, 병합 인덱스만이 전송되고, 현재 PU는 코딩된 병합 인덱스에 의해 참조된 이웃하는 PU로부터 인터 예측 지시자, 참조 인덱스, 및 모션 벡터를 승계한다. 스킵 코딩된 CU의 경우에, 잔차 신호는 또한 생략된다.

다용도 비디오 코딩(Versatile Video Coding)(VVC)

미국 샌디에이고(San Diego)에서, 2018년 4월 10-20에 개최된 10차 JVET 회의에서, JVET는 다용도 비디오 코딩(VVC)의 첫 번째 초안 및 VVC 테스트 모델 1(VVC Test Model 1)(VTM1)을 그 참조 소프트웨어 구현예로서 정의하였다. 네스팅된 멀티-유형 트리(nested multi-type tree)를 갖는 쿼드트리(quadtree)를 VVC의 초기 새로운 코딩 특징으로서 포함하는 것으로 판정되었다. 멀티-유형 트리는 2진(binary) 및 3진(ternary) 분할의 둘 모두를 포함하는 코딩 블록 파티션 구조이다. 그 이후로, 인코딩 및 디코딩 프로세스의 둘 모두가 구현된 참조 소프트웨어 VTM이 다음의 JVET 회의를 통해 개발되고 업데이팅되었다.

VVC에서, 입력 비디오의 픽처는 CTU로 칭해진 블록으로 파티셔닝된다. CTU는 네스팅된 멀티-유형 트리 구조를 갖는 쿼드트리를 이용하여 CU로 분할되고, CU는 동일한 예측 모드(예컨대, 인트라 또는 인터)를 공유하는 픽셀의 영역을 정의한다. 용어 '유닛'은 루마 및 크로마와 같은 모든 컴포넌트를 포괄하는 이미지의 영역을 정의할 수 있다. 용어 '블록'은 특정한 컴포넌트(예컨대, 루마)를 포괄하는 영역을 정의하기 위하여 이용될 수 있고, 상이한 컴포넌트(예컨대, 루마 대 크로마)의 블록은 4:2:0과 같은 크로마 샘플링 포맷을 고려할 때, 공간적 위치에 있어서 상이할 수 있다.

CTU로의 픽처의 파티셔닝

도 3은 본 개시내용의 일부 구현예에 따라, 다수의 CTU(302)로 분할된 픽처(300)의 예를 예시한다.

VCC에서, 픽처는 CTU의 시퀀스(sequence)로 분할된다. CTU 개념은 HEVC의 개념과 동일하다. 3개의 샘플 어레이를 가지는 픽처에 대하여, CTU는 크로마 샘플의 2개의 대응하는 블록과 함께, 루마 샘플의 NxN 블록으로 구성된다.

CTU 내의 루마 블록의 최대 허용된 크기는 (루마 변환 블록의 최대 크기는 64x64이지만) 128x128인 것으로 특정된다.

트리 구조를 이용한 CTU의 파티셔닝

HEVC에서는, 다양한 국소적 특성에 적응하기 위하여 코딩 트리로서 나타내어진 4진-트리 구조를 이용함으로써 CTU가 CU로 분할된다. 인터-픽처(시간적) 또는 인트라-픽처(공간적) 예측을 이용하여 픽처 영역을 코딩할 것인지 여부의 판정은 리프 CU 레벨에서 행해진다. 각각의 리프 CU는 PU 분할 유형에 따라 1개, 2개, 또는 4개의 PU로 추가로 분할될 수 있다. 하나의 PU 내부에서, 동일한 예측 프로세스가 적용되고, 관련된 정보는 PU에 기초하여 디코더로 전송된다. PU 분할 유형에 기초하여 예측 프로세스를 적용함으로써 잔차 블록을 획득한 후에, 리프 CU는 CU에 대한 코딩 트리와 유사한 또 다른 4진-트리 구조에 따라 변환 유닛(TU)으로 파티셔닝될 수 있다. HEVC 구조의 핵심 특징 중의 하나는 이러한 HEVC 구조가 CU, PU, 및 TU를 포함하는 다수의 파티션 개념을 가진다는 것이다.

VVC에서, 2진 및 3진 분할을 이용하는 네스팅된 멀티-유형 트리를 갖는 쿼드트리는 다수의 파티션 유닛 유형의 개념을 대체하고, 즉, 그것은 최대 변환 길이를 위하여 너무 큰 크기를 가지는 CU에 대하여 필요한 것을 제외하고, CU, PU, 및 TU 개념의 분리를 제거하고, CU 파티션 형상에 대한 더 많은 신축성을 지원한다. 코딩 트리 구조에서, CU는 정사각형 또는 직사각형 형상의 어느 하나를 가질 수 있다. CTU는 먼저, 4진 트리(쿼드트리(quadtree)로서 또한 공지됨) 구조에 의해 파티셔닝된다. 그 다음으로, 4진 트리 리프 노드는 멀티-유형 트리 구조에 의해 추가로 파티셔닝될 수 있다.

도 4a 내지 도 4d는 본 개시내용의 일부 구현예에 따라, 멀티-유형 트리 분할 모드를 예시하는 개략도이다. 도 4a 내지 도 4d에서 도시된 바와 같이, 멀티-유형 트리 구조에서는 4개의 분할 유형, 즉, 수직 2진 분할(402)(SPLIT_BT_VER), 수평 2진 분할(404)(SPLIT_BT_HOR), 수직 3진 분할(406)(SPLIT_TT_VER), 및 수평 3진 분할(408)(SPLIT_TT_HOR)이 있다. 멀티-유형 트리 리프 노드는 CU로 칭해지고, CU가 최대 변환 길이를 위하여 너무 크지 않다면, 이 세그먼트화(segmentation)는 임의의 추가의 파티셔닝 없이 예측 및 변환 프로세싱을 위하여 이용된다. 이것은 대부분의 경우에, CU, PU, 및 TU가 네스팅된 멀티-유형 트리 코딩 블록 구조를 갖는 쿼드트리에서 동일한 블록 크기를 가진다는 것을 의미한다. 최대 지원된 변환 길이가 CU의 컬러 컴포넌트의 폭 또는 높이보다 작을 때, 예외가 발생한다.

VVC에서의 신택스

VVC에서, 신택스 시그널링의 비트스트림의 첫 번째 계층은 네트워크 추상화 계층(Network Abstraction Layer)(NAL)이고, 여기서, 비트스트림은 NAL 유닛들의 세트로 분할된다. 일부 NAL 유닛은 시퀀스 파라미터 세트(Sequence Parameter Set)(SPS) 및 픽처 파라미터 세트(Picture Parameter Set)(PPS)와 같은 공통 제어 파라미터를 디코더로 시그널링한다. 다른 것은 비디오 데이터를 포함한다. 비디오 코딩 계층(Video Coding Layer)(VCL) NAL 유닛은 코딩된 비디오의 슬라이스를 포함한다. 코딩된 픽처는 액세스 유닛으로 칭해지고, 하나 이상의 슬라이스로서 인코딩될 수 있다.

코딩된 비디오 시퀀스는 순간적 디코더 리프레시(Instantaneous Decoder Refresh)(IDR) 픽처로 시작한다. 후행하는 모든 비디오 픽처는 슬라이스로서 코딩된다. 새로운 IDR 픽처는 이전의 비디오 세그먼트가 종료되고 새로운 것이 시작된다는 것을 시그널링한다. 각각의 NAL 유닛은 1-바이트 헤더(one-byte header)와, 그 다음으로, 원시 바이트 시퀀스 페이로드(Raw Byte Sequence Payload)(RBSP)로 시작한다. RBSP는 인코딩된 슬라이스를 포함한다. 슬라이스는 2진 코딩되고, 따라서, 이러한 슬라이스는 길이가 정수 개의 바이트인 것을 보장하기 위하여 제로 비트(zero bit)로 패딩(pad)될 수 있다. 슬라이스는 슬라이스 헤더 및 슬라이스 데이터로 구성된다. 슬라이스 데이터는 일련의 CU로서 특정된다.

픽처 헤더 개념은 픽처의 첫 번째 VCL NAL 유닛으로서 픽처 당 한 번 전송되도록 16차 JVET 회의에서 채택되었다. 슬라이스 헤더 내의 이전의 일부 신택스 엘리먼트를 이 픽처 헤더로 그룹화하는 것이 또한 제안되었다. 픽처 당 한 번 기능적으로 오직 전송될 필요가 있는 신택스 엘리먼트는 주어진 픽처에 대한 슬라이스에서 다수 회 전송되는 대신에, 픽처 헤더로 이동될 수 있다.

VVC 사양에서, 신택스 표는 모든 허용된 비트스트림의 신택스의 슈퍼세트(superset)를 특정한다. 신택스에 대한 추가적인 제약은 다른 조항에서 직접적으로 또는 간접적으로 특정될 수 있다. 이하의 표 1은 VVC에서의 슬라이스 헤더 및 픽처 헤더의 신택스 표이다. 일부 신택스의 시맨틱(semantic)은 또한, 신택스 표 이후에 예시된다.

[표 1]

선택된 신택스 엘리먼트의 시맨틱

ph_temporal_mvp_enabled_flag는 시간적 모션 벡터 예측자가 PH와 연관된 슬라이스에 대한 인터 예측을 위하여 이용될 수 있는지 여부를 특정한다. ph_temporal_mvp_enabled_flag가 0일 경우에, PH와 연관된 슬라이스의 신택스 엘리먼트는 시간적 모션 벡터 예측자가 슬라이스의 디코딩에서 이용되도록 제약될 것이다. 이와 다를 경우(ph_temporal_mvp_enabled_flag가 1임), 시간적 모션 벡터 예측자는 PH와 연관된 슬라이스의 디코딩에서 이용될 수 있다. 존재하지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0인 것으로 추론된다. 디코딩된 픽처 버퍼(Decoded Picture Buffer)(DPB) 내의 참조 픽처가 현재 픽처와 동일한 공간적 해상도를 가지지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다.

서브블록-기반 병합 MVP 후보의 최대 수 MaxNumSubblockMergeCand는 다음과 같이 도출된다:

여기서, MaxNumSubblockMergeCand의 값은 0 내지 5까지의 범위에 있을 것이다.

1인 slice_collocated_from_l0_flag는 시간적 모션 벡터 예측을 위하여 이용된 공동위치된 픽처가 참조 픽처 리스트 0으로부터 도출된다는 것을 특정한다. 0인 slice_collocated_from_l0_flag는 시간적 모션 벡터 예측을 위하여 이용된 공동위치된 픽처가 참조 픽처 리스트 1로부터 도출된다는 것을 특정한다.

slice_type이 B 또는 P이고, ph_temporal_mvp_enabled_flag가 1이고, slice_collocated_from_l0_flag가 존재하지 않을 때, 다음이 적용된다:

- rpl_info_in_ph_flag가 1일 경우에, slice_collocated_from_l0_flag는 ph_collocated_from_l0_flag인 것으로 추론된다.

- 이와 다를 경우(rpl_info_in_ph_flag가 0이고, slice_type이 P임), slice_collocated_from_l0_flag의 값은 1인 것으로 추론된다.

slice_collocated_ref_idx는 시간적 모션 벡터 예측을 위하여 이용된 공동위치된 픽처의 참조 인덱스를 특정한다.

slice_type이 P일 때, 또는 slice_type이고 slice_collocated_from_l0_flag가 1일 때, slice_collocated_ref_idx는 참조 픽처 리스트 0 내의 엔트리를 참조하고, slice_collocated_ref_idx의 값은 0 내지 NumRefIdxActive[ 0 ] - 1까지의 범위에 있을 것이다.

slice_type이 B이고 slice_collocated_from_l0_flag가 0일 때, slice_collocated_ref_idx는 참조 픽처 리스트 1 내의 엔트리를 참조하고, slice_collocated_ref_idx의 값은 0 내지 NumRefIdxActive[ 1 ] - 1까지의 범위에 있을 것이다.

slice_collocated_ref_idx가 존재하지 않을 때, 다음이 적용된다:

- rpl_info_in_ph_flag가 1일 경우에, slice_collocated_ref_idx의 값은 ph_collocated_ref_idx인 것으로 추론된다.

- 이와 다를 경우(rpl_info_in_ph_flag가 0임), slice_collocated_ref_idx의 값은 0인 것으로 추론된다.

비트스트림 적합성(bitstream conformance)의 요건은 slice_collocated_ref_idx에 의해 참조된 픽처가 코딩된 픽처의 모든 슬라이스에 대하여 동일할 것이라는 것이다.

비트스트림 적합성의 요건은 slice_collocated_ref_idx에 의해 참조된 참조 픽처의 pic_width_in_luma_samples 및 pic_height_in_luma_samples의 값이 각각 현재 픽처의 pic_width_in_luma_samples 및 pic_height_in_luma_samples의 값일 것이고, RprConstraintsActive[slice_collocated_from_l0_flag ? 0:1][slice_collocated_ref_idx]가 0일 것이라는 것이다.

RprConstraintsActive[i][j]의 값은 VVC 사양에서의 섹션 8.3.2에서 도출된다. RprConstraintsActive[i][j]의 값의 도출은 이하에서 설명된다.

참조 픽처 리스트 구성을 위한 디코딩 프로세스

참조 픽처 리스트 구성을 위한 디코딩 프로세스는 비-IDR 픽처의 각각의 슬라이스에 대한 디코딩 프로세스의 시작 시에 호출된다.

참조 픽처는 참조 인덱스를 통해 어드레싱된다. 참조 인덱스는 참조 픽처 리스트로의 인덱스이다. I 슬라이스를 디코딩할 때, 참조 픽처 리스트는 슬라이스 데이터의 디코딩에서 이용되지 않는다. P 슬라이스를 디코딩할 때, 참조 픽처 리스트 0(즉, RefPicList[ 0 ])만이 슬라이스 데이터의 디코딩에서 이용된다. B 슬라이스를 디코딩할 때, 참조 픽처 리스트 0 및 참조 픽처 리스트 1(즉, RefPicList[ 1 ])의 둘 모두가 슬라이스 데이터의 디코딩에서 이용된다.

비-IDR 픽처의 각각의 슬라이스에 대한 디코딩 프로세스의 시작 시에, 참조 픽처 리스트 RefPicList[ 0 ] 및 RefPicList[ 1 ]이 도출된다. 참조 픽처 리스트는 비디오 코딩 표준에서 특정된 바와 같은 참조 픽처의 표기(marking) 시에, 또는 슬라이스 데이터의 디코딩 시에 이용된다.

픽처의 첫 번째 슬라이스가 아닌 비-IDR 픽처의 I 슬라이스에 대하여, RefPicList[ 0 ] 및 RefPicList[ 1 ]은 비트스트림 적합성 체크 목적을 위하여 도출될 수 있지만, 그 도출은 현재 픽처, 또는 디코딩 순서에서 현재 픽처를 후행하는 픽처의 디코딩을 위하여 필요하지는 않다. 픽처의 첫 번째 슬라이스가 아닌 P 슬라이스에 대하여, RefPicList[ 1 ]은 비트스트림 적합성 체크 목적을 위하여 도출될 수 있지만, 그 도출은 현재 픽처, 또는 디코딩 순서에서 현재 픽처를 후행하는 픽처의 디코딩을 위하여 필요하지는 않다.

참조 픽처 리스트 RefPicList[ 0 ] 및 RefPicList[ 1 ], 참조 픽처 스케일링 비율 RefPicScale[ i ][ j ][ 0 ] 및 RefPicScale[ i ][ j ][ 1 ], 및 참조 픽처 스케일링된 플래그 RprConstraintsActive[ 0 ][ j ] 및 RprConstraintsActive[ 1 ][ j ]는 다음과 같이 도출된다:

scaling_win_left_offset, scaling_win_right_offset, scaling_win_top_offset, 및 scaling_win_bottom_offset은 스케일링 비율 계산을 위하여 픽처 크기에 적용되는 오프셋을 특정한다. 존재하지 않을 때, scaling_win_left_offset, scaling_win_right_offset, scaling_win_top_offset, 및 scaling_win_bottom_offset의 값은 각각 pps_conf_win_left_offset, pps_conf_win_right_offset, pps_conf_win_top_offset, 및 pps_conf_win_bottom_offset인 것으로 추론된다.

SubWidthC * ( scaling_win_left_offset + scaling_win_right_offset )의 값은 pic_width_in_luma_samples 미만일 것이고, SubHeightC * ( scaling_win_top_offset + scaling_win_bottom_offset )의 값은 pic_height_in_luma_samples 미만일 것이다.

변수 PicOutputWidthL 및 PicOutputHeightL은 다음과 같이 도출된다:

refPicOutputWidthL 및 refPicOutputHeightL은 각각, 이 PPS를 참조하는 현재 픽처의 참조 픽처의 PicOutputWidthL 및 PicOutputHeightL이라고 한다. 비트스트림 적합성의 요건은 다음의 조건 전부가 만족된다는 것이다:

- PicOutputWidthL * 2는 refPicWidthInLumaSamples 이상일 것이다.

- PicOutputHeightL * 2는 refPicHeightInLumaSamples 이상일 것이다.

- PicOutputWidthL은 refPicWidthInLumaSamples * 8 이하일 것이다.

- PicOutputHeightL은 refPicHeightInLumaSamples * 8 이하일 것이다.

- PicOutputWidthL * pic_width_max_in_luma_samples는 refPicOutputWidthL * (pic_width_in_luma_samples - Max( 8, MinCbSizeY )) 이상일 것이다.

- PicOutputHeightL * pic_height_max_in_luma_samples는 refPicOutputHeightL * (pic_height_in_luma_samples - Max( 8, MinCbSizeY )) 이상일 것이다.

현재의 VVC에서, mvd_l1_zero_flag는 임의의 조건적 제약 없이 PH에서 시그널링된다. 그러나, 플래그 mvd_l1_zero_flag에 의해 제어된 특징은 슬라이스가 양방향-예측 슬라이스(B-슬라이스)일 때에 오직 적용가능하다. 그러므로, 플래그 시그널링은 픽처 헤더와 연관된 슬라이스가 B-슬라이스가 아닐 때에 중복적이다.

또 다른 예에서, ph_disable_bdof_flag 및 ph_disable_dmvr_flag는 시퀀스 파라미터 세트(SPS)에서 시그널링된 대응하는 인에이블링 플래그(sps_bdof_pic_present_flag, sps_dmvr_pic_present_flag)가 각각 참(true)일 때에만 PH에서 시그널링된다. 이하의 표 2에서 도시된 바와 같이, 플래그 ph_disable_bdof_flag 및 ph_disable_dmvr_flag에 의해 제어된 특징은 슬라이스가 양방향-예측 슬라이스(B-슬라이스)일 때에 오직 적용가능하다. 그러므로, 이 2개의 플래그의 시그널링은 픽처 헤더와 연관된 슬라이스가 B-슬라이스가 아닐 때에 중복적이고 쓸모없다.

[표 2]

세 번째 문제는 신택스 ph_temporal_mvp_enabled_flag와 연관된다. 현재의 VVC에서는, 시간적 모션 벡터 예측(temporal motion vector prediction)(TMVP) 도출을 위하여 선택되는 공동위치된 픽처의 해상도가 현재 픽처의 해상도와 동일할 것이므로, 이하에서 설명된 바와 같이 ph_temporal_mvp_enabled_flag의 값을 체크하기 위한 비트스트림 적합성 제약이 있다:

DPB 내의 참조 픽처가 현재 픽처와 동일한 공간적 해상도를 가지지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다.

그러나, 현재의 VVC에서는, 공동위치된 픽처의 해상도가 TMVP의 인에이블링에 영향을 줄 뿐만 아니라, 스케일링 비율 계산을 위하여 픽처 크기에 적용되는 오프셋도 TMVP의 인에이블링에 영향을 준다. 그러나, 현재의 VVC에서는, 오프셋이 ph_temporal_mvp_enabled_flag의 비트스트림 적합성에서 고려되지는 않는다.

또한, slice_collocated_ref_idx의 참조된 픽처가 코딩된 픽처의 모든 슬라이스에 대하여 동일할 것이라는 비트스트림 적합성의 요건이 있다. 그러나, 코딩된 픽처가 다수의 슬라이스를 가지고 모든 이러한 슬라이스 사이에서 존재하는 공통적인 참조 픽처가 없을 때, 이 비트스트림 적합성은 충족될 기회를 가지지 않는다. 그리고 이러한 경우에, ph_temporal_mvp_enabled_flag는 0인 것으로 제약되어야 한다.

몇몇 방법은 위에서 설명된 쟁점을 해결하기 위하여 제안된다. 제안된 방법은 독립적으로 또는 조합적으로 적용될 수 있다는 것이 주목된다.

플래그 mvd_l1_zero_flag, ph_disable_bdof_flag, 및 ph_disable_dmvr_flag에 의해 제어된 특징은 슬라이스가 양방향-예측 슬라이스(B-슬라이스)일 때에 오직 적용가능하므로, 개시내용의 방법에 따르면, 연관된 슬라이스가 B-슬라이스일 때에만 이 플래그를 시그널링하는 것이 제안된다. 참조 픽처 리스트가 PH에서 시그널링될 때(예컨대, rpl_info_in_ph_flag=1임), 그것은 코딩된 픽처의 모든 슬라이스가 PH에서 시그널링된 동일한 참조 픽처를 이용한다는 것을 의미한다. 그러므로, 참조 픽처 리스트가 PH에서 시그널링되고 시그널링된 참조 픽처 리스트가 현재 픽처가 양방향-예측적이지 않다는 것을 지시할 때, 플래그 mvd_l1_zero_flag, ph_disable_bdof_flag, 및 ph_disable_dmvr_flag는 시그널링될 필요가 없다.

일부 예에서는, 픽처 헤더 내의 신택스의 일부에 대하여 전송된 부적절한 값으로 인한 중복적인 시그널링 또는 미정의된 디코딩 거동을 방지하기 위하여, 일부 조건이 PH에서 설정된 그 신택스에 추가된다. 일부 예가 이하에서 예시되고, 여기서, 변수 num_ref_entries[i][ RplsIdx[ i ]]는 리스트 i 내의 참조 픽처의 수를 나타낸다.

현재의 VVC에서는, 공동위치된 픽처의 해상도가 TMVP의 인에이블링에 영향을 줄 수 있을 뿐만 아니라, 스케일링 비율 계산을 위하여 픽처 크기에 적용된 오프셋도 TMVP의 인에이블링에 영향을 줄 수 있다. 그러나, 현재의 VVC에서는, 오프셋이 ph_temporal_mvp_enabled_flag의 비트스트림 적합성에서 고려되지는 않는다. 일부 예에서는, 이하에서 설명된 바와 같이, ph_temporal_mvp_enabled_flag의 값이 스케일링 비율 계산을 위하여 픽처 크기에 적용되는 오프셋에 종속적일 것을 요구하는 비트스트림 적합성 제약을 현재의 VVC에 추가하는 것이 제안된다:

DPB 내의 참조 픽처가 현재 픽처와 동일한 공간적 해상도, 및 스케일링 비율 계산을 위하여 픽처 크기에 적용되는, 현재 픽처와 동일한 오프셋을 가지지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다.

위의 비트스트림 적합성 제약은 또한, 이하에서와 같이 또 다른 방식으로 기재될 수 있다. DPB 내의 참조 픽처가 0인 연관된 변수 값 RprConstraintsActive[ i ][ j ]을 가지지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다.

현재의 VVC에서는, slice_collocated_ref_idx에 의해 참조된 픽처가 코딩된 픽처의 모든 슬라이스에 대하여 동일할 것이라는 비트스트림 적합성의 요건이 있다. 그러나, 코딩된 픽처가 다수의 슬라이스를 가지고 모든 이러한 슬라이스 사이에서 존재하는 공통적인 참조 픽처가 없을 때, 이 비트스트림 적합성은 충족될 기회를 가지지 않는다.

일부 예에서, ph_temporal_mvp_enabled_flag에 대한 비트스트림 적합성의 요건은 현재 픽처 내의 모든 슬라이스 사이에서 존재하는 공통적인 참조 픽처가 있는지 여부를 고려하기 위하여 수정된다.

ph_temporal_mvp_enabled_flag는 시간적 모션 벡터 예측자가 PH와 연관된 슬라이스에 대한 인터 예측을 위하여 이용될 수 있는지 여부를 특정한다. ph_temporal_mvp_enabled_flag가 0일 경우에, PH와 연관된 슬라이스의 신택스 엘리먼트는 시간적 모션 벡터 예측자가 슬라이스의 디코딩에서 이용되도록 제약될 것이다. 이와 다를 경우(ph_temporal_mvp_enabled_flag가 1임), 시간적 모션 벡터 예측자는 PH와 연관된 슬라이스의 디코딩에서 이용될 수 있다. 존재하지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0인 것으로 추론된다. DPB 내의 참조 픽처가 현재 픽처와 동일한 공간적 해상도를 가지지 않을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다. PH와 연관된 모든 슬라이스에서 존재하는 공통적인 참조 픽처가 없을 때, ph_temporal_mvp_enabled_flag의 값은 0일 것이다.

일부 예에서, slice_collocated_ref_idx에 대한 비트스트림 적합성은, 비트스트림 적합성의 요건이 RprConstraintsActive[ slice_collocated_from_l0_flag ? 0 : 1 ][ slice_collocated_ref_idx ]가 0일 것이기 때문에 단순화된다.

도 5는 본 개시내용의 일부 구현예에 따라, 비디오 코딩을 위한 예시적인 장치를 예시하는 블록도이다. 장치(500)는 모바일 전화, 태블릿 컴퓨터, 디지털 브로드캐스트 단말, 태블릿 디바이스, 또는 개인 정보 단말과 같은 단말일 수 있다.

도 5에서 도시된 바와 같이, 장치(500)는 다음의 컴포넌트: 프로세싱 컴포넌트(502), 메모리(504), 전력 공급 컴포넌트(506), 멀티미디어 컴포넌트(508), 오디오 컴포넌트(510), 입력/출력(I/O) 인터페이스(512), 센서 컴포넌트(514), 및 통신 컴포넌트(516) 중의 하나 이상을 포함할 수 있다.

프로세싱 컴포넌트(502)는 통상적으로, 디스플레이, 전화 호출, 데이터 통신, 카메라 동작, 및 레코딩 동작에 관련되는 동작과 같은, 장치(500)의 전체적인 동작을 제어한다. 프로세싱 컴포넌트(502)는 위의 방법의 단계의 전부 또는 일부를 완료하기 위하여 명령을 실행하기 위한 하나 이상의 프로세서(520)를 포함할 수 있다. 또한, 프로세싱 컴포넌트(502)는 프로세싱 컴포넌트(502)와 다른 컴포넌트 사이의 상호작용을 용이하게 하기 위한 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(502)는 멀티미디어 컴포넌트(508)와 프로세싱 컴포넌트(502) 사이의 상호작용을 용이하게 하기 위한 멀티미디어 모듈을 포함할 수 있다.

메모리(504)는 장치(500)의 동작을 지원하기 위하여 상이한 유형의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(500) 상에서 동작하는 임의의 애플리케이션 또는 방법을 위한 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 픽처, 비디오 등을 포함한다. 메모리(504)는 임의의 유형의 휘발성 또는 비-휘발성 저장 디바이스 또는 그 조합에 의해 구현될 수 있고, 메모리(504)는 정적 랜덤 액세스 메모리(Static Random Access Memory)(SRAM), 전기적 소거가능 프로그래밍가능 판독-전용 메모리(Electrically Erasable Programmable Read-Only Memory)(EEPROM), 소거가능 프로그래밍가능 판독-전용 메모리(Erasable Programmable Read-Only Memory)(EPROM), 프로그래밍가능 판독-전용 메모리(Programmable Read-Only Memory)(PROM), 판독-전용 메모리(Read-Only Memory)(ROM), 자기 메모리, 플래시 메모리, 자기 디스크, 또는 컴팩트 디스크일 수 있다.

전력 공급 컴포넌트(506)는 장치(500)의 상이한 컴포넌트를 위한 전력을 공급한다. 전력 공급 컴포넌트(506)는 장치(500)를 위한 전력을 생성하고, 관리하고, 분배하는 것과 연관된 전력 공급 관리 시스템, 하나 이상의 전력 공급부, 및 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(508)는 장치(500)와 사용자 사이의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 예에서, 스크린은 액정 디스플레이(Liquid Crystal Display)(LCD) 및 터치 패널(Touch Panel)(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함할 경우에, 스크린은 사용자로부터 입력 신호를 수신하는 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치 패널 상에서 터치(touch), 슬라이드(slide), 및 제스처(gesture)를 감지하기 위한 하나 이상의 터치 센서를 포함할 수 있다. 터치 센서는 터치 또는 슬라이딩 액션의 경계를 감지할 수 있을 뿐만 아니라, 터치 또는 슬라이딩 조작에 관련된 기간 및 압력을 검출할 수 있다. 일부 예에서, 멀티미디어 컴포넌트(508)는 전방 카메라 및/또는 후방 카메라를 포함할 수 있다. 장치(500)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 때, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다.

오디오 컴포넌트(510)는 오디오 신호를 출력하고 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(510)는 마이크로폰(microphone)(MIC)을 포함한다. 장치(500)가 호출 모드, 레코딩 모드, 및 음성 인식 모드와 같은 동작 모드에 있을 때, 마이크로폰은 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(504) 내에 추가로 저장될 수 있거나, 통신 컴포넌트(516)를 통해 전송될 수 있다. 일부 예에서, 오디오 컴포넌트(510)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.

I/O 인터페이스(512)는 프로세싱 컴포넌트(502)와 주변 인터페이스 모듈 사이의 인터페이스를 제공한다. 위의 주변 인터페이스 모듈은 키보드, 클릭 휠(click wheel), 버튼 등일 수 있다. 이들 버튼은 홈 버튼(home button), 음량 버튼(volume button), 시작 버튼, 및 로크 버튼(lock button)을 포함할 수 있지만, 이것으로 제한되지는 않는다.

센서 컴포넌트(514)는 장치(500)를 위한 상이한 양태에서 상태 평가를 제공하기 위한 하나 이상의 센서를 포함한다. 예를 들어, 센서 컴포넌트(514)는 장치(500)의 온/오프 상태 및 컴포넌트의 상대적인 위치를 검출할 수 있다. 예를 들어, 컴포넌트는 장치(500)의 디스플레이 및 키패드이다. 센서 컴포넌트(514)는 또한, 장치(500) 또는 장치(500)의 컴포넌트의 포지션 변경, 장치(500) 상에서의 사용자의 접촉의 존재 또는 부재, 장치(500)의 배향 또는 가속/감속, 및 장치(500)의 온도 변경을 검출할 수 있다. 센서 컴포넌트(514)는 임의의 물리적 터치 없이 인근의 객체의 존재를 검출하도록 구성된 인접성 센서(proximity sensor)를 포함할 수 있다. 센서 컴포넌트(514)는 이미징 애플리케이션에서 이용된 CMOS 또는 CCD 이미지 센서와 같은 광학 센서를 더 포함할 수 있다. 일부 예에서, 센서 컴포넌트(514)는 가속도 센서(acceleration sensor), 자이로스코프 센서(gyroscope sensor), 자기 센서(magnetic sensor), 압력 센서(pressure sensor), 또는 온도 센서(temperature sensor)를 더 포함할 수 있다.

통신 컴포넌트(516)는 장치(500)와 다른 디바이스 사이의 유선 또는 무선 통신을 용이하게 하도록 구성된다. 장치(500)는 WiFi, 4G, 또는 그 조합과 같은 통신 표준에 기초하여 무선 네트워크를 액세스할 수 있다. 예에서, 통신 컴포넌트(516)는 브로드캐스트 채널을 통해 외부의 브로드캐스트 관리 시스템으로부터 브로드캐스트 신호 또는 브로드캐스트 관련된 정보를 수신한다. 예에서, 통신 컴포넌트(516)는 단거리 통신을 촉진시키기 위한 근접장 통신(Near Field Communication)(NFC) 모듈을 더 포함할 수 있다. 예를 들어, NFC 모듈은 무선 주파수 식별(Radio Frequency Identification)(RFID) 기술, 적외선 데이터 연관(infrared data association)(IrDA) 기술, 초-광대역(Ultra-Wide Band)(UWB) 기술, 블루투스(Bluetooth)(BT) 기술, 및 다른 기술에 기초하여 구현될 수 있다.

예에서, 장치(500)는 위의 방법을 수행하기 위하여 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit)(ASIC), 디지털 신호 프로세서(Digital Signal Processor)(DSP), 디지털 신호 프로세싱 디바이스(Digital Signal Processing Device)(DSPD), 프로그래밍가능 로직 디바이스(Programmable Logic Device)(PLD), 필드 프로그래밍가능 게이트 어레이(Field Programmable Gate Array)(FPGA), 제어기, 마이크로제어기, 마이크로프로세서, 또는 다른 전자 엘리먼트 중의 하나 이상에 의해 구현될 수 있다.

비-일시적 컴퓨터 판독가능 저장 매체는 예를 들어, 하드 디스크 드라이브(Hard Disk Drive)(HDD), 솔리드-스테이트 드라이브(Solid-State Drive)(SSD), 플래시 메모리, 하이브리드 드라이브 또는 솔리드-스테이트 하이브리드 드라이브(Solid-State Hybrid Drive)(SSHD), 판독-전용 메모리(Read-Only Memory)(ROM), 컴팩트 디스크 판독-전용 메모리(Compact Disc Read-Only Memory)(CD-ROM), 자기 테이프, 플로피 디스크 등일 수 있다.

도 6은 본 개시내용의 일부 구현예에 따라, 비디오 코딩의 예시적인 프로세스를 예시하는 흐름도이다.

단계(602)에서, 프로세서(520)는 하나 이상의 참조 픽처 리스트가 픽처와 연관된 PH에서 시그널링되는지 여부, 및 하나 이상의 참조 픽처 리스트가 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적인 것을 지시하는지 여부를 결정한다.

단계(604)에서, 프로세서(620)는 하나 이상의 참조 픽처 리스트가 PH에서 시그널링되고 하나 이상의 참조 픽처 리스트가 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 하나 이상의 제약을 PH 내의 하나 이상의 신택스 엘리먼트에 추가한다.

일부 예에서, 하나 이상의 제약은 하나 이상의 신택스 엘리먼트를 파싱하는 것을 스킵하는 것을 포함한다.

일부 예에서, 하나 이상의 신택스 엘리먼트는 하나 이상의 슬라이스에 대하여 적용가능한 하나 이상의 플래그를 포함한다.

프로세서(520)는 대응하는 모션 벡터 차이(motion vector difference)(MVD) 코딩 신택스 구조가 파싱되지 않는지 여부, 및 2개의 변수가 PH와 연관된 하나 이상의 슬라이스에 대하여 제로(zero)인 것으로 설정되는지 여부를 특정하기 위하여 인에이블된 플래그, 예를 들어, 위에서 설명된 바와 같은 mvd_l1_zero_flag를 추가로 이용할 수 있고, 여기서, 2개의 변수는 리스트 벡터 컴포넌트와 리스트 벡터 컴포넌트에 대응하는 예측 사이의 차이를 각각 특정한다.

일부 예에서, 1인 mvd_l1_zero_flag는 mvd_coding( x0, y0, 1 ) 신택스 구조가 파싱되지 않고 MvdL1[ x0 ][ y0 ][ compIdx ] 및 MvdCpL1[ x0 ][ y0 ][ cpIdx ][ compIdx ]가 compIdx = 0 또는 1 및 cpIdx = 0, 1, 또는 2에 대하여 0인 것으로 설정된다는 것을 지시한다. 또한, 0인 mvd_l1_zero_flag는 mvd_coding( x0, y0, 1 ) 신택스 구조가 파싱된다는 것을 지시한다. mvd_coding( x0, y0, 1 ) 신택스 구조는 대응하는 MVD 코딩 신택스 구조이다. 어레이 인덱스 x0, y0는 픽처의 상부-좌측 루마 샘플에 관하여 고려된 코딩 블록의 상부-좌측 루마 샘플의 위치 ( x0, y0 )을 특정한다.

또한, X가 0 또는 1인 변수 MvdLX[ x0 ][ y0 ][ compIdx ]는 이용되어야 할 리스트 X 벡터 컴포넌트와 그 예측 사이의 차이를 특정한다. 어레이 인덱스 x0, y0는 픽처의 상부-좌측 루마 샘플에 관하여 고려된 코딩 블록의 상부-좌측 루마 샘플의 위치 ( x0, y0 )을 특정한다. 수평 모션 벡터 컴포넌트 차이는 compIdx = 0으로 배정되고, 수직 모션 벡터 컴포넌트는 compIdx = 1로 배정된다.

또한, X가 0 또는 1인 변수 MvdCpLX[ x0 ][ y0 ][ cpIdx ][ compIdx ]는 이용되어야 할 리스트 X 벡터 컴포넌트와 그 예측 사이의 차이를 특정한다. 어레이 인덱스 x0, y0는 픽처의 상부-좌측 루마 샘플에 관하여 고려된 코딩 블록의 상부-좌측 루마 샘플의 위치 ( x0, y0 )을 특정한다. 어레이 인덱스 cpIdx는 제어 포인트 인덱스를 특정한다. 수평 모션 벡터 컴포넌트 차이는 compIdx = 0으로 배정되고, 수직 모션 벡터 컴포넌트는 compIdx = 1로 배정된다.

프로세서(520)는 인에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, MVD 코딩 신택스 구조가 하나 이상의 슬라이스에 대하여 파싱되도록, 하나 이상의 신택스 엘리먼트를 추가로 제약할 수 있다.

프로세서(520)는 인에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 하나 이상의 슬라이스를 디코딩할 시에 MVD 신택스 구조를 파싱하는 것을 스킵하는 것으로 추가로 결정할 수 있다.

프로세서(520)는 양방향 광학 흐름(bi-directional optical flow)(BDOF) 인터 예측 기반 인터 양방향-예측이 PH와 연관된 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여, 디스에이블된 플래그, 예를 들어, 위에서 설명된 ph_disable_bdof_flag를 추가로 이용할 수 있고; 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, BDOF 인터 예측 기반 인터 양방향-예측이 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록 하나 이상의 신택스 엘리먼트를 제약할 수 있고; 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 하나 이상의 슬라이스를 디코딩할 시에 BDOF 인터 예측 기반 인터 양방향-예측을 디스에이블할 수 있다.

프로세서(520)는 디코더 모션 벡터 정제(decoder motion vector refinement)(DMVR) 기반 인터 양방향-예측이 PH와 연관된 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여, 디스에이블된 플래그, 예를 들어, 위에서 설명된 ph_disable_dmvr_flag를 추가로 이용할 수 있고; 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, DMVR 기반 인터 양방향-예측이 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록, 하나 이상의 신택스 엘리먼트를 제약할 수 있고; 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 하나 이상의 슬라이스를 디코딩할 시에 DMVR 기반 인터 양방향-예측을 디스에이블할 수 있다.

도 7은 본 개시내용의 일부 구현예에 따라, 비디오 코딩의 예시적인 프로세스를 예시하는 흐름도이다.

단계(702)에서, 프로세서(520)는 하나 이상의 시간적 모션 벡터 예측자가 픽처의 PH와 연관된 하나 이상의 슬라이스에 대한 인터 예측을 위하여 이용되는지 여부를 특정하기 위하여 인에이블된 플래그를 이용한다.

단계(704)에서, 프로세서(520)는 스케일링 비율 계산을 위하여 픽처의 크기에 적용된 복수의 오프셋에 따라 인에이블된 플래그의 값을 제약한다.

프로세서(520)는 픽처와 동일한 공간적 해상도 및 동일한 오프셋을 가지는 DPB 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 인에이블된 플래그를 0으로 설정할 수 있다. 또한, 오프셋은 스케일링 비율 계산을 위하여 픽처의 크기에 적용될 수 있다.

프로세서(520)는 하나 이상의 슬라이스 내에 공통적인 추론 픽처가 없는 것으로 결정하는 것에 응답하여, 인에이블된 플래그를 0으로 설정할 수 있다.

프로세서(520)는 0인 참조 픽처 스케일링된 플래그를 가지는 DPB 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 인에이블된 플래그를 0으로 설정할 수 있다.

프로세서(520)는 스케일링 비율 계산을 위하여 픽처의 크기에 적용된 복수의 오프셋에 기초하여 참조 픽처 스케일링된 플래그를 도출할 수 있다.

일부 예에서는, 비디오 코딩을 위한 장치가 제공된다. 장치는 하나 이상의 프로세서(520); 및 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리(504)를 포함하고; 여기서, 프로세서는 명령의 실행 시에, 도 6에서 예시된 바와 같은 방법을 수행하도록 구성된다.

일부 예에서는, 비디오 코딩을 위한 장치가 제공된다. 장치는 하나 이상의 프로세서(520); 및 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리(504)를 포함하고; 여기서, 프로세서는 명령의 실행 시에, 도 7에서 예시된 바와 같은 방법을 수행하도록 구성된다.

일부 다른 예에서는, 명령이 저장된 비-일시적 컴퓨터 판독가능 저장 매체(504)가 제공된다. 명령이 하나 이상의 프로세서(520)에 의해 실행될 때, 명령은 프로세서로 하여금, 도 6에서 예시된 바와 같은 방법을 수행하게 한다.

일부 다른 예에서는, 명령이 저장된 비-일시적 컴퓨터 판독가능 저장 매체(504)가 제공된다. 명령이 하나 이상의 프로세서(520)에 의해 실행될 때, 명령은 프로세서로 하여금, 도 7에서 예시된 바와 같은 방법을 수행하게 한다.

본 개시내용의 설명은 예시의 목적을 위하여 제시되었고, 철저하도록 또는 본 개시내용으로 제한되도록 의도되지는 않는다. 많은 수정, 변형, 및 대안적인 구현예는 상기한 설명 및 연관된 도면에서 제시된 교시사항의 이익을 가지는 본 기술분야에서의 통상의 기술자에게 분명할 것이다.

개시내용의 원리를 설명하기 위하여, 그리고 본 기술분야에서의 통상의 기술자가 다양한 구현예에 대한 개시내용을 이해하고, 고려된 특정한 이용에 적합한 바와 같이, 기초적인 원리 및 다양한 수정을 갖는 다양한 구현예를 최상으로 사용하는 것을 가능하게 하기 위하여, 예가 선택되고 설명되었다. 그러므로, 개시내용의 범위는 개시된 구현예의 특정 예로 제한되지 않아야 한다는 것과, 수정 및 다른 구현예가 본 개시내용의 범위 내에 포함되도록 의도된다는 것이 이해되어야 한다.

Claims

비디오 코딩을 위한 방법으로서,
디코더에 의해, 하나 이상의 참조 픽처 리스트가 픽처와 연관된 픽처 헤더(picture header)(PH)에서 시그널링되는지 여부, 및 상기 하나 이상의 참조 픽처 리스트가 상기 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적(bi-predictive)인 것을 지시하는지 여부를 결정하는 단계; 및
상기 하나 이상의 참조 픽처 리스트가 상기 PH에서 시그널링되고 상기 하나 이상의 참조 픽처 리스트가 상기 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 상기 디코더에 의해, 하나 이상의 제약을 상기 PH 내의 하나 이상의 신택스 엘리먼트(syntax element)에 추가하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 하나 이상의 제약은 상기 하나 이상의 신택스 엘리먼트를 파싱하는 것을 스킵하는 것을 포함하는, 방법.
제1항에 있어서,
상기 하나 이상의 신택스 엘리먼트는 상기 하나 이상의 슬라이스에 대하여 적용가능한 하나 이상의 플래그(flag)를 포함하는, 방법.
제1항에 있어서,
대응하는 모션 벡터 차이(motion vector difference)(MVD) 코딩 신택스 구조가 파싱되지 않는지 여부, 및 2개의 변수가 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 제로(zero)인 것으로 설정되는지 여부를 특정하기 위하여 인에이블된 플래그(enabled flag)를 이용하는 단계 - 상기 2개의 변수는 리스트 벡터 컴포넌트와 상기 리스트 벡터 컴포넌트에 대응하는 예측 사이의 차이를 각각 특정함 -;
상기 인에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 MVD 코딩 신택스 구조가 상기 하나 이상의 슬라이스에 대하여 파싱되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하는 단계; 및
상기 인에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 MVD 코딩 신택스 구조를 파싱하는 것을 스킵하는 단계를 더 포함하는, 방법.
제1항에 있어서,
양방향 광학 흐름(bi-directional optical flow)(BDOF) 인터 예측 기반 인터 양방향-예측이 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여 디스에이블된 플래그(disabled flag)를 이용하는 단계;
상기 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 BDOF 인터 예측 기반 인터 양방향-예측이 상기 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하는 단계; 및
상기 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 BDOF 인터 예측 기반 인터 양방향-예측을 디스에이블하는 단계를 더 포함하는, 방법.
제1항에 있어서,
디코더 모션 벡터 정제(decoder motion vector refinement)(DMVR) 기반 인터 양방향-예측이 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여 디스에이블된 플래그를 이용하는 단계;
상기 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 DMVR 기반 인터 양방향-예측이 상기 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하는 단계; 및
상기 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 DMVR 기반 인터 양방향-예측을 디스에이블하는 단계를 더 포함하는, 방법.
비디오 코딩을 위한 방법으로서,
디코더에 의해, 하나 이상의 시간적 모션 벡터 예측자가 픽처의 픽처 헤더(PH)와 연관된 하나 이상의 슬라이스에 대한 인터 예측을 위하여 이용되는지 여부를 특정하기 위하여 인에이블된 플래그를 이용하는 단계; 및
상기 디코더에 의해, 스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용된 복수의 오프셋에 따라 상기 인에이블된 플래그의 값을 제약하는 단계를 포함하는, 방법.
제7항에 있어서,
상기 픽처와 동일한 공간적 해상도 및 동일한 오프셋을 가지는, 디코딩된 픽처 버퍼(decoded picture buffer)(DPB) 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하는 단계를 더 포함하고, 상기 오프셋은 스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용되는, 방법.
제7항에 있어서,
상기 하나 이상의 슬라이스 내에 공통적인 추론 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하는 단계를 더 포함하는, 방법.
제7항에 있어서,
0인 참조 픽처 스케일링된 플래그를 가지는, 디코딩된 픽처 버퍼(DPB) 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하는 단계를 더 포함하는, 방법.
제10항에 있어서,
스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용된 상기 복수의 오프셋에 기초하여 상기 참조 픽처 스케일링된 플래그를 도출하는 단계를 더 포함하는, 방법.
비디오 코딩을 위한 장치로서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리를 포함하고; 상기 하나 이상의 프로세서는, 상기 명령의 실행 시에,
하나 이상의 참조 픽처 리스트가 픽처와 연관된 픽처 헤더(PH)에서 시그널링되는지 여부, 및 상기 하나 이상의 참조 픽처 리스트가 상기 픽처와 연관된 하나 이상의 슬라이스가 양방향-예측적인 것을 지시하는지 여부를 결정하고,
상기 하나 이상의 참조 픽처 리스트가 상기 PH에서 시그널링되고 상기 하나 이상의 참조 픽처 리스트가 상기 하나 이상의 슬라이스가 양방향-예측적이지 않다는 것을 지시하는 것으로 결정하는 것에 응답하여, 하나 이상의 제약을 상기 PH 내의 하나 이상의 신택스 엘리먼트에 추가하도록 구성된, 장치.
제12항에 있어서,
상기 하나 이상의 제약은 상기 하나 이상의 신택스 엘리먼트를 파싱하는 것을 스킵하는 것을 포함하는, 장치.
제12항에 있어서,
상기 하나 이상의 신택스 엘리먼트는 상기 하나 이상의 슬라이스에 대하여 적용가능한 하나 이상의 플래그를 포함하는, 장치.
제12항에 있어서,
상기 하나 이상의 프로세서는,
대응하는 모션 벡터 차이(MVD) 코딩 신택스 구조가 파싱되지 않는지 여부, 및 2개의 변수가 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 제로인 것으로 설정되는지 여부를 특정하기 위하여 인에이블된 플래그를 이용하고 - 상기 2개의 변수는 리스트 벡터 컴포넌트와 상기 리스트 벡터 컴포넌트에 대응하는 예측 사이의 차이를 각각 특정함 -,
상기 인에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 MVD 코딩 신택스 구조가 상기 하나 이상의 슬라이스에 대하여 파싱되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하고,
상기 인에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 MVD 코딩 신택스 구조를 파싱하는 것을 스킵하도록 추가로 구성된, 장치.
제12항에 있어서,
상기 하나 이상의 프로세서는,
양방향 광학 흐름(BDOF) 인터 예측 기반 인터 양방향-예측이 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여 디스에이블된 플래그를 이용하고,
상기 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 BDOF 인터 예측 기반 인터 양방향-예측이 상기 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하고,
상기 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 BDOF 인터 예측 기반 인터 양방향-예측을 디스에이블하도록 추가로 구성된, 장치.
제12항에 있어서,
상기 하나 이상의 프로세서는,
디코더 모션 벡터 정제(DMVR) 기반 인터 양방향-예측이 상기 PH와 연관된 상기 하나 이상의 슬라이스에 대하여 디스에이블되는지 여부를 특정하기 위하여 디스에이블된 플래그를 이용하고,
상기 디스에이블된 플래그가 0인 것으로 결정하는 것에 응답하여, 상기 DMVR 기반 인터 양방향-예측이 상기 하나 이상의 슬라이스를 디코딩할 시에 인에이블되도록, 상기 하나 이상의 신택스 엘리먼트를 제약하고,
상기 디스에이블된 플래그가 1인 것으로 결정하는 것에 응답하여, 상기 하나 이상의 슬라이스를 디코딩할 시에 상기 DMVR 기반 인터 양방향-예측을 디스에이블하도록 추가로 구성된, 장치.
비디오 코딩을 위한 장치로서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의해 실행가능한 명령을 저장하도록 구성된 메모리를 포함하고, 상기 하나 이상의 프로세서는, 상기 명령의 실행 시에,
하나 이상의 시간적 모션 벡터 예측자가 픽처의 픽처 헤더(PH)와 연관된 하나 이상의 슬라이스에 대한 인터 예측을 위하여 이용될 수 있는지 여부를 특정하기 위하여 인에이블된 플래그를 이용하고,
스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용된 복수의 오프셋에 따라 상기 인에이블된 플래그의 값을 제약하도록 구성된, 장치.
제18항에 있어서,
상기 하나 이상의 프로세서는,
상기 픽처와 동일한 공간적 해상도 및 동일한 오프셋을 가지는, 디코딩된 픽처 버퍼(DPB) 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하도록 추가로 구성되고, 상기 오프셋은 스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용되는, 장치.
제18항에 있어서,
상기 하나 이상의 프로세서는,
상기 하나 이상의 슬라이스 내에 공통적인 추론 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하도록 추가로 구성된, 장치.
제18항에 있어서,
상기 하나 이상의 프로세서는,
0인 참조 픽처 스케일링된 플래그를 가지는, 디코딩된 픽처 버퍼(DPB) 내의 참조 픽처가 없는 것으로 결정하는 것에 응답하여, 상기 인에이블된 플래그를 0으로 설정하도록 추가로 구성된, 장치.
제21항에 있어서,
상기 하나 이상의 프로세서는,
스케일링 비율 계산을 위하여 상기 픽처의 크기에 적용된 상기 복수의 오프셋에 기초하여 상기 참조 픽처 스케일링된 플래그를 도출하도록 추가로 구성된, 장치.
컴퓨터-실행가능 명령을 저장하는, 비디오 코딩을 위한 비-일시적 컴퓨터-판독가능 저장 매체로서, 상기 컴퓨터-실행가능 명령은, 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 상기 하나 이상의 컴퓨터 프로세서로 하여금, 제1항 내지 제6항 중 어느 한 항에서의 방법을 수행하게 하는, 비-일시적 컴퓨터-판독가능 저장 매체.
컴퓨터-실행가능 명령을 저장하는, 비디오 코딩을 위한 비-일시적 컴퓨터-판독가능 저장 매체로서, 상기 컴퓨터-실행가능 명령은, 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 상기 하나 이상의 컴퓨터 프로세서로 하여금, 제7항 내지 제11항 중 어느 한 항에서의 방법을 수행하게 하는, 비-일시적 컴퓨터-판독가능 저장 매체.