KR20210024164A

KR20210024164A - 코딩된 비디오에 포함된 픽처에 대한 픽처 순서 카운트 값을 시그널링하기 위한 시스템 및 방법

Info

Publication number: KR20210024164A
Application number: KR1020217003070A
Authority: KR
Inventors: 사친 지. 데시팬드; 병두 최
Original assignee: 샤프 가부시키가이샤; 에프쥐 이노베이션 컴퍼니 리미티드
Priority date: 2018-07-01
Filing date: 2019-06-28
Publication date: 2021-03-04
Also published as: WO2020009044A1; US11516492B2; EP3815380A4; EP4280607A2; AU2019297829A1; US20210136396A1; AU2019297829B2; US20230046741A1; EP4280607A3; EP3815380A1; US11849135B2; CA3105453A1; CN112970265A

Abstract

픽처 카운트 정보를 시그널링하는 방법이 개시된다. 픽처 순서 카운트 최상위 비트 존재 플래그 및 픽처 순서 카운트 최상위 비트 사이클 요소가 전송된다. 픽처 순서 카운트 최상위 비트 존재 플래그는 픽처 순서 카운트 최상위 비트 사이클 요소가 존재하는지를 나타낸다. 픽처 순서 카운트 최상위 비트 사이클 요소는 픽처 순서 카운트 최상위 비트 존재 플래그의 값이 1과 동일한 경우 픽처 순서 카운트 최상위 비트 사이클의 값을 지정한다. 픽처 순서 카운트 최상위 비트 사이클 요소의 최대값은 최대 픽처 순서 카운트 최하위 비트 - 4 요소를 사용하여 설정된다.

Description

코딩된 비디오에 포함된 픽처에 대한 픽처 순서 카운트 값을 시그널링하기 위한 시스템 및 방법

본 개시는 비디오 코딩에 관한 것이며, 보다 구체적으로는 코딩된 비디오에서의 픽처 순서 카운트 값을 시그널링하기 위한 기법에 관한 것이다.

디지털 비디오 능력은 디지털 텔레비전, 랩톱 또는 데스크톱 컴퓨터, 태블릿 컴퓨터, 디지털 레코딩 디바이스, 디지털 미디어 플레이어, 비디오 게이밍 디바이스, 소위 스마트 폰을 포함한 셀룰러 폰, 의료 이미징 디바이스 등을 포함한 광범위한 디바이스들에 통합될 수 있다. 디지털 비디오는 비디오 코딩 표준에 따라 코딩될 수 있다. 비디오 코딩 표준들은 비디오 압축 기법들을 포함할 수 있다. 비디오 코딩 표준들의 예는 ISO/IEC MPEG-4 Visual 및 ITU-T H.264(ISO/IEC MPEG-4 AVC로도 알려짐) 및 HEVC(High-Efficiency Video Coding)를 포함한다. HEVC는 참고로 포함되는 문헌[High Efficiency Video Coding (HEVC), Rec. ITU-T H.265, December 2016]에 기술되어 있으며, 본 명세서에서 ITU-T H.265로 지칭된다. 차세대 비디오 코딩 표준들의 개발을 위해 ITU-T H.265에 대한 확장 및 개선이 현재 고려되고 있다. 예를 들어, ITU-T VCEG(Video Coding Experts Group) 및 ISO/IEC(MPEG(Moving Picture Experts Group)(집합적으로 JVET(Joint Video Exploration Team)로 지칭됨))는 현재 HEVC 표준의 압축 능력을 현저히 초과하는 압축 능력을 가진 미래 비디오 코딩 기술의 표준화에 대한 잠재적 필요성을 연구하고 있다. 본 명세서에 참고로 포함되는 문헌[The Joint Exploration Model 7 (JEM 7), Algorithm Description of Joint Exploration Test Model 7 (JEM 7), ISO/IEC JTC1/SC29/WG11 Document: JVET-G1001, July 2017, Torino, IT]은 JVET에 의한 공동 테스트 모델 연구하의 코딩 피처들을, ITU-T H.265의 능력들을 능가하여 비디오 코딩 기술을 잠재적으로 향상시키는 것으로서 기술하고 있다. JEM 7의 코딩 피처들은 JEM 레퍼런스 소프트웨어로 구현된다는 점에 유의해야 한다. 본 명세서에서 사용된 바와 같이, 용어 JEM은 JEM 7에 포함된 알고리즘들 및 JEM 레퍼런스 소프트웨어의 구현들을 집합적으로 지칭할 수 있다. 또한, VCEG 및 MPEG에 의해 공동 발행된 문헌["Joint Call for Proposals on Video Compression with Capabilities beyond HEVC"]에 응답하여, 미국 캘리포니아주 샌디에이고에서 2018년 4월 16일 - 20일에 열린 ISO/IEC JTC1/SC29/WG11의 10차 회의에서 다양한 그룹들에 의해 비디오 코딩의 다수의 디스크립션이 제안되었다. 비디오 코딩의 다수의 디스크립션의 결과로서, 비디오 코딩 사양의 드래프트 텍스트가 "Versatile Video Coding (Draft 1)", 미국 캘리포니아주 샌디에이고에서 2018년 4월 16일 - 20일에 열린 ISO/IEC JTC1/SC29/WG11의 10차 회의, 문헌 JVET-J1001-v2(이는 본 명세서에 참고로 포함되고, JVET-J1001로 지칭됨)에 기술되어 있다.

비디오 압축 기법은 비디오 시퀀스에서 고유 리던던시를 활용함으로써 비디오 데이터를 저장하고 송신하기 위한 데이터 요건을 감소시킨다. 비디오 압축 기법은 비디오 시퀀스를 연속적으로 더 작은 부분들(즉, 비디오 시퀀스 내의 프레임들의 그룹들, 프레임들의 그룹 내의 프레임, 프레임 내의 슬라이스들, 슬라이스 내의 코딩 트리 유닛들(예컨대, 매크로블록들), 코딩 트리 유닛 내의 코딩 블록들 등)로 세분할 수 있다. 인트라 예측 코딩 기법(intra prediction coding technique)(예컨대, 인트라-픽처(공간적)) 및 인터 예측 기법(inter prediction technique)(즉, 인터-픽처(시간적))은 코딩될 비디오 데이터의 유닛과 비디오 데이터의 기준 유닛 사이의 차이 값들을 생성하는 데 사용될 수 있다. 차이 값들은 잔차 데이터로 지칭될 수 있다. 잔차 데이터는 양자화된 변환 계수들로서 코딩될 수 있다. 신택스 요소(syntax element)들은 잔차 데이터와 기준 코딩 유닛(예컨대, 인트라-예측 모드 인덱스들, 모션 벡터들, 및 블록 벡터들)을 관련시킬 수 있다. 잔차 데이터 및 신택스 요소들은 엔트로피 코딩될 수 있다. 엔트로피 인코딩된 잔차 데이터 및 신택스 요소들은 컴플라이언트 비트스트림 내에 포함될 수 있다. 컴플라이언트 비트스트림 및 연관된 메타데이터가 데이터 구조에 따라 포맷될 수 있다.

일례에서, 픽처 카운트 정보를 시그널링하는 방법으로서,

픽처 순서 카운트 최상위 비트 사이클 요소가 존재하는지를 나타내는 픽처 순서 카운트 최상위 비트 존재 플래그를 전송하는 단계; 및 픽처 순서 카운트 최상위 비트 존재 플래그의 값이 1과 동일한 경우 픽처 순서 카운트 최상위 비트 사이클의 값을 지정하는 픽처 순서 카운트 최상위 비트 사이클 요소를 전송하는 단계를 포함하며, 픽처 순서 카운트 최상위 비트 사이클 요소의 최대값은 최대 픽처 순서 카운트 최하위 비트 - 4 요소를 사용하여 설정되는, 방법.

일례에서, 비디오 데이터를 디코딩하는 방법으로서, 픽처 순서 카운트 최상위 비트 사이클 요소가 존재하는지를 나타내는 픽처 순서 카운트 최상위 비트 존재 플래그를 디코딩하는 단계; 및 픽처 순서 카운트 최상위 비트 존재 플래그의 값이 1과 동일한 경우 픽처 순서 카운트 최상위 비트 사이클의 값을 지정하는 픽처 순서 카운트 최상위 비트 사이클 요소를 디코딩하는 단계를 포함하며, 픽처 순서 카운트 최상위 비트 사이클 요소의 최대값은 최대 픽처 순서 카운트 최하위 비트 - 4 요소를 사용하여 설정되는, 방법.

도 1은 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 인코딩 및 디코딩하도록 구성될 수 있는 시스템의 예를 예시하는 블록도이다.
도 2는 본 개시의 하나 이상의 기법에 따른 코딩된 비디오 데이터 및 대응하는 데이터 구조를 예시하는 개념도이다.
도 3은 본 개시의 하나 이상의 기법에 따른 코딩된 비디오 데이터 및 대응하는 메타데이터를 캡슐화하는 데이터 구조를 예시하는 개념도이다.
도 4는 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 인코딩 및 디코딩하도록 구성될 수 있는 시스템의 구현에 포함될 수 있는 컴포넌트들의 예를 예시하는 개념도이다.
도 5는 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 인코딩하도록 구성될 수 있는 비디오 인코더의 예를 예시하는 블록도이다.
도 6은 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 디코딩하도록 구성될 수 있는 비디오 디코더의 예를 예시하는 블록도이다.

일반적으로, 본 개시는 비디오 데이터를 코딩하기 위한 다양한 기법들을 기술한다. 특히, 본 개시는 코딩된 비디오의 픽처 타입들의 시그널링을 위한 기법들을 기술한다. 본 명세서에 기술된 기법들에 따른 픽처 타입들의 시그널링은 송신 대역폭을 낮추고/낮추거나 비디오 인코더 및/또는 디코더의 병렬화를 용이하게 함으로써 비디오 분배 시스템 성능을 개선하는 데 특히 유용할 수 있다. 본 개시의 기법들이 ITU-T H.264, ITU-T H.265, 및 JVET-J1001에 대하여 기술되지만, 본 개시의 기법들은 일반적으로 비디오 코딩에 적용 가능하다는 것에 유의해야 한다. 예를 들어, 본 명세서에 기술되는 코딩 기법은 블록 구조, 인트라 예측 기법, 인터 예측 기법, 변환 기법, 필터링 기법, 및/또는 ITU-T H.265에 포함된 것들 이외의 엔트로피 코딩 기법을 포함하는 비디오 코딩 시스템(미래 비디오 코딩 표준에 기초한 비디오 코딩 시스템들을 포함함)에 통합될 수 있다. 따라서, ITU-T H.264, ITU-T H.265, 및 JVET-J1001에 대한 언급은 설명 목적을 위한 것이며 본 명세서에 기술된 기법들의 범위를 제한하는 것으로 해석되어서는 안 된다. 또한, 본 명세서에 문헌을 참고로 포함시키는 것은 본 명세서에서 사용된 용어들에 대하여 모호함을 제한하거나 생성하는 것으로 해석되어서는 안 된다는 것에 유의해야 한다. 예를 들어, 포함되는 참고 문헌이 다른 포함되는 참고 문헌과는 상이한 정의의 용어를 제공하는 경우 그리고/또는 그 용어가 본 명세서에서 사용될 때, 그 용어는 각자의 정의 각각을 폭넓게 포함하는 방식으로 그리고/또는 대안에서 특정 정의들 각각을 포함하는 방식으로 해석되어야 한다.

일례에서, 픽처 카운트 정보를 시그널링하는 방법은 픽처 순서 카운트 최상위 비트 사이클 값을 결정하는 단계, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 시그널링하는 단계, 및 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 시그널링하는 단계를 포함한다.

일례에서, 디바이스는 픽처 순서 카운트 최상위 비트 사이클 값을 결정하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 시그널링하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 시그널링하도록 구성된 하나 이상의 프로세서를 포함한다.

일례에서, 비일시적 컴퓨터 판독 가능 저장 매체는, 실행될 때, 디바이스의 하나 이상의 프로세서로 하여금 픽처 순서 카운트 최상위 비트 사이클 값을 결정하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 시그널링하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 시그널링하게 하는 그에 저장된 명령어들을 포함한다.

일례에서, 장치는 픽처 순서 카운트 최상위 비트 사이클 값을 결정하기 위한 수단, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 시그널링하기 위한 수단, 및 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 시그널링하기 위한 수단을 포함한다.

일례에서, 비디오 데이터를 디코딩하는 방법은 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 파싱하는 단계, 파라미터 세트 내의 플래그의 값에 기초하여 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 조건부로 파싱하는 단계, 및 픽처 순서 카운트 최상위 비트 사이클 값을 결정하는 단계를 포함한다.

일례에서, 디바이스는 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 파싱하고, 파라미터 세트 내의 플래그의 값에 기초하여 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 조건부로 파싱하고, 픽처 순서 카운트 최상위 비트 사이클 값을 결정하도록 구성된 하나 이상의 프로세서를 포함한다.

일례에서, 비일시적 컴퓨터 판독 가능 저장 매체는, 실행될 때, 디바이스의 하나 이상의 프로세서로 하여금 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 파싱하고, 파라미터 세트 내의 플래그의 값에 기초하여 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 조건부로 파싱하고, 픽처 순서 카운트 최상위 비트 사이클 값을 결정하게 하는 그에 저장된 명령어들을 포함한다.

일례에서, 장치는 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 파싱하기 위한 수단, 파라미터 세트 내의 플래그의 값에 기초하여 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 조건부로 파싱하기 위한 수단, 및 픽처 순서 카운트 최상위 비트 사이클 값을 결정하기 위한 수단을 포함한다.

하나 이상의 예의 상세 사항들이 첨부 도면들 및 아래의 설명에 기재된다. 다른 특징들, 목적들 및 이점들이 설명 및 도면들로부터, 그리고 청구범위로부터 명백할 것이다.

비디오 콘텐츠는 전형적으로 일련의 프레임들로 구성된 비디오 시퀀스들을 포함한다. 일련의 프레임들은 또한 GOP(group of pictures)로 지칭될 수 있다. 각각의 비디오 프레임 또는 픽처는 하나 이상의 슬라이스를 포함할 수 있으며, 여기서 슬라이스는 복수의 비디오 블록들을 포함한다. 비디오 블록은 예측 코딩될 수 있는 픽셀 값들(샘플들로도 지칭됨)의 어레이를 포함한다. 비디오 블록들은 스캔 패턴(예컨대, 래스터 스캔)에 따라 순서화될 수 있다. 비디오 인코더가 비디오 블록들 및 그의 서브-디비전들에 대해 예측 인코딩을 수행한다. ITU-T H.264는 16x16개 루마 샘플들을 포함하는 매크로블록을 지정한다. ITU-T H.265는 (최대 코딩 유닛(Largest Coding Unit, LCU)으로 지칭될 수 있는) 유사한 코딩 트리 유닛(Coding Tree Unit, CTU) 구조를 지정하는데, 여기서 픽처가 동일한 크기의 CTU들로 분할될 수 있고 각각의 CTU는 16x16, 32x32, 또는 64x64개 루마 샘플들을 갖는 코딩 트리 블록(Coding Tree Block, CTB)들을 포함할 수 있다. 본 명세서에 사용된 바와 같이, 용어 비디오 블록은 일반적으로 픽처의 영역을 지칭할 수 있거나, 보다 구체적으로는 예측 코딩될 수 있는 픽셀 값들의 최대 어레이, 그의 서브-디비전들, 및/또는 대응하는 구조들을 지칭할 수 있다. 또한, ITU-T H.265에 따르면, 각각의 비디오 프레임 또는 픽처는 하나 이상의 타일을 포함하도록 분할될 수 있으며, 여기서 타일은 픽처의 직사각형 영역에 대응하는 코딩 트리 유닛들의 시퀀스이다.

ITU-T H.265에서, CTU는 비디오 데이터의 각각의 성분(예컨대, 루마(Y) 및 크로마(Cb 및 Cr))에 대한 각자의 CTB들로 구성된다. 또한, ITU-T H.265에서, CTU는 쿼드트리(quadtree, QT) 분할 구조에 따라 분할될 수 있으며, 이는 CTU의 CTB들이 코딩 블록(Coding Block, CB)들로 분할되는 결과를 가져온다. 즉, ITU-T H.265에서, CTU는 쿼드트리 리프 노드(quadtree leaf node)들로 분할될 수 있다. ITU-T H.265에 따르면, 2개의 대응하는 크로마 CB들 및 연관된 신택스 요소들과 함께 하나의 루마 CB는 코딩 유닛(coding unit, CU)으로 지칭된다. ITU-T H.265에서, CB의 최소 허용 크기가 시그널링될 수 있다. ITU-T H.265에서, 루마 CB의 가장 작은 최소 허용 크기는 8x8개 루마 샘플들이다. ITU-T H.265에서, 인트라 예측 또는 인터 예측을 사용하여 픽처 영역을 코딩하는 결정이 CU 레벨에서 이루어진다.

ITU-T H.265에서, CU가 CU에서 그의 루트(root)를 갖는 예측 유닛(prediction unit, PU) 구조와 연관된다. ITU-T H.265에서, PU 구조들은 루마 및 크로마 CB들이 대응하는 기준 샘플들을 생성할 목적으로 분할될 수 있게 한다. 즉, ITU-T H.265에서, 루마 및 크로마 CB들은 각자의 루마 및 크로마 예측 블록(PB)들로 분할될 수 있으며, 여기서 PB는 동일한 예측이 그에 대해 적용되는 샘플 값들의 블록을 포함한다. ITU-T H.265에서, CB는 1개, 2개 또는 4개의 PB로 분할될 수 있다. ITU-T H.265는 64x64개 샘플들로부터 4x4개 샘플들에 이르기까지의 PB 크기들을 지원한다. ITU-T H.265에서, 정사각형 PB들이 인트라 예측을 위해 지원되며, 여기서 CB가 PB를 형성할 수 있거나 CB는 4개의 정사각형 PB들로 분할될 수 있다(즉, 인트라 예측 PB 크기들 타입은 MxM 또는 M/2xM/2을 포함하며, 여기서 M은 정사각형 CB의 높이 및 폭이다). ITU-T H.265에서, 정사각형 PB들에 더하여, 직사각형 PB들이 인터 예측을 위해 지원되며, 여기서 CB가 수직으로 또는 수평으로 반분되어 PB들을 형성할 수 있다(즉, 인터 예측 PB 타입들은 MxM, M/2xM/2, M/2xM, 또는 MxM/2을 포함한다). 또한, ITU-T H.265에서, 인터 예측을 위해, 4개의 비대칭 PB 파티션들이 지원되며, 여기서 CB는 CB의 높이(상부 또는 하부에서) 또는 폭(좌측 또는 우측에서)의 1/4에서 2개의 PB들로 분할된다(즉, 비대칭 파티션들은 M/4xM 좌측, M/4xM 우측, MxM/4 상부, 및 MxM/4 하부를 포함한다)는 것에 유의해야 한다. PB에 대응하는 인트라 예측 데이터(예컨대, 인트라 예측 모드 신택스 요소들) 또는 인터 예측 데이터(예컨대, 모션 데이터 신택스 요소들)가 PB에 대한 기준 및/또는 예측된 샘플 값들을 생성하는 데 사용된다.

JEM은 최대 크기가 256x256개 루마 샘플들인 CTU를 지정한다. JEM은 쿼드트리 플러스 이진 트리(quadtree plus binary tree, QTBT) 블록 구조를 지정한다. JEM에서, QTBT 구조는 쿼드트리 리프 노드들이 이진 트리(binary tree, BT) 구조에 의해 추가로 분할될 수 있게 한다. 즉, JEM에서, 이진 트리 구조는 쿼드트리 리프 노드들이 수직으로 또는 수평으로 재귀적으로 분할될 수 있게 한다. 따라서, JEM에서의 이진 트리 구조는 정사각형 및 직사각형 리프 노드들을 가능하게 하며, 여기서 각각의 리프 노드는 CB를 포함한다. 도 2에 예시된 바와 같이, GOP에 포함된 픽처는 슬라이스들을 포함할 수 있으며, 여기서 각각의 슬라이스는 CTU들의 시퀀스를 포함하고 각각의 CTU는 QTBT 구조에 따라 분할될 수 있다. JEM에서, CB들은 임의의 추가 분할 없이 예측에 사용된다. 즉, JEM에서, CB는 동일한 예측이 그에 적용되는 샘플 값들의 블록일 수 있다. 따라서, JEM QTBT 리프 노드는 ITU-T H.265에서의 PB와 유사할 수 있다.

인트라 예측 데이터(예컨대, 인트라 예측 모드 신택스 요소들) 또는 인터 예측 데이터(예컨대, 모션 데이터 신택스 요소들)는 PU들을 대응하는 기준 샘플들과 연관시킬 수 있다. 잔차 데이터는 비디오 데이터의 각각의 성분(예컨대, 루마(Y) 및 크로마(Cb 및 Cr))에 대응하는 차이 값들의 각자의 어레이들을 포함할 수 있다. 잔차 데이터는 픽셀 도메인에 있을 수 있다. 이산 코사인 변환(discrete cosine transform, DCT), 이산 사인 변환(discrete sine transform, DST), 정수 변환(integer transform), 웨이블릿 변환(wavelet transform), 또는 개념적으로 유사한 변환과 같은 변환이 픽셀 차이 값들에 적용되어 변환 계수들을 생성할 수 있다. ITU-T H.265, CU들은 변환 유닛(Transform Unit, TU)들로 추가로 세분될 수 있다는 것에 유의해야 한다. 즉, 픽셀 차이 값들의 어레이는 변환 계수들을 생성할 목적으로 세분될 수 있고(예컨대, 4개의 8x8 변환이 16x16 루마 CB에 대응하는 잔차 값들의 16x16 어레이에 적용될 수 있음), 그러한 서브-디비전들은 변환 블록(Transform Block, TB)들로 지칭될 수 있다. 변환 계수들은 양자화 파라미터(quantization parameter, QP)에 따라 양자화될 수 있다. 양자화된 변환 계수들(레벨 값들로 지칭될 수 있음)은 엔트로피 인코딩 기법(예컨대, CAVLC(content adaptive variable length coding), CABAC(context adaptive binary arithmetic coding), PIPE(probability interval partitioning entropy coding) 등)에 따라 엔트로피 코딩될 수 있다. 또한, 예측 모드를 나타내는 신택스 요소와 같은 신택스 요소들이 또한 엔트로피 코딩될 수 있다. 엔트로피 인코딩된 양자화된 변환 계수들 및 대응하는 엔트로피 인코딩된 신택스 요소들은 비디오 데이터를 재생하는 데 사용될 수 있는 컴플라이언트 비트스트림을 형성할 수 있다. 이진화 프로세스가 엔트로피 코딩 프로세스의 일부로서 신택스 요소들에 대해 수행될 수 있다. 이진화는 신택스 값을 일련의 하나 이상의 비트로 변환하는 프로세스를 지칭한다. 이러한 비트들은 "빈(bin)"들로 지칭될 수 있다.

전술된 바와 같이, 인트라 예측 데이터 또는 인터 예측 데이터는 샘플 값들의 블록에 대한 기준 샘플 값들을 생성하는 데 사용된다. 현재 PU 또는 다른 타입의 픽처 영역 구조에 포함된 샘플 값들과, 연관된 기준 샘플들(예컨대, 예측을 사용하여 생성된 것들) 사이의 차이는 잔차 데이터로 지칭될 수 있다. 전술된 바와 같이, 인트라 예측 데이터 또는 인터 예측 데이터는 픽처(예컨대, PB 또는 CB)의 영역을 대응하는 기준 샘플들과 연관시킬 수 있다. 인트라 예측 코딩에 대해, 인트라 예측 모드는 픽처 내의 기준 샘플들의 위치를 지정할 수 있다. ITU-T H.265에서, 정의된 가능한 인트라 예측 모드들은 평면(즉, 표면 피팅) 예측 모드(predMode: 0), DC(즉, 플랫 오버올 에버리징(flat overall averaging)) 예측 모드(predMode: 1), 및 33개의 각도 예측 모드들(predMode: 2-34)을 포함한다. JEM에서, 정의된 가능한 인트라 예측 모드들은 평면 예측 모드(predMode: 0), DC 예측 모드(predMode: 1), 및 65개의 각도 예측 모드들(predMode: 2-66)을 포함한다. 평면 및 DC 예측 모드들은 비-방향성 예측 모드들로 지칭될 수 있고 각도 예측 모드들은 방향성 예측 모드들로 지칭될 수 있다는 것에 유의해야 한다. 본 명세서에서 기술된 기법들은 정의된 가능한 예측 모드들의 수에 무관하게 일반적으로 적용 가능할 수 있다는 것에 유의해야 한다.

인터 예측 코딩에 대해, 모션 벡터(motion vector, MV)가 코딩될 비디오 블록의 픽처 이외의 픽처에서 기준 샘플들을 식별하고 그에 의해 비디오에서 시간 리던던시를 활용한다. 예를 들어, 현재 비디오 블록이 이전에 코딩된 프레임(들)에 위치된 기준 블록(들)으로부터 예측될 수 있고 모션 벡터가 기준 블록의 위치를 나타내는 데 사용될 수 있다. 모션 벡터 및 연관된 데이터는, 예를 들어, 모션 벡터의 수평 성분, 모션 벡터의 수직 성분, 모션 벡터에 대한 해상도(예컨대, 1/4 픽셀 정밀도, 1/2 픽셀 정밀도, 1 픽셀 정밀도, 2 픽셀 정밀도, 4 픽셀 정밀도), 예측 방향 및/또는 기준 픽처 인덱스 값을 설명할 수 있다. 또한, 예를 들어 ITU-T H.265와 같은 코딩 표준이 모션 벡터 예측을 지원할 수 있다. 모션 벡터 예측은 모션 벡터가 이웃하는 블록들의 모션 벡터들을 사용하여 지정될 수 있게 한다. 모션 벡터 예측의 예들은 AMVP(advanced motion vector prediction), TMVP(temporal motion vector prediction), 소위 "병합(merge)" 모드, 및 "스킵(skip)" 및 "디렉트(direct)" 모션 추론을 포함한다. 또한, JEM은 진보된 시간 모션 벡터 예측(advanced temporal motion vector prediction, ATMVP), 공간-시간 모션 벡터 예측(Spatial-temporal motion vector prediction, STMVP), 프레임 레이트 상향 변환(Frame-Rate Up Conversion, FRUC) 기법들에 기초한 특수 병합 모드인 패턴 매칭된 모션 벡터 도출(Pattern matched motion vector derivation, PMMVD) 모드, 및 아핀 변환 모션 보상 예측을 지원한다.

잔차 데이터는 비디오 데이터의 각각의 성분에 대응하는 차이 값들의 각자의 어레이들을 포함할 수 있다. 잔차 데이터는 픽셀 도메인에 있을 수 있다. 이산 코사인 변환(DCT), 이산 사인 변환(DST), 정수 변환, 웨이블릿 변환, 또는 개념적으로 유사한 변환과 같은 변환이 차이 값들의 어레이에 적용되어 변환 계수들을 생성할 수 있다. ITU-T H.265에서, CU가 CU 레벨에서 그의 루트를 갖는 변환 유닛(TU) 구조와 연관된다. 즉, ITU-T H.265에서, 전술된 바와 같이, 차이 값들의 어레이가 변환 계수들을 생성할 목적으로 세분될 수 있다(예컨대, 4개의 8x8 변환들이 잔차 값들의 16x16 어레이에 적용될 수 있다). ITU-T H.265에서, TB들이 반드시 PB들과 정렬되지는 않음에 유의해야 한다.

JEM에서, CB에 대응하는 잔차 값들이 추가 분할 없이 변환 계수들을 생성하는 데 사용된다는 것에 유의해야 한다. 즉, JEM에서 QTBT 리프 노드는 ITU-T H.265에서의 PB 및 TB 둘 모두와 유사할 수 있다. JEM에서, 코어 변환 및 후속 2차 변환이 변환 계수들을 생성하기 위해 (비디오 인코더에서) 적용될 수 있다는 것에 유의해야 한다. 비디오 디코더에 대해, 변환 순서가 반전된다. 또한, JEM에서, 변환 계수들을 생성하기 위해 2차 변환이 적용되는지의 여부는 예측 모드에 의존할 수 있다.

양자화 프로세스가 변환 계수들에 대해 수행될 수 있다. 양자화는 지정된 값들의 세트로 제한된 진폭들에 의해 변환 계수들을 근사화한다. 양자화는 변환 계수들의 그룹을 표현하는 데 필요한 데이터의 양을 변경하기 위해 사용될 수 있다. 양자화는 스케일링 팩터 및 (예컨대, 가장 가까운 정수로 반올림하는) 임의의 연관된 반올림 함수들에 의한 변환 계수들의 나눗셈을 통해 실현될 수 있다. 양자화된 변환 계수들은 계수 레벨 값들로 지칭될 수 있다. 역양자화(inverse quantization)(또는 "탈양자화")는 계수 레벨 값들과 스케일링 팩터의 곱셈을 포함할 수 있다. 본 명세서에서 사용된 바와 같이 용어 양자화 프로세스는 몇몇 경우에 레벨 값들을 생성하기 위한 스케일링 팩터에 의한 나눗셈 또는 몇몇 경우에 변환 계수들을 복구하기 위한 스케일링 팩터에 의한 곱셈을 지칭할 수 있다는 것에 유의해야 한다. 즉, 양자화 프로세스는 몇몇 경우에는 양자화를 그리고 몇몇 경우에는 역양자화를 지칭할 수 있다.

본 명세서에서 사용된 방정식들에 대하여, 다음의 산술 연산자들이 사용될 수 있다:

또한, 다음의 수학 함수들이 사용될 수 있다:

본 명세서에서 사용된 예시적인 신택스에 대하여, 논리 연산자들의 다음의 정의들이 적용될 수 있다:

x && y x 및 y의 부울 논리 "and"

x | | y x 및 y의 부울 논리 "or"

! 부울 논리 "not"

x ? y : z x가 참이거나 0과 동일하지 않으면, y의 값으로 평가하고; 그렇지 않으면, z의 값으로 평가한다.

또한, 다음의 관계 연산자들이 적용될 수 있다:

또한, 본 명세서에서 사용된 신택스 디스크립터들에서, 다음의 디스크립터들이 적용될 수 있다는 점에 유의해야 한다:

-f(n): 좌측 비트가 먼저 (좌측에서 우측으로) 기입된 n개의 비트를 사용하는 고정 패턴 비트 스트링. 이 디스크립터에 대한 파싱 프로세스는 함수 read_bits(n)의 반환 값에 의해 지정된다.

-u(n): n개의 비트를 사용하는 부호 없는 정수. n이 신택스 테이블에서 "v"일 때, 비트들의 수는 다른 신택스 요소들의 값에 의존하는 방식으로 변한다. 이 디스크립터에 대한 파싱 프로세스는 최상위 비트가 먼저 기입된 부호 없는 정수의 이진 표현으로 해석되는 함수 read_bits(n)의 반환 값에 의해 지정된다.

-ue(v): 좌측 비트를 먼저 갖는 부호 없는 정수 0차 Exp-Golomb-코딩된 신택스 요소.

-i(n): n개의 비트를 사용하는 부호 있는 정수. n이 신택스 테이블에서 "v"일 때, 비트들의 수는 다른 신택스 요소들의 값에 의존하는 방식으로 변한다. 이 디스크립터에 대한 파싱 프로세스는 최상위 비트가 먼저 기입된 2의 보수 정수 표현으로 해석되는 함수 read_bits(n)의 반환 값에 의해 지정된다.

전술된 바와 같이, ITU-T H.265에 따르면, 각각의 비디오 프레임 또는 픽처는 하나 이상의 슬라이스를 포함하도록 분할되고 하나 이상의 타일을 포함하도록 추가로 분할될 수 있다. 도 2는 슬라이스들을 포함하는 픽처들의 그룹의 예를 예시하는 개념도이다. 도 2에 예시된 예에서, Pic ₄는 2개의 슬라이스(즉, Slice ₁ 및 Slice ₂)를 포함하는 것으로 예시되며, 여기서 각각의 슬라이스는 (예를 들어, 래스터 스캔 순서로) CTU들의 시퀀스를 포함한다. 슬라이스는 독립 슬라이스 세그먼트로 시작하고 동일한 액세스 유닛 내의 다음 독립 슬라이스 세그먼트(존재하는 경우)에 선행하는 모든 후속 종속 슬라이스 세그먼트들(존재하는 경우)을 포함하는 하나 이상의 슬라이스 세그먼트의 시퀀스이다는 점에 유의해야 한다. 슬라이스 세그먼트는, 슬라이스와 같이, 코딩 트리 유닛들의 시퀀스이다. 본 명세서에 기술된 예들에서, 몇몇 경우에 용어 슬라이스 및 슬라이스 세그먼트는 코딩 트리 유닛들의 시퀀스를 나타내기 위해 상호 교환적으로 사용될 수 있다. ITU-T H.265에서, 타일은 하나 초과의 슬라이스에 포함된 코딩 트리 유닛들로 이루어질 수 있고 슬라이스는 하나 초과의 타일에 포함된 코딩 트리 유닛들로 이루어질 수 있다는 점에 유의해야 한다. 그러나, ITU-T H.265는 다음의 조건들 중 하나 또는 둘 모두가 충족되어야 한다고 규정한다: (1) 슬라이스 내의 모든 코딩 트리 유닛들이 동일한 타일에 속한다; 그리고 (2) 타일 내의 모든 코딩 트리 유닛들이 동일한 슬라이스에 속한다. 타일 세트들은 코딩 의존성들(예를 들어, 인트라-예측 의존성들, 엔트로피 인코딩 의존성들 등)에 대한 경계들을 정의하는 데 사용될 수 있고, 그렇기 때문에 코딩에서 병렬성을 가능하게 할 수 있다.

ITU-T H.265에서, 코딩된 비디오 시퀀스(coded video sequence, CVS)가 액세스 유닛들의 시퀀스로서 캡슐화(또는 구조화)될 수 있으며, 여기서 각각의 액세스 유닛은 네트워크 추상화 계층(network abstraction layer, NAL) 유닛들로서 구조화된 비디오 데이터를 포함한다. ITU-T H.265에서, 비트스트림은 하나 이상의 CVS를 형성하는 NAL 유닛들의 시퀀스를 포함하는 것으로 설명된다. ITU-T H.265는 포맷 범위 확장(RExt)들, 확장성(SHVC), 멀티-뷰(MV-HEVC), 및 3-D(3D-HEVC)를 포함한 다층 확장들을 지원한다는 점에 유의해야 한다. 다층 확장들은 비디오 프레젠테이션이 기본 계층 및 하나 이상의 추가적인 향상 계층을 포함할 수 있게 한다. 예를 들어, 기본 계층은 기본 품질 레벨(예를 들어, 고화질 렌더링)을 갖는 비디오 프레젠테이션이 제시될 수 있게 할 수 있고 향상 계층은 향상된 품질 레벨(예를 들어, 초고화질 렌더링)을 갖는 비디오 프레젠테이션이 제시될 수 있게 할 수 있다. ITU-T H.265에서, 향상 계층은 기본 계층을 참조함으로써 코딩될 수 있다. 즉, 예를 들어, 향상 계층 내의 픽처는 기본 계층 내의 하나 이상의 픽처(그의 확장된 버전들을 포함함)를 참조함으로써 (예를 들어, 인터 예측 기법들을 사용하여) 코딩될 수 있다. ITU-T H.265에서, 각각의 NAL 유닛은 NAL 유닛이 그와 연관되는 비디오 데이터의 계층을 나타내는 식별자를 포함할 수 있다. 서브-비트스트림 추출은 컴플라이언트 비트스트림을 수신하는 디바이스가 수신된 비트스트림 내의 데이터를 폐기하고/하거나 수정함으로써 새로운 컴플라이언트 비트스트림을 형성하는 프로세스를 지칭할 수 있다는 점에 유의해야 한다. 예를 들어, 서브-비트스트림 추출은 비디오의 특정 표현(예를 들어, 고품질 표현)에 대응하는 새로운 컴플라이언트 비트스트림을 형성하는 데 사용될 수 있다.

도 2에 예시된 예를 참조하면, Pic ₄에 포함된 비디오 데이터의 각각의 슬라이스(즉, Slice ₁ 및 Slice ₂)는 NAL 유닛에 캡슐화된 것으로 예시되어 있다. ITU-T H.265에서, 비디오 시퀀스, GOP, 픽처, 슬라이스, 및 CTU 각각은 비디오 코딩 특성들을 설명하는 메타데이터와 연관될 수 있다. ITU-T H.265는 비디오 데이터 및/또는 비디오 코딩 특성들을 설명하는 데 사용될 수 있는 파라미터 세트들을 정의한다. ITU-T H.265에서, 파라미터 세트들은 NAL 유닛의 특수한 타입으로서 캡슐화될 수 있거나 메시지로서 시그널링될 수 있다. 코딩된 비디오 데이터(예를 들어, 슬라이스)를 포함하는 NAL 유닛들은 VCL(Video Coding Layer, 비디오 코딩 계층) NAL 유닛들로 지칭될 수 있고 메타데이터(예를 들어, 파라미터 세트들)를 포함하는 NAL 유닛들은 비-VCL NAL 유닛들로 지칭될 수 있다. 또한, ITU-T H.265는 보완 향상 정보(supplemental enhancement information, SEI) 메시지들이 시그널링될 수 있게 한다. ITU-T H.265에서, SEI 메시지들은 디코딩, 디스플레이 또는 다른 목적들과 관련된 프로세스들을 지원하지만, SEI 메시지들은 디코딩 프로세스에 의해 루마 또는 크로마 샘플들을 구성하는 데 필요하지 않을 수 있다. ITU-T H.265에서, SEI 메시지들은 비-VCL NAL 유닛들을 사용하여 비트스트림에서 시그널링될 수 있다. 또한, SEI 메시지들은 비트스트림 내에 존재하는 것 이외의 어떤 수단에 의해 운반될 수 있다(즉, 대역외 시그널링될 수 있다).

도 3은 다수의 CVS를 포함하는 비트스트림의 예를 예시하며, 여기서 CVS가 각자의 액세스 유닛에 포함된 NAL 유닛에 의해 표현된다. 도 3에 예시된 예에서, 비-VCL NAL 유닛은 각자의 파라미터 세트 유닛(즉, 비디오 파라미터 세트(Video Parameter Set, VPS), 시퀀스 파라미터 세트(Sequence Parameter Set, SPS), 및 픽처 파라미터 세트(Picture Parameter Set, PPS) 유닛) 및 액세스 유닛 디리미터 NAL 유닛을 포함한다. ITU-T H.265는 NAL 유닛에 포함된 RBSP(Raw Byte Sequence Payload) 데이터 구조의 타입을 지정하는 NAL 유닛 헤더 시맨틱을 정의한다. ITU-T H.265는 디코딩 순서 및/또는 출력 순서에 기초하여 정의된 다양한 픽처 타입들을 제공한다는 점에 유의해야 한다. ITU-T H.265에서, 인트라 랜덤 액세스 포인트(intra random access point, IRAP) 픽처는 그의 디코딩 프로세스에서 인터 예측을 위해 그 자신 이외의 어떠한 픽처도 참조하지 않는 픽처이고, 디코딩 순서에서 비트스트림 내의 첫 번째 픽처는 IRAP 픽처이어야 한다. ITU-T H.265에서, IRAP 픽처들이 아닌, 그의 디코딩 프로세스에서 인터 예측을 위해 그 자신 이외의 어떠한 픽처도 참조하지 않는 비트스트림 내의 픽처들이 있을 수 있다는 점에 유의해야 한다. IRAP 픽처의 예는 순간 디코딩 리프레시(instantaneous decoding refresh, IDR) 픽처를 포함하는데, 이는 그의 디코딩 프로세스에서 인터 예측을 위해 그 자신 이외의 어떠한 픽처도 참조하지 않는 픽처이고 디코딩 순서에서 비트스트림 내의 첫 번째 픽처일 수 있거나, 나중에 비트스트림에 나타날 수 있다. ITU-T H.265는 선두 픽처가 출력 순서에서 연관된 IRAP 픽처에 선행하는 픽처이고 후미 픽처가 출력 순서에서 연관된 IRAP 픽처를 뒤따르는 비-IRAP 픽처인 경우를 제공한다. IRAP 픽처와 연관된 후미 픽처들이 또한 디코딩 순서에서 IRAP 픽처를 뒤따르고 출력 순서에서 연관된 IRAP 픽처를 뒤따르고 디코딩 순서에서 연관된 IRAP 픽처에 선행하는 픽처들은 허용되지 않는다는 점에 유의해야 한다.

ITU-T H.265는 각각의 코딩된 픽처가 PicOrderCntVal로 표시된, 픽처 순서 카운트 변수와 연관되는 경우를 제공한다. ITU-T H.265에서, 픽처 순서 카운트들은 픽처들을 식별하고, 병합 모드 및 모션 벡터 예측에서 모션 파라미터들을 도출하고, 디코더 적합성 검사에 사용된다. ITU-T H.265에서, 하나의 CVS에서, 모든 코딩된 픽처들에 대한 PicOrderCntVal 값들은 고유하다. 또한, ITU-T H.265에서 픽처 순서 카운트들은 CVS에 포함된 (즉, 예를 들어 디스플레이를 위한, 디코딩된 픽처 버퍼로부터의) 픽처들의 상대적 출력 순서를 제공한다(즉, 더 낮은 픽처 순서 카운트들을 갖는 픽처들은 더 높은 픽처 순서 카운트들을 갖는 픽처들 전에 출력된다). ITU-T H.265에서, PicOrderCntVal의 값은 -2 ³¹ 내지 2 ^{31 - 1}(이들 값 포함)의 범위에 있다. ITU-T H.265에서, 시퀀스 파라미터 세트 신택스는 다음과 같이 픽처 순서 카운트에 대한 디코딩 프로세스에서 사용되는 변수 MaxPicOrderCntLsb의 값을 지정하는 신택스 요소 log2_max_pic_order_cnt_lsb_minus4를 포함한다:

여기서, log2_max_pic_order_cnt_lsb_minus4의 값은 0 내지 12(이들 값 포함)의 범위에 있어야 한다.

ITU-T H.265는 PicOrderCntVal이 PicOrderCntMsb + slice_pic_order_cnt_lsb와 동일한 경우를 제공한다. slice_pic_order_cnt_lsb는 다음과 같이 도출된다:

현재 픽처가 IRAP 픽처가 아니고 출력될 때, 변수 prevPicOrderCntLsb는 다음과 같이 도출된다:

- prevTid0Pic를 0과 동일한 TemporalId를 갖고 RASL(random access skipped leading), RADL(random access decodable leading), 또는 SLNR(sub-layer non-reference) 픽처가 아닌 디코딩 순서에서의 이전 픽처라고 한다.

- 변수 prevPicOrderCntLs는 prevTid0Pic의 slice_pic_order_cnt_lsb와 동일하게 설정된다.

여기서, 신택스 요소 slice_pic_order_cnt_lsb는 픽처가 IRAP 픽처가 아니고 다음의 정의를 가질 때 slice_segment_header() 신택스에 조건부로 포함된다:

slice_pic_order_cnt_lsb는 현재 픽처에 대한 픽처 순서 카운트 모듈로 MaxPicOrderCntLsb를 지정한다. slice_pic_order_cnt_lsb 신택스 요소의 길이는 log2_max_pic_order_cnt_lsb_minus4+4 비트이다. slice_pic_order_cnt_lsb의 값은 0 내지 MaxPicOrderCntLsb-1(이들 값 포함)의 범위에 있어야 한다. slice_pic_order_cnt_lsb가 존재하지 않을 때, slice_pic_order_cnt_lsb는 (생성된 픽처 이외의 경우들에 대해) 0과 동일한 것으로 추론된다.

ITU-T H.265에서 PicOrderCntMsb는 다음과 같이 도출된다:

- 변수 prevPicOrderCntMsb는 prevTid0Pic의 PicOrderCntMsb와 동일하게 설정된다.

- 현재 픽처가 1과 동일한 NoRaslOutputFlag를 갖는 IRAP 픽처이면, PicOrderCntMsb는 0과 동일하게 설정된다.

- 그렇지 않으면, PicOrderCntMsb는 다음과 같이 도출된다:

if((slice_pic_order_cnt_lsb < prevPicOrderCntLsb) &&

((prevPicOrderCntLsb - slice_pic_order_cnt_lsb) >=

(MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb + MaxPicOrderCntLsb

else if((slice_pic_order_cnt_lsb - prevPicOrderCntLsb) &&

((slice_pic_order_cnt_lsb - prevPicOrderCntLsb) >

(MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

ITU-T H.265에서, slice_pic_order_cnt_lsb가 IDR 픽처들에 대해 0인 것으로 추론되고 prevPicOrderCntLsb 및 prevPicOrderCntMsb가 둘 모두 0과 동일하게 설정되므로, 모든 IDR 픽처들은 0과 동일한 PicOrderCntVal을 가질 것이라는 점에 유의해야 한다.

JVET-J1001은 표 1에 예시된 슬라이스 헤드 신택스를 제공한다는 점에 유의해야 한다.

[표 1]

JVET-J1001은 표 1에 예시된 각자의 신택스 요소들에 대해 다음의 정의들을 제공한다.

slice_pic_parameter_set_id는 사용 중인 PPS에 대한 pps_pic_parameter_set_id의 값을 지정한다. slice_pic_parameter_set_id의 값은 0 내지 63(이들 값 포함)의 범위에 있어야 한다.

slice_address는 픽처의 CTB 래스터 스캔에서 슬라이스 내의 첫 번째 CTB의 어드레스를 지정한다. slice_address 신택스 요소의 길이는 Ceil(Log2(PicSizeInCtbY)) 비트이다. slice_address의 값은 0 내지 PicSizeInCtbsY - 1(이들 값 포함)의 범위에 있어야 하고, slice_address의 값은 동일한 코딩된 픽처의 임의의 다른 코딩된 슬라이스 NAL 유닛의 slice_address의 값과 동일하지 않아야 한다. 픽처의 CTB 래스터 스캔에서 CTB 어드레스를 지정하는 변수 CtbAddrInRs는 slice_address와 동일하게 설정된다.

slice_type은 표 2에 따라 슬라이스의 코딩 타입을 지정한다.

[표 2]

nal_unit_type이 [결정될](하한 및 상한 값 포함)의 범위에 있는 값을 가질 때, 즉 픽처가 IRAP 픽처일 때, slice_type은 2와 동일해야 한다.

log2_diff_ctu_max_bt_size는 이진 분할을 이용하여 분할될 수 있는 코딩 블록의 최대 루마 크기(폭 또는 높이)와 루마 CTB 크기 사이의 차이를 지정한다. log2_diff_ctu_max_bt_size의 값은 0 내지 CtbLog2SizeY - MinCbLog2SizeY(이들 값 포함)의 범위에 있어야 한다.

B 슬라이스는 이중-예측 인터 예측, 단일-예측 인터 예측, 및 인트라 서술이 허용되는 슬라이스를 지칭하고; P 슬라이스는 단일-예측 인터 예측 및 인트라 서술이 허용되는 슬라이스를 지칭하고; I 슬라이스는 인트라 서술만이 허용되는 슬라이스를 지칭한다는 점에 유의해야 한다. 몇몇 경우에 B 및 P 슬라이스들은 집합적으로 인터 슬라이스들로 지칭된다는 점에 유의해야 한다.

본 개시는 픽처 순서 카운트 값들을 시그널링하기 위한 기법들을 기술하며, 이들은 간단하고 ITU-T H.265에 기술된 것에 비해 더 많은 유연성을 제공한다. 본 명세서에 기술된 기법들에 따르면, 비디오 인코더는 본 명세서에 기술된 신택스 및 시맨틱을 사용하여 픽처 순서 카운트 값 등을 시그널링할 수 있다. 비디오 디코더는 본 명세서에 기술된 신택스 및 시맨틱을 사용하는 시그널링을 파싱함으로써 픽처 순서 카운트 값 등을 결정하고 결정된 픽처 순서 카운트 값에 기초하여 비디오 디코딩을 수행하고 픽처를 출력할 수 있다.

도 1은 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 코딩(즉, 인코딩 및/또는 디코딩)하도록 구성될 수 있는 시스템의 예를 예시하는 블록도이다. 시스템(100)은 본 개시의 하나 이상의 기법에 따라 비디오 데이터를 캡슐화할 수 있는 시스템의 예를 나타낸다. 도 1에 예시된 바와 같이, 시스템(100)은 소스 디바이스(102), 통신 매체(110), 및 목적지 디바이스(120)를 포함한다. 도 1에 예시된 예에서, 소스 디바이스(102)는 비디오 데이터를 인코딩하고 인코딩된 비디오 데이터를 통신 매체(110)에 송신하도록 구성된 임의의 디바이스를 포함할 수 있다. 목적지 디바이스(120)는 인코딩된 비디오 데이터를 통신 매체(110)를 통해 수신하도록 그리고 인코딩된 비디오 데이터를 디코딩하도록 구성된 임의의 디바이스를 포함할 수 있다. 소스 디바이스(102) 및/또는 목적지 디바이스(120)는 유선 및/또는 무선 통신들을 위해 갖춰진 컴퓨팅 디바이스를 포함할 수 있고, 예를 들어 셋톱 박스, 디지털 비디오 레코더, 텔레비전, 데스크톱, 랩톱 또는 태블릿 컴퓨터, 게이밍 콘솔, 의료 이미징 디바이스, 및 예를 들어 스마트 폰, 셀룰러 폰, 개인 게이밍 디바이스를 포함하는 모바일 디바이스를 포함할 수 있다.

통신 매체(110)는 무선 및 유선 통신 매체, 및/또는 저장 디바이스들의 임의의 조합을 포함할 수 있다. 통신 매체(110)는 동축 케이블, 광섬유 케이블, 트위스티드 페어 케이블, 무선 송신기 및 수신기, 라우터, 스위치, 리피터, 기지국, 또는 다양한 디바이스들과 사이트들 사이의 통신을 용이하게 하는 데 유용할 수 있는 임의의 다른 장비를 포함할 수 있다. 통신 매체(110)는 하나 이상의 네트워크를 포함할 수 있다. 예를 들어, 통신 매체(110)는 월드 와이드 웹, 예를 들어 인터넷에의 액세스를 가능하게 하도록 구성된 네트워크를 포함할 수 있다. 네트워크는 하나 이상의 전기통신 프로토콜의 조합에 따라 동작할 수 있다. 전기통신 프로토콜들은 독점적인 태양들을 포함할 수 있고/있거나 표준화된 전기통신 프로토콜들을 포함할 수 있다. 표준화된 전기통신 프로토콜들의 예들은 DVB(Digital Video Broadcasting) 표준, ATSC(Advanced Television Systems Committee) 표준, ISDB(Integrated Services Digital Broadcasting) 표준, DOCSIS(Data Over Cable Service Interface Specification) 표준, GSM(Global System Mobile Communications) 표준, CDMA(code division multiple access) 표준, 3GPP(3rd Generation Partnership Project) 표준, ETSI(European Telecommunications standards Institute) 표준, IP(Internet Protocol) 표준, WAP(Wireless Application Protocol) 표준, 및 IEEE(Institute of Electrical and Electronics Engineers) 표준을 포함한다.

저장 디바이스들은 데이터를 저장할 수 있는 임의의 타입의 디바이스 또는 저장 매체를 포함할 수 있다. 저장 매체는 유형의(tangible) 또는 비일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 광 디스크, 플래시 메모리, 자기 메모리, 또는 임의의 다른 적합한 디지털 저장 매체들을 포함할 수 있다. 몇몇 예에서, 메모리 디바이스 또는 그의 부분들은 비휘발성 메모리로서 기술될 수 있고 다른 예들에서 메모리 디바이스들의 부분들은 휘발성 메모리로서 기술될 수 있다. 휘발성 메모리들의 예들은 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 및 정적 랜덤 액세스 메모리(SRAM)를 포함할 수 있다. 비휘발성 메모리들의 예들은 자기 하드 디스크, 광 디스크, 플로피 디스크, 플래시 메모리, 또는 EPROM(electrically programmable memory) 또는 EEPROM(electrically erasable and programmable memory)의 형태를 포함할 수 있다. 저장 디바이스(들)는 메모리 카드(예컨대, SD(Secure Digital) 메모리 카드), 내부/외부 하드 디스크 드라이브, 및/또는 내부/외부 솔리드 스테이트 드라이브를 포함할 수 있다. 데이터는 정의된 파일 포맷에 따라 저장 디바이스에 저장될 수 있다.

도 4는 시스템(100)의 구현에 포함될 수 있는 컴포넌트들의 예를 예시하는 개념도이다. 도 4에 예시된 예시적인 구현에서, 시스템(100)은 하나 이상의 컴퓨팅 디바이스(402A-402N), 텔레비전 서비스 네트워크(404), 텔레비전 서비스 제공자 사이트(406), 광역 네트워크(408), 근거리 네트워크(410), 및 하나 이상의 콘텐츠 제공자 사이트(412A-412N)를 포함한다. 도 4에 예시된 구현은 예를 들어 영화, 라이브 스포츠 이벤트 등과 같은 디지털 미디어 콘텐츠, 및 데이터 및 애플리케이션들 및 그와 연관된 미디어 프레젠테이션들이 컴퓨팅 디바이스들(402A-402N)과 같은 복수의 컴퓨팅 디바이스에 분배되고 그들에 의해 액세스될 수 있게 하도록 구성될 수 있는 시스템의 예를 나타낸다. 도 4에 예시된 예에서, 컴퓨팅 디바이스들(402A-402N)은 텔레비전 서비스 네트워크(404), 광역 네트워크(408), 및/또는 근거리 네트워크(410) 중 하나 이상으로부터 데이터를 수신하도록 구성된 임의의 디바이스를 포함할 수 있다. 예를 들어, 컴퓨팅 디바이스들(402A-402N)은 유선 및/또는 무선 통신을 위해 갖춰질 수 있고, 하나 이상의 데이터 채널을 통해 서비스를 수신하도록 구성될 수 있고, 소위 스마트 텔레비전을 포함한 텔레비전, 셋톱 박스, 및 디지털 비디오 레코더를 포함할 수 있다. 게다가, 컴퓨팅 디바이스들(402A-402N)은 데스크톱, 랩톱 또는 태블릿 컴퓨터, 게임 콘솔, 예를 들어 "스마트" 폰, 셀룰러 폰, 및 개인 게이밍 디바이스들을 포함한 모바일 디바이스를 포함할 수 있다.

텔레비전 서비스 네트워크(404)는 텔레비전 서비스들을 포함할 수 있는 디지털 미디어 콘텐츠가 분배될 수 있게 하도록 구성된 네트워크의 예이다. 예를 들어, 텔레비전 서비스 네트워크(404)는 공개 공중파 텔레비전 네트워크, 공개 또는 구독 기반 위성 텔레비전 서비스 제공자 네트워크, 및 공개 또는 구독 기반 케이블 텔레비전 제공자 네트워크 및/또는 오버 더 톱(over the top) 또는 인터넷 서비스 제공자를 포함할 수 있다. 몇몇 예에서 텔레비전 서비스 네트워크(404)가 주로 텔레비전 서비스들이 제공될 수 있게 하는 데 사용될 수 있지만, 텔레비전 서비스 네트워크(404)는 또한 본 명세서에서 설명된 전기통신 프로토콜들의 임의의 조합에 따라 다른 타입의 데이터 및 서비스가 제공될 수 있게 할 수 있다는 점에 유의해야 한다. 또한, 몇몇 예에서, 텔레비전 서비스 네트워크(404)는 텔레비전 서비스 제공자 사이트(406)와 컴퓨팅 디바이스들(402A-402N) 중 하나 이상 사이의 쌍방향 통신을 가능하게 할 수 있다는 점에 유의해야 한다. 텔레비전 서비스 네트워크(404)는 무선 및/또는 유선 통신 매체의 임의의 조합을 포함할 수 있다. 텔레비전 서비스 네트워크(404)는 동축 케이블, 광섬유 케이블, 트위스티드 페어 케이블, 무선 송신기 및 수신기, 라우터, 스위치, 리피터, 기지국, 또는 다양한 디바이스들과 사이트들 사이의 통신을 용이하게 하는 데 유용할 수 있는 임의의 다른 장비를 포함할 수 있다. 텔레비전 서비스 네트워크(404)는 하나 이상의 전기통신 프로토콜의 조합에 따라 동작할 수 있다. 전기통신 프로토콜들은 독점적인 태양들을 포함할 수 있고/있거나 표준화된 전기통신 프로토콜들을 포함할 수 있다. 표준화된 전기통신 프로토콜들의 예들은 DVB 표준, ATSC 표준, ISDB 표준, DTMB 표준, DMB 표준, DOCSIS(Data Over Cable Service Interface Specification) 표준, HbbTV 표준, W3C 표준, 및 UPnP 표준을 포함한다.

도 4를 다시 참조하면, 텔레비전 서비스 제공자 사이트(406)는 텔레비전 서비스 네트워크(404)를 통해 텔레비전 서비스를 분배하도록 구성될 수 있다. 예를 들어, 텔레비전 서비스 제공자 사이트(406)는 하나 이상의 방송국, 케이블 텔레비전 제공자, 또는 위성 텔레비전 제공자, 또는 인터넷 기반 텔레비전 제공자를 포함할 수 있다. 예를 들어, 텔레비전 서비스 제공자 사이트(406)는 위성 업링크/다운링크를 통해 텔레비전 프로그래밍을 포함하는 송신을 수신하도록 구성될 수 있다. 또한, 도 4에 예시된 바와 같이, 텔레비전 서비스 제공자 사이트(406)는 광역 네트워크(408)와 통신할 수 있고 콘텐츠 제공자 사이트들(412A-412N)로부터 데이터를 수신하도록 구성될 수 있다. 몇몇 예에서, 텔레비전 서비스 제공자 사이트(406)는 텔레비전 스튜디오를 포함할 수 있고 그로부터 콘텐츠가 비롯될 수 있다는 점에 유의해야 한다.

광역 네트워크(408)는 패킷 기반 네트워크를 포함하고 하나 이상의 전기통신 프로토콜의 조합에 따라 동작할 수 있다. 전기통신 프로토콜들은 독점적인 태양들을 포함할 수 있고/있거나 표준화된 전기통신 프로토콜들을 포함할 수 있다. 표준화된 전기통신 프로토콜들의 예들은 GSM(Global System Mobile Communications) 표준, CDMA(code division multiple access) 표준, 3GPP(3 ^rd Generation Partnership Project) 표준, ETSI(European Telecommunications Standards Institute) 표준, 유럽 표준(EN), IP 표준, WAP(Wireless Application Protocol) 표준, 및 IEEE(Institute of Electrical and Electronics Engineers) 표준, 이를테면 예를 들어 IEEE 802 표준들 중 하나 이상(예를 들어, Wi-Fi)을 포함한다. 광역 네트워크(408)는 무선 및/또는 유선 통신 매체의 임의의 조합을 포함할 수 있다. 광역 네트워크(408)는 동축 케이블, 광섬유 케이블, 트위스티드 페어 케이블, 이더넷 케이블, 무선 송신기 및 수신기, 라우터, 스위치, 리피터, 기지국, 또는 다양한 디바이스들과 사이트들 사이의 통신을 용이하게 하는 데 유용할 수 있는 임의의 다른 장비를 포함할 수 있다. 일례에서, 광역 네트워크(408)는 인터넷을 포함할 수 있다. 근거리 네트워크(410)는 패킷 기반 네트워크를 포함하고 하나 이상의 전기통신 프로토콜의 조합에 따라 동작할 수 있다. 근거리 네트워크(410)는 액세스 레벨 및/또는 물리적 인프라스트럭처에 기초하여 광역 네트워크(408)와 구별될 수 있다. 예를 들어, 근거리 네트워크(410)는 보안 홈 네트워크를 포함할 수 있다.

다시 도 4를 참조하면, 콘텐츠 제공자 사이트들(412A-412N)은 멀티미디어 콘텐츠를 텔레비전 서비스 제공자 사이트(406) 및/또는 컴퓨팅 디바이스들(402A-402N)에 제공할 수 있는 사이트들의 예를 나타낸다. 예를 들어, 콘텐츠 제공자 사이트는 멀티미디어 파일 및/또는 스트림을 텔레비전 서비스 제공자 사이트(406)에 제공하도록 구성된 하나 이상의 스튜디오 콘텐츠 서버를 갖는 스튜디오를 포함할 수 있다. 일례에서, 콘텐츠 제공자 사이트들(412A-412N)은 IP 스위트(suite)를 이용하여 멀티미디어 콘텐츠를 제공하도록 구성될 수 있다. 예를 들어, 콘텐츠 제공자 사이트는 RTSP(Real Time Streaming Protocol), HTTP 등에 따라 수신기 디바이스에 멀티미디어 콘텐츠를 제공하도록 구성될 수 있다. 또한, 콘텐츠 제공자 사이트들(412A-412N)은 광역 네트워크(408)를 통해 수신기 디바이스들, 컴퓨팅 디바이스들(402A-402N) 및/또는 텔레비전 서비스 제공자 사이트(406) 중 하나 이상에 하이퍼텍스트 기반 콘텐츠 등을 포함한 데이터를 제공하도록 구성될 수 있다. 콘텐츠 제공자 사이트들(412A-412N)은 하나 이상의 웹 서버를 포함할 수 있다. 데이터 제공자 사이트(412A-412N)에 의해 제공되는 데이터는 데이터 포맷들에 따라 정의될 수 있다.

다시 도 1을 참조하면, 소스 디바이스(102)는 비디오 소스(104), 비디오 인코더(106), 데이터 캡슐화기(107), 및 인터페이스(108)를 포함한다. 비디오 소스(104)는 비디오 데이터를 캡처하고/하거나 저장하도록 구성된 임의의 디바이스를 포함할 수 있다. 예를 들어, 비디오 소스(104)는 비디오 카메라 및 그에 동작 가능하게 결합된 저장 디바이스를 포함할 수 있다. 비디오 인코더(106)는 비디오 데이터를 수신하고 비디오 데이터를 표현하는 컴플라이언트 비트스트림을 생성하도록 구성된 임의의 디바이스를 포함할 수 있다. 컴플라이언트 비트스트림은 비디오 디코더가 그로부터 비디오 데이터를 수신 및 재생할 수 있는 비트스트림을 지칭할 수 있다. 컴플라이언트 비트스트림의 태양들은 비디오 코딩 표준에 따라 정의될 수 있다. 컴플라이언트 비트스트림을 생성할 때 비디오 인코더(106)는 비디오 데이터를 압축할 수 있다. 압축은 손실이 있거나(시청자가 식별 가능하거나 식별 불가능함) 무손실일 수 있다. 도 5는 본 명세서에서 기술된 비디오 데이터를 인코딩하기 위한 기법들을 구현할 수 있는 비디오 인코더(500)의 예를 예시하는 블록도이다. 예시적인 비디오 인코더(500)가 별개의 기능 블록들을 갖는 것으로 예시되어 있지만, 그러한 예시는 설명의 목적을 위한 것이고 비디오 인코더(500) 및/또는 그의 서브-컴포넌트들을 특정 하드웨어 또는 소프트웨어 아키텍처로 제한하지 않는다는 것에 유의해야 한다. 비디오 인코더(500)의 기능들은 하드웨어, 펌웨어, 및/또는 소프트웨어 구현들의 임의의 조합을 이용하여 실현될 수 있다.

비디오 인코더(500)는 픽처 영역들의 인트라 예측 코딩 및 인터 예측 코딩을 수행할 수 있고, 그렇기 때문에 하이브리드 비디오 인코더로 지칭될 수 있다. 도 5에 예시된 예에서, 비디오 인코더(500)는 소스 비디오 블록들을 수신한다. 몇몇 예에서, 소스 비디오 블록들은 코딩 구조에 따라 분할된 픽처의 영역들을 포함할 수 있다. 예를 들어, 소스 비디오 데이터는 매크로블록들, CTU들, CB들, 그의 서브-디비전들, 및/또는 다른 동등한 코딩 유닛을 포함할 수 있다. 몇몇 예에서, 비디오 인코더(500)는 소스 비디오 블록들의 추가 서브-디비전을 수행하도록 구성될 수 있다. 본 명세서에 기술된 기법은 일반적으로, 인코딩 전에 그리고/또는 인코딩 동안 소스 비디오 데이터가 어떻게 분할되는지에 무관하게, 비디오 코딩에 적용 가능하다는 것에 유의해야 한다. 도 5에 예시된 예에서, 비디오 인코더(500)는 합산기(502), 변환 계수 생성기(504), 계수 양자화 유닛(506), 역양자화 및 변환 계수 처리 유닛(508), 합산기(510), 인트라 예측 처리 유닛(512), 인터 예측 처리 유닛(514), 필터 유닛(516), 및 엔트로피 인코딩 유닛(518)을 포함한다. 도 5에 예시된 바와 같이, 비디오 인코더(500)는 소스 비디오 블록들을 수신하고 비트스트림을 출력한다.

도 5에 예시된 예에서, 비디오 인코더(500)는 소스 비디오 블록으로부터 예측 비디오 블록을 감산함으로써 잔차 데이터를 생성할 수 있다. 예측 비디오 블록의 선택은 아래에 상세히 기술된다. 합산기(502)는 이러한 감산 연산을 수행하도록 구성된 컴포넌트를 나타낸다. 일례에서, 비디오 블록들의 감산은 픽셀 도메인에서 발생한다. 변환 계수 생성기(504)는 이산 코사인 변환(DCT), 이산 사인 변환(DST), 또는 개념적으로 유사한 변환과 같은 변환을 잔차 블록 또는 그의 서브-디비전들에 적용하여(예컨대, 4개의 8x8 변환이 잔차 값들의 16x16 어레이에 적용될 수 있음) 잔차 변환 계수들의 세트를 생성한다. 변환 계수 생성기(504)는 그의 근사를 포함한, 이산 삼각 변환(discrete trigonometric transform)의 계열에 포함된 변환들의 임의의 그리고 모든 조합들을 수행하도록 구성될 수 있다. 변환 계수 생성기(504)는 변환 계수들을 계수 양자화 유닛(506)에 출력할 수 있다. 계수 양자화 유닛(506)은 변환 계수들의 양자화를 수행하도록 구성될 수 있다. 양자화 프로세스는 계수들 중 일부 또는 전부와 연관된 비트 깊이를 감소시킬 수 있다. 양자화의 정도는 인코딩된 비디오 데이터의 레이트-왜곡(즉, 비트-레이트 대 비디오 품질)을 변경할 수 있다. 양자화의 정도는 양자화 파라미터(QP)를 조정함으로써 수정될 수 있다. 양자화 파라미터는 슬라이스 레벨 값들 및/또는 CU 레벨 값들(예를 들어, CU 델타 QP 값들)에 기초하여 결정될 수 있다. QP 데이터는 변환 계수들의 특정 세트를 양자화하기 위한 QP를 결정하는 데 사용되는 임의의 데이터를 포함할 수 있다. 도 5에 예시된 바와 같이, 양자화된 변환 계수들(레벨 값들로 지칭될 수 있음)은 역양자화 및 변환 계수 처리 유닛(508)에 출력된다. 역양자화 및 변환 계수 처리 유닛(508)은 재구성된 잔차 데이터를 생성하기 위해 역양자화 및 역변환을 적용하도록 구성될 수 있다. 도 5에 예시된 바와 같이, 합산기(510)에서, 재구성된 잔차 데이터가 예측 비디오 블록에 추가될 수 있다. 이러한 방식으로, 인코딩된 비디오 블록은 재구성될 수 있고 결과적인 재구성된 비디오 블록은 주어진 예측, 변환, 및/또는 양자화에 대한 인코딩 품질을 평가하는 데 사용될 수 있다. 비디오 인코더(500)는 다수의 코딩 패스들을 수행하도록(예컨대, 예측, 변환 파라미터들, 및 양자화 파라미터들 중 하나 이상을 변경하면서 인코딩을 수행하도록) 구성될 수 있다. 비트스트림 또는 다른 시스템 파라미터들의 레이트-왜곡은 재구성된 비디오 블록들의 평가에 기초하여 최적화될 수 있다. 또한, 재구성된 비디오 블록들은 저장되고 후속 블록들을 예측하기 위한 기준으로서 사용될 수 있다.

다시 도 5를 참조하면, 인트라 예측 처리 유닛(512)은 코딩될 비디오 블록에 대한 인트라 예측 모드를 선택하도록 구성될 수 있다. 인트라 예측 처리 유닛(512)은 프레임을 평가하고 현재 블록을 인코딩하는 데 사용할 인트라 예측 모드를 결정하도록 구성될 수 있다. 전술된 바와 같이, 가능한 인트라 예측 모드들은 평면 예측 모드들, DC 예측 모드들, 및 각도 예측 모드들을 포함할 수 있다. 또한, 몇몇 예에서, 크로마 성분에 대한 예측 모드는 루마 예측 모드에 대한 예측 모드로부터 추론될 수 있다는 점에 유의해야 한다. 인트라 예측 처리 유닛(512)은 하나 이상의 코딩 패스를 수행한 후에 인트라 예측 모드를 선택할 수 있다. 또한, 일례에서, 인트라 예측 처리 유닛(512)은 레이트-왜곡 분석에 기초하여 예측 모드를 선택할 수 있다. 도 5에 예시된 바와 같이, 인트라 예측 처리 유닛(512)은 인트라 예측 데이터(예컨대, 신택스 요소들)를 엔트로피 인코딩 유닛(518) 및 변환 계수 생성기(504)에 출력한다. 전술된 바와 같이, 잔차 데이터에 대해 수행되는 변환은 모드 의존적일 수 있다(예컨대, 2차 변환 행렬이 서술 모드에 기초하여 결정될 수 있다).

다시 도 5를 참조하면, 인터 예측 처리 유닛(514)은 현재 비디오 블록에 대한 인터 예측 코딩을 수행하도록 구성될 수 있다. 인터 예측 처리 유닛(514)은 소스 비디오 블록들을 수신하고 비디오 블록의 PU들에 대한 모션 벡터를 계산하도록 구성될 수 있다. 모션 벡터는 기준 프레임 내의 예측 블록에 대한 현재 비디오 프레임 내의 비디오 블록의 PU의 변위를 나타낼 수 있다. 인터 예측 코딩은 하나 이상의 기준 픽처를 사용할 수 있다. 또한, 모션 예측은 단일-예측(하나의 모션 벡터를 사용) 또는 이중-예측(2개의 모션 벡터를 사용)일 수 있다. 인터 예측 처리 유닛(514)은 예를 들어 절대차의 합(SAD), 제곱차의 합(SSD), 또는 다른 차이 메트릭(metric)들에 의해 결정된 픽셀 차이를 계산함으로써 예측 블록을 선택하도록 구성될 수 있다. 전술된 바와 같이, 모션 벡터는 모션 벡터 예측에 따라 결정 및 지정될 수 있다. 인터 예측 처리 유닛(514)은, 전술된 바와 같이, 모션 벡터 예측을 수행하도록 구성될 수 있다. 인터 예측 처리 유닛(514)은 모션 예측 데이터를 사용하여 예측 블록을 생성하도록 구성될 수 있다. 예를 들어, 인터 예측 처리 유닛(514)은 프레임 버퍼(도 5에 도시되지 않음) 내에 예측 비디오 블록을 위치시킬 수 있다. 인터 예측 처리 유닛(514)은 하나 이상의 보간 필터를 재구성된 잔차 블록에 적용하여 모션 추정에서 사용하기 위한 서브-정수 픽셀 값들을 계산하도록 추가로 구성될 수 있다는 것에 유의해야 한다. 인터 예측 처리 유닛(514)은 계산된 모션 벡터에 대한 모션 예측 데이터를 엔트로피 인코딩 유닛(518)에 출력할 수 있다.

다시 도 5를 참조하면, 필터 유닛(516)은 재구성된 비디오 블록들 및 코딩 파라미터들을 수신하고 수정된 재구성된 비디오 데이터를 출력한다. 필터 유닛(516)은 디블록킹 및/또는 SAO(Sample Adaptive Offset) 필터링을 수행하도록 구성될 수 있다. SAO 필터링은 재구성된 비디오 데이터에 오프셋을 추가함으로써 재구성을 개선하는 데 사용될 수 있는 비선형 진폭 매핑이다. 도 5에 예시된 바와 같이, 인트라 예측 처리 유닛(512) 및 인터 예측 처리 유닛(514)은 필터 유닛(216)을 통해 수정된 재구성된 비디오 블록을 수신할 수 있다는 것에 유의해야 한다. 엔트로피 인코딩 유닛(518)은 양자화된 변환 계수들 및 예측 신택스 데이터(즉, 인트라 예측 데이터 및 모션 예측 데이터)를 수신한다. 몇몇 예에서, 계수 양자화 유닛(506)은 계수들이 엔트로피 인코딩 유닛(518)에 출력되기 전에 양자화된 변환 계수들을 포함하는 행렬의 스캔을 수행할 수 있다는 것에 유의해야 한다. 다른 예들에서, 엔트로피 인코딩 유닛(518)이 스캔을 수행할 수 있다. 엔트로피 인코딩 유닛(518)은 본 명세서에 기술된 기법들 중 하나 이상에 따라 엔트로피 인코딩을 수행하도록 구성될 수 있다. 이러한 방식으로, 비디오 인코더(500)는 본 개시의 하나 이상의 기법에 따라 인코딩된 비디오 데이터를 생성하도록 구성된 디바이스의 예를 나타낸다.

다시 도 1을 참조하면, 데이터 캡슐화기(107)는 인코딩된 비디오 데이터를 수신하고 정의된 데이터 구조에 따라 컴플라이언트 비트스트림, 예를 들어 NAL 유닛들의 시퀀스를 생성할 수 있다. 컴플라이언트 비트스트림을 수신하는 디바이스는 그로부터 비디오 데이터를 재생할 수 있다. 또한, 전술된 바와 같이, 서브-비트스트림 추출은 ITU-T H.265 컴플라이언트 비트스트림을 수신하는 디바이스가 수신된 비트스트림 내의 데이터를 폐기 및/또는 수정함으로써 새로운 ITU-T H.265 컴플라이언트 비트스트림을 형성하는 프로세스를 지칭할 수 있다. 용어 컨포밍 비트스트림이 용어 컴플라이언트 비트스트림 대신에 사용될 수 있다는 점에 유의해야 한다.

전술된 바와 같이, ITU-T H.265는 시퀀스 파라미터 세트 신택스가 변수 MaxPicOrderCntLsb의 값을 지정하는 신택스 요소 log2_max_pic_order_cnt_lsb_minus4를 포함하는 경우를 제공한다. 본 명세서에서의 기법들에 따르면, 시퀀스 파라미터 세트 신택스는 (예를 들어, log2_max_pic_order_cnt_lsb_minus4에 바로 선행하는 또는 그를 뒤따르는 또는 시퀀스 파라미터 세트 또는 다른 파라미터 세트 내의 어떤 다른 위치에 있는) 신택스 요소 log2_max_pic_order_cnt_msb_cycle_minus1을 추가로 포함할 수 있다. 일례에서, log2_max_pic_order_cnt_msb_cycle_minus1은 다음의 정의에 기초할 수 있다:

log2_max_pic_order_cnt_msb_cycle_minus1은 픽처 순서 카운트에 대한 디코딩 프로세스에서 사용되는 변수 MaxPicOrderCntMSBCycle의 값을 다음과 같이 지정한다:

MaxPicOrderCntMSBCycle = (log2_max_pic_order_cnt_msb_cycle_minus1 + 1)

log2_max_pic_order_cnt_msb_cycle_minus1의 값은 0 내지 15(이들 값 포함)의 범위에 있어야 한다.

몇몇 예에서, log2_max_pic_order_cnt_msb_cycle_minus1의 값은 다른 범위들(예를 들어, 0 내지 16(이들 값을 포함), 0 내지 28(이들 값을 포함), 0 내지 48(이들 값을 포함) 등) 내에 있을 수 있다는 점에 유의해야 한다.

일례에서, 슬라이스 헤더는 slice_poc_info() 신택스를 포함할 수 있다. 예를 들어, 표 3은 slice_poc_info() 신택스를 포함하는 슬라이스 헤더의 예를 예시한다. slice_header()에 포함된 신택스 요소는 위에서 제공된 정의에 기초할 수 있다.

[표 3]

표 4는 slice_poc_info()에 대한 신택스의 예를 제공한다.

[표 4]

표 4에서의 신택스 요소 slice_pic_order_cnt_lsb, slice_pic_order_cnt_msb_cycle_present, 및 slice_pic_order_cnt_msb_cycle은 다음의 예시적인 정의들에 기초할 수 있다:

slice_pic_order_cnt_lsb는 현재 픽처에 대한 픽처 순서 카운트 모듈로 MaxPicOrderCntLsb를 지정한다. slice_pic_order_cnt_lsb 신택스 요소의 길이는 log2_max_pic_order_cnt_lsb_minus4 + 4 비트이다. slice_pic_order_cnt_lsb의 값은 0 내지 MaxPicOrderCntLsb - 1(이들 값 포함)의 범위에 있어야 한다.

1과 동일한 slice_pic_order_cnt_msb_cycle_present는 slice_pic_order_cnt_msb_cycle 신택스 요소가 다음에 뒤따른다는 것을 나타낸다. 0과 동일한 slice_pic_order_cnt_msb_cycle_present는 slice_pic_order_cnt_msb_cycle 신택스 요소가 시그널링되지 않음을 나타낸다. 시그널링되지 않을 때, slice_pic_order_cnt_msb_cycle_present는 0과 동일한 것으로 추론된다. 현재 픽처가 IDR 픽처일 때, slice_pic_order_cnt_msb_cycle_present는 0과 동일해야 한다.

slice_pic_order_cnt_msb_cycle은 픽처 순서 카운트 MSB 사이클 값을 지정한다. slice_pic_order_cnt_msb_cycle 신택스 요소의 길이는 log2_max_pic_order_cnt_msb_cycle_minus1 + 1 비트이다. slice_pic_order_cnt_msb_cycle 값은 0 내지 MaxPicOrderCntMSBCycle - 1(이들 값 포함)의 범위에 있어야 한다.

몇몇 예에서, slice_pic_order_cnt_msb_cycle은 slice_pic_order_cnt_msb_cycle에 대한 음의 값들의 시그널링을 허용하기 위해 i(v)로서 코딩될 수 있다는 점에 유의해야 한다.

몇몇 예에서, log2_max_pic_order_cnt_msb_cycle_minus1에 대해 마이너스 1 시그널링이 사용되지 않을 수 있다는 점에 유의해야 한다. 즉, log2_max_pic_order_cnt_msb_cycle_minus1은 다음의 정의에 기초할 수 있는 신택스 요소 log2_max_pic_order_cnt_msb_cycle로 대체될 수 있다:

log2_max_pic_order_cnt_msb_cycle은 픽처 순서 카운트에 대한 디코딩 프로세스에서 사용되는 변수 MaxPicOrderCntMSBCycle의 값을 다음과 같이 지정한다;

log2_max_pic_order_cnt_msb_cycle의 값은 0 내지 16(이들 값 포함)(또는 0 내지 15(이들 값 포함), 0 내지 28(이들 값 포함), 0 내지 48(이들 값 포함) 등)의 범위에 있어야 한다.

log2_max_pic_order_cnt_msb_cycle이 사용될 때 slice_pic_order_cnt_msb_cycle의 정의는 다음과 같이 수정될 수 있다:

slice_pic_order_cnt_msb_cycle은 픽처 순서 카운트 MSB 사이클 값을 지정한다. slice_pic_order_cnt_msb_cycle 신택스 요소의 길이는 log2_max_pic_order_cnt_msb_cycle 비트이다. slice_pic_order_cnt_msb_cycle의 값은 0 내지 MaxPicOrderCntMSBCycle - 1(이들 값 포함)의 범위에 있어야 한다.

몇몇 예에서, log2_max_pic_order_cnt_msb_cycle_minus1은 사용되지 않을 수 있고 그러한 경우들에서 slice_pic_order_cnt_msb_cycle은 u(v) 데이터 타입 대신에 ue(v) 데이터 타입을 사용하여 시그널링될 수 있다는 점에 유의해야 한다.

일례에서, log2_max_pic_order_cnt_msb_cycle_minus1을 시그널링하는 대신에, MaxPicOrderCntMSBCycle의 값은 미리 정의된 log2_max_pic_order_cnt_lsb_minus4 및 MaxPicOrderCnt의 값으로부터 도출될 수 있다. 일례에서, MaxPicOrderCntMSBCycle은 다음과 같이 도출될 수 있다:

PicOrderCntBitDepth = Ceil(Log2(MaxPicOrderCnt))

Log2MaxPicOrderCntMSBCycle - PicOrderCntBitDepth -

(log2_max_pic_order_cnt_lsb_minus4 + 4)

MaxPicOrderCntMSBCycle = 2^{Log2MaxPicOrderCntMSBCycle}

일례에서, log2_max_pic_order_cnt_lsb_minus4를 시그널링하는 대신에, MaxPicOrderCntLsb의 값은 미리 정의된 log2_max_pic_order_cnt_msb_cycle_minus1 및 MaxPicOrderCnt의 값으로부터 도출될 수 있다. 일례에서, MaxPicOrderCntLsb는 다음과 같이 도출될 수 있다:

Log2MaxPicOrderCntLSB = PicOrderCntBitDepth -

(log2_max_pic_order_cnt_msb_minus1 + 1)

MaxPicOrderCntLsb = 2^{Log2MaxPicOrderCntLSB}

slice_poc_info() 내에 제공된 신택스 요소들에 따르면, PicOrderCntMsb + slice_pic_order_cnt_lsb와 동일한 PicOrderCntVal은 다음과 같이 도출될 수 있다:

현재 픽처가 IDR 픽처가 아니거나 현재 픽처가 시그널링된 slice_pic_order_cnt_msb_cycle을 갖지 않을 때, 변수 prevPicOrderCntLsb 및 prevPicOrderCntMsb는 다음과 같이 도출된다:

- prevTid0Pic를 0과 동일한 TemporalId 및 서브-계층 비참조 픽처를 갖는 디코딩 순서에서의 이전 픽처라고 한다.

- 변수 prevPicOrderCntLsb는 prevTid0Pic의 slice_pic_order_cnt_lsb와 동일하게 설정된다.

현재 픽처의 변수 PicOrderCntMsb는 다음과 같이 도출된다:

- 현재 픽처가 IDR 픽처인 경우 또는 이 슬라이스에 대한 활성 SPS에 대한 log2_max_pic_order_cnt_msb_cycle이 존재하고 0과 동일한 경우, 변수 PicOrderCntMsb는 0과 동일하게 설정된다.

- 그렇지 않고 현재 픽처의 슬라이스가 시그널링된 slice_pic_order_cnt_msb_cycle을 갖는다면, 변수 PicOrderCntMSB는 slice_pic_order_cnt_msb_cycle에 MaxPicOrderCntLsb를 곱한 것과 동일하게 설정된다.

- 그렇지 않으면, PicOrderCntMsb는 다음과 같이 도출된다:

if((slice_pic_order_cnt_lsb < prevPicOrderCntLsb) &&

() prevPicOrderCntLsb - slice_pic_order_cnt_lsb) >= (MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb + MaxPicOrderCntLsb

else if((slice_pic_order_cnt_lsb - prevPicOrderCntLsb) > (MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal은 다음과 같이 도출된다:

PicOrderCntVal = PicOrderCntMsb + slice_pic_order_cnt_lsb

몇몇 예에서, PicOrderCntVal의 값은 -2³¹ 내지 2^31-1(이들 값 포함)의 범위에 있어야 한다는 점에 유의해야 한다.

다른 예에서, currentPicOrderCntMsb + slice_pic_order_cnt_lsb와 동일한 PicOrderCntVal은 다음과 같이 도출될 수 있다:

현재 픽처가 IDR 픽처인 경우, 변수 currentPicOrderCntMsb는 0과 동일하게 설정된다.

그렇지 않고 현재 픽처의 슬라이스가 시그널링된 slice_pic_order_cnt_msb_cycle을 갖는 경우, 변수 currentPicOrderCntMsb는 slice_pic_order_cnt_msb_cycle에 MaxPicOrderCntLsb를 곱한 것과 동일하게 설정된다.

그렇지 않으면, 변수 currentPicOrderCntMSB는 다음과 같이 도출된다.

- prevPOCMSBPic가 시그널링된 slice_pic_order_cnt_msb_cycle을 갖거나 IDR 픽처인(어느 것이든 디코딩 순서에서 현재 픽처에 더 가까움) 디코딩 순서에서의 이전 픽처라고 한다.

- 이어서 변수 currentPicOrderCntMsb는 prevPOCMSBPic가 IDR 픽처인 경우 0과 동일하게 설정되거나, prevPOCMSBPic가 IDR 픽처가 아닌 경우 prevPOCMSBPic 픽처의 slice_pic_order_cnt_msb_cycle에 MaxPicOrderCntLsb를 곱한 것과 동일하게 설정된다.

PicOrderCntVal은 다음과 같이 도출된다:

PicOrderCntVal = PicOrderCntMsb + slice_pic_order_cnt_lsb

일례에서, 슬라이스 레벨 MSB 픽처 순서 카운트 관련 신택스 요소들의 시그널링을 제어하기 위한 플래그가 파라미터 세트, 예를 들어 VPS, SPS, 또는 PPS에서 시그널링될 수 있다. 표 5는 slice_pic_order_cnt_msb_signaling_present를 포함하는 시퀀스 파라미터 세트의 예를 예시한다.

[표 5]

표 5에 대하여 다양한 신택스 요소들의 시맨틱은 다음과 같을 수 있다:

log2_max_pic_order_cnt_lsb_minus4는 픽처 순서 카운트에 대한 디코딩 프로세스에서 사용되는 변수 MaxPicOrderCntLsb의 값을 다음과 같이 지정한다:

MaxPicOrderCntLsb = 2^{(log2_max_pic_order_cnt_lsb_minus4 + 4)}

log2_max_pic_order_cnt_lsb_minus4의 값은 0 내지 12(이들 값 포함)의 범위에 있어야 한다.

다른 예에서, log2_max_pic_order_cnt_lsb_minus4의 값은 0 내지 16(이들 값 포함)의 범위에 있어야 한다. 일반적으로, log2_max_pic_order_cnt_lsb_minus4에 대해 어떤 다른 유효한 값 범위가 선언될 수 있다.

0과 동일한 slice_pic_order_cnt_msb_signaling_present는 픽처 순서 카운트에 대한 POC MSB 관련 정보가 슬라이스 헤더에서 시그널링되지 않음을 나타낸다. 1과 동일한 slice_pic_order_cnt_msb_signaling_present는 POC MSB 관련 정보가 슬라이스 헤더에서 시그널링될 수 있음을 나타낸다.

log2_max_pic_order_cnt_msb_cycle은 변수 MaxPicOrderCntMSBCycle의 값을 다음과 같이 지정한다:

MaxPicOrderCntMSBCycle = 2^{(log2_max_pic_order_cnt_lsb_msb_cycle)}

log2_max_pic_order_cnt_lsb_cycle의 값은 0 내지 28(이들 값 포함)의 범위에 있어야 한다.

다른 예에서, log2_max_pic_order_cnt_msb_cycle의 값은 0 내지 16(이들 값 포함)의 범위에 있어야 한다. 일반적으로, log2_max_pic_order_cnt_msb_cycle에 대해 어떤 다른 유효한 값 범위가 선언될 수 있다.

신택스 요소 slice_pic_order_cnt_msb_signaling_present가 파라미터 세트에 포함될 때, slice_poc_info()는 표 6에 예시된 바와 같을 수 있다.

[표 6]

표 6에 대하여 다양한 신택스 요소들의 시맨틱은 다음과 같을 수 있다:

표 5 및 표 6에 대하여 예시된 예의 경우에, slice_pic_order_cnt_msb_cycle_present 및 slice_pic_order_cnt_msb_cycle은 다음의 정의에 기초할 수 있다:

1과 동일한 slice_pic_order_cnt_msb_cycle_present는 slice_pic_order_cnt_msb_cycle 신택스 요소가 다음에 뒤따른다는 것을 나타낸다. 0과 동일한 slice_pic_order_cnt_msb_cycle_present는 slice_pic_order_cnt_msb_cycle 신택스 요소가 시그널링되지 않음을 나타낸다. 시그널링되지 않을 때, slice_pic_order_cnt_msb_cycle_present는 0과 동일한 것으로 추론된다. 현재 픽처가 IDR 픽처일 때, slice_pic_order_cnt_msb_cycle_present는 0과 동일해야 한다. log2_max_pic_order_cnt_msb_cycle이 0과 동일할 때, slice_pic_order_cnt_msb_cycle_present는 0과 동일해야 한다.

slice_pic_order_cnt_msb_cycle은 픽처 순서 카운트 MSB 사이클 값을 지정한다. slice_pic_order_cnt_msb_cycle 신택스 요소의 길이는 log2_max_pic_order_cnt_msbcycle 비트이다. slice_pic_order_cnt_msb_cycle의 값은 0 내지 MaxPicOrderCntMSBCycle - 1(이들 값 포함)의 범위에 있어야 한다.

일례에서, slice_pic_order_cnt_msb_cycle_present는 파라미터 세트에 포함될 수 있다. 신택스 요소 slice_pic_order_cnt_msb_cycle_present가 파라미터 세트에 포함될 때, slice_poc_info()는 표 7에 예시된 바와 같이 수정될 수 있다.

[표 7]

몇몇 예에서, slice_poc_info() 내의 신택스 요소들의 존재는 log2_max_pic_order_cnt_msb_cycle_minus1 또는 log2_max_pic_order_cnt_msb_cycle의 값들에 기초할 수 있다. 예를 들어, 표 8은 slice_pic_order_cnt_msb_cycle_present 및 slice_pic_order_cnt_msb_cycle의 존재가 0과 동일하지 않은 log2_max_pic_order_cnt_msb_cycle을 조건으로 하는 예를 예시한다. 일례에서, log2_max_pic_order_cnt_msb_cycle이 0과 동일하면, slice_pic_order_cnt_msb_cycle_present는 0과 동일하도록 제약되어야 한다.

[표 8]

일례에서 slice_pic_order_cnt_msb_cycle을 시그널링하는 대신에, 신택스 요소 slice_pic_order_msb 값이 시그널링될 수 있다. 신택스 요소 slice_pic_order_msb는 ue(v)로서 또는 u(v)로서 코딩될 수 있다. 이 경우에, log2_max_pic_order_cnt_msb_cycle_minus1 대신에, 신택스 요소 log2_max_pic_order_cnt_msb_minus1이 다음과 같이 시맨틱으로 시그널링될 수 있다:

log2_max_pic_order_cnt_msb_minus1은 픽처 순서 카운트에 대한 디코딩 프로세스에서 사용되는 변수 MaxPicOrderCntMSB의 값을 다음과 같이 지정한다:

MaxPicOrderCntMSB = 2^{(log2_max_pic_order_cnt_minus1 + 1)}

몇몇 예에서, MaxPicOrderCntMSB에 대해 제약이 주어질 수 있다. 또한, 이 경우에, 픽처 순서 카운트에 대한 디코딩 프로세스는 변수 PicOrderCntMSB가 slice_pic_order_msb와 동일하게 설정되도록 수정될 수 있다.

일례에서 slice_pic_order_cnt_msb_cycle은 slice_pic_order_cnt_lsb가 0과 동일할 때 항상 시그널링될 수 있다. 일례에서, 이것은 추가적인 슬라이스 및/또는 파라미터 세트 레벨 플래그(들)에 의해 추가로 제어될 수 있다. 다른 경우들에서, slice_pic_order_cnt_msb_cycle이 시그널링되는지 및 그의 가능한 값들에 대해 제약이 주어질 수 있다. 다른 예에서, slice_pic_order_cnt_msb_cycle은 TId 0 픽처에 대해 항상 시그널링될 수 있다. 일례에서, 다양한 신택스 요소들에 대해 그리고/또는 슬라이스들 및/또는 파라미터 세트들에 걸쳐 제약들이 주어질 수 있다.

일례에서, 시퀀스 파라미터 세트는 신택스 요소 slice_pic_order_cnt가 슬라이스 헤더에 존재하는지를 나타내는 플래그를 포함할 수 있다. slice_pic_order_cnt는 비트들을 MSB 및 LSB로 분리함이 없이 픽처 순서 카운트 값의 값을 지정할 수 있고 다음의 정의에 기초할 수 있다.

slice_pic_order_cnt는 현재 픽처에 대한 픽처 순서 카운트 값을 지정한다. slice_pic_order_cnt의 값은 0 내지 MaxPicOrderCnt(이들 값 포함)의 범위에 있어야 한다.

표 9 및 표 10은 플래그 full_pic_order_cnt_signal_flag가 log2_max_pic_order_cnt_lsb_minus4 및 log2_max_pic_order_cnt_msb_cycle_minus1이 시퀀스 파라미터 세트에 존재하는지 그리고 신택스 요소 slice_pic_order_cnt가 슬라이스 헤더에 존재하는지를 나타내는 예를 예시한다.

[표 9]

[표 10]

표 9 및 표 10에 대하여 예시된 예의 경우에, PicOrderCntVal은 다음과 같이 도출될 수 있다:

if (full_pic_order_cnt_signal_flag)

PicOrderCntVal = slice_pic_order_cnt

else

PicOrderCntVal = PicOrderCntMsb + slice_pic_order_cnt_lsb

표 5 및 표 6에 대하여 예시된 예의 경우에, PicOrderCntVal은 다음과 같이 도출될 수 있다:

현재 픽처가 IRAP 픽처가 아니거나 현재 픽처가 시그널링된 slice_pic_order_cnt_msb_cycle을 갖지 않을 때, 변수 prevPicOrderCntLsb 및 prevPicOrderCntMsb는 다음과 같이 도출된다:

- prevTid0Pic를 0과 동일한 TemporalId를 갖는 디코딩 순서에서의 이전 픽처라고 한다.

현재 픽처의 변수 PicOrderCntMsb는 다음과 같이 도출된다:

- 현재 픽처가 IRAP 픽처인 경우 또는 이 슬라이스에 대한 활성 SPS에 대한 log2_max_pic_order_cnt_msb_cycle이 존재하고 0과 동일한 경우, 변수 PicOrderCntMsb는 0과 동일하게 설정된다.

- 그렇지 않고 현재 픽처의 슬라이스가 시그널링된 slice_pic_order_cnt_msb_cycle을 가지면, 변수 PicOrderCntMsb는 slice_pic_order_cnt_msb_cycle에 PicOrderCntMsb를 곱한 것과 동일하게 설정된다.

- 그렇지 않으면, PicOrderCntMsb는 다음과 같이 도출된다:

if((slice_pic_order_cnt_lsb < prevPicOrderCntLsb) &&

((prevPicOrderCntLsb - slice_pic_order_cnt_lsb)_ >= (MaxPicOrderCntlsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb + MaxPicOrderCntLsb

else if((slice_pic_order_cnt_lsb > prevPicOrderCntLsb) &&

((slice_pic_order_cnt_lsb - prePicOrderCntLsb) > (MaxPicOrderCntLsb/ 2)))

PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal은 다음과 같이 도출된다:

PicOrderCntVal = PicOrderCntMsb + slice_pic_order_cnt_lsb

slice_pic_order_cnt_msb_signing_present가 1과 동일한 경우, PicOrderCntVal의 값은 -2^{(log2_max_pic_order_cnt_lsb_minus4 + log2_max_pic_order_cnt_msb_cycle + 3)} 내지 ^{2(log2_max_pic_order_cnt_lsb_minus4 + log2_max_pic_order_cnt_msb_cycle + 3)} -1(이들 값 포함)의 범위에 있어야 한다.

그렇지 않으면, PicOrderCntVal의 값은 -2³¹ 내지 2³¹ ^{- 1}(이들 값 포함)의 범위에 있어야 한다.

다른 예에서, 코딩된 비디오 시퀀스에서 slice_pic_order_cnt_msb_cycle이 항상 시그널링되면, PicOrderCntVal의 값은 -2 ^{(log2_max_pic_order_cnt_lsb_minus4 + log2_max_pic_order_cnt_msb_cycle + 3)} 내지 2 ^{(log2_max_pic_order_cnt_lsb_minus4 + log2_max_pic_order_cnt_msb_cycle + 3)} - 1(이들 값 포함)의 범위에 있어야 한다.

그렇지 않으면 PicOrderCntVal의 값은 -2 ³¹ 내지 2 ³¹ - 1(이들 값 포함)의 범위에 있어야 한다.

또 다른 예에서, 위의 스테이트먼트들의 그렇지 않으면 부분은 2 ³¹의 값과는 상이한 값을 사용할 수 있다. 예를 들어, 2 ³¹은 위의 그렇지 않으면 부분에서 2 ⁴⁸ 또는 2 ⁶⁴ 또는 2 ¹⁶ 등과 같은 어떤 다른 값으로 대체될 수 있다.

또한, 일례에서, 순간 디코딩 리프레시(IDR) 픽처는 그의 디코딩 프로세스에서 인터 예측을 위해 그 자신 이외의 어떠한 픽처도 참조하지 않고 디코딩 순서에서 코딩된 비디오 시퀀스의 첫 번째 픽처인 IRAP 픽처로서 설명될 수 있다.

전술된 바와 같이, 픽처는 슬라이스들 및/또는 타일들로 분할될 수 있으며, 여기서 슬라이스는 래스터 스캔 순서로 CTU들의 시퀀스를 포함하고 타일은 픽처의 직사각형 영역에 대응하는 CTU들의 시퀀스이다. 전술된 바와 같이, 슬라이스는 하나 이상의 타일을 포함할 수 있다. 또한, CTU들의 동일한 그룹(즉, 픽처의 직사각형 영역을 커버하는 그룹 CTU들)이 슬라이스로서 또는 타일로서 분류될 수 있는 경우들이 존재할 수 있다. "Tiles groups for VVC", 중국 마카오에서 2018년 10월 3일 - 12일에 열린 ISO/IEC JTC1/SC29/WG11의 12차 회의, 문헌 JVET-L0415-v1(이는 본 명세서에서 JVET-L0415로 지칭됨)은 슬라이스들이 정수 개의 완전한 CTU들로 이루어지는 대신에 정수 개의 완전한 타일들로 이루어지도록 요구되는 경우를 기술한다. 그렇기 때문에, JVET-L0415에서, 픽처의 직사각형 영역이 아닌 래스터-스캔 CTU 슬라이스들은 더 이상 지원되지 않고 명칭 슬라이스는 타일 그룹으로 변경된다. JVET-L0415는 슬라이스 헤더의 구조를 유지하지만, 그것을 타일 그룹 헤더로 지칭하고, 슬라이스 어드레스를 타일 그룹 헤더 내의 타일 그룹 어드레스로 대체하고, 타일 그룹 내의 타일들의 수를 지정하는 신택스 요소 num_tiles_in_tile_group을 추가하고, end_of_slice_flag 신택스 요소를 제거하며, 대신에 타일 그룹의 끝은 타일 그룹 어드레스 및 num_tiles_in_tile_group에 의해 주어진다. 본 명세서에 기술된 기법들이 슬라이스들에 대하여 전술되었지만, 본 명세서에 기술된 기법들은 슬라이스가 정수 개의 완전한 타일들로 이루어지도록 제한되는 경우들에 적용 가능하다. 즉, 픽처 순서 카운트 값을 나타내기 위한 본 명세서에 기술된 기법들은 슬라이스가 타일 그룹들을 포함하는 기법들에 통합될 수 있다.

예를 들어, 표 11 및 표 12는 본 명세서에서의 기법들에 따른 픽처 순서 카운트 값을 나타내는 타일 그룹 헤더 신택스의 예들을 예시한다.

[표 11]

[표 12]

표 11 및 표 12에 대하여, 다양한 신택스 요소들의 시맨틱은 다음과 같을 수 있다:

존재할 때, 타일 그룹 헤더 신택스 요소 tile_group_pic_parameter_set_id의 값은 코딩된 픽처의 모든 타일 그룹 헤더들에서 동일해야 한다.

tile_group_pic_parameter_set_id는 사용 중인 PPS에 대한 pps_pic_parameter_set_id의 값을 지정한다. tile_group_pic_parameter_set_id의 값은 0 내지 63(이들 값 포함)의 범위에 있어야 한다.

tile_group_pic_order_cnt_lsb는 현재 픽처에 대한 픽처 순서 카운트 모듈로 MaxPicOrderCntLsb를 지정한다. tile_group_pic_order_cnt_lsb 신택스 요소의 길이는 log2_max_pic_order_cnt_lsb_minus4 + 4 비트이다. tile_group_pic_order_cnt_lsb의 값은 0 내지 MaxPicOrderCntLsb -1(이들 값 포함)의 범위에 있어야 한다.

다른 예에서:

tile_group_pic_order_cnt_lsb는 이 타일 그룹이 속하는 픽처에 대한 픽처 순서 카운트 모듈로 MaxPicOrderCntLsb를 지정한다. tile_group_pic_order_cnt_lsb 신택스 요소의 길이는 log2_max_pic_order_cnt_lsb_minus4 + 4 비트이다. tile_group_pic_order_cnt_lsb의 값은 0 내지 MaxPicOrderCntLsb - 1(이들 값 포함)의 범위에 있어야 한다.

다른 예에서, tile_group_pic_order_cntl_lsb 신택스 요소는 어떤 다른 명칭으로 지칭될 수 있다. 예를 들어 tile_group_pic_order_cntl_lsb는 pic_order_cnt_lsb로 지칭될 수 있다. 또는 tile_group_pic_order_cnt_lsb는 tile_set_pic_order_cnt_lsb로 지칭될 수 있다. 또는 어떤 다른 명칭이 tile_group_pic_order_cntl_lsb에 대해 사용될 수 있다.

tile_group_address는 타일 그룹 내의 첫 번째 타일의 타일 어드레스를 지정한다. tile_group_address의 길이는 Ceil(Log2(NumTilesInPic)) 비트이다. tile_group_address의 값은 0 내지 NumTilesInPic-1(이들 값 포함)의 범위에 있어야 하고, tile_group_address의 값은 동일한 코딩된 픽처의 임의의 다른 코딩된 타일 그룹 NAL 유닛의 tile_group_address의 값과 동일하지 않아야 한다. tile_group_address가 존재하지 않을 때, 그것은 0과 동일한 것으로 추론된다.

num_tiles_in_tile_group_minus1 + 1은 타일 그룹 내의 타일들의 수를 지정한다. num_tiles_in_the_group_minus1의 값은 0 내지 NumTilesInPic-1(이들 값 포함)의 범위에 있어야 한다. 존재하지 않을 때, num_tiles_in_tile_group_minus1의 값은 0과 동일한 것으로 추론된다.

tile_group_type은 표 13에 따라 타일 그룹의 코딩 타입을 지정한다.

[표 13]

nal_unit_type이 IRAP_NUT와 동일할 때, 즉 픽처가 IRAP 픽처일 때, tile_group_type은 2와 동일해야 한다.

log2_diff_ctu_max_bt_size가 존재하지 않을 때, log2_diff_ctu_max_bt_size의 값은 2와 동일한 것으로 추론된다.

변수 MinQtLog2SizeY, MaxBtLog2SizeY, MinBtLog2SizeY, MaxTtLog2SizeY, MinTtLog2SizeY, MaxBtSizeY, MinBtSizeY, MaxTtSizeY, MinTtSizeY 및 MaxMttDepth는 다음과 같이 도출된다:

MinQtLog2SizeY = (tile_group_type == I) ?

MinQtLog2SizeIntraY : MinQtLog2SizeInterY

MaxBtLog2SizeY = CtbLog2SizeY - log2_diff_ctu_max_bt_size

MinBtLog2SizeY =MinCbLog2SizeY

MaxTtLog2SizeY = (tile_group_type == I) ?

5:6

MinTtLog2SizeY = MinCbLog2SizeY

MinQtSizeY = 1 << MinQtLog2SizeY

MaxBtSizeY = 1 << MaxBtLog2SizeY

MinBtSizeY = 1 << MinBtLog2SizeY

MaxTtSizeY = 1 << MaxTtLog2SizeY

MinTtSizeY = 1 << MinTtLog2SizeY

MaxMttDepth = (tile_group_type = = I)?

max_mtt_hierachy_depth_intra_tile_groups:

max_mtt_hierarchy_depth_inter_tile_groups

1과 동일한 sbtmvp_size_override_flag는 현재의 타일 그룹에 대해 신택스 요소 log2_sbtmvp_active_size_minus2가 존재함을 지정한다. 0과 동일한 sbtmvp_size_override_flag는 신택스 요소 log2_atmvp_active_size_minus2가 존재하지 않고 log2_sbtmvp_size_active_minus2가 log2_sbtmvp_default_size_minus2와 동일한 것으로 추론되는 것을 지정한다.

log2_sbtmvp_active_size_minus2 + 2는 현재 타일 그룹의 서브블록 기반 TMVP에 대한 모션 파라미터들을 도출하기 위해 사용되는 서브블록 크기의 값을 지정한다. log2_sbtmvp_active_size_minus2가 존재하지 않을 때, 그것은 log2_sbtmvp_default_size_minus2와 동일한 것으로 추론된다. 변수는 다음과 같이 도출된다:

log2sbtmvpSize = log2_sbtmvp_size_active_minus2 + 2

tile_group_temporal_mvp_enabled_flag는 시간 모션 벡터 예측자들이 인터 예측에 사용될 수 있는지를 지정한다. tile_group_temporal_mvp_enabled_flag가 0과 동일한 경우, 현재 픽처의 신택스 요소들은 어떠한 시간 모션 벡터 예측자도 현재 픽처의 디코딩에 사용되지 않도록 제약되어야 한다. 그렇지 않으면(tile_group_temporal_mvp_enabled_flag가 1과 동일), 시간 모션 벡터 예측자들이 현재 픽처의 디코딩에 사용될 수 있다. 존재하지 않을 때, tile_group_temporal_mvp_enabled_flag의 값은 0과 동일한 것으로 추론된다.

1과 동일한 mvd_11_zero_flag는 mvd_coding(x0, y0, 1) 신택스 구조가 파싱되지 않고 compIdx = 0..1에 대해 MvdL1[x0][y0][compIdx]가 0과 동일하게 설정된다는 것을 나타낸다. 0과 동일한 mvd_11_zero_flag는 mvd_coding(x0, y0, 1) 신택스 구조가 파싱된다는 것을 나타낸다.

1과 동일한 collocated_from_10_flag는 시간 모션 벡터 예측에 사용되는 병치된 픽처가 참조 픽처 리스트 0으로부터 도출된다는 것을 지정한다. 0과 동일한 collocated_from_10_flag는 시간 모션 벡터 예측에 사용되는 병치된 픽처가 참조 픽처 리스트 1로부터 도출된다는 것을 지정한다. collocated_from_10_flag가 존재하지 않을 때, 그것은 1과 동일한 것으로 추론된다.

six_minus_max_num_merge_cand는 6으로부터 감산된 타일 그룹에서 지원되는 병합 모션 벡터 예측(MVP) 후보들의 최대 수를 지정한다. 병합 MVP 후보들의 최대 수, MaxNumMergeCand는 다음과 같이 도출된다:

MaxNumMergeCand = 6 - six_minus_max_num_merge_cand

MaxNumMergeCand의 값은 1 내지 6(이들 값 포함)의 범위에 있어야 한다.

0과 동일한 dep_quart_enabled_flag는 종속 양자화가 디스에이블된다는 것을 지정한다. 1과 동일한 dep_quart_enabled_flag는 종속 양자화가 인에이블된다는 것을 지정한다.

0과 동일한 sign_data_hiding_enabled_flag는 부호 비트 숨김이 디스에이블된다는 것을 지정한다. 1과 동일한 sign_data_hiding_enabled_flag는 부호 비트 숨김이 인에이블된다는 것을 지정한다. sign_data_hiding_enabled_flag가 존재하지 않을 때, 그것은 0과 동일한 것으로 추론된다.

offset_len_minus1 + 1은 entry_point_offset_minus1[i] 신택스 요소들의 비트 단위의 길이를 지정한다. offset_len_minus1의 값은 0 내지 31(이들 값 포함)의 범위에 있어야 한다.

entry_point_offset_minus1[i] + 1은 바이트 단위의 i번째 엔트리 포인트 오프셋을 지정하고, offset_len_minus1 + 1 비트에 의해 표현된다. 타일 그룹 헤더를 따르는 타일 그룹 데이터는 num_tiles_in_tile_group_minus1+1개의 서브세트로 이루어지며, 서브세트 인덱스 값들은 0 내지 num_tiles_in_tile_group_minus1(이들 값 포함)의 범위이다. 타일 그룹 데이터의 첫 번째 바이트는 바이트 0으로 간주된다. 존재할 때, 코딩된 타일 그룹 NAL 유닛의 타일 그룹 데이터 부분에 나타나는 에뮬레이션 방지 바이트들은 서브세트 식별의 목적을 위해 타일 그룹 데이터의 일부로서 카운트된다. 서브세트 0은 코딩된 타일 그룹 데이터의 바이트 0 내지 entry_point_offset_minus1[0](이들 값 포함)으로 이루어지며, 서브세트 k - k는 1 내지 num_tiles_in_tile_group_minus1-1(이들 값 포함)의 범위임 - 는 다음과 같이 정의된 firstByte[k] 및 lastByte[k]를 갖는 코딩된 타일 그룹 데이터의 바이트 firstByte[k] 내지 lastByte[k](이들 값 포함)로 이루어진다:

마지막 서브세트(num_tiles_in_tile_group_minus1과 동일한 서브세트 인덱스를 가짐)는 코딩된 타일 그룹 데이터의 나머지 바이트들로 이루어진다.

각각의 서브세트는 동일한 타일 내에 있는 타일 그룹 내의 모든 CTU들의 모든 코딩된 비트들로 이루어져야 한다.

표 11 및 표 12에 대하여 예시된 예의 경우에, PicOrderCntVal은 다음과 같이 도출될 수 있다:

이 프로세스의 출력은 현재 픽처의 픽처 순서 카운트인 PicOrderCntVal이다. 각각의 코딩된 픽처는 PicOrderCntVal로 표시된 픽처 순서 카운트 변수와 연관된다.

다른 예에서:

각각의 타일 그룹은 PicOrderCntVal로 표시된 픽처 순서 카운트 변수와 연관된다.

다른 예에서:

코딩된 픽처의 각각의 타일 그룹은 PicOrderCntVal로 표시된 픽처 순서 카운트 변수와 연관된다.

현재 픽처가 IRAP 픽처가 아닐 때, 변수 prePicOrderCntLsb 및 prevPicOrderCntMsb는 다음과 같이 도출된다:

- 변수 prevPicOrderCntLsb는 prevTid0Pic의 tile_group_pic_order_cnt_lsb와 동일하게 설정된다.

현재 픽처의 변수 PicOrderCntMsb는 다음과 같이 도출된다:

- 현재 픽처가 IRAP 픽처인 경우, PicOrderCntMsb는 0과 동일하게 설정된다.

- 그렇지 않으면, PicOrderCntMsb는 다음과 같이 도출된다:

if((tile_group_pic_order_cnt_lsb < prevPicOrderCntLsb) && ((prevPicOrderCntLsb - tile_group_pic_order_cnt_lsb) >= (MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb + MaxPicOrderCntLsb

else if((tile_group_pic_order_cnt_lsb > prevPicOrderCntLsb) && ((tile_group_pic_order_cnt_lsb - prevPicOrderCntLsb) > (MaxPicOrderCntLsb / 2)))

PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal은 다음과 같이 도출된다:

PicOrderCntVal = PicOrderCntMsb + tile_group_pic_order_cnt_lsb

PicOrderCntVal의 값은 -2³¹ 내지 2 ³¹ - 1(이들 값 포함)의 범위에 있어야 한다.

하나의 CVS에서, 임의의 2개의 코딩된 픽처에 대한 PicOrderCntVal 값들은 동일하지 않아야 한다.

함수 PicOrderCnt(picX)는 다음과 같이 지정된다:

PicOrderCnt(picX) = 픽처 picX의 PicOrderCntVal

함수 DiffPicOrderCnt(picA, picB)는 다음과 같이 지정된다:

DiffPicOrderCnt(picA, picB) = PicOrderCnt(picA) - PicOrderCnt(picB)

비트스트림은 -2¹⁵ 내지 2-¹⁵ - 1(이들 값 포함)의 범위에 없는, 디코딩 프로세스에서 사용되는 DiffPicOrderCnt(picA, picB)의 값들을 야기하는 데이터를 포함하지 않아야 한다.

주 2 - X가 현재 픽처이고 Y 및 Z가 동일한 CVS 내의 2개의 다른 픽처인 것으로 하면, Y 및 Z는 DiffPicOrderCnt(X, Y) 및 DiffPicOrderCnt(X, Z) 둘 모두가 양이거나 둘 모두가 음일 때 X와 동일한 출력 순서 방향에 있는 것으로 간주된다.

이러한 방식으로, 소스 디바이스(102)는 픽처 순서 카운트 최상위 비트 사이클 값을 결정하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 시그널링하고, 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 시그널링하도록 구성된 디바이스의 예를 나타낸다.

다시 도 1을 참조하면, 인터페이스(108)는 데이터 캡슐화기(107)에 의해 생성된 데이터를 수신하고 데이터를 통신 매체에 송신 및/또는 저장하도록 구성된 임의의 디바이스를 포함할 수 있다. 인터페이스(108)는 이더넷 카드와 같은 네트워크 인터페이스 카드를 포함할 수 있고, 광학 송수신기, 무선 주파수 송수신기, 또는 정보를 전송 및/또는 수신할 수 있는 임의의 다른 타입의 디바이스를 포함할 수 있다. 또한, 인터페이스(108)는 파일이 저장 디바이스에 저장되는 것을 가능하게 할 수 있는 컴퓨터 시스템 인터페이스를 포함할 수 있다. 예를 들어, 인터페이스(108)는 PCI(Peripheral Component Interconnect) 및 PCIe(Peripheral Component Interconnect Express) 버스 프로토콜, 독점적인 버스 프로토콜, USB(Universal Serial Bus) 프로토콜, I²C, 또는 피어(peer) 디바이스들을 상호 접속시키는 데 사용될 수 있는 임의의 다른 논리적 및 물리적 구조를 지원하는 칩셋을 포함할 수 있다.

다시 도 1을 참조하면, 목적지 디바이스(120)는 인터페이스(122), 데이터 탈캡슐화기(123), 비디오 디코더(124), 및 디스플레이(126)를 포함한다. 인터페이스(122)는 통신 매체로부터 데이터를 수신하도록 구성된 임의의 디바이스를 포함할 수 있다. 인터페이스(122)는 이더넷 카드와 같은 네트워크 인터페이스 카드를 포함할 수 있고, 광학 송수신기, 무선 주파수 송수신기, 또는 정보를 수신 및/또는 전송할 수 있는 임의의 다른 타입의 디바이스를 포함할 수 있다. 또한, 인터페이스(122)는 컴플라이언트 비디오 비트스트림이 저장 디바이스로부터 검색되는 것을 가능하게 하는 컴퓨터 시스템 인터페이스를 포함할 수 있다. 예를 들어, 인터페이스(122)는 PCI 및 PCIe 버스 프로토콜, 독점적인 버스 프로토콜, USB 프로토콜, I²C, 또는 피어 디바이스들을 상호 접속시키는 데 사용될 수 있는 임의의 다른 논리적 및 물리적 구조를 지원하는 칩셋을 포함할 수 있다. 데이터 탈캡슐화기(123)는 본 명세서에 기술된 예시적인 파라미터 세트들 중 임의의 것을 수신하고 파싱하도록 구성될 수 있다.

비디오 디코더(124)는 비트스트림(예를 들어, MCTS 서브-비트스트림 추출) 및/또는 그의 수용 가능한 변형들을 수신하고 그로부터 비디오 데이터를 재생하도록 구성된 임의의 디바이스를 포함할 수 있다.

디스플레이(126)는 비디오 데이터를 디스플레이하도록 구성된 임의의 디바이스를 포함할 수 있다. 디스플레이(126)는 액정 디스플레이(LCD), 플라즈마 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 또는 다른 타입의 디스플레이와 같은 다양한 디스플레이 디바이스들 중 하나를 포함할 수 있다. 디스플레이(126)는 고화질 디스플레이 또는 초고화질 디스플레이를 포함할 수 있다. 도 1에 예시된 예에서, 비디오 디코더(124)가 디스플레이(126)에 데이터를 출력하는 것으로 기술되지만, 비디오 디코더(124)는 비디오 데이터를 다양한 타입의 디바이스들 및/또는 그의 서브-컴포넌트들에 출력하도록 구성될 수 있다는 것에 유의해야 한다. 예를 들어, 비디오 디코더(124)는, 본 명세서에 기술된 바와 같이, 비디오 데이터를 임의의 통신 매체에 출력하도록 구성될 수 있다.

도 6은 본 개시의 하나 이상의 기법들에 따라 비디오 데이터를 디코딩하도록 구성될 수 있는 비디오 디코더의 예를 예시하는 블록도이다. 일례에서, 비디오 디코더(600)는 변환 데이터를 디코딩하고 디코딩된 변환 데이터에 기초하여 변환 계수들로부터 잔차 데이터를 재구성하도록 구성될 수 있다. 비디오 디코더(600)는 인트라 예측 디코딩 및 인터 예측 디코딩을 수행하도록 구성될 수 있고, 그렇기 때문에 하이브리드 디코더로 지칭될 수 있다. 비디오 디코더(600)는 표 1 내지 표 10에서 전술된 신택스 요소들의 임의의 조합을 파싱하도록 구성될 수 있다. 비디오 디코더(600)는 파싱된 신택스 요소들의 값들에 기초하여 비디오 디코딩을 수행할 수 있다. 예를 들어, 픽처가 특정 타입의 것인지에 기초하여 상이한 비디오 디코딩 기법들이 수행될 수 있다.

도 6에 예시된 예에서, 비디오 디코더(600)는 엔트로피 디코딩 유닛(602), 역양자화 유닛 및 변환 계수 처리 유닛(604), 인트라 예측 처리 유닛(606), 인터 예측 처리 유닛(608), 합산기(610), 포스트 필터 유닛(612), 및 기준 버퍼(614)를 포함한다. 비디오 디코더(600)는 비디오 코딩 시스템과 일치하는 방식으로 비디오 데이터를 디코딩하도록 구성될 수 있다. 예시적인 비디오 디코더(600)가 별개의 기능 블록들을 갖는 것으로 예시되지만, 그러한 예시는 설명의 목적을 위한 것이고 비디오 디코더(600) 및/또는 그의 서브-컴포넌트들을 특정 하드웨어 또는 소프트웨어 아키텍처로 제한하지 않는다는 것에 유의해야 한다. 비디오 디코더(600)의 기능들은 하드웨어, 펌웨어, 및/또는 소프트웨어 구현들의 임의의 조합을 이용하여 실현될 수 있다.

도 6에 예시된 바와 같이, 엔트로피 디코딩 유닛(602)은 엔트로피 인코딩된 비트스트림을 수신한다. 엔트로피 디코딩 유닛(602)은 엔트로피 인코딩 프로세스에 상반되는 프로세스에 따라 비트스트림으로부터 신택스 요소들 및 양자화된 계수들을 디코딩하도록 구성될 수 있다. 엔트로피 디코딩 유닛(602)은 전술된 엔트로피 코딩 기법들 중 임의의 것에 따라 엔트로피 디코딩을 수행하도록 구성될 수 있다. 엔트로피 디코딩 유닛(602)은 비디오 코딩 표준과 일치하는 방식으로 인코딩된 비트스트림 내의 신택스 요소들에 대한 값들을 결정할 수 있다. 도 6에 예시된 바와 같이, 엔트로피 디코딩 유닛(602)은 비트스트림으로부터 양자화 파라미터, 양자화된 계수 값들, 변환 데이터, 및 서술 데이터를 결정할 수 있다. 도 6에 예시된 예에서, 역양자화 유닛 및 변환 계수 처리 유닛(604)은 엔트로피 디코딩 유닛(602)으로부터 양자화 파라미터, 양자화된 계수 값들, 변환 데이터 및 서술 데이터를 수신하고 재구성된 잔차 데이터를 출력한다.

다시 도 6을 참조하면, 재구성된 잔차 데이터는 합산기(610)에 제공될 수 있다. 합산기(610)는 재구성된 잔차 데이터를 예측 비디오 블록에 추가하고 재구성된 비디오 데이터를 생성할 수 있다. 예측 비디오 블록은 예측 비디오 기법(즉, 인트라 예측 및 인터 프레임 예측)에 따라 결정될 수 있다. 인트라 예측 처리 유닛(606)은 인트라 예측 신택스 요소들을 수신하고 기준 버퍼(614)로부터 예측 비디오 블록을 검색하도록 구성될 수 있다. 기준 버퍼(614)는 비디오 데이터의 하나 이상의 프레임을 저장하도록 구성된 메모리 디바이스를 포함할 수 있다. 인트라 예측 신택스 요소들은 전술된 인트라 예측 모드들과 같은 인트라 예측 모드를 식별할 수 있다. 인터 예측 처리 유닛(608)은 인터 예측 신택스 요소들을 수신하고 모션 벡터들을 생성하여 기준 버퍼(616)에 저장된 하나 이상의 기준 프레임들 내의 예측 블록을 식별할 수 있다. 인터 예측 처리 유닛(608)은 모션 보상된 블록들을 생성하여, 가능하게는 보간 필터들에 기초하여 보간을 수행할 수 있다. 서브-픽셀 정밀도로 모션 추정에 사용될 보간 필터들에 대한 식별자들이 신택스 요소들에 포함될 수 있다. 인터 예측 처리 유닛(608)은 보간 필터들을 사용하여 기준 블록의 서브-정수 픽셀들에 대한 보간된 값들을 계산할 수 있다. 포스트 필터 유닛(614)은 재구성된 비디오 데이터에 대해 필터링을 수행하도록 구성될 수 있다. 예를 들어, 포스트 필터 유닛(614)은 예를 들어 비트스트림에서 지정된 파라미터들에 기초하여 디블로킹 및/또는 SAO(Sample Adaptive Offset) 필터링을 수행하도록 구성될 수 있다. 또한, 몇몇 예에서, 포스트 필터 유닛(614)은 독점적 재량 필터링(예를 들어, 모스키토 잡음 감소와 같은 시각적 향상들)을 수행하도록 구성될 수 있다는 점에 유의해야 한다. 도 6에 예시된 바와 같이, 재구성된 비디오 블록은 비디오 디코더(600)에 의해 출력될 수 있다. 이러한 방식으로, 비디오 디코더(600)는 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스의 존재를 나타내는 파라미터 세트 내의 플래그를 파싱하고, 파라미터 세트 내의 플래그의 값에 기초하여 픽처 순서 카운트 최상위 비트 사이클 값을 나타내는 슬라이스 헤더 내의 신택스 요소들에 대한 값들을 조건부로 파싱하고, 픽처 순서 카운트 최상위 비트 사이클 값을 결정하도록 구성된 디바이스의 예를 나타낸다.

하나 이상의 예들에서, 기술된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 기능들은 컴퓨터 판독 가능 매체에 하나 이상의 명령어 또는 코드로서 저장되거나 송신되고 하드웨어 기반 처리 유닛에 의해 실행될 수 있다. 컴퓨터 판독 가능 매체는 데이터 저장 매체와 같은 유형의 매체에 대응하는 컴퓨터 판독 가능 저장 매체, 또는 예컨대 통신 프로토콜에 따라 하나의 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함한 통신 매체를 포함할 수 있다. 이러한 방식으로, 컴퓨터 판독 가능 매체는 일반적으로 (1) 비일시적인 유형의 컴퓨터 판독 가능 저장 매체 또는 (2) 신호 또는 반송파와 같은 통신 매체에 대응할 수 있다. 데이터 저장 매체는 본 개시에 기술된 기법들의 구현을 위한 명령어들, 코드 및/또는 데이터 구조들을 검색하기 위해 하나 이상의 컴퓨터 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 컴퓨터 프로그램 제품이 컴퓨터 판독 가능 매체를 포함할 수 있다.

제한이 아닌 예로서, 그러한 컴퓨터 판독 가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 저장소, 자기 디스크 저장소, 또는 다른 자기 저장 디바이스, 플래시 메모리, 또는 명령어들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독 가능 매체로 적절히 지칭된다. 예를 들어, 명령어들이 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL(digital subscriber line), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술을 이용하여 웹사이트, 서버 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들이 매체의 정의에 포함된다. 그러나, 컴퓨터 판독 가능 저장 매체 및 데이터 저장 매체는 접속, 반송파, 신호, 또는 다른 일시적 매체를 포함하는 것이 아니라, 대신에 비일시적인 유형의 저장 매체에 관한 것이라는 것을 이해해야 한다. 본 명세서에서 사용되는 바와 같은 디스크(disk) 및 디스크(disc)는 콤팩트 디스크(compact disc, CD), 레이저 디스크(laser disc), 광 디스크(optical disc), 디지털 다기능 디스크(digital versatile disc, DVD), 플로피 디스크(floppy disk) 및 블루레이 디스크(Blu-ray disc)를 포함하며, 여기서 디스크(disk)는 통상적으로 자기적으로 데이터를 재생하는 반면, 디스크(disc)는 레이저로 광학적으로 데이터를 재생한다. 상기의 것들의 조합이 또한 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.

명령어들은 하나 이상의 DSP(digital signal processor), 범용 마이크로프로세서, ASIC(application specific integrated circuit), FPGA(field programmable logic array), 또는 다른 동등한 집적 또는 개별 로직 회로망과 같은 하나 이상의 프로세서에 의해 실행될 수 있다. 따라서, 본 명세서에서 사용된 바와 같은 용어 "프로세서"는 본 명세서에 기술된 기법의 구현에 적합한 전술한 구조 또는 임의의 다른 구조 중 임의의 것을 지칭할 수 있다. 또한, 몇몇 태양에서, 본 명세서에 기술된 기능은 인코딩 및 디코딩을 위해 구성되거나 조합된 코덱에 포함된 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수 있다. 또한, 기법들은 하나 이상의 회로 또는 로직 요소로 완전히 구현될 수 있다.

본 개시의 기법들은 무선 핸드셋, 집적 회로(IC) 또는 IC들의 세트(예컨대, 칩셋)를 포함한 매우 다양한 디바이스들 또는 장치들로 구현될 수 있다. 다양한 컴포넌트, 모듈, 또는 유닛이 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 태양들을 강조하기 위해 본 개시에서 설명되지만, 반드시 상이한 하드웨어 유닛들에 의한 실현을 요구하는 것은 아니다. 오히려, 위에 설명된 바와 같이, 다양한 유닛들이 코덱 하드웨어 유닛에서 조합되거나, 적합한 소프트웨어 및/또는 펌웨어와 관련하여, 위에 설명된 바와 같은 하나 이상의 프로세서를 포함한 상호 작용적 하드웨어 유닛들의 집합에 의해 제공될 수 있다.

더욱이, 전술한 실시예들 각각에서 사용되는 기지국 디바이스 및 단말기 디바이스의 각각의 기능 블록 또는 다양한 특징부는, 전형적으로 집적 회로 또는 복수의 집적 회로인 회로망에 의해 구현되거나 실행될 수 있다. 본 명세서에 기술된 기능들을 실행하도록 설계된 회로망은 범용 프로세서, DSP(digital signal processor), ASIC(application specific or general application integrated circuit), FPGA(field programmable gate array), 또는 다른 프로그래밍가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 또는 이산 하드웨어 컴포넌트, 또는 이들의 조합을 포함할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 대안적으로, 프로세서는 종래의 프로세서, 컨트롤러, 마이크로컨트롤러 또는 상태 머신일 수 있다. 전술된 범용 프로세서 또는 각각의 회로는 디지털 회로에 의해 구성될 수 있거나 아날로그 회로에 의해 구성될 수 있다. 또한, 반도체 기술의 발전으로 인해 현재의 집적 회로들을 대체하는 집적 회로로 제조하는 기술이 나타날 때, 이러한 기술에 의한 집적 회로가 또한 사용될 수 있다.

다양한 예들이 기술되었다. 이들 및 다른 예들은 다음의 청구범위의 범위 내에 있다.

<상호 참조>

본 정규 출원은 2018년 7월 1일자의 가출원 제62/692,839호, 2018년 9월 28일자의 가출원 제62/739,059호, 2018년 10월 29일자의 가출원 제62/752,226호에 대해 35 U.S.C. § 119하의 우선권을 주장하며, 이들 출원의 전체 내용은 이에 의해 참고로 포함된다.

Claims

픽처 카운트 정보를 시그널링하는 방법으로서,
픽처 순서 카운트 최상위 비트 사이클 요소가 존재하는지를 나타내는 픽처 순서 카운트 최상위 비트 존재 플래그를 전송하는 단계; 및
상기 픽처 순서 카운트 최상위 비트 존재 플래그의 값이 1과 동일한 경우 픽처 순서 카운트 최상위 비트 사이클의 값을 지정하는 상기 픽처 순서 카운트 최상위 비트 사이클 요소를 전송하는 단계를 포함하며,
상기 픽처 순서 카운트 최상위 비트 사이클 요소의 최대값은 최대 픽처 순서 카운트 최하위 비트 - 4 요소를 사용하여 설정되는, 방법.
비디오 데이터를 디코딩하는 방법으로서,
픽처 순서 카운트 최상위 비트 사이클 요소가 존재하는지를 나타내는 픽처 순서 카운트 최상위 비트 존재 플래그를 디코딩하는 단계; 및
상기 픽처 순서 카운트 최상위 비트 존재 플래그의 값이 1과 동일한 경우 픽처 순서 카운트 최상위 비트 사이클의 값을 지정하는 상기 픽처 순서 카운트 최상위 비트 사이클 요소를 디코딩하는 단계를 포함하며,
상기 픽처 순서 카운트 최상위 비트 사이클 요소의 최대값은 최대 픽처 순서 카운트 최하위 비트 - 4 요소를 사용하여 설정되는, 방법.
제1항 또는 제2항의 단계들의 임의의 그리고 모든 조합들을 수행하도록 구성된 하나 이상의 프로세서들을 포함하는, 디바이스.
제3항에 있어서, 상기 디바이스는 비디오 인코더를 포함하는, 디바이스.
제3항에 있어서, 상기 디바이스는 비디오 디코더를 포함하는, 디바이스.
제1항 또는 제2항의 단계들의 임의의 그리고 모든 조합들을 수행하기 위한 수단을 포함하는, 장치.
명령어들이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어들은, 실행될 때, 디바이스의 하나 이상의 프로세서들로 하여금 제1항 또는 제2항의 단계들의 임의의 그리고 모든 조합들을 수행하게 하는, 비일시적 컴퓨터 판독 가능 저장 매체.