KR20220063273A

KR20220063273A - 다층 비디오 비트스트림에 대한 dpb 파라미터의 시그널링 기법

Info

Publication number: KR20220063273A
Application number: KR1020227013649A
Authority: KR
Inventors: 예-쿠이 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2019-09-24
Filing date: 2020-09-17
Publication date: 2022-05-17
Also published as: KR20220063271A; JP7388612B2; CN114586368A; BR112022005265A2; EP4022927A4; WO2021061490A1; EP4022927A1; JP2022549004A; EP4022928A1; CN114586368B; CN114424572B; US20220217330A1; EP4022928A4; CN114424572A; JP7323099B2; WO2021061489A1; AU2020354925A1; JP2022549651A; AU2020352913A1; US11849134B2

Abstract

디코딩 방법이 제공된다. 이 방법은, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 포함하는 비디오 비트스트림을 수신하는 단계와, 복수의 층 중 하나로부터의 픽처를 디코딩하여 디코딩된 픽처를 획득하는 단계를 포함한다. 대응하는 인코딩 방법도 제공된다.

Description

다층 비디오 비트스트림에 대한 DPB 파라미터의 시그널링 기법

관련 출원에 대한 상호 참조

본 특허 출원은 Ye-Kui Wang에 의해 2019년 9월 24일에 "다층 비디오 비트스트림에 대한 DPB 크기의 시그널링 기법"이라는 제목으로 출원된 미국 가출원 번호 제62/905,139호를 우선권으로 주장하며, 이는 본 명세서에서 참조로 포함된다.

일반적으로, 본 개시는 비디오 코딩에서 다층 비디오 비트스트림에 대한 기술을 설명한다. 보다 구체적으로, 본 개시는 비디오 코딩에서 다층 비트스트림에서 디코딩된 픽처 버퍼(DPB) 파라미터를 시그널링하기 위한 기술을 설명한다.

비교적 짧은 비디오라도 이를 묘사하는 데 필요한 비디오 데이터의 양은 상당할 수 있으며, 이는 데이터가 스트리밍되거나, 또는 제한된 대역폭 용량으로 통신 네트워크를 통해 통신될 때 어려움을 초래할 수 있다. 따라서, 비디오 데이터는 일반적으로 현대의 통신 네트워크를 통해 통신되기 전에 압축된다. 메모리 리소스가 제한될 수 있기 때문에 비디오가 저장 장치에 저장될 때 비디오의 크기도 문제가 될 수 있다. 비디오 압축 장치는 종종 전송 또는 저장 전에 비디오 데이터를 코딩하기 위해 소스에서 소프트웨어 및/또는 하드웨어를 사용하여, 디지털 비디오 이미지를 나타내는 데 필요한 데이터의 양을 줄인다. 압축된 데이터는 비디오 데이터를 디코딩하는 비디오 압축해제 장치에 의해 목적지에서 수신된다. 네트워크 리소스가 제한되어 있고 더 높은 비디오 품질에 대한 요구가 계속 증가함에 따라, 이미지 품질을 거의 또는 전혀 희생하지 않으면서 압축 비율을 개선하는 개선된 압축 및 압축해제 기술이 바람직하다.

제1 양태는 비디오 디코더에 의해 구현된 디코딩 방법에 관한 것으로, 이 방법은, 비디오 디코더에 의해, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 포함하는 비디오 비트스트림을 수신하는 단계와, 비디오 디코더에 의해, 복수의 층 중 하나로부터의 픽처를 디코딩하여 디코딩된 픽처를 획득하는 단계를 포함한다.

방법은 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 디코딩 전에 하나 이상의 층 중 하나로부터 출력 층을 선택하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 출력 층이 선택된 후에 출력 층으로부터 픽처를 선택하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터들의 세트가 제1 DPB 크기 및 제2 DPB 크기를 포함하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 제1 DPB 크기가 하나 이상의 층으로부터의 출력 층에 대응하고 제2 DPB 크기가 하나 이상의 층으로부터의 비출력 층에 대응하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은, SPS가 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 한번만 레벨 정보를 포함한다는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터 세트에 포함된 제1 DPB 크기로부터 제2 DPB 크기를 추론하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 복수의 층으로부터의 하나 이상의 층 중 하나가 하나 이상의 하위층을 포함하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 전자 장치의 디스플레이 상에 디코딩된 픽처를 디스플레이하는 것을 제공한다.

제2 양태는 비디오 인코더에 의해 구현되는 인코딩 방법에 관한 것으로, 이 방법은 비디오 인코더에 의해, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 생성하는 단계와, 비디오 인코더에 의해, 복수의 층, VPS 및 SPS를 비디오 비트스트림으로 인코딩하는 단계와, 비디오 인코더에 의해, 비디오 디코더를 향한 통신을 위해 비디오 비트스트림을 저장하는 단계를 포함한다.

방법은, 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 하나 이상의 층 중 하나를 출력 층으로 지정하고 하나 이상의 층 중 다른 하나를 비출력 층으로 지정하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은, 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함되었을 때 SPS가 하나 이상의 층 각각에 대한 레벨 정보를 한 번만 포함하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터들 세트가 단일 DPB 크기를 포함하는 것을 제공한다.

제3 양태는 디코딩 장치에 관한 것으로, 이 디코딩 장치는, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 포함하는 비디오 비트스트림을 수신하도록 구성된 수신기와, 수신기에 결합되고 명령어를 저장하는 메모리와, 메모리에 결합된 프로세서를 포함하되, 이 프로세서는 명령어를 실행하여, 디코딩 장치로 하여금 복수의 층 중 하나로부터의 픽처를 디코딩하여 디코딩된 픽처를 획득하게 하도록 구성된다.

디코딩 장치는 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은, 프로세서가 디코딩 전에 하나 이상의 층 중 하나로부터 출력 층을 선택하고, 출력 층이 선택된 후에 출력 층으로부터 픽처를 선택하도록 더 구성되는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터의 세트가 제1 DPB 크기 및 제2 DPB 크기를 포함하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터의 세트가 하나 이상의 층으로부터의 출력 층 및 하나 이상의 층으로부터의 비출력 층이 모두 단일 DPB 크기를 포함하는 경우 단일 DPB 크기를 갖는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 프로세서가 DPB 파라미터의 세트에 포함된 제1 DPB 크기로부터 제2 DPB 크기를 추론하도록 더 구성되는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 디코딩된 픽처를 디스플레이하도록 구성된 디스플레이를 제공한다.

제4 양태는 인코딩 장치에 관한 것으로, 이 인코딩 장치는 명령어를 포함하는 메모리와, 메모리에 결합된 프로세서 - 이 프로세서는 인코딩 장치로 하여금, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 생성하게 하고, 복수의 층, VPS 및 SPS를 비디오 비트스트림으로 인코딩하게 하도록 명령어를 구현하도록 구성됨 -와, 프로세서에 결합되어 비디오 디코더를 향해 비디오 비트스트림을 전송하도록 구성된 송신기를 포함한다.

인코딩 장치는, 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 프로세서가 인코딩 장치로 하여금 하나 이상의 층 중 하나를 출력 층으로 지정하고 하나 이상의 층 중 다른 하나를 비출력 층으로 지정하게 하도록 더 구성되는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양태의 다른 구현은 DPB 파라미터의 세트가 단일 DPB 크기를 포함하는 것을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양상의 다른 구현은 복수의 층으로부터의 하나 이상의 층 중 하나가 하나 이상의 하위층을 포함하는 것을 제공한다.

제5 양태는 코딩 장치에 관한 것이다. 이 코딩 장치는 인코딩할 픽처를 수신하거나 디코딩할 비트스트림을 수신하도록 구성된 수신기와, 수신기에 결합되고, 비트스트림을 디코더로 전송하거나 디코딩된 이미지를 디스플레이로 전송하도록 구성된 송신기와, 수신기 또는 송신기 중 적어도 하나에 결합되고 명령어를 저장하도록 구성된 메모리와, 메모리에 결합된 프로세서 - 프로세서는 본 명세서에 개시된 방법들 중 임의의 것을 수행하기 위해 메모리에 저장된 명령어를 실행하도록 구성됨 - 를 포함한다.

코딩 장치는 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 선행 양태들 중 임의의 것에서, 양상의 다른 구현은 디코딩된 픽처를 디스플레이하도록 구성된 디스플레이를 제공한다.

제6 양태는 시스템에 관한 것이다. 이 시스템은 인코더, 및 인코더와 통신하는 디코더를 포함하되, 인코더 또는 디코더는 본 명세서에 개시된 디코딩 장치, 인코딩 장치, 또는 코딩 장치를 포함한다.

시스템은 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

제7 양태는 코딩 수단에 관한 것이다. 이 코딩 수단은 인코딩할 픽처를 수신하거나 디코딩할 비트스트림을 수신하도록 구성된 수신 수단과, 수신 수단에 결합되고, 비트스트림을 디코더로 전송하거나 디코딩된 이미지를 디스플레이로 전송하도록 구성된 전송 수단과, 수신 수단 또는 전송 수단 중 적어도 하나에 결합되고 명령어를 저장하도록 구성된 저장 수단과, 메모리에 결합된 프로세싱 수단 - 프로세싱 수단은 본 명세서에 개시된 방법들 중 임의의 것을 수행하기 위해 저장 수단에 저장된 명령어를 실행하도록 구성됨 - 를 포함한다.

코딩 수단은 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술을 제공한다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

명료함을 위해, 전술한 실시예 중 임의의 하나는 본 개시의 범위 내에서 새로운 실시예를 생성하기 위해 임의의 하나 이상의 다른 전술한 실시예와 조합될 수 있다.

이들 및 다른 특징은 첨부 도면 및 청구범위와 관련하여 취해진 다음의 상세한 설명으로부터 더 명확하게 이해될 것이다.

본 개시의 보다 완전한 이해를 위해, 유사한 참조 번호가 유사한 부분을 나타내는 첨부 도면 및 상세한 설명과 관련하여 취해진 다음의 간략한 설명을 이제 참조한다.
도 1은 비디오 신호를 코딩하는 예시적인 방법의 흐름도이다.
도 2는 비디오 코딩을 위한 예시적인 코딩 및 디코딩(코덱) 시스템의 개략도이다.
도 3은 예시적인 비디오 인코더를 예시하는 개략도이다.
도 4는 예시적인 비디오 디코더를 예시하는 개략도이다.
도 5는 공간 확장성을 위한 다층 코딩의 예를 나타낸다.
도 6은 출력 층 세트(OLS)를 사용한 다층 코딩의 예를 도시한다.
도 7은 시간 확장성을 위해 구성된 예시적인 다층 비디오 시퀀스를 도시한다.
도 8은 비디오 비트스트림의 실시예를 예시한다.
도 9는 코딩된 비디오 비트스트림을 디코딩하는 방법의 실시예이다.
도 10은 코딩된 비디오 비트스트림을 인코딩하는 방법의 실시예이다.
도 11은 비디오 코딩 장치의 개략도이다.
도 12는 코딩 수단의 실시예의 개략도이다.

하나 이상의 실시예의 예시적인 구현이 이하에서 제공되지만, 개시된 시스템 및/또는 방법은 현재 알려져 있거나 존재하는지와는 상관없는 임의의 수의 기술을 사용하여 구현될 수 있다는 것이 처음부터 이해되어야 한다. 본 개시는 본 명세서에 예시되고 설명된 예시적인 설계 및 구현을 포함하여 아래에 예시된 예시적인 구현, 도면 및 기술에 결코 국한되어서는 안 되며, 첨부된 청구범위의 범위 내에서 등가물의 전체 범위를 따라 수정될 수 있다.

하기 용어들은 본 명세서에서 상반되는 맥락에서 사용되지 않는 한 다음과 같이 정의된다. 구체적으로, 하기 정의는 본 개시에 추가적인 명확성을 제공하기 위한 것이다. 그러나, 용어는 상황에 따라 다르게 설명될 수 있습니다. 따라서, 다음의 정의는 보충으로서 간주되어야 하며 본 명세서에서 이러한 용어에 대해 제공된 설명의 다른 정의를 제한하는 것으로 간주되어서는 안된다.

비트스트림은 인코더와 디코더 사이의 전송을 위해 압축되는 비디오 데이터를 포함하는 비트 시퀀스이다. 인코더는 인코딩 프로세스를 사용하여 비디오 데이터를 비트스트림으로 압축하도록 구성된 장치이다. 디코더는 디코딩 프로세스를 사용하여 디스플레이를 위해 비트스트림으로부터 비디오 데이터를 재구성하도록 구성된 장치입니다. 픽처는 프레임 또는 그의 필드를 생성하는 루마 샘플의 어레이 및/또는 크로마 샘플의 어레이이다. 설명의 명확성을 위해, 인코딩 또는 디코딩되고 있는 픽처는 현재 픽처로 지칭될 수 있다. 참조 픽처는 인터 예측(inter-prediction) 및/또는 층간 예측(inter-layer prediction)에 따라 다른 픽처를 코딩할 때 참조로서 사용될 수 있는 참조 샘플을 포함한다. 참조 픽처 리스트는 인터 예측 및/또는 층간 예측에 사용되는 참조 픽처의 리스트이다. 일부 비디오 코딩 시스템은 참조 픽처 리스트 1 및 참조 픽처 리스트 0으로 표시될 수 있는 2개의 참조 픽처 리스트를 활용한다. 참조 픽처 리스트 구조는 여러 참조 픽처 리스트를 포함하는 주소 지정가능한 신택스 구조이다. 인터 예측은 현재 픽처와 다른 참조 픽처 내의 표시된 샘플을 참조하여 현재 픽처의 샘플을 코딩하는 메커니즘이되, 참조 픽처와 현재 픽처는 동일한 층 내에 있다. 참조 픽처 리스트 구조 엔트리는 참조 픽처 리스트와 연관된 참조 픽처를 나타내는 참조 픽처 리스트 구조 내의 주소 지정가능한 위치이다. 슬라이스 헤더는 슬라이스에 표현된 타일 내의 모든 비디오 데이터에 관한 데이터 요소를 포함하는 코딩된 슬라이스의 일부이다. 픽처 파라미터 세트(PPS)는 전체 픽처와 관련된 데이터를 포함하는 파라미터 세트이다. 보다 구체적으로, PPS는 각 픽처 헤더에서 발견되는 신택스 요소에 의해 결정되는 0개 이상의 전체 코딩된 픽처에 적용되는 신택스 요소를 포함하는 신택스 구조이다. 시퀀스 파라미터 세트(SPS)는 픽처 시퀀스와 관련된 데이터를 포함하는 파라미터 세트이다. 액세스 유닛(AU)은 디코딩된 픽처 버퍼(DPB)로부터의 출력을 위한(예를 들어, 사용자에게 디스플레이하기 위한) 동일한 디스플레이 시간(예를 들어, 동일한 픽처 순서 카운트)과 연관된 하나 이상의 코딩된 픽처의 세트이다. 액세스 유닛 구분자(AUD)는 AU의 시작 또는 AU 사이의 경계를 나타내는데 사용되는 표시자 또는 데이터 구조이다. 디코딩된 비디오 시퀀스는 사용자에게 디스플레이하기 위해 디코더에 의해 재구성된 픽처 시퀀스이다.

네트워크 추상화 층(Network Abstraction Layer: NAL) 유닛은, 원시 바이트 시퀀스 페이로드(Raw Byte Sequence Payload: RBSP) 형태의 데이터와, 데이터의 유형에 대한 표시를 포함하고, 필요한 만큼 에뮬레이션 방지 바이트가 산재된 신택스 구조이다. 비디오 코딩 계층(VCL) NAL 유닛은 픽처의 코딩된 슬라이스와 같은 비디오 데이터를 포함하도록 코딩된 NAL 유닛이다. 비-VCL NAL 유닛은 비디오 데이터의 디코딩, 적합성 검사의 수행, 또는 기타 동작을 지원하는 신택스 및/또는 파라미터와 같은 비-비디오 데이터를 포함하는 NAL 유닛이다. 층은 지정된 특성(예컨대, 공통 해상도, 프레임 레이트, 이미지 크기 등) 및 연관된 비-VCL NAL 유닛을 공유하는 VCL NAL 유닛 세트이다. 층의 VCL NAL 유닛은 NAL 유닛 헤더 층 식별자(nuh_layer_id)의 특정 값을 공유할 수 있다. 코딩된 픽처는, 액세스 유닛(AU) 내의 NAL 유닛 헤더 층 식별자(nuh_layer_id)의 특정 값을 갖는 VCL NAL 유닛을 포함하고 픽처의 모든 코딩 트리 유닛(CTU)을 포함하는 픽처의 코딩된 표현이다. 디코딩된 픽처는 코딩된 픽처에 디코딩 프로세스를 적용하여 생성된 픽처이다.

출력 층 세트(OLS)는 하나 이상의 층이 출력 층(들)으로 지정되는 층 세트이다. 출력 층은 출력(예컨대, 디스플레이)을 위해 지정된 층이다. 제로번째(0번째) OLS는 최하위 층(최하위 층 식별자가 있는 층)만 포함하고 따라서 출력 층만을 포함하는 OLS이다. 비디오 파라미터 세트(VPS)는 전체 비디오와 관련된 파라미터를 포함하는 데이터 유닛이다. 층간 예측은 참조 층의 참조 픽처를 참조하여 현재 층의 현재 픽처를 코딩하는 메커니즘으로, 현재 픽처와 참조 픽처는 동일한 AU에 포함되고 참조 층은 현재 층보다 낮은 nuh_layer_id를 포함한다.

디코딩된 픽처 버퍼(DPB)는, 참조, 출력 재정렬, 또는 가상 참조 디코더에 대해 지정된 출력 지연을 위해 디코딩된 픽처를 보유하는 버퍼이다. DPB 파라미터는, DPB 크기를 제공하고 선택에 따라서는 최대 픽처 재정렬 수 및 최대 지연 정보를 제공하는 신택스 구조이. 하위층은 TemporalId 변수의 특정 값을 갖는 VCL NAL 유닛 및 연관된 비-VCL NAL 유닛으로 구성된 시간 스케일러블 비트스트림의 시간 스케일러블 층이다. 플래그는 0과 1의 두 가지 가능한 값 중 하나를 취할 수 있는 변수 또는 단일 비트 신택스 요소이다.

계층 및 레벨은 최대 비트 레이트, 최대 루마 샘플 레이트, 최대 루마 픽처 크기, 최소 압축 비율, 허용되는 최대 슬라이스 수 및 허용되는 최대 타일 수와 관련하여 비트스트림을 정의하는 제약이다. 하위 계층은 상위 계층보다 더 제한되고 하위 레벨은 상위 레벨보다 더 제한된다.

본 명세서에서는 후속하는 두문자어, 즉 코딩 트리 블록(CTB), 코딩 트리 유닛(CTU), 코딩 유닛(CU), 코딩된 비디오 시퀀스(CVS), 합동 비디오 전문가 팀(Joint Video Experts Team: JVET), 모션-제약 타일 세트(Motion-Constrained Tile Set: MCTS), 최대 전송 유닛(MTU), 네트워크 추상화 층(NAL), 픽처 순서 카운트(Picture Order Count: POC), 픽처 파라미터 세트(Picture Parameter Set: PPS), 원시 바이트 시퀀스 페이로드(Raw Byte Sequence Payload: RBSP), 시퀀스 파라미터 세트(Sequence Parameter Set: SPS), 다목적 비디오 코딩 (VVC) 및 작업 초안(WD)이 사용된다.

도 1은 비디오 신호를 코딩하는 예시적인 동작 방법(100)의 흐름도이다. 구체적으로, 비디오 신호는 인코더에서 인코딩된다. 인코딩 프로세스는 비디오 파일 크기를 줄이기 위해 다양한 메커니즘을 사용하여 비디오 신호를 압축한다. 보다 작은 파일 크기는 압축된 비디오 파일이 사용자에게 전송되는 것을 가능하게 하는 동시에 관련 대역폭 오버헤드를 줄인다. 그런 다음 디코더는 압축된 비디오 파일을 디코딩하여 최종 사용자에게 디스플레이할 원본 비디오 신호를 재구성한다. 디코딩 프로세스는 일반적으로 인코딩 프로세스를 미러링하여 디코더가 비디오 신호를 일관되게 재구성할 수 있게 한다.

단계(101)에서, 비디오 신호는 인코더에 입력된다. 예를 들어, 비디오 신호는 메모리에 저장된 비압축 비디오 파일일 수 있다. 다른 예로서, 비디오 파일은 비디오 카메라와 같은 비디오 캡처 장치에 의해 캡처될 수 있고 비디오의 라이브 스트리밍을 지원하도록 인코딩될 수 있다. 비디오 파일은 오디오 컴포넌트와 비디오 컴포넌트를 모두 포함할 수 있다. 비디오 컴포넌트는 일련의 이미지 프레임을 포함하는데, 이 이미지 프레임은 시퀀스로 보여질 때 움직임에 대한 시각적 인상을 준다. 프레임은 본 명세서에서 루마 성분(또는 루마 샘플)이라고 하는 광과 크로마 성분(또는 컬러 샘플)이라고 하는 색상으로 표현되는 픽셀을 포함한다. 일부 예에서, 프레임은 또한 3차원 보기를 지원하기 위해 깊이 값을 포함할 수 있다.

단계(103)에서, 비디오는 블록으로 파티셔닝된다. 파티셔닝은 압축을 위해 각 프레임의 픽셀을 정사각형 및/또는 직사각형 블록으로 하위 분할(subdivide)하는 작업을 포함한다. 예를 들어, 고효율 비디오 코딩(HEVC)(H.265 및 MPEG-H 파트 2로도 알려져 있음)에서, 프레임은 먼저 미리 정의된 크기(예컨대, 64 픽셀 x 64 픽셀)의 블록인 코딩 트리 유닛(CTU)으로 분할될 수 있다. CTU는 루마 및 크로마 샘플 모두를 포함한다. 코딩 트리를 사용하여 CTU를 블록으로 분할하고 그런 다음 추가 인코딩을 지원하는 구성이 달성될 때까지 블록을 재귀적으로 하위 분할할 수 있다. 예를 들어, 프레임의 루마 성분은 개별 블록이 상대적으로 균일한 조명 값을 포함할 때까지 하위 분할될 수 있다. 또한, 프레임의 크로마 성분은 개별 블록이 비교적 균일한 색상 값을 포함할 때까지 하위 분할화될 수 있다. 따라서, 파티셔닝 메커니즘은 비디오 프레임의 콘텐츠에 따라 달라진다.

단계(105)에서, 단계(103)에서 파티셔닝된 이미지 블록을 압축하기 위해 다양한 압축 메커니즘이 사용된다. 예를 들어, 인터 예측 및/또는 인트라-예측이 사용될 수 있다. 인터 예측은 공통 장면 내의 객체가 연속적인 프레임에 나타나는 경향이 있다는 사실을 이용하도록 설계된다. 따라서, 참조 프레임에서 객체를 나타내는 블록은 인접 프레임에서 반복적으로 기술될 필요가 없다. 특히, 테이블과 같은 객체는 여러 프레임에 걸쳐 일정한 위치에 남아 있을 수 있다. 따라서, 테이블은 한 번 설명되고 인접 프레임은 참조 프레임을 다시 참조할 수 있다. 패턴 매칭 메커니즘을 사용하여 여러 프레임에 걸쳐 객체를 매칭시킬 수 있다. 또한, 움직이는 객체는 예를 들어 객체의 움직임이나 카메라의 움직임으로 인해 여러 프레임에 걸쳐 표현될 수 있다. 특정 예로서, 비디오는 여러 프레임에 걸쳐 화면을 가로질러 움직이는 자동차를 보여줄 수 있다. 모션 벡터는 이러한 움직임을 설명하는 데 사용될 수 있다. 모션 벡터는 프레임에 있는 객체의 좌표에서 참조 프레임에 있는 객체의 좌표까지의 오프셋을 제공하는 2차원 벡터이다. 이와 같이, 인터 예측은 현재 프레임의 이미지 블록을, 참조 프레임의 해당 블록으로부터의 오프셋을 나타내는 움직임 벡터의 세트로 인코딩할 수 있다.

인트라 예측은 공통 프레임 내의 블록을 인코딩한다. 인트라 예측은 루마 및 크로마 성분이 프레임에서 클러스터링되는 경향이 있다는 사실을 이용한다. 예를 들어, 트리의 일 부분에 있는 녹색 패치는 유사한 녹색 패치에 인접하게 배치되는 경향이 있다. 인트라 예측은 다중 방향 예측 모드(예컨대, HEVC에서 33개), 평면 모드 및 직류(DC) 모드를 사용한다. 방향 모드는 현재 블록이 해당 방향에서 이웃 블록의 샘플과 유사/동일함을 나타낸다. 평면 모드는 행/열(예컨대, 평면)을 따라 일련의 블록이 행의 에지에 있는 인접 블록을 기반으로 보간될 수 있음을 나타낸다. 실제로 평면 모드는 값을 변경할 때 상대적으로 일정한 기울기를 사용함으로써 행/열에 걸쳐 광/색상의 부드러운 전환을 나타낸다. DC 모드는 경계부의 평활화를 위해 사용되며, 블록이 방향 예측 모드의 각도 방향과 연관된 모든 이웃 블록의 샘플과 연관된 평균 값과 유사/동일함을 나타낸다. 따라서, 인트라 예측 블록은 실제 값 대신에, 다양한 관계형 예측 모드 값으로 이미지 블록을 표현할 수 있다. 또한, 인터 예측 블록은 실제 값 대신에, 모션 벡터 값으로 이미지 블록을 나타낼 수 있다. 어느 경우든, 예측 블록은 경우에 따라 이미지 블록을 정확하게 나타내지 않을 수 있다. 모든 차이는 잔차 블록에 저장된다. 파일을 추가로 압축하기 위해 나머지 블록에 변환이 적용될 수 있다.

단계(107)에서, 다양한 필터링 기술이 적용될 수 있다. HEVC에서, 필터는 인루프 필터링 방식에 따라 적용된다. 위에서 논의된 블록 기반 예측은 디코더에서 블록 이미지의 생성을 초래할 수 있다. 또한, 블록 기반 예측 방식은 블록을 인코딩하고, 그런 다음 인코딩된 블록을 나중에 참조 블록용으로 재구성한다. 인루프 필터링 방식은 블록/프레임에 노이즈 억제 필터, 디블로킹 필터, 적응 루프 필터 및 샘플 적응 오프셋(SAO) 필터를 반복적으로 적용한다. 이들 필터는 인코딩된 파일이 정확하게 재구성될 수 있도록 이러한 차단 아티팩트를 완화한다. 또한, 이러한 필터는 재구성된 참조 블록에서 아티팩트를 완화하여, 아티팩트가 재구성된 참조 블록에 기초하여 인코딩되는 후속 블록에서 추가 아티팩트를 생성할 가능성이 적도록 한다.

비디오 신호가 파티셔닝되고, 압축되고, 필터링되면, 결과적인 데이터는 단계(109)에서 비트스트림으로 인코딩된다. 비트스트림은 위에서 논의한 데이터와 디코더에서 적절한 비디오 신호 재구성을 지원하기 위해 필요한 임의의 시그널링 데이터를 포함한다. 예를 들어, 그러한 데이터는 파티션 데이터, 예측 데이터, 잔차 블록, 및 디코더에 코딩 명령을 제공하는 다양한 플래그를 포함할 수 있다. 비트스트림은 요청 시 디코더로의 전송을 위해 메모리에 저장될 수 있다. 비트스트림은 또한 복수의 디코더를 향해 브로드캐스트 및/또는 멀티캐스트될 수 있다. 비트스트림의 생성은 반복적인 프로세스이다. 따라서, 단계(101, 103, 105, 107, 및 109)는 많은 프레임 및 블록에 걸쳐 연속적으로 및/또는 동시에 발생할 수 있다. 도 1에 도시된 순서는 설명의 명료함과 용이함을 위해 제시되며, 비디오 코딩 프로세스를 특정 순서로 제한하려는 의도는 없다.

디코더는 단계(111)에서 비트스트림을 수신하고 디코딩 프로세스를 시작한다. 구체적으로, 디코더는 비트스트림을 대응하는 신택스 및 비디오 데이터로 변환하는데 엔트로피 디코딩 방식을 사용한다. 디코더는 비트스트림으로부터의 신택스 데이터를 사용하여 단계(111)에서 프레임에 대한 파티션을 결정한다. 파티셔닝은 단계(103)에서 블록 파티셔닝의 결과와 일치해야 한다. 이제 단계(111)에서 사용된 엔트로피 인코딩/디코딩이 설명된다. 인코더는 입력 이미지(들)에서 값의 공간적 배치를 기반으로 여러 가능한 선택 중에서 블록 파티셔닝 방식을 선택하는 것과 같은 여러 선택을 압축 프로세스 동안 행한다. 정확한 선택에 대한 시그널링은 많은 수의 빈(bin)을 사용할 수 있다. 본 명세서에서 사용된 바와 같이, 빈은 변수로 취급되는 이진 값(예를 들어, 컨텍스트에 따라 변동될 수 있는 비트 값)이다. 엔트로피 코딩을 사용하면 인코더가 특정 경우에 대해서 명확하게 실행 가능하지 않은 임의의 옵션을 버리고 허용 가능한 옵션 세트를 남길 수 있다. 그런 다음 각 허용 가능한 옵션에 코드 워드가 할당된다. 코드 워드의 길이는 허용 가능한 옵션의 수를 기반으로 한다(예컨대, 2개의 옵션에 대해서는 1개의 빈, 3 내지 4개의 옵션에 대해서는 2개의 빈 등). 그런 다음, 인코더는 선택한 옵션에 대해 코드 워드를 인코딩한다. 이 방식은, 코드 워드가 가능한 모든 옵션의 잠재적으로 큰 세트로부터 선택을 고유하게 표시하는 것과는 대조적으로 허용 가능한 옵션의 작은 서브세트로부터 선택을 고유하게 나타내기 위해 원하는 만큼 크므로, 코드 워드의 크기를 축소시킨다. 그런 다음, 디코더는 인코더와 유사한 방식으로 허용 가능한 옵션 세트를 결정함으로써 선택을 디코딩한다. 허용 가능한 옵션 세트를 결정함으로써, 디코더는 코드 워드를 판독하고 인코더에 의해 행해진 선택을 결정할 수 있다.

단계(113)에서, 디코더는 블록 디코딩을 수행한다. 특히, 디코더는 역변환을 사용하여 잔차 블록을 생성한다. 그 다음, 디코더는 잔차 블록 및 대응하는 예측 블록을 사용하여 파티셔닝에 따라 이미지 블록을 재구성한다. 예측 블록은 단계(105)에서 인코더에서 생성된 인트라 예측 블록 및 인터 예측 블록 모두를 포함할 수 있다. 그런 다음, 재구성된 이미지 블록은 단계(111)에서 결정된 파티셔닝 데이터에 따라 재구성된 비디오 신호의 프레임에 배치된다. 단계(113)에 대한 신택스는 또한 위에서 논의된 바와 같이 엔트로피 코딩을 통해 비트스트림에서 시그널링될 수 있다.

단계(115)에서, 인코더에서 단계(107)와 유사한 방식으로 재구성된 비디오 신호의 프레임에 대해 필터링이 수행된다. 예를 들어, 노이즈 억제 필터, 디블로킹 필터, 적응 루프 필터 및 SAO 필터가 프레임에 적용되어 차단 아티팩트를 제거할 수 있다. 프레임이 필터링되면, 비디오 신호는 최종 사용자가 보도록 단계(117)에서 디스플레이로 출력될 수 있다.

도 2는 비디오 코딩을 위한 예시적인 코딩 및 디코딩(코덱) 시스템(200)의 개략도이다. 구체적으로, 코덱 시스템(200)은 동작 방법(100)의 구현을 지원하는 기능을 제공한다. 코덱 시스템(200)은 인코더와 디코더 모두에 사용되는 컴포넌트를 묘사하도록 일반화된다. 코덱 시스템(200)은 동작 방법(100)의 단계(101 및 103)와 관련하여 논의된 바와 같이 비디오 신호를 수신하고 파티셔닝하는데, 이는 파티셔닝된 비디오 신호(201)를 생성한다. 코덱 시스템(200)은 방법(100)의 단계(105, 107 및 109)와 관련하여 설명된 대로 인코더로서 동작하는 경우 파티셔닝된 비디오 신호(201)를 코딩된 비트스트림으로 압축한다. 디코더로서 동작할 때, 코덱 시스템(200)은 동작 방법(100)의 단계(111, 113, 115, 및 117)와 관련하여 논의된 바와 같이 비트스트림으로부터 출력 비디오 신호를 생성한다. 코덱 시스템(200)은 일반 코더 제어 컴포넌트(211), 변환 스케일링 및 양자화 컴포넌트(213), 인트라 픽처 추정 컴포넌트(215), 인트라 픽처 예측 컴포넌트(217), 모션 보상 컴포넌트(219), 모션 추정 컴포넌트(221), 스케일링 및 역변환 컴포넌트(229), 필터 제어 분석 컴포넌트(227), 인루프 필터 컴포넌트(225), 디코딩된 픽처 버퍼 컴포넌트(223), 및 헤더 포맷팅 및 컨텍스트 적응 이진 산술 코딩(CABAC) 컴포넌트(231)를 포함한다. 이러한 컴포넌트는 도시된 바와 같이 결합된다. 도 2에서, 흑색선은 인코딩된/디코딩된 데이터의 이동을 나타내고, 점선은 다른 컴포넌트의 동작을 제어하는 제어 데이터의 이동을 나타낸다. 코덱 시스템(200)의 컴포넌트는 모두 인코더에 존재할 수 있다. 디코더는 코덱 시스템(200)의 컴포넌트들의 서브세트를 포함할 수 있다. 예를 들어, 디코더는 인트라 픽처 예측 컴포넌트(217), 모션 보상 컴포넌트(219), 스케일링 및 역변환 컴포넌트(229), 인루프 필터 컴포넌트(225) 및 디코딩된 픽처 버퍼 컴포넌트(223)를 포함할 수 있다. 이들 컴포넌트는 이제 설명된다.

파티셔닝된 비디오 신호(201)는 코딩 트리에 의해 픽셀 블록으로 파티셔닝된 캡처된 비디오 시퀀스이다. 코딩 트리는 픽셀 블록을 더 작은 픽셀 블록으로 하위 분할하기 위해 다양한 분할 모드를 사용한다. 그런 다음 이러한 블록은 더 작은 블록으로 더 하위 분할될 수 있다. 블록은 코딩 트리에서 노드로 지칭될 수 있다. 더 큰 부모 노드는 더 작은 자식 노드로 분할된다. 노드가 하위 분할되는 횟수는 노드/코딩 트리의 깊이라고 한다. 분할된 블록은 경우에 따라 코딩 유닛(CU)에 포함될 수 있다. 예를 들어, CU는 CU에 대한 대응하는 신택스 명령과 함께 루마 블록, 적색 차이 크로마(Cr) 블록(들) 및 청색 차이 크로마(Cb) 블록(들)을 포함하는 CTU의 하위 부분일 수 있다. 분할 모드는 노드를, 사용되는 분할 모드에 따라 다양한 형상의 2개, 3개 또는 4개의 자식 노드로 각각 분할하는 데 사용되는 이진 트리(BT), 트리플 트리(TT) 및 쿼드 트리(QT)를 포함할 수 있다. 파티셔닝된 비디오 신호(201)는 압축을 위해 일반 코더 제어 컴포넌트(211), 변환 스케일링 및 양자화 컴포넌트(213), 인트라 픽처 추정 컴포넌트(215), 필터 제어 분석 컴포넌트(227), 및 모션 추정 컴포넌트(221)로 전달된다.

일반 코더 제어 컴포넌트(211)는 애플리케이션 제약에 따라 비디오 시퀀스의 이미지를 비트스트림으로 코딩하는 것과 관련된 결정을 내리도록 구성된다. 예를 들어, 일반 코더 제어 컴포넌트(211)는 재구성 품질에 대한 비트레이트/비트스트림 크기의 최적화를 관리한다. 이러한 결정은 저장 공간/대역폭 가용성 및 이미지 해상도 요청을 기반으로 할 수 있다. 일반 코더 제어 컴포넌트(211)는 또한 버퍼 언더런(buffer underrun) 및 오버런 문제를 완화하기 위해 전송 속도에 비추어 버퍼 활용을 관리한다. 이러한 문제를 관리하기 위해, 일반 코더 제어 컴포넌트(211)는 다른 컴포넌트에 의한 파티셔닝, 예측 및 필터링을 관리한다. 예를 들어, 일반 코더 제어 컴포넌트(211)는 해상도를 증가시키고 대역폭 사용을 증가시키기 위해 압축 복잡도를 동적으로 증가시키거나 해상도 및 대역폭 사용을 감소시키기 위해 압축 복잡도를 감소시킬 수 있다. 따라서, 일반 코더 제어 컴포넌트(211)는 코덱 시스템(200)의 다른 컴포넌트를 제어하여 비디오 신호 재구성 품질과 비트 레이트 문제의 균형을 맞춘다. 일반 코더 제어 컴포넌트(211)는 다른 컴포넌트의 동작을 제어하는 제어 데이터를 생성한다. 제어 데이터는 또한 디코더에서 디코딩하기 위한 파라미터를 시그널링하기 위해 비트스트림에서 인코딩되도록 헤더 포맷팅 및 CABAC 컴포넌트(231)로 전달된다.

파티셔닝된 비디오 신호(201)는 또한 인터 예측을 위해 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)로 전송된다. 파티셔닝된 비디오 신호(201)의 프레임 또는 슬라이스는 다수의 비디오 블록으로 분할될 수 있다. 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는 시간 예측을 제공하기 위해 하나 이상의 참조 프레임의 하나 이상의 블록에 대해 수신된 비디오 블록의 인터 예측 코딩을 수행한다. 코덱 시스템(200)은 예를 들어 비디오 데이터의 각 블록에 대한 적절한 코딩 모드를 선택하기 위해 다수의 코딩 패스를 수행할 수 있다.

모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는 고도로 통합될 수 있지만, 개념적 목적을 위해 별도로 예시된다. 모션 추정 컴포넌트(221)에 의해 수행되는 모션 추정은 비디오 블록에 대한 모션을 추정하는 모션 벡터를 생성하는 프로세스이다. 예를 들어, 모션 벡터는 예측 블록에 대한 코딩된 객체의 변위를 나타낼 수 있다. 예측 블록은 픽셀 차이 측면에서, 코딩될 블록과 밀접하게 일치하는 것으로 발견된 블록이다. 예측 블록은 참조 블록이라고도 할 수 있다. 이러한 픽셀 차이는 절대 차이 합(SAD), 제곱 차이 합(SSD), 또는 다른 차이 메트릭에 의해 결정될 수 있다. HEVC는 CTU, 코딩 트리 블록(CTB) 및 CU를 비롯한 여러 코딩된 객체를 사용한다. 예를 들어, CTU는 CTB로 분할될 수 있으며, 그런 다음 이는 CU에 포함하기 위해 CB로 분할될 수 있다. CU는 예측 데이터를 포함하는 예측 유닛(PU) 및/또는 CU에 대한 변환된 잔차 데이터를 포함하는 변환 유닛(TU)으로서 인코딩될 수 있다. 모션 추정 컴포넌트(221)는 레이트 왜곡 최적화 프로세스의 일부로서 레이트-왜곡 분석을 사용함으로써 모션 벡터, PU, 및 TU를 생성한다. 예를 들어, 모션 추정 컴포넌트(221)는 현재 블록/프레임에 대한 다수의 참조 블록, 다수의 모션 벡터 등을 결정할 수 있고, 최상의 레이트 왜곡 특성을 갖는 참조 블록, 모션 벡터 등을 선택할 수 있다. 최상의 레이트 왜곡 특성은 비디오 재구성의 품질(예컨대, 압축에 의한 데이터 손실의 양)과 코딩 효율성(예컨대, 최종 인코딩의 크기)의 균형을 맞춘다.

일부 예에서, 코덱 시스템(200)은 디코딩된 픽처 버퍼 컴포넌트(223)에 저장된 참조 픽처의 정수 미만 값의 픽셀 위치(sub-integer pixel positions)에 대한 값을 계산할 수 있다. 예를 들어, 비디오 코덱 시스템(200)은 1/4 픽셀 위치, 1/8 픽셀 위치, 또는 참조 픽처의 기타 분수 픽셀 위치의 값을 보간할 수 있다. 따라서, 모션 추정 컴포넌트(221)는 온전한 픽셀 위치 및 분수 픽셀 위치에 대한 모션 검색을 수행하고 분수 픽셀 정밀도를 갖는 모션 벡터를 출력할 수 있다. 모션 추정 컴포넌트(221)는 PU의 위치를 참조 픽처의 예측 블록의 위치와 비교함으로써 인터 코딩된 슬라이스에서 비디오 블록의 PU에 대한 모션 벡터를 계산한다. 모션 추정 컴포넌트(221)는 계산된 모션 벡터를 인코딩을 위해 모션 데이터로서 헤더 포맷팅 및 CABAC 컴포넌트(231)에 출력하고 모션을 모션 보상 컴포넌트(219)에 출력한다.

모션 보상 컴포넌트(219)에 의해 수행되는 모션 보상은 모션 추정 컴포넌트(221)에 의해 결정된 모션 벡터에 기초하여 예측 블록을 페치하거나 생성하는 것을 수반할 수 있다. 다시, 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는 일부 예에서 기능적으로 통합될 수 있다. 현재 비디오 블록의 PU에 대한 모션 벡터를 수신할 때, 모션 보상 컴포넌트(219)는 모션 벡터가 가리키는 예측 블록을 찾을 수 있다. 그 다음, 코딩되고 있는 현재 비디오 블록의 픽셀 값으로부터 예측 블록의 픽셀 값을 빼서 픽셀 차이 값을 형성함으로써 잔차 비디오 블록이 형성된다. 일반적으로, 모션 추정 컴포넌트(221)는 루마 성분에 대한 모션 추정을 수행하고, 모션 보상 컴포넌트(219)는 크로마 성분 및 루마 성분 모두에 대해 루마 성분에 기초하여 계산된 모션 벡터를 사용한다. 예측 블록 및 잔차 블록은 변환 스케일링 및 양자화 컴포넌트(213)로 전달된다.

파티셔닝된 비디오 신호(201)는 또한 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)로 전송된다. 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)와 같이, 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)는 고도로 통합될 수 있지만, 개념적 목적을 위해 별도로 예시된다. 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)는 앞서 설명한 바와 같이, 프레임 간에 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)에 의해 수행되는 인터 예측에 대한 대안으로서, 현재 프레임의 블록에 대한 현재 블록을 인트라 예측한다. 특히, 인트라 픽처 추정 컴포넌트(215)는 현재 블록을 인코딩하기 위해 사용할 인트라 예측 모드를 결정한다. 일부 예들에서, 인트라 픽처 추정 컴포넌트(215)는 다수의 테스트된 인트라 예측 모드로부터 현재 블록을 인코딩하기 위한 적절한 인트라 예측 모드를 선택한다. 선택된 인트라 예측 모드는 인코딩을 위해 헤더 포맷팅 및 CABAC 컴포넌트(231)로 전달된다.

예를 들어, 인트라 픽처 추정 컴포넌트(215)는 다양한 테스트된 인트라 예측 모드에 대해 레이트 왜곡 분석을 사용하여 레이트 왜곡 값을 계산하고, 테스트된 모드 중에서 최상의 레이트 왜곡 특성을 갖는 인트라 예측 모드를 선택한다. 레이트 왜곡 분석은 일반적으로 인코딩된 블록과 인코딩된 블록을 생성하기 위해 인코딩된 원래의 인코딩되지 않은 블록 사이의 왜곡(또는 오류)의 양과, 인코딩된 블록을 생성하는 데 사용된 비트레이트(예컨대, 다수의 비트)를 결정한다. 인트라 픽처 추정 컴포넌트(215)는 블록에 대한 최상의 레이트 왜곡 값을 나타내는 인트라 예측 모드를 결정하기 위해 다양한 인코딩된 블록에 대해 왜곡 및 레이트로부터 비율(ratios)을 계산한다. 또한, 인트라 픽처 추정 컴포넌트(215)는 레이트 왜곡 최적화(RDO)에 기초한 깊이 모델링 모드(DMM)를 사용하여 깊이 맵의 깊이 블록을 코딩하도록 구성될 수 있다.

인트라 픽처 예측 컴포넌트(217)는 인코더 상에서 구현될 때 인트라 픽처 추정 컴포넌트(215)에 의해 결정된 선택된 인트라 예측 모드에 기초하여 예측 블록으로부터 잔차 블록을 생성하거나, 또는 디코더 상에서 구현될 때 비트스트림으로부터 잔차 블록을 판독할 수 있다. 잔차 블록은 예측 블록과 원본 블록 간의 값의 차이를 포함하며 행렬로 표현된다. 그 다음, 잔차 블록은 변환 스케일링 및 양자화 컴포넌트(213)로 전달된다. 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)는 루마 및 크로마 성분 모두에 대해 동작할 수 있다.

변환 스케일링 및 양자화 컴포넌트(213)는 잔차 블록을 추가로 압축하도록 구성된다. 변환 스케일링 및 양자화 컴포넌트(213)는 이산 코사인 변환(DCT), 이산 사인 변환(DST) 또는 개념적으로 유사한 변환과 같은 변환을 잔차 블록에 적용하여, 잔차 변환 계수 값을 포함하는 비디오 블록을 생성한다. 웨이블릿 변환, 정수 변환, 부분대역 변환 또는 다른 유형의 변환도 사용될 수 있다. 변환은 잔차 정보를 픽셀 값 도메인으로부터 주파수 도메인과 같은 변환 도메인으로 변환할 수 있다. 변환 스케일링 및 양자화 컴포넌트(213)는 또한 예를 들어 주파수에 기초하여 변환된 잔차 정보를 스케일링하도록 구성된다. 그러한 스케일링은 상이한 주파수 정보가 상이한 입도에서 양자화되도록 잔차 정보에 스케일링 인자를 적용하는 것을 포함하며, 이는 재구성된 비디오의 최종 시각적 품질에 영향을 미칠 수 있다. 변환 스케일링 및 양자화 컴포넌트(213)는 또한 비트 레이트를 추가로 감소시키기 위해 변환 계수를 양자화하도록 구성된다. 양자화 프로세스는 계수의 일부 또는 전부와 관련된 비트 깊이를 감소시킬 수 있다. 양자화의 정도는 양자화 파라미터를 조정함으로써 수정될 수 있다. 일부 예에서, 변환 스케일링 및 양자화 컴포넌트(213)는 그 다음 양자화된 변환 계수를 포함하는 행렬에 대한 스캔을 수행할 수 있다. 양자화된 변환 계수는 헤더 포맷팅 및 CABAC 컴포넌트(231)로 전송되어 비트스트림에서 인코딩된다.

스케일링 및 역변환 컴포넌트(229)는 모션 추정을 지원하기 위해 변환 스케일링 및 양자화 컴포넌트(213)의 역 동작을 적용한다. 스케일링 및 역변환 컴포넌트(229)는 예를 들어 다른 현재 블록에 대한 예측 블록이 될 수 있는 참조 블록으로서 나중에 사용하기 위해 픽셀 도메인에서 잔차 블록을 재구성하도록 역 스케일링, 변환, 및/또는 양자화를 적용한다. 모션 추정 컴포넌트(221) 및/또는 모션 보상 컴포넌트(219)는 나중 블록/프레임의 모션 추정에 사용하기 위해 대응하는 예측 블록에 잔차 블록을 다시 추가함으로써 참조 블록을 계산할 수 있다. 필터는 스케일링, 양자화 및 변환 중에 생성된 아티팩트를 완화하기 위해 재구성된 참조 블록에 적용된다. 그렇지 않으면 후속 블록이 예측될 때 이러한 아티팩트는 부정확한 예측을 야기할 수 있다(그리고 추가 아티팩트를 생성할 수도 있다).

필터 제어 분석 컴포넌트(227) 및 인루프 필터 컴포넌트(225)는 필터를 잔차 블록 및/또는 재구성된 이미지 블록에 적용한다. 예를 들어, 스케일링 및 역변환 컴포넌트(229)로부터의 변환된 잔차 블록은 인트라 픽처 예측 컴포넌트(217) 및/또는 모션 보상 컴포넌트(219)로부터의 대응하는 예측 블록과 결합되어 원본 이미지 블록을 재구성할 수 있다. 그런 다음 필터가 재구성된 이미지 블록에 적용될 수 있다. 일부 예들에서, 필터들은 그 대신에 잔차 블록에 적용될 수 있다. 도 2의 다른 컴포넌트와 마찬가지로, 필터 제어 분석 컴포넌트(227) 및 인루프 필터 컴포넌트(225)는 고도로 통합되고 함께 구현될 수 있지만 개념적 목적을 위해 별도로 도시된다. 재구성된 참조 블록에 적용된 필터는 특정 공간 영역에 적용되며 이러한 필터가 적용되는 방식을 조정하기 위해 여러 파라미터를 포함한다. 필터 제어 분석 컴포넌트(227)는 재구성된 참조 블록을 분석하여 그러한 필터가 적용되어야 하는 위치를 결정하고 대응하는 파라미터를 설정한다. 그러한 데이터는 인코딩을 위한 필터 제어 데이터로서 헤더 포맷팅 및 CABAC 컴포넌트(231)로 전달된다. 인루프 필터 컴포넌트(225)는 필터 제어 데이터에 기초하여 이러한 필터를 적용한다. 필터는 디블로킹 필터, 노이즈 억제 필터, SAO 필터, 적응 루프 필터를 포함할 수 있다. 이러한 필터는 예시에 따라, 공간/픽셀 도메인(예컨대, 재구성된 픽셀 블록) 또는 주파수 도메인에서 적용될 수 있다.

인코더로서 동작할 때, 필터링된 재구성된 이미지 블록, 잔차 블록, 및/또는 예측 블록은 위에서 논의된 바와 같이 모션 추정에서 나중에 사용하기 위해 디코딩된 픽처 버퍼 컴포넌트(223)에 저장된다. 디코더로서 동작할 때, 디코딩된 픽처 버퍼 컴포넌트(223)는 재구성되고 필터링된 블록을 저장하고 출력 비디오 신호의 일부로서 디스플레이를 향해 전송한다. 디코딩된 픽처 버퍼 컴포넌트(223)는 예측 블록, 잔차 블록, 및/또는 재구성된 이미지 블록을 저장할 수 있는 임의의 메모리 장치일 수 있다.

헤더 포맷팅 및 CABAC 컴포넌트(231)는 코덱 시스템(200)의 다양한 컴포넌트로부터 데이터를 수신하고 디코더를 향한 전송을 위해 이러한 데이터를 코딩된 비트스트림으로 인코딩한다. 구체적으로, 헤더 포맷팅 및 CABAC 컴포넌트(231)는 일반 제어 데이터 및 필터 제어 데이터와 같은 제어 데이터를 인코딩하기 위한 다양한 헤더를 생성한다. 또한, 인트라 예측 및 움직임 데이터를 포함하는 예측 데이터와, 양자화된 변환 계수 데이터 형태의 잔차 데이터가 모두 비트스트림에 인코딩된다. 최종 비트스트림은 원래의 파티셔닝된 비디오 신호(201)를 재구성하기 위해 디코더가 원하는 모든 정보를 포함한다. 이러한 정보는 또한 인트라 예측 모드 인덱스 테이블(코드워드 매핑 테이블이라고도 함), 다양한 블록에 대한 인코딩 컨텍스트의 정의, 가장 가능성 있는 인트라 예측 모드의 표시, 파티션 정보의 표시 등을 포함할 수 있다. 이러한 데이터는 엔트로피 코딩을 사용하여 인코딩될 수 있다. 예를 들어, 정보는 컨텍스트 적응 가변 길이 코딩(CAVLC), CABAC, 신택스 기반 컨텍스트 적응 이진 산술 코딩(SBAC), 확률 구간 분할 엔트로피(PIPE) 코딩, 또는 다른 엔트로피 코딩 기술을 사용하여 인코딩될 수 있다. 엔트로피 코딩에 후속하여, 코딩된 비트스트림은 다른 장치(예를 들어, 비디오 디코더)로 전송되거나 나중의 전송 또는 검색을 위해 보관될 수 있다.

도 3은 예시적인 비디오 인코더(300)를 예시하는 블록도이다. 비디오 인코더(300)는 코덱 시스템(200)의 인코딩 기능을 구현하고 및/또는 동작 방법(100)의 단계(101, 103, 105, 107, 및/또는 109)를 구현하기 위해 사용될 수 있다. 인코더(300)는 입력 비디오 신호를 파티셔닝하여 파티셔닝된 비디오 신호(301)를 생성하며, 이는 파티셔닝된 비디오 신호(201)와 실질적으로 유사하다. 파티셔닝된 비디오 신호(301)는 그 다음 인코더(300)의 컴포넌트에 의해 압축되고 비트스트림으로 인코딩된다.

구체적으로, 파티셔닝된 비디오 신호(301)는 인트라 예측을 위해 인트라 픽처 예측 컴포넌트(317)로 전달된다. 인트라 픽처 예측 컴포넌트(317)는 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)와 실질적으로 유사할 수 있다. 파티셔닝된 비디오 신호(301)는 또한 디코딩된 픽처 버퍼 컴포넌트(323)의 참조 블록에 기초한 인터 예측을 위해 모션 보상 컴포넌트(321)로 전달된다. 모션 보상 컴포넌트(321)는 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)와 실질적으로 유사할 수 있다. 인트라 픽처 예측 컴포넌트(317) 및 모션 보상 컴포넌트(321)로부터의 예측 블록 및 잔차 블록은 잔차 블록의 변환 및 양자화를 위해 변환 및 양자화 컴포넌트(313)로 전달된다. 변환 및 양자화 컴포넌트(313)는 변환 스케일링 및 양자화 컴포넌트(213)와 실질적으로 유사할 수 있다. 변환 및 양자화된 잔차 블록 및 대응하는 예측 블록은 (관련 제어 데이터와 함께) 비트스트림 내로 코딩하기 위해 엔트로피 코딩 컴포넌트(331)로 전달된다. 엔트로피 코딩 컴포넌트(331)는 헤더 포맷팅 및 CABAC 컴포넌트(231)와 실질적으로 유사할 수 있다.

변환 및 양자화된 잔차 블록 및/또는 대응하는 예측 블록은 또한 모션 보상 컴포넌트(321)에 의해 사용되도록 참조 블록 내로의 재구성을 위해 변환 및 양자화 컴포넌트(313)에서 역변환 및 양자화 컴포넌트(329)로 전달된다. 역변환 및 양자화 컴포넌트(329)는 스케일링 및 역변환 컴포넌트(229)와 실질적으로 유사할 수 있다. 인루프 필터 컴포넌트(325)의 인루프 필터는 또한 예에 따라 잔차 블록 및/또는 재구성된 참조 블록에 적용된다. 인루프 필터 컴포넌트(325)는 필터 제어 분석 컴포넌트(227) 및 인루프 필터 컴포넌트(225)와 실질적으로 유사할 수 있다. 인루프 필터 컴포넌트(325)는 인루프 필터 컴포넌트(225)와 관련하여 논의된 바와 같은 다중 필터를 포함할 수 있다. 필터링된 블록은 그 다음 움직임 보상 컴포넌트(321)에 의한 참조 블록으로서 사용하기 위해 디코딩된 픽처 버퍼 컴포넌트(323)에 저장된다. 디코딩된 픽처 버퍼 컴포넌트(323)는 디코딩된 픽처 버퍼 컴포넌트(223)와 실질적으로 유사할 수 있다.

도 4는 예시적인 비디오 디코더(400)를 예시하는 블록도이다. 비디오 디코더(400)는 코덱 시스템(200)의 디코딩 기능을 구현하고/하거나 동작 방법(100)의 단계(111, 113, 115, 및/또는 117)를 구현하기 위해 사용될 수 있다. 디코더(400)는 예를 들어 인코더(300)로부터 비트스트림을 수신하고, 최종 사용자에게 디스플레이하기 위해 비트스트림에 기초하여 재구성된 출력 비디오 신호를 생성한다.

비트스트림은 엔트로피 디코딩 컴포넌트(433)에 의해 수신된다. 엔트로피 디코딩 컴포넌트(433)는 CAVLC, CABAC, SBAC, PIPE 코딩, 또는 다른 엔트로피 코딩 기술과 같은 엔트로피 디코딩 방식을 구현하도록 구성된다. 예를 들어, 엔트로피 디코딩 컴포넌트(433)는 헤더 정보를 사용하여 비트스트림에서 코드워드로서 인코딩된 추가 데이터를 해석하기 위한 컨텍스트를 제공할 수 있다. 디코딩된 정보는 일반 제어 데이터, 필터 제어 데이터, 파티션 정보, 모션 데이터, 예측 데이터 및 잔차 블록으로부터의 양자화된 변환 계수와 같은, 비디오 신호를 디코딩하는데 필요한 임의의 정보를 포함한다. 양자화된 변환 계수는 잔차 블록으로의 재구성을 위해 역변환 및 양자화 컴포넌트(429)로 전달된다. 역변환 및 양자화 컴포넌트(429)는 역변환 및 양자화 컴포넌트(329)와 유사할 수 있다.

재구성된 잔차 블록 및/또는 예측 블록은 인트라 예측 동작에 기초한 이미지 블록으로의 재구성을 위해 인트라 픽처 예측 컴포넌트(417)로 전달된다. 인트라 픽처 예측 컴포넌트(417)는 인트라 픽처 추정 컴포넌트(215) 및 인트라 픽처 예측 컴포넌트(217)와 유사할 수 있다. 구체적으로, 인트라 픽처 예측 컴포넌트(417)는 프레임에서 참조 블록을 찾기 위해 예측 모드를 사용하고 결과에 잔차 블록을 적용하여 인트라 예측된 이미지 블록을 재구성한다. 재구성된 인트라 예측된 이미지 블록 및/또는 잔차 블록 및 대응하는 인터 예측 데이터는 인루프 필터 컴포넌트(425)를 통해 디코딩된 픽처 버퍼 컴포넌트(423)로 전달되는데, 이들 디코딩된 픽처 버퍼 컴포넌트(423) 및 인루프 필터 컴포넌트(425)는 디코딩된 픽처 버퍼 컴포넌트(223) 및 인루프 필터 컴포넌트(225) 각각과 실질적으로 유사할 수 있다. 인루프 필터 컴포넌트(425)는 재구성된 이미지 블록, 잔차 블록 및/또는 예측 블록을 필터링하고, 이러한 정보는 디코딩된 픽처 버퍼 컴포넌트(423)에 저장된다. 디코딩된 픽처 버퍼 컴포넌트(423)로부터의 재구성된 이미지 블록은 인터 예측을 위해 모션 보상 컴포넌트(421)로 전달된다. 모션 보상 컴포넌트(421)는 모션 추정 컴포넌트(221) 및/또는 모션 보상 컴포넌트(219)와 실질적으로 유사할 수 있다. 구체적으로, 모션 보상 컴포넌트(421)는 예측 블록을 생성하기 위해 참조 블록으로부터 모션 벡터를 사용하고 결과에 잔차 블록을 적용하여 이미지 블록을 재구성한다. 결과적인 재구성된 블록은 또한 인루프 필터 컴포넌트(425)를 통해 디코딩된 픽처 버퍼 컴포넌트(423)로 전달될 수 있다. 디코딩된 픽처 버퍼 컴포넌트(423)는 파티션 정보를 통해 프레임으로 재구성될 수 있는 추가의 재구성된 이미지 블록을 계속해서 저장한다. 이러한 프레임은 시퀀스로 배치될 수도 있다. 시퀀스는 재구성된 출력 비디오 신호로서 디스플레이를 향해 출력된다.

위의 사항을 염두에 두고, 비디오 압축 기술은 비디오 시퀀스에 고유한 중복성을 감소 또는 제거하기 위해 공간적(인트라 픽처) 예측 및/또는 시간적(인터 픽처) 예측을 수행한다. 블록 기반 비디오 코딩의 경우, 비디오 슬라이스(즉, 비디오 픽처 또는 비디오 픽처의 일부)는 트리블록, 코딩 트리 블록(CTB), 코딩 트리 유닛(CTU), 코딩 유닛(CU), 및/또는 코딩 노드라고도 하는 비디오 블록으로 파티셔닝될 수 있다. 픽처의 인트라 코딩된 (I) 슬라이스의 비디오 블록은 동일한 픽처의 주변 블록에 있는 참조 샘플에 대한 공간 예측을 사용하여 인코딩된다. 픽처의 인터 코딩된 (P 또는 B) 슬라이스의 비디오 블록은 동일한 픽처의 주변 블록에 있는 참조 샘플에 대한 공간적 예측 또는 다른 참조 픽처의 참조 샘플에 대한 시간적 예측을 사용할 수 있다. 픽처는 프레임으로 지칭될 수 있고, 참조 픽처는 참조 프레임이라고 지칭될 수 있다. POC는 코딩된 층 비디오 시퀀스(CLVS)의 모든 픽처 중에서 연관된 픽처를 고유하게 식별하는 각 픽처와 연관된 변수이며, 연관된 픽처가 DPB에서 출력되어야 하는 시기를 나타내며, DPB에서 출력될 동일한 CLVS에서의 다른 픽처의 출력 순서 위치에 대한, 출력 순서에서의 연관된 픽처의 위치를 나타낸다. 플래그는 0과 1의 두 가지 가능한 값 중 하나를 취할 수 있는 변수 또는 단일 비트 신택스 요소이다.

공간적 또는 시간적 예측은 코딩될 블록에 대한 예측 블록을 초래한다. 잔차 데이터는 코딩할 원래 블록과 예측 블록 간의 픽셀 차이를 나타낸다. 인터 코딩된 블록은 예측 블록을 형성하는 참조 샘플의 블록을 가리키는 움직임 벡터, 및 코딩된 블록과 예측 블록 간의 차이를 나타내는 잔차 데이터에 따라 인코딩된다. 인트라 코딩된 블록은 인트라 코딩 모드 및 잔차 데이터에 따라 인코딩된다. 추가 압축을 위해, 잔차 데이터는 픽셀 도메인에서 변환 도메인으로 변환될 수 있고, 그 결과 잔여 변환 계수가 생성되고, 이는 양자화될 수 있다. 처음에 2차원 어레이로 배열된 양자화된 변환 계수는 변환 계수의 1차원 벡터를 생성하기 위해 스캔될 수 있고, 엔트로피 코딩이 적용되어 더 많은 압축을 달성할 수 있다.

이미지 및 비디오 압축은 다양한 코딩 표준으로 이어지는 급속한 성장을 경험했다. 이러한 비디오 코딩 표준은 ITU-T H.261, 국제 표준화 기구/국제 전기 기술 위원회(ISO/IEC) MPEG-1 파트 2, ITU-T H.262 또는 ISO/IEC MPEG-2 파트 2, ITU-T H.263, ISO/IEC MPEG-4 파트 2, ITU-T H.264 또는 ISO/IEC MPEG-4 파트 10이라고도 하는 고급 비디오 코딩(Advanced Video Coding: AVC), 및 ITU-T H.265 또는 MPEG-H 파트 2라고도 하는 고효율 비디오 코딩(High Efficiency Video Coding: HEVC)을 포함한다. AVC는 스케일러블 비디오 코딩(Scalable Video Coding: SVC), 멀티뷰 비디오 코딩(Multiview Video Coding: MVC) 및 멀티뷰 비디오 코딩 플러스 깊이(Mulltiview Video Coding plus Depth: MVC+D), 그리고 3D AVC(3D-AVC)와 같은 확장을 포함한다. HEVC는 스케일러블 HEVC(SHVC), 멀티뷰 HEVC(MV-HEVC) 및 3D HEVC(3D-HEVC)와 같은 확장을 포함한다.

ITU-T 및 ISO/IEC의 합동 비디오 전문가 팀(JVET)에 의해 개발되고 있는 다목적 비디오 코딩(Versatile Video Coding: VVC)로 명명된 새로운 비디오 코딩 표준도 있다. VVC 표준은 여러 작업 초안이 있지만, 특히 VVC의 하나의 작업 초안(WD), 즉 2019년 3월 27일 제13차 JVET 회의에서 B. Bross, J. Chen 및 S. Liu에 의한 "다목적 비디오 코딩(Versatile Video Coding)(Draft 5)", JVET-N1001-v3가 본 명세서에서 참조된다.

비디오 코딩의 확장성은 일반적으로 다층 코딩 기술을 사용하여 지원된다. 다중 층 비트스트림은 기본 층(BL) 및 하나 이상의 향상 층(EL)을 포함한다. 확장성의 예는 공간적 확장성, 품질/SNR(signal-to-noise) 확장성, 멀티뷰 확장성 등을 포함한다. 다층 코딩 기법이 사용되는 경우, 픽처 또는 이의 일부는 (1) 참조 픽처를 사용하지 않고, 즉 인트라 예측을 사용함으로써; (2) 동일한 층에 있는 참조 픽처를 참조함으로써, 즉 인터 예측을 사용함으로써; 또는 (3) 다른 층(들)에 있는 참조 픽처를 참조함으로써, 즉 층간 예측을 사용함으로써 코딩될 수 있다. 현재 픽처의 층간 예측에 사용되는 참조 픽처는 층간 참조 픽처(Inter Layer Reference Picture: ILRP)라고 한다.

도 5는 예를 들어 블록 압축 단계(105), 블록 디코딩 단계(113), 모션 추정 컴포넌트(221), 모션 보상 컴포넌트(219), 모션 보상 컴포넌트(321), 및/또는 모션 보상 컴포넌트(421)에서 MV를 결정하기 위해 수행된 층 기반 예측(500)의 일 예를 보여주는 개략도이다. 층 기반 예측(500)은 단방향 인터 예측 및/또는 양방향 인터 예측과 호환되지만, 다른 층의 픽처 간에도 수행된다.

층 기반 예측(500)은 서로 다른 층 내의 픽처(511, 512, 513, 514)와 픽처(515, 516, 517, 518) 사이에 적용된다. 도시된 예에서, 픽처(511, 512, 513 및 514)는 층 N+1(532)의 일부이고, 픽처(515, 516, 517 및 518)는 층 N(531)의 일부이다. 층 N(531) 및/또는 층 N+1(532)과 층은 유사한 크기, 품질, 해상도, 신호 대 잡음비, 성능 등과 같은 특성의 유사한 값과 모두 연관된 픽처 그룹이다. 도시된 예에서, 층 N+1(532)은 층 N(531)보다 더 큰 이미지 크기와 연관된다. 따라서, 이 예에서, 층 N+1(532)의 픽처(511, 512, 513, 514)는 층 N(531)의 픽처(515, 516, 517 및 518)보다 더 큰 픽처 크기(예를 들어, 더 큰 높이와 폭, 따라서 더 많은 샘플)를 갖는다. 그러나, 이러한 픽처는 다른 특성에 의해 N+1 층(532)과 N 층(531) 사이에서 분리될 수 있다. 2개의 층, 즉 층 N+1(532)과 층 N(531)만이 도시되어 있지만, 픽처 세트는 연관된 특성에 기초하여 임의의 수의 층으로 분리될 수 있다. 층 N+1(532) 및 층 N(531)은 또한 층 ID로 표시될 수 있다. 층 ID는 픽처와 연관된 데이터 항목이고 픽처가 표시된 층의 일부임을 나타낸다. 따라서, 각각의 픽처(511-518)는 어느 층 N+1(532) 또는 층 N(531)이 대응하는 픽처를 포함하는지를 나타내기 위해 대응하는 층 ID와 연관될 수 있다.

상이한 층(531-532)의 픽처(511-518)는 대안으로서 디스플레이하도록 구성된다. 이와 같이, 상이한 층(531-532)의 픽처(511-518)는 동일한 시간 식별자(ID)를 공유할 수 있고 동일한 AU에 포함될 수 있다. 본 명세서에서 사용되는 바와 같이, AU는 DPB로부터의 출력을 위해 동일한 디스플레이 시간과 연관된 하나 이상의 코딩된 픽처 세트이다. 예를 들어, 디코더는 더 작은 픽처가 요구되는 경우 현재 디스플레이 시간에 픽처(515)를 디코딩 및 디스플레이할 수 있고, 더 큰 픽처가 요구되는 경우 디코더는 현재 디스플레이 시간에 픽처(511)를 디코딩 및 디스플레이할 수 있다. 이와 같이, 상위 층 N+1(532)의 픽처(511-514)는 실질적으로 (픽처 사이즈의 차이에도 불구하고) 하위 층 N(531)의 대응하는 픽처(515-518)와 동일한 이미지 데이터를 포함한다. 구체적으로, 픽처(511)는 실질적으로 픽처(515)와 동일한 이미지 데이터를 포함하고, 픽처(512)는 실질적으로 픽처(516)와 동일한 이미지 데이터를 포함한다.

픽처(511-518)는 동일한 층 N(531) 또는 N+1(532)의 다른 픽처(511-518)를 참조하여 코딩될 수 있다. 동일한 층 내의 다른 픽처를 참조하여 픽처를 코딩하면 인터 예측(523)이 발생하며, 이는 호환가능한 단방향 인터 예측 및/또는 양방향 인터 예측이다. 인터 예측(523)은 실선 화살표로 도시된다. 예를 들어, 픽처(513)는 참조로서 층 N+1(532)의 픽처(511, 512 및/또는 514) 중 1개 또는 2개를 사용하여 인터 예측(523)을 사용함으로써 코딩될 수 있으며, 여기서 하나의 픽처는 단방향 인터 예측을 위해 참조되고 및/또는 2개의 픽처는 양방향 인터 예측을 위해 참조된다. 또한, 픽처(517)는 참조로서 층 N(531)의 픽처(515, 516 및/또는 518) 중 1개 또는 2개를 사용하여 인터 예측(523)을 사용함으로써 코딩될 수 있으며, 여기서 하나의 픽처는 단방향 인터 예측을 위해 참조되고 및/또는 2개의 픽처는 양방향 인터 예측을 위해 참조된다. 인터 예측(523)을 수행할 때 픽처가 동일한 층의 다른 픽처에 대한 참조로서 사용되는 경우, 이 픽처는 참조 픽처로서 지칭될 수 있다. 예를 들어, 픽처(512)는 인터 예측(523)에 따라 픽처(513)를 코딩하는데 사용되는 참조 픽처일 수 있다. 인터 예측(523)은 또한 다층 컨텍스트에서 인트라 층 예측으로 지칭될 수 있다. 이와 같이, 인터 예측(523)은 참조 픽처와 현재 픽처가 동일한 층에 있는 경우 현재 픽처와는 다른 참조 픽처 내의 표시된 샘플을 참조하여 현재 픽처의 샘플을 코딩하는 메커니즘이다.

픽처(511-518)는 또한 상이한 층의 다른 픽처(511-518)를 참조하여 코딩될 수 있다. 이 프로세스는 층간 예측(521)으로 알려져 있으며 점선 화살표로 표시된다. 층간 예측(521)은 현재 픽처와 참조 픽처가 서로 다른 층에 있고 따라서 서로 다른 층 ID를 갖는 경우 참조 픽처에서 표시된 샘플을 참조하여 현재 픽처의 샘플을 코딩하는 메커니즘이다. 예를 들어, 하위 층 N(531)의 픽처는 상위 층 N+1(532)의 대응하는 픽처를 코딩하기 위한 참조 픽처로 사용될 수 있다. 구체적인 예로, 픽처(511)는 층간 예측(521)에 따라 픽처(515)를 참조하여 코딩될 수 있다. 이러한 경우에, 픽처(515)는 층간 참조 픽처로 사용된다. 층간 참조 픽처는 층간 예측(521)에 사용되는 참조 픽처입이다. 대부분의 경우, 층간 예측(521)은, 픽처(511)와 같은 현재 픽처가 동일한 AU에 포함되고 하위 층에 있는 층간 참조 픽처(들), 예컨대 픽처(515)만을 사용할 수 있도록 제약된다. 다층(예를 들어, 둘 이상의 층)이 이용 가능한 경우, 층간 예측(521)은 현재 픽처보다 낮은 레벨에서 다수의 층간 참조 픽처(들)에 기초하여 현재 픽처를 인코딩/디코딩할 수 있다.

비디오 인코더는 층 기반 예측(500)을 이용하여 인터 예측(523) 및 층간 예측(521)의 많은 상이한 조합 및/또는 순열을 통해 픽처(511-518)를 인코딩할 수 있다. 예를 들어, 픽처(515)는 인트라 예측에 따라 코딩될 수 있다. 그 다음, 픽처(516-518)는 참조 픽처로서 픽처(515)를 사용함으로써 인터 예측(523)에 따라 코딩될 수 있다. 또한, 픽처(511)는 픽처(515)를 층간 참조 픽처로 사용함으로써 층간 예측(521)에 따라 코딩될 수 있다. 그 다음, 픽처(512-514)는 참조 픽처로서 픽처(511)를 사용함으로써 인터 예측(523)에 따라 코딩될 수 있다. 이와 같이, 참조 픽처는 상이한 코딩 메커니즘에 대해 단일 층 참조 픽처 및 층간 참조 픽처 모두의 역할을 할 수 있다. 하위 층 N(531) 픽처를 기반으로 상위 층 N+1(532) 픽처를 코딩함으로써, 상위 층 N+1(532)은 인터 예측(523) 및 층간 예측(521)보다 훨씬 낮은 코딩 효율을 갖는 인트라 예측을 사용하는 것을 피할 수 있다. 따라서, 인트라 예측의 열악한 코딩 효율은 최소/최저 품질 픽처로 제한될 수 있으며, 최소량의 비디오 데이터를 코딩하는 것으로 제한된다. 참조 픽처 및/또는 층간 참조 픽처로 사용되는 픽처는 참조 픽처 리스트 구조에 포함된 참조 픽처 리스트(들)의 엔트리에 표시될 수 있다.

도 5의 각 AU(506)는 여러 장의 픽처를 포함할 수 있다. 예를 들어, 하나의 AU(506)는 픽처(511, 515)를 포함할 수 있다. 다른 AU(506)는 픽처(512, 516)를 포함할 수 있다. 실제로, 각각의 AU(506)는 디코딩된 픽처 버퍼(DPB)로부터의 출력을 위해(예를 들어, 사용자에게 디스플레이하기 위해) 동일한 디스플레이 시간(예를 들어, 동일한 시간 ID)과 연관된 하나 이상의 코딩된 픽처 세트이다. 각각의 AUD(508)는 AU(예를 들어, AU(508))의 시작 또는 AU 사이의 경계를 나타내기 위해 사용되는 표시자 또는 데이터 구조이다.

이전의 H.26x 비디오 코딩 패밀리는 단일 층 코딩을 위한 프로파일(들)과는 별개인 프로파일(들)에서 확장성에 대한 지원을 제공했다. 스케일러블 비디오 코딩(SVC)은 공간, 시간 및 품질 확장성을 지원하는 AVC/H.264의 스케일러블 확장이다. SVC의 경우, 플래그는 EL MB가 하위 층으로 병치된 블록을 사용하여 예측되는지 여부를 나타내기 위해 EL 픽처의 각 매크로블록(MB)에서 시그널링된다. 병치된 블록으로부터의 예측은 텍스처, 모션 벡터, 및/또는 코딩 모드를 포함할 수 있다. SVC의 구현은 설계에서 수정되지 않은 H.264/AVC 구현을 직접 재사용할 수 없다. SVC EL 매크로블록 신택스 및 디코딩 프로세스는 H.264/AVC 신택스 및 디코딩 프로세스와는 다르다.

스케일러블 HEVC(SHVC)는 공간 및 품질 확장성에 대한 지원을 제공하는 HEVC/H.265 표준의 확장이고, 멀티뷰 HEVC(MV-HEVC)는 멀티뷰 확장성에 대한 지원을 제공하는 HEVC/H.265의 확장이고, 3D HEVC(3D-HEVC) MV-HEVC보다 더 발전되고 효율적인 3차원(3D) 비디오 코딩을 지원하는 HEVC/H.264의 확장이다. 시간적 확장성은 단일 층 HEVC 코덱의 필수 부분으로서 포함된다. HEVC의 다층 확장 설계는, 층간 예측에 사용되는 디코딩된 픽처가 동일한 액세스 유닛(AU)으로부터만 제공되고 롱텀 참조 픽처(long-term reference pictures: LTRP)로 처리되고 현재 층의 다른 시간 참조 픽처와 함께 참조 픽처 리스트(들)에서 참조 인덱스를 할당받는다는 아이디어를 이용한다. 층간 예측(ILP)은 참조 픽처 리스트(들) 내의 층간 참조 픽처(들)를 참조하도록 참조 인덱스의 값을 설정함으로써 예측 유닛(PU) 레벨에서 달성된다.

특히, 참조 픽처 리샘플링 및 공간 확장성 특징 모두는 참조 픽처 또는 그 일부의 리샘플링을 요구한다. 참조 픽처 리샘플링(RPR)은 픽처 레벨 또는 코딩 블록 레벨에서 실현될 수 있다. 다만, RPR을 코딩 특징으로서 참조되는 경우, 그것은 단일 층 코딩을 위한 특징이다. 그렇더라도, 단일 층 코딩의 RPR 특징과 다중 층 코딩의 공간 확장성 특징 모두에 대해 동일한 리샘플링 필터를 사용하는 것이 코덱 설계 관점에서 가능하거나 더 바람직하다.

도 6은 예를 들어 블록 압축 단계(105), 블록 디코딩 단계(113), 모션 추정 컴포넌트(221), 모션 보상 컴포넌트(219), 모션 보상 컴포넌트(321), 및/또는 모션 보상 컴포넌트(421)에서 MV를 결정하기 위해 수행된, 출력 층 세트(OLS)를 활용하는 층 기반 예측(600)의 일 예를 보여준다. 층 기반 예측(600)은 단방향 인터 예측 및/또는 양방향 인터 예측과 호환되지만, 상이한 층의 픽처 간에도 수행된다. 도 6의 층 기반 예측은 도 5의 것과 유사하다. 따라서, 간결함을 위해, 층 기반 예측에 대한 전체 설명은 반복하지 않는다.

도 6의 코딩된 비디오 시퀀스(CVS)(690) 내 층 중 일부는 OLS에 포함된다. OLS는 하나 이상의 층이 출력 층으로 지정된 층 세트이다. 출력 층은 출력되는 OLS의 층이다. 도 6은 3개의 상이한 OLS, 즉 OLS 1, OLS 2, 및 OLS 3를 묘사한다. 도시된 바와 같이, OLS 1은 층 N(631) 및 층 N+1(632)을 포함한다. OLS 2는 층 N(631), 층 N+1(632), 층 N+2(633) 및 층 N+3(634)을 포함한다. OLS 3은 층 N(631), 층 N+1(632) 및 층 N+2(633)를 포함한다. 3개의 OLS가 도시되어 있을지라도, 실제 애플리케이션에서 다른 수의 OLS가 사용될 수 있다.

상이한 OLS 각각은 임의의 수의 층을 포함할 수 있다. 다양한 코딩 능력을 갖는 다양한 상이한 장치의 코딩 능력을 수용하기 위한 노력으로 상이한 OLS가 생성된다. 예를 들어, 2개의 층만 포함하는 OLS 1은 상대적으로 제한된 코딩 기능을 가진 휴대폰을 수용하기 위해 생성될 수 있다. 한편, 4개의 층을 포함하는 OLS 2는 휴대폰보다 높은 층을 디코딩할 수 있는 대화면 텔레비전을 수용하기 위해 생성될 수 있다. 3개의 층을 포함하는 OLS 3은 휴대폰보다 상위 층을 디코딩할 수 있지만 대화면 텔레비전과 같은 가장 높은 층은 디코딩할 수 없는 개인용 컴퓨터, 랩톱 컴퓨터 또는 태블릿 컴퓨터를 수용하기 위해 생성될 수 있다.

도 6의 층은 모두 서로 독립적일 수 있다. 즉, 각각의 층은 층간 예측(ILP)을 사용하지 않고 코딩될 수 있다. 이 경우, 층은 동시전송 층라고 한다. 도 6의 층들 중 하나 이상은 또한 ILP를 사용하여 코딩될 수 있다. 층이 동시전송 층인지 또는 층 중 일부가 ILP를 사용하여 코딩되었는지 여부는 비디오 파라미터 세트(VPS)의 플래그에 의해 시그널링되며, 이는 아래에서 더 자세히 설명된다. 일부 층이 ILP를 사용하는 경우, 층 간의 층 종속 관계도 VPS에서 시그널링된다.

일 실시예에서, 층이 동시전송 층일 때, 디코딩 및 출력을 위해 하나의 층만이 선택된다. 일 실시예에서, 일부 층이 ILP를 사용하는 경우, 모든 층(예를 들어, 전체 비트스트림)은 디코딩되도록 지정되고, 층 중 특정 층은 출력 층으로 지정된다. 출력 층 또는 층들은 예를 들어 1) 최상위 층만, 2) 모든 층, 또는 3) 최상위 층과 표시된 하위 층 세트를 더한 것일 수 있다. 예를 들어, 최상위 층과 표시된 하위 층 세트를 더한 것이 VPS의 플래그에 의해 출력을 위해 지정되면, 층 N+3(634)(가장 상위 층)과 층 N(631) 및 층 N+1(632)(하위 층)이 OLS 2로부터 출력된다.

도 7은 시간적 확장성을 위해 구성된 예시적인 다층 비디오 시퀀스(700)를 예시하는 개략도이다. 다층 비디오 시퀀스(700)는 예를 들어 방법(100)에 따라 코덱 시스템(200) 및/또는 인코더(300)와 같은 인코더에 의해 인코딩되고 코덱 시스템(200) 및/또는 디코더(400)와 같은 디코더에 의해 디코딩될 수 있다. 다층 비디오 시퀀스(700)는 코딩된 비디오 시퀀스의 층에 대한 다른 예시적인 애플리케이션을 묘사하기 위해 포함된다. 예를 들어, 다층 비디오 시퀀스(700)는 별도의 실시예로서 채용될 수 있거나 다층 비디오 시퀀스(500 또는 600)에 대해 설명된 기술과 결합될 수 있다.

다층 비디오 시퀀스(700)는 하위층(710, 720, 730)을 포함한다. 하위층은 특정 시간 식별자 값을 갖는 VCL NAL 유닛(예를 들어, 픽처) 및 연관된 비-VCL NAL 유닛(예를 들어, 지원 파라미터)을 포함하는 시간 스케일러블 비트스트림의 시간 스케일러블 계층이다. 하위층(710)은 베이스 층으로 지칭될 수 있고, 하위층(720, 730)은 향상 층으로 지칭될 수 있다. 도시된 바와 같이, 하위층(710)은 초당 30개의 프레임과 같은 제1 프레임 레이트의 픽처(711)를 포함한다. 하위층(710)은 베이스/최저 프레임 레이트를 포함하기 때문에 하위층(710)은 베이스 층이다. 하위층(720)은 하위층(710)의 픽처(711)로부터 시간적으로 오프셋된 픽처(721)를 포함한다. 그 결과, 하위층(710)과 하위층(720)이 결합될 수 있으며, 이는 하위층(710)의 단독의 프레임 레이트보다 집합적으로 더 높은 프레임 레이트를 초래한다. 예를 들어, 하위층(710 및 720)은 초당 60 프레임의 결합된 프레임 레이트를 가질 수 있다. 따라서, 하위층(720)은 하위층(710)의 프레임 레이트를 향상시킨다. 또한, 하위층(730)은 하위층(720 및 710)의 픽처(721 및 711)로부터 시간적으로 오프셋되는 픽처(731)를 포함한다. 이와 같이, 하위층(730)은 하위층(720)과 결합되어 하위층(710)을 더 향상시킬 수 있다. 예를 들어, 하위층(710, 720, 730)은 초당 90프레임의 결합된 프레임 레이트를 가질 수 있다.

하위층 표현(740)은 하위층(710, 720, 및/또는 730)를 결합함으로써 동적으로 생성될 수 있다. 하위층 표현(740)은 특정 하위층 및 하위 하위층들의 NAL 유닛을 포함하는 비트스트림의 서브세트이다. 도시된 예에서, 하위층 표현(740)은 하위층(710, 720, 730)의 결합된 픽처(711, 721, 731)인 픽처(741)를 포함한다. 따라서, 다층 비디오 시퀀스(700)는 원하는 하위층 세트(710, 720 및/또는 730)를 포함하는 하위층 표현(740)을 선택함으로써 원하는 프레임 레이트로 시간적으로 스케일링될 수 있다. 하위층 표현(740)은 층으로서 하위층(710, 720, 및/또는 730)을 포함하는 OLS를 사용하여 생성될 수 있다. 그러한 경우에, 하위층 표현(740)은 출력 층으로서 선택된다. 따라서, 시간적 확장성은 다층 메커니즘을 사용하여 달성할 수 있는 여러 메커니즘 중 하나이다.

HEVC, SHVC, MV-HEVC 및 VVC와 같은 비디오 코딩 표준은 프로파일, 계층 및 레벨을 지정하고 시그널링한다. 프로파일, 계층 및 레벨은 비트스트림에 대한 제한을 지정하고 따라서 비트스트림을 디코딩하는 데 필요한 기능에 대한 제한을 지정한다. 프로파일, 계층 및 레벨은 또한 개별 디코더 구현들 간의 상호동작가능성 지점을 나타내는 데 사용될 수 있다. 프로파일은 호환가능한 또는 일관된 비트스트림을 만드는 데 사용되는 정의된 코딩 도구 세트이다. 각 프로파일은 해당 프로파일을 준수하는 모든 디코더에 의해 지원되어야 하는 알고리즘 기능 및 제한의 서브세트를 지정한다.

레벨은 비트스트림에 대한 제약 세트(예를 들어, 최대 루마 샘플 레이트, 해상도에 대한 최대 비트 레이트 등)이다. 즉, 레벨은 지정된 프로파일의 비트스트림을 재생하는 데 필요한 디코더 성능을 나타내는 제약 세트이다.

레벨은 메인(Main)과 하이(High)의 두 계층으로 나뉜다. 메인 계층은 하이 계층보다 낮은 계층이다. 메인 층은 최대 비트 레이트 측면에서 상이한 애플리케이션을 처리하도록 만들어졌다. 메인 계층은 대부분의 애플리케이션을 위해 설계되었지만, 하이 계층은 매우 까다로운 애플리케이션을 위해 설계되었다. 레벨에 대응하는 제약 및/또는 계층의 세트는 본 명세서에서 레벨 정보로 지칭될 수 있다.

층의 각 레벨은 특정 표준(예를 들어, HEVC, VVC)의 신택스 요소에 의해 취해질 수 있는 값에 대한 제한 세트를 지정한다. 계층 및 레벨 정의 동이한 세트가 모든 프로파일에 사용되지만 개별 구현은 다른 계층을 지원할 수 있으며 계층 내에서는 지원되는 각 프로필에 대해 다른 레벨을 지원할 수 있다. 임의의 주어진 프로파일에 대해, 계층의 레벨은 일반적으로 특정 디코더 처리 부하 및 메모리 용량에 대응한다.

HEVC 표준을 사용하여, 상이한 프로파일에 대한 레벨 및 계층의 대표적인 예가 하기 표 1에 제공된다.

디코딩된 픽처 버퍼(DPB) 파라미터는 DPB 크기 및 선택에 따라서는 최대 픽처 재정렬 수 및 최대 레이턴시 정보를 제공하는 신택스 구조이다. 최대 픽처 재정렬 수 및 최대 레이턴시 정보는 MRML이라는 약어로 통칭될 수 있다. 일 실시예에서, 위의 표에 언급된 바와 같은 레벨 중 하나 이상은 DPB 파라미터와 함께 시그널링된다.

일 실시예에서, 최대 픽처 재정렬 수는 dpb_max_num_reorder_pics[ i ]로 지정되며, 이는 디코딩 순서에서 OLS의 임의의 픽처에 선행할 수 있고 Htid가 i일 때 출력 순서에서 해당 픽처를 따를 수 있는 OLS의 최대 허용된 픽처 수를 지정한다. dpb_max_num_reorder_pics[ i ]의 값은 0에서 dpb_max_dec_pic_buffering_minus1[ i ]까지의 범위에 있어야 한다. i가 0보다 클 때, dpb_max_num_reorder_pics[ i ]는 dpb_max_num_reorder_pics[ i - 1 ]보다 크거나 같아야 한다. dpb_max_num_reorder_pics[ i ]가 0에서 MaxSubLayersMinus1 - 1의 범위에서 i에 대해 존재하지 않는 경우, subLayerInfoFlag가 0과 같기 때문에, dpb_max_num_reorder_pics[ MaxSubLayersMinus1 ]와 동일한 것으로 추론된다. Htid는 디코딩될 가장 높은 시간적 하위층을 식별하는 변수이다.

dpb_max_dec_pic_buffering_minus1[ i ] 더하기 1은 Htid가 i와 같을 때 픽처 저장 버퍼의 유닛으로 DPB의 최대 요구 크기를 지정한다. dpb_max_dec_pic_buffering_minus1[ i ]의 값은 0에서 MaxDpbSize - 1까지의 범위에 있어야 하며, 여기서 MaxDpbSize는 VVC 표준의 하위조항 A.4.2에 지정된 바와 같다. i가 0보다 클 때, dpb_max_dec_pic_buffering_minus1[ i ]은 dpb_max_dec_pic_buffering_minus1[ i - 1 ]보다 크거나 같아야 한다. dpb_max_dec_pic_buffering_minus1[ i ]이 0에서 MaxSubLayersMinus1 - 1의 범위에서 i에 대해 존재하지 않는 경우, subLayerInfoFlag가 0과 같기 때문에, 그것은 dpb_max_dec_pic_buffering_minus1[ MaxSubLayersMinus1 ]와 동일한 것으로 추론된다.

일 실시예에서, 최대 레이턴시 정보는 dpb_max_latency_increase_plus1[ i ]로 지정된다. 0이 아닌 dpb_max_latency_increase_plus1[ i ]는 MaxLatencyPictures[ i ]의 값을 계산하는 데 사용되며, 이 MaxLatencyPictures[ i ]의 값은 출력 순서에서 OLS의 임의의 픽처보다 선행할 수 있고 Htid가 i일 때 디코딩 순서에서 해당 픽처를 따를 수 있는 OLS의 최대 픽처 수를 지정한다.

MaxLatencyPictures[ i ] = dpb_max_num_reorder_pics[ i ] + dpb_max_latency_increase_plus1[ i ] - 1.

예를 들어 SHVC 및 MV-HEVC에서와 같이 OLS가 지정될 때, 임의의 특정 층이 다중 OLS에 포함될 수 있다. 특정 층은 일부 OLS에서 출력 층일 수 있고 동시에 일부 다른 OLS에서 비출력 층일 수 있다. 주어진 층에서, 층이 출력 층인 것과 비출력 층인 것의 주요 차이점은 DPB 크기이다. 따라서, DPB에는 두 가지 옵션만이 사용가능하다. 즉, 층에 대한 제3 DPB 크기는 불가능하다. 따라서, 특정 데이터에 대해 최대 2개의 DPB 크기를 시그널링하는 것으로 충분하다. 그러나, 특정 층이 OLS에 포함될 때마다 그 특정 층에 대한 DPB 크기 및/또는 레벨 정보를 시그널링하는 것은 불필요하고 3개 초과의 OLS가 있는 경우 비트를 낭비할 수 있다.

SHVC 및 MV-HEVC에서, DPB 크기는 각 층(예를 들어, 층 N(631) 및 층 N+1(632))에 대해 또는 OLS(예를 들어, OLS 1)에 포함된 각 하위층에 대해 지정되고 시그널링된다. 도 6의 예에서, DPB 크기는 층 N(631) 및 N+1(632)에 대해 시그널링되는데, 그 이유는 이들 층이 OLS 1에 포함되기 때문이다. DPB 크기는 또한 층 N(631), N+1(632), N+2(633) 및 N+3(634)에 대해 시그널링되는데, 그 이유는 이들 층이 OLS 2에 포함되어 있기 때문이다. 또한, DPB 크기는 또한 층 N(631), N+1(632), N+2(633)에 대해 시그널링되는데, 그 이유는 이들 층이 OLS 3에 포함되어 있기 때문이다. 따라서, 층 N(631)에 대응하는 DPB 크기는 그 층이 3개의 OLS, 즉 OLS 1, OLS 2 및 OLS 3 모두에 포함되어 있기 때문에 결국 3번 시그널링된다. 마찬가지로, 층 N+1(632)에 대응하는 DPB 크기도 그 층이 3개의 OLS, 즉 OLS 1, OLS 2 및 OLS 3 모두에 포함되어 있기 때문에 결국 3번 시그널링된다. 마지막으로 층 N+2(633)에 대응하는 DPB 크기는 그 층이 2개의 OLS, 즉 OLS 1 및 OLS 2에 포함되어 있기 때문에 결국 2번 시그널링된다. 동일한 DPB 크기(또는 DBP 파라미터)의 이러한 반복적인 시그널링은 중복되고 코딩 비효율을 초래한다.

본 명세서에는 다층 비디오 비트스트림에 얼마나 많은 출력 층 세트(OLS)가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등) 및/또는 레벨 정보가 한번만 시그널링되는 것을 보장하는 기술이 개시된다. 즉, DPB 파라미터 및 레벨 정보는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

도 8은 비디오 비트스트림(800)의 실시예를 예시한다. 본 명세서에서 사용되는 바와 같이, 비디오 비트스트림(800)은 또한 코딩된 비디오 비트스트림, 비트스트림, 또는 이들의 변형으로 지칭될 수도 있다. 도 8에 도시된 바와 같이, 비트스트림(800)은 적어도 하나의 픽처 유닛(PU)(801)을 포함한다. 도 8에는 3개의 PU(801)가 도시되어 있지만, 실제 적용에서는 상이한 수의 PU(801)가 비트스트림(800)에 존재할 수 있다. 각각의 PU(801)는 지정된 분류 규칙에 따라 서로 연관되고 디코딩 순서에서 연속적이며 정확히 하나의 코딩된 픽처(예를 들어, 픽처(814))를 포함하는 NAL 유닛의 세트이다.

일 실시예에서, 각각의 PU(801)는 디코딩 능력 정보(DCI)(802), 비디오 파라미터 세트(VPS)(804), 시퀀스 파라미터 세트(SPS)(806), 픽처 파라미터 세트(PPS)(808), 픽처 헤더(PH)(812) 및 픽처(814) 중 하나 이상을 포함한다. DCI(802), VPS(804), SPS(806), PPS(808) 각각은 총칭하여 파라미터 세트라고 할 수 있다. 일 실시예에서, 도 8에 도시되지 않은 다른 파라미터 세트, 예를 들어, 슬라이스 헤더에서 발견되는 0개 이상의 신택스 요소에 의해 결정되는 0개 이상의 슬라이스에 적용되는 신택스 구조인 적응 파라미터 세트(APS)가 비트스트림(800)에 포함될 수 있다.

디코딩 파라미터 세트(DPS) 또는 디코더 파라미터 세트로도 지칭될 수 있는 DCI(802)는 전체 비트스트림에 적용되는 신택스 요소를 포함하는 신택스 구조이다. DCI(802)는 세션의 수명으로 변환될 수 있는 비디오 비트스트림(예를 들어, 비트스트림(800))의 수명 동안 일정하게 유지되는 파라미터를 포함한다. DCI(802)는 세션 내에서 비디오 시퀀스의 스플라이싱(splicing)이 발생하더라도 절대 초과되지 않는 최대 복잡도 상호동작성 지점을 결정하기 위한 프로파일, 레벨 및 서브-프로파일 정보를 포함할 수 있다. 이것은 더 나아가, 비디오 비트스트림이 이러한 플래그의 값에 의해 표시되는 특정 기능의 사용에 대한 제약이 될 것임을 나타내는 제약 플래그를 선택적으로 포함한다. 이를 통해, 비트스트림은 디코더 구현에서 무엇보다도 리소스 할당을 허용하는 특정 도구를 사용하지 않는 것으로 표시될 수 있다. 모든 파라미터 세트와 마찬가지로, DCI(802)는 처음 참조될 때 존재하고, 비디오 시퀀스의 맨 처음 픽처에 의해 참조되며, 이는 그것이 비트스트림의 제1 NAL 유닛 가운데에서 전송되어야 함을 의미한다. 다수의 DCI(802)가 비트스트림에 있을 수 있지만, 그 안의 신택스 요소의 값은 참조될 때 불일치할 수 없다.

VPS(804)는 향상 층(enhancement layers)의 참조 픽처 세트 구성을 위한 디코딩 종속성 또는 정보를 포함한다. VPS(804)는 어떤 유형의 동작 지점이 제공되는지와, 동작 지점의 프로파일, 층 및 레벨과, 세션 협상 및 콘텐츠 선택을 위한 기반으로서 사용될 수 있는 비트스트림의 일부 다른 상위 레벨 속성 등을 비롯하여, 스케일러블 시퀀스의 전반적인 시각 또는 관점을 제공한다.

일 실시예에서, 층의 일부가 ILP를 사용한다고 표시될 때, VPS(804)는 VPS에 의해 지정된 OLS의 총 수가 층의 수와 동일함을 나타내고, i 번째 OLS는 0에서 i까지의 층 인덱스를 포함하는 층을 포함함을 나타내며, 각 OLS에 대해 OLS에서 가장 높은 층만이 출력됨을 나타낸다.

SPS(806)는 픽처 시퀀스(SOP)의 모든 픽처에 공통인 데이터를 포함한다. SPS(806)는 각 픽처 헤더에서 발견되는 신택스 요소에 의해 참조되는 PPS에서 발견되는 신택스 요소의 콘텐츠에 의해 결정되는 바와 같이 0개 이상의 전체 CLVS에 적용되는 신택스 요소를 포함하는 신택스 구조이다. 대조적으로, PPS(808)는 전체 픽처에 공통된 데이터를 포함한다. PPS(808)는 각각의 픽처 헤더(예를 들어, PH(812))에서 발견되는 신택스 요소에 의해 결정되는 바와 같이 0개 이상의 전체 코딩된 픽처에 적용되는 신택스 요소를 포함하는 신택스 구조이다.

일 실시예에서, VPS(804) 및/또는 SPS(806)는 본 명세서에 개시된 실시예들 중 하나 이상을 구현하기 위해 후속하는 SPS 신택스 및 시맨틱을 포함한다.

SPS 신택스는 다음을 포함한다.

SPS 시맨틱은 다음을 포함한다.

SPS RBSP는 참조되기 전에 디코딩 프로세스에 이용 가능해야 하고, TemporalId가 0인 적어도 하나의 액세스 유닛에 포함되거나 외부 수단을 통해 제공되어야 하고, SPS RBSP를 포함하는 SPS NAL 유닛은 그것을 참조하는 PPS NAL 유닛의 가장 낮은 nuh_layer_id 값과 동일한 nuh_layer_id를 가져야 한다.

CVS에서 sps_seq_parameter_set_id의 특정 값을 갖는 모든 SPS NAL 유닛은 동일한 콘텐츠를 가져야 한다.

sps_decoding_parameter_set_id는 0보다 클 때 SPS에 의해 참조되는 DPS에 대한 dps_decoding_parameter_set_id의 값을 지정한다. sps_decoding_parameter_set_id가 0과 같을 때, SPS는 DPS를 참조하지 않으며 SPS를 참조하는 각 CLVS를 디코딩할 때 DPS는 참조되지 않는다. sps_decoding_parameter_set_id의 값은 비트스트림에서 코딩된 픽처에 의해 참조되는 모든 SPS에서 동일해야 한다.

sps_video_parameter_set_id는 0보다 클 때 SPS에 의해 참조되는 VPS에 대한 vps_video_parameter_set_id의 값을 지정한다. sps_video_parameter_set_id가 0일 때, SPS는 VPS를 참조하지 않으며 SPS를 참조하는 각 CLVS를 디코딩할 때 VPS는 참조되지 않는다.

sps_max_sub_layers_minus1 더하기 1은 SPS를 참조하는 각 CLVS에 존재할 수 있는 시간적 하위층의 최대 수를 지정한다. sps_max_sub_layers_minus1의 값은 0에서 vps_max_sub_layers_minus1까지의 범위에 있어야 한다.

sps_reserved_zero_4bits는 이 사양의 이 버전을 따르는 비트스트림에서 0과 같아야 한다. sps_reserved_zero_4bits에 대한 다른 값은 ITU-T | ISO/IEC에 의한 향후 사용을 위해 예약된다.

1과 동일한 same_nonoutput_level_and_dpb_size_flag는 층이 출력 층인지 여부에 관계없이 SPS를 참조하는 각 층에 동일한 세트의 레벨 및 DPB 크기 파라미터가 적용된다는 것을 지정한다. 0과 동일한 same_nonoutput_level_and_dpb_size_flag는 층이 출력 층인지 여부에 따라 SPS를 참조하는 각 층에 레벨 및 DPB 크기 파라미터의 2개의 개별 세트가 적용됨을 지정한다.

대안적으로, 두 개의 개별 플래그가 사용되며, 하나는 층이 출력 층인지 여부에 관계없이 SPS를 참조하는 각 층에 레벨 파라미터의 동일 세트가 적용되는지 여부를 지정하고, 다른 하나는 층이 출력 층인지 여부에 관계없이 SPS를 참조하는 각 층에 DPB 크기 파라미터의 동일 세트가 적용되는지 여부를 지정한다.

일 실시예에서, VPS(804) 및/또는 SPS(806)는 본 명세서에 개시된 실시예들 중 하나 이상을 구현하기 위해 후속하는 DPB 신택스 및 시맨틱을 포함한다.

DPB 신택스는 다음을 포함한다.

DPB 시맨틱은 다음을 포함한다.

dpb_parameters() 신택스 구조는 DPB 크기 정보, 및 선택에 따라서는 최대 픽처 재정렬 수 및 최대 레이턴시 정보(MRML 정보로 표기됨)를 제공한다.

각 SPS는 하나 이상의 dpb_parameters() 신택스 구조를 포함한다. SPS의 제1 dpb_parameters() 신택스 구조는 DPB 크기 정보와 MRML 정보를 모두 포함한다. 존재하는 경우, SPS의 제2 dpb_parameters() 신택스 구조는 DPB 크기 정보만을 포함한다. SPS의 제1 dpb_parameters() 신택스 구조의 MRML 정보는 SPS를 참조하는 층이 OLS의 출력 층인지 여부에 관계없이 이 SPS를 참조하는 층에 적용된다. SPS의 제1 dpb_parameters() 신택스 구조의 DPB 크기 정보는 SPS를 참조하는 층이 OLS의 출력 층인 경우 이 SPS를 참조하는 층에 적용된다. SPS에서 존재하는 경우 제2 dpb_parameters() 신택스 구조에 포함된 DPB 크기 정보는 SPS를 참조하는 층이 OLS의 비출력 층일 때 이 SPS를 참조하는 층에 적용된다. SPS가 하나의 dpb_parameters() 신택스 구조만을 포함하는 경우, 비출력 층인 층에 대한 DPB 크기 정보는 출력 층인 층에 대한 DPB 크기 정보와 동일한 것으로 유추된다.

sps_max_dec_pic_buffering_minus1[ i ] 더하기 1은 Htid가 i와 같을 때 픽처 저장 버퍼의 유닛으로 CLVS에 대한 디코딩된 픽처 버퍼의 최대 요구 크기를 지정한다. sps_max_dec_pic_buffering_minus1[ i ]의 값은 0에서 MaxDpbSize - 1까지의 범위에 있어야 하며, 여기서 MaxDpbSize는 다른 곳에서 지정된 것과 같다. i가 0보다 클 때, sps_max_dec_pic_buffering_minus1[ i ]은 sps_max_dec_pic_buffering_minus1[ i - 1 ]보다 크거나 같아야 한다. sps_max_dec_pic_buffering_minus1[ i ]이 0에서 sps_max_sub_layers_minus1 - 1의 범위에서 i에 대해 존재하지 않을 때, sps_sub_layer_ordering_info_present_flag가 0과 같기 때문에, 그것은 sps_max_s_dec_min_1과 같은 것으로 추론된다.

sps_max_num_reorder_pics[ i ]는 Htid가 i와 같을 때 디코딩 순서에서 CLVS의 임의의 픽처에 선행하고 출력 순서에서 그 픽처에 후속할 수 있는 최대 허용된 픽처 수를 나타낸다. sps_max_num_reorder_pics[ i ]의 값은 0에서 sps_max_dec_pic_buffering_minus1[ i ]까지의 범위에 있어야 한다. i가 0보다 클 때, sps_max_num_reorder_pics[ i ]는 sps_max_num_reorder_pics[ i - 1 ]보다 크거나 같아야 한다. sps_max_num_reorder_pics[ i ]가 0에서 sps_max_sub_layers_minus1 - 1까지의 범위에서 i에 대해 존재하지 않을 때, sps_sub_layer_ordering_info_present_flag가 0과 같기 때문에, 그것은 sps_max_num_reorder_pics[　sps_max_sub_layers_minus1　]과 동일한 것으로 추론된다.

0과 같지 않은 sps_max_latency_increase_plus1[ i ]는 출력 순서에서 CLVS의 임의의 픽처에 선행하고 Htid가 i와 같을 때 디코딩 순서에서 그 픽처에 후속할 수 있는 픽처의 최대 수를 지정하는 SpsMaxLatencyPictures[ i ]의 값을 계산하는 데 사용된다.

sps_max_latency_increase_plus1[ i ]이 0과 같지 않을 때, SpsMaxLatencyPictures[ i ]의 값은 다음과 같이 지정된다.

SpsMaxLatencyPictures[ i ] = sps_max_num_reorder_pics[ i ] +

sps_max_latency_increase_plus1[ i ] - 1 (7-14)

sps_max_latency_increase_plus1[ i ]이 0과 같을 때, 대응하는 한계는 표현되지 않는다.

sps_max_latency_increase_plus1[ i ]의 값은 0에서 2³² - 2까지의 범위에 있어야 한다. sps_max_latency_increase_plus1[ i ]이 0에서 sps_max_sub_layers_minus1 - 1까지의 범위 내의 i에 대해 존재하지 않을 때, sps_sub_layer_ordering_info_present_flag가 0과 같기 때문에, 그것은 sps_max_latency_increase_plus1[　sps_max_sub_layers_minus1　]와 동일한 것으로 추론된다.

DCI(802), VPS(804), SPS(806), 및 PPS(808)는 상이한 유형의 네트워크 추상화 층(NAL) 유닛에 포함된다. NAL 유닛은 후속하는 데이터의 유형(예를 들어, 코딩된 비디오 데이터)의 표시를 포함하는 신택스 구조이다. NAL 유닛은 비디오 코딩 층(VCL)과 비-VCL NAL 유닛으로 분류된다. VCL NAL 유닛은 비디오 픽처의 샘플 값을 나타내는 데이터를 포함하고 비-VCL NAL 유닛은 파라미터 세트(여러 VCL NAL 유닛에 적용할 수 있는 중요한 데이터) 및 보충 강화 정보(디코딩된 비디오 신호의 사용성을 향상시킬 수 있지만 비디오 픽처의 샘플 값을 디코딩하는 데는 필요하지 않은 타이밍 정보 및 기타 추가 데이터)와 같은 임의의 연관된 부가 정보를 포함한다.

일 실시예에서, DCI(802)는 DCI NAL 유닛 또는 DPS NAL 유닛으로 지정된 비-VCL NAL 유닛에 포함된다. 즉, DCI NAL 유닛은 DCI NAL 유닛 유형(NUT)을 갖고, DPS NAL 유닛은 DPS NUT를 갖는다. 실시예에서, VPS(804)는 VPS NAL 유닛으로 지정된 비-VCL NAL 유닛에 포함된다. 따라서, VPS NAL 유닛은 VPS NUT를 갖는다. 실시예에서, SPS(806)는 SPS NAL 유닛으로서 지정된 비-VCL NAL 유닛이다. 따라서, SPS NAL 유닛은 SPS NUT을 갖는다. 실시예에서, PPS(808)는 PPS NAL 유닛으로 지정된 비-VCL NAL 유닛에 포함된다. 따라서, PPS NAL 유닛은 PPS NUT을 갖는다.

PH(812)는 코딩된 픽처(예를 들어, 픽처(814))의 모든 슬라이스(예를 들어, 슬라이스(818))에 적용되는 신택스 요소를 포함하는 신택스 구조이다. 일 실시예에서, PH(812)는 PH NAL 유닛으로 지정된 새로운 유형의 비-VCL NAL 유닛에 있다. 따라서, PH NAL 유닛은 PH NUT(예를 들어, PH_NUT)를 갖는다. 일 실시예에서, 각각의 PU(801)에 포함된 단 하나의 PH(812)가 있다. 즉, PU(801)는 단일 또는 단독의 PH(812)를 포함한다. 일 실시예에서, 비트스트림(800)의 각 픽처(801)에 대해 정확히 하나의 PH NAL 유닛이 존재한다.

일 실시예에서, PH(812)와 연관된 PH NAL 유닛은 시간적 ID 및 층 ID를 갖는다. 시간적 ID 식별자는 비트스트림(예를 들어, 비트스트림(801))의 다른 PH NAL 유닛에 대한 시간상에 있어서의 PH NAL 유닛의 위치를 표시한다. 층 ID는 PH NAL 유닛을 포함하는 층(예컨대, 층(531) 또는 층(532))을 나타낸다. 일 실시예에서, 시간적 ID는 POC와 유사하지만 상이하다. POC는 각 픽처를 순서대로 고유하게 식별한다. 단일 층 비트스트림에서, 시간적 ID와 POC는 동일할 수 있다. 다층 비트스트림(예를 들어, 도 5 참조)에서, 동일한 AU 내의 픽처는 상이한 POC를 갖지만 동일한 시간적 ID를 가질 수 있다.

일 실시예에서, PH NAL 유닛은 연관된 픽처(814)의 제1 슬라이스(818)를 포함하는 VCL NAL 유닛보다 선행한다. 이것은, PH(812)에서 시그널링되고 슬라이스 헤더(820)로부터 참조되는 픽처 헤더 ID를 가질 필요없이, PH(812)와 이 PH(812)와 연관된 픽처(814)의 슬라이스(818) 간의 연관을 수립한다. 결과적으로, 2개의 PH(812) 사이의 모든 VCL NAL 유닛은 동일한 픽처(814)에 속한다는 것과 픽처(814)는 2개의 PH(812) 중에서 제1 PH(812)와 연관된다는 것이 추론될 수 있다. 일 실시예에서, PH(812)에 뒤따르는 제1 VCL NAL 유닛은 PH(812)와 연관된 픽처(814)의 제1 슬라이스(818)를 포함한다.

실시예에서, PH NAL 유닛은, PH NAL 유닛의 시간적 ID 및 층 ID보다 각각 적은 시간적 ID 및 층 ID 모두를 갖는 픽처 레벨 파라미터 세트(예를 들어, PPS) 또는 상위 레벨 파라미터 세트, 예컨대, DCI(일명, DPS), VPS, SPS, PPS 등을 따른다. 결과적으로, 이러한 파라미터 세트는 픽처 또는 액세스 유닛 내에서 반복되지 않는다. 이러한 순서로 인해, PH(812)는 즉시 해결될 수 있다. 즉, 전체 픽처와 관련된 파라미터를 포함하는 파라미터 세트는 비트스트림에서 PH NAL 유닛 이전에 위치한다. 픽처의 일부에 대한 파라미터를 포함하는 임의의 것은 PH NAL 유닛 뒤에 배치된다.

하나의 대안으로서, PH NAL 유닛은 픽처 레벨 파라미터 세트 및 프리픽스 보충 강화 정보((Supplemental Enhancement Information: SEI) 메시지, 또는 DCI(일명, DPS), VPS, SPS, PPS, APS, SEI 메시지 등과 같은 상위 레벨 파라미터 세트를 따른다.

픽처(814)는 모노크롬 포맷의 루마 샘플 어레이이거나 또는 4:2:0, 4:2:2 및 4:4:4 컬러 포맷의 루마 샘플의 어레이 및 크로마 샘플의 2개의 대응하는 어레이이다. 일 실시예에서, 각각의 PU(801)에는 오직 하나의 픽처(814)가 포함된다. 이와 같이, 각 PU(801)에는 오직 하나의 PH(812) 및 그 PH(812)에 대응하는 하나의 픽처(814)만이 존재한다. 즉, PU(801)는 단일 또는 단독의 픽처(814)를 포함한다.

픽처(814)는 프레임 또는 필드일 수 있다. 그러나, 하나의 CVS(816)에서, 모든 픽처(814)가 프레임이거나 모든 픽처(814)가 필드이다. CVS(816)는 비디오 비트스트림(800)의 모든 코딩된 층 비디오 시퀀스(CLVS)에 대한 코딩된 비디오 시퀀스이다. 특히, CVS(816) 및 CLVS는 비디오 비트스트림(800)이 단일 층를 포함할 때 동일하다. CVS(816) 및 CLVS는 비디오 비트스트림(800)이 (예를 들어, 도 5 및 6에 도시된 바와 같이) 다층을 포함하는 경우에만 상이하다.

각각의 픽처(814)는 하나 이상의 슬라이스(818)를 포함한다. 슬라이스(818)는 픽처(예를 들어, 픽처(814))의 타일 내의 정수 개수의 완전한 타일 또는 정수 개수의 연속적인 완전한 CTU 행이다. 각 슬라이스(818)는 단일 NAL 유닛(예를 들어, VCL NAL 유닛)에 배타적으로 포함된다. 타일(미도시)은 픽처(예를 들어, 픽처(814)) 내의 특정 타일 열 및 특정 타일 행 내의 CTU의 직사각형 영역이다. CTU(도시되지 않음)는 루마 샘플의 CTB, 3개의 샘플 어레이를 갖는 픽처의 크로마 샘플의 2개의 대응하는 CTB, 또는 샘플을 코딩하는데 사용되는 3개의 개별 컬러 평면 및 신택스 구조를 사용하여 코딩된 픽처 또는 모노크롬 픽처의 샘플의 CTB이다. CTB(도시되지 않음)는 컴포넌트를 CTB로 분할하는 것이 파티셔닝이도록 N의 일부 값에 대한 샘플의 N×N 블록이다. 블록(도시되지 않음)은 샘플(예컨대, 픽셀)의 MxN(M-열 x N-행) 어레이 또는 변환 계수의 MxN 어레이이다.

일 실시예에서, 각 슬라이스(818)는 슬라이스 헤더(820)를 포함한다. 슬라이스 헤더(820)는 슬라이스(818)에 표현된 타일 내의 모든 타일 또는 CTU 행에 속하는 데이터 요소를 포함하는 코딩된 슬라이스(818)의 일부이다. 즉, 슬라이스 헤더(820)는 슬라이스(818)에 대한 정보, 예를 들어, 슬라이스 유형, 참조 픽처들 중 어느 것이 사용될 것인지에 대한 정보 등을 포함한다.

픽처(814) 및 그 슬라이스(818)는 인코딩 또는 디코딩되는 이미지 또는 비디오와 연관된 데이터를 포함한다. 따라서, 픽처(814) 및 그들의 슬라이스(818)는 비트스트림(800)에서 운반되는 페이로드 또는 데이터라고 간단히 지칭될 수 있다.

당업자는 비트스트림(800)이 실제 애플리케이션에서 다른 파라미터 및 정보를 포함할 수 있음을 이해할 것이다.

도 9는 비디오 디코더(예를 들어, 비디오 디코더(400))에 의해 구현된 디코딩 방법(900)의 실시예이다. 방법(900)은 비트스트림이 비디오 인코더(예를 들어, 비디오 인코더(300))로부터 직접적으로 또는 간접적으로 수신된 후에 수행될 수 있다. 방법(900)은, 다층 비디오 비트스트림에 얼마나 많은 OLS가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 DPB 파라미터가 한번만 시그널링되는 것을 보장함으로써 디코딩 프로세스를 개선한다. 즉, DPB 파라미터는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

블록(902)에서, 비디오 디코더는 비디오 비트스트림을 수신한다. 비디오 비트스트림은 복수의 층(예를 들어, 층(631-635))을 포함한다. 비디오 비트스트림은 또한 각각이 복수의 층(예컨대, 층(631-633))으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(예를 들어, OLS 1, OLS 2, 및 OLS 3)(예를 들어, OLS 1은 층(631- 632)을 포함하고, OLS 2는 층(631-634)을 포함하며, OLS 3은 층(631-635)을 포함함)를 지정하는 비디오 파라미터 세트(예를 들어, VPS(804))를 포함한다. 또한, 비디오 비트스트림은 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(예컨대, SPS(806))를 포함한다.

도 6을 예로 들면, SPS는 OLS 중 둘 이상에 층(예를 들어, 층(631))이 포함되더라도, DPB 파라미터의 네 개(4)의 세트만을 포함할 수 있는데, 즉, 층(631)에 대한 DPB 파라미터 세트, 층(632)에 대한 DPB 파라미터 세트, 층(633)에 대한 DPB 파라미터 세트, 및 층(634)에 대한 DPB 파라미터 세트를 포함할 수 있다. 따라서, DPB 파라미터 세트는 특정 층이 둘 이상에 포함되는지 여부에 관계없이 SPS의 임의의 특정 층에 대해 반복되지 않으므로 코딩 효율이 향상된다. 따라서, 도 6을 예로 들면, SPS는 4개의 DPS 크기, 4개의 레벨 및/또는 4개의 MRML 정보 세트만을 포함할 것이다.

일 실시예에서, SPS에서 시그널링되는 DPB 파라미터의 세트들의 수는 층의 총 수와 동일하다. 예를 들어, 총 5개의 층을 사용할 수 있고, 그에 따라 SPS는 5개의 DPB 파라미터 세트만을 전달한다.

블록(904)에서, 비디오 디코더는 디코딩된 픽처를 획득하기 위해 복수의 층 중 하나로부터 픽처를 디코딩한다. 실시예에서, DPB 파라미터는 DPB에서 공간을 할당하는데 사용된다. DPB의 이 공간은 디코딩 프로세스에서 픽처를 디코딩하는 데 사용된다.

일 실시예에서, 방법(900)은 디코딩 이전에 하나 이상의 중 하나로부터 출력 층을 선택하는 단계를 더 포함한다. 일 실시예에서, 방법(900)은 출력 층이 선택된 후에 출력 층으로부터 픽처를 선택하는 단계를 더 포함한다.

실시예에서, DPB 파라미터의 세트는 제1 DPB 크기 및 제2 DPB 크기를 포함한다. 실시예에서, 제1 DPB 크기는 하나 이상의 층으로부터의 출력 층에 대응하고 제2 DPB 크기는 하나 이상의 층으로부터의 비출력 층에 대응한다. 일 실시예에서, DPB 파라미터의 세트는 하나 이상의 층으로부터의 출력 층 및 하나 이상의 층으로부터의 비출력 층 둘 모두가 단일 DPB 크기를 가질 때 단일 DPB 크기를 포함한다.

일 실시예에서, 방법(900)은 DPB 파라미터의 세트에 포함된 제1 DPB 크기로부터 제2 DPB 크기를 추론하는 단계를 더 포함한다. 일 실시예에서, 복수의 층으로부터의 하나 이상의 층 중 하나는 하나 이상의 하위층(예를 들어, 하위층(710, 720, 730))를 포함한다.

일단 픽처가 디코딩되면, 픽처는 전자 장치(예컨대, 스마트폰, 태블릿, 랩톱, 개인용 컴퓨터 등)의 디스플레이 또는 화면 상에서 사용자에게 디스플레이할 이미지 또는 비디오 시퀀스를 발생 또는 생성하는데 사용된다.

도 10은 비디오 인코더(예를 들어, 비디오 인코더(300))에 의해 구현된 비디오 비트스트림을 인코딩하는 방법(1000)의 실시예이다. 방법(900)은 (예를 들어, 비디오로부터의) 픽처가 비디오 비트스트림으로 인코딩되고 그런 다음 비디오 디코더(예를 들어, 비디오 디코더(400))를 향해 전송되어야 할 때 수행될 수 있다. 방법(900)은, 다층 비디오 비트스트림에 얼마나 많은 OLS가 포함되는지와는 무관하게 각 층 또는 하위층에 대해 디코딩된 픽처 버퍼(DPB) 파라미터(예를 들어, DPB 크기 등)가 한번만 시그널링되는 것을 보장함으로써 인코딩 프로세스를 개선한다. 즉, DPB 파라미터는 OLS 중 하나에 층 또는 하위층이 포함될 때마다 시그널링되는 대신 층 또는 하위층 당 한 번 시그널링된다. 따라서, 동일한 DPB 파라미터 및 레벨 정보는 동일한 층 또는 하위층에 대해 반복적으로 시그널링되지 않으며, 이는 중복성을 감소시키고 다계층 비디오 비트스트림에 대한 코딩 효율을 증가시킨다. 따라서, 비디오 코딩의 코더/디코더(일명 "코덱")는 현재 코덱에 비해 향상된다. 실질적으로, 개선된 비디오 코딩 프로세스는 비디오가 전송, 수신 및/또는 시청될 때 사용자에게 더 나은 사용자 경험을 제공한다.

블록(1002)에서, 비디오 인코더는 복수의 층(예를 들어, 층(631-635))을 생성한다. 비디오 인코더는 또한, 각각이 복수의 층(예컨대, 층(631-633))으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(예를 들어, OLS 1, OLS 2, 및 OLS 3)(예를 들어, OLS 1은 층(631-632)을 포함하고, OLS 2는 층(631-634)을 포함하며, OLS 3은 층(631-635)을 포함함)를 지정하는 비디오 파라미터 세트(예를 들어, VPS(804))를 생성한다. 또한, 비디오 인코더는 하나 이상의 층 중 하나 이상이 복수의 OLS 중 둘 이상에 포함된 경우 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(예컨대, SPS(806))를 생성한다.

일 실시예에서, SPS에서 시그널링되는 DPB 파라미터의 세트들의 수는 층의 총 수와 동일하다. 예를 들어, 총 5개의 층이 사용가능하고, 따라서 SPS는 5개의 DPB 파라미터 세트만을 전달한다.

일 실시예에서, 비디오 인코더는 하나 이상의 층 중 하나를 출력 층으로 지정하고 하나 이상의 층 중 다른 층을 비출력 층으로 지정한다. 일 실시예에서, DPB 파라미터의 세트는 제1 DPB 크기 및 제2 DPB 크기를 포함한다. 일 실시예에서, DPB 파라미터의 세트는 단일 DPB 크기를 포함한다. 일 실시예에서, 복수의 층으로부터의 하나 이상의 층 중 하나는 하나 이상의 하위층을 포함한다.

블록(1004)에서, 비디오 인코더는 복수의 층, VPS 및 SPS를 비디오 비트스트림으로 인코딩한다. 블록(1006)에서, 비디오 인코더는 비디오 디코더를 향한 통신을 위해 비디오 비트스트림을 저장한다. 비디오 비트스트림은 비디오 비트스트림이 비디오 디코더를 향해 전송될 때까지 메모리에 저장될 수 있다. 일단 비디오 디코더에 의해 수신되면, 인코딩된 비디오 비트스트림은 (예를 들어, 위에서 설명된 바와 같이) 디코딩되어 전자 장치(예를 들어, 스마트폰, 태블릿, 노트북, 개인용 컴퓨터 등)의 디스플레이 또는 화면 상에서 사용자에게 디스플레이할 이미지 또는 비디오 시퀀스를 발생 또는 생성할 수 있다.

도 11은 본 개시의 실시예에 따른 비디오 코딩 장치(1100)(예를 들어, 비디오 인코더(300) 또는 비디오 디코더(400))의 개략도이다. 비디오 코딩 장치(1100)는 본 명세서에서 설명된 바와 같이 개시된 실시예를 구현하기에 적합하다. 비디오 코딩 장치(1100)는 데이터를 수신하기 위한 입구 포트(1110) 및 수신기 유닛(Rx)(1120)과, 데이터를 처리하기 위한 프로세서, 로직 유닛, 또는 중앙 처리 장치(CPU)(1130)와, 데이터를 전송하기 위한 송신기 유닛(Tx))(1140) 및 출구 포트(1150)와, 데이터를 저장하기 위한 메모리(1160)를 포함한다. 비디오 코딩 장치(1100)는 또한 광학 또는 전기 신호의 출력 또는 입력을 위해 입구 포트(1110), 수신기 유닛(1120), 송신기 유닛(1140), 및 출구 포트(1150)에 결합된 광학-전기(OE) 컴포넌트 및 전기-광학(EO) 컴포넌트를 포함할 수 있다.

프로세서(1130)는 하드웨어 및 소프트웨어로 구현된다. 프로세서(1130)는 하나 이상의 CPU 칩, 코어(예를 들어, 멀티 코어 프로세서로서), 필드 프로그래머블 게이트 어레이(FPGA), 애플리케이션 특정 집적 회로(ASIC), 및 디지털 신호 프로세서(DSP)로서 구현될 수 있다. 프로세서(1130)는 입구 포트(1110), 수신기 유닛(1120), 송신기 유닛(1140), 출구 포트(1150), 및 메모리(1160)와 통신한다. 프로세서(1130)는 코딩 모듈(1170)을 포함한다. 코딩 모듈(1170)은 앞서 설명된 실시예를 구현한다. 예를 들면, 코딩 모듈(1170)은 다양한 코덱 기능을 구현, 처리, 준비 또는 제공할 수 있다. 따라서, 코딩 모듈(1170)의 포함은 비디오 코딩 장치(1100)의 기능에 대한 실질적인 개선을 제공하고 비디오 코딩 장치(1100)를 다른 상태로 변환하는 것에 영향을 미친다. 대안적으로, 코딩 모듈(1170)은 메모리(1160)에 저장되고 프로세서(1130)에 의해 실행되는 명령어로서 구현된다.

비디오 코딩 장치(1100)는 또한 사용자와 데이터를 통신하기 위한 입력 및/또는 출력(I/O) 장치(1180)를 포함할 수 있다. I/O 장치(1180)는 비디오 데이터를 표시하기 위한 디스플레이, 오디오 데이터를 출력하기 위한 스피커 등과 같은 출력 장치를 포함할 수 있다. I/O 장치(1180)는 또한 키보드, 마우스, 트랙볼 등, 및/또는 이러한 출력 장치와 상호 작용하기 위한 해당 인터페이스와 같은 입력 장치를 포함할 수 있다.

메모리(1160)는 하나 이상의 디스크, 테이프 드라이브 및 솔리드 스테이트 드라이브를 포함하고 오버플로 데이터 저장 장치로 사용될 수 있으며, 프로그램이 실행을 위해 선택될 때 이러한 프로그램을 저장하고, 또한 프로그램 실행 동안 판독되는 명령어 및 데이터를 저장한다. 메모리(1160)는 휘발성 및/또는 비휘발성일 수 있으며, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 3원 콘텐츠 어드레서블 메모리(TCAM) 및/또는 정적 랜덤 액세스 메모리(SRAM)일 수 있다.

도 12는 코딩 수단(1200)의 실시예의 개략도이다. 일 실시예에서, 코딩 수단(1200)은 비디오 코딩 장치(1202)(예를 들어, 비디오 인코더(300) 또는 비디오 디코더(400))에서 구현된다. 비디오 코딩 장치(1202)는 수신 수단(1201)을 포함한다. 수신 수단(1201)은 인코딩할 픽처를 수신하거나 디코딩할 비트스트림을 수신하도록 구성된다. 비디오 코딩 장치(1202)는 수신 수단(1201)에 연결된 전송 수단(1207)을 포함한다. 전송 수단(1207)은 비트스트림을 디코더로 전송하거나 디코딩된 이미지를 디스플레이 수단(예를 들어, I/O 장치(1180) 중 하나)에 전송하도록 구성된다.

비디오 코딩 장치(1202)는 저장 수단(1203)을 포함한다. 저장 수단(1203)은 수신 수단(1201) 또는 전송 수단(1207) 중 적어도 하나에 연결된다. 저장 수단(1203)은 명령어를 저장하도록 구성된다. 비디오 코딩 장치(1202)는 또한 프로세싱 수단(1205)을 포함한다. 프로세싱 수단(1205)은 저장 수단(1203)에 연결된다. 프로세싱 수단(1205)은 본 명세서에 개시된 방법을 수행하기 위해 저장 수단(1203)에 저장된 명령어를 실행하도록 구성된다.

또한 본 명세서에 설명된 예시적인 방법의 단계는 설명된 순서대로 수행될 필요가 없으며 이러한 방법의 단계의 순서는 단지 예시적인 것으로 이해되어야 한다. 마찬가지로, 이러한 방법에는 추가적인 단계가 포함될 수 있으며, 본 개시의 다양한 실시예에 따른 방법에서 특정 단계는 생략되거나 결합될 수 있다.

본 개시에서 몇몇 실시예가 제공되었지만, 개시된 시스템 및 방법은 본 개시의 사상 또는 범위를 벗어나지 않고 많은 다른 특정 형태로 구현될 수 있음을 이해할 수 있다. 본 예는 제한이 아닌 예시적인 것으로 간주되어야 하며, 그러한 의도는 본 명세서에 제공된 세부 사항으로 국한되지 않는다. 예를 들어, 다양한 요소 또는 컴포넌트들은 다른 시스템에서는 결합 또는 통합될 수 있고, 또는 특정 특징이 생략되거나 구현되지 않을 수 있다.

또한, 다양한 실시예에서 개별적이거나 분리된 것으로 설명되고 예시된 기술, 시스템, 서브시스템 및 방법은 본 개시의 범위를 벗어나지 않고 다른 시스템, 모듈, 기술, 또는 방법과 결합되거나 통합될 수 있다. 결합되거나 또는 직접적으로 결합된 것으로 또는 서로 통신하는 것으로 도시되거나 논의된 다른 항목들은 전기적으로, 기계적으로 또는 다른 방식으로든 일부 인터페이스, 장치 또는 중간 컴포넌트를 통해 간접적으로 결합되거나 통신할 수 있다. 변경, 대체 및 변형의 다른 예는 당업자에 의해 확인 가능하고 본 명세서에 개시된 정신 및 범위를 벗어나지 않고 이루어질 수 있다.

Claims

비디오 디코더에 의해 구현되는 디코딩 방법으로서,
상기 비디오 디코더에 의해, 복수의 층, 각각이 상기 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우 상기 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 포함하는 비디오 비트스트림을 수신하는 단계와,
상기 비디오 디코더에 의해, 상기 복수의 층 중 하나로부터의 픽처를 디코딩하여 디코딩된 픽처를 획득하는 단계를 포함하는
디코딩 방법.
제1항에 있어서,
상기 디코딩 이전에 상기 하나 이상의 층 중 하나로부터 출력 층을 선택하는 단계를 더 포함하는
디코딩 방법.
제1항 또는 제2항에 있어서,
상기 출력 층이 선택된 후에 상기 출력 층으로부터 상기 픽처를 선택하는 단계를 더 포함하는
디코딩 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 DPB 파라미터의 세트는 제1 DPB 크기 및 제2 DPB 크기를 포함하는
디코딩 방법.
제4항에 있어서,
상기 제1 DPB 크기는 상기 하나 이상의 층으로부터의 출력 층에 대응하고, 상기 제2 DPB 크기는 상기 하나 이상의 층으로부터의 비출력 층에 대응하는
디코딩 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 SPS는 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우, 상기 하나 이상의 층 각각에 대한 레벨 정보를 한 번만 포함하는
디코딩 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 DPB 파라미터의 세트에 포함된 제1 DPB 크기로부터 제2 DPB 크기를 추론하는 단계를 더 포함하는
디코딩 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 복수의 층으로부터의 상기 하나 이상 층 중 하나는 하나 이상의 하위층을 포함하는
디코딩 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
전자 장치의 디스플레이 상에 상기 디코딩된 픽처를 디스플레이하는 단계를 더 포함하는
디코딩 방법.
비디오 인코더에 의해 구현되는 인코딩 방법으로서,
상기 비디오 인코더에 의해, 복수의 층, 각각이 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우 상기 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 생성하는 단계와,
상기 비디오 인코더에 의해, 상기 복수의 층, 상기 VPS 및 상기 SPS를 비디오 비트스트림으로 인코딩하는 단계와,
상기 비디오 인코더에 의해, 비디오 디코더를 향한 통신을 위해 상기 비디오 비트스트림을 저장하는 단계를 포함하는
인코딩 방법.
제10항에 있어서,
상기 하나 이상의 층 중 하나를 출력 층으로 지정하고, 상기 하나 이상의 층 중 다른 층을 비출력 층으로 지정하는 단계를 더 포함하는
인코딩 방법.
제10항 또는 제11항에 있어서,
상기 SPS는, 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우, 상기 하나 이상의 층 각각에 대한 레벨 정보를 한 번만 포함하는
인코딩 방법.
제10항 내지 제12항 중 어느 한 항에 있어서,
상기 DPB 파라미터의 세트는 단일 DPB 크기를 포함하는
인코딩 방법.
제10항 내지 제13항 중 어느 한 항에 있어서,
상기 복수의 층으로부터의 상기 하나 이상의 층 중 하나는 하나 이상의 하위층을 포함하는
인코딩 방법.
디코딩 장치로서,
복수의 층, 각각이 상기 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우 상기 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 포함하는 비디오 비트스트림을 수신하는 수신기와,
상기 수신기에 결합되며, 명령어를 저장하는 메모리와,
상기 메모리에 결합되며, 상기 디코딩 장치로 하여금 상기 복수의 층 중 하나로부터의 픽처를 디코딩하여 디코딩된 픽처를 획득하게 하도록 구성된 프로세서를 포함하는
디코딩 장치.
제15항에 있어서,
상기 프로세서는
상기 디코딩 이전에 상기 하나 이상의 층 중 하나로부터 출력 층을 선택하고,
상기 출력 층이 선택된 후에 상기 출력 층으로부터 상기 픽처를 선택하도록 더 구성된
디코딩 장치.
제15항 또는 제16항에 있어서,
상기 DPB 파라미터의 세트는 제1 DPB 크기 및 제2 DPB 크기를 포함하는
디코딩 장치.
제15항 내지 제17항 중 어느 한 항에 있어서,
상기 제1 DPB 크기는 상기 하나 이상의 층으로부터의 출력 층에 대응하고, 상기 제2 DPB 크기는 상기 하나 이상의 층으로부터의 비출력 층에 대응하는
디코딩 장치.
제18항에 있어서,
상기 DPB 파라미터의 세트는 상기 하나 이상의 층으로부터의 출력 층과 상기 하나 이상의 층으로부터의 비출력 층이 모두 단일 DPB 크기를 가질 때 단일 DPB 크기를 포함하는
디코딩 장치.
제15항 내지 제19항 중 어느 한 항에 있어서,
상기 프로세서는 상기 DPB 파라미터의 세트에 포함된 제1 DPB 크기로부터 제2 DPB 크기를 추론하도록 더 구성된
디코딩 장치.
제15항 내지 제20항 중 어느 한 항에 있어서,
상기 복수의 층으로부터의 상기 하나 이상 층 중 하나는 하나 이상의 하위층을 포함하는
디코딩 장치.
제15항 내지 제21항 중 어느 한 항에 있어서,
상기 디코딩된 픽처를 디스플레이하도록 구성된 디스플레이를 더 포함하는
디코딩 장치.
인코딩 장치로서,
명령어를 포함하는 메모리와,
상기 메모리에 결합된 프로세서- 상기 프로세서는 상기 인코딩 장치로 하여금:
복수의 층, 각각이 상기 복수의 층으로부터의 하나 이상의 층을 포함하는 복수의 출력 층 세트(OLS)를 지정하는 비디오 파라미터 세트(VPS), 및 상기 하나 이상의 층 중 하나 이상이 상기 복수의 OLS 중 둘 이상에 포함된 경우 상기 하나 이상의 층 각각에 대해 디코딩된 픽처 버퍼(DPB) 파라미터 세트를 한번만 포함하는 시퀀스 파라미터 세트(SPS)를 생성하게 하고,
상기 복수의 층, 상기 VPS 및 상기 SPS를 비디오 비트스트림으로 인코딩하게 하도록 상기 명령어를 구현하도록 구성됨 -와,
상기 프로세서에 결합되어 비디오 디코더를 향해 상기 비디오 비트스트림을 전송하도록 구성된 송신기를 포함하는
인코딩 장치.
제23항에 있어서,
상기 프로세서는 상기 인코딩 장치로 하여금 상기 하나 이상의 층 중 하나를 출력 층으로 지정하고 상기 하나 이상의 층 중 다른 하나를 비출력 층으로 지정하게 하도록 더 구성되는
인코딩 장치.
제23항 또는 제24항에 있어서,
상기 DPB 파라미터의 세트는 제1 DPB 크기 및 제2 DPB 크기를 포함하는
인코딩 장치.
제23항 내지 제25항 중 어느 한 항에 있어서,
상기 DPB 파라미터의 세트는 단일 DPB 크기를 포함하는
인코딩 장치.
제23항 내지 제26항 중 어느 한 항에 있어서,
상기 하나 이상의 층 중 하나는 하나 이상의 하위층을 포함하는
인코딩 장치.
코딩 장치로서,
인코딩할 픽처를 수신하거나 디코딩할 비트스트림을 수신하도록 구성된 수신기와,
상기 수신기에 결합되고, 상기 비트스트림을 디코더로 전송하거나 디코딩된 이미지를 디스플레이로 전송하도록 구성된 송신기와,
상기 수신기 또는 상기 송신기 중 적어도 하나에 결합되고 명령어를 저장하도록 구성된 메모리와,
제1항 내지 제9항 및 제10항 내지 제14항 중 어느 한 항의 방법을 수행하기 위해 상기 메모리에 저장된 명령어를 실행하도록 구성된 프로세서를 포함하는
코딩 장치.
제28항에 있어서,
디코딩된 픽처를 디스플레이하도록 구성된 디스플레이를 더 포함하는
코딩 장치.
시스템으로서,
인코더와,
상기 인코더와 통신하는 디코더를 포함하되,
상기 인코더 또는 상기 디코더는 제15항 내지 제29항 중 어느 한 항의 상기 디코딩 장치, 상기 인코딩 장치, 또는 상기 코딩 장치를 포함하는
시스템.
코딩 수단으로서,
인코딩할 픽처를 수신하거나 디코딩할 비트스트림을 수신하도록 구성된 수신 수단과,
상기 수신 수단에 결합되고, 상기 비트스트림을 디코딩 수단으로 전송하거나 디코딩된 이미지를 디스플레이 수단으로 전송하도록 구성된 전송 수단과,
상기 수신 수단 또는 상기 전송 수단 중 적어도 하나에 결합되고 상기 명령어를 저장하도록 구성된 저장 수단과,
상기 저장 수단에 결합된 프로세싱 수단- 상기 프로세싱 수단은 제1항 내지 제9항 및 제10항 내지 제14항 중 어느 한 항의 방법을 수행하기 위해 상기 저장 수단에 저장된 명령어를 실행하도록 구성됨 -을 포함하는
시스템.