KR20210148343A - 다층 비디오 스트림에 대한 출력 계층 세트를 위한 방법 - Google Patents

다층 비디오 스트림에 대한 출력 계층 세트를 위한 방법 Download PDF

Info

Publication number
KR20210148343A
KR20210148343A KR1020217036630A KR20217036630A KR20210148343A KR 20210148343 A KR20210148343 A KR 20210148343A KR 1020217036630 A KR1020217036630 A KR 1020217036630A KR 20217036630 A KR20217036630 A KR 20217036630A KR 20210148343 A KR20210148343 A KR 20210148343A
Authority
KR
South Korea
Prior art keywords
layer
picture
syntax element
parameter set
output layer
Prior art date
Application number
KR1020217036630A
Other languages
English (en)
Inventor
병두 최
산 류
스테판 웽거
Original Assignee
텐센트 아메리카 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 아메리카 엘엘씨 filed Critical 텐센트 아메리카 엘엘씨
Publication of KR20210148343A publication Critical patent/KR20210148343A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/752Media network packet handling adapting media to network capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

코딩 및 디코딩을 위한 시스템들 및 방법들이 제공된다. 방법은 파라미터 세트 및 복수의 계층으로 파티셔닝된 비디오 데이터를 포함하는 코딩된 비디오 스트림을 수신하는 단계; 파라미터 세트에 기초하여, 복수의 계층 중에서, 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 출력 계층 세트의 프로파일-티어-레벨 정보(profile-tier-level information)를 표시하는 적어도 하나의 제2 신택스 요소를 도출하는 단계; 및 파라미터 세트로부터 도출된 정보에 기초하여, 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하는 단계를 포함한다.

Description

다층 비디오 스트림에 대한 출력 계층 세트를 위한 방법
본 출원은 2020년 3월 27일자로 출원된 미국 가출원 제63/001,018호 및 2020년 8월 7일자로 출원된 미국 출원 제16/987,911호로부터 우선권을 주장하며, 그 전체가 본 명세서에 포함된다.
본 개시내용의 실시예들은 비디오 코딩 및 디코딩에 관한 것으로, 보다 구체적으로는, 다수의 계층을 갖는 코딩된 비디오 스트림에서의 출력 계층 도출에 관한 것이다.
모션 보상을 갖는 인터-픽처 예측(inter-picture prediction)을 사용하는 비디오 코딩 및 디코딩이 이전에 사용되어 왔다. 압축되지 않은 디지털 비디오는 일련의 픽처들을 포함할 수 있고, 각각의 픽처는, 예를 들어, 1920x1080 루미넌스 샘플들 및 연관된 크로미넌스 샘플들의 공간 차원(spatial dimension)을 갖는다. 이 일련의 픽처들은, 예를 들어, 초당 60개 픽처 또는 60 Hz의, 고정 또는 가변 픽처 레이트(비공식적으로 프레임 레이트로도 알려져 있음)를 가질 수 있다. 압축되지 않은 비디오는 상당한 비트레이트 요건들을 갖는다. 예를 들어, 샘플당 8 비트에서의 1080p60 4:2:0 비디오(60Hz 프레임 레이트에서의 1920x1080 루미넌스 샘플 해상도)는 1.5Gbit/s 대역폭에 가까울 것을 요구한다. 한 시간의 그러한 비디오는 600 GByte보다 많은 저장 공간을 요구한다.
비디오 코딩 및 디코딩의 하나의 목적은, 압축을 통한, 입력 비디오 신호에서의 중복성(redundancy)의 감소일 수 있다. 압축은 전술한 대역폭 또는 저장 공간 요건들을, 일부 경우에서, 2 자릿수 이상 감소시키는 데 도움이 될 수 있다. 무손실 및 손실 압축 둘 다뿐만 아니라 이들의 조합이 이용될 수 있다. 무손실 압축은 압축된 원래 신호(original signal)로부터 원래 신호의 정확한 사본(exact copy)이 재구성될 수 있는 기법들을 지칭한다. 손실 압축을 사용할 때, 재구성된 신호는 원래 신호와 동일하지 않을 수 있지만, 원래 신호와 재구성된 신호 사이의 왜곡은 재구성된 신호를 의도된 애플리케이션에 유용하게 만들 정도로 충분히 작을 수 있다. 비디오의 경우에, 손실 압축이 널리 이용된다. 용인되는 왜곡의 양은 애플리케이션에 의존하는데; 예를 들어, 특정 소비자 스트리밍 애플리케이션들의 사용자들은 텔레비전 배포 애플리케이션들의 사용자들보다 더 높은 왜곡을 용인할 수 있다. 달성가능한 압축비는: 더 높은 허용가능한/용인가능한 왜곡이 더 높은 압축비를 산출할 수 있다는 것을 반영할 수 있다.
비디오 인코더 및 디코더는, 예를 들어, 모션 보상, 변환, 양자화, 및 엔트로피 코딩을 포함한, 몇가지 광범위한 카테고리로부터의 기법들을 이용할 수 있으며, 이들 중 일부는 아래에서 소개될 것이다.
이전에는, 비디오 인코더들 및 디코더들이, 대부분의 경우에, CVS(coded video sequence), GOP(Group of Pictures), 또는 유사한 멀티-픽처 타임프레임(multi-picture timeframe)에 대해 정의되고 일정하게 유지된 주어진 픽처 크기에서 동작하는 경향이 있었다. 예를 들어, MPEG-2에서, 시스템 설계들은 장면의 액티비티와 같은 인자들에 따라, 그러나 I 픽처들에서만, 따라서 통상적으로 GOP에 대해 수평 해상도(및 그에 따라 픽처 크기)를 변경하는 데 사용되었다. 예를 들어, ITU-T Rec. H.263 Annex P에서는 CVS 내의 상이한 해상도들의 사용을 위한 참조 픽처들의 리샘플링이 사용되었다. 그러나, 여기서 픽처 크기는 변경되지 않고, 참조 픽처들만이 리샘플링되고 있으므로, 잠재적으로 픽처 캔버스의 부분들만이 사용되거나(다운샘플링의 경우), 또는 장면의 부분들만이 캡처된다(업샘플링의 경우). 또한, H.263 Annex Q는 (각각의 차원에서) 2배만큼 상향 또는 하향으로 개별 매크로블록의 리샘플링을 허용한다. 다시, 픽처 크기는 동일하게 유지된다. 매크로블록의 크기는 H.263에서 고정되므로, 시그널링될 필요가 없다.
예측된 픽처들에서의 픽처 크기의 변경들은 현대의 비디오 코딩에서 더 주류가 되었다. 예를 들어, VP9는 참조 픽처 리샘플링 및 전체 픽처에 대한 해상도 변경을 허용한다. 유사하게, VVC를 향해 실시된 특정 제안들(예를 들어, 그 전체가 본 명세서에 포함되는, Hendry 등의 "On adaptive resolution change(ARC) for VVC", Joint Video Team 문헌 JVET-M0135-v1, Jan 9-19, 2019를 포함함)은 전체 참조 픽처들을 상이한- 더 높거나 더 낮은 -해상도들로 리샘플링하는 것을 허용한다. 그 문헌에서는, 상이한 후보 해상도들이 시퀀스 파라미터 세트에서 코딩되고 픽처 파라미터 세트에서 픽처별 신택스 요소들(per-picture syntax elements)에 의해 참조되도록 제안된다.
Bross 등의 "Versatile Video Coding (Draft 8)", Joint Video Experts Team 문헌 JVET-Q2001-vE, Jan 7-17, 2020은 그 전체가 본 명세서에 포함된다.
픽처들이 상이한 품질들을 갖는 다수의 계층을 포함하거나 이들로 구성되는 비트스트림으로 인코딩될 때, 비트스트림은 어느 계층들이 디코더에서 출력될 수 있는지를 특정하는 신택스 요소들을 가질 수 있다. 출력될 계층들의 세트는 출력 계층 세트(output layer set)로서 정의된다. 다수의 계층 및 확장성을 지원하는 최신 비디오 코덱에서, 하나 이상의 출력 계층 세트는 비디오 파라미터 세트에서 시그널링된다. 출력 계층 세트들 및 그들의 의존성, 프로파일/티어/레벨, 및 가상 디코더 참조 모델 파라미터들을 특정하는 이러한 신택스 요소들은 파라미터 세트에서 효율적으로 시그널링될 필요가 있다. 본 개시내용의 일부 실시예들은 파라미터 세트에서 이러한 정보의 효율적인 시그널링을 제공한다.
하나 이상의 실시예에 따르면, 방법이 제공된다. 이 방법은, 파라미터 세트 및 복수의 계층으로 파티셔닝된 비디오 데이터를 포함하는 코딩된 비디오 스트림을 수신하는 단계; 파라미터 세트에 기초하여, (1) 복수의 계층 중에서, 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 (2) 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 도출하는 단계; 및 파라미터 세트로부터 도출된 정보에 기초하여, 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하는 단계를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 파라미터 세트를 참조하는 코딩된 비디오 스트림의 코딩된 비디오 시퀀스에서의 출력 계층 세트의 프로파일-티어-레벨 정보의 수를 표시하는 제3 신택스 요소를 포함한다.
일 실시예에 따르면, 제3 신택스 요소는, 파라미터 세트를 참조하는 코딩된 비디오 스트림의 각각의 코딩된 비디오 시퀀스에서 허용된 최대 계층 수가 1보다 큰 것에 기초하여, 파라미터 세트 내에서 시그널링된다.
일 실시예에 따르면, 적어도 하나의 제2 신택스 요소는 프로파일-티어-레벨 정보를 표시하는 신택스 요소들의 세트를 포함하거나, 프로파일-티어-레벨 정보 세트에서의 적어도 하나의 엔트리를 표시하는 인덱스를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 출력 계층 세트에 대한 출력 계층 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함한다.
일 실시예에 따르면, 적어도 하나의 제1 신택스 요소는 제3 신택스 요소에 의해 표시된 모드에 기초하여 파라미터 세트 내에서 시그널링된다.
일 실시예에 따르면, 적어도 하나의 제1 신택스 요소는 복수의 계층 중 하나가 출력될 것인지 표시하는 플래그를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 출력 계층 세트를 포함하는 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함하고, 파라미터 세트에 기초하여 코딩된 비디오 스트림을 디코딩하는 것은, 제3 신택스 요소에 의해 표시되는 모드에 기초하여, 복수의 계층 중에서, 제2 계층을 출력할지를 추론하는 것을 추가로 포함한다.
일 실시예에 따르면, 코딩된 비디오 스트림을 디코딩하는 것은, 파라미터 세트에 기초하여, 출력 계층 세트를 포함하는 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 추론하는 것을 추가로 포함한다.
일 실시예에 따르면, 파라미터 세트는 비디오 파라미터 세트이다.
하나 이상의 실시예들에 따르면, 파라미터 세트 및 복수의 계층으로 파티셔닝된 비디오 데이터를 포함하는 코딩된 비디오 스트림을 디코딩하는 시스템이 제공된다. 시스템은: 컴퓨터 프로그램 코드를 저장하도록 구성되는 메모리; 및 코딩된 비디오 스트림을 수신하고, 컴퓨터 프로그램 코드에 액세스하고, 컴퓨터 프로그램 코드에 의해 지시된 대로 동작하도록 구성되는 적어도 하나의 프로세서를 포함하고, 컴퓨터 프로그램 코드는: 적어도 하나의 프로세서로 하여금, 파라미터 세트에 기초하여, 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하게 하도록 구성되는 디코딩 코드를 포함하고, 파라미터 세트는, 복수의 계층 중에서, 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 파라미터 세트를 참조하는 코딩된 비디오 스트림의 코딩된 비디오 시퀀스에서의 출력 계층 세트의 프로파일-티어-레벨 정보의 수를 표시하는 제3 신택스 요소를 추가로 포함한다.
일 실시예에 따르면, 제3 신택스 요소는, 파라미터 세트를 참조하는 코딩된 비디오 스트림의 각각의 코딩된 비디오 시퀀스에서 허용된 최대 계층 수가 1보다 큰 것에 기초하여, 파라미터 세트 내에서 시그널링된다.
일 실시예에 따르면, 적어도 하나의 제2 신택스 요소는 프로파일-티어-레벨 정보를 표시하는 신택스 요소들의 세트를 포함하거나, 프로파일-티어-레벨 정보 세트에서의 적어도 하나의 엔트리를 표시하는 인덱스를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 출력 계층 세트에 대한 출력 계층 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함한다.
일 실시예에 따르면, 적어도 하나의 제1 신택스 요소는 제3 신택스 요소에 의해 표시된 모드에 기초하여 파라미터 세트 내에서 시그널링된다.
일 실시예에 따르면, 적어도 하나의 제1 신택스 요소는 복수의 계층 중 하나가 출력될 것인지 표시하는 플래그를 포함한다.
일 실시예에 따르면, 파라미터 세트는, 출력 계층 세트를 포함하는 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함하고, 디코딩 코드는, 적어도 하나의 프로세서로 하여금, 제3 신택스 요소에 의해 표시된 모드에 기초하여, 복수의 계층 중에서, 제2 계층을 출력할지를 추론하게 하도록 추가로 구성된다.
일 실시예에 따르면, 디코딩 코드는, 적어도 하나의 프로세서로 하여금, 파라미터 세트에 기초하여, 출력 계층 세트를 포함하는 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 추론하게 하도록 추가로 구성된다.
하나 이상의 실시예에 따르면, 컴퓨터 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체가 제공된다. 컴퓨터 명령어들은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금: 파라미터 세트에 기초하여, 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하게 하고, 코딩된 비디오 스트림은 파라미터 세트 및 비디오 데이터를 포함하고, 비디오 데이터는 복수의 계층으로 파티셔닝되고, 파라미터 세트는, 복수의 계층 중에서, 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 포함한다.
개시된 주제의 추가의 특징들, 본질 및 다양한 이점들이 다음의 상세한 설명 및 첨부 도면들로부터 더 명백해질 것이다.
도 1은 일 실시예에 따른 통신 시스템의 단순화된 블록도의 개략적인 예시이다.
도 2는 일 실시예에 따른 통신 시스템의 단순화된 블록도의 개략적인 예시이다.
도 3은 일 실시예에 따른 디코더의 단순화된 블록도의 개략적인 예시이다.
도 4는 일 실시예에 따른 인코더의 단순화된 블록도의 개략적인 예시이다.
도 5a는 비교 기술 실시예에 따른 ARC 파라미터들을 시그널링하기 위한 제1 구성의 개략적인 예시이다.
도 5b는 비교 기술 실시예에 따른 ARC 파라미터들을 시그널링하기 위한 제2 구성의 개략적인 예시이다.
도 6a는 일 실시예에 따른 ARC 파라미터들을 시그널링하기 위한 제1 구성의 개략적인 예시이다.
도 6b는 일 실시예에 따른 ARC 파라미터들을 시그널링하기 위한 제2 구성의 개략적인 예시이다.
도 6c는 일 실시예에 따른 ARC 파라미터들을 시그널링하기 위한 제3 구성의 개략적인 예시이다.
도 7a는 일 실시예에 따른 타일 그룹 헤더의 발췌의 개략적인 예시이다.
도 7b는 일 실시예에 따른 시퀀스 파라미터 세트의 발췌의 개략적인 예시이다.
도 8은 적응적 해상도 변경에 따른 확장성에 대한 예측 구조의 일 예이다.
도 9a는 일 실시예에 따른 신택스 테이블의 일 예를 예시한다.
도 9b는 일 실시예에 따른 신택스 테이블의 일 예를 예시한다.
도 10은 일 실시예에 따른, 액세스 유닛 카운트 값 및 액세스 유닛 당 POC 사이클을 파싱 및 디코딩하는 단순화된 블록도의 개략적인 예시이다.
도 11은 일 실시예에 따른, 다수-계층형 서브-픽처들(multi-layered sub-pictures)을 포함하는 비디오 비트스트림 구조의 개략적인 예시이다.
도 12는 일 실시예에 따른, 향상된 해상도를 갖는 선택된 서브-픽처의 디스플레이의 개략적인 예시이다.
도 13은 일 실시예들에 따른 다수-계층형 서브-픽처들을 포함하는 비디오 비트스트림에 대한 디코딩 및 디스플레이 프로세스의 블록도이다.
도 14는 일 실시예에 따른, 서브-픽처의 향상 계층(enhancement layer)을 갖는 360 비디오 디스플레이의 개략적인 예시이다.
도 15a는 일 실시예에 따른 분할된 서브-픽처들의 레이아웃의 일 예를 예시한다.
도 15b는 일 실시예에 따른 하나의 서브-픽처의 대응하는 서브-픽처 크기 및 포지션 정보의 일 예를 예시한다.
도 16은 도 15a-b에 예시된 서브-픽처들의 대응하는 픽처 예측 구조를 예시한다.
도 17은 일 실시예에 따른, 하나 이상의 계층으로 코딩될 수 있는 다수의 서브-영역으로 분할된 입력 픽처의 일 예를 예시한다.
도 18은 도 17에 예시된 서브-영역들의, 로컬 영역의 공간 확장성 모달리티를 갖는, 대응하는 계층 및 픽처 예측 구조를 예시한다.
도 19a는 일 실시예에 따른 비디오 파라미터 세트의 발췌의 개략적인 예시이다.
도 19b는 일 실시예에 따른 시퀀스 파라미터 세트의 발췌의 개략적인 예시이다.
도 20은 일 실시예들에 따른 서브-픽처 레이아웃 정보에 대한 신택스 테이블의 일 예이다.
도 21은 일 실시예에 따른, 출력 계층들 및 각각의 출력 계층 세트에 대한 프로파일/티어/레벨 정보를 표시하기 위한 신택스 테이블의 일 예이다.
도 22는 일 실시예에 따른, 각각의 출력 계층 세트에 대한 출력 계층 모드 온을 표시하기 위한 신택스 테이블의 일 예이다.
도 23은 각각의 출력 계층 세트에 대한 각각의 계층의 현재의 서브픽처를 표시하기 위한 신택스 테이블의 일 예이다.
도 24는 비디오 파라미터 세트 RBSP의 신택스 테이블의 일 예이다.
도 25는 출력 계층 세트 모드를 갖는 출력 계층 세트를 표시하기 위한 신택스 테이블의 일 예이다.
도 26은 일 실시예에 따른 디코더의 도면이다.
도 27은 실시예들을 구현하기에 적합한 컴퓨터 시스템의 도면이다.
도 1은 본 개시내용의 일 실시예에 따른 통신 시스템(100)의 단순화된 블록도를 예시한다. 시스템(100)은 네트워크(150)를 통해 상호접속되는 적어도 2개의 단말(110, 120)을 포함할 수 있다. 데이터의 단방향 송신을 위해, 제1 단말(110)은 네트워크(150)를 통해 다른 단말(120)로 송신하기 위해 로컬 위치에서 비디오 데이터를 코딩할 수 있다. 제2 단말(120)은 네트워크(150)로부터 다른 단말의 코딩된 비디오 데이터를 수신하고, 코딩된 데이터를 디코딩하고 복구된 비디오 데이터를 디스플레이할 수 있다. 단방향 데이터 송신은 매체 서빙 애플리케이션들(media serving applications) 등에서 일반적일 수 있다.
도 1은, 예를 들어, 영상회의(videoconferencing) 동안 발생할 수 있는 코딩된 비디오의 양방향 송신을 지원하기 위해 제공되는 제2 쌍의 단말들(130, 140)을 예시한다. 데이터의 양방향 송신을 위해, 각각의 단말(130, 140)은 네트워크(150)를 통해 다른 단말로 송신하기 위해 로컬 위치에서 캡처된 비디오 데이터를 코딩할 수 있다. 각각의 단말(130, 140)은 또한 다른 단말에 의해 송신된 코딩된 비디오 데이터를 수신할 수 있고, 코딩된 데이터를 디코딩할 수 있고, 복구된 비디오 데이터를 로컬 디스플레이 디바이스에서 디스플레이할 수 있다.
도 1에서, 단말들(110-140)은 서버들, 개인용 컴퓨터들, 및 스마트폰들, 및/또는 임의의 다른 타입의 단말로서 예시될 수 있다. 예를 들어, 단말들(110-140)은 랩톱 컴퓨터들, 태블릿 컴퓨터들, 매체 플레이어들 및/또는 전용 영상 회의 장비일 수 있다. 네트워크(150)는, 예를 들어 유선 및/또는 무선 통신 네트워크들을 포함하여, 단말들(110-140) 사이에서 코딩된 비디오 데이터를 전달하는 임의의 수의 네트워크를 표현한다. 통신 네트워크(150)는 회선 교환(circuit-switched) 및/또는 패킷 교환(packet-switched) 채널들에서 데이터를 교환할 수 있다. 대표적인 네트워크들은 원거리통신(telecommunications) 네트워크들, 로컬 영역 네트워크들, 광역 네트워크들 및/또는 인터넷을 포함한다. 본 논의를 목적으로, 네트워크(150)의 아키텍처 및 토폴로지는 본 명세서에서 아래 설명되지 않는 한 본 개시내용의 동작에 중요하지 않을 수 있다.
도 2는, 개시된 주제에 대한 애플리케이션을 위한 일 예로서, 스트리밍 환경에서의 비디오 인코더 및 디코더의 배치를 예시한다. 개시된 주제는, 예를 들어, 영상 회의, 디지털 TV, CD, DVD, 메모리 스틱 등을 포함하는 디지털 매체 상의 압축된 비디오의 저장 등을 포함하여, 다른 비디오 인에이블 애플리케이션들에 동등하게 적용가능할 수 있다.
도 2에 예시된 바와 같이, 스트리밍 시스템(200)은 비디오 소스(201) 및 인코더(203)를 포함할 수 있는 캡처 서브시스템(213)을 포함할 수 있다. 비디오 소스(201)는, 예를 들어, 디지털 카메라일 수 있고, 압축되지 않은 비디오 샘플 스트림(202)을 생성하도록 구성될 수 있다. 압축되지 않은 비디오 샘플 스트림(202)은 인코딩된 비디오 비트스트림들과 비교할 때 높은 데이터 볼륨을 제공할 수 있고, 카메라(201)에 결합된 인코더(203)에 의해 처리될 수 있다. 인코더(203)는 아래에서 더 상세히 설명되는 바와 같이 개시된 주제의 양태들을 가능하게 하거나 구현하기 위해 하드웨어, 소프트웨어, 또는 이들의 조합을 포함할 수 있다. 인코딩된 비디오 비트스트림(204)은 샘플 스트림과 비교할 때 더 낮은 데이터 볼륨을 포함할 수 있고, 미래의 사용을 위해 스트리밍 서버(205) 상에 저장될 수 있다. 하나 이상의 스트리밍 클라이언트(206)는 스트리밍 서버(205)에 액세스하여 인코딩된 비디오 비트스트림(204)의 사본들일 수 있는 비디오 비트 스트림들(209)을 검색할 수 있다.
실시예들에서, 스트리밍 서버(205)는 또한 MANE(Media-Aware Network Element)로서 기능할 수 있다. 예를 들어, 스트리밍 서버(205)는 잠재적으로 상이한 비트스트림들을 스트리밍 클라이언트들(206) 중 하나 이상에 맞춤화하기 위해 인코딩된 비디오 비트스트림(204)을 프루닝(prune)하도록 구성될 수 있다. 실시예들에서, MANE는 스트리밍 시스템(200)에서 스트리밍 서버(205)와 별개로 제공될 수 있다.
스트리밍 클라이언트들(206)은 비디오 디코더(210) 및 디스플레이(212)를 포함할 수 있다. 비디오 디코더(210)는, 예를 들어, 인코딩된 비디오 비트스트림(204)의 착신 사본인 비디오 비트스트림(209)을 디코딩하고, 디스플레이(212) 또는 다른 렌더링 디바이스(묘사되지 않음) 상에 렌더링될 수 있는 발신 비디오 샘플 스트림(211)을 생성할 수 있다. 일부 스트리밍 시스템들에서, 비디오 비트스트림들(204, 209)은 특정 비디오 코딩/압축 표준들에 따라 인코딩될 수 있다. 그러한 표준들의 예들은 ITU-T 권고안(Recommendation) H.265를 포함하지만, 이에 제한되지 않는다. VVC(Versatile Video Coding)로서 비공식적으로 알려진 비디오 코딩 표준이 개발 중이다. 본 개시내용의 실시예들은 VVC의 맥락에서 사용될 수 있다.
도 3은 본 개시내용의 일 실시예에 따른 디스플레이(212)에 부착되는 비디오 디코더(210)의 예시적인 기능 블록도를 예시한다.
비디오 디코더(210)는 채널(312), 수신기(310), 버퍼 메모리(315), 엔트로피 디코더/파서(320), 스케일러/역변환 유닛(351), 인트라 예측 유닛(352), 모션 보상 예측 유닛(353), 집계기(aggregator)(355), 루프 필터 유닛(356), 참조 픽처 메모리(357), 및 현재 픽처 메모리()를 포함할 수 있다. 적어도 하나의 실시예에서, 비디오 디코더(210)는 집적 회로, 일련의 집적 회로들, 및/또는 다른 전자 회로를 포함할 수 있다. 비디오 디코더(210)는 또한, 연관된 메모리들을 갖는 하나 이상의 CPU 상에서 실행되는 소프트웨어로 부분적으로 또는 전체적으로 구현될 수 있다.
이 실시예 및 다른 실시예들에서, 수신기(310)는 디코더(210)가 한번에 하나의 코딩된 비디오 시퀀스를 디코딩할 하나 이상의 코딩된 비디오 시퀀스를 수신할 수 있으며, 여기서 각각의 코딩된 비디오 시퀀스의 디코딩은 다른 코딩된 비디오 시퀀스들과 독립적이다. 코딩된 비디오 시퀀스는, 인코딩된 비디오 데이터를 저장하는 저장 디바이스에 대한 하드웨어/소프트웨어 링크일 수 있는, 채널(312)로부터 수신될 수 있다. 수신기(310)는 인코딩된 비디오 데이터를 다른 데이터, 예를 들어, 코딩된 오디오 데이터 및/또는 보조 데이터 스트림들과 함께 수신할 수 있고, 이들은 그들 각자 사용하는 엔티티들(묘사되지 않음)에 포워딩될 수 있다. 수신기(310)는 코딩된 비디오 시퀀스를 다른 데이터로부터 분리할 수 있다. 네트워크 지터를 방지하기 위해, 수신기(310)와 엔트로피 디코더/파서(320)(이하 "파서(parser)") 사이에 버퍼 메모리(315)가 결합될 수 있다. 수신기(310)가 충분한 대역폭 및 제어가능성의 저장/포워드 디바이스로부터, 또는 등시동기식 네트워크(isosynchronous network)로부터 데이터를 수신하고 있을 때, 버퍼(315)는 사용되지 않을 수 있거나, 작을 수 있다. 인터넷과 같은 최선 노력 패킷 네트워크들(best effort packet networks) 상에서의 사용을 위해, 버퍼(315)는 요구될 수 있고, 비교적 클 수 있으며, 적응적 크기일 수 있다.
비디오 디코더(210)는 심벌들(321)을 엔트로피 코딩된 비디오 시퀀스로부터 재구성하기 위한 파서(320)를 포함할 수 있다. 그 심벌들의 카테고리들은, 예를 들어, 디코더(210)의 동작을 관리하기 위해 사용되는 정보, 및 잠재적으로, 도 2에 예시된 바와 같은 디코더에 결합될 수 있는 디스플레이(212)와 같은 렌더링 디바이스를 제어하기 위한 정보를 포함한다. 렌더링 디바이스(들)에 대한 제어 정보는 SEI(Supplementary Enhancement Information) 메시지들 또는 VUI(Video Usability Information) 파라미터 세트 프래그먼트들(묘사되지 않음)의 형식일 수 있다. 파서(320)는 수신되는 코딩된 비디오 시퀀스를 파싱/엔트로피-디코딩할 수 있다. 코딩된 비디오 시퀀스의 코딩은 비디오 코딩 기술 또는 표준에 따를 수 있고, 가변 길이 코딩, 허프만 코딩(Huffman coding), 맥락 민감성(context sensitivity)을 갖거나 갖지 않는 산술 코딩 등을 포함하는, 본 기술분야의 통상의 기술자에게 잘 알려진 원리들을 따를 수 있다. 파서(320)는, 코딩된 비디오 시퀀스로부터, 그룹에 대응하는 적어도 하나의 파라미터에 기초하여, 비디오 디코더 내의 픽셀들의 서브그룹들 중 적어도 하나에 대한 서브그룹 파라미터들의 세트를 추출할 수 있다. 서브그룹들은 GOP들(Groups of Pictures), 픽처들, 타일들, 슬라이스들, 매크로블록들, CU들(Coding Units), 블록들, TU들(Transform Units), PU들(Prediction Units) 등을 포함할 수 있다. 파서(320)는 또한 코딩된 비디오 시퀀스로부터 변환 계수들, 양자화기 파라미터 값들, 모션 벡터들 등과 같은 정보를 추출할 수 있다.
파서(320)는 버퍼(315)로부터 수신된 비디오 시퀀스에 대해 엔트로피 디코딩/파싱 동작을 수행하여, 심벌들(321)을 생성할 수 있다.
심벌들(321)의 재구성은 코딩된 비디오 픽처 또는 그것의 부분들의 타입(예컨대: 인터 및 인트라 픽처, 인터 및 인트라 블록), 및 다른 인자들에 의존하여 다수의 상이한 유닛들을 수반할 수 있다. 어느 유닛들이 수반되는지, 그리고 어떻게 그것들이 수반되는지는 파서(320)에 의해 코딩된 비디오 시퀀스로부터 파싱된 서브그룹 제어 정보에 의해 제어될 수 있다. 파서(320)와 아래의 다수의 유닛 사이의 그러한 서브그룹 제어 정보의 흐름은 명확성을 위해 묘사되어 있지 않다.
이미 언급된 기능 블록들 이외에, 디코더(210)는 아래에 설명되는 바와 같이 개념적으로 다수의 기능 유닛으로 세분될 수 있다. 상업적 제약 하에서 동작하는 실제 구현에서, 이들 유닛 중 다수는 서로 밀접하게 상호작용하고, 적어도 부분적으로 서로 통합될 수 있다. 그러나, 개시된 주제를 설명하기 위해, 아래의 기능 유닛들로의 개념적 세분(subdivision)이 적절하다.
하나의 유닛은 스케일러/역변환 유닛(351)일 수 있다. 스케일러/역변환 유닛(351)은, 파서(320)로부터의 심벌(들)(321)로서, 어느 변환을 사용할지, 블록 크기, 양자화 인자, 양자화 스케일링 행렬들(quantization scaling matrices) 등을 포함하는, 제어 정보뿐만 아니라 양자화된 변환 계수를 수신할 수 있다. 스케일러/역변환 유닛(351)은 집계기(aggregator)(355)에 입력될 수 있는 샘플 값들을 포함하는 블록들을 출력할 수 있다.
일부 경우들에서, 스케일러/역변환(351)의 출력 샘플들은 인트라 코딩된 블록; 즉: 이전에 재구성된 픽처들로부터의 예측 정보를 사용하는 것이 아니라, 현재 픽처의 이전에 재구성된 부분들로부터의 예측 정보를 사용할 수 있는 블록에 관련될 수 있다. 그러한 예측 정보는 인트라 픽처 예측 유닛(352)에 의해 제공될 수 있다. 일부 경우들에서, 인트라 픽처 예측 유닛(352)은 현재 픽처 메모리(358)로부터의 현재(부분적으로 재구성된) 픽처로부터 페치된 주위의 이미 재구성된 정보를 사용하여, 재구성 중인 블록과 동일한 크기 및 형상의 블록을 생성한다. 집계기(355)는, 일부 경우들에서, 샘플당 기준으로, 인트라 예측 유닛(352)이 생성한 예측 정보를 스케일러/역변환 유닛(351)에 의해 제공된 출력 샘플 정보에 추가한다.
다른 경우들에서, 스케일러/역변환 유닛(351)의 출력 샘플들은 인터 코딩되고, 잠재적으로 모션 보상된 블록에 관련될 수 있다. 이러한 경우에, 모션 보상 예측 유닛(353)은 참조 픽처 메모리(357)에 액세스하여 예측에 사용되는 샘플을 페치할 수 있다. 블록에 관련된 심벌들(321)에 따라 페치된 샘플들을 모션 보상한 후에, 이들 샘플은 집계기(355)에 의해 스케일러/역변환 유닛(351)의 출력(이 경우 잔차 샘플들 또는 잔차 신호라고 불림)에 추가되어 출력 샘플 정보를 생성할 수 있다. 모션 보상 예측 유닛(353)이 예측 샘플들을 페치하는 참조 픽처 메모리(357) 내의 어드레스들은 모션 벡터들에 의해 제어될 수 있다. 모션 벡터들은, 예를 들어, X, Y, 및 참조 픽처 컴포넌트들을 가질 수 있는 심벌들(321)의 형태로 모션 보상 예측 유닛(353)에 이용가능할 수 있다. 모션 보상은 또한 서브샘플 정확한 모션 벡터들이 사용 중일 때 참조 픽처 메모리(357)로부터 페치된 샘플 값들의 보간, 모션 벡터 예측 메커니즘 등을 포함할 수 있다.
집계기(355)의 출력 샘플들은 루프 필터 유닛(356) 내의 다양한 루프 필터링 기법들의 대상이 될 수 있다. 비디오 압축 기술들은, 파서(320)로부터의 심벌들(321)로서 루프 필터 유닛(356)에 이용가능하게 되고 코딩된 비디오 비트스트림에 포함된 파라미터들에 의해 제어되지만, 코딩된 픽처 또는 코딩된 비디오 시퀀스의 이전(디코딩 순서에서) 부분들의 디코딩 동안 획득된 메타-정보에 응답할 뿐만 아니라, 이전에 재구성되고 루프-필터링된 샘플 값들에 응답할 수도 있는 인-루프 필터(in-loop filter) 기술들을 포함할 수 있다.
루프 필터 유닛(356)의 출력은 디스플레이(212)와 같은 렌더 디바이스에 출력될 뿐만 아니라 미래의 인터-픽처 예측에서 사용하기 위해 참조 픽처 메모리(357)에 저장될 수도 있는 샘플 스트림일 수 있다.
특정 코딩된 픽처들은, 완전히 재구성되면, 미래 예측을 위한 참조 픽처들로서 사용될 수 있다. 코딩된 픽처가 완전히 재구성되고 코딩된 픽처가 참조 픽처로서 식별되면(예를 들어, 파서(320)에 의해), 현재 참조 픽처는 참조 픽처 메모리(357)의 일부가 될 수 있고, 다음 코딩된 픽처의 재구성에 착수하기 전에 새로운(fresh) 현재 픽처 메모리가 재할당될 수 있다.
비디오 디코더(210)는 ITU-T Rec. H.265와 같은 표준으로 문서화될 수 있는 미리 결정된 비디오 압축 기술에 따라 디코딩 동작들을 수행할 수 있다. 코딩된 비디오 시퀀스는, 그것이 비디오 압축 기술 문헌 또는 표준 및 구체적으로는 그 안의 프로파일 문헌에 특정된 대로, 비디오 압축 기술 또는 표준의 신택스(syntax)를 고수한다는 점에서, 사용되는 비디오 압축 기술 또는 표준에 의해 특정된 신택스를 준수할 수 있다. 또한, 일부 비디오 압축 기술들 또는 표준들을 준수하기 위해, 코딩된 비디오 시퀀스의 복잡도가 비디오 압축 기술 또는 표준의 레벨에 의해 정의된 바와 같은 경계들 내에 있을 수 있다. 일부 경우에, 레벨들은 최대 픽처 크기, 최대 프레임 레이트, 최대 재구성 샘플 레이트(예를 들어, 초당 메가샘플로 측정됨), 최대 참조 픽처 크기 등을 제한한다. 레벨들에 의해 설정된 한계들은, 일부 경우들에서, HRD(Hypothetical Reference Decoder) 사양들 및 코딩된 비디오 시퀀스에서 시그널링된 HRD 버퍼 관리를 위한 메타데이터를 통해 추가로 제한될 수 있다.
일 실시예에서, 수신기(310)는 인코딩된 비디오와 함께 추가적인(중복) 데이터를 수신할 수 있다. 이 추가적인 데이터는 코딩된 비디오 시퀀스(들)의 일부로서 포함될 수 있다. 이 추가적인 데이터는 데이터를 적절히 디코딩하고/하거나 원래의 비디오 데이터를 더 정확하게 재구성하기 위해 비디오 디코더(210)에 의해 사용될 수 있다. 추가적인 데이터는, 예를 들어, 시간, 공간, 또는 SNR 향상 계층들, 중복 슬라이스들, 중복 픽처들, 순방향 오류 정정 코드들 등의 형식일 수 있다.
도 4는 본 개시내용의 일 실시예에 따른 비디오 소스(201)와 연관된 비디오 인코더(203)의 예시적인 기능 블록도를 예시한다.
비디오 인코더(203)는, 예를 들어, 소스 코더(430)인 인코더, 코딩 엔진(432), (로컬) 디코더(433), 참조 픽처 메모리(434), 예측자(435), 송신기(440), 엔트로피 코더(445), 제어기(450), 및 채널(460)을 포함할 수 있다.
인코더(203)는 인코더(203)에 의해 코딩될 비디오 이미지(들)를 캡처할 수 있는 비디오 소스(201)(인코더의 일부가 아님)로부터 비디오 샘플들을 수신할 수 있다.
비디오 소스(201)는, 임의의 적합한 비트 심도(예를 들어: 8 비트, 10 비트, 12 비트, …), 임의의 색공간(예를 들어, BT.601 Y CrCB, RGB, …), 및 임의의 적합한 샘플링 구조(예를 들어, Y CrCb 4:2:0, Y CrCb 4:4:4)일 수 있는 디지털 비디오 샘플 스트림의 형태로 인코더(203)에 의해 코딩될 소스 비디오 시퀀스를 제공할 수 있다. 매체 서빙 시스템에서, 비디오 소스(201)는 이전에 준비된 비디오를 저장하는 저장 디바이스일 수 있다. 영상회의 시스템에서, 비디오 소스(203)는 비디오 시퀀스로서 로컬 이미지 정보를 캡처하는 카메라일 수 있다. 비디오 데이터는 순차적으로 볼 때 모션을 부여하는 복수의 개별 픽처으로서 제공될 수 있다. 픽처들 자체는 픽셀들의 공간 어레이로서 조직될 수 있고, 여기서 각각의 픽셀은 사용 중인 샘플링 구조, 색 공간 등에 의존하여 하나 이상의 샘플을 포함할 수 있다. 본 기술분야의 통상의 기술자는 픽셀들과 샘플들 사이의 관계를 쉽게 이해할 수 있다. 이하의 설명은 샘플들에 초점을 맞춘다.
일 실시예에 따르면, 인코더(203)는 소스 비디오 시퀀스의 픽처들을 실시간으로 또는 애플리케이션에 의해 요구되는 임의의 다른 시간 제약들 하에서 코딩된 비디오 시퀀스(443)로 코딩 및 압축할 수 있다. 적절한 코딩 속도를 시행하는 것이 제어기(450)의 하나의 기능이다. 제어기(450)는 또한 아래에 설명되는 바와 같은 다른 기능 유닛들을 제어할 수 있고 이러한 유닛들에 기능적으로 결합될 수 있다. 결합은 명료성을 위해 묘사되지 않는다. 제어기(450)에 의해 설정된 파라미터들은 레이트 제어 관련 파라미터들(픽처 스킵, 양자화기, 레이트-왜곡 최적화 기법들의 람다 값, …), 픽처 크기, GOP(group of pictures) 레이아웃, 최대 모션 벡터 검색 범위 등을 포함할 수 있다. 본 기술분야의 통상의 기술자는 제어기(450)의 다른 기능들을 쉽게 식별할 수 있는데 그 이유는 그것들이 특정 시스템 설계에 대해 최적화된 비디오 인코더(203)에 관련될 수 있기 때문이다.
일부 비디오 인코더들은 본 기술분야의 통상의 기술자가 "코딩 루프(coding loop)"로서 쉽게 인식하는 것에서 동작한다. 과도하게 단순화된 설명으로서, 코딩 루프는 소스 코더(430)(코딩될 입력 픽처, 및 참조 픽처(들)에 기초하여 심벌들을 생성하는 것을 담당함)의 인코딩 부분, 및 심벌들과 코딩된 비디오 비트스트림 사이의 압축이 특정 비디오 압축 기술들에서 무손실일 때 (원격) 디코더가 또한 생성할 샘플 데이터를 생성하기 위해 심벌들을 재구성하는 인코더(203)에 내장되는 (로컬) 디코더(433)로 이루어질 수 있다. 그 재구성된 샘플 스트림은 참조 픽처 메모리(434)에 입력될 수 있다. 심벌 스트림의 디코딩이 디코더 위치(로컬 또는 원격)와는 독립적으로 비트-정확한 결과들(bit-exact results)로 이어지기 때문에, 참조 픽처 메모리 콘텐츠도 또한 로컬 인코더와 원격 인코더 사이에서 비트 정확(bit exact)하다. 다시 말해서, 인코더의 예측 부분은 디코딩 동안 예측을 사용할 때 디코더가 "볼(would see)" 것과 정확히 동일한 샘플 값들을 참조 픽처 샘플로서 "본다(sees)". 참조 픽처 동기성(reference picture synchronicity)의 이러한 기본적인 원리(그리고, 예를 들어, 채널 오류들 때문에, 동기성이 유지될 수 없는 경우, 결과적인 드리프트)는 본 기술분야의 통상의 기술자에게 알려져 있다.
"로컬" 디코더(433)의 동작은 도 3과 관련하여 위에서 이미 상세히 설명된 "원격" 디코더(210)와 동일할 수 있다. 그러나, 심벌들이 이용가능하고 엔트로피 코더(445) 및 파서(320)에 의한 코딩된 비디오 시퀀스로의 심벌들의 인코딩/디코딩이 무손실일 수 있기 때문에, 채널(312), 수신기(310), 버퍼(315), 및 파서(320)를 포함하는, 디코더(210)의 엔트로피 디코딩 부분들은 로컬 디코더(433)에서 완전히 구현되지 않을 수 있다.
이 시점에서 이루어질 수 있는 관찰은, 디코더에 존재하는 파싱/엔트로피 디코딩을 제외한 임의의 디코더 기술이 대응하는 인코더에서 실질적으로 동일한 기능 형태로 존재할 필요가 있을 수 있다는 점이다. 이러한 이유로, 개시된 주제는 디코더 동작에 초점을 맞춘다. 인코더 기술들은 포괄적으로 설명된 디코더 기술들의 역(inverse)일 수 있기 때문에 그것들에 대한 설명은 축약될 수 있다. 특정 영역들에서만 더 상세한 설명이 요구되고 아래에 제공된다.
그 동작의 일부로서, 소스 코더(430)는 "참조 프레임들"로서 지정된 비디오 시퀀스로부터의 하나 이상의 이전에 코딩된 프레임들을 참조하여 예측적으로 입력 프레임을 코딩하는 모션 보상 예측 코딩을 수행할 수 있다. 이러한 방식으로, 코딩 엔진(432)은 입력 프레임의 픽셀 블록들과 입력 프레임에 대한 예측 참조(들)로서 선택될 수 있는 참조 프레임(들)의 픽셀 블록들 사이의 차이들을 코딩한다.
로컬 비디오 디코더(433)는, 소스 코더(430)에 의해 생성된 심벌들에 기초하여, 참조 프레임들로서 지정될 수 있는 프레임들의 코딩된 비디오 데이터를 디코딩할 수 있다. 코딩 엔진(432)의 동작들은 유리하게는 손실 프로세스들일 수 있다. 코딩된 비디오 데이터가 비디오 디코더(도 4에 도시되지 않음)에서 디코딩될 수 있을 때, 재구성된 비디오 시퀀스는 전형적으로 일부 오류들을 갖는 소스 비디오 시퀀스의 복제본(replica)일 수 있다. 로컬 비디오 디코더(433)는 참조 프레임들에 대해 비디오 디코더에 의해 수행될 수 있는 디코딩 프로세스들을 복제하고 재구성된 참조 프레임들이 참조 픽처 메모리(434)에 저장되게 할 수 있다. 이러한 방식으로, 인코더(203)는 (송신 오류들이 없이) 원단(far-end) 비디오 디코더에 의해 획득될 재구성된 참조 프레임들로서 공통 콘텐츠를 갖는 재구성된 참조 프레임들의 사본들을 로컬로 저장할 수 있다.
예측자(435)는 코딩 엔진(432)에 대한 예측 검색들을 수행할 수 있다. 즉, 코딩될 새로운 프레임에 대해, 예측자(435)는 새로운 픽처들에 대한 적절한 예측 참조로서 역할할 수 있는 참조 픽처 모션 벡터들, 블록 형상들 등과 같은 특정 메타데이터 또는 샘플 데이터(후보 참조 픽셀 블록들로서)에 대해 참조 픽처 메모리(434)를 검색할 수 있다. 예측자(435)는 적절한 예측 참조들을 찾기 위해 샘플 블록-바이-픽셀 블록(sample block-by-pixel block) 기준으로 동작할 수 있다. 일부 경우들에서, 예측자(435)에 의해 획득된 검색 결과들에 의해 결정된 바와 같이, 입력 픽처는 참조 픽처 메모리(434)에 저장된 다수의 참조 픽처으로부터 인출된 예측 참조들을 가질 수 있다.
제어기(450)는, 예를 들어, 비디오 데이터를 인코딩하기 위해 사용되는 파라미터들 및 서브그룹 파라미터들의 설정을 포함하여, 비디오 코더(430)의 코딩 동작을 관리할 수 있다.
전술한 모든 기능 유닛들의 출력은 엔트로피 코더(445)에서 엔트로피 코딩의 대상일 수 있다. 엔트로피 코더는, 예를 들어, 허프만 코딩, 가변 길이 코딩, 산술 코딩 등으로서 본 기술분야의 통상의 기술자에게 알려진 기술들에 따라 심벌들을 무손실 압축함으로써 다양한 기능 유닛들에 의해 생성된 심벌들을 코딩된 비디오 시퀀스로 변환한다.
송신기(440)는, 인코딩된 비디오 데이터를 저장할 저장 디바이스에 대한 하드웨어/소프트웨어 링크일 수 있는, 통신 채널(460)을 통한 송신을 준비하기 위해 엔트로피 코더(445)에 의해 생성된 코딩된 비디오 시퀀스(들)를 버퍼링할 수 있다. 송신기(440)는 비디오 코더(430)로부터의 코딩된 비디오 데이터를 송신될 다른 데이터, 예를 들어, 코딩된 오디오 데이터 및/또는 보조 데이터 스트림(소스들이 도시되지 않음)과 병합할 수 있다.
제어기(450)는 인코더(203)의 동작을 관리할 수 있다. 코딩 동안, 제어기(450)는, 각자의 픽처에 적용될 수 있는 코딩 기법들에 영향을 미칠 수 있는, 특정 코딩된 픽처 타입을 각각의 코딩된 픽처에 할당할 수 있다. 예를 들어, 픽처들은 종종 인트라 픽처(Intra Picture)(I 픽처), 예측 픽처(Predictive Picture)(P 픽처), 또는 양방향 예측 픽처(Bi-directionally Predictive Picture)(B 픽처)로서 할당될 수 있다.
인트라 픽처(Intra Picture)(I 픽처)는 예측의 소스로서 시퀀스에서의 임의의 다른 프레임을 사용하지 않고 코딩 및 디코딩될 수 있는 것일 수 있다. 일부 비디오 코덱들은, 예를 들어, "IDR"(Independent Decoder Refresh) 픽처들을 포함하는, 상이한 타입의 인트라 픽처들을 허용한다. 본 기술분야의 통상의 기술자는 I 픽처들의 해당 변형들 및 그들 각자의 애플리케이션들 및 특징들을 인식한다.
예측 픽처(Predictive picture)(P 픽처)는 각각의 블록의 샘플 값들을 예측하기 위해 많아야 하나의 모션 벡터 및 참조 인덱스를 사용하여 인트라 예측(intra prediction) 또는 인터 예측(inter prediction)을 사용하여 코딩 및 디코딩될 수 있는 것일 수 있다.
양방향 예측 픽처(Bi-directionally Predictive Picture)(B Picture)는 각 블록의 샘플 값들을 예측하기 위해 많아야 2개의 모션 벡터들 및 참조 인덱스들을 사용하는 인트라 예측 또는 인터 예측을 사용하여 코딩 및 디코딩될 수 있는 것일 수 있다. 유사하게, 다수-예측 픽처들은 단일 블록의 재구성을 위해 2개보다 많은 참조 픽처 및 연관된 메타데이터를 사용할 수 있다.
소스 픽처들은 흔히 복수의 샘플 블록(예를 들어, 각각 4x4, 8x8, 4x8, 및/또는 16x16 샘플들의 블록들)으로 공간적으로 세분되고 블록 기준으로(block-by-block basis) 코딩될 수 있다. 블록들은 블록들의 각자의 픽처들에 적용되는 코딩 할당에 의해 결정된 다른(이미 코딩된) 블록들을 참조하여 예측적으로 코딩될 수 있다. 예를 들어, I 픽처들의 블록들은 비예측적으로 코딩될 수 있거나 그들은 동일한 픽처의 이미 코딩된 블록들을 참조하여 예측적으로 코딩될 수 있다(공간 예측 또는 인트라 예측). P 픽처들의 픽셀 블록들은, 하나의 이전에 코딩된 참조 픽처를 참조하여, 공간 예측을 통해 또는 시간 예측을 통해 비예측적으로 코딩될 수 있다. B 픽처들의 블록들은, 하나 또는 2개의 이전에 코딩된 참조 픽처를 참조하여 시간 예측을 통해, 공간 예측을 통해, 또는 비예측적으로 코딩될 수 있다.
비디오 코더(203)는 ITU-T Rec. H.265와 같은 미리 결정된 비디오 코딩 기술 또는 표준에 따라 코딩 동작들을 수행할 수 있다. 그것의 동작 중에, 비디오 코더(203)는, 입력 비디오 시퀀스에서 시간 및 공간 중복성을 이용하는 예측 코딩 동작들을 포함하여, 다양한 압축 동작들을 수행할 수 있다. 따라서, 코딩된 비디오 데이터는 사용 중인 비디오 코딩 기술 또는 표준에 의해 특정된 신택스(syntax)를 준수할 수 있다.
일 실시예에서, 송신기(440)는 인코딩된 비디오와 함께 추가적인 데이터를 송신할 수 있다. 비디오 코더(430)는 코딩된 비디오 시퀀스의 일부로서 그러한 데이터를 포함할 수 있다. 추가적인 데이터는 시간, 공간, 및/또는 SNR 향상 계층들, 중복 픽처들 및 슬라이스들과 같은 다른 형태들의 중복 데이터, SEI(Supplementary Enhancement Information) 메시지들, VUI(Visual Usability Information) 파라미터 세트 프래그먼트들 등을 포함할 수 있다.
본 개시내용의 실시예들의 특정 양태들을 더 상세히 설명하기 전에, 본 설명의 나머지에서 언급되는 몇몇 용어들이 아래에 소개된다.
이후, "서브-픽처(sub-picture)"는, 일부 경우들에서, 시맨틱적으로 그룹화되고, 변경된 해상도로 독립적으로 코딩될 수 있는, 샘플들, 블록들, 매크로블록들, 코딩 유닛들, 또는 유사한 엔티티들의 직사각형 배열을 지칭할 수 있다. 하나 이상의 서브-픽처는 픽처를 형성할 수 있다. 하나 이상의 코딩된 서브-픽처가 코딩된 픽처를 형성할 수 있다. 하나 이상의 서브-픽처가 픽처로 조립될 수 있고, 하나 이상의 서브-픽처가 픽처로부터 추출될 수 있다. 특정 환경들에서, 하나 이상의 코딩된 서브-픽처는 샘플 레벨로 트랜스코딩하지 않고 압축된 도메인에서 코딩된 픽처로 조립될 수 있고, 동일한 또는 특정 다른 경우들에서, 하나 이상의 코딩된 서브-픽처는 압축된 도메인에서의 코딩된 픽처로부터 추출될 수 있다.
이후, "적응적 해상도 변경"(Adaptive Resolution Change, ARC)은, 예를 들어, 참조 픽처 리샘플링에 의해, 코딩된 비디오 시퀀스 내의 픽처 또는 서브-픽처의 해상도의 변경을 허용하는 메커니즘들을 지칭한다. 이후, "ARC 파라미터들"은, 예를 들어, 필터 파라미터들, 스케일링 인자들, 출력 및/또는 참조 픽처들의 해상도들, 다양한 제어 플래그들 등을 포함할 수 있는, 적응적 해상도 변경을 수행하는데 요구되는 제어 정보를 지칭한다.
위의 설명은 단일의 시맨틱적으로 독립적인 코딩된 비디오 픽처를 코딩 및 디코딩하는 것에 초점을 맞춘다. 독립적인 ARC 파라미터들을 갖는 다수의 서브-픽처의 코딩/디코딩의 함축적 의미(implication) 및 그의 함축된 추가적인 복잡성을 설명하기 전에, ARC 파라미터들을 시그널링하기 위한 실시예들이 설명될 것이다.
도 6a-c를 참조하면, ARC 파라미터를 시그널링하기 위한 수 개의 신규한 예시적 실시예가 도시되어 있다. 실시예들 각각에서 언급된 바와 같이, 그들은 코딩 효율, 복잡성, 및 아키텍처 관점에서 특정 장점들을 갖는다. 비디오 코딩 표준 또는 기술은 이러한 실시예들 중 하나 이상을 구현할 수 있고, 또한 ARC 파라미터들을 시그널링하기 위한, 비교 기술로부터 알려진 실시예들을 포함할 수 있다. 비교 기술 실시예들은 도 5a-b에 예시된 예들을 포함한다. 신규한 실시예들은 상호 배타적이지 않을 수 있고, 상상컨대 애플리케이션 요구들, 수반된 표준 기술, 또는 인코더의 선택에 기초하여 어느 하나가 사용될 수 있도록 비교 기술 실시예들을 또한 포함하는 표준 또는 기술에 포함될 수 있다.
ARC 파라미터들의 클래스들은: (1) X 및 Y 차원에서 별개이거나 조합된 업샘플 및/또는 다운샘플 인자들, 또는 (2) 주어진 수의 픽처들에 대한 일정한 속도 줌 인/아웃을 표시하는 시간 차원의 추가를 갖는 업샘플 및/또는 다운샘플 인자들을 포함할 수 있다. 위의 2개 중 어느 하나는 인자(들)를 포함하는 테이블을 가리킬 수 있는 하나 이상의 신택스 요소의 코딩을 수반할 수 있다. 이러한 신택스 요소들은 실시예들에서 길이가 짧을 수 있다.
"해상도(resolution)"는 입력 픽처, 출력 픽처, 참조 픽처, 코딩된 픽처, 조합 또는 별개의 샘플들, 블록들, 매크로블록들, CU들, 또는 임의의 다른 적합한 입도의 단위인, X 또는 Y 차원에서의 해상도를 지칭할 수 있다. 하나보다 많은 해상도(예를 들어, 입력 픽처에 대해 하나, 참조 픽처에 대해 하나 등)가 존재하는 경우, 특정 경우들에서, 값들의 하나의 세트는 값들의 또 다른 세트로부터 추론될 수 있다. 해상도는, 예를 들어, 플래그들의 사용에 의해 게이팅될 수 있다. 해상도의 더 상세한 예가 아래에 추가로 제공된다.
H.263 Annex P에서 사용된 것과 유사한 "워핑(warping)" 좌표들은 위에 설명한 바와 같은 적합한 입도의 것일 수 있다. H.263 Annex P는 이러한 워핑 좌표들을 코딩하기 위한 하나의 효율적인 방식을 정의하지만, 다른 잠재적으로 더 효율적인 방식들이 아마도 또한 사용될 수 있다. 예를 들어, Annex P의 워핑 좌표들의 가변 길이 가역적 "허프만(Huffman)"-스타일 코딩은 적합한 길이 이진 코딩으로 대체될 수 있고, 여기서 이진 코드 워드의 길이는, 예를 들어, 최대 픽처 크기로부터 도출되고, 아마도 특정 인자와 곱해지고 특정 값만큼 오프셋되어, 최대 픽처 크기의 경계들 외부에서 "워핑"을 허용할 수 있다.
업샘플 및/또는 다운샘플 필터 파라미터들과 관련하여, 가장 쉬운 경우에, 업샘플링 및/또는 다운샘플링을 위한 단일 필터만이 존재할 수 있다. 그러나, 특정 경우들에서는, 필터 설계에 더 많은 유연성을 허용하는 것이 유리할 수 있고, 이는 필터 파라미터들의 시그널링에 의해 구현될 수 있다. 이러한 파라미터들은 가능한 필터 설계들의 리스트에서의 인덱스를 통해 선택될 수 있고, 필터는 (예를 들어, 적합한 엔트로피 코딩 기법들을 사용하여, 필터 계수들의 리스트를 통해) 완전히 특정될 수 있고, 및/또는 필터는 위에서 언급한 메커니즘들 중 임의의 것에 따라 시그널링되는 업샘플 및/또는 다운샘플 비율들을 통해 암시적으로 선택될 수 있는 등이다.
이후, 설명은 코드워드를 통해 표시되는, 업샘플 및/또는 다운샘플 인자들(X 및 Y 차원 둘 다에서 사용될 동일한 인자)의 유한 세트를 코딩하는 경우의 예를 가정한다. 그 코드워드는 유리하게는, 예를 들어, H.264 및 H.265와 같은 비디오 코딩 사양들에서 특정 신택스 요소들에 공통인 Ext-Golomb 코드를 사용하여 가변 길이 코딩될 수 있다. 업샘플 및/또는 다운샘플 인자들에 대한 값들의 하나의 적합한 맵핑은, 예를 들어, 아래 표 1에 따르는 것일 수 있다.
Figure pct00001
비디오 압축 기술 또는 표준에서 이용가능한 업 및 다운스케일 메커니즘들의 능력들 및 애플리케이션의 요구에 따라 많은 유사한 맵핑이 고안될 수 있다. 표는 더 많은 값으로 확장될 수 있다. 값들은 또한, 예를 들어, MANE들에 의해, 비디오 처리 엔진들(인코더 및 디코더 최우선) 자체 외부에서 리샘플링 인자들이 관심대상이었을 때 특정 이점을 가질 수 있는 (예를 들어, 이진 코딩을 사용하는) Ext-Golomb 코드들 이외의 엔트로피 코딩 메커니즘에 의해 표현될 수 있다. 해상도 변경이 요구되지 않는 (아마도) 가장 일반적인 경우에 대해서는, 가장 일반적인 경우에 대해 이진 코드들을 사용하는 것에 비해 코딩 효율 이점을 가질 수 있는 짧은(예를 들어, 표 1의 제2 행에 도시된 바와 같이 단일 비트만) Ext-Golomb 코드가 선택될 수 있다는 점에 유의해야 한다.
표 내의 엔트리들의 수뿐만 아니라, 그들의 시맨틱은 완전히 또는 부분적으로 구성가능할 수 있다. 예를 들어, 테이블의 기본 윤곽은 시퀀스 또는 디코더 파라미터 세트와 같은 "높은" 파라미터 세트로 전달될 수 있다. 대안적으로 또는 추가적으로, 하나 이상의 이러한 테이블은 비디오 코딩 기술 또는 표준에서 정의될 수 있고, 예를 들어, 디코더 또는 시퀀스 파라미터 세트를 통해 선택될 수 있다.
위에서 설명한 바와 같이 코딩된 업샘플 및/또는 다운샘플 인자(ARC 정보)가 비디오 코딩 기술 또는 표준 신택스에 어떻게 포함될 수 있는지가 아래에서 설명된다. 유사한 고려사항들이 업샘플 및/또는 다운샘플 필터들을 제어하는 하나, 또는 몇 개의, 코드워드들에 적용될 수 있다. 필터 또는 다른 데이터 구조들에 대해 비교적 많은 양의 데이터가 요구될 수 있을 때에 관한 설명이 또한 아래에 제공된다.
도 5a를 참조하면, H.263 Annex P는 픽처 헤더(501) 내의 4개의 워핑 좌표의 형식으로, 구체적으로는 H.263 PLUSPTYPE(503) 헤더 확장 내에 ARC 정보(502)를 포함한다. 이러한 설계는, (a) 이용가능한 픽처 헤더가 있고, (b) ARC 정보의 빈번한 변경이 예상될 때 합리적일 수 있다. 그러나, H.263-스타일 시그널링을 사용할 때의 오버헤드는 매우 높을 수 있고, 픽처 헤더가 과도 성질을 가질 수 있기 때문에 스케일링 인자들은 픽처 경계들에 관련되지 않을 수 있다.
도 5b를 참조하면, JVCET-M135-v1은 픽처 파라미터 세트(504)에 위치한 ARC 참조 정보(505)(인덱스)를 포함하고, 결국 시퀀스 파라미터 세트(507) 내부에 위치한 타깃 해상도들을 포함하는 표(506)를 인덱싱한다. 시퀀스 파라미터 세트(507) 내의 표(506)에서 가능한 해상도의 배치는 능력 교환 동안에 상호운용성 협상 포인트로서 SPS(507)를 사용함으로써 정당화될 수 있다. 해상도는 적절한 픽처 파라미터 세트(504)를 참조함으로써 픽처마다 표(506) 내의 값들에 의해 설정된 한계들 내에서 변경할 수 있다.
도 6a-c를 참조하면, 본 개시내용에 대한 다음의 실시예들은 비디오 비트스트림 내의 ARC 정보를 예를 들어 본 개시내용의 디코더로 운반할 수 있다. 이러한 실시예들 각각은 위에 설명된 비교 기술에 비해 특정 이점을 갖는다. 실시예들은 동일한 비디오 코딩 기술 또는 표준에 동시에 존재할 수 있다.
도 6a를 참조하는 실시예에서, 리샘플링(줌) 인자와 같은 ARC 정보(509)는 예를 들어 슬라이스 헤더, GOB 헤더, 타일 헤더 또는 타일 그룹 헤더와 같은 헤더(508) 내에 존재할 수 있다. 예로서, 도 6a는 헤더(508)를 타일 그룹 헤더로서 예시한다. 그러한 구성은, 예를 들어 표 1에 도시된 바와 같이, 단일 가변 길이 ue(v) 또는 몇 비트의 고정 길이 코드워드와 같이 ARC 정보가 작은 경우에 적절할 수 있다. ARC 정보를 타일 그룹 헤더에 직접 갖는 것은 ARC 정보가 예를 들어, 전체 픽처보다는 타일 그룹 헤더에 대응하는 타일 그룹에 의해 표현되는 서브-픽처에 적용가능할 수 있다는 추가적인 이점을 갖는다. 또한, 비디오 압축 기술 또는 표준이 (예를 들어, 타일 그룹 기반 적응적 해상도 변경들과는 대조적으로) 전체 픽처 적응적 해상도 변경들만을 사용하더라도, ARC 정보를 타일 그룹 헤더 내로(예를 들어, H.263-스타일 픽처 헤더 내로) 넣는 것은 오류 회복력 관점에서 특정 이점들을 갖는다. 위의 설명은 ARC 정보(509)가 타일 그룹 헤더에 존재하는 것을 설명하지만, 위의 설명은 ARC 정보(509)가, 예를 들어, 슬라이스 헤더, GOB 헤더, 또는 타일 헤더에 존재하는 경우에도 유사하게 적용될 수 있다는 것을 이해할 것이다.
도 6b를 참조하는 동일한 또는 다른 실시예에서, ARC 정보(512) 자체는, 예를 들어, 픽처 파라미터 세트, 헤더 파라미터 세트, 타일 파라미터 세트, 적응 파라미터 세트 등과 같은 적절한 파라미터 세트(511)에 존재할 수 있다. 예로서, 도 6b는 적응 파라미터 세트(APS)로서 파라미터 세트(511)를 예시한다. 그 파라미터 세트의 범위는 유리하게는 픽처보다 크지 않을 수 있다. 예를 들어, 파라미터 세트의 범위는 타일 그룹일 수 있다. ARC 정보(512)의 사용은 관련 파라미터 세트의 활성화를 통해 암시적일 수 있다. 예를 들어, 비디오 코딩 기술 또는 표준이 픽처 기반 ARC만을 고려할 때, 픽처 파라미터 세트 또는 등가물이 관련 파라미터 세트로서 적절할 수 있다.
도 6c를 참조하는 동일한 또는 다른 실시예에서, ARC 참조 정보(513)는 타일 그룹 헤더(514) 또는 유사한 데이터 구조에 존재할 수 있다. ARC 참조 정보(513)는 단일 픽처를 넘는 범위를 갖는 파라미터 세트(516)에서 이용가능한 ARC 정보(515)의 서브세트를 지칭할 수 있다. 예를 들어, 파라미터 세트(516)는 시퀀스 파라미터 세트(SPS) 또는 디코더 파라미터 세트(DPS)일 수 있다.
픽처 파라미터 세트들이 시퀀스 파라미터 세트들처럼 능력 협상 또는 발표들에 사용될 수 있기 때문에, JVET-M0135-v1에서 사용되는 타일 그룹 헤더, PPS, 또는 SPS로부터의 PPS의 간접성 암시적 활성화의 추가 레벨은 불필요할 수 있다. 그러나, ARC 정보가 예를 들어, 타일 그룹(들)에 의해 또한 표현되는 서브-픽처에 적용가능해야 하는 경우, 타일 그룹으로 제한되는 활성화 범위를 갖는 파라미터 세트(예를 들어, 적응 파라미터 세트 또는 헤더 파라미터 세트)가 더 나은 선택일 수 있다. 또한, ARC 정보가 무시할만한 크기보다 큰 것인 경우- 예를 들어, 수많은 필터 계수와 같은 필터 제어 정보를 포함하는 경우 -파라미터는 코딩 효율 관점에서 직접적으로 헤더를 사용하는 것보다 양호한 선택일 수 있는데, 이는 그러한 설정들이 동일 파라미터 세트를 참조함으로써 미래의 픽처들 또는 서브-픽처들에 의해 재사용가능할 수 있기 때문이다.
시퀀스 파라미터 세트 또는 다수의 픽처에 걸치는 범위를 갖는 다른 상위 파라미터 세트를 사용할 때, 특정 고려사항들이 적용될 수 있다:
(1) ARC 정보(515)를 테이블에 저장하기 위한 파라미터 세트(516)는 일부 경우들에서 시퀀스 파라미터 세트일 수 있지만, 다른 경우들에서는 유리하게는 디코더 파라미터 세트일 수 있다. 디코더 파라미터 세트는 다수의 CVS, 다시 말해, 코딩된 비디오 스트림, 즉, 세션 시작부터 세션 해제까지의 모든 코딩된 비디오 비트의 활성화 범위를 가질 수 있다. 이러한 범위는, 가능한 ARC 인자들이 가능하게는 하드웨어로 구현되는 디코더 특징일 수 있고, 하드웨어 특징들이 임의의 CVS(적어도 일부 엔터테인먼트 시스템들에서는 길이가 1초 이하인 픽처 그룹임)에 따라 변경되지 않는 경향이 있기 때문에, 더 적절할 수 있다. 그럼에도 불구하고, 일부 실시예들은, 특히 아래의 포인트 (2)와 연계하여, 본 명세서에서 설명된 시퀀스 파라미터 세트 내에 ARC 정보 테이블을 포함할 수 있다.
(2) ARC 참조 정보(513)는 유리하게는 JVCET-M0135-v1에서와 같은 픽처 파라미터 세트보다는 헤더(514)(예를 들어, 픽처/슬라이스 타일/GOB/타일 그룹 헤더; 이후, 타일 그룹 헤더)에 직접 배치될 수 있다. 그 이유는 다음과 같다: 인코더가 예를 들어 ARC 참조 정보와 같은 픽처 파라미터 세트에서 단일 값을 변경하기를 원할 때, 인코더는 새로운 PPS를 생성하고 그 새로운 PPS를 참조해야 할 수 있다. ARC 참조 정보만이 변경되지만, 예를 들어 PPS 내의 양자화 행렬 정보와 같은 다른 정보가 유지되는 경우에, 그러한 정보는 상당한 크기일 수 있고, 새로운 PPS를 완성하기 위해 재송신될 필요가 있을 것이다. ARC 참조 정보는 변경되는 유일한 값인 ARC 정보 테이블로의 인덱스와 같은 단일 코드워드일 수 있으므로, 예를 들어, 모든 양자화 행렬 정보를 재전송하는 것은 번거롭고 낭비적일 것이다. 따라서, ARC 참조 정보를 헤더(예를 들어, 헤더(514))에 직접 배치하는 것은, JVET-M0135-v1에서 제안되는 바와 같이, PPS를 통한 간접성이 회피될 수 있기 때문에, 코딩 효율 관점에서 상당히 더 양호할 수 있다. 또한, 픽처 파라미터 세트 활성화의 범위는 픽처이기 때문에, ARC 참조 정보를 PPS에 넣는 것은 ARC 참조 정보에 의해 참조되는 ARC 정보가 반드시 서브-픽처가 아닌 전체 픽처에 적용될 필요가 있다는 추가적인 단점을 갖는다.
동일한 또는 다른 실시예에서, ARC 파라미터들의 시그널링은 도 7a-b에 약술된 것과 같은 상세한 예를 따를 수 있다. 도 7a-b는 신택스 다이어그램들을 묘사한다. 이러한 신택스 다이어그램들의 표기는 C-스타일 프로그래밍을 개략적으로 따른다. 볼드체의 라인들은 비트스트림에 존재하는 신택스 요소들을 표시하고, 볼드체가 아닌 라인들은 종종 제어 흐름 또는 변수들의 설정을 표시한다.
픽처의 (아마도 직사각형) 부분에 적용가능한 헤더의 예시적인 신택스 구조로서, 타일 그룹화기 헤더(600)는 가변 길이, Exp-Golomb 코딩된 신택스 요소 dec_pic_size_idx(602)(볼드체로 묘사됨)를 조건부로 포함할 수 있다. 타일 그룹 헤더(600) 내의 이 신택스 요소의 존재는 적응적 해상도(603)의 사용에 의해 게이팅될 수 있다. 여기서, 적응적 해상도 플래그의 값은 볼드체로 묘사되지 않으며, 이는 플래그가 신택스 다이어그램에서 발생하는 포인트에서 비트스트림에 존재한다는 것을 의미한다. 이 픽처 또는 그의 부분들에 대해 적응적 해상도가 사용 중인지 여부는 비트스트림 내부 또는 외부의 임의의 고레벨 신택스 구조에서 시그널링될 수 있다. 도 7a-b에 예시된 예에서, 적응적 해상도는 아래 약술된 바와 같이 시퀀스 파라미터 세트(610)에서 시그널링된다.
도 7b는 시퀀스 파라미터 세트(610)의 발췌를 예시한다. 도시된 제1 신택스 요소는 adaptive_pic_resolution_change_flag(611)이다. 참(true)일 때, 그 플래그는 적응적 해상도의 사용을 표시할 수 있고, 이는 결국 특정 제어 정보를 요구할 수 있다. 예에서, 이러한 제어 정보는 타일 그룹 헤더(600) 및 시퀀스 파라미터 세트(610) 내의 if() 문(612)에 기초한 플래그의 값에 기초하여 조건부로 존재한다.
적응적 해상도가 사용 중일 때, 이 예에서, 코딩된 것은 샘플 단위의 출력 해상도(613)이다. 이 예시적인 실시예에서 출력 해상도(613)는 신택스 요소들 output_pic_width_in_luma_samples 및 output_pic_height_in_luma_samples 둘 다를 지칭하며, 이들은 함께 출력 픽처의 해상도를 정의할 수 있다. 비디오 코딩 기술 또는 표준의 다른 곳에서는, 어느 하나의 값에 대한 특정 제한들이 정의될 수 있다. 예를 들어, 레벨 정의는 총 출력 샘플의 수를 제한할 수 있으며, 이는 위의 2개의 신택스 요소의 값의 곱(product)일 수 있다. 또한, 특정 비디오 코딩 기술들 또는 표준들, 또는, 예를 들어, 시스템 표준들과 같은 외부 기술들 또는 표준들은 넘버링 범위(예를 들어, 하나 또는 둘 다의 차원은 2의 거듭제곱인 수로 나눌 수 있어야 함), 또는 종횡비(예를 들어, 폭과 높이는 4:3 또는 16:9와 같은 관계에 있어야 함)를 제한할 수 있다. 이러한 제한들은 하드웨어 구현을 용이하게 하기 위해 또는 다른 이유로 도입될 수 있다.
특정 애플리케이션들에서는, 인코더가 디코더에게 그 크기가 출력 픽처 크기인 것으로 암시적으로 가정하기보다는 특정 참조 픽처 크기를 사용하도록 표시하는 것이 권장될 수 있다. 이 예에서, 신택스 요소 reference_pic_size_present_flag(614)는 참조 픽처 차원들(615)의 조건부 존재를 게이팅한다(다시 말하면, 예시적인 실시예에서 숫자는 폭과 높이 둘 다를 지칭함).
도 7b는 가능한 디코딩 픽처 폭 및 높이들의 테이블을 추가로 예시한다. 이 테이블은 예를 들어, 테이블 표시(616)(예를 들어, 신택스 요소 num_dec_pic_size_in_luma_samples_minus1)에 의해 표현될 수 있다. "minus1"은 그 신택스 요소의 값의 해석을 지칭할 수 있다. 예를 들어, 신택스 요소의 코딩된 값이 0인 경우, 하나의 테이블 엔트리가 존재한다. 코딩된 값이 5인 경우, 6개의 테이블 엔트리가 존재한다. 테이블에서 각각의 "라인"에 대해, 디코딩된 픽처 폭 및 높이가 테이블 엔트리들(617)로서 신택스들에 포함된다.
제시된 테이블 엔트리들(617)은 타일 그룹 헤더(600)에서 신택스 요소 dec_pic_size_idx(602)를 사용하여 인덱싱될 수 있고, 그에 의해 타일 그룹마다 상이한 디코딩된 크기들- 실제로는, 줌 인자들 -을 허용한다.
특정 비디오 코딩 기술들 또는 표준들, 예를 들어 VP9는, 공간 확장성을 가능하게 하기 위해, 시간 확장성과 연계하여 특정 형식들의 참조 픽처 리샘플링(본 개시내용의 실시예들과 상당히 상이하게 시그널링될 수 있음)을 구현함으로써 공간 확장성을 지원한다. 특히, 특정 참조 픽처들은 ARC-스타일 기술들을 사용하여 더 높은 해상도로 업샘플링되어 공간 향상 계층의 기본(base)을 형성할 수 있다. 이러한 업샘플링된 픽처들은, 상세사항을 추가하기 위해, 고해상도에서 정상 예측 메커니즘들을 사용하여 정제(refine)될 수 있다.
본 개시내용의 실시예들은 이러한 환경에서 사용될 수 있다. 특정 경우들에서, 동일한 또는 다른 실시예에서, NAL 유닛 헤더 내의 값, 예를 들어, Temporal ID 필드는 시간적 뿐만 아니라 공간 계층도 표시하는데 사용될 수 있다. 그렇게 하는 것은 특정 시스템 설계들에 대해 특정 이점들을 갖는데; 예를 들어, NAL 유닛 헤더 시간 ID 값에 기초하여 시간적 계층 선택된 포워딩에 대해 생성되고 최적화된 기존의 SFU(Selected Forwarding Unit)는 확장가능한 환경들에 대해 수정 없이 사용될 수 있다. 이를 가능하게 하기 위해, 본 개시내용의 실시예들은 NAL 유닛 헤더 내의 시간 ID 필드에 의해 표시될 코딩된 픽처 크기와 시간 계층 사이의 맵핑을 포함할 수 있다.
일부 비디오 코딩 기술들에서, AU(Access Unit)은, 주어진 시간 인스턴스에서 캡처되어 각자의 픽처/슬라이스/타일/NAL 유닛 비트스트림으로 합성되는, 코딩된 픽처(들), 슬라이스(들), 타일(들), NAL 유닛(들) 등을 지칭할 수 있다. 그러한 시간 인스턴스는 구성 시간(composition time)일 수 있다.
HEVC 및 특정의 다른 비디오 코딩 기술들에서, POC(picture order count) 값은 DPB(decoded picture buffer)에 저장된 다수 참조 픽처 중에서 선택된 참조 픽처를 표시하기 위해 사용될 수 있다. AU(access unit)이 하나 이상의 픽처, 슬라이스, 또는 타일을 포함할 때, 동일한 AU에 속하는 각각의 픽처, 슬라이스, 또는 타일은 동일한 POC 값을 운반할 수 있으며, 이로부터 이들이 동일한 구성 시간의 콘텐츠로부터 생성되었다는 것이 도출될 수 있다. 다시 말해, 2개의 픽처/슬라이스/타일이 동일한 주어진 POC 값을 운반하는 시나리오에서, 2개의 픽처/슬라이스/타일이 동일한 AU에 속하고 동일한 구성 시간을 갖는다고 결정될 수 있다. 반대로, 상이한 POC 값들을 갖는 2개의 픽처/타일/슬라이스는 해당 픽처들/슬라이스들/타일들이 상이한 AU들에 속하고 상이한 구성 시간들을 갖는다는 것을 표시할 수 있다.
본 개시내용의 일 실시예에서, 액세스 유닛이 상이한 POC 값들을 갖는 픽처들, 슬라이스들, 또는 타일들을 포함할 수 있다는 점에서 전술한 고착된 관계가 완화될 수 있다. AU 내에서 상이한 POC 값들을 허용함으로써, POC 값을 사용하여 동일한 제시 시간으로 잠재적으로 독립적으로 디코딩가능한 픽처들/슬라이스들/타일들을 식별하는 것이 가능해진다. 그에 따라, 본 개시내용의 실시예는 아래 보다 상세히 설명되는 바와 같이, 참조 픽처 선택 시그널링(예를 들어, 참조 픽처 세트 시그널링 또는 참조 픽처 리스트 시그널링)의 변경없이 다수의 확장가능한 계층의 지원을 가능하게 할 수 있다.
일 실시예에서, 상이한 POC 값들을 갖는 다른 픽처/슬라이스들/타일들에 대해, 픽처/슬라이스/타일이 속하는 AU를 POC 값 단독으로부터 식별할 수 있는 것이 여전히 바람직하다. 이는 아래 설명된 바와 같은 실시예들에서 달성될 수 있다.
동일한 또는 다른 실시예들에서, AUC(access unit count)는 NAL 유닛 헤더, 슬라이스 헤더, 타일 그룹 헤더, SEI 메시지, 파라미터 세트 또는 AU 구분자(delimiter)와 같은 고레벨 신택스 구조에서 시그널링될 수 있다. AUC의 값은 어느 NAL 유닛들, 픽처들, 슬라이스들, 또는 타일들이 주어진 AU에 속하는지를 식별하기 위해 사용될 수 있다. AUC의 값은 별개의 구성 시간 인스턴스에 대응하는 것일 수 있다. AUC 값은 POC 값의 배수와 동일할 수 있다. POC 값을 정수 값으로 나눔으로써, AUC 값이 계산될 수 있다. 특정 경우들에서, 나눗셈 연산들은 디코더 구현들에 특정 부담을 줄 수 있다. 이러한 경우들에서, AUC 값들의 넘버링 공간에서의 작은 제한들은 본 개시내용의 실시예들에 의해 수행되는 시프트 연산들에 의한 나눗셈 연산의 대체를 허용할 수 있다. 예를 들어, AUC 값은 POC 값 범위의 MSB(Most Significant Bit) 값과 동일할 수 있다.
동일한 실시예에서, AU 당 POC 사이클의 값(예를 들어, 신택스 요소 poc_cycle_au)은 NAL 유닛 헤더, 슬라이스 헤더, 타일 그룹 헤더, SEI 메시지, 파라미터 세트 또는 AU 구분자와 같은 고레벨 신택스 구조에서 시그널링될 수 있다. poc_cycle_au 신택스 요소들은 얼마나 많은 상이하고 연속적인 POC 값들이 동일한 AU와 연관될 수 있는지를 표시할 수 있다. 예를 들어, poc_cycle_au의 값이 4인 경우, POC 값이 0 내지 3(경계 포함)인 픽처들, 슬라이스들 또는 타일들은 AUC 값이 0인 AU와 연관되고, POC 값이 4 내지 7(경계 포함)인 픽처들, 슬라이스들 또는 타일들은 AUC 값이 1인 AU와 연관된다. 따라서, AUC의 값은 POC 값을 poc_cycle_au의 값으로 나눔으로써 본 개시내용의 실시예들에 의해 추론될 수 있다.
동일한 또는 다른 실시예에서, poc_cycle_au의 값은 코딩된 비디오 시퀀스에서의 공간적 또는 SNR 계층들의 수를 식별하는, 예를 들어, VPS(video parameter set) 내에 위치하는 정보로부터 도출될 수 있다. 이러한 가능한 관계는 아래 간략하게 설명된다. 위에 설명된 바와 같은 도출은 VPS에서 수 비트(a few bits)를 절약할 수 있고, 따라서 코딩 효율을 개선할 수 있는 한편, 픽처와 같은 비트스트림의 주어진 작은 부분에 대해 poc_cycle_au를 최소화할 수 있도록, 계층적으로 비디오 파라미터 세트 아래의 적절한 고레벨 신택스 구조로 poc_cycle_au를 명시적으로 코딩하는 것이 유리할 수 있다. 이러한 최적화는 POC 값들(및/또는 POC를 간접적으로 참조하는 신택스 요소들의 값들)이 저레벨 신택스 구조들로 코딩될 수 있기 때문에 위의 도출 프로세스를 통해 절약될 수 있는 것보다 더 많은 비트들을 절약할 수 있다.
동일한 또는 다른 실시예에서, 도 9a는 코딩된 비디오 시퀀스 내의 모든 픽처/슬라이스들에 대해 사용되는 poc_cycle_au를 표시하는, VPS(630) 또는 SPS에서 vps_poc_cycle_au(632)의 신택스 요소를 시그널링하는 신택스 테이블의 일 예를 예시한 것이고, 도 9b는 슬라이스 헤더(640)에서 현재 슬라이스의 poc_cycle_au를 표시하는, slice_poc_cycle_au(642)의 신택스 요소를 시그널링하는 신택스 테이블의 일 예를 예시한다. POC 값이 AU마다 균일하게 증가하는 경우, VPS(630)에서의 vps_contant_poc_cycle_per_au(634)는 1로 설정되고, vps_poc_cycle_au(632)는 VPS(630)에서 시그널링된다. 이 경우에, slice_poc_cycle_au(642)는 명시적으로 시그널링되지 않고, 각각의 AU에 대한 AUC의 값은 POC의 값을 vps_poc_cycle_au(632)로 나눔으로써 계산된다. POC 값이 AU마다 균일하게 증가하지 않는 경우, VPS(630)에서의 vps_contant_poc_cycle_per_au(634)는 0으로 설정된다. 이 경우에, vps_access_unit_cnt는 시그널링되지 않는 한편, slice_access_unit_cnt는 각각의 슬라이스 또는 픽처에 대한 슬라이스 헤더에서 시그널링된다. 각각의 슬라이스 또는 픽처는 slice_access_unit_cnt의 상이한 값을 가질 수 있다. 각각의 AU에 대한 AUC의 값은 POC의 값을 slice_poc_cycle_au(642)로 나눔으로써 계산된다.
도 10은 실시예의 관련 작업 흐름을 설명하기 위한 블록도를 예시한다. 예를 들어, 디코더(또는 인코더)는 VPS/SPS를 파싱하고, AU당 POC 사이클이 일정한지 여부를 식별한다(652). 이어서, 디코더(또는 인코더)는 AU당 POC 사이클이 코딩된 비디오 시퀀스 내에서 일정한지에 기초하여 결정을 내린다(654). 즉, AU 당 POC 사이클이 일정한 경우, 디코더(또는 인코더)는 시퀀스 레벨 poc_cycle_au 값 및 POC 값으로부터 액세스 유닛 카운트의 값을 계산한다(656). 대안적으로, AU당 POC 사이클이 일정하지 않은 경우, 디코더(또는 인코더)는 픽처 레벨 poc_cycle_au 값 및 POC 값으로부터 액세스 유닛 카운트의 값을 계산한다(658). 어느 경우든지, 디코더(또는 인코더)는 이어서, 예를 들어, VPS/SPS를 파싱하고 AU당 POC 사이클이 일정한지 여부를 식별하는 것에 의해 프로세스를 반복할 수 있다(662).
동일한 또는 다른 실시예들에서, 픽처, 슬라이스, 또는 타일의 POC의 값이 상이할 수 있더라도, 동일한 AUC 값을 갖는 AU에 대응하는 픽처, 슬라이스, 또는 타일은 동일한 디코딩 또는 출력 시간 인스턴스와 연관될 수 있다. 따라서, 동일한 AU에서의 픽처들, 슬라이스들 또는 타일들에 걸친 임의의 인터-파싱/디코딩 의존성(inter-parsing/decoding dependency) 없이, 동일한 AU와 연관된 픽처들, 슬라이스들 또는 타일들의 전부 또는 서브세트가 병렬로 디코딩될 수 있고, 동일한 시간 인스턴스에서 출력될 수 있다.
동일한 또는 다른 실시예들에서, 픽처, 슬라이스, 또는 타일의 POC의 값이 상이할 수 있더라도, 동일한 AUC 값을 갖는 AU에 대응하는 픽처, 슬라이스, 또는 타일은 동일한 구성/디스플레이 시간 인스턴스와 연관될 수 있다. 구성 시간이 컨테이너 포맷(container format)에 포함될 때, 픽처들이 상이한 AU들에 대응하더라도, 픽처들이 동일한 구성 시간을 갖는 경우, 픽처들은 동일한 시간 인스턴스에서 디스플레이될 수 있다.
동일한 또는 다른 실시예들에서, 각각의 픽처, 슬라이스, 또는 타일은 동일한 AU에서 동일한 시간 식별자(예를 들어, 신택스 요소 temporal_id)를 가질 수 있다. 시간 인스턴스에 대응하는 픽처들, 슬라이스들 또는 타일들의 전부 또는 서브세트는 동일한 시간 서브-계층과 연관될 수 있다. 동일한 또는 다른 실시예들에서, 각각의 픽처, 슬라이스, 또는 타일은 동일한 AU에서 동일한 또는 상이한 공간 계층 id(예를 들어, 신택스 요소 layer_id)를 가질 수 있다. 시간 인스턴스에 대응하는 픽처들, 슬라이스들 또는 타일들의 전부 또는 서브세트는 동일하거나 상이한 공간 계층과 연관될 수 있다.
도 8은 적응적 해상도 변경을 갖는 temporal_id, layer_id, POC 값 및 AUC 값의 조합을 갖는 비디오 시퀀스 구조(680)의 일 예를 도시한다. 이 예에서, AUC=0인 제1 AU 내의 픽처, 슬라이스 또는 타일은 temporal_id=0 및 layer_id=0 또는 1을 가질 수 있는 한편, AUC=1인 제2 AU 내의 픽처, 슬라이스 또는 타일은 temporal_id=1 및 layer_id=0 또는 1을 각각 가질 수 있다. POC의 값은 temporal_id 및 layer_id의 값들에 관계없이 픽처당 1만큼 증가된다. 이 예에서, poc_cycle_au의 값은 2일 수 있다. 일 실시예들에서, poc_cycle_au의 값은 (공간 확장성) 계층들의 수와 동등하게 설정될 수 있다. 이 예에서, POC의 값은 2만큼 증가되는 한편, AUC의 값은 1만큼 증가된다. 일 예로서, 도 8은, 제1 AU(AUC = 0) 내에서, POC 0, TID 0, 및 LID 0을 갖는 I-슬라이스(681), 및 POC 1, TID 0, 및 LID 1을 갖는 B-슬라이스(682)를 예시한다. 제2 AU(AUC = 1) 내에서, 도 8은 POC 2, TID 1, 및 LID 0을 갖는 B-슬라이스(683), 및 POC 3, TID 1, 및 LID 1을 갖는 B-슬라이스(684)를 예시한다. 제3 AU(AUC = 3) 내에서, 도 8은 POC 4, TID 0, 및 LID 0을 갖는 B-슬라이스(685), 및 POC 5, TID 0, 및 LID 1을 갖는 B-슬라이스(686)를 예시한다.
위의 실시예들에서, 인터-픽처 또는 인터-계층 예측 구조 및 참조 픽처 표시의 전부 또는 서브세트는 HEVC에서의 기존의 RPS(reference picture set) 시그널링 또는 RPL(reference picture list) 시그널링을 사용하여 지원될 수 있다. RPS 또는 RPL에서, 선택된 참조 픽처는 현재 픽처와 선택된 참조 픽처 사이의 POC의 값 또는 POC의 델타 값을 시그널링함으로써 표시된다. 본 개시내용의 실시예들에서, RPS 및 RPL은 시그널링의 변경 없이, 그러나 다음의 제한들을 갖는 인터-픽처 또는 인터-계층 예측 구조를 표시하기 위해 사용될 수 있다. 참조 픽처의 temporal_id의 값이 현재 픽처의 temporal_id의 값보다 큰 경우, 현재 픽처는 모션 보상 또는 다른 예측들을 위해 참조 픽처를 사용하지 않을 수 있다. 참조 픽처의 layer_id의 값이 현재 픽처의 layer_id의 값보다 큰 경우, 현재 픽처는 모션 보상 또는 다른 예측들을 위해 참조 픽처를 사용하지 않을 수 있다.
동일한 그리고 다른 실시예들에서, 시간적 모션 벡터 예측을 위한 POC 차이에 기초한 모션 벡터 스케일링은 액세스 유닛 내의 다수의 픽처에 걸쳐 디스에이블될 수 있다. 따라서, 각각의 픽처가 액세스 단위 내에서 상이한 POC 값을 가질 수 있지만, 동일한 AU에서 상이한 POC를 갖는 참조 픽처가 동일한 시간 인스턴스를 갖는 참조 픽처로 간주될 수 있기 때문에, 모션 벡터는 액세스 유닛 내에서 시간적 모션 벡터 예측을 위해 스케일링 및 사용되지 않을 수 있다. 따라서, 이 실시예에서, 참조 픽처가 현재 픽처와 연관된 AU에 속할 때, 모션 벡터 스케일링 함수는 1을 반환할 수 있다.
동일한 그리고 다른 실시예들에서, 참조 픽처의 공간 해상도가 현재 픽처의 공간 해상도와 상이할 때, 시간적 모션 벡터 예측에 대한 POC 차이에 기초한 모션 벡터 스케일링은 선택적으로 다수의 픽처에 걸쳐 디스에이블될 수 있다. 모션 벡터 스케일링이 허용될 때, 모션 벡터는 POC 차이 및 현재 픽처와 참조 픽처 사이의 공간 해상도 비율 둘 다에 기초하여 스케일링될 수 있다.
동일한 또는 다른 실시예에서, 모션 벡터는, 특히 poc_cycle_au가 불균일한 값을 가질 때(vps_contant_poc_cycle_per_au==0일 때), 시간적 모션 벡터 예측을 위해, POC 차이 대신에 AUC 차이에 기초하여 스케일링될 수 있다. 그렇지 않으면(vps_contant_poc_cycle_per_au==1일 때), AUC 차이에 기초한 모션 벡터 스케일링은 POC 차이에 기초한 모션 벡터 스케일링과 동일할 수 있다.
동일한 또는 다른 실시예에서, 모션 벡터가 AUC 차이에 기초하여 스케일링될 때, 현재 픽처와 동일한 AU(동일한 AUC 값을 가짐) 내의 참조 모션 벡터는 AUC 차이에 기초하여 스케일링되지 않고, 현재 픽처와 참조 픽처 사이의 공간 해상도 비율에 기초한 스케일링이 있거나 또는 스케일링이 없는 모션 벡터 예측에 사용된다.
동일한 그리고 다른 실시예들에서, AUC 값은 AU의 경계를 식별하기 위해 사용되고, AU 입도를 갖는 입력 및 출력 타이밍을 필요로 하는 HRD(hypothetical reference decoder) 동작을 위해 사용된다. 대부분의 경우, AU에서 최상위 계층을 갖는 디코딩된 픽처가 디스플레이를 위해 출력될 수 있다. AUC 값 및 layer_id 값은 출력 픽처를 식별하기 위해 사용될 수 있다.
일 실시예에서, 픽처는 하나 이상의 서브-픽처로 구성될 수 있다. 각각의 서브-픽처는 픽처의 로컬 영역 또는 전체 영역을 커버할 수 있다. 서브-픽처에 의해 지원되는 영역은 다른 서브-픽처에 의해 지원되는 영역과 중첩될 수 있거나 또는 중첩되지 않을 수 있다. 하나 이상의 서브-픽처에 의해 구성되는 영역은 픽처의 전체 영역을 커버할 수 있거나 또는 커버하지 않을 수 있다. 픽처가 서브-픽처로 구성되는 경우, 서브-픽처에 의해 지원되는 영역은 픽처에 의해 지원되는 영역과 동일할 수 있다.
동일한 실시예에서, 서브-픽처는 코딩된 픽처에 대해 사용되는 코딩 방법과 유사한 코딩 방법에 의해 코딩될 수 있다. 서브-픽처는 독립적으로 코딩될 수 있거나, 다른 서브-픽처 또는 코딩된 픽처에 의존적으로 코딩될 수 있다. 서브-픽처는 다른 서브-픽처 또는 코딩된 픽처로부터 임의의 파싱 의존성을 가질 수 있거나 또는 갖지 않을 수 있다.
동일한 실시예에서, 코딩된 서브-픽처는 하나 이상의 계층에 포함될 수 있다. 계층 내의 코딩된 서브-픽처는 상이한 공간 해상도를 가질 수 있다. 원래의 서브-픽처는 공간적으로 리샘플링(업샘플링 또는 다운샘플링)되고, 상이한 공간 해상도 파라미터들로 코딩되고, 계층에 대응하는 비트스트림에 포함될 수 있다.
동일한 또는 다른 실시예에서, (W, H)(W는 서브-픽처의 폭을 표시하고 H는 서브-픽처의 높이를 각각 표시함)를 갖는 서브-픽처는 계층 0에 대응하는 코딩된 비트스트림으로 코딩 및 거기에 포함될 수 있는 한편, 원래의 공간 해상도를 갖는 서브-픽처로부터의 업샘플링된(또는 다운샘플링된) 서브-픽처(W*Sw,k, H*Sh,k)는 계층 k에 대응하는 코딩된 비트스트림으로 코딩 및 거기에 포함될 수 있으며, 여기서 Sw,k, Sh,k는 수평으로 및 수직으로 리샘플링 비율들을 표시한다. Sw,k, Sh,k의 값들이 1보다 큰 경우, 리샘플링은 업샘플링과 동일하다. 반면, Sw,k, Sh,k의 값들이 1보다 작은 경우, 리샘플링은 다운샘플링과 동일하다.
동일한 또는 다른 실시예에서, 계층에서의 코딩된 서브-픽처는 동일한 서브-픽처 또는 상이한 서브-픽처에서 또 다른 계층에서의 코딩된 서브-픽처의 시각적 품질과 상이한 시각적 품질을 가질 수 있다. 예를 들어, 계층 n에서의 서브-픽처 i는 양자화 파라미터 Qi,n으로 코딩되는 한편, 계층 m에서의 서브-픽처 j는 양자화 파라미터 Qj,m으로 코딩된다.
동일한 또는 다른 실시예에서, 계층에서의 코딩된 서브-픽처는 동일한 로컬 영역의 또 다른 계층에서의 코딩된 서브-픽처로부터의 임의의 파싱 또는 디코딩 의존성 없이 독립적으로 디코딩가능할 수 있다. 동일한 로컬 영역의 다른 서브-픽처 계층을 참조하지 않고 독립적으로 디코딩가능할 수 있는 서브-픽처 계층은 독립적인 서브-픽처 계층이다. 독립적인 서브-픽처 계층에서의 코딩된 서브-픽처는 동일한 서브-픽처 계층에서의 이전에 코딩된 서브-픽처로부터의 디코딩 또는 파싱 의존성을 가질 수 있거나 또는 갖지 않을 수 있지만, 코딩된 서브-픽처는 다른 서브-픽처 계층에서의 코딩된 픽처로부터의 어떠한 의존성도 갖지 않을 수 있다.
동일한 또는 다른 실시예에서, 계층에서의 코딩된 서브-픽처는, 동일한 로컬 영역의 또 다른 계층에서의 코딩된 서브-픽처로부터의 임의의 파싱 또는 디코딩 의존성을 가지고, 의존적으로 디코딩가능할 수 있다. 동일한 로컬 영역의 다른 서브-픽처 계층을 참조하여 의존적으로 디코딩가능할 수 있는 서브-픽처 계층은 의존적인 서브-픽처 계층이다. 의존적인 서브-픽처에서의 코딩된 서브-픽처는 동일한 서브-픽처에 속하는 코딩된 서브-픽처, 동일한 서브-픽처 계층에서의 이전에 코딩된 서브-픽처, 또는 참조 서브-픽처들 둘 다를 참조할 수 있다.
동일한 또는 다른 실시예에서, 코딩된 서브-픽처는 하나 이상의 독립적 서브-픽처 계층 및 하나 이상의 의존적 서브-픽처 계층으로 구성된다. 그러나, 코딩된 서브-픽처에 대해 적어도 하나의 독립적인 서브-픽처 계층이 존재할 수 있다. 독립적인 서브-픽처 계층은 0인 NAL 유닛 헤더 또는 다른 고레벨 신택스 구조에 존재할 수 있는 계층 식별자(예를 들어 신택스 요소 layer_id)의 값을 가질 수 있다. layer_id가 0인 서브-픽처 계층은 기본 서브-픽처 계층일 수 있다.
동일한 또는 다른 실시예에서, 픽처는 하나 이상의 전경 서브-픽처 및 하나의 배경 서브-픽처로 구성될 수 있다. 배경 서브-픽처에 의해 지원되는 영역은 픽처의 영역과 동일할 수 있다. 전경 서브-픽처에 의해 지원되는 영역은 배경 서브-픽처에 의해 지원되는 영역과 중첩될 수 있다. 배경 서브-픽처는 기본 서브-픽처 계층일 수 있는 한편, 전경 서브-픽처는 비-기본(non-base)(향상) 서브-픽처 계층일 수 있다. 하나 이상의 비-기본 서브-픽처 계층은 디코딩을 위해 동일한 기본 계층을 참조할 수 있다. layer_id가 a인 각각의 비-기본 서브-픽처 계층은 layer_id가 b인 비-기본 서브-픽처 계층을 참조할 수 있으며, 여기서 a는 b보다 크다.
동일한 또는 다른 실시예에서, 픽처는 배경 서브-픽처를 갖거나 갖지 않는 하나 이상의 전경 서브-픽처로 구성될 수 있다. 각각의 서브-픽처는 그 자신의 기본 서브-픽처 계층 및 하나 이상의 비-기본(향상) 계층을 가질 수 있다. 각각의 기본 서브-픽처 계층은 하나 이상의 비-기본 서브-픽처 계층에 의해 참조될 수 있다. layer_id가 a인 각각의 비-기본 서브-픽처 계층은 layer_id가 b인 비-기본 서브-픽처 계층을 참조할 수 있으며, 여기서 a는 b보다 크다.
동일한 또는 다른 실시예에서, 픽처는 배경 서브-픽처를 갖거나 갖지 않는 하나 이상의 전경 서브-픽처로 구성될 수 있다. (기본 또는 비-기본) 서브-픽처 계층 내의 각각의 코딩된 서브-픽처는 동일한 서브-픽처에 속하는 하나 이상의 비-기본 계층 서브-픽처 및 동일한 서브-픽처에 속하지 않는 하나 이상의 비-기본 계층 서브-픽처에 의해 참조될 수 있다.
동일한 또는 다른 실시예에서, 픽처는 배경 서브-픽처를 갖거나 갖지 않는 하나 이상의 전경 서브-픽처로 구성될 수 있다. 계층 a 내의 서브-픽처는 동일 계층 내의 다수의 서브-픽처로 추가로 파티셔닝될 수 있다. 계층 b 내의 하나 이상의 코딩된 서브-픽처는 계층 a 내의 파티셔닝된 서브-픽처를 참조할 수 있다.
동일한 또는 다른 실시예에서, CVS(coded video sequence)는 코딩된 픽처들의 그룹일 수 있다. CVS는 하나 이상의 CSPS(coded sub-picture sequence)로 구성될 수 있는데, 여기서 CSPS는 픽처의 동일 로컬 영역을 커버하는 코딩된 서브-픽처들의 그룹일 수 있다. CSPS는 코딩된 비디오 시퀀스와 동일하거나 상이한 시간 해상도를 가질 수 있다.
동일한 또는 다른 실시예에서, CSPS는 코딩되고 하나 이상의 계층에 포함될 수 있다. CSPS는 하나 이상의 CSPS 계층을 포함하거나 그들로 구성될 수 있다. CSPS에 대응하는 하나 이상의 CSPS 계층을 디코딩하는 것은 동일한 로컬 영역에 대응하는 서브-픽처들의 시퀀스를 재구성할 수 있다.
동일한 또는 다른 실시예에서, CSPS에 대응하는 CSPS 계층의 수는 또 다른 CSPS에 대응하는 CSPS 계층들의 수와 동일하거나 상이할 수 있다.
동일한 또는 다른 실시예에서, CSPS 계층은 다른 CSPS 계층과 상이한 시간 해상도(예를 들어, 프레임 레이트)를 가질 수 있다. 원래의(압축되지 않은) 서브-픽처 시퀀스는 시간적으로 리샘플링(업샘플링 또는 다운샘플링)되고, 상이한 시간 해상도 파라미터들로 코딩되고, 계층에 대응하는 비트스트림에 포함될 수 있다.
동일한 또는 다른 실시예에서, 프레임 레이트 F를 갖는 서브-픽처 시퀀스는 코딩되고 계층 0에 대응하는 코딩된 비트스트림에 포함될 수 있는 한편, F*St,k를 갖는, 원래의 서브-픽처 시퀀스로부터의 시간적으로 업샘플링된(또는 다운샘플링된) 서브-픽처 시퀀스는 코딩되고 계층 k에 대응하는 코딩된 비트스트림에 포함될 수 있으며, 여기서 St,k는 계층 k에 대한 시간 샘플링 비율을 표시한다. St,k의 값이 1보다 큰 경우, 시간 리샘플링 프로세스는 프레임 레이트 상향 전환과 동일하다. 반면, St,k의 값이 1보다 작은 경우, 시간 리샘플링 프로세스는 프레임 레이트 하향 전환과 동일하다.
동일한 또는 다른 실시예에서, CSPS 계층 a를 갖는 서브-픽처가 모션 보상 또는 임의의 인터-계층 예측을 위해 CSPS 계층 b를 갖는 서브-픽처에 의해 참조될 때, CSPS 계층 a의 공간 해상도가 CSPS 계층 b의 공간 해상도와 상이한 경우, CSPS 계층 a에서의 디코딩된 픽셀들은 리샘플링되고 참조를 위해 사용된다. 리샘플링 프로세스는 업샘플링 필터링 또는 다운샘플링 필터링을 필요로 할 수 있다.
도 11은 layer_id가 0인 배경 비디오 CSPS 및 다수의 전경 CSPS 계층을 포함하는 예시적인 비디오 스트림을 도시한다. 코딩된 서브-픽처가 하나 이상의 향상 CSPS 계층(704)으로 구성될 수 있는 한편, 임의의 전경 CSPS 계층에 속하지 않는 배경 영역은 기본 계층(702)을 포함할 수 있다. 기본 계층(702)은 배경 영역 및 전경 영역을 포함할 수 있는 한편, 향상 CSPS 계층(704)은 전경 영역을 포함한다. 향상 CSPS 계층(704)은 동일한 영역에서 기본 계층(702)보다 더 나은 시각적 품질을 가질 수 있다. 향상 CSPS 계층(704)은 동일한 영역에 대응하는, 재구성된 픽셀들 및 기본 계층(702)의 모션 벡터들을 참조할 수 있다.
동일한 또는 다른 실시예에서, 기본 계층(702)에 대응하는 비디오 비트스트림은 트랙에 포함되는 한편, 각각의 서브-픽처에 대응하는 CSPS 계층들(704)은 비디오 파일에서, 분리된 트랙에 포함된다.
동일한 또는 다른 실시예에서, 기본 계층(702)에 대응하는 비디오 비트스트림은 트랙에 포함되는 한편, 동일한 layer_id를 갖는 CSPS 계층들(704)은 분리된 트랙에 포함된다. 이 예에서, 계층 k에 대응하는 트랙은 계층 k에 대응하는 CSPS 계층들(704)만을 포함한다.
동일한 또는 다른 실시예에서, 각각의 서브-픽처의 각각의 CSPS 계층(704)은 별개의 트랙에 저장된다. 각각의 트랙은 하나 이상의 다른 트랙들로부터의 임의의 파싱 또는 디코딩 의존성을 가질 수 있거나 또는 갖지 않을 수 있다.
동일한 또는 다른 실시예에서, 각각의 트랙은 서브-픽처들의 전부 또는 서브세트의 CSPS 계층들(704)의 계층 i 내지 계층 j에 대응하는 비트스트림들을 포함할 수 있고, 여기서 0<i=<j=<k이고, k는 CSPS의 최상위 계층이다.
동일한 또는 다른 실시예에서, 픽처는 깊이 맵, 알파 맵, 3D 지오메트리 데이터, 점유 맵 등을 포함하는 하나 이상의 연관된 매체 데이터를 포함하거나 그들로 구성된다. 이러한 연관된 타이밍 매체 데이터(timed media data)는 각각이 하나의 서브-픽처에 대응하는 하나 또는 다수의 데이터 서브-스트림으로 나누어질 수 있다.
동일한 또는 다른 실시예에서, 도 12는 멀티-계층화된 서브-픽처 방법에 기초한 영상 회의의 일 예를 도시한다. 비디오 스트림에는, 배경 픽처에 대응하는 하나의 기본 계층 비디오 비트스트림 및 전경 서브-픽처들에 대응하는 하나 이상의 향상 계층 비디오 비트스트림이 포함된다. 각각의 향상 계층 비디오 비트스트림은 CSPS 계층에 대응할 수 있다. 디스플레이에서, 기본 계층(712)에 대응하는 픽처가 디폴트로 디스플레이된다. 기본 계층(712)은 하나 이상의 사용자의 PIP(picture in a picture)를 포함할 수 있다. 특정된 사용자가 클라이언트의 제어에 의해 선택될 때, 선택된 사용자에 대응하는 향상 CSPS 계층(714)은 향상된 품질 또는 공간 해상도로 디코딩 및 디스플레이된다.
도 13은 실시예의 동작에 대한 도면을 예시한다. 이 실시예에서, 디코더는, 예를 들어, 하나의 기본 계층 및 하나 이상의 향상 CSPS 계층과 같은 다수의 계층을 포함하는 비디오 비트스트림을 디코딩할 수 있다(722). 이어서, 디코더는 배경 영역 및 하나 이상의 전경 서브-픽처를 식별하고(724), 특정 서브-픽처 영역이 선택되는지에 대한 결정을 실시할 수 있다(726). 예를 들어, 사용자의 PIP에 대응하는 특정 서브-픽처 영역이 선택되는 경우(예), 디코더는 선택된 사용자에 대응하는 향상된 서브-픽처를 디코딩 및 디스플레이할 수 있다(728). 예를 들어, 디코더는 향상 CSPS 계층(714)에 대응하는 이미지를 디코딩 및 디스플레이할 수 있다. 특정 서브-픽처 영역이 선택되지 않은 경우(아니오), 디코더는 배경 영역을 디코딩 및 디스플레이할 수 있다(730). 예를 들어, 디코더는 기본 계층(712)에 대응하는 이미지를 디코딩 및 디스플레이할 수 있다.
동일한 또는 다른 실시예에서, (라우터와 같은) 네트워크 미들 박스는 그의 대역폭에 의존하여 사용자에게 전송할 계층들의 서브세트를 선택할 수 있다. 픽처/서브-픽처 편성(picture/subpicture organization)은 대역폭 적응을 위해 사용될 수 있다. 예를 들어, 사용자가 대역폭을 갖지 않는 경우, 라우터는 계층들을 스트립하거나, 그들의 중요성으로 인해 또는 사용되는 셋업에 기초하여 일부 서브픽처들을 선택한다. 일 실시예에서, 이러한 프로세스들은 대역폭에 적응하기 위해 동적으로 행해질 수 있다.
도 14는 360 비디오의 예시적인 사용 경우를 예시한다. 구면 360 픽처(742)가 평면 픽처상으로 투영될 때, 투영되는 구면 360 픽처(742)는 기본 계층(744)으로서 다수의 서브-픽처들(745)로 파티셔닝될 수 있다. 서브-픽처들(745) 중 특정한 하나의 서브-픽처의 향상 계층(746)이 코딩되어 클라이언트에게 송신될 수 있다. 디코더는 모든 서브-픽처(745)를 포함하는 기본 계층(744) 및 서브-픽처들(745) 중 선택된 하나의 서브-픽처의 향상 계층(746) 둘 다를 디코딩할 수 있다. 현재 뷰포트가 서브-픽처들(745) 중 선택된 하나의 서브-픽처와 동일할 때, 디스플레이된 픽처는 향상 계층(746)을 가진 디코딩된 서브-픽처(745)와 더 높은 품질을 가질 수 있다. 그렇지 않으면, 기본 계층(744)을 갖는 디코딩된 픽처가 더 낮은 품질로 디스플레이될 수 있다.
동일한 또는 다른 실시예에서, 디스플레이를 위한 임의의 레이아웃 정보는 (SEI 메시지 또는 메타데이터와 같은) 보충 정보로서 파일에 존재할 수 있다. 하나 이상의 디코딩된 서브-픽처는 시그널링된 레이아웃 정보에 의존하여 재배치 및 디스플레이될 수 있다. 레이아웃 정보는 스트리밍 서버 또는 브로드캐스터에 의해 시그널링될 수 있거나, 또는 네트워크 엔티티 또는 클라우드 서버에 의해 재생성될 수 있거나, 또는 사용자의 맞춤형 설정에 의해 결정될 수 있다.
일 실시예에서, 입력 픽처가 하나 이상의 (직사각형) 서브-영역(들)으로 나누어질 때, 각각의 서브-영역은 독립 계층으로서 코딩될 수 있다. 로컬 영역에 대응하는 각각의 독립 계층은 고유 layer_id 값을 가질 수 있다. 각각의 독립 계층에 대해, 서브-픽처 크기 및 위치 정보가 시그널링될 수 있다. 예를 들어, 픽처 크기(폭, 높이) 및 좌측-상단 코너의 오프셋 정보(x_offset, y_offset)가 시그널링될 수 있다. 도 15a는 나누어진 서브-픽처들(752)의 레이아웃의 일 예를 예시하고, 도 15b는 서브-픽처들(752) 중 하나의 서브-픽처의 대응하는 서브-픽처 크기 및 포지션 정보의 일 예를 예시하며, 도 16은 대응하는 픽처 예측 구조를 예시한다. 서브-픽처 크기(들) 및 서브-픽처 포지션(들)을 포함하는 레이아웃 정보는 파라미터 세트(들), 슬라이스 또는 타일 그룹의 헤더, 또는 SEI 메시지와 같은 고레벨 신택스 구조에서 시그널링될 수 있다.
동일한 실시예에서, 독립 계층에 대응하는 각각의 서브-픽처는 AU 내에서 그의 고유 POC 값을 가질 수 있다. DPB에 저장된 픽처들 중 참조 픽처가 RPS 또는 RPL 구조에서의 신택스 요소(들)를 사용하여 표시될 때, 계층에 대응하는 각각의 서브-픽처의 POC 값(들)이 사용될 수 있다.
동일한 또는 다른 실시예에서, (인터-계층) 예측 구조를 표시하기 위해, layer_id가 사용되지 않을 수 있고 POC(델타) 값이 사용될 수 있다.
동일한 실시예에서, 계층(또는 로컬 영역)에 대응하는 N과 동일한 POC 값을 갖는 서브-픽처는 모션 보상된 예측을 위해 동일한 계층(또는 동일한 로컬 영역)에 대응하는, K+N와 동일한 POC 값을 갖는 서브-픽처의 참조 픽처로서 사용될 수 있거나 사용되지 않을 수 있다. 대부분의 경우에, 수 K의 값은, 서브-영역들의 수와 동일할 수 있는, (독립적인) 계층들의 최대 수와 동일할 수 있다.
동일한 또는 다른 실시예에서, 도 17-18은 도 15a-b 및 도 16의 확장된 경우를 예시한다. 입력 픽처가 다수의(예를 들어, 4개의) 서브-영역으로 나누어질 때, 각각의 로컬 영역은 하나 이상의 계층으로 코딩될 수 있다. 이 경우에, 독립 계층들의 수는 서브-영역들의 수와 동일할 수 있고, 하나 이상의 계층은 서브-영역에 대응할 수 있다. 따라서, 각각의 서브-영역은 하나 이상의 독립 계층(들) 및 0개 이상의 의존적인 계층(들)으로 코딩될 수 있다.
동일한 실시예에서, 도 17을 참조하면, 입력 픽처는 상단-좌측 서브-영역(762), 상단-우측 서브-영역(763), 하단-좌측 서브-영역(764), 및 하단-우측 서브-영역(765)을 포함하는 4개의 서브-영역들로 나뉘어질 수 있다. 상단-우측 서브-영역(763)은 계층 1 및 계층 4인 2개의 계층으로서 코딩될 수 있는 한편, 하단-우측 서브-영역(765)은 계층 3 및 계층 5인 2개의 계층으로서 코딩될 수 있다. 이 경우에, 계층 4는 모션 보상된 예측을 위해 계층 1을 참조할 수 있는 한편, 계층 5는 모션 보상을 위해 계층 3을 참조할 수 있다.
동일한 또는 다른 실시예에서, 계층 경계에 걸친 인-루프 필터링(예컨대, 디블록킹 필터링, 적응 인-루프 필터링, 재정형기(reshaper), 양방향 필터링 또는 임의의 딥 러닝 기반 필터링)이 (선택적으로) 디스에이블될 수 있다.
동일한 또는 다른 실시예에서, 계층 경계에 걸친 모션 보상된 예측 또는 인트라-블록 사본은 (선택적으로) 디스에이블될 수 있다.
동일한 또는 다른 실시예에서, 서브-픽처의 경계에서의 모션 보상 예측 또는 인-루프 필터링을 위한 경계 패딩은 선택적으로 처리될 수 있다. 경계 패딩이 처리되는지의 여부를 표시하는 플래그는 파라미터 세트(들)(VPS, SPS, PPS, 또는 APS), 슬라이스 또는 타일 그룹 헤더, 또는 SEI 메시지와 같은 고레벨 신택스 구조에서 시그널링될 수 있다.
동일한 또는 다른 실시예에서, 서브-영역(들)(또는 서브-픽처(들))의 레이아웃 정보는 VPS 또는 SPS에서 시그널링될 수 있다. 도 19a는 VPS(770) 내의 신택스 요소들의 일 예를 도시하고, 도 19b는 SPS(780)의 신택스 요소들의 일 예를 도시한다. 이 예에서, vps_sub_picture_dividing_flag(772)는 VPS(770)에서 시그널링된다. 플래그는 입력 픽처(들)가 다수의 서브-영역들로 나누어지는지의 여부를 표시할 수 있다. vps_sub_picture_dividing_flag(772)의 값이 0일 때, 현재 VPS에 대응하는 코딩된 비디오 시퀀스(들)에서의 입력 픽처(들)는 다수의 서브-영역들로 나누어지지 않을 수 있다. 이 경우에, 입력 픽처 크기는 SPS(680)에서 시그널링되는, 코딩된 픽처 크기(pic_width_in_luma_samples(786), pic_height_in_luma_samples(788))와 동일할 수 있다. vps_sub_picture_dividing_flag(772)의 값이 1일 때, 입력 픽처(들)는 다수의 서브-영역으로 나누어질 수 있다. 이 경우에, 신택스 요소들 vps_full_pic_width_in_luma_samples(774) 및 vps_full_pic_height_in_luma_samples(776)는 VPS(770)에서 시그널링된다. vps_full_pic_width_in_luma_samples(774) 및 vps_full_pic_height_in_luma_samples(776)의 값들은 각각 입력 픽처(들)의 폭 및 높이와 동일할 수 있다.
동일한 실시예에서, vps_full_pic_width_in_luma_samples(774) 및 vps_full_pic_height_in_luma_samples(776)의 값들은 디코딩을 위해 사용되지 않을 수 있지만, 구성 및 디스플레이를 위해 사용될 수 있다.
동일한 실시예에서, vps_sub_picture_dividing_flag(772)의 값이 1일 때, 신택스 요소들 pic_offset_x(782) 및 pic_offset_y(784)는 특정 계층(들)에 대응하는 SPS(780)에서 시그널링될 수 있다. 이 경우에, SPS(780)에서 시그널링되는 코딩된 픽처 크기(pic_width_in_luma_samples(786), pic_height_in_luma_samples(788))는 특정 계층에 대응하는 서브-영역의 폭 및 높이와 동일할 수 있다. 또한, 서브-영역의 좌측-상단 코너의 포지션(pic_offset_x(782), pic_offset_y(784))은 SPS(780)에서 시그널링될 수 있다.
동일한 실시예에서, 서브-영역의 좌측-상단 코너의 포지션 정보(pic_offset_x(782), pic_offset_y(784))는 디코딩을 위해 사용되지 않을 수 있지만, 구성 및 디스플레이를 위해 사용될 수 있다.
동일한 또는 다른 실시예에서, 입력 픽처(들)의 모든 또는 서브-세트 서브-영역(들)의 레이아웃 정보(크기 및 포지션), 및 계층(들) 사이의 의존성 정보는 파라미터 세트 또는 SEI 메시지에서 시그널링될 수 있다. 도 20은 서브-영역들의 레이아웃의 정보, 계층들 사이의 의존성, 및 서브-영역과 하나 이상의 계층 사이의 관계를 표시하는 신택스 요소들의 일 예를 예시한다. 이 예에서, 신택스 요소 num_sub_region(791)은 현재 코딩된 비디오 시퀀스에서의 (직사각형) 서브-영역들의 수를 표시한다. 신택스 요소 num_layers(792)는 현재 코딩된 비디오 시퀀스에서의 계층들의 수를 표시한다. num_layers(792)의 값은 num_sub_region(791)의 값 이상일 수 있다. 임의의 서브-영역이 단일 계층으로서 코딩될 때, num_layers(792)의 값은 num_sub_region(791)의 값과 동일할 수 있다. 하나 이상의 서브 영역이 다수의 계층으로서 코딩될 때, num_layers(792)의 값은 num_sub_region(791)의 값보다 클 수 있다. 신택스 요소 direct_dependency_flag[i][j](793)는 j번째 계층으로부터 i번째 계층으로의 의존성을 표시한다. 신택스 요소 num_layers_for_region[i](794)는 i번째 서브-영역과 연관된 계층들의 수를 표시한다. 신택스 요소 sub_region_layer_id[i][j](795)는 i번째 서브-영역과 연관된 j번째 계층의 layer_id를 표시한다. 신택스 요소 sub_region_offset_x[i](796) 및 sub_region_offset_y[i](797)는 각각 i번째 서브-영역의 좌측-상단 코너의 수평 및 수직 위치를 표시한다. 신택스 요소 sub_region_width[i](798) 및 sub_region_height[i](799)는 각각 i번째 서브-영역의 폭 및 높이를 표시한다.
하나의 실시예에서, 프로파일 티어(tier) 레벨 정보와 함께 또는 프로파일-티어-레벨 정보 없이 출력될 하나 이상의 계층을 표시하기 위해 출력 계층 세트를 특정하는 하나 이상의 신택스 요소는, 고레벨 신택스 구조(예를 들어, VPS, DPS, SPS, PPS, APS 또는 SEI 메시지)에서 시그널링될 수 있다. 도 21을 참조하면, VPS를 참조하는 코딩된 비디오 시퀀스에서의 OLS(output layer set)의 수를 표시하는 신택스 요소 num_output_layer_sets(804)가 VPS에서 시그널링될 수 있다. 각각의 출력 계층 세트에 대해, 신택스 요소 output_layer_flag(810)는 출력 계층들의 수만큼의 횟수로 시그널링될 수 있다.
동일한 실시예에서, 신택스 요소 output_layer_flag(810)가 1인 것은 i번째 계층이 출력된다는 것을 특정한다. 신택스 요소 output_layer_flag(810)가 0인 것은 i번째 계층이 출력되지 않는다는 것을 특정한다.
동일한 또는 다른 실시예에서, 각각의 출력 계층 세트에 대한 프로파일-티어-레벨 정보를 특정하는 하나 이상의 신택스 요소는 고레벨 신택스 구조(예를 들어, VPS, DPS, SPS, PPS, APS, 또는 SEI 메시지)에서 시그널링될 수 있다. 여전히 도 21을 참조하면, VPS를 참조하는 코딩된 비디오 시퀀스에서의 OLS 당 프로파일-티어-레벨 정보의 수를 표시하는 신택스 요소 num_profile_tier_level(806)은 VPS에서 시그널링될 수 있다. 각각의 출력 계층 세트에 대해, 프로파일-티어-레벨 정보에 대한 신택스 요소들의 세트 또는 프로파일-티어-레벨 정보 내의 엔트리들 중에서 특정 프로파일-티어-레벨 정보를 표시하는 인덱스가 출력 계층들의 수만큼의 횟수로 시그널링될 수 있다.
동일한 실시예에서, 신택스 요소 profile_tier_level_idx[i][j](812)는 i번째 OLS의 j번째 계층에 적용하는 profile_tier_level()(808) 신택스 구조의, VPS에서의 profile_tier_level()(808) 신택스 구조들의 리스트로 특정한다.
프로파일들, 티어들, 및 레벨들(및 그것의 대응하는 정보)은 비트스트림들에 대한 제한들, 및 따라서, 비트스트림들을 디코딩하기 위해 필요한 능력들에 대한 한계들을 특정할 수 있다. 프로파일들, 티어들, 및 레벨들(및 그것의 대응하는 정보)은 또한 개개의 디코더 구현들 사이의 상호운용성 포인트들을 표시하기 위해 사용될 수 있다. 프로파일은 예를 들어 표준의 전체 비트스트림 신택스의 서브세트일 수 있다. 각각의 프로파일(및 그것의 대응하는 정보)은 프로파일을 준수하는 모든 디코더들에 의해 지원될 수 있는 알고리즘 특징들 및 한계들의 서브세트를 특정할 수 있다. 티어들 및 레벨들은 각각의 프로파일 내에 특정될 수 있고, 티어의 레벨은 비트스트림 내의 신택스 요소들의 값들에 부과되는 특정된 제약 세트일 수 있다. 티어의 각각의 레벨(및 그것의 대응하는 정보)은 본 개시내용의 신택스 요소들에 의해 취해질 수 있는 값들의 산술 조합들에 대한 한계들 및/또는 값들에 대한 한계들의 세트를 특정할 수 있다. 티어 및 레벨 정의들의 동일한 세트가 모든 프로파일들과 함께 사용될 수 있지만, 개개의 구현들은 상이한 티어, 및 티어 내에서, 각각의 지원되는 프로파일에 대한 상이한 레벨을 지원할 수 있다. 임의의 주어진 프로파일에 대해, 티어의 레벨은 특정한 디코더 처리 부하 및 메모리 능력에 대응할 수 있다. 하위 티어에 대해 특정된 레벨은 상위 티어에 대해 특정된 레벨보다 더 제약될 수 있다.
동일한 또는 다른 실시예에서, 도 22를 참조하면, 신택스 요소들 num_profile_tier_level(806) 및/또는 num_output_layer_sets(804)는 최대 계층들의 수가 1보다 클 때(vps_max_layers_minus1 > 0) 시그널링될 수 있다.
동일한 또는 다른 실시예에서, 도 22를 참조하면, i번째 출력 계층 세트에 대한 출력 계층 시그널링의 모드를 표시하는 신택스 요소 vps_output_layers_mode[i](822)가 VPS에 존재할 수 있다.
동일한 실시예에서, 신택스 요소 vps_output_layers_mode[i](822)가 0인 것은 i번째 출력 계층 세트를 갖는 최상위 계층만이 출력되는 것을 특정한다. 신택스 요소 vps_output_layers_mode[i](822)가 1인 것은 i번째 출력 계층 세트를 갖는 모든 계층들이 출력되는 것을 특정한다. 신택스 요소 vps_output_layer_mode[i](822)가 2인 것은, 출력되는 계층들이 i번째 출력 계층 세트를 갖는 vps_output_layer_flag[i][j]가 1인 계층들인 것을 특정한다. 더 많은 값들이 예약될 수 있다.
동일한 실시예에서, 신택스 요소 output_layer_flag[i][j](810)는 i번째 출력 계층 세트에 대한 신택스 요소 vps_output_layers_mode[i](822)의 값에 의존하여 시그널링될 수도 있고 시그널링되지 않을 수도 있다.
동일한 또는 다른 실시예에서, 도 22를 참조하면, 플래그 vps_ptl_signal_flag[i](824)는 i번째 출력 계층 세트에 대해 존재할 수 있다. vps_ptl_signal_flag[i](824)의 값에 의존하여, i번째 출력 계층 세트에 대한 프로파일-티어-레벨 정보가 시그널링될 수도 있고 시그널링되지 않을 수도 있다.
동일한 또는 다른 실시예에서, 도 23을 참조하면, 현재 CVS에서의 서브-픽처들의 수, max_subpics_minus1은 고레벨 신택스 구조(예를 들어, VPS, DPS, SPS, PPS, APS 또는 SEI 메시지)에서 시그널링될 수 있다.
동일한 실시예에서, 도 23을 참조하면, 서브-픽처들의 수가 1보다 클 때(max_subpics_minus1 > 0), i번째 서브-픽처에 대한 서브-픽처 식별자 sub_pic_id[i](821)가 시그널링될 수 있다.
동일한 또는 다른 실시예에서, 각각의 출력 계층 세트의 각각의 계층에 속하는 서브픽처 식별자를 표시하는 하나 이상의 신택스 요소가 VPS에서 시그널링될 수 있다. 도 23을 참조하면, 식별자 sub_pic_id_layer[i][j][k](826)는, i 번째 출력 계층 세트의 j 번째 계층에 존재하는 k 번째 서브-픽처를 표시한다. 식별자 sub_pic_id_layer[i][j][k](826)의 정보를 사용함으로써, 디코더는 특정 출력 계층 세트의 각각의 계층에 대해 어느 서브-픽처가 디코딩 및 출력될 수 있는지를 인식할 수 있다.
일 실시예에서, PH(picture header)는 코딩된 픽처의 모든 슬라이스에 적용하는 신택스 요소들을 포함하는 신택스 구조이다. PU(picture unit)은 특정된 분류 규칙에 따라 서로 연관되는 NAL 유닛들의 세트이고, 디코딩 순서에서 연속적이고, 정확히 하나의 코딩된 픽처를 포함한다. PU는 코딩된 픽처를 구성하는 하나 이상의 VCL NAL 유닛 및 PH(picture header)를 포함할 수 있다.
일 실시예에서, SPS(RBSP)는, TemporalId가 0인 적어도 하나의 AU에 포함되거나 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, SPS(RBSP)는, SPS를 참조하는 하나 이상의 PPS를 포함하는, CVS에서 TemporalId가 0인 적어도 하나의 AU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, SPS(RBSP)는, SPS를 참조하는 하나 이상의 PPS를 포함하는, CVS에서 SPS NAL 유닛을 참조하는 PPS NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PPS에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, SPS(RBSP)는, 0인 TemporalId 및 SPS NAL 유닛을 참조하는 PPS NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PPS에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, SPS(RBSP)는, 0인 TemporalId 및 SPS를 참조하는 하나 이상의 PPS를 포함하는, CVS에서의 SPS NAL 유닛을 참조하는 PPS NAL 유닛의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공되거나 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PPS에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
동일한 또는 다른 실시예에서, 식별자 pps_seq_parameter_set_id는 참조된 SPS에 대한 식별자 sps_seq_parameter_set_id의 값을 특정한다. 식별자 pps_seq_parameter_set_id의 값은 CLVS에서 코딩된 픽처에 의해 참조되는 모든 PPS들에서 동일할 수 있다.
동일한 또는 다른 실시예에서, CVS에서의 식별자 sps_seq_parameter_set_id의 특정한 값을 갖는 모든 SPS NAL 유닛은 동일한 콘텐츠를 가질 수 있다.
동일한 또는 다른 실시예에서, nuh_layer_id 값들에 관계없이, SPS NAL 유닛들은 식별자 sps_seq_parameter_set_id의 동일한 값 공간을 공유할 수 있다.
동일한 또는 다른 실시예에서, SPS NAL 유닛의 nuh_layer_id 값은, SPS NAL 유닛을 참조하는 PPS NAL 유닛들의 최저 nuh_layer_id 값과 동일할 수 있다.
일 실시예에서, nuh_layer_id가 m인 SPS가 nuh_layer_id가 n인 하나 이상의 PPS에 의해 참조될 때, nuh_layer_id가 m인 계층은 nuh_layer_id가 n인 계층 또는 nuh_layer_id가 m인 계층의 (직접 또는 간접) 참조 계층과 동일할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS NAL 유닛의 TemporalId와 동일한 TemporalId를 갖는 적어도 하나의 AU에 포함되거나 또는 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛의 TemporalId와 동일한 TemporalId를 갖는 적어도 하나의 AU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS NAL 유닛의 TemporalId와 동일한 TemporalId 및 PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
동일한 또는 다른 실시예에서, PH에서의 식별자 ph_pic_parameter_set_id는 사용 중인 참조된 PPS에 대한 식별자 pps_pic_parameter_set_id의 값을 특정한다. pps_seq_parameter_set_id의 값은 CLVS 내의 코딩된 픽처들에 의해 참조되는 모든 PPS들에서 동일할 수 있다.
동일한 또는 다른 실시예에서, PU 내의 식별자 pps_pic_parameter_set_id의 특정한 값을 갖는 모든 PPS NAL 유닛은 동일한 콘텐츠를 가질 수 있다.
동일한 또는 다른 실시예에서, nuh_layer_id 값들에 관계없이, PPS NAL 유닛들은 식별자 pps_pic_parameter_set_id의 동일한 값 공간을 공유할 수 있다.
동일한 또는 다른 실시예에서, PPS NAL 유닛의 nuh_layer_id 값은, PPS NAL 유닛을 참조하는 NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일할 수 있다.
일 실시예에서, nuh_layer_id가 m인 PPS가 nuh_layer_id가 n인 하나 이상의 코딩된 슬라이스 NAL 유닛에 의해 참조될 때, nuh_layer_id가 m인 계층은 nuh_layer_id가 n인 계층 또는 nuh_layer_id가 m인 계층의 (직접 또는 간접) 참조 계층과 동일할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS NAL 유닛의 TemporalId와 동일한 TemporalId를 갖는 적어도 하나의 AU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛의 TemporalId와 동일한 TemporalId를 갖는 적어도 하나의 AU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
일 실시예에서, PPS(RBSP)는, PPS NAL 유닛의 TemporalId와 동일한 TemporalId 및 PPS를 참조하는 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)를 포함하는, CVS에서의 PPS NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일한 nuh_layer_id를 갖는 적어도 하나의 PU에 포함되거나, 또는 외부 수단을 통해 제공됨으로써, 하나 이상의 PH(또는 코딩된 슬라이스 NAL 유닛들)에 의해 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다.
동일한 또는 다른 실시예에서, PH에서의 식별자 ph_pic_parameter_set_id는 사용 중인 참조된 PPS에 대한 식별자 pps_pic_parameter_set_id의 값을 특정한다. 식별자 pps_seq_parameter_set_id의 값은 CLVS 내의 코딩된 픽처에 의해 참조되는 모든 PPS에서 동일할 수 있다.
동일한 또는 다른 실시예에서, PU 내의 pps_pic_parameter_set_id의 특정한 값을 갖는 모든 PPS NAL 유닛은 동일한 콘텐츠를 가질 수 있다.
동일한 또는 다른 실시예에서, nuh_layer_id 값들에 관계없이, PPS NAL 유닛들은 식별자 pps_pic_parameter_set_id의 동일한 값 공간을 공유할 수 있다.
동일한 또는 다른 실시예에서, PPS NAL 유닛의 nuh_layer_id 값은, PPS NAL 유닛을 참조하는 NAL 유닛을 참조하는 코딩된 슬라이스 NAL 유닛들의 최저 nuh_layer_id 값과 동일할 수 있다.
일 실시예에서, nuh_layer_id가 m인 PPS가 nuh_layer_id가 n인 하나 이상의 코딩된 슬라이스 NAL 유닛에 의해 참조될 때, nuh_layer_id가 m인 계층은 nuh_layer_id가 n인 계층 또는 nuh_layer_id가 m인 계층의 (직접 또는 간접) 참조 계층과 동일할 수 있다.
출력 계층은, 출력되는 출력 계층 세트 중의 계층일 수 있다. OLS(output layer set)는 특정되는 계층들의 세트일 수 있고, 여기서, 계층들의 세트에서의 하나 이상의 계층은 출력 계층들인 것으로 특정된다. OLS(output layer set) 계층 인덱스는 OLS 내의 계층들의 리스트에 대한, OLS 내의 계층의 인덱스이다.
서브계층은 TemporalId 변수의 특정한 값을 갖는 VCL NAL 유닛들 및 연관된 비-VCL NAL 유닛들을 포함하는 서브계층의, 시간 확장가능 비트스트림(temporal scalable bitstream)의 시간 확장가능 계층일 수 있다. 서브계층 표현은 특정한 서브계층 및 하위 서브계층들의 NAL 유닛들을 포함하는 비트스트림의 서브세트일 수 있다.
VPS RBSP는, TemporalId가 0인 적어도 하나의 AU에 포함되거나 외부 수단을 통해 제공됨으로써, 참조되기 전에 디코딩 프로세스에 이용가능할 수 있다. CVS 내의 vps_video_parameter_set_id의 특정한 값을 갖는 모든 VPS NAL 유닛들은 동일한 콘텐츠를 가질 수 있다.
도 24-25를 참조하여, 예시적인 VPS RBSP들의 신택스 요소들이 아래 설명된다.
신택스 요소 vps_video_parameter_set_id(842)는 다른 신택스 요소들에 의한 참조를 위해 VPS에 대한 식별자를 제공한다. 신택스 요소 vps_video_parameter_set_id(842)의 값은 0보다 클 수 있다.
신택스 요소 vps_max_layers_minus1(802) 플러스 1은 VPS를 참조하는 각각의 CVS에서 최대 허용된 계층 수를 특정한다.
신택스 요소 vps_max_sublayers_minus1(846) 플러스 1은 VPS를 참조하는 각각의 CVS 내의 계층에 존재할 수 있는 시간 서브계층들의 최대 수를 특정한다. 신택스 요소 vps_max_sublayers_minus1(846)의 값은 0 내지 6(경계 포함)의 범위에 있을 수 있다.
신택스 요소 vps_all_layers_same_num_sublayers_flag(848)가 1인 것은 시간 서브계층들의 수가 VPS를 참조하는 각각의 CVS에서의 모든 계층들에 대하여 동일하다는 것을 특정한다. 신택스 요소 vps_all_layers_same_num_sublayers_flag(848)가 0인 것은 VPS를 참조하는 각각의 CVS에서의 계층들이 동일한 수의 시간 서브계층들을 가질 수도 있고 갖지 않을 수도 있다는 것을 특정한다. 존재하지 않을 때, vps_all_layers_same_num_sublayers_flag(848)의 값은 1인 것으로 추론될 수 있다.
신택스 요소 vps_all_independent_layers_flag(850)가 1인 것은 CVS 내의 모든 계층들이 인터-계층 예측을 사용하지 않고 독립적으로 코딩되는 것을 특정한다. 신택스 요소 vps_all_independent_layers_flag(850)가 0인 것은 CVS 내의 계층들 중 하나 이상이 인터-계층 예측을 사용할 수 있다는 것을 특정한다. 존재하지 않을 때, vps_all_independent_layers_flag(850)의 값은 1인 것으로 추론될 수 있다.
신택스 요소 vps_layer_id[i](852)는, i번째 계층의 nuh_layer_id 값을 특정한다. m 및 n의 임의의 2개의 음이 아닌 정수 값에 대해, m이 n보다 작을 때, vps_layer_id[m]의 값은 vps_layer_id[n]보다 작을 수 있다.
신택스 요소 vps_independent_layer_flag[i](854)가 1인 것은 인덱스 i를 갖는 계층이 인터-계층 예측을 사용하지 않는다는 것을 특정한다. 신택스 요소 vps_independent_layer_flag[i](854)가 0인 것은, 인덱스 i를 갖는 계층이 인터-계층 예측을 사용할 수 있고, 0 내지 i-1(경계 포함) 범위의 j에 대한 신택스 요소 vps_direct_ref_layer_flag[i][j]가 VPS에 존재한다는 것을 특정한다. 존재하지 않을 때, 신택스 요소 vps_independent_layer_flag[i](854)의 값은 1인 것으로 추론될 수 있다.
신택스 요소 vps_direct_ref_layer_flag[i][j](856)가 0인 것은 인덱스 j를 갖는 계층이 인덱스 i를 갖는 계층에 대한 직접 참조 계층이 아니라는 것을 특정한다. 신택스 요소 vps_direct_ref_layer_flag[i][j](856)이 1인 것은 인덱스 j를 갖는 계층이 인덱스 i를 갖는 계층에 대한 직접 참조 계층이라는 것을 특정한다. 신택스 요소 vps_direct_ref_layer_flag[i][j](856)가 0 내지 vps_max_layers_minus1(경계 포함)의 범위에 있는 i 및 j에 대해 존재하지 않을 때, 신택스 요소는 0인 것으로 추론될 수 있다. 신택스 요소 vps_independent_layer_flag[i](854)가 0일 때, 0 내지 i-1(경계 포함)의 범위에 j의 적어도 하나의 값이 존재할 수 있어, 신택스 요소 vps_direct_ref_layer_flag[i][j](856)의 값이 1이 된다.
변수들 NumDirectRefLayers[i], DirectRefLayerIdx[i][d], NumRefLayers[i], RefLayerIdx[i][r], 및 LayerUsedAsRefLayerFlag[j]은 다음과 같이 도출될 수 있다:
Figure pct00002
vps_layer_id[i](852)와 동일한 nuh_layer_id를 갖는 계층의 계층 인덱스를 특정하는 변수 GeneralLayerIdx[i]는 다음과 같이 도출될 수 있다:
Figure pct00003
둘 다 0 내지 vps_max_layers_minus1(846)(경계 포함)의 범위에 있는, i 및 j의 임의의 2개의 상이한 값들에 대해, dependencyFlag[i][j]가 1일 때, i번째 계층에 적용되는 chroma_format_idc 및 bit_depth_minus8의 값들이 j번째 계층에 적용되는 chroma_format_idc 및 bit_depth_minus8의 값들과 각각 동일할 수 있다는 것은 비트스트림 적합성(bitstream conformance)의 요건일 수 있다.
신택스 요소 max_tid_ref_present_flag[i](858)가 1인 것은 신택스 요소 max_tid_il_ref_pics_plus1[i](860)가 존재함을 특정한다. 신택스 요소 max_tid_ref_present_flag[i](858)가 0인 것은 신택스 요소 max_tid_il_ref_pics_plus1[i](860)가 존재하지 않음을 특정한다.
신택스 요소 max_tid_il_ref_pics_plus1[i](860)가 0인 것은 인터-계층 예측이 i번째 계층의 비-IRAP 픽처들에 의해 사용되지 않는다는 것을 특정한다. 신택스 요소 max_tid_il_ref_pics_plus1[i](860)가 0보다 큰 것은, i번째 계층의 픽처들의 디코딩에 대해, max_tid_il_ref_pics_plus1[i]-1보다 큰 TemporalId를 갖는 어떠한 픽처도 ILRP로서 사용되지 않는다는 것을 특정한다. 존재하지 않을 때, 신택스 요소 max_tid_il_ref_pics_plus1[i](860)의 값은 7과 동일한 것으로 추론될 수 있다.
신택스 요소 each_layer_is_an_ols_flag(862)가 1인 것은 각각의 OLS가 단지 하나의 계층을 포함하고, VPS를 참조하는 CVS에서의 각각의 계층 자체는 단일 포함된 계층이 유일한 출력 계층인 OLS인 것을 특정한다. 신택스 요소 each_layer_is_an_ols_flag(862)가 0인 것은 OLS가 하나 보다 많은 계층을 포함할 수 있다는 것을 특정한다. 신택스 요소 vps_max_layers_minus1이 0인 경우, 신택스 요소 each_layer_is_an_ols_flag(862)의 값은 1인 것으로 추론될 수 있다. 그렇지 않고, 신택스 요소 vps_all_independent_layers_flag(854)가 0일 때, 신택스 요소 each_layer_is_an_ols_flag(862)의 값은 0인 것으로 추론될 수 있다.
신택스 요소 ols_mode_idc(864)가 0인 것은 VPS에 의해 특정된 OLS들의 총 수가 vps_max_layers_minus1 + 1이고, i번째 OLS가 0 내지 i(경계 포함)의 계층 인덱스들을 갖는 계층들을 포함하고, 각각의 OLS에 대해 OLS 내의 최상위 계층만이 출력된다는 것을 특정한다.
신택스 요소 ols_mode_idc(864)가 1인 것은 VPS에 의해 특정된 OLS들의 총 수가 vps_max_layers_minus1 + 1이고, i번째 OLS가 0 내지 i(경계 포함)의 계층 인덱스들을 갖는 계층들을 포함하고, 각각의 OLS에 대해 OLS 내의 계층들 모두가 출력된다는 것을 특정한다.
신택스 요소 ols_mode_idc(864)가 2인 것은 VPS에 의해 특정된 OLS들의 총 수가 명시적으로 시그널링되고 각각의 OLS에 대해 출력 계층들이 명시적으로 시그널링되고 다른 계층들이 OLS의 출력 계층들의 직접 또는 간접 참조 계층들인 계층들이라는 것을 특정한다.
신택스 요소 ols_mode_idc(864)의 값은 0 내지 2(경계 포함)의 범위에 있을 수 있다. 신택스 요소 ols_mode_idc(864)의 값 3은 ITU-T|ISO/IEC에 의한 미래의 사용을 위해 예약될 수 있다.
신택스 요소 vps_all_independent_layers_flag(850)가 1이고 each_layer_is_an_ols_flag(862)가 0일 때, 신택스 요소 ols_mode_idc(864)의 값은 2인 것으로 추론될 수 있다.
신택스 요소 num_output_layer_sets_minus1(866) 플러스 1은, 신택스 요소 ols_mode_idc(864)가 2일 때 VPS에 의해 특정된 OLS들의 총 수를 특정한다.
VPS에 의해 특정된 OLS들의 총 수를 특정하는 변수 TotalNumOlss는 다음과 같이 도출될 수 있다:
Figure pct00004
신택스 요소 ols_output_layer_flag[i][j](868)가 1인 것은, ols_mode_idc(864)가 2일 때, vps_layer_id[j]와 동일한 nuh_layer_id를 갖는 계층이 i번째 OLS의 출력 계층이라는 것을 특정한다. 신택스 요소 ols_output_layer_flag[i][j](868)가 0인 것은, 신택스 요소 ols_mode_idc(864)가 2일 때, vps_layer_id[j]와 동일한 nuh_layer_id를 갖는 계층이 i번째 OLS의 출력 계층이 아니라는 것을 특정한다.
i번째 OLS에서의 출력 계층의 수를 특정하는 변수 NumOutputLayersInOls[i], i번째 OLS에서의 j번째 계층에서의 서브계층의 수를 특정하는 변수 NumSubLayersInLayerInOLS[i][j], i번째 OLS에서의 j번째 출력 계층의 nuh_layer_id 값을 특정하는 변수 OutputLayerIdInOls[i][j], 및 k번째 계층이 적어도 하나의 OLS에서의 출력 계층으로서 사용되는지를 특정하는 변수 LayerUsedAsOutputLayerFlag[k]는 다음과 같이 도출될 수 있다:
Figure pct00005
Figure pct00006
Figure pct00007
0 내지 vps_max_layers_minus1(경계 포함)의 범위에 있는 i의 각각의 값에 대해, LayerUsedAsRefLayerFlag[i] 및 LayerUsedAsOutputLayerFlag[i]의 값들은 둘 다 0이 아닐 수 있다. 즉, 적어도 하나의 OLS의 출력 계층도 아니고 임의의 다른 계층의 직접 기준 계층도 아닌 계층이 없을 수 있다.
각각의 OLS에 대해, 출력 계층인 적어도 하나의 계층이 있을 수 있다. 즉, 0 내지 TotalNumOlss-1(경계 포함)의 범위에 있는 i의 임의의 값에 대해, NumOutputLayersInOls[i]의 값은 1 이상일 수 있다.
i번째 OLS에서의 계층들의 수를 특정하는 변수 NumLayersInOls[i], 및 i번째 OLS에서의 j번째 계층의 nuh_layer_id 값을 특정하는 변수 LayerIdInOls[i][j]는 다음과 같이 도출될 수 있다:
Figure pct00008
Figure pct00009
LayerIdInOls[i][j]와 동일한 nuh_layer_id를 갖는 계층의 OLS 계층 인덱스를 특정하는 변수 OlsLayerIdx[i][j]는 다음과 같이 도출될 수 있다:
Figure pct00010
각각의 OLS에서 최하위 계층은 독립 계층일 수 있다. 즉, 0 내지 TotalNumOlss―1(경계 포함)의 범위 내의 각각의 i에 대해, vps_independent_layer_flag[GeneralLayerIdx[LayerIdInOls[i][0]]]의 값은 1일 수 있다. 각각의 계층은 VPS에 의해 특정된 적어도 하나의 OLS에 포함될 수 있다. 즉, 0 내지 vps_max_layers_minus1(경계 포함)의 범위에 있는 k에 대해 vps_layer_id[k] 중 하나와 동일한 nuh_layer_id(nuhLayerId)의 특정한 값을 갖는 각각의 계층에 대해, i와 j의 적어도 한 쌍의 값이 있을 수 있고, 여기서 i는 0 내지 TotalNumOlss―1(경계 포함)의 범위에 있고, j는 NumLayersInOls[i]―1(경계 포함)의 범위에 있어, LayerIdInOls[i][j]의 값은 nuhLayerId와 동일하게 된다.
일 실시예에서, 디코딩 프로세스는 신택스 요소 PictureOutputFlag를 설정하기 위해 현재 픽처(예를 들어, 신택스 요소 CurrPic)에 대해 다음과 같이 동작할 수 있다:
PictureOutputFlag는 다음 조건들 중 하나가 참인 경우 0으로 설정된다:
(1) 현재 픽처는 RASL 픽처이고 연관된 IRAP 픽처의 NoOutputBeforeRecoveryFlag는 1인 것;
(2) gdr_enabled_flag는 1이고 현재 픽처는 NoOutputBeforeRecoveryFlag가 1인 GDR 픽처인 것;
(3) gdr_enabled_flag는 1이고, 현재 픽처는 NoOutputBeforeRecoveryFlag가 1인 GDR 픽처와 연관되고, 현재 픽처의 PicOrderCntVal은 연관된 GDR 픽처의 RpPicOrderCntVal 미만인 것;
(4) sps_video_parameter_set_id가 0보다 크고, ols_mode_idc가 0이고, 현재 AU가 다음 조건들: (a) PicA는 1인 PictureOutputFlag를 갖는 것, (b) PicA는 현재 픽처의 것보다 큰 nuh_layer_id nuhLid를 갖는 것, (c) PicA는 OLS의 출력 계층에 속하는 것(즉, OutputLayerIdInOls[TargetOlsIdx][0]는 nuhLid와 동일함) 모두를 만족시키는 픽처(예를 들어, 신택스 요소 picA)을 포함하는 것;
(5) sps_video_parameter_set_id는 0보다 크고, ols_mode_idc는 2이고, andols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]는 0과 동일한 것.
위의 조건들 중 어느 것도 참이 아닌 경우, 신택스 요소 PictureOutputFlag는 신택스 요소 pic_output_flag와 동일하게 설정될 수 있다.
현재 픽처의 모든 슬라이스들이 디코딩된 후, 현재 디코딩된 픽처는 "단기 참조에 사용됨"으로 마킹될 수 있고, RefPicList[0] 또는 RefPicList[1]에서의 각각의 ILRP 엔트리는 "단기 참조에 사용됨"으로 마킹될 수 있다.
동일한 또는 다른 실시예에서, 각각의 계층이 출력 계층 세트일 때, 신택스 요소 PictureOutputFlag는 신택스 요소 ols_mode_idc(864)의 값에 관계없이 pic_output_flag와 동일하게 설정된다.
동일한 또는 다른 실시예에서, 신택스 요소 PictureOutputFlag는 sps_video_parameter_set_id가 0보다 클 때 0으로 설정되고, each_layer_is_an_ols_flag(862)는 0이고, ols_mode_idc(864)는 0이고, 현재 AU는 다음 조건들: PicA는 1과 동일한 PictureOutputFlag를 갖는 것, PicA는 현재 픽처의 것보다 큰 nuh_layer_id nuhLid를 갖는 것, PicA는 OLS의 출력 계층에 속하는 것(즉, OutputLayerIdInOls[TargetOlsIdx][0]은 nuhLid와 동일함) 모두를 만족시키는 픽처 picA를 포함한다.
동일한 또는 다른 실시예에서, 신택스 요소 PictureOutputFlag는 sps_video_parameter_set_id가 0보다 클 때 0으로 설정되고, each_layer_is_an_ols_flag는 0이고, ols_mode_idc는 2이고, ols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]는 0이다.
일 실시예에서, 코딩된 비디오 시퀀스에서의 계층들의 최대 수가 2보다 크지 않을 때, 각각의 출력 계층 세트의 0 이상의 출력 계층은 VPS 또는 다른 파라미터 세트들에서 명시적으로 시그널링되지 않을 수 있다. 신택스 요소 ols_output_layer_flag[i][j](868)를 시그널링하지 않고, 신택스 요소 ols_output_layer_flag[i][j](868)의 값은 신택스 요소 ols_mode_idc(864)의 값으로부터 추론될 수 있다.
동일한 또는 다른 실시예에서, 신택스 요소 vps_max_layers_minus1(802)이 1보다 크지 않고 신택스 요소 each_layer_is_an_ols_flag(862)가 1과 같지 않을 때, 신택스 요소 ols_mode_idc(864)의 값은 0 또는 1일 수 있다.
동일한 또는 다른 실시예에서, 신택스 요소 vps_max_layers_minus1(802)이 1보다 크지 않을 때, 도 25를 참조하면, 신택스 요소 num_output_layer_sets_minus1(866) 및 신택스 요소 ols_output_layer_flag[i][j](868)는 명시적으로 시그널링되지 않을 수 있고 다른 신택스 값들로부터 추론될 수 있다.
동일한 또는 다른 실시예에서, 신택스 요소 vps_all_independent_layers_flag(855)가 1이고 신택스 요소 each_layer_is_an_ols_flag(862)가 0일 때, 신택스 요소 ols_mode_idc(864)의 값은 2인 것으로 추론될 수 있다.
동일한 또는 다른 실시예에서, 코딩된 비디오 시퀀스에서의 계층들의 수가 1 또는 2일 때, 신택스 요소 ols_mode_idc(864)의 값은 2가 아닐 수 있는데, 그 이유는 0 또는 1과 동일한 신택스 요소 ols_mode_idc(864)의 값이 출력 계층 세트 표현의 모든 가능한 경우들을 표현할 수 있기 때문이다. 신택스 요소 ols_mode_idc(864)가 2인 것은 계층들의 수가 1 또는 2인 경우에 사용되지 않을 수 있다.
하나 이상의 실시예에 따르면, 파라미터 세트들 및 그 안의 신택스 요소들(예컨대, 위에 설명된 것들)은 수신된 비디오 데이터를 디코딩하기 위해 본 개시내용의 디코더들에 의해 수신될 수 있다. 본 개시내용의 디코더들은, 파라미터 세트에 기초하여, 하나 이상의 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩할 수 있다. 예를 들어, 도 26을 참조하면, 디코더(880)는 디코더(880)의 적어도 하나의 프로세서로 하여금 파라미터 세트에 기초하여 비디오 데이터의 일부를 디코딩하게 하도록 구성된 디코딩 코드(885)를 포함할 수 있다.
위에서 설명된 기법들은 컴퓨터 판독가능 명령어들을 사용하여 컴퓨터 소프트웨어로서 구현되고 하나 이상의 컴퓨터 판독가능 매체에 물리적으로 저장될 수 있다. 예를 들어, 도 27은 개시된 주제의 실시예들을 구현하기에 적합한 컴퓨터 시스템(900)을 도시한다.
컴퓨터 소프트웨어는, CPU들(computer central processing units), GPU들(Graphics Processing Units) 등에 의해, 직접적으로, 또는 해석, 마이크로코드 실행 등을 통해 실행될 수 있는 명령어들을 포함하는 코드를 생성하기 위해, 어셈블리, 컴필레이션, 링킹, 또는 유사한 메커니즘의 대상일 수 있는 임의의 적합한 머신 코드 또는 컴퓨터 언어를 사용하여 코딩될 수 있다.
명령어들은, 예를 들어, 개인용 컴퓨터들, 태블릿 컴퓨터들, 서버들, 스마트폰들, 게이밍 디바이스들, 사물 인터넷(internet of things) 디바이스들 등을 포함하여, 다양한 타입의 컴퓨터들 또는 그것의 컴포넌트들 상에서 실행될 수 있다.
컴퓨터 시스템(900)에 대한 도 27에 도시된 컴포넌트들은 사실상 예시적인 것이고, 본 개시내용의 실시예들을 구현하는 컴퓨터 소프트웨어의 사용 또는 기능성의 범위에 대한 임의의 제한을 암시하도록 의도되지 않는다. 컴포넌트들의 구성이 컴퓨터 시스템(900)의 예시적인 실시예에서 예시된 컴포넌트들 중 임의의 하나 또는 이들의 조합과 관련하여 임의의 의존성 또는 요건을 갖는 것으로 해석되어서도 안 된다.
컴퓨터 시스템(900)은 특정 인간 인터페이스 입력 디바이스들을 포함할 수 있다. 그러한 인간 인터페이스 입력 디바이스는, 예를 들어, 촉각 입력(예컨대: 키스트로크들(keystrokes), 스와이프들(swipes), 데이터 글러브 움직임들(data glove movements)), 오디오 입력(예컨대: 음성, 손뼉), 시각적 입력(예컨대: 제스처들), 후각적 입력(묘사되지 않음)을 통한 하나 이상의 인간 사용자에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스들은, 오디오(예컨대: 음성, 음악, 주변 소리), 이미지들(예컨대: 스캔된 이미지들, 스틸 이미지 카메라로부터 획득된 사진 이미지들), 비디오(예컨대: 2차원 비디오, 입체 비디오를 포함하는 3차원 비디오)와 같은, 인간에 의한 의식적 입력에 반드시 직접 관련될 필요는 없는 특정 매체를 캡처하는데에도 사용될 수 있다.
입력 인간 인터페이스 디바이스들은: 키보드(901), 마우스(902), 트랙패드(903), 터치 스크린(910), 데이터-글러브(data-glove), 조이스틱(905), 마이크로폰(906), 스캐너(907), 카메라(908) 중 하나 이상(각각의 하나만이 묘사됨)을 포함할 수 있다.
컴퓨터 시스템(900)은 특정 인간 인터페이스 출력 디바이스들을 또한 포함할 수 있다. 그러한 인간 인터페이스 출력 디바이스들은, 예를 들어, 촉각 출력, 사운드, 광, 및 냄새/맛을 통해 하나 이상의 인간 사용자의 감각들을 자극하고 있을 수 있다. 그러한 인간 인터페이스 출력 디바이스들은 촉각 출력 디바이스들(예를 들어 터치-스크린(910), 데이터 글러브, 또는 조이스틱(905)에 의한 촉각 피드백이지만, 입력 디바이스들로서 역할을 하지 않는 촉각 피드백 디바이스들도 있을 수 있음)을 포함할 수 있다. 예를 들어, 그러한 디바이스들은 오디오 출력 디바이스들(예컨대: 스피커들(909), 헤드폰들(묘사되지 않음)), 시각적 출력 디바이스들(예컨대, 각각이 터치-스크린 입력 능력이 있거나 없고, 각각이 촉각 피드백 능력이 있거나 없는, CRT 스크린들, LCD 스크린들, 플라즈마 스크린들, OLED 스크린들을 포함하는 스크린들(910)- 이들 중 일부는 2차원 시각적 출력 또는 입체 출력과 같은 수단을 통한 3개보다 많은 차원의 출력을 출력하는 것이 가능할 수 있음 -; 가상 현실 안경(묘사되지 않음), 홀로그래픽 디스플레이들 및 연기 탱크들(묘사되지 않음)), 및 프린터들(묘사되지 않음)일 수 있다.
컴퓨터 시스템(900)은 인간 액세스가능한 저장 디바이스들 및 그들의 연관된 매체들, 예컨대 CD/DVD 등의 매체(921)를 갖는 CD/DVD ROM/RW(920)를 포함하는 광학 매체, 썸-드라이브(thumb-drive)(922), 이동식 하드 드라이브 또는 솔리드 스테이트 드라이브(923), 테이프 및 플로피 디스크(묘사되지 않음)와 같은 레거시 자기 매체, 보안 동글(묘사되지 않음)과 같은 특수화된 ROM/ASIC/PLD 기반 디바이스들 등을 또한 포함할 수 있다.
본 기술분야의 통상의 기술자들은 현재 개시된 주제와 관련하여 사용되는 용어 "컴퓨터 판독가능 매체(computer readable media)"가 송신 매체들, 반송파들(carrier waves), 또는 다른 일시적 신호들을 포괄하지 않는다는 점을 또한 이해해야한다.
컴퓨터 시스템(900)은 하나 이상의 통신 네트워크에 대한 인터페이스를 또한 포함할 수 있다. 네트워크들은, 예를 들어, 무선(wireless), 유선(wireline), 광학(optical)일 수 있다. 네트워크들은 추가로 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연-허용(delay-tolerant) 등일 수 있다. 네트워크들의 예들은 로컬 영역 네트워크들, 예컨대 이더넷, 무선 LAN들, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크들, 케이블 TV, 위성 TV 및 지상파 브로드캐스트 TV를 포함하는 TV 와이어라인 또는 무선 광역 디지털 네트워크들, CANBus를 포함하는 차량 및 산업 등을 포함한다. 특정 네트워크들은 일반적으로 특정 범용 데이터 포트들 또는 주변 버스들(949)(예컨대, 예를 들어, 컴퓨터 시스템(900)의 USB 포트들)에 부착된 외부 네트워크 인터페이스 어댑터들을 요구하고; 다른 것들은 일반적으로 아래에 설명되는 바와 같은 시스템 버스로의 부착에 의해 컴퓨터 시스템(900)의 코어에 통합된다(예를 들어, PC 컴퓨터 시스템으로의 이더넷 인터페이스는 또는 스마트폰 컴퓨터 시스템으로의 셀룰러 네트워크 인터페이스). 이들 네트워크들 중 임의의 것을 사용하여, 컴퓨터 시스템(900)은 다른 엔티티들과 통신할 수 있다. 그러한 통신은 단방향 수신 전용(예를 들어, 브로드캐스트 TV), 단방향 전송 전용(예를 들어, 특정 CANbus 디바이스들에 대한 CANbus), 또는 예를 들어 로컬 또는 광역 디지털 네트워크들을 사용하는 다른 컴퓨터 시스템들에 대한 양방향성일 수 있다. 이러한 통신은 클라우드 컴퓨팅 환경(955)으로의 통신을 포함할 수 있다. 위에서 설명된 바와 같은 그러한 네트워크들 및 네트워크 인터페이스들 각각에 대해 특정 프로토콜들 및 프로토콜 스택들이 사용될 수 있다.
전술한 인간 인터페이스 디바이스들, 인간-액세스가능 저장 디바이스들, 및 네트워크 인터페이스들(954)은 컴퓨터 시스템(900)의 코어(940)에 부착될 수 있다.
코어(940)는 하나 이상의 CPU(Central Processing Unit)(941), GPU(Graphics Processing Unit)(942), FPGA(Field Programmable Gate Area)(943)의 형식의 특수화된 프로그램가능 처리 유닛, 특정 작업들을 위한 하드웨어 가속기(944) 등을 포함할 수 있다. 이러한 디바이스들은, ROM(Read-only memory)(945), 랜덤-액세스 메모리(946), 내부 비-사용자 액세스가능 하드 드라이브들, SSD들 등과 같은 내부 대용량 스토리지(947)와 함께, 시스템 버스(948)를 통해 접속될 수 있다. 일부 컴퓨터 시스템들에서, 시스템 버스(948)는 추가적인 CPU들, GPU들 등에 의한 확장을 가능하게 하기 위해 하나 이상의 물리적 플러그의 형식으로 액세스 가능할 수 있다. 주변 디바이스들은 코어의 시스템 버스(948)에 직접, 또는 주변 버스(949)를 통해 부착될 수 있다. 주변 버스를 위한 아키텍처들은 PCI, USB 등을 포함한다. 그래픽 어댑터(950)가 코어(940)에 포함될 수 있다.
CPU들(941), GPU들(942), FPGA들(943) 및 가속기들(944)은, 조합하여, 전술한 컴퓨터 코드를 구성할 수 있는 특정 명령어들을 실행할 수 있다. 그 컴퓨터 코드는 ROM(945) 또는 RAM(946)에 저장될 수 있다. 과도적인 데이터(transitional data)가 또한 RAM(946)에 저장될 수 있는 반면, 영구 데이터가 예를 들어, 내부 대용량 스토리지(947)에 저장될 수 있다. 메모리 디바이스들 중 임의의 것에 대한 고속 저장 및 검색은, 하나 이상의 CPU(941), GPU(942), 대용량 스토리지(947), ROM(945), RAM(946) 등과 밀접하게 연관될 수 있는, 캐시 메모리의 사용을 통해 가능하게 될 수 있다.
컴퓨터 판독가능 매체는 다양한 컴퓨터 구현된 동작들(computer-implemented operations)을 수행하기 위한 컴퓨터 코드를 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시내용의 목적을 위해 특별히 설계되고 구성된 것들일 수 있거나, 또는 그것들은 컴퓨터 소프트웨어 기술분야의 통상의 기술자들에게 잘 알려져 있고 이용가능한 종류의 것일 수 있다.
제한이 아니라 예로서, 아키텍처를 갖는 컴퓨터 시스템(900), 및 구체적으로 코어(940)는 프로세서(들)(CPU들, GPU들, FPGA, 가속기들 등을 포함함)가 하나 이상의 유형의(tangible) 컴퓨터 판독가능 매체에 구현된 소프트웨어를 실행하는 결과로서 기능성을 제공할 수 있다. 그러한 컴퓨터 판독가능 매체는 위에 소개된 바와 같은 사용자-액세스가능(user-accessible) 대용량 스토리지뿐만 아니라, 코어 내부 대용량 스토리지(947) 또는 ROM(945)과 같은 비일시적인 본질의 것인 코어(940)의 특정 스토리지와 연관된 매체일 수 있다. 본 개시내용의 다양한 실시예들을 구현하는 소프트웨어가 그러한 디바이스들에 저장되고 코어(940)에 의해 실행될 수 있다. 컴퓨터 판독가능 매체는 특정한 필요에 따라 하나 이상의 메모리 디바이스 또는 칩을 포함할 수 있다. 소프트웨어는 코어(940) 및 구체적으로 그 내부의 프로세서들(CPU, GPU, FPGA 등을 포함함)로 하여금, RAM(946)에 저장된 데이터 구조들을 정의하는 것 및 소프트웨어에 의해 정의된 프로세스들에 따라 그러한 데이터 구조들을 수정하는 것을 포함하여, 본 명세서에 설명된 특정한 프로세스들 또는 특정한 프로세스들의 특정한 부분들을 실행하게 할 수 있다. 추가로 또는 대안으로서, 컴퓨터 시스템은, 본 명세서에 설명된 특정한 프로세스들 또는 특정한 프로세스들의 특정한 부분들을 실행하기 위해 소프트웨어 대신에 또는 그와 함께 동작할 수 있는, 회로(예를 들어: 가속기(944))에 하드와이어링되거나 다른 방식으로 구현된 로직의 결과로서 기능성을 제공할 수 있다. 소프트웨어에 대한 참조는, 적절한 경우, 로직을 포괄할 수 있고, 그 반대도 가능하다. 컴퓨터 판독가능 매체에 대한 참조는, 적절한 경우, 실행을 위한 소프트웨어를 저장하는 (IC(integrated circuit)와 같은) 회로, 또는 실행을 위한 로직을 구현하는 회로, 또는 둘 다를 포괄할 수 있다. 본 개시내용은 하드웨어 및 소프트웨어의 임의의 적합한 조합을 포괄한다.
본 개시내용이 여러 비제한적인 예시적인 실시예들을 설명하였지만, 본 개시내용의 범위 내에 속하는 변경들, 치환들, 및 다양한 대체 균등물들이 존재한다. 따라서, 본 기술분야의 통상의 기술자가, 본 명세서에서 명시적으로 도시되거나 설명되지는 않았지만, 본 개시내용의 원리들을 구현하고 따라서 그 사상 및 범위 내에 있는 수많은 시스템들 및 방법들을 고안할 수 있을 것이라는 것이 이해될 것이다.

Claims (20)

  1. 적어도 하나의 프로세서에 의해 수행되는 방법으로서,
    파라미터 세트 및 복수의 계층으로 파티셔닝된 비디오 데이터를 포함하는 코딩된 비디오 스트림을 수신하는 단계,
    상기 파라미터 세트에 기초하여, (1) 상기 복수의 계층 중에서, 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 (2) 상기 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 도출하는 단계; 및
    상기 파라미터 세트로부터 도출된 정보에 기초하여, 상기 출력 계층 세트에 대응하는 상기 코딩된 비디오 스트림의 상기 비디오 데이터의 일부를 디코딩하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 파라미터 세트는, 상기 파라미터 세트를 참조하는 상기 코딩된 비디오 스트림의 코딩된 비디오 시퀀스에서 상기 출력 계층 세트의 상기 프로파일-티어-레벨 정보의 수(number)를 표시하는 제3 신택스 요소를 포함하는 방법.
  3. 제2항에 있어서, 상기 제3 신택스 요소는, 상기 파라미터 세트를 참조하는 상기 코딩된 비디오 스트림의 각각의 코딩된 비디오 시퀀스에서 허용된 최대 계층 수(maximum allowed number of layers)가 1보다 큰 것에 기초하여, 상기 파라미터 세트 내에서 시그널링되는 방법.
  4. 제1항에 있어서, 상기 적어도 하나의 제2 신택스 요소는 상기 프로파일-티어-레벨 정보를 표시하는 신택스 요소들의 세트를 포함하거나, 프로파일-티어-레벨 정보 세트에서 적어도 하나의 엔트리를 표시하는 인덱스를 포함하는 방법.
  5. 제1항에 있어서, 상기 파라미터 세트는, 상기 출력 계층 세트에 대한 출력 계층 시그널링의 모드를 표시하는 제3 신택스 요소를 포함하는 방법.
  6. 제5항에 있어서, 상기 적어도 하나의 제1 신택스 요소는 상기 제3 신택스 요소에 의해 표시된 모드에 기초하여 상기 파라미터 세트 내에서 시그널링되는 방법.
  7. 제6항에 있어서, 상기 적어도 하나의 제1 신택스 요소는 상기 복수의 계층 중 하나가 출력되어야 하는지를 표시하는 플래그를 포함하는 방법.
  8. 제1항에 있어서,
    상기 파라미터 세트는, 상기 출력 계층 세트를 포함하는, 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 표시하는 제3 신택스 요소를 포함하고,
    상기 파라미터 세트에 기초하여 상기 코딩된 비디오 스트림을 디코딩하는 것은, 상기 제3 신택스 요소에 의해 표시되는 모드에 기초하여, 상기 복수의 계층 중에서, 제2 계층을 출력할지 추론하는 것을 추가로 포함하는 방법.
  9. 제1항에 있어서, 상기 코딩된 비디오 스트림을 디코딩하는 것은 상기 파라미터 세트에 기초하여, 상기 출력 계층 세트를 포함하는, 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 추론하는 것을 추가로 포함하는 방법.
  10. 제1항에 있어서, 상기 파라미터 세트는 비디오 파라미터 세트인 방법.
  11. 파라미터 세트 및 복수의 계층으로 파티셔닝된 비디오 데이터를 포함하는 코딩된 비디오 스트림을 디코딩하는 시스템으로서,
    컴퓨터 프로그램 코드를 저장하도록 구성되는 메모리; 및
    상기 코딩된 비디오 스트림을 수신하고, 상기 컴퓨터 프로그램 코드에 액세스하고, 상기 컴퓨터 프로그램 코드에 의해 지시된 대로 동작하도록 구성되는 적어도 하나의 프로세서를 포함하고, 상기 컴퓨터 프로그램 코드는,
    상기 적어도 하나의 프로세서로 하여금, 상기 파라미터 세트에 기초하여, 출력 계층 세트에 대응하는 상기 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하게 하도록 구성되는 디코딩 코드를 포함하고,
    상기 파라미터 세트는, 상기 복수의 계층 중에서, 상기 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 상기 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 포함하는 시스템.
  12. 제11항에 있어서, 상기 파라미터 세트는, 상기 파라미터 세트를 참조하는 상기 코딩된 비디오 스트림의 코딩된 비디오 시퀀스에서 상기 출력 계층 세트의 상기 프로파일-티어-레벨 정보의 수를 표시하는 제3 신택스 요소를 추가로 포함하는 시스템.
  13. 제12항에 있어서, 상기 제3 신택스 요소는, 상기 파라미터 세트를 참조하는 상기 코딩된 비디오 스트림의 각각의 코딩된 비디오 시퀀스에서 허용된 최대 계층 수가 1보다 큰 것에 기초하여, 상기 파라미터 세트 내에서 시그널링되는 시스템.
  14. 제11항에 있어서, 상기 적어도 하나의 제2 신택스 요소는 상기 프로파일-티어-레벨 정보를 표시하는 신택스 요소들의 세트를 포함하거나, 프로파일-티어-레벨 정보 세트에서 적어도 하나의 엔트리를 표시하는 인덱스를 포함하는 시스템.
  15. 제11항에 있어서, 상기 파라미터 세트는, 상기 출력 계층 세트에 대한 출력 계층 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함하는 시스템.
  16. 제15항에 있어서, 상기 적어도 하나의 제1 신택스 요소는 상기 제3 신택스 요소에 의해 표시된 모드에 기초하여 상기 파라미터 세트 내에서 시그널링되는 시스템.
  17. 제16항에 있어서, 상기 적어도 하나의 제1 신택스 요소는 상기 복수의 계층 중 하나가 출력되어야 하는지를 표시하는 플래그를 포함하는 시스템.
  18. 제11항에 있어서,
    상기 파라미터 세트는, 상기 출력 계층 세트를 포함하는, 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 표시하는 제3 신택스 요소를 추가로 포함하고,
    상기 디코딩 코드는, 상기 적어도 하나의 프로세서로 하여금, 상기 제3 신택스 요소에 의해 표시되는 모드에 기초하여, 상기 복수의 계층 중에서, 제2 계층을 출력할지 추론하게 하도록 추가로 구성되는 시스템.
  19. 제11항에 있어서, 상기 디코딩 코드는, 상기 적어도 하나의 프로세서로 하여금, 상기 파라미터 세트에 기초하여, 상기 출력 계층 세트를 포함하는, 복수의 출력 계층 세트에 대한 출력 계층 세트 시그널링의 모드를 추론하게 하도록 추가로 구성되는 시스템.
  20. 컴퓨터 명령어들이 저장된 비일시적 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 명령어들은, 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금:
    파라미터 세트에 기초하여, 출력 계층 세트에 대응하는 코딩된 비디오 스트림의 비디오 데이터의 일부를 디코딩하게 하고,
    상기 코딩된 비디오 스트림은 상기 파라미터 세트 및 상기 비디오 데이터를 포함하고, 상기 비디오 데이터는 복수의 계층으로 파티셔닝되고,
    상기 파라미터 세트는, 상기 복수의 계층 중에서, 상기 출력 계층 세트에서 출력될 적어도 하나의 제1 계층을 특정하는 적어도 하나의 제1 신택스 요소, 및 상기 출력 계층 세트의 프로파일-티어-레벨 정보를 표시하는 적어도 하나의 제2 신택스 요소를 포함하는 비일시적 컴퓨터 판독가능 매체.
KR1020217036630A 2020-03-27 2020-11-09 다층 비디오 스트림에 대한 출력 계층 세트를 위한 방법 KR20210148343A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063001018P 2020-03-27 2020-03-27
US63/001,018 2020-03-27
US16/987,911 US11297350B1 (en) 2020-03-27 2020-08-07 Method for output layer set for multilayered video stream
US16/987,911 2020-08-07
PCT/US2020/059697 WO2021194557A1 (en) 2020-03-27 2020-11-09 Method for output layer set for multilayered video stream

Publications (1)

Publication Number Publication Date
KR20210148343A true KR20210148343A (ko) 2021-12-07

Family

ID=77892441

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217036630A KR20210148343A (ko) 2020-03-27 2020-11-09 다층 비디오 스트림에 대한 출력 계층 세트를 위한 방법

Country Status (9)

Country Link
US (2) US11297350B1 (ko)
EP (1) EP3932079A4 (ko)
JP (1) JP7358508B2 (ko)
KR (1) KR20210148343A (ko)
CN (1) CN113950841B (ko)
AU (1) AU2020437817B2 (ko)
CA (1) CA3137047A1 (ko)
SG (1) SG11202111497VA (ko)
WO (1) WO2021194557A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2590632B (en) * 2019-12-20 2023-07-26 Canon Kk Video coding and decoding
WO2021137597A1 (ko) * 2019-12-30 2021-07-08 엘지전자 주식회사 Ols에 대한 dpb 파라미터를 사용하는 영상 디코딩 방법 및 그 장치
US11818398B2 (en) * 2020-05-06 2023-11-14 Sharp Kabushiki Kaisha Systems and methods for signaling video parameter information in video coding
KR20230017817A (ko) * 2020-05-25 2023-02-06 엘지전자 주식회사 멀티 레이어 기반 영상 코딩 장치 및 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307803A1 (en) * 2013-04-08 2014-10-16 Qualcomm Incorporated Non-entropy encoded layer dependency information
US10284858B2 (en) * 2013-10-15 2019-05-07 Qualcomm Incorporated Support of multi-mode extraction for multi-layer video codecs
KR102294092B1 (ko) * 2014-01-02 2021-08-27 한국전자통신연구원 영상의 복호화 방법 및 이를 이용하는 장치
WO2015125494A1 (en) * 2014-02-21 2015-08-27 Sharp Kabushiki Kaisha System for temporal identifier handling for hybrid scalability
JP6465863B2 (ja) * 2014-03-14 2019-02-06 シャープ株式会社 画像復号装置、画像復号方法及び記録媒体
US9788007B2 (en) * 2014-06-20 2017-10-10 Qualcomm Incorporated Profile, tier, level for the 0-th output layer set in video coding
CA3023425C (en) 2016-05-13 2021-09-14 Sharp Kabushiki Kaisha Temporal sub-layer descriptor
KR102170550B1 (ko) 2016-05-24 2020-10-29 노키아 테크놀로지스 오와이 미디어 콘텐츠를 인코딩하는 방법, 장치 및 컴퓨터 프로그램
US20210092406A1 (en) * 2019-09-23 2021-03-25 Qualcomm Incorporated Inter-layer reference picture signaling in video coding
CA3152362A1 (en) * 2019-09-24 2021-04-01 Ye-Kui Wang Simulcast layers for multiview in video coding
US20210235124A1 (en) * 2020-01-29 2021-07-29 Qualcomm Incorporated Decoded picture buffer (dpb) parameter signaling for video coding
US11778215B2 (en) * 2020-02-28 2023-10-03 Qualcomm Incorporated Coding output layer set data and conformance window data of high level syntax for video coding

Also Published As

Publication number Publication date
US20220182679A1 (en) 2022-06-09
AU2020437817B2 (en) 2023-04-06
CN113950841A (zh) 2022-01-18
CA3137047A1 (en) 2021-09-30
SG11202111497VA (en) 2021-11-29
WO2021194557A1 (en) 2021-09-30
JP2022530210A (ja) 2022-06-28
EP3932079A1 (en) 2022-01-05
EP3932079A4 (en) 2022-07-06
JP7358508B2 (ja) 2023-10-10
AU2020437817A1 (en) 2021-11-11
CN113950841B (zh) 2024-06-25
US11297350B1 (en) 2022-04-05

Similar Documents

Publication Publication Date Title
US11706431B2 (en) Method for output layer set mode in multilayered video stream
US11558630B2 (en) Techniques for random access point indication and picture output in coded video stream
US11297350B1 (en) Method for output layer set for multilayered video stream
US20230319313A1 (en) Method for picture output with output layer set
AU2021244278B2 (en) Method for derivation on sublayer-wise output layer set
AU2021249201B2 (en) Method for output layer set mode
AU2021249220B2 (en) Method for signaling mixed NAL unit type and subpicture partitioning in coded video stream

Legal Events

Date Code Title Description
A201 Request for examination