KR20150139940A - 비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비 - Google Patents

비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비 Download PDF

Info

Publication number
KR20150139940A
KR20150139940A KR1020157031807A KR20157031807A KR20150139940A KR 20150139940 A KR20150139940 A KR 20150139940A KR 1020157031807 A KR1020157031807 A KR 1020157031807A KR 20157031807 A KR20157031807 A KR 20157031807A KR 20150139940 A KR20150139940 A KR 20150139940A
Authority
KR
South Korea
Prior art keywords
picture
sample
pictures
position information
resolution
Prior art date
Application number
KR1020157031807A
Other languages
English (en)
Inventor
케말 우구르
자니 레이네마
Original Assignee
노키아 테크놀로지스 오와이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 테크놀로지스 오와이 filed Critical 노키아 테크놀로지스 오와이
Publication of KR20150139940A publication Critical patent/KR20150139940A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

인코딩 및 디코딩 방법 및 이를 위한 기술 장비. 방법은 픽처를 다양한 해상도들로 인코딩하는 단계; 각각의 해상도의 샘플들의 위치 정보를 결정하는 단계; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 단계; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 단계를 포함한다.

Description

비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비{METHOD AND TECHNICAL EQUIPMENT FOR VIDEO ENCODING AND DECODING}
본원은 일반적으로 디지털 비디오 요소의 코딩 및 디코딩에 관한 것이다. 구체적으로, 본원은 스케일링 가능 및 고충실도 코딩과 관련된다.
이 섹션은 청구범위에 기재된 발명에 대한 배경 또는 상황을 제공하고자 한다. 본 명세서에서의 설명은 추구될 수는 있었지만 반드시 이전에 구상 또 는 추구되었던 것들은 아닌 개념들을 포함할 수 있다. 따라서, 본 명세서에서 달리 표시되지 않는 한, 이 섹션에서 설명되는 것은 본원의 설명 및 청구항들에 대한 종래 기술이 아니며, 이 섹션 내의 포함에 의해 종래 기술로 인정되지는 않는다.
비디오 코딩 시스템은 입력 비디오를 저장/전송에 적합한 압축된 표현으로 변환하는 인코더 및 압축된 비디오 표현을 시청 가능한 형태로 다시 압축 해제할 수 있는 디코더를 포함할 수 있다. 인코더는 오리지널 비디오 시퀀스 내의 일부 정보를 폐기하여, 비디오를 더 간결한 형태로 표현할 수 있는데, 예를 들어 그렇지 않을 경우에 요구될 수 있는 것보다 낮은 비트 레이트에서의 비디오 정보의 저장/전송을 가능하게 할 수 있다.
제1 예에 따르면, 픽처를 다양한 해상도들로 인코딩하는 단계; 각각의 해상도의 샘플들의 위치 정보를 결정하는 단계; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 단계; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 단계를 포함하는 방법이 제공된다.
일 실시예에 따르면, 상기 샘플들은, 루마 샘플, 크로마 샘플, 루마 샘플 및 크로마 샘플 그룹 중 하나이다.
일 실시예에 따르면, 상기 방법은 더 낮은 계층에 대한 현재 계층 내의 상기 샘플들의 위상 오프셋을 지정하는 상기 위치 정보를 추가함으로써 상기 참조 계층 내의 상기 샘플들의 위치를 결정하는 단계를 더 포함한다.
일 실시예에 따르면, 상기 방법은 상기 위치 정보에 기초하여 상기 참조 계층 내의 상기 샘플들을 향상 계층으로 업샘플링하는 데 사용되는 필터를 결정하는 단계를 더 포함한다.
일 실시예에 따르면, 상기 위치 정보는 상기 참조 계층 샘플들과 향상 계층 샘플들 간의 수평 위상차이다.
일 실시예에 따르면, 상기 위치 정보는 상기 참조 계층 샘플들과 향상 계층 샘플들 간의 수직 위상차이다.
일 실시예에 따르면, 수평 및 수직 위상 오프셋들의 값들은 0 내지 7의 범위 내에 있다.
일 실시예에 따르면, 수평 및 수직 위상 오프셋들의 존재는 비트 스트림 내의 비트에 의해 표시된다.
제2 예에 따르면, 적어도 하나의 프로세서; 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치가 제공되며, 상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 장치가 상기 적어도 하나의 프로세서를 이용하여 적어도 다음의 동작: 픽처를 다양한 해상도들로 인코딩하는 동작; 각각의 해상도의 샘플들의 위치 정보를 결정하는 동작; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 동작; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 동작을 수행하게 하도록 구성된다.
제3 예에 따르면, 컴퓨터에서 사용하기 위해 내부에 구현된 컴퓨터 프로그램 코드를 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공되며, 상기 컴퓨터 프로그램 코드는 픽처를 다양한 해상도들로 인코딩하기 위한 코드; 각각의 해상도의 샘플들의 위치 정보를 결정하기 위한 코드; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 코드; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하기 위한 코드를 포함한다.
제4 예에 따르면, 컴퓨터에 의해 실행될 때, 픽처를 다양한 해상도들로 인코딩하는 동작; 각각의 해상도의 샘플들의 위치 정보를 결정하는 동작; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 동작; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 동작을 수행하는 명령어들로 인코딩된 컴퓨터 판독 가능 매체가 제공된다.
제5 예에 따르면, 픽처를 다양한 해상도들로 디코딩하는 단계를 포함하고, 상기 디코딩하는 단계는 각각의 해상도의 샘플들의 위치 정보를 결정하는 단계; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 단계; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 단계를 포함하는 방법이 제공한다.
일 실시예에 따르면, 상기 샘플들은, 루마 샘플, 크로마 샘플, 루마 샘플 및 크로마 샘플 그룹 중 하나이다.
일 실시예에 따르면, 상기 방법은 더 낮은 계층에 대한 현재 계층 내의 상기 샘플들의 위상 오프셋을 지정하는 상기 위치 정보를 추가함으로써 상기 참조 계층 내의 상기 샘플들의 위치를 결정하는 단계를 더 포함한다.
일 실시예에 따르면, 상기 방법은 상기 위치 정보에 기초하여 상기 참조 계층 내의 상기 샘플들을 향상 계층으로 업샘플링하는 데 사용되는 필터를 결정하는 단계를 더 포함한다.
일 실시예에 따르면, 상기 위치 정보는 상기 참조 계층 샘플들과 향상 계층 샘플들 간의 수평 위상차이다.
일 실시예에 따르면, 상기 위치 정보는 상기 참조 계층 샘플들과 향상 계층 샘플들 간의 수직 위상차이다.
일 실시예에 따르면, 수평 및 수직 위상 오프셋들의 값들은 0 내지 7의 범위 내에 있다.
일 실시예에 따르면, 수평 및 수직 위상 오프셋들의 존재는 비트 스트림 내의 비트에 의해 표시된다.
제6 예에 따르면, 적어도 하나의 프로세서; 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치가 제공되며, 상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 장치가 상기 적어도 하나의 프로세서를 이용하여 적어도 다음의 동작: 픽처를 다양한 해상도들로 디코딩하는 동작; 각각의 해상도의 샘플들의 위치 정보를 결정하는 동작; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 동작; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 동작을 수행하게 하도록 구성된다.
제7 예에 따르면, 컴퓨터에서 사용하기 위해 내부에 구현된 컴퓨터 프로그램 코드를 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공되며, 상기 컴퓨터 프로그램 코드는 픽처를 다양한 해상도들로 디코딩하기 위한 코드; 각각의 해상도의 샘플들의 위치 정보를 결정하기 위한 코드; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 코드; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하기 위한 코드를 포함한다.
제8 예에 따르면, 컴퓨터에 의해 실행될 때, 픽처를 다양한 해상도들로 디코딩하는 동작; 각각의 해상도의 샘플들의 위치 정보를 결정하는 동작; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 동작; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하는 동작을 수행하는 명령어들로 인코딩된 컴퓨터 판독 가능 매체가 제공된다.
제9 예에 따르면, 적어도, 프로세싱을 위한 수단; 픽처를 다양한 해상도들로 인코딩하기 위한 수단; 각각의 해상도의 샘플들의 위치 정보를 결정하기 위한 수단; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 수단; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하기 위한 수단을 포함하는 장치가 제공된다.
제10 예에 따르면, 적어도, 프로세싱을 위한 수단; 픽처를 다양한 해상도들로 디코딩하기 위한 수단; 각각의 해상도의 샘플들의 위치 정보를 결정하기 위한 수단; 저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 수단; 및 상기 샘플들의 상기 결정된 위치 정보를 시그널링하기 위한 수단을 포함하는 장치가 제공된다.
본 발명의 실시예들의 더 완전한 이해를 위해, 이제 첨부 도면들과 관련하여 이루어지는 아래의 설명들을 참조한다. 도면들에서:
도 1은 일 실시예에 따른 비디오 코딩 시스템의 블록도를 나타낸다.
도 2는 일 실시예에 따른 장치의 레이아웃을 나타낸다.
도 3은 일 실시예에 따른 복수의 장치, 네트워크 및 네트워크 요소를 포함하는 비디오 코딩을 위한 배열을 나타낸다.
도 4는 일 실시예에 따른 비디오 인코더의 블록도를 나타낸다.
도 5는 일 실시예에 따른 비디오 디코더의 블록도를 나타낸다.
도 6은 저해상도 샘플들이 고해상도 샘플들과 중복되는 일례를 나타낸다.
도 7은 방법의 일 실시예를 나타낸다.
도 8은 2X 스케일링 가능성을 위한 고해상도 루마 샘플들 및 저해상도 루마 샘플들을 나타낸다.
도 9는 시스템의 일 실시예를 나타낸다.
도 1은 일 실시예에 따른 비디오 코딩 시스템의 블록도를 본 발명의 일 실시예에 따른 코덱을 포함할 수 있는 예시적인 장치 또는 전자 디바이스의 개략 블록도로서 나타낸다. 도 2는 일 실시예에 따른 장치의 레이아웃을 나타낸다. 이어서, 도 1 및 2의 요소들이 설명될 것이다.
전자 디바이스(50)는 예를 들어 무선 통신 시스템의 이동 단말기 또는 사용자 장비일 수 있다. 그러나, 본 발명의 실시예들은 비디오 이미지들의 인코딩 및 디코딩 또는 인코딩 또는 디코딩을 필요로 할 수 있는 임의의 전자 디바이스 또는 장치 내에서 구현될 수 있다는 것을 알 것이다.
장치(50)는 디바이스를 수용 및 보호하기 위한 하우징(30)을 포함할 수 있다. 장치(50)는 액정 디스플레이 형태의 디스플레이(32)를 더 포함할 수 있다. 본 발명의 다른 실시예들에서, 디스플레이는 이미지 또는 비디오를 표시하는 데 적합한 임의의 적절한 디스플레이 기술일 수 있다. 장치(50)는 키패드(34)를 더 포함할 수 있다. 본 발명의 다른 실시예들에서, 임의의 적절한 데이터 또는 사용자 인터페이스 메커니즘이 이용될 수 있다. 예를 들어, 사용자 인터페이스는 가상 키보드로서 또는 터치 감지 디스플레이의 일부인 데이터 입력 시스템으로서 구현될 수 있다. 장치는 마이크(36) 또는 디지털 또는 아날로그 신호 입력일 수 있는 임의의 적절한 오디오 입력을 포함할 수 있다. 장치(50)는 본 발명의 실시예들에서 이어피스(38), 스피커, 또는 아날로그 오디오 또는 디지털 오디오 출력 접속 중 어느 하나일 수 있는 오디오 출력 디바이스를 더 포함할 수 있다. 장치(50)는 배터리(40)도 포함할 수 있다 (또는 본 발명의 다른 실시예들에서 디바이스는 태양 전지, 연료 전지 또는 태엽 발전기와 같은 임의의 적절한 이동 에너지 디바이스에 의해 급전될 수 있다). 장치는 이미지들 및/또는 비디오를 기록 또는 캡처할 수 있는 카메라(42)를 더 포함할 수 있다. 일부 실시예들에서, 장치(50)는 다른 장치들에 대한 단거리 시선 통신을 위한 적외선 포트를 더 포함할 수 있다. 다른 실시예들에서, 장치(50)는 예를 들어 블루투스 무선 접속 또는 USB/파이어와이어 유선 접속과 같은 임의의 적절한 단거리 통신 솔루션을 더 포함할 수 있다.
장치(50)는 장치(50)를 제어하기 위한 제어기(56) 또는 프로세서를 포함할 수 있다. 제어기(56)는 본 발명의 실시예들에서 이미지 형태의 데이터 및 오디오 데이터 양자를 저장할 수 있고/있거나 제어기(56) 상에서의 구현을 위한 명령어들도 저장할 수 있는 메모리(58)에 접속될 수 있다. 제어기(56)는 오디오 및/또는 비디오 데이터의 코딩 및 디코딩을 실행하거나 제어기(56)에 의해 실행되는 코딩 및 디코딩을 지원하는 데 적합한 코덱 회로(54)에 더 접속될 수 있다.
장치(50)는 카드 판독기(48) 및 스마트 카드(46), 예컨대 사용자 정보를 제공하고, 네트워크에서의 사용자의 인증 및 허가를 위한 인증 정보를 제공하기에 적합한 UICC 및 UICC 판독기를 더 포함할 수 있다.
장치(50)는, 제어기에 접속되고, 예를 들어 셀룰러 통신 시스템, 무선 통신 시스템 또는 무선 근거리 네트워크와 통신하기 위한 무선 통신 신호들을 생성하기에 적합한 무선 인터페이스 회로(52)를 포함할 수 있다. 장치(50)는 무선 인터페이스 회로(52)에서 생성되는 무선 주파수 신호들을 다른 장치(들)로 전송하고 다른 장치(들)로부터 무선 주파수 신호들을 수신하기 위해 무선 인터페이스 회로(52)에 접속되는 안테나(44)를 더 포함할 수 있다.
본 발명의 일부 실시예들에서, 장치(50)는 프로세싱을 위해 코덱(54) 또는 제어기로 후속 전송되는 개별 프레임들을 기록 또는 검출할 수 있는 카메라를 포함한다. 본 발명의 일부 실시예들에서, 장치는 전송 및/또는 저장 전에 다른 디바이스로부터 프로세싱을 위한 비디오 이미지 데이터를 수신할 수 있다. 본 발명의 일부 실시예들에서, 장치(50)는 코딩/디코딩을 위한 이미지를 무선으로 또는 유선 접속에 의해 수신할 수 있다.
도 3은 일 실시예에 따른 복수의 장치, 네트워크 및 네트워크 요소를 포함하는 비디오 코딩을 위한 배열을 나타낸다. 도 3과 관련하여, 본 발명의 실시예들을 이용할 수 있는 시스템의 일례가 도시된다. 시스템(10)은 하나 이상의 네트워크를 통해 통신할 수 있는 다수의 통신 디바이스를 포함한다. 시스템(10)은 (GSM, UMTS, CDMA 네트워크 등과 같은) 무선 셀룰러 전화 네트워크, IEEE 802.x 표준들 중 임의의 표준에 의해 정의되는 바와 같은 무선 근거 리 네트워크(WLAN), 블루투스 개인 영역 네트워크, 이더넷 근거리 네트워크, 토큰 링 근거리 네트워크, 광역 네트워크 및 인터넷을 포함하지만 이에 한정되지 않는 유선 또는 무선 네트워크들의 임의의 조합을 포함할 수 있다.
시스템(10)은 본 발명의 실시예들을 구현하기에 적합한 유선 및 무선 통신 디바이스들 또는 장치들(50) 양자를 포함할 수 있다. 예를 들어, 도 3에 도시된 시스템은 이동 전화 네트워크(11), 및 인터넷(28)의 표현을 나타낸다. 인터넷(28)에 대한 접속은 장거리 무선 접속, 단거리 무선 접속, 및 전화 라인, 케이블 라인, 전력 라인 및 유사한 통신 경로를 포함하지만 이에 한정되지 않는 다양한 유선 접속을 포함할 수 있지만 이에 한정되지 않는다.
시스템(10) 내에 도시된 예시적인 통신 디바이스들은 전자 디바이스 또는 장치(50), 개인 휴대 단말기(PDA)와 이동 전화의 조합(14), PDA(16), 통합 메시징 디바이스(IMD)(18), 데스크탑 컴퓨터(20), 노트북 컴퓨터(22)를 포함할 수 있지만 이에 한정되지 않는다. 장치(50)는 정지해 있거나, 움직이고 있는 개인에 의해 소지될 때 이동할 수 있다. 장치(50)는 차, 트럭, 택시, 버스, 기차, 보트, 비행기, 자전거, 모터사이클 또는 임의의 유사한 적절한 수송 모드를 포함하지만 이에 한정되지 않는 수송 모드 내에 배치될 수도 있다.
일부 또는 추가적인 장치들이 호출들 및 메시지들을 송신 및 수신하고, 기지국(24)에 대한 무선 접속(25)을 통해 서비스 제공자들과 통신할 수 있다. 기지국(24)은 이동 전화 네트워크(11)와 인터넷(28) 간의 통신을 가능하게 하는 네트워크 서버(26)에 접속될 수 있다. 시스템은 추가적인 통신 디바이스들 및 다양한 타입의 통신 디바이스들을 포함할 수 있다.
통신 디바이스들은 코드 분할 다중 액세스(CDMA), 이동 통신용 글로벌 시스템(GSM), 유니버설 이동 통신 시스템(UMTS), 시분할 다중 액세스(TDMA), 주파수 분할 다중 액세스(FDMA), 전송 제어 프로토콜-인터넷 프로토콜(TCP-IP), 단문 메시징 서비스(SMS), 멀티미디어 메시징 서비스(MMS), 이메일, 인스턴트 메시징 서비스(IMS), 블루투스, IEEE 802.11 및 임의의 유사한 무선 통신 기술을 포함하지만 이에 한정되지 않는 다양한 전송 기술들을 이용하여 통신할 수 있다. 본 발명의 다양한 실시예들의 구현과 관련된 통신 디바이스는 무선, 적외선, 레이저, 케이블 접속 및 임의의 적절한 접속을 포함하지만 이에 한정되지 않는 다양한 매체들을 이용하여 통신할 수 있다.
비디오 코덱은 입력 비디오를 저장/전송에 적합한 압축된 표현으로 변환하는 인코더로 구성되며, 디코더가 압축된 비디오 표현을 시청 가능한 형태로 다시 압축 해제할 수 있다. 인코더는 더 간결한 형태로(즉, 더 낮은 비트 레이트로) 비디오를 표현하기 위해 오리지널 비디오 시퀀스 내의 일부 정보를 폐기할 수 있다.
하이브리드 비디오 코덱들, 예로서 ITU-T H.263 및 H.264는 비디오 정보를 2개의 단계에서 인코딩한다. 첫째, 소정 픽처(또는 "블록") 내의 픽셀 값들이 예를 들어 (코딩되는 블록에 밀접하게 대응하는, 이전에 코딩된 비디오 프레임들 중의 하나 내의 영역을 발견 및 표시하는) 모션 보상 수단에 의해 또는 (코딩될 블록 주위의 픽셀 값들을 특정 방식으로 이용하는) 공간 수단에 의해 예측된다. 둘째, 예측 에러, 즉 픽셀들의 예측된 블록과 픽셀들의 오리지널 블록 간의 차이가 코딩된다. 이것은 특정 변환(예로서, 이산 코사인 변환(DCT) 또는 그의 변형)을 이용하여 픽셀 값들의 차이를 변환하고, 계수들을 양자화하고, 양자화된 계수들을 엔트로피 코딩함으로써 행해질 수 있다. 양자화 프로세스의 충실도를 변경함으로써, 인코더는 픽셀 표현의 정밀도(픽처 품질)와 결과적인 코딩된 비디오 표현의 크기(파일 크기 또는 전송 비트 레이트) 간의 균형을 제어할 수 있다. 인코딩 프로세스는 도 4에 도시된다. 도 4는 비디오 인코더의 일례를 나타내며, 여기서 In은 인코딩될 이미지이고, P'n은 이미지 블록의 예측 표현이고, Dn은 예측 에러 신호이고, D'n은 재구성된 예측 에러 신호이고, I'n은 예비적인 재구성된 이미지이고, R'n은 최종적인 재구성된 이미지이고, T, T-1은 변환 및 역변환이고, Q, Q-1은 양자화 및 역양자화이고, E는 엔트로피 인코딩이고, RFM은 참조 프레임 메모리이고, Pinter는 인터 예측이고, Pintra는 인트라 예측이고, MS는 모드 선택이고, F는 필터링이다.
HEVC와 같은 일부 비디오 코덱들에서는, 비디오 픽처들이 픽처의 영역을 커버하는 코딩 유닛들(CU)로 분할된다. CU는 CU 내의 샘플들에 대한 예측 프로세스를 정의하는 하나 이상의 예측 유닛(PU) 및 상기 CU 내의 샘플들에 대한 예측 에러 코딩 프로세스를 정의하는 하나 이상의 변환 유닛(TU)으로 구성된다. CU는 가능한 CU 크기들의 사전 정의된 세트로부터 선택될 수 있는 크기를 갖는 샘플들의 정사각형 블록으로 구성될 수 있다. 최대 허용 크기를 갖는 CU가 CTU(코딩 트리 유닛)로 지칭될 수 있으며, 비디오 픽처는 비중복 CTU들로 분할된다. CTU는 예를 들어 CTU 및 결과적인 CU들을 반복 분할함으로써 더 작은 CU들의 조합으로 더 분할될 수 있다. 각각의 결과적인 CU는 그와 관련된 적어도 하나의 PU 및 적어도 하나의 TU를 가질 수 있다. 각각의 PU 및 TU는 각각 예측 및 예측 에러 코딩 프로세스들의 입도를 증가시키기 위해 더 작은 PU들 및 TU들로 더 분할될 수 있다. 각각의 PU는 그 PU 내의 픽셀들에 대해 어떤 종류의 예측이 적용될지를 정의하는, 그와 관련된 예측 정보(예로서, 인터 예측된 PU들에 대한 모션 벡터 정보 및 인트라 예측된 PU들에 대한 인트라 예측 지향성 정보)를 갖는다. 유사하게, 각각의 TU는 상기 TU 내의 샘플들에 대한 예측 에러 디코딩 프로세스를 설명하는 정보(예로서, DCT 계수 정보를 포함함)와 관련된다. 예측 에러 코딩이 각각의 CU에 대해 적용되는지의 여부가 CU 레벨에서 시그널링될 수 있다. CU와 관련된 예측 에러 오차가 존재하지 않는 경우에, 상기 CU에 대한 TU가 존재하지 않는 것으로 간주될 수 있다. 이미지의 CU들로의 분할 및 CU들의 PU들 및 TU들로의 분할은 비트 스트림 내에서 시그널링될 수 있으며, 이는 디코더가 이러한 유닛들의 의도된 구조를 재생하는 것을 가능하게 한다.
디코더는 (인코더에 의해 생성되고 압축 표현으로 저장된 모션 또는 공간 정보를 이용하여) 픽셀 블록들의 예측 표현을 형성하기 위해 인코더와 유사한 예측 수단을 그리고 예측 에러 디코딩(공간 픽셀 도메인 내의 양자화된 예측 에러 신호를 복구하는 예측 에러 코딩의 역동작)을 적용함으로써 출력 비디오를 재구성한다. 예측 및 예측 에러 디코딩 수단을 적용한 후, 디코더는 예측 및 예측 에러 신호들(픽셀 값들)을 합산하여, 출력 비디오 프레임을 형성한다. 디코더(및 인코더)는 또한 추가적인 필터링 수단을 적용하여, 표시를 위한 전송 전에 출력 비디오의 품질을 개선하고/하거나 비디오 시퀀스 내의 다가오는 프레임들에 대한 예측 참조로서 출력 비디오를 저장할 수 있다. 디코딩 프로세스는 도 5에 도시된다. 도 5는 비디오 디코더의 블록도를 나타내며, 여기서 P'n은 이미지 블록의 예측 표현이고, D'n은 재구성된 예측 에러 신호이고, I'n은 예비적인 재구성된 이미지이고, R'n은 최종적인 재구성된 이미지이고, T-1은 역변환이고, Q-1은 역양자화이고, E-1은 엔트로피 디코딩이고, RFM은 참조 프레임 메모리이고, P는 (인터 또는 인트라) 예측이고, F는 필터링이다.
모션 정보는 비디오 코덱들에서 각각의 모션 보상된 이미지 블록과 관련된 모션 벡터들을 이용하여 표시될 수 있다. 이러한 모션 벡터들 각각은 (인코더 측에서) 코딩되거나 (디코더 측에서) 디코딩될 픽처 내의 이미지 블록 및 이전에 코딩 또는 디코딩된 픽처들 중 하나 내의 예측 소스 블록의 변위를 나타낸다. 모션 벡터들을 효율적으로 표현하기 위해, 그러한 벡터들은 블록 고유 예측 모션 벡터들에 관해 차별적으로 코딩될 수 있다. 비디오 코덱들에서, 예측 모션 벡터들은 사전 정의된 방식으로, 예로서 인코딩 또는 디코딩된 모션 벡터들 또는 인접 블록들의 중앙값을 계산함으로써 생성될 수 있다. 모션 벡터 예측들을 생성하기 위한 다른 방식은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들로부터 후보 예측들의 리스트를 생성하고, 선택된 후보를 모션 벡터 예측으로서 시그널링하는 것이다. 모션 벡터 값들을 예측하는 것에 더하여, 이전에 코딩/디코딩된 픽처의 참조 인덱스가 예측될 수 있다. 참조 인덱스는 통상적으로 시간 참조 픽처 내의 인접 블록들 및/또는 병치 블록들로부터 예측된다. 더욱이, 고효율 비디오 코덱들은 각각의 이용 가능한 참조 픽처 리스트에 대한 모션 벡터 및 대응하는 참조 픽처 인덱스를 포함하는 모든 모션 필드 정보가 예측되고 어떠한 변경/수정도 없이 사용되는 "병합하기(merging)/병합(merge) 모드"라고 하는 추가적인 모션 정보 코딩/디코딩 메커니즘을 이용할 수 있다. 유사하게, 모션 필드 정보의 예측은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들의 모션 필드 정보를 이용하여 실행되며, 이용된 모션 필드 정보는 이용 가능한 인접/병치 블록들의 모션 필드 정보로 채워진 모션 필드 후보 리스트 사이에서 시그널링된다.
비디오 코덱들에서, 모션 보상 후의 예측 오차는 먼저 변환 커널(예로서, DCT)을 이용하여 변환되며, 이어서 코딩된다. 이에 대한 이유는 오차 사이에 소정의 상관성이 여전히 존재할 수 있고, 많은 경우에 변환이 이러한 상관성을 줄이고 더 효율적인 코딩을 제공하는 것을 도울 수 있기 때문이다.
비디오 인코더들은 라그랑주 비용 함수들을 이용하여 최적의 코딩 모드들, 예로서 원하는 매크로블록 모드 및 관련 모션 벡터들을 발견할 수 있다. 이러한 종류의 비용 함수는 가중 팩터 λ를 이용하여, 다손실 코딩 방법들로 인한 (정확한 또는 추정된) 이미지 왜곡과 이미지 영역 내의 픽셀 값들을 나타내는 데 필요한 정보의 (정확한 또는 추정된) 양을 관련시킨다.
C = D + λR
여기서, C는 최소화될 라그랑주 비용이고, D는 모드 및 모션 벡터들을 고려한 이미지 왜곡(예로서, 평균 제곱 에러)이고, R은 디코더에서 이미지 블록을 재구성하는 데 필요한 데이터(후보 모션 벡터들을 나타내기 위한 데이터의 양을 포함함)를 나타내는 데 필요한 비트들의 수이다.
전술한 바와 같이, H.264/AVC 및 HEVC를 포함하는 많은 하이브리드 비디오 코덱은 2개의 단계에서 비디오 정보를 인코딩하며, 제1 단계는 예측 코딩으로 지칭될 수 있고, 다음 중 하나 이상을 포함할 수 있다.
소위 샘플 예측에서, 소정 픽처 영역 또는 "블록" 내의 픽셀 또는 샘플 값들이 예측된다. 이러한 픽셀 또는 샘플 값들은 예를 들어 다음의 방법들: 1) 코딩되는 블록에 밀접하게 대응하는 이전에 인코딩된 비디오 프레임들 중 하나 내의 영역을 발견 및 표시하는 것을 포함하는 (시간 예측 또는 모션 보상 시간 예측으로도 지칭될 수 있는) 모션 보상 메커니즘, 2) 코딩되는 블록에 밀접하게 대응하는 이전에 인코딩된 뷰 컴포넌트들 중 하나 내의 영역을 발견 및 표시하는 것을 포함하는 인터 뷰 예측, 3) 예측 블록 또는 예측 블록이 재구성/디코딩된 범위 정보에 기초하여 도출되는 이미지 영역을 합성하는 것을 포함하는 뷰 합성 예측, 4) SVC의 소위 인트라 BL 모드와 같은 재구성/디코딩된 샘플들을 이용하는 인터 계층 예측, 5) 공간 영역 관계를 발견 및 표시하는 것을 포함하는 공간 메커니즘들에 의해 픽셀 또는 샘플 값들이 예측될 수 있는 인트라 예측 중 하나 이상을 이용하여 예측될 수 있다.
파라미터 예측으로도 지칭될 수 있는 소위 신택스 예측에서는, 신택스 요소들 및/또는 신택스 요소 값들 및/또는 신택스 요소들로부터 도출되는 변수들이 이전에 (디)코딩된 신택스 요소들 및/또는 이전에 도출된 변수들로부터 예측된다. 신택스 예측의 비한정적인 예들은 다음과 같다. 1) 모션 벡터 예측에서, 예를 들어 인터 및/또는 인터 뷰 예측을 위한 모션 벡터들이 블록 고유 예측 모션 벡터에 관해 차별적으로 코딩될 수 있다. 많은 비디오 코덱에서, 예측 모션 벡터들은 사전 정의된 방식으로, 예를 들어 인접 블록들의 인코딩 또는 디코딩된 모션 벡터들의 중앙값을 계산함으로써 생성된다. 때때로 고급 모션 벡터 예측(AMVP)으로 지칭되는, 모션 벡터 예측들을 생성하기 위한 다른 방식은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들로부터 후보 예측들의 리스트를 생성하고, 선택된 후보를 모션 벡터 예측자로서 시그널링하는 것이다. 모션 벡터 값들을 예측하는 것에 더하여, 이전에 코딩/디코딩된 픽처의 참조 인덱스가 예측될 수 있다. 참조 인덱스는 통상적으로 시간 참조 픽처 내의 인접 블록들 및/또는 병치 블록들로부터 예측된다. 모션 벡터들의 차별 코딩은 통상적으로 슬라이스 경계들에 대해서는 불능화된다. 2) 예로서 CTU로부터 CU들로의 그리고 더 아래의 PU들로 블록 분할이 예측될 수 있다. 필터 파라미터 예측에서는, 예로서 샘플 적응 오프셋에 대한 필터링 파라미터들이 예측될 수 있다.
상이한 예측 타입들을 분류하는 다른 보완적인 방법은 예측이 어느 도메인들 또는 스케일링 가능성 타입들과 교차하는지를 고려하는 것이다. 이러한 분류는 때때로 예측 방향들로도 지칭될 수 있는 다음의 예측 타입들: 1) 통상적으로 동일 스케일링 가능성 계층, 뷰 및 컴포넌트 타입(텍스처 또는 깊이)의 이전 픽처로부터의 샘플 값들 또는 모션 벡터들의 예로서 시간 예측, 2) 통상적으로 동일 순간 또는 액세스 유닛 및 동일 컴포넌트 타입의 뷰 컴포넌트들 사이에 발생하는 예측을 지칭하는 (교차-뷰 예측으로도 지칭될 수 있는) 인터 뷰 예측, 3) 통상적으로 동일 순간, 동일 컴포넌트 타입 및 동일 뷰의 계층들 사이에 발생하는 예측을 지칭하는 인터 계층 예측, 4) 디코딩 프로세스, 또는 한 타입의 컴포넌트 픽처로부터 다른 타입의 컴포넌트 픽처로의 유사한 무언가에서 사용되는 신택스 요소 값들, 샘플 값들, 변수 값들의 예측을 포함하도록 정의될 수 있는 인터 컴포넌트 예측 중 하나 이상을 유발할 수 있다. 예를 들어, 인터 컴포넌트 예측은 깊이 뷰 컴포넌트로부터의 텍스처 뷰 컴포넌트의 예측 또는 그 반대의 예측을 포함할 수 있다.
이전에 코딩된 이미지로부터의 이미지 정보를 이용하는 예측 접근법들은 인터 예측 방법들로도 지칭될 수 있다. 인터 예측은 때때로 모션 보상 시간 예측만을 포함하는 것으로 간주될 수 있지만, 때로는 샘플들의 재구성/디코딩된 블록이 예측 소스로서 사용되는 모든 타입의 예측을 포함하는 것으로, 따라서 예를 들어 전통적인 인터 뷰 예측을 포함하는 것으로 간주될 수 있다. 인터 예측은 샘플 예측만을 포함하는 것으로 간주될 수 있지만, 대안으로서 샘플 및 신택스 예측 양자를 포함하는 것으로 간주될 수 있다.
신택스 및 샘플 예측의 결과로서, 샘플들의 픽셀들의 예측 블록이 획득될 수 있다.
스케일링 가능 비디오 코딩은 하나의 비트스트림이 상이한 비트 레이트들, 해상도들 또는 프레임 레이트들에서의 콘텐츠의 다수의 표현을 포함할 수 있는 코딩 구조를 지칭한다. 이러한 예들에서, 수신기는 그의 특성들(예로서, 디스플레이 디바이스와 가장 잘 매칭되는 해상도)에 따라 원하는 표현을 추출할 수 있다. 대안으로서, 서버 또는 네트워크 요소는 예를 들어 네트워크 특성들 또는 수신기의 프로세싱 능력들에 따라 수신기로 전송될 비트스트림의 부분들을 추출할 수 있다. 스케일링 가능 비트스트림은 이용 가능한 최저 품질 비디오를 제공하는 "기본 계층" 및 더 낮은 계층들과 함께 수신 및 디코딩될 때 비디오 품질을 향상시키는 하나 이상의 향상 계층으로 구성될 수 있다. 향상 계층들에 대한 코딩 효율을 개선하기 위해, 그러한 계층의 코딩된 표현은 더 낮은 계층들에 의존할 수 있다. 예를 들어, 향상 계층의 모션 및 모드 정보는 더 낮은 계층들로부터 예측될 수 있다. 유사하게, 더 낮은 계층들의 픽셀 데이터는 향상 계층에 대한 예측을 생성하는 데 사용될 수 있다.
(신호 대 잡음비, 즉 SNR로도 알려진) 품질 스케일링 가능성 및/또는 공간 스케일링 가능성을 위한 스케일링 가능 비디오 코덱이 다음과 같이 구현될 수 있다. 기본 계층에 대해, 전통적인 스케일링 불가 비디오 인코더 및 디코더가 사용된다. 기본 계층의 재구성/디코딩된 픽처들은 향상 계층을 위해 참조 픽처 버퍼 내에 포함된다. 인터 예측을 위해 참조 픽처 리스트(들)를 사용하는 H.264/AVC, HEVC 및 유사한 코덱들에서, 기본 계층 디코딩된 픽처들은 향상 계층의 디코딩된 참조 픽처들과 유사하게 향상 계층 픽처의 코딩/디코딩을 위해 참조 픽처 리스트(들) 내에 삽입될 수 있다. 결과적으로, 인코더는 기본 계층 참조 픽처를 인터 예측 참조로서 선택하고, 코딩된 비트스트림 내의 참조 픽처 인덱스와 관련된 그의 사용을 표시할 수 있다. 디코더는 비트스트림으로부터, 예를 들어 참조 픽처 인덱스로부터, 기본 계층 픽처가 향상 계층에 대한 인터 예측 참조로서 사용된다는 것을 디코딩한다. 디코딩된 기본 계층 픽처가 향상 계층에 대한 예측 참조로 사용될 때, 이것은 인터 계층 참조 픽처로 지칭된다.
다른 타입의 스케일링 가능성은 표준 스케일링 가능성이다. 이러한 타입에서, 기본 계층 및 향상 계층은 상이한 비디오 코딩 표준들에 속한다. 하나의 사례는 기본 계층이 H.264/AVC를 이용하여 코딩되는 반면에 향상 계층이 HEVC를 이용하여 코딩되는 사례이다. 이러한 타입의 스케일링 가능성의 동기는 이러한 방식으로 동일 비트스트림이 레거시 H.264/AVC 기반 시스템들은 물론, 새로운 HEVC 기반 시스템들에 의해 디코딩될 수 있다는 것이다.
H.264/AVC 및 HEVC를 포함하는 많은 비디오 코덱에서, 모션 정보는 각각의 모션 보상 이미지 블록과 관련된 모션 벡터들을 이용하여 표시된다. 이러한 모션 벡터들 각각은 (인코더 측에서) 코딩되거나 (디코더 측에서) 디코딩될 픽처 내의 이미지 블록 및 이전에 코딩 또는 디코딩된 픽처들 중 하나 내의 예측 소스 블록의 변위를 나타낸다. H.264/AVC 및 HEVC는 많은 다른 비디오 압축 표준과 같이 픽처를 직사각형들의 메시로 분할하며, 그들 각각에 대해, 참조 픽처들 중 하나 내의 유사한 블록이 인터 예측을 위해 표시된다. 예측 블록의 위치는 코딩되는 블록에 대비되는 예측 블록의 위치를 표시하는 모션 벡터로서 코딩된다.
모션 벡터들을 효율적으로 나타내기 위해, 그들은 블록 고유 예측 모션 벡터들에 관해 차별적으로 코딩될 수 있다. 많은 비디오 코덱에서, 예측 모션 벡터들은 사전 정의된 방식으로, 예를 들어 인접 블록들의 인코딩 또는 디코딩된 모션 벡터들의 중앙값을 계산함으로써 생성된다. 때때로 고급 모션 벡터 예측(AMVP)으로 지칭되는, 모션 벡터 예측들을 생성하기 위한 다른 방식은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들로부터 후보 예측들의 리스트를 생성하고, 선택된 후보를 모션 벡터 예측자로서 시그널링하는 것이다.
많은 코딩 표준은 인터 예측을 위한 다수의 참조 픽처의 사용을 가능하게 한다. H.264/AVC 및 HEVC와 같은 많은 코딩 표준은 둘 이상의 참조 픽처가 사용될 수 있을 때 디코더들이 인터 예측에서 사용될 하나 이상의 참조 픽처 리스트를 생성하는 것을 가능하게 하는 비트스트림 내의 신택스 구조들을 포함한다. 참조 픽처 리스트에 대한 참조 픽처 인덱스는 다수의 참조 픽처 중 어느 것이 특정 블록에 대한 인터 예측을 위해 사용될지를 표시하는 데 사용될 수 있다. 따라서, 참조 픽처를 식별하는 참조 픽처 인덱스 또는 임의의 다른 유사한 정보가 모션 벡터와 관련되거나 그의 일부로서 간주될 수 있다. 참조 픽처 인덱스는 일부 인터 코딩 모드들에서 인코더에 의해 비트스트림 내에 코딩될 수 있거나, 일부 다른 인터 코딩 모드들에서 (인코더 및 디코더에 의해) 예를 들어 이웃 블록들을 이용하여 도출될 수 있다. H.264/AVC 및 HEVC의 많은 코딩 모드에서, 인터 예측을 위한 참조 픽처는 참조 픽처 리스트에 대한 인덱스를 이용하여 표시된다. 인덱스는 통상적으로 더 작은 인덱스가 대응하는 신택스 요소에 대해 더 짧은 값을 갖게 하는 가변 길이 코딩을 이용하여 코딩될 수 있다. H.264/AVC 및 HEVC에서는, 2개의 참조 픽처 리스트(참조 픽처 리스트 0 및 참조 픽처 리스트 1)가 각각의 쌍예측 (B) 슬라이스에 대해 생성되며, 하나의 참조 픽처 리스트(참조 픽처 리스트 0)가 각각의 인터 코딩된 (P) 슬라이스에 대해 생성된다. 게다가, 드래프트 HEVC 표준에서의 B 슬라이스에 대해, 최종 참조 픽처 리스트들(리스트 0 및 리스트 1)이 형성된 후에 결합 리스트(리스트 C)가 형성될 수 있다. 결합 리스트는 B 슬라이스들 내에서 (단방향 예측으로도 알려진) 단예측(uni-prediction)을 위해 사용될 수 있다.
AMVP는 예를 들어 다음과 같이 동작할 수 있지만, 예를 들어 상이한 위치 후보 세트들 및 후보 위치 세트들과 관련된 후보 위치들을 이용하는 AMVP의 다른 유사한 구현들도 가능하다. 2개의 공간 모션 벡터 예측자(MVP)가 도출될 수 있고, 하나의 시간 모션 벡터 예측자(TMVP)가 도출될 수 있다. 그들은 예를 들어 다음과 같이: 현재 예측 블록 위에 위치하는 3개의 공간 MVP 후보 위치(B0, B1, B2) 및 좌측의 2개의 위치(A0, A1)로서 선택될 수 있다. 각각의 후보 위치 세트 (B0, B1, B2) 또는 (A0, A1)의 사전 정의된 순서로 이용 가능한(예로서, 동일 슬라이스 내에 존재하거나, 인터 코딩되거나, 기타 등등인) 제1 모션 벡터 예측자는 모션 벡터 경쟁에서 해당 예측 방향(위쪽 또는 좌측)을 나타내도록 선택될 수 있다. TMVP에 대한 참조 인덱스는 인코더에 의해 슬라이스 헤더 내에(예로서, collocated_ref_idx 신택스 요소로서) 표시될 수 있다. 병치 픽처로부터 획득된 모션 벡터는 TMVP의 참조 픽처, 병치 픽처 및 현재 픽처의 픽처 순서 카운트 차이들의 비율들에 따라 스케일링될 수 있다. 더욱이, 후보 리스트 내의 제로 MV의 포함을 유발할 수 있는 동일 후보들을 제거하기 위해 후보들 중에서 중복 검사가 수행될 수 있다. 모션 벡터 예측자는 비트스트림 내에서, 예를 들어 공간 MVP의 방향(위쪽 또는 좌측) 또는 TMVP 후보의 선택을 표시함으로써 표시될 수 있다.
모션 벡터 값들의 예측에 더하여, 이전에 코딩/디코딩된 픽처의 참조 인덱스가 예측될 수 있다. 참조 인덱스는 시간 참조 픽처 내에서 인접 블록들로부터 그리고/또는 병치 블록들로부터 예측될 수 있다.
더욱이, 많은 고효율 비디오 코덱은 각각의 이용 가능한 참조 픽처 리스트에 대한 모션 벡터 및 대응하는 참조 픽처 인덱스를 포함하는 모든 모션 필드 정보가 예측되고 어떠한 변경/수정도 없이 사용되는 병합하기/병합 모드라고 하는 추가적인 모션 정보 코딩/디코딩 메커니즘을 이용한다. 유사하게, 모션 필드 정보의 예측은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들의 모션 필드 정보를 이용하여 실행되며, 이용된 모션 필드 정보는 이용 가능한 인접/병치 블록들의 모션 필드 정보로 채워진 모션 필드 후보 리스트 사이에서 시그널링된다.
병합 모드에서는, 블록/PU의 모든 모션 정보가 예측되고, 어떠한 변경/수정도 없이 사용될 수 있다. PU에 대한 전술한 모션 정보는 1) 'PU가 참조 픽처 리스트 0만을 이용하여 단예측되는지' 또는 'PU가 참조 픽처 리스트 1만을 이용하여 단예측되는지' 또는 'PU가 참조 픽처 리스트 0 및 리스트 1 양자를 이용하여 쌍예측되는지'에 관한 정보; 2) 참조 픽처 리스트 0에 대응하는 모션 벡터 값; 3) 참조 픽처 리스트 0 내의 참조 픽처 인덱스; 4) 참조 픽처 리스트 1에 대응하는 모션 벡터 값; 5) 참조 픽처 리스트 1 내의 참조 픽처 인덱스를 포함할 수 있다.
유사하게, 모션 정보의 예측은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들의 모션 정보를 이용하여 실행된다. 통상적으로, 병합 리스트로서 종종 지칭되는 리스트가 이용 가능한 인접/병치 블록들과 관련된 모션 예측 후보들을 포함함으로써 형성되며, 리스트 중의 선택된 모션 예측 후보의 인덱스가 시그널링된다. 이어서, 선택된 후보의 모션 정보가 현재 PU의 모션 정보로 복사된다. 병합 메커니즘이 전체 CU에 대해 이용되고, CU에 대한 예측 신호가 재구성 신호로 사용될 때, 즉 예측 오차가 프로세싱되지 않을 때, 이러한 타입의 CU 코딩/디코딩은 통상적으로 생략 모드 또는 병합 기반 생략 모드로 지칭된다. 생략 모드에 더하여, 병합 메커니즘은 (생략 모드에서와 같이 반드시 전체 CU에 대해서는 아니고) 개별 PU들에 대해서도 이용되며, 이 경우에 예측 오차는 예측 품질을 개선하는 데 사용될 수 있다. 이러한 타입의 예측 모드는 인터 병합 모드로 지칭될 수 있다.
모션 보상에 이어서 역변환된 오차를 추가한 후에, 재구성된 픽처가 획득된다. 이 픽처는 블록킹, 링잉 등과 같은 다양한 아티팩트들을 가질 수 있다. 아티팩트들을 제거하기 위해, 다양한 후프로세싱 동작들이 적용된다. 후프로세싱된 픽처들이 모션 보상 루프에서 참조로 사용되는 경우, 후프로세싱 동작들/필터들은 통상적으로 루프 필터들로서 지칭된다. 루프 필터들을 이용함으로써, 참조 픽처들의 품질이 향상된다. 결과적으로, 더 양호한 코딩 효율이 달성될 수 있다.
루프 필터들 중 하나는 디블록킹 필터이다. 디블록킹 필터는 H.264/AVC 및 HEVC 표준들 양자에서 이용 가능하다. 디블록킹 필터의 목적은 블록들의 경계들에서 발생하는 블록킹 아티팩트들을 제거하는 것이다. 이것은 블록 경계들을 따라 필터링함으로써 달성된다.
HEVC에서는, 2개의 새로운 루프 필터, 즉 샘플 적응 오프셋(SAO) 및 적응 루프 필터(ALF)가 도입된다. SAO는 디블록킹 필터링 후에 적용되며, ALF는 SAO 후에 적용된다.
최신 HEVC 표준 사양 내에 존재하는 SAO 알고리즘의 설명이 이어진다. SAO에서, 픽처는 영역들로 분할되며, 개별 SAO 결정이 각각의 영역에 대해 행해진다. 영역 내의 SAO 정보는 SAO 파라미터 적응 유닛(SAO 유닛) 내에 캡슐화되며, HEVC에서 SOA 파라미터들의 적응을 위한 기본 유닛은 CTU이다(따라서, SAO 영역은 대응하는 CTU에 의해 커버되는 블록이다).
SAO 알고리즘에서, CTU 내의 샘플들은 규칙들의 세트에 따라 분류되며, 각각의 분류된 샘플들의 세트는 오프셋 값들을 추가함으로써 향상된다. 오프셋 값들은 비트스트림 내에서 시그널링된다. 두 가지 타입의 오프셋: 1) 대역 오프셋, 2) 에지 오프셋이 존재한다. CTU에 대해, SAO 또는 대역 오프셋 또는 에지 오프셋이 사용되지 않는다. SAO 또는 대역 또는 에지 오프셋을 사용하지 않을지의 선택은 통상적으로 RDO를 이용하여 인코더에 의해 결정되며, 디코더로 시그널링된다.
대역 오프셋에서, 샘플 값들의 전체 범위는 32개의 동일 폭 대역으로 분할된다. 예를 들어, 8비트 샘플들의 경우, 대역의 폭은 8(=256/32)이다. 32개의 대역 중에서 4개의 대역이 선택되며, 선택된 대역 각각에 대해 상이한 오프셋들이 시그널링된다. 선택 결정은 인코더에 의해 행해지고, 다음과 같이 시그널링된다. 제1 대역의 인덱스가 시그널링되고, 이어서 후속 4개 대역이 선택된 대역들인 것으로 추정된다. 대역 오프셋은 평탄한 영역들 내의 에러들을 수정하는 데 유용할 수 있다.
에지 오프셋 타입에서는, 우선, 4개의 가능한 타입(또는 에지 분류들) 중에서 에지 오프셋(EO) 타입이 선택되며, 각각의 타입은 방향: 1) 수직; 2) 수평; 3) 135도 대각선; 및 4) 45도 대각선과 관련된다. 방향의 선택은 인코더에 의해 제공되고, 디코더로 시그널링된다. 각각의 타입은 각도에 기초하여 주어진 샘플에 대한 2개의 이웃 샘플의 위치를 정의한다. 이어서, CTU 내의 각각의 샘플은 2개의 이웃 샘플의 값들에 대한 샘플 값의 비교에 기초하여 5개의 카테고리 중 하나로 분류된다. 5개의 카테고리는 다음과 같이 설명되는데, 1) 현재 샘플 값은 2개의 이웃 샘플보다 작고; 2) 현재 샘플 값은 이웃들 중 하나보다 작고 나머지 이웃과 동일하며; 3) 현재 샘플 값은 이웃들 중 하나보다 크고 나머지 이웃과 동일하며; 4) 현재 샘플 값은 2개의 이웃 샘플보다 크고; 5) 전술한 것들 중 어느 것도 아니다.
이러한 5개의 카테고리는 디코더로 시그널링될 필요가 없는데, 그 이유는 분류가 인코더 및 디코더 양자에서 이용 가능하고 동일한 재구성된 샘플들에만 기초하기 때문이다. 에지 오프셋 타입 CTU 내의 각각의 샘플이 5개의 카테고리 중 하나로서 분류된 후, 처음 4개의 카테고리 각각에 대한 오프셋 값이 결정되고, 디코더로 시그널링된다. 각각의 카테고리에 대한 오프셋은 대응하는 카테고리와 관련된 샘플 값들에 더해진다. 에지 오프셋들은 링잉 아티팩트들을 수정하는 데 효과적일 수 있다.
SAO 파라미터들은 CTU 데이터 내에 삽입된 상태로 시그널링된다. CTU 위에서, 슬라이스 헤더는 SAO가 슬라이스에서 사용되는지를 지정하는 신택스 요소를 포함한다. SAO가 사용되는 경우, 2개의 추가적인 신택스 요소는 SAO가 Cb 및 Cr 컴포넌트들에 적용되는지를 지정한다. 각각의 CTU에 대해, 3개의 옵션: 좌측 CTU로부터의 SAO 파라미터들의 복사, 2) 위의 CTU로부터의 SAO 파라미터들의 복사 또는 3) 새로운 SAO 파라미터들의 시그널링이 존재한다.
적응 루프 필터(ALF)는 재구성된 샘플들의 품질을 향상시키기 위한 또 하나의 방법이다. 이것은 루프에서 샘플 값들을 필터링함으로써 달성된다. 통상적으로, 인코더는 픽처들 중 어느 영역이 필터링될지 및 필터 계수들을 RDO에 기초하여 결정하며, 이 정보는 인코더로 시그널링된다.
드래프트 HEVC 표준에서, 코딩된 슬라이스 NAL 유닛은 아래의 타입들 중 하나인 것으로 표시될 수 있다.
Figure pct00001
드래프트 HEVC 표준에서, 픽처 타입들에 대한 약어들은 다음과 같이: 트레일링(TRAIL) 픽처, 시간 하위 계층 액세스(TSA), 스텝-와이즈 시간 하위 계층 액세스(STSA), 랜덤 액세스 디코딩 가능 리딩(RADL) 픽처, 랜덤 액세스 생략 리딩(RASL) 픽처, 파괴 링크 액세스(BLA) 픽처, 순간 디코딩 리프레시(IDR) 픽처, 클린 랜덤 액세스(CRA) 픽처로서 정의될 수 있다.
랜덤 액세스 포인트(RAP) 픽처는 각각의 슬라이스 또는 슬라이스 세그먼트가 16 내지 23의 범위 내의 nal_unit_type을 갖는 픽처이다. RAP 픽처는 인트라 코딩된 슬라이스들만을 포함하며, BLA 픽처, CRA 픽처 또는 IDR 픽처일 수 있다. 비트스트림 내의 제1 픽처는 RAP 픽처이다. 필요한 파라미터 세트들이 활성화되는 것이 필요할 때 그들이 이용 가능할 경우, RAP 픽처 및 디코딩 순서에서의 모든 후속 논-RASL 픽처들은 디코딩 순서에서 RAP 픽처에 앞서는 임의의 픽처들의 디코딩 프로세스를 수행하지 않고서 올바르게 디코딩될 수 있다. RAP 픽처들이 아닌 인트라 코딩된 슬라이스들만을 포함하는 비트스트림 내의 픽처들이 존재할 수 있다.
HEVC에서, CRA 픽처는 디코딩 순서에서 비트스트림 내의 제1 픽처일 수 있거나, 비트스트림 내에 나중에 나타날 수 있다. HEVC에서의 CRA 픽처들은 디코딩 순서에서 CRA 픽처를 뒤따르지만 출력 순서에서 그에 앞서는 소위 리딩 픽처들을 허용한다. 리딩 픽처들 중 일부, 소위 RASL 픽처들은 CRA 픽처 전에 디코딩된 픽처들을 참조로 사용할 수 있다. 디코딩 및 출력 순서 양자에서 CRA 픽처를 뒤따르는 픽처들은 CRA 픽처에서 랜덤 액세스가 수행되는 경우에 디코딩될 수 있으며, 따라서 IDR 픽처의 클린 랜덤 액세스 기능과 유사하게 클린 랜덤 액세스가 달성된다.
CRA 픽처는 관련된 RADL 또는 RASL 픽처들을 가질 수 있다. CRA 픽처가 디코딩 순서에서 비트스트림 내의 제1 픽처일 때, CRA 픽처는 디코딩 순서에서 코딩된 비디오 시퀀스 내의 제1 픽처이며, 임의의 관련된 RASL 픽처들은 디코더에 의해 출력되지 않고, 디코딩되지 못할 수 있는데, 이는 그들이 비트스트림 내에 존재하지 않는 픽처들에 대한 참조들을 포함할 수 있기 때문이다.
리딩 픽처는 출력 순서에서 관련 RAP 픽처에 앞서는 픽처이다. 관련 RAP 픽처는 (존재할 경우에) 디코딩 순서에서 이전의 RAP 픽처이다. 리딩 픽처는 RADL 픽처 또는 RASL 픽처이다.
모든 RASL 픽처들은 관련 BLA 또는 CRA 픽처의 리딩 픽처들이다. 관련 RAP 픽처가 BLA 픽처이거나 비트스트림 내의 제1의 코딩된 픽처일 때, RASL 픽처는 출력되지 않으며, 올바르게 디코딩되지 못할 수 있는데, 이는 RASL 픽처가 비트스트림 내에 존재하지 않는 픽처들에 대한 참조들을 포함할 수 있기 때문이다. 그러나, RASL 픽처는 디코딩이 RASL 픽처의 관련 RAP 픽처 전의 RAP 픽처로부터 시작된 경우에 올바르게 디코딩될 수 있다. RASL 픽처들은 논-RASL 픽처들의 디코딩 프로세스를 위한 참조 픽처들로서 사용되지 않는다. 존재할 때, 모든 RASL 픽처들은 디코딩 순서에서 동일한 관련 RAP 픽처의 모든 트레일링 픽처들에 앞선다. HEVC 표준의 일부 더 이른 드래프트들에서, RASL 픽처는 폐기 태그 부착(Tagged for Discard: TFD) 픽처로 지칭되었다.
모든 RADL 픽처들은 리딩 픽처들이다. RADL 픽처들은 동일한 관련 RAP 픽처의 트레일링 픽처들의 디코딩 프로세스를 위한 참조 픽처들로서 사용되지 않는다. 존재할 때, 모든 RADL 픽처들은 디코딩 순서에서 동일한 관련 RAP 픽처의 모든 트레일링 픽처들에 앞선다. RADL 픽처들은 디코딩 순서에서 관련 RAP 픽처에 앞서는 어떠한 픽처도 지칭하지 않으며, 따라서 디코딩이 관련 RAP 픽처로부터 시작될 때 올바르게 디코딩될 수 있다. HEVC 표준의 일부 더 이른 드래프트들에서, RADL 픽처는 디코딩 가능 리딩 픽처(DLP)로 지칭되었다.
CRA 픽처로부터 시작하는 비트스트림의 일부가 다른 비트스트림 내에 포함될 때, CRA 픽처와 관련된 RASL 픽처들은 올바르게 디코딩되지 못할 수 있는데, 그 이유는 그들의 참조 픽처들 중 일부가 결합된 비트스트림 내에 존재하지 않을 수 있기 때문이다. 그러한 연결 동작을 간소화하기 위해, CRA 픽처의 NAL 유닛 타입은 그가 BLA 픽처인 것을 표시하도록 변경될 수 있다. BLA 픽처와 관련된 RASL 픽처들은 올바르게 디코딩되지 못할 수 있으며, 따라서 출력/표시되지 않는다. 더구나, BLA 픽처와 관련된 RASL 픽처들은 디코딩으로부터 제외될 수 있다.
BLA 픽처는 디코딩 순서에서 비트스트림 내의 제1 픽처일 수 있거나, 비트스트림 내에 나중에 나타날 수 있다. 각각의 BLA 픽처는 새로운 코딩된 비디오 시퀀스를 시작하며, IDR 픽처로서 디코딩 프로세스에 대해 유사한 효과를 갖는다. 그러나, BLA 픽처는 비공백 참조 픽처 세트를 지정하는 신택스 요소들을 포함한다. BLA 픽처가 BLA_W_LP와 동일한 nal_unit_type을 가질 때, 이것은 관련 RASL 픽처들을 가질 수 있으며, 이들은 디코더에 의해 출력되지 않거나 디코딩되지 못할 수 있는데, 그 이유는 이들이 비트스트림 내에 존재하지 않는 픽처들에 대한 참조들을 포함할 수 있기 때문이다. BLA 픽처가 BLA_W_LP와 동일한 nal_unit_type을 가질 때, 이것은 디코딩되도록 지정되는 관련 RADL 픽처들도 가질 수 있다. BLA 픽처가 BLA_W_DLP와 동일한 nal_unit_type을 가질 때, 이것은 관련 RASL 픽처를 갖지 않지만, 디코딩되도록 지정되는 관련 RADL 픽처들을 가질 수 있다. BLA 픽처가 BLA_N_LP와 동일한 nal_unit_type을 가질 때, 이것은 어떠한 관련 리딩 픽처도 갖지 않는다.
IDR_N_LP와 동일한 nal_unit_type을 갖는 IDR 픽처는 비트스트림 내에 존재하는 관련 리딩 픽처를 갖지 않는다. IDR_W_LP와 동일한 nal_unit_type을 갖는 IDR 픽처는 비트스트림 내에 존재하는 관련 RASL 픽처를 갖지 않지만, 비트스트림 내에 관련 RADL 픽처들을 가질 수 있다.
nal_unit_type의 값이 TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12 또는 RSV_VCL_N14와 동일할 때, 디코딩된 픽처는 동일 시간 하위 계층의 임의의 다른 픽처에 대한 참조로 사용되지 않는다. 즉, 드래프트 HEVC 표준에서, nal_unit_type의 값이 TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12 또는 RSV_VCL_N14와 동일할 때, 디코딩된 픽처는 TemporalId의 동일 값을 갖는 임의 픽처의 RefPicSetStCurrBefore, RefPicSetStCurrAfter 및 RefPicSetLtCurr 중 어느 것 내에도 포함되지 않는다. TRAIL_N, TSA_N, STSA_N, RADL_N, RASL_N, RSV_VCL_N10, RSV_VCL_N12 또는 RSV_VCL_N14와 동일한 nal_unit_type을 갖는 코딩된 픽처는 TemporalId의 동일 값을 갖는 다른 픽처들의 디코딩 가능성에 영향을 주지 않고서 폐기될 수 있다.
트레일링 픽처는 출력 순서에서 관련 RAP 픽처를 뒤따르는 픽처로서 정의될 수 있다. 트레일링 픽처인 임의의 픽처는 RADL_N, RADL_R, RASL_N 또는 RASL_R과 동일한 nal_unit_type을 갖지 않는다. 리딩 픽처인 임의의 픽처는 디코딩 순서에서 동일 RAP 픽처와 관련된 모든 트레일링 픽처들에 앞서도록 강제될 수 있다. BLA_W_DLP 또는 BLA_N_LP와 동일한 nal_unit_type을 갖는 BLA 픽처와 관련된 어떠한 RASL 픽처도 비트스트림 내에 존재하지 않는다. BLA_N_LP와 동일한 nal_unit_type을 갖는 BLA 픽처와 관련되거나 IDR_N_LP와 동일한 nal_unit_type을 갖는 IDR 픽처와 관련된 어떠한 RADL 픽처도 비트스트림 내에 존재하지 않는다. CRA 또는 BLA 픽처와 관련된 임의의 RASL 픽처는 출력 순서에서 CRA 또는 BLA 픽처와 관련된 임의의 RADL 픽처에 앞서도록 강제될 수 있다. CRA 픽처와 관련된 임의의 RASL 픽처는 디코딩 순서에서 CRA 픽처에 앞서는 임의의 다른 RAP 픽처를 출력 순서에서 뒤따르도록 강제될 수 있다.
HEVC에서는, 두 가지 픽처 타입, 즉 시간 하위 계층 스위칭 포인트들을 표시하는 데 사용될 수 있는 TSA 및 STSA 픽처 타입들이 존재한다. TSA 또는 STSA 픽처(배타적) 및 TSA 또는 STSA 픽처가 N+1과 동일한 TemporalId를 가질 때까지 최대 N의 TemporalId를 갖는 시간 하위 계층들이 디코딩된 경우, TSA 또는 STSA 픽처는 N+1과 동일한 TemporalId를 갖는 (디코딩 순서에서) 모든 후속 픽처들의 디코딩을 가능하게 한다. TSA 픽처 타입은 TSA 픽처 자체 및 디코딩 순서에서 TSA 픽처를 뒤따르는 동일 하위 계층 내의 모든 픽처들에 대해 제한들을 부과할 수 있다. 이러한 픽처들 중 어느 것도 디코딩 순서에서 TSA 픽처에 앞서는 동일 하위 계층 내의 임의의 픽처로부터의 인터 예측을 사용하는 것이 허용되지 않는다. TSA 정의는 디코딩 순서에서 TSA 픽처를 뒤따르는 더 높은 하위 계층들 내의 픽처들에 대해 제한들을 더 부과할 수 있다. 이러한 픽처들 중 어느 것도 그 픽처가 TSA 픽처와 동일한 또는 더 높은 하위 계층에 속하는 경우에는 디코딩 순서에서 TSA 픽처에 앞서는 픽처를 참조하는 것이 허용되지 않는다. TSA 픽처들은 0보다 큰 TemporalId를 갖는다. STSA는 TSA 픽처와 유사하지만, 디코딩 순서에서 STSA 픽처를 뒤따르고, 따라서 STSA 픽처가 존재하는 하위 계층 상으로만 업-스위칭을 가능하게 하는 더 높은 하위 계층들 내의 픽처들에 대해 제한들을 부과하지 않는다.
논-VCL NAL 유닛은 예를 들어 다음의 타입들: 시퀀스 파라미터 세트, 픽처 파라미터 세트, 보완 향상 정보(SEI) NAL 유닛, 액세스 유닛 디리미터, 엔드 오브 시퀀스 NAL 유닛, 엔드 오브 스트림 NAL 유닛 또는 필러 데이터 NAL 유닛 중 하나일 수 있다. 파라미터 세트들이 디코딩된 픽처들의 재구성을 위해 필요할 수 있는 반면, 다른 논-VCL NAL 유닛들 중 다수는 디코딩된 샘플 값들의 재구성에 필요하지 않다.
코딩된 비디오 시퀀스를 통해 변경되지 않은 파라미터들은 시퀀스 파라미터 세트 내에 포함될 수 있다. 디코딩 프로세스에 의해 요구될 수 있는 파라미터들에 더하여, 시퀀스 파라미터 세트는 옵션으로서 버퍼링, 픽처 출력 타이밍, 렌더링 및 자원 예약에 중요할 수 있는 파라미터들을 포함하는 비디오 유용성 정보(VUI)를 포함할 수 있다. 시퀀스 파라미터 세트들을 운반하기 위해 H.264/AVC에서 정의되는 3개의 NAL 유닛: 시퀀스 내의 H.264/AVC VCL NAL 유닛들에 대한 모든 데이터를 포함하는 시퀀스 파라미터 세트 NAL 유닛, 보조적인 코딩된 픽처들에 대한 데이터를 포함하는 시퀀스 파라미터 세트 확장 NAL 유닛, 및 MVC 및 SVC VCL NAL 유닛들에 대한 서브세트 시퀀스 파라미터 세트가 존재한다. 드래프트 HEVC 표준에서, 시퀀스 파라미터 세트 RBSP는 하나 이상의 픽처 파라미터 세트 RBSP 또는 버퍼링 기간 SEI 메시지를 포함하는 하나 이상의 SEI NAL 유닛에 의해 참조될 수 있는 파라미터들을 포함한다. 픽처 파라미터 세트는 여러 개의 코딩된 픽처에서 변경되지 않을 가능성이 있는 파라미터들을 포함한다. 픽처 파라미터 세트 RBSP는 하나 이상의 코딩된 픽처의 코딩된 슬라이스 NAL 유닛들에 의해 참조될 수 있는 파라미터들을 포함할 수 있다.
드래프트 HEVC에서는, 여러 개의 코딩된 슬라이스에서 변경되지 않을 가능성이 있지만, 예를 들어 각각의 픽처 또는 각각의 소수의 픽처에 대해서는 변경될 수 있는 파라미터들을 포함하는, 본 명세서에서 적응 파라미터 세트(APS)로 지칭되는 제3 타입의 파라미터 세트도 존재한다. 드래프트 HEVC에서, APS 신택스 구조는 양자화 행렬(QM), 적응 샘플 오프셋(SAO), 적응 루프 필터링(ALF) 및 디블록킹 필터링과 관련된 파라미터들 또는 신택스 요소들을 포함한다. 드래프트 HEVC에서, APS는 NAL 유닛이며, 임의의 다른 NAL 유닛으로부터의 참조 또는 예측 없이 코딩된다. aps_id 신택스 요소로서 지칭되는 식별자가 APS NAL 유닛 내에 포함되고, 슬라이스 헤더 내에 포함되어 특정 APS를 참조하는 데 사용된다. 다른 드래프트 HEVC 표준에서, APS 신택스 구조는 ALF 파라미터들만을 포함한다. 드래프트 HEVC 표준에서, 적응 파라미터 세트 RBSP는 sample_adaptive_offset_enabled_flag 또는 adaptive_loop_filter_enabled_flag 중 적어도 하나가 1일 때 하나 이상의 코딩된 픽처의 코딩된 슬라이스 NAL 유닛들에 의해 참조될 수 있는 파라미터들을 포함한다. HEVC의 일부 후속 드래프트들에서는, APS 신택스 구조가 사양 텍스트로부터 제거되었다.
HEVC에서, 비디오 파라미터 세트(VPS)는 각각의 슬라이스 세그먼트 헤더에서 발견되는 신택스 요소에 의해 참조되는 PPS에서 발견되는 신택스 요소에 의해 참조되는 SPS에서 발견되는 신택스 요소의 콘텐츠에 의해 결정되는 바와 같은 0개 이상의 전체적인 코딩된 비디오 시퀀스들에 적용되는 신택스 요소들을 포함하는 신택스 구조로서 정의될 수 있다.
비디오 파라미터 세트 RBSP는 하나 이상의 시퀀스 파라미터 세트 RBSP에 의해 참조될 수 있는 파라미터들을 포함할 수 있다.
비디오 파라미터 세트(VPS), 시퀀스 파라미터 세트(SPS) 및 픽처 파라미터 세트(PPS) 간의 관계 및 계층 구조는 다음과 같이 설명될 수 있다. VPS는 파라미터 세트 계층 구조에서 그리고 스케일링 가능성 및/또는 3D 비디오와 관련하여 SPS보다 한 레벨 위에 존재한다. VPS는 전체적인 코딩된 비디오 시퀀스 내의 모든 (스케일링 가능성 또는 뷰) 계층들에 걸친 모든 슬라이스들에 대해 공통인 파라미터들을 포함할 수 있다. SPS는 전체적인 코딩된 비디오 시퀀스 내의 특정 (스케일링 가능성 또는 뷰) 계층 내의 모든 슬라이스들에 대해 공통인 파라미터들을 포함하며, 다수의 (스케일링 가능성 또는 뷰) 계층에 의해 공유될 수 있다. PPS는 특정 계층 표현(하나의 액세스 유닛 내의 하나의 스케일링 가능성 또는 뷰 계층의 표현) 내의 모든 슬라이스들에 대해 공통인 파라미터들을 포함하며, 다수의 계층 표현 내의 모든 슬라이스들에 의해 공유될 수 있다.
VPS는 비트스트림 내의 계층들의 종속 관계들에 대한 정보는 물론, 전체적인 코딩된 비디오 시퀀스 내의 모든 (스케일링 가능성 또는 뷰) 계층들에 걸친 모든 슬라이스들에 적용될 수 있는 많은 다른 정보도 제공할 수 있다. HEVC의 스케일링 가능 확장에서, VPS는 예를 들어 NAL 유닛 헤더로부터 도출된 LayerId 값의 하나 이상의 스케일링 가능성 차원 값으로의 맵핑을 포함하고, 예를 들어 SVC 및 MVC와 유사하게 정의된 계층에 대한 dependency_id, quality_id, view_id 및 depth_flag에 대응할 수 있다. VPS는 하나 이상의 계층에 대한 프로필 및 레벨 정보는 물론, 계층 표현의 (소정의 temporal_id 값들에서의 그리고 그 아래에서의 VCL NAL 유닛들로 구성되는) 하나 이상의 시간 하위 계층에 대한 프로필 및/또는 레벨도 포함할 수 있다.
H.264/AVC 및 HEVC 신택스는 파라미터 세트들의 많은 인스턴스를 허용하며, 각각의 인스턴스는 고유 식별자를 이용하여 식별된다. 파라미터 세트들에 대해 필요한 메모리 사용을 제한하기 위해, 파라미터 세트 식별자들에 대한 값 범위가 제한되었다. H.264/AVC 및 드래프트 HEVC 표준에서, 각각의 슬라이스 헤더는 슬라이스를 포함하는 픽처의 디코딩에 대해 활성인 픽처 파라미터 세트의 식별자를 포함하며, 각각의 픽처 파라미터 세트는 활성 시퀀스 파라미터 세트의 식별자를 포함한다. 드래프트 HEVC 표준에서, 슬라이스 헤더는 APS 식별자를 더 포함하지만, HEVC 표준의 일부 후속 드래프트들에서는 APS 식별자가 슬라이스 헤더로부터 제거되었다. 결과적으로, 픽처 및 시퀀스 파라미터 세트들의 전송은 슬라이스들의 전송과 정확하게 동기화될 필요가 없다. 대신, 활성 시퀀스 및 픽처 파라미터 세트들이 참조되기 전의 임의의 순간에 수신되는 것으로 충분하며, 이는 슬라이스 데이터에 사용되는 프로토콜들에 비해 더 신뢰성 있는 전송 메커니즘을 이용하는 파라미터 세트들의 "대역외" 전송을 가능하게 한다. 예를 들어, 파라미터 세트들은 실시간 전송 프로토콜(RTP) 세션들에 대한 세션 설명 내에 파라미터로서 포함될 수 있다. 파라미터 세트들이 대역내 전송되는 경우, 그들은 에러 강건성을 개선하기 위해 반복될 수 있다.
파라미터 세트는 슬라이스로부터의 또는 다른 활성 파라미터 세트로부터의 또는 일부 예들에서는 버퍼링 기간 SEI 메시지와 같은 다른 신택스 구조로부터의 참조에 의해 활성화될 수 있다.
SEI NAL 유닛은 하나 이상의 SEI 메시지를 포함할 수 있으며, 이들은 출력 픽처들의 디코딩에 필요하지 않지만, 픽처 출력 타이밍, 렌더링, 에러 검출, 에러 은닉 및 자원 예약과 같은 관련 프로세스들을 도울 수 있다. 여러 SEI 메시지가 H.264/AVC 및 HEVC에서 지정되며, 사용자 데이터 SEI 메시지들은 조직들 또는 회사들이 그들 자신의 사용을 위한 SEI 메시지들을 지정하는 것을 가능하게 한다. H.264/AVC 및 HEVC는 지정된 SEI 메시지들에 대한 신택스 및 시맨틱을 포함하지만, 수신측에서 메시지들을 프로세싱하기 위한 어떠한 프로세스도 정의되지 않는다. 결과적으로, 인코더들은 SEI 메시지들을 생성할 때 H.264/AVC 표준 또는 HEVC 표준을 따라야 하며, H.264/AVC 표준 또는 HEVC 표준을 따르는 디코더들은 각각 출력 순서에 맞게 SEI 메시지들을 프로세싱할 필요가 없다. H.264/AVC 및 HEVC 내에 SEI 메시지들의 신택스 및 시맨틱을 포함시키는 이유들 중 하나는 상이한 시스템 사양들이 보완 정보를 동일하게 해석하고, 따라서 연동하는 것을 가능하게 하는 것이다. 시스템 사양들은 인코딩 및 디코딩 양자에서 특정 SEI 메시지들의 사용을 필요로 할 수 있으며, 게다가 수신측에서 특정 SEI 메시지들을 프로세싱하기 위한 프로세스가 지정될 수 있는 것으로 의도된다.
코딩된 픽처는 픽처의 코딩된 표현이다. H.264/AVC에서의 코딩된 픽처는 픽처의 디코딩에 필요한 VCL NAL 유닛들을 포함한다. H.264/AVC에서, 코딩된 픽처는 주요한 코딩된 픽처 또는 중복적인 코딩된 픽처일 수 있다. 주요한 코딩된 픽처는 유효 비트스트림들의 디코딩 프로세스에서 사용되는 반면, 중복적인 코딩된 픽처는 주요한 코딩된 픽처가 성공적으로 디코딩되지 못할 때만 디코딩되어야 하는 중복 표현이다. 드래프트 HEVC에서는, 중복적인 코딩된 픽처가 지정되지 않았다.
H.264/AVC에서, 액세스 유닛은 주요한 코딩된 픽처 및 그와 관련된 NAL 유닛들을 포함한다. H.264/AVC에서, 액세스 유닛 내의 NAL 유닛들의 출현 순서는 다음과 같이 강제된다. 옵션인 액세스 유닛 디리미터 NAL 유닛은 액세스 유닛의 시작을 표시할 수 있다. 이것에는 0개 이상의 SEI NAL 유닛이 이어진다. 주요한 코딩된 픽처의 코딩된 슬라이스들이 다음에 나타난다. H.264/AVC에서, 주요한 코딩된 픽처의 코딩된 슬라이스에는 0개 이상의 중복적인 코딩된 픽처에 대한 코딩된 슬라이스들이 이어질 수 있다. 중복적인 코딩된 픽처는 픽처 또는 픽처의 일부의 코딩된 표현이다. 중복적인 코딩된 픽처는 주요한 코딩된 픽처가 예를 들어 전송의 손실 또는 물리적 저장 매체의 손상으로 인해 디코더에 의해 수신되지 못하는 경우에 디코딩될 수 있다.
H.264/AVC에서, 액세스 유닛은 보조적인 코딩된 픽처도 포함할 수 있으며, 이는 주요한 코딩된 픽처를 보완하는 픽처이고, 예를 들어 디스플레이 프로세스에서 사용될 수 있다. 보조적인 코딩된 픽처는 예를 들어 디코딩된 픽처들 내의 샘플들의 투명 레벨을 지정하는 알파 채널 또는 알파 평면으로 사용될 수 있다. 알파 채널 또는 평면은 계층화된 조성 또는 렌더링 시스템에서 사용될 수 있으며, 이러한 시스템에서 출력 픽처는 서로의 위에서 적어도 부분적으로 투명한 픽처들을 오버레이함으로써 형성된다. 보조적인 코딩된 픽처는 단색 중복적인 코딩된 픽처와 동일한 신택스 및 시맨틱 제한들을 갖는다. H.264/AVC에서, 보조적인 코딩된 픽처는 주요한 코딩된 픽처와 동일한 수의 매크로블록을 포함한다.
HEVC에서, 액세스 유닛은 NAL 유닛들의 세트로서 정의될 수 있으며, 이들은 지정된 분류 규칙에 따라 서로 관련되고, 디코딩 순서에서 연속적이고, 정확하게 하나의 코딩된 픽처를 포함한다. 코딩된 픽처의 VCL NAL 유닛들을 포함하는 것에 더하여, 액세스 유닛은 논-VCL NAL 유닛들도 포함할 수 있다. 액세스 유닛의 디코딩은 디코딩된 픽처를 항상 생성한다.
H.264/AVC에서, 코딩된 비디오 시퀀스는 디코딩 순서에서 IDR 액세스 유닛(포함됨)으로부터 더 일찍 나타나는 다음 IDR 액세스 유닛(제외됨) 또는 비트스트림의 끝까지의 연속적인 액세스 유닛들의 시퀀스로서 정의된다. 드래프트 HEVC 표준에서, 코딩된 비디오 시퀀스는 디코딩 순서에서 비트스트림 내의 제1 액세스 유닛인 CRA 액세스 유닛, IDR 액세스 유닛 또는 BLA 액세스 유닛, 이어서 모든 후속 액세스 유닛들을 포함하지만 임의의 후속 IDR 또는 BLA 액세스 유닛을 포함하지 않는 0개 이상의 논-IDR 및 논-BLA 액세스 유닛으로 구성되는 액세스 유닛들의 시퀀스로서 정의된다.
픽처들의 그룹(GOP) 및 그의 특성들은 다음과 같이 정의될 수 있다. GOP는 임의의 이전의 픽처들이 디코딩되었는지에 관계없이 디코딩될 수 있다. 열린 GOP는 열린 GOP의 최초 인트라 픽처로부터 디코딩이 시작될 때 출력 순서에서 최초 인트라 픽처에 앞서는 픽처들이 올바르게 디코딩되지 못할 수 있는 그러한 픽처들의 그룹이다. 즉, 열린 GOP의 픽처들은 (인터 예측에서) 이전 GOP에 속하는 픽처들을 참조할 수 있다. H.264/AVC 디코더는 H.264/AVC 비트스트림 내의 복구 포인트 SEI 메시지로부터 열린 GOP를 시작하는 인트라 픽처를 인식할 수 있다. HEVC 디코더는 열린 GOP를 시작하는 인트라 픽처를 인식할 수 있는데, 그 이유는 특정 NAL 유닛 타입인 CRA NAL 유닛 타입이 그의 코딩된 슬라이스들에 대해 사용될 수 있기 때문이다. 닫힌 GOP는 닫힌 GOP의 최초 인트라 픽처로부터 디코딩이 시작될 때 모든 픽처들이 올바르게 디코딩될 수 있는 그러한 픽처들의 그룹이다. 즉, 닫힌 GOP 내의 어떠한 픽처도 이전 GOP들 내의 어떠한 픽처도 참조하지 않는다. H.264/AVC 및 HEVC에서, 닫힌 GOP는 IDR 액세스 유닛으로부터 시작하는 것으로 간주될 수 있다. 결과적으로, 닫힌 GOP 구조는 열린 GOP 구조에 비해 그러나 압축 효율의 가능한 감소의 대가로 더 큰 에러 회복 잠재력을 갖는다. 열린 GOP 코딩 구조는 참조 픽처들의 선택에 있어서의 더 큰 유연성으로 인해 압축에 있어서 잠재적으로 더 효율적이다.
H.264/AVC 및 HEVC의 비트스트림 신택스는 특정 픽처가 임의의 다른 픽처의 인터 예측을 위한 참조 픽처인지를 표시한다. 임의의 코딩 타입(I, P, B)의 픽처들은 H.264/AVC 및 HEVC에서 참조 픽처들 또는 비참조 픽처들일 수 있다.
H.264/AVC은 디코더에서의 메모리 소비를 제어하기 위해 디코딩된 참조 픽처 마킹을 위한 프로세스를 지정한다. M으로 지칭되는, 인터 예측에 사용되는 참조 픽처들의 최대 수는 시퀀스 파라미터 세트 내에서 결정된다. 참조 픽처가 디코딩될 때, 이것은 "참조에 사용"으로 마킹된다. 참조 픽처의 디코딩이 "참조에 사용"으로 마킹된 M개보다 많은 픽처를 유발한 경우, 적어도 하나의 픽처가 "참조에 사용되지 않음"으로 마킹된다. 디코딩된 참조 픽처 마킹을 위한 두 가지 타입의 동작: 적응 메모리 제어 및 슬라이딩 윈도가 존재한다. 디코딩된 참조 픽처 마킹을 위한 동작 모드는 픽처에 기초하여 선택된다. 적응 메모리 제어는 어느 픽처들이 "참조에 사용되지 않음"으로 마킹되는지에 대한 명확한 시그널링을 가능하게 하며, 또한 장기 인덱스들을 단기 참조 픽처들에 할당할 수 있다. 적응 메모리 제어는 비트스트림 내의 메모리 관리 제어 동작(MMCO) 파라미터들의 존재를 필요로 할 수 있다. MMCO 파라미터들은 디코딩된 참조 픽처 마킹 신택스 구조 내에 포함될 수 있다. 슬라이딩 윈도 동작 모드가 사용되고, "참조로 사용"으로 마킹된 M개의 픽처가 존재하는 경우, "참조로 사용"으로 마킹된 단기 참조 픽처들 중 제1의 디코딩된 픽처인 단기 참조 픽처는 "참조에 사용되지 않음"으로 마킹된다. 즉, 슬라이딩 윈도 동작 모드는 단기 참조 픽처들 간의 선입선출 동작을 유발한다.
H.264/AVC에서의 메모리 관리 제어 동작들 중 하나는 현재 픽처를 제외한 모든 참조 픽처들이 "참조에 사용되지 않음"으로 마킹되게 한다. 순간 디코딩 리프레시(IDR) 픽처는 인트라 코딩된 슬라이스들만을 포함하며, 참조 픽처들의 유사한 "리셋"을 유발한다.
드래프트 HEVC 표준에서는, 참조 픽처 마킹 신택스 구조들 및 관련 디코딩 프로세스들이 사용되지 않는 대신, 참조 픽처 세트(RPS) 신택스 구조 및 디코딩 프로세스가 유사한 목적에 대신 사용된다. 픽처에 대해 유효하거나 활성인 참조 픽처 세트는 픽처에 대한 참조로서 사용되는 모든 참조 픽처들 및 디코딩 순서에서의 임의의 후속 픽처들에 대해 "참조로 사용"으로 계속 마킹되는 모든 참조 픽처들을 포함한다. 참조 픽처 세트의 6개의 서브세트가 존재하며, 이들은 RefPicSetStCurrO, RefPicSetStCurr1, RefPicSetStFollO, RefPicSetStFoll1, RefPicSetLtCurr 및 RefPicSetLtFoll로서 지칭된다. 6개의 서브세트의 표기법은 다음과 같다. "Curr"은 현재 픽처의 참조 픽처 리스트들 내에 포함되어 현재 픽처에 대한 인터 예측 참조로서 사용될 수 있는 참조 픽처들을 지칭한다. "Foll"은 현재 픽처의 참조 픽처 리스트들 내에 포함되지 않지만 디코딩 순서에서의 후속 픽처들에서 참조 픽처들로서 사용될 수 있는 참조 픽처들을 지칭한다. "St"는 자신들의 POC 값의 소정 수의 최하위 비트를 통해 일반적으로 식별될 수 있는 단기 참조 픽처들을 지칭한다. "Lt"는 고유하게 식별될 수 있고 일반적으로 전술한 소정 수의 최하위 비트에 의해 표현될 수 있는 것보다 현재 픽처에 대한 POC 값들의 더 큰 차이를 갖는 장기 참조 픽처들을 지칭한다. "0"은 현재 픽처보다 작은 POC 값을 갖는 참조 픽처들을 지칭한다. "1"은 현재 픽처보다 큰 POC 값을 갖는 참조 픽처들을 지칭한다. RefPicSetStCurrO, RefPicSetStCurr1, RefPicSetStFollO 및 RefPicSetStFoll1은 공동으로 참조 픽처 세트의 단기 서브세트로서 지칭된다. RefPicSetLtCurr 및 RefPicSetLtFoll은 공동으로 참조 픽처 세트의 장기 서브세트로서 지칭된다.
드래프트 HEVC 표준에서, 참조 픽처 세트는 시퀀스 파라미터 세트에서 지정되고, 참조 픽처 세트에 대한 인덱스를 통해 슬라이스 헤더에서 사용될 수 있다. 참조 픽처 세트는 슬라이스 헤더에서도 지정될 수 있다. 참조 픽처 세트의 장기 서브세트는 일반적으로 슬라이스 헤더에서만 지정되는 반면, 동일 참조 픽처 세트의 단기 서브세트들은 픽처 파라미터 세트 또는 슬라이스 헤더에서 지정될 수 있다. 참조 픽처 세트는 독립적으로 코딩될 수 있거나, 다른 참조 픽처 세트로부터 예측될 수 있다(인터 RPS 예측으로 알려짐). 참조 픽처 세트가 독립적으로 코딩될 때, 신택스 구조는 상이한 타입의 참조 픽처들: 현재 픽처보다 낮은 POC 값을 갖는 단기 참조 픽처들, 현재 픽처보다 높은 POC 값을 갖는 단기 참조 픽처들 및 장기 참조 픽처들에 걸쳐 반복되는 최대 3개의 루프를 포함한다. 각각의 루프 엔트리는 "참조로서 사용"으로 마킹될 픽처를 지정한다. 일반적으로, 픽처는 차별적인 POC 값을 이용하여 지정된다. 인터 RPS 예측은 현재 픽처의 참조 픽처 세트가 이전에 디코딩된 픽처의 참조 픽처 세트로부터 예측될 수 있다는 사실을 이용한다. 이것은 현재 픽처의 모든 참조 픽처들이 이전 픽처의 참조 픽처들 또는 이전에 디코딩된 픽처 자체이기 때문이다. 이러한 픽처들 중 어느 것이 참조 픽처들이어야 하고 현재 픽처의 예측에 사용되어야 하는지를 표시하는 것만이 필요하다. 양 타입의 참조 픽처 세트 코딩에서, 각각의 참조 픽처에 대해, 참조 픽처가 현재 픽처에 의해 참조로 사용되는지(*Curr 리스트 내에 포함되는지) 또는 사용되지 않는지(*Fall 리스트 내에 포함되는지)를 표시하는 플래그(used_by_curr_pic_X_flag)가 더 전송된다. 현재 슬라이스에 의해 사용되는 참조 픽처 세트 내에 포함되는 픽처들은 "참조로 사용"으로 마킹되며, 현재 슬라이스에 의해 사용되는 참조 픽처 세트 내에 포함되지 않는 픽처들은 "참조로 사용되지 않음"으로 마킹된다. 현재 픽처가 IDR 픽처인 경우, RefPicSetStCurrO, RefPicSetStCurr1, RefPicSetStFollO, RefPicSetStFoll1, RefPicSetLtCurr 및 RefPicSetLtFoll 모두가 공백으로 설정된다.
디코딩된 픽처 버퍼(DPB)가 인코더 및/또는 디코더에서 사용될 수 있다. 디코딩된 픽처들을 버퍼링하는 두 가지 이유가 존재하는데, 하나는 인터 예측에서의 참조를 위한 것이고, 다른 하나는 디코딩된 픽처들을 출력 순서로 렌더링하기 위한 것이다. H.264/AVC 및 HEVC가 참조 픽처 마킹 및 출력 렌더링 양자에 대한 큰 유연성을 제공함에 따라, 참조 픽처 버퍼링 및 출력 픽처 버퍼링을 위한 개별 버퍼들은 메모리 자원들을 낭비할 수 있다. 따라서, DPB는 참조 픽처들 및 출력 렌더링을 위한 통합된 디코딩된 픽처 버퍼링 프로세스를 포함할 수 있다. 디코딩된 픽처는 참조로서 더 이상 사용되지 않고 출력에 필요하지 않을 때 DPB로부터 제거될 수 있다.
H.264/AVC 및 HEVC의 많은 코딩 모드에서, 인터 예측을 위한 참조 픽처는 참조 픽처 리스트에 대한 인덱스를 이용하여 표시된다. 인덱스는 가변 길이 코딩을 이용하여 코딩될 수 있으며, 이는 통상적으로 더 작은 인덱스가 대응하는 신택스 요소에 대해 더 짧은 값을 갖게 한다. H.264/AVC 및 HEVC에서, 각각의 쌍예측 (B) 슬라이스에 대해 2개의 참조 픽처 리스트(참조 픽처 리스트 0 및 참조 픽처 리스트 1)가 형성되며, 각각의 인터 코딩된 (P) 슬라이스에 대해 하나의 참조 픽처 리스트(참조 픽처 리스트 0)가 형성된다. 게다가, 드래프트 HEVC 표준에서의 B 슬라이스에 대해, 최종 참조 픽처 리스트들(리스트 0 및 리스트 1)이 형성된 후에 결합 리스트(리스트 C)가 형성된다. 결합 리스트는 B 슬라이스들 내에서의 (단방향 예측으로도 알려진) 단예측에 사용될 수 있다. HEVC 표준의 일부 후속 드래프트들에서는, 결합 리스트가 제거되었다.
참조 픽처 리스트 0 및 참조 픽처 리스트 1과 같은 참조 픽처 리스트는 통상적으로 2개의 단계에서 형성되는데, 첫째, 최초 참조 픽처 리스트가 생성된다. 최초 참조 픽처 리스트는 예를 들어 frame_num, POC, temporal_id, 또는 GOP 구조와 같은 예측 계층구조에 관한 정보, 또는 이들의 임의 조합에 기초하여 생성될 수 있다. 둘째, 최초 참조 픽처 리스트는 슬라이스 헤더 내에 포함될 수 있는 참조 픽처 리스트 변경 신택스 구조로도 알려진 참조 픽처 리스트 재배열(RPLR) 명령들에 의해 재배열될 수 있다. H.264/AVC에서, RPLR 명령들은 각각의 참조 픽처 리스트의 시작에 배열되는 픽처들을 표시한다. 이러한 제2 단계는 참조 픽처 리스트 변경 프로세스로도 지칭될 수 있으며, RPLR 명령들은 참조 픽처 리스트 변경 신택스 구조 내에 포함될 수 있다. 참조 픽처 세트들이 사용되는 경우, 참조 픽처 리스트 0은 먼저 RefPicSetStCurr0, 이어서 RefPicSetStCurr1, 이어서 RefPicSetLtCurr을 포함하도록 초기화될 수 있다. 참조 픽처 리스트 1은 먼저 RefPicSetStCurr1, 이어서 RefPicSetStCurr0을 포함하도록 초기화될 수 있다. HEVC에서, 최초 참조 픽처 리스트들은 참조 픽처 리스트 변경 신택스 구조를 통해 변경될 수 있으며, 여기서 최초 참조 픽처 리스트들 내의 픽처들은 리스트에 대한 엔트리 인덱스를 통해 식별될 수 있다. 즉, HEVC에서, 참조 픽처 리스트 변경은 최종 참조 픽처 리스트 내의 각각의 엔트리에 걸치는 루프를 포함하는 신택스 구조 내에 인코딩되며, 각각의 루프 엔트리는 최초 참조 픽처 리스트에 대한 고정 길이 코딩된 인덱스이고, 최종 참조 픽처 리스트 내의 위치 오름차순의 픽처를 표시한다.
H.264/AVC 및 HEVC를 포함하는 많은 코딩 표준은 다수의 참조 픽처 중 어느 것이 특정 블록에 대한 인터 예측에 사용되는지를 표시하는 데 사용될 수 있는 참조 픽처 리스트에 대한 참조 픽처 인덱스를 도출하기 위한 디코딩 프로세스들을 가질 수 있다. 참조 픽처 인덱스는 일부 인터 코딩 모드들에서 인코더에 의해 비트스트림 내에 코딩될 수 있거나, 일부 다른 인터 코딩 모드들에서 (인코더 및 디코더에 의해) 예를 들어 이웃 블록들을 이용하여 도출될 수 있다.
비트스트림들에서 모션 벡터들을 효율적으로 표현하기 위해, 모션 벡터들은 블록 고유 예측 모션 벡터에 관해 차별적으로 코딩될 수 있다. 많은 비디오 코덱에서, 예측 모션 벡터들은 사전 정의된 방식으로, 예로서 인접 블록들의 인코딩 또는 디코딩된 모션 벡터들의 중앙값을 계산함으로써 생성된다. 때때로 고급 모션 벡터 예측(AMVP)으로 지칭되는, 모션 벡터 예측들을 생성하기 위한 다른 방식은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들로부터 후보 예측들의 리스트를 생성하고, 선택된 후보를 모션 벡터 예측자로서 시그널링하는 것이다. 모션 벡터 값들을 예측하는 것에 더하여, 이전에 코딩/디코딩된 픽처의 참조 인덱스가 예측될 수 있다. 참조 인덱스는 통상적으로 시간 참조 픽처 내의 인접 블록들 및/또는 병치 블록들로부터 예측된다. 모션 벡터들의 차별 코딩은 통상적으로 슬라이스 경계들에 대해서는 불능화된다.
고급 모션 벡터 예측(AMVP) 등은 예를 들어 다음과 같이 동작할 수 있지만, 예를 들어 상이한 후보 위치 세트들 및 후보 위치 세트들과 관련된 후보 위치들을 이용하는 고급 모션 벡터 예측의 다른 유사한 구현들도 가능하다. 2개의 공간 모션 벡터 예측자(MVP)가 도출될 수 있고, 하나의 시간 모션 벡터 예측자(TMVP)가 도출될 수 있다. 그들은 위치들: 현재 예측 블록 위에 위치하는 3개의 공간 모션 벡터 예측자 후보 위치(B0, B1, B2) 및 좌측의 2개의 위치(A0, A1) 중에서 선택될 수 있다. 각각의 후보 위치 세트 (B0, B1, B2) 또는 (A0, A1)의 사전 정의된 순서로 이용 가능한(예로서, 동일 슬라이스 내에 존재하거나, 인터 코딩되거나, 기타 등등인) 제1 모션 벡터 예측자는 모션 벡터 경쟁에서 해당 예측 방향(위쪽 또는 좌측)을 나타내도록 선택될 수 있다. 시간 모션 벡터 예측자에 대한 참조 인덱스는 인코더에 의해 슬라이스 헤더 내에(예로서, collocated_ref_idx 신택스 요소로서) 표시될 수 있다. 병치 픽처로부터 획득된 모션 벡터는 시간 모션 벡터 예측자의 참조 픽처, 병치 픽처 및 현재 픽처의 픽처 순서 카운트 차이들의 비율들에 따라 스케일링될 수 있다. 더욱이, 후보 리스트 내의 제로 모션 벡터의 포함을 유발할 수 있는 동일 후보들을 제거하기 위해 후보들 중에서 중복 검사가 수행될 수 있다. 모션 벡터 예측자는 비트스트림 내에서, 예를 들어 공간 모션 벡터 예측자의 방향(위쪽 또는 좌측) 또는 시간 모션 벡터 예측자 후보의 선택을 표시함으로써 표시될 수 있다.
드래프트 HEVC 코덱과 같은 많은 고효율 비디오 코덱은 병합하기/병합 모드/프로세스/메커니즘으로 종종 지칭되는 추가적인 모션 정보 코딩/디코딩 메커니즘을 이용하며, 여기서는 블록/PU의 모든 모션 정보가 예측되고 어떠한 변경/수정도 없이 사용된다. PU에 대한 전술한 모션 정보는 1) 'PU가 참조 픽처 리스트 0만을 이용하여 단예측되는지' 또는 'PU가 참조 픽처 리스트 1만을 이용하여 단예측되는지' 또는 'PU가 참조 픽처 리스트 0 및 리스트 1 양자를 이용하여 쌍예측되는지'에 대한 정보; 2) 수평 및 수직 모션 벡터 컴포넌트를 포함할 수 있는 참조 픽처 리스트 0에 대응하는 모션 벡터 값; 3) 참조 픽처 리스트 0 내의 참조 픽처 인덱스 및/또는 참조 픽처 리스트 0에 대응하는 모션 벡터에 의해 표시되는 참조 픽처의 식별자 - 참조 픽처의 식별자는 예를 들어 픽처 순서 카운트 값, (인터 계층 예측을 위한) 계층 식별자 값, 또는 픽처 순서 카운트 값과 계층 식별자 값의 쌍일 수 있음 -; 4) 참조 픽처의 참조 픽처 마킹의 정보, 예로서 참조 픽처가 "단기 참조에 사용" 또는 "장기 참조에 사용"으로 마킹되었는지에 대한 정보; 5) - 7) 각각 2) - 4)와 동일하지만, 참조 픽처 리스트 1에 대한 것들 중 하나 이상을 포함할 수 있다. 유사하게, 모션 정보의 예측은 시간 참조 픽처들 내의 인접 블록들 및/또는 병치 블록들의 모션 정보를 이용하여 실행된다. 병합 리스트로서 종종 지칭되는 리스트가 이용 가능한 인접/병치 블록들과 관련된 모션 예측 후보들을 포함함으로써 형성되며, 리스트 중의 선택된 모션 예측 후보의 인덱스가 시그널링되고, 선택된 후보의 모션 정보가 현재 PU의 모션 정보로 복사된다. 병합 메커니즘이 전체 CU에 대해 이용되고, CU에 대한 예측 신호가 재구성 신호로 사용될 때, 즉 예측 오차가 프로세싱되지 않을 때, 이러한 타입의 CU 코딩/디코딩은 통상적으로 생략 모드 또는 병합 기반 생략 모드로 지칭된다. 생략 모드에 더하여, 병합 메커니즘은 (생략 모드에서와 같이 반드시 전체 CU에 대해서는 아니고) 개별 PU들에 대해서도 이용될 수 있으며, 이 경우에 예측 오차는 예측 품질을 개선하는 데 사용될 수 있다. 이러한 타입의 예측 모드는 인터 병합 모드로 지칭될 수 있다.
병합 리스트 내의 후보들 중 하나는 TMVP 후보일 수 있으며, 이는 예를 들어 collocated_ref_idx 신택스 요소 등을 이용하여 예를 들어 슬라이스 헤더에서 표시되는 참조 픽처와 같은 표시 또는 추정된 참조 픽처 내의 병치 블록으로부터 도출될 수 있다.
HEVC에서, 병합 리스트에서의 시간 모션 벡터 예측을 위한 소위 타겟 참조 인덱스는 모션 코딩 모드가 병합 모드일 때 0으로 설정된다. 시간 모션 벡터 예측을 이용하는 HEVC에서의 모션 코딩 모드가 고급 모션 벡터 예측 모드일 때, 타겟 참조 인덱스 값들은 (예로서, 각각의 PU에 대해) 명시적으로 표시된다.
타겟 참조 인덱스 값들이 결정된 때, 시간 모션 벡터 예측의 모션 벡터 값은 다음과 같이 도출될 수 있는데, 즉 현재 예측 유닛의 우하 이웃과 병치되는 블록에서의 모션 벡터가 계산된다. 병치 블록이 존재하는 픽처는 예를 들어 전술한 바와 같이 슬라이스 헤더 내의 시그널링된 참조 인덱스에 따라 결정될 수 있다. 병치 블록에서의 결정된 모션 벡터는 제1 픽처 순서 카운트 차이와 제2 픽처 순서 카운트 차이의 비율에 관해 스케일링된다. 제1 픽처 순서 카운트 차이는 병치 블록을 포함하는 픽처와 병치 블록의 모션 벡터의 참조 픽처 사이에서 도출된다. 제2 픽처 순서 카운트 차이는 현재 픽처와 타겟 참조 픽처 사이에서 도출된다. 타겟 참조 픽처, 및 병치 블록의 모션 벡터의 참조 픽처 중 양자가 아니라 하나가 장기 참조 픽처인 경우(반면, 나머지는 단기 참조 픽처인 경우), TMVP 후보는 이용 불가능한 것으로 간주될 수 있다. 타겟 참조 픽처, 및 병치 블록의 모션 벡터의 참조 픽처 양자가 장기 참조 픽처들인 경우, POC 기반 모션 벡터 스케일링이 적용되지 않을 수 있다.
스케일링 가능 비디오 코딩은 하나의 비트스트림이 상이한 비트 레이트들, 해상도들 또는 프레임 레이트들에서의 콘텐츠의 다수의 표현을 포함할 수 있는 코딩 구조를 지칭한다. 이러한 예들에서, 수신기는 그의 특성들(예로서, 디스플레이 디바이스와 가장 잘 매칭되는 해상도)에 따라 원하는 표현을 추출할 수 있다. 대안으로서, 서버 또는 네트워크 요소는 예를 들어 네트워크 특성들 또는 수신기의 프로세싱 능력들에 따라 수신기로 전송될 비트스트림의 부분들을 추출할 수 있다. 스케일링 가능 비트스트림은 통상적으로 이용 가능한 최저 품질 비디오를 제공하는 "기본 계층" 및 더 낮은 계층들과 함께 수신 및 디코딩될 때 비디오 품질을 향상시키는 하나 이상의 향상 계층으로 구성된다. 향상 계층들에 대한 코딩 효율을 개선하기 위해, 그러한 계층의 코딩된 표현은 통상적으로 더 낮은 계층들에 의존한다. 예를 들어, 향상 계층의 모션 및 모드 정보는 더 낮은 계층들로부터 예측될 수 있다. 유사하게, 더 낮은 계층들의 픽셀 데이터는 향상 계층에 대한 예측을 생성하는 데 사용될 수 있다.
일부 스케일링 가능 비디오 코딩 방안들에서는, 비디오 신호가 기본 계층 및 하나 이상의 향상 계층 내에 인코딩될 수 있다. 향상 계층은 다른 계층 또는 그 일부에 의해 표현되는 비디오 콘텐츠의 시간 해상도(즉, 프레임 레이트), 공간 해상도 또는 단순히 품질을 향상시킬 수 있다. 각각의 계층은 모든 그의 종속 계층들과 함께 소정의 공간 해상도, 시간 해상도 및 품질 레벨에서의 비디오 신호의 일 표현이다. 본 명세서에서는 스케일링 계층을 모든 그의 종속 계층들과 함께 "스케일링 가능 계층 표현"으로서 지칭한다. 스케일링 가능 계층 표현에 대응하는 스케일링 가능 비트스트림의 부분을 추출 및 디코딩하여 오리지널 신호의 표현을 소정의 충실도로 생성할 수 있다.
일부 코딩 표준들은 스케일링 가능 비트스트림들의 생성을 허용한다. 스케일링 가능 비트스트림의 소정 부분들만을 디코딩함으로써 의미 있는 디코딩된 표현이 생성될 수 있다. 스케일링 가능 비트스트림들은 예를 들어 스트리밍 서버에서의 사전 인코딩된 유니캐스트 스트림들의 레이트 적응을 위해 그리고 상이한 능력들 및/또는 상이한 네트워크 조건들을 갖는 단말기들로의 단일 비트스트림의 전송을 위해 사용될 수 있다.
일부 예들에서, 향상 계층 내의 데이터는 소정의 위치 뒤에서 또는 심지어는 임의의 위치들에서 절단될 수 있으며, 각각의 절단 위치는 더욱 향상된 시각적 품질을 나타내는 추가 데이터를 포함할 수 있다. 그러한 스케일링 가능성은 미세 입자(입도) 스케일링 가능성(FGS)으로 지칭된다.
SVC는 인터 계층 예측 메커니즘을 이용하며, 여기서는 소정 정보가 현재 재구성된 계층 또는 다음의 더 낮은 계층이 아닌 다른 계층들로부터 예측될 수 있다. 인터 계층 예측될 수 있는 정보는 인트라 텍스처, 모션 및 오차 데이터를 포함한다. 인터 계층 모션 예측은 블록 코딩 모드, 헤더 정보, 블록 분할 등의 예측을 포함하며, 더 낮은 계층으로부터의 모션이 더 높은 계층의 예측에 사용될 수 있다. 인트라 코딩의 경우, 주위의 매크로블록들로부터의 또는 더 낮은 계층들의 병치 매크로블록들로부터의 예측이 가능하다. 이러한 예측 기술들은 이전에 코딩된 액세스 유닛들부터의 정보를 이용하지 않으며, 따라서 인트라 예측 기술들로서 지칭된다. 더구나, 더 낮은 계층들로부터의 오차 데이터가 현재 계층의 예측에 사용될 수도 있다.
SVC는 단일 루프 디코딩으로 알려진 개념을 지정한다. 이것은 제한된 인트라 텍스처 예측 모드를 이용하여 가능해지면, 따라서 인터 계층 인트라 텍스처 예측은 기본 계층의 대응하는 블록이 인트라 MB들 내에 위치하는 매크로블록들(MB들)에 적용될 수 있다. 동시에, 기본 계층 내의 그러한 인트라 MB들은 (예로서, 1과 동일한 신택스 요소 "constrained_intra_pred_flag"를 갖는) 제한된 인트라 예측을 이용한다. 단일 루프 디코딩에서, 디코더는 ("원하는 계층" 또는 "타겟 계층"으로 지칭되는) 재생에 필요한 스케일링 가능 계층에 대해서만 모션 보상 및 완전 픽처 재구성을 수행하며, 따라서 디코딩 복잡성을 크게 줄인다. 원하는 계층이 아닌 다른 모든 계층들은 완전히 디코딩될 필요가 없는데, 그 이유는 인터 계층 예측(예로서, 인터 계층 인트라 텍스처 예측, 인터 계층 모션 예측 또는 인터 계층 오차 예측)에 사용되지 않는 MB들의 전부 또는 일부가 원하는 계층의 재구성에 필요하지 않기 때문이다.
대부분의 픽처들의 디코딩을 위해 단일 디코딩 루프가 요구되지만, 예측 참조들로서 요구되지만 출력 또는 표시를 위해서는 요구되지 않고, ("store_ref_base_pic_flag"가 1인) 소위 키 픽처들에 대해서만 재구성되는 기본 표현들을 재구성하기 위해 제2 디코딩 루프가 선택적으로 적용된다.
FGS는 SVC 표준의 일부 드래프트 버전들에 포함되었지만, 결국에는 최종 SVC 표준으로부터 제외되었다. FGS는 SVC 표준의 일부 드래프트 버전들과 관련하여 후속 설명된다. 절단될 수 없는 향상 계층들에 의해 제공되는 스케일링 가능성은 거친 입자(입도) 스케일링 가능성(CGS)으로 지칭된다. 이것은 공동으로 전통적인 품질(SNR) 스케일링 가능성 및 공간 스케일링 가능성을 포함한다. SVC 표준은 소위 중간 입자 스케일링 가능성(MGS)을 지원하며, 여기서는 품질 향상 픽처들이 SNR 스케일링 가능 계층 픽처들과 유사하게 코딩되지만, 0보다 큰 quality_id 신택스 요소를 가짐으로써 FGS 계층 픽처들과 유사하게 고레벨 신택스 요소에 의해 표시된다.
SVC 드래프트에서의 스케일링 가능성 구조는 3개의 신택스 요소: "temporal_id", "dependency_id" 및 "quality_id"에 의해 특화될 수 있다. 신택스 요소 "temporal_id"는 시간 스케일링 가능성 계층 구조 또는 간접적으로 프레임 레이트를 표시하는 데 사용된다. 더 작은 최대 "temporal_id" 값의 픽처들을 포함하는 스케일링 가능 계층 표현은 더 큰 최대 "temporal_id"의 픽처들을 포함하는 스케일링 가능 계층 표현보다 낮은 프레임 레이트를 갖는다. 주어진 시간 계층은 통상적으로 더 낮은 시간 계층들(즉, 더 작은 "temporal_id" 값들을 갖는 시간 계층들)에 의존하지만, 어떠한 더 높은 시간 계층에도 의존하지 않는다. 신택스 요소 "dependency_id"는 (전술한 바와 같이 SNR 및 공간 스케일링 가능성 양자를 포함하는) CGS 인터 계층 코딩 종속 계층 구조를 표시하는 데 사용된다. 임의의 시간 레벨 위치에서, 더 작은 "dependency_id" 값의 픽처는 더 큰 "dependency_id" 값을 갖는 픽처의 코딩을 위한 인터 계층 예측을 위해 사용될 수 있다. 신택스 요소 "quality_id"는 FGS 또는 MGS 계층의 품질 레벨 계층 구조를 표시하는 데 사용된다. 임의의 시간 위치에서 그리고 동일한 "dependency_id" 값과 관련하여, QL과 동일한 "quality_id"를 갖는 픽처는 인터 계층 예측을 위해 QL-1과 동일한 "quality_id"를 갖는 픽처를 이용한다. 0보다 큰 "quality_id"를 갖는 코딩된 슬라이스는 절단 가능 FGS 슬라이스 또는 절단 불가 MGS 슬라이스로서 코딩될 수 있다.
간소화를 위해, "dependency_id"의 동일 값을 갖는 하나의 액세스 유닛 내의 모든 데이터 유닛들(예로서, SVC와 관련된 네트워크 추상화 계층 유닛들, 즉 NAL 유닛들)은 종속 유닛 또는 종속 표현으로 지칭된다. 하나의 종속 유닛 내에서, "quality_id"의 동일 값을 갖는 모든 데이터 유닛들은 품질 유닛 또는 계층 표현으로 지칭된다.
디코딩된 기본 픽처로도 알려진 기본 표현은 0과 동일한 "quality_id"를 갖고 "store_ref_base_pic_flag"가 1로 설정되는 종속 유닛의 비디오 코딩 계층(VCL) NAL 유닛들의 디코딩으로부터 생성되는 디코딩된 픽처이다. 디코딩된 픽처로도 참조되는 향상 표현은 최고 종속 표현을 위해 존재하는 모든 계층 표현들을 디코딩하는 정규 디코딩 프로세스로부터 생성된다.
전술한 바와 같이, CGS는 공간 스케일링 가능성 및 SNR 스케일링 가능성을 포함한다. 공간 스케일링 가능성은 처음에 상이한 해상도들을 갖는 비디오의 표현들을 지원하도록 설계된다. 각각의 시간 인스턴스에 대해, VCL NAL 유닛들은 동일 액세스 유닛 내에 인코딩되며, 이러한 VCL NAL 유닛들은 상이한 해상도들에 대응할 수 있다. 디코딩 동안, 저해상도 VCL NAL 유닛은 고해상도 픽처의 최종 디코딩 및 재구성에 의해 옵션으로서 상속될 수 있는 모션 필드 및 오차를 제공한다. 이전의 비디오 압축 표준들에 비해, SVC의 공간 스케일링 가능성은 기본 계층이 향상 계층의 크로핑 및 줌잉된 버전이 되는 것을 가능하게 하도록 일반화되었다.
MGS 품질 계층들은 FGS 품질 계층들과 유사하게 "quality_id"를 이용하여 표시된다. (동일한 "dependency_id"를 갖는) 각각의 종속 유닛에 대해, 0과 동일한 "quality_id"를 갖는 계층이 존재하고, 0보다 큰 "quality_id"를 갖는 다른 계층들이 존재할 수 있다. 0보다 큰 "quality_id"를 갖는 이러한 계층들은 슬라이스들이 절단 가능 슬라이스들로서 코딩되는지에 따라 MGS 계층들 또는 FGS 계층들이다.
FGS 향상 계층들의 기본 형태에서는, 인터 계층 예측만이 사용된다. 따라서, FGS 향상 계층들은 디코딩된 시퀀스에서 어떠한 에러 전파도 유발하지 않고서 자유롭게 절단될 수 있다. 그러나, FGS의 기본 형태는 낮은 압축 효율을 갖는다. 이러한 문제는 저품질 픽처들만이 인터 예측 참조들을 위해 사용되기 때문에 발생한다. 따라서, FGS 향상 픽처들이 인터 예측 참조들로서 사용되는 것이 제안되었다. 그러나, 이것은 일부 FGS 데이터가 폐기될 때 드리프트로도 지칭되는 인코딩-디코딩 미스매치를 유발할 수 있다.
드래프트 SVC 표준의 하나의 특징은 FGS NAL 유닛들이 자유롭게 폐기 또는 절단될 수 있다는 것이며, SVC 표준의 특징은 MGS NAL 유닛들이 비트스트림의 적합성에 영향을 주지 않고서 자유롭게 폐기될 수 있다는 것이다(그러나 절단될 수는 없다). 전술한 바와 같이, 그러한 FGS 또는 MGS 데이터가 인코딩 동안 인터 예측 참조를 위해 사용된 때, 데이터의 폐기 또는 절단은 디코더 측에서 그리고 인코더 측에서 디코딩된 픽처들 간의 미스매치를 유발할 것이다. 미스매치는 드리프트로도 지칭된다.
FGS 또는 MGS 데이터의 폐기 또는 절단으로 인한 드리프트를 제어하기 위해, SVC는 다음의 솔루션을 적용하였다. 소정의 종속 유닛에서, 기본 표현이 (0과 동일한 "quality_id"를 갖는 CGS 픽처만을 그리고 모든 종속 하위 계층 데이터를 디코딩함으로써) 디코딩된 픽처 버퍼 내에 저장된다. "dependency_id"의 동일 값을 갖는 후속 종속 유닛을 인코딩할 때, FGS 또는 MGS NAL 유닛들을 포함하는 모든 NAL 유닛들은 인터 예측 참조를 위해 기본 표현을 이용한다. 결과적으로, 이전의 액세스 유닛 내의 FGS 또는 MGS NAL 유닛들의 폐기 또는 절단으로 인한 모든 드리프트가 이 액세스 유닛에서 중지된다. "dependency_id"의 동일 값을 갖는 다른 종속 유닛들에 대해, 모든 NAL 유닛들은 높은 디코딩 효율을 위해, 인터 예측 참조를 위해, 디코딩된 픽처들을 이용한다.
각각의 NAL 유닛은 NAL 유닛 헤더 내에 신택스 요소 "use_ref_base_pic_flag"를 포함한다. 이 요소의 값이 1과 동일할 때, NAL 유닛의 디코딩은 인터 예측 프로세스 동안 참조 픽처들의 기본 표현들을 사용한다. 신택스 요소 "use_ref_base_pic_flag"는 미래 픽처들이 인터 예측을 위해 사용하도록 현재 픽처의 기본 표현을 저장할지(1과 동일한 때) 또는 저장하지 않을지(0과 동일할 때)를 지정한다.
0보다 큰 "quality_id"를 갖는 NAL 유닛들은 참조 픽처 리스트 형성 및 가중 예측과 관련된 신택스 요소들을 포함하지 않는데, 즉 신택스 요소 "num_ref_active_lx_minus1"(x=0 또는 1), 참조 픽처 리스트 재배열 신택스 표 및 가중 예측 신택스 표가 존재하지 않는다. 결과적으로, MGS 또는 FGS 계층들은 필요할 때 동일 종속 유닛의 0과 동일한 "quality_id"를 갖는 NAL 유닛들로부터 이러한 신택스 요소들을 상속해야 한다.
SVC에서, 참조 픽처 리스트는 ("use_ref_base_pic_flag"가 1과 동일할 때) 기본 표현들만으로 또는 ("use_ref_base_pic_flag"가 0과 동일할 때) "기본 표현"으로 마킹되지 않은 디코딩된 픽처들만으로 구성되지만, 이들 양자는 결코 동시적은 아니다.
(신호 대 잡음비, 즉 SNR로도 알려진) 품질 스케일링 가능성 및/또는 공간 스케일링 가능성을 위한 스케일링 가능 비디오 코덱이 다음과 같이 구현될 수 있다. 기본 계층에 대해, 전통적인 스케일링 불가 비디오 인코더 및 디코더가 사용된다. 기본 계층의 재구성/디코딩된 픽처들은 향상 계층을 위해 참조 픽처 버퍼 내에 포함된다. 인터 예측을 위해 참조 픽처 리스트(들)를 사용하는 H.264/AVC, HEVC 및 유사한 코덱들에서, 기본 계층 디코딩된 픽처들은 향상 계층의 디코딩된 참조 픽처들과 유사하게 향상 계층 픽처의 코딩/디코딩을 위해 참조 픽처 리스트(들) 내에 삽입될 수 있다. 결과적으로, 인코더는 기본 계층 참조 픽처를 인터 예측 참조로서 선택하고, 코딩된 비트스트림 내의 참조 픽처 인덱스와 관련된 그의 사용을 표시할 수 있다. 디코더는 비트스트림으로부터, 예를 들어 참조 픽처 인덱스로부터, 기본 계층 픽처가 향상 계층에 대한 인터 예측 참조로서 사용된다는 것을 디코딩한다. 디코딩된 기본 계층 픽처가 향상 계층에 대한 예측 참조로 사용될 때, 이것은 인터 계층 참조 픽처로 지칭된다.
품질 스케일링 가능성에 더하여, 다음의 스케일링 가능성 모드들이 존재한다.
- 공간 스케일링 가능성: 기본 계층 픽처들은 향상 계층 픽처들보다 높은 해상도로 코딩된다.
- 비트 깊이 스케일링 가능성: 기본 계층 픽처들은 향상 계층 픽처들(예로서, 10 또는 12 비트)보다 낮은 비트 깊이(예로서, 8 비트)로 코딩된다.
- 크로마 포맷 스케일링 가능성: 기본 계층 픽처들은 향상 계층 픽처들(예로서, 4:2:0 포맷)보다 높은 (예로서, 4:4:4 크로마 포맷으로 코딩되는) 크로마 충실도를 제공한다.
- 컬러 범위 스케일링 가능성: 향상 계층 픽처들은 기본 계층 픽처들보다 풍부한/넓은 컬러 표현 범위를 가지며, 예를 들어 향상 계층은 UHDTV(ITU-R BT.2020) 컬러 범위를 가질 수 있고, 기본 계층은 ITU-R BT.709 컬러 범위를 가질 수 있다.
모든 위의 스케일링 가능성 예들에서, 기본 계층 정보는 추가 비트레이트 오버헤드를 최소화하도록 향상 계층을 코딩하는 데 사용될 수 있다.
스케일링 가능성은 두 가지 기본 방법으로 가능해질 수 있다. 이는 스케일링 가능 표현의 더 낮은 계층들로부터 픽셀 값들 또는 신택스의 예측을 수행하기 위한 새로운 코딩 모드들을 도입하거나, 더 높은 계층의 참조 픽처 버퍼(디코딩된 픽처 버퍼(DPB))에 더 낮은 계층 픽처들을 배치하는 것이다. 제1 접근법은 더 유연하며, 따라서 대부분의 경우에 더 양호한 코딩 효율을 제공할 수 있다. 그러나, 제2의 참조 프레임 기반 스케일링 가능성 접근법은 이용 가능한 코딩 효율 이득들의 대부분을 여전히 달성하면서 단일 계층 코덱들을 최소한으로 변경함으로써 매우 효율적으로 구현될 수 있다. 본질적으로, 참조 프레임 기반 스케일링 가능성 코덱은 모든 계층들에 대해 동일한 하드웨어 또는 소프트웨어 구현을 이용하여 단지 외부 수단에 의한 DPB 관리를 돌봄으로써 구현될 수 있다.
스케일링 가능 비디오 코딩 및/또는 디코딩 방안은 다음과 같이 특화될 수 있는 멀티 루프 코딩 및/또는 디코딩을 이용할 수 있다. 인코딩/디코딩에서, 기본 계층 픽처는 동일 계층 내에서 코딩/디코딩 순서로 후속 픽처들에 대한 모션 보상 참조 픽처로서 또는 인터 계층(또는 인터 뷰 또는 인터 컴포넌트) 예측을 위한 참조로서 사용되도록 재구성/디코딩될 수 있다. 재구성/디코딩된 기본 계층 픽처는 DPB 내에 저장될 수 있다. 향상 계층 픽처는 또한 동일 계층 내에서 코딩/디코딩 순서로 후속 픽처들에 대한 모션 보상 참조 픽처로서 또는 존재할 경우에 더 높은 향상 계층들에 대한 인터 계층(또는 인터 뷰 또는 인터 컴포넌트) 예측을 위한 참조로서 사용되도록 재구성/디코딩될 수 있다. 재구성/디코딩된 샘플 값들에 더하여, 기본/참조 계층의 신택스 요소 값들 및/또는 기본/참조 계층의 신택스 요소 값들로부터 도출된 변수들은 인터 계층/인터 컴포넌트/인터 뷰 예측에서 사용될 수 있다.
(신호 대 잡음비, 즉 SNR로도 알려진) 품질 스케일링 가능성 및/또는 공간 스케일링 가능성을 위한 스케일링 가능 비디오 인코더가 다음과 같이 구현될 수 있다. 기본 계층에 대해, 전통적인 스케일링 불가 비디오 인코더 및 디코더가 사용될 수 있다. 기본 계층의 재구성/디코딩된 픽처들은 향상 계층을 위해 참조 픽처 버퍼 및/또는 참조 픽처 리스트들 내에 포함된다. 공간 스케일링 가능성의 경우, 재구성/디코딩된 기본 계층 픽처는 향상 계층 픽처에 대한 참조 픽처 리스트들 내의 그의 삽입 전에 업샘플링될 수 있다. 기본 계층 디코딩된 픽처들은 향상 계층의 디코딩된 참조 픽처들과 유사하게 향상 계층 픽처의 코딩/디코딩을 위해 참조 픽처 리스트(들) 내에 삽입될 수 있다. 결과적으로, 인코더는 기본 계층 참조 픽처를 인터 예측 참조로서 선택하고, 코딩된 비트스트림 내의 참조 픽처 인덱스와 관련된 그의 사용을 표시할 수 있다. 디코더는 비트스트림으로부터, 예를 들어 참조 픽처 인덱스로부터, 기본 계층 픽처가 향상 계층에 대한 인터 예측 참조로서 사용된다는 것을 디코딩한다. 디코딩된 기본 계층 픽처가 향상 계층에 대한 예측 참조로 사용될 때, 이것은 인터 계층 참조 픽처로 지칭된다.
이전 단락은 향상 계층 및 기본 계층과 함께 2개의 스케일링 가능성 계층을 갖는 스케일링 가능 비디오 코덱을 설명하였지만, 설명은 2개보다 많은 계층을 갖는 스케일링 가능성 계층 구조 내의 임의의 2개 계층에 대해 일반화될 수 있다는 것을 이해하는 것이 필요하다. 이 경우, 제2 향상 계층은 인코딩 및/또는 디코딩 프로세스들에서 제1 향상 계층에 의존할 수 있으며, 따라서 제1 향상 계층은 제2 향상 계층의 인코딩 및/또는 디코딩을 위한 기본 계층으로 간주될 수 있다. 더구나, 향상 계층의 참조 픽처 버퍼 또는 참조 픽처 리스트들 내의 둘 이상의 계층으로부터의 인터 계층 참조 픽처들이 존재할 수 있고, 이러한 인터 계층 참조 픽처들 각각은 기본 계층 또는 인코딩 및/또는 디코딩되는 향상 계층에 대한 참조 계층 내에 존재하는 것으로 간주될 수 있다는 것을 이해하는 것이 필요하다.
HEVC 표준에 대한 스케일링 가능 및 멀티뷰 확장들을 지정하기 위한 작업이 진행중이다. MV-HEVC로서 지칭되는 HEVC의 멀티뷰 확장은 H.264/AVC의 MVC 확장과 유사하다. MVC와 유사하게, MV-HEVC에서, 인터 뷰 참조 픽처들은 코딩 또는 디코딩되는 현재 픽처의 참조 픽처 리스트(들) 내에 포함될 수 있다. SHVC로서 참조되는 HEVC의 스케일링 가능 확장은 (H.264/AVC의 SVC 확장과 달리) 그가 멀티루프 디코딩 동작을 이용하도록 지정되도록 계획된다. 일반적으로, 스케일링 가능성을 실현하기 위한 두 가지 설계가 SHVC에 대해 검토된다. 하나는 참조 인덱스 기반이며, 여기서는 인터 계층 참조 픽처가 (전술한 바와 같이) 코딩 또는 디코딩되는 현재 픽처의 하나 이상의 참조 픽처 리스트 내에 포함될 수 있다. 다른 하나는 IntraBL 또는 TextureRL로 지칭될 수 있으며, 여기서는 CU 레벨의 특정 코딩 모드가 향상 계층 픽처에서의 예측을 위해 참조 계층 픽처의 디코딩/재구성된 샘플 값들을 사용하기 위해 사용된다. SHVC 개발은 공간 및 거친 입자 품질 스케일링 가능성의 개발에 집중되었다.
MV-HEVC 및 참조 인덱스 기반 SHVC에 대해 많은 동일한 신택스 구조, 시맨틱 및 디코딩 프로세스를 사용하는 것이 가능하다. 더구나, 깊이 코딩에 대해서도 동일한 신택스 구조, 시맨틱 및 디코딩 프로세스를 사용하는 것이 가능하다. 이하, HEVC의 스케일링 가능 멀티뷰 확장(SMV-HEVC)은, 스케일링 가능성 타입에 관계없이 대체로 동일한 (디)코딩 도구들이 사용되고, 참조 인덱스 기반 접근법이 슬라이스 헤더 아래에서 신택스, 시맨틱 또는 디코딩 프로세스의 변경 없이 사용되는 코딩 프로세스, 디코딩 프로세스, 신택스 및 시맨틱을 지칭하는 데 사용된다. SMV-HEVC는 멀티뷰, 공간 및 거친 입자 품질 스케일링 가능성으로 제한되는 것이 아니라, 깊이 향상 비디오와 같은 다른 타입의 스케일링 가능성도 지원할 수 있다.
향상 계층 코딩에 대해, HEVC의 동일 개념들 및 코딩 도구들이 SHVC, MV-HEVC 및/또는 SMV-HEVC에서 사용될 수 있다. 그러나, 향상 계층을 효율적으로 코딩하기 위해 참조 계층에서 (재구성된 픽처 샘플들 및 모션 정보로도 알려진 모션 파라미터들을 포함하는) 코딩된 데이터를 이미 이용하는 추가적인 인터 계층 예측 도구들이 SHVC, MV-HEVC 및/또는 SMV-HEVC 코덱 내에 포함될 수 있다.
MV-HEVC, SMV-HEVC 및 참조 인덱스 기반 SHVC 솔루션에서, 블록 레벨 신택스 및 디코딩 프로세스는 인터 계층 텍스처 예측을 지원하도록 변경되지 않는다. 고레벨 신택스만이 (HEVC에 비해) 변경되었으며, 따라서 동일 액세스 유닛의 참조 계층으로부터의 (필요한 경우에 업샘플링된) 재구성된 픽처들은 현재의 향상 계층 픽처를 코딩하기 위한 참조 픽처들로서 사용될 수 있다. 인터 계층 참조 픽처들은 물론, 시간 참조 픽처들도 참조 픽처 리스트들 내에 포함된다. 시그널링된 참조 픽처 인덱스는 현재 예측 유닛(PU)이 시간 참조 픽처 또는 인터 계층 참조 픽처로부터 예측되는지를 표시하는 데 사용된다. 이러한 특징의 사용은 인코더에 의해 제어되고, 비트스트림 내에서, 예를 들어 비디오 파라미터 세트, 시퀀스 파라미터 세트, 픽처 파라미터 및/또는 슬라이스 헤더 내에서 표시될 수 있다. 표시(들)는 예를 들어 향상 계층, 참조 계층, 향상 계층과 참조 계층의 쌍, 특정 TemporalId 값들, 특정 픽처 타입들(예로서, RAP 픽처들), 특정 슬라이스 타입들(예로서, P 및 B 슬라이스들, 그러나 I 슬라이스는 제외), 특정 POC 값들의 픽처들 및/또는 특정 액세스 유닛들에 고유할 수 있다. 표시(들)의 범위 및/또는 지속성은 표시(들) 자체와 함께 표시될 수 있고/있거나 추정될 수 있다.
MV-HEVC, SMV-HEVC 및 참조 인덱스 기반 SHVC 솔루션에서의 참조 리스트(들)는 존재할 경우에 인터 계층 참조 픽처(들)가 아래와 같이 형성되는 최초 참조 픽처 리스트(들) 내에 포함될 수 있는 특정 프로세스를 이용하여 초기화될 수 있다. 예를 들어, 시간 참조들은 먼저 HEVC에서의 참조 리스트 형성과 동일한 방식으로 참조 리스트들(L0, L1) 내에 추가될 수 있다. 그 후, 인터 계층 참조들은 시간 참조들 뒤에 추가될 수 있다. 인터 계층 참조 픽처들은 예를 들어 전술한 바와 같이 VPS 확장으로부터 도출되는 RefLayerId[i] 변수와 같은 계층 종속 정보로부터 결정될 수 있다. 인터 계층 참조 픽처들은 현재 향상 계층 슬라이스가 P 슬라이스인 경우에 최초 참조 픽처 리스트(L0)에 추가될 수 있으며, 현재 향상 계층 슬라이스가 B 슬라이스인 경우에는 최초 참조 픽처 리스트들(L0, L1) 양자에 추가될 수 있다. 인터 계층 참조 픽처들은 양 참조 픽처 리스트들에 대해 동일할 필요는 없는 특정 순서로 참조 픽처 리스트들에 추가될 수 있다. 예를 들어, 최초 참조 픽처 리스트 0 내에 인터 계층 참조 픽처들을 추가하는 순서와 반대되는 순서가 최초 참조 픽처 리스트 1에 대해 사용될 수 있다. 예를 들어, 인터 계층 참조 픽처들이 최초 참조 픽처 리스트 0 내에 nuh_layer_id의 오름차순으로 삽입될 수 있는 반면, 반대 순서가 최초 참조 픽처 리스트 1을 초기화하는 데 사용될 수 있다.
코딩 및/또는 디코딩 프로세스에서, 인터 계층 참조 픽처들은 장기 참조 픽처들로서 간주될 수 있다.
SMV-HEVC 및 참조 인덱스 기반 SHVC 솔루션에서, 인터 계층 모션 파라미터 예측은 인터 계층 참조 픽처를 TMVP 도출을 위한 병치 참조 픽처로서 설정함으로써 수행될 수 있다. 예를 들어 TMVP 도출에서 블록 레벨 디코딩 프로세스 변경을 피하기 위해 2개의 계층 사이의 모션 필드 맵핑 프로세스가 수행될 수 있다. 모션 필드 맵핑은 멀티뷰 코딩을 위해서도 수행될 수 있지만, MV-HEVC의 현재 드래프트는 그러한 프로세스를 포함하지 않는다. 모션 필드 맵핑 특징의 사용은 인코더에 의해 제어되고, 비트스트림 내에서, 예로서 비디오 파라미터 세트, 시퀀스 파라미터 세트, 픽처 파라미터 및/또는 슬라이스 헤더 내에서 표시될 수 있다. 표시(들)는 예를 들어 향상 계층, 참조 계층, 향상 계층과 참조 계층의 쌍, 특정 TemporalId 값들, 특정 픽처 타입들(예로서, RAP 픽처들), 특정 슬라이스 타입들(예로서, P 및 B 슬라이스들, 그러나 I 슬라이스는 제외), 특정 POC 값들의 픽처들 및/또는 특정 액세스 유닛들에 고유할 수 있다. 표시(들)의 범위 및/또는 지속성은 표시(들) 자체와 함께 표시될 수 있고/있거나 추정될 수 있다.
공간 스케일링 가능성을 위한 모션 필드 맵핑 프로세스에서, 업샘플링된 인터 계층 참조 픽처의 모션 필드는 각각의 참조 계층 픽처의 모션 필드에 기초하여 획득된다. 업샘플링된 인터 계층 참조 픽처의 각각의 블록에 대한 (예로서, 수평 및/또는 수직 모션 벡터 값 및 참조 인덱스를 포함할 수 있는) 모션 파라미터들 및/또는 예측 모드는 참조 계층 픽처 내의 병치 블록의 대응하는 모션 파라미터들 및/또는 예측 모드로부터 도출될 수 있다. 업샘플링된 인터 계층 참조 픽처에서의 모션 파라미터들 및/또는 예측 모드의 도출에 사용되는 블록 크기는 예를 들어 16x16일 수 있다. 16x16 블록 크기는 참조 픽처의 압축된 모션 필드가 사용되는 HEVC TMVP 도출 프로세스에서와 동일하다.
모션 필드는 모션 파라미터들을 포함하는 것으로 간주될 수 있다. 모션 파라미터는 아래의 타입들 중 하나 이상을 포함할 수 있지만 이에 한정되지 않는다.
- 예측 타입(예로서, 인트라 예측, 단예측, 쌍예측) 및/또는 참조 픽처들의 수의 표시.
- 예로서 텍스처 픽처로부터 깊이 픽처로의 인터(별칭, 시간) 예측, 인터 계층 예측, 인터 뷰 예측, 뷰 합성 예측(VSP), 및 인터 컴포넌트 예측과 같은 예측 방향의 표시. 예측 방향은 참조 픽처별로 그리고/또는 예측 타입별로 표시될 수 있으며, 일부 실시예들에서 인터 뷰 및 뷰 합성 예측은 공동으로 하나의 예측 방향으로 간주될 수 있다.
- (예로서, 참조 픽처별로 표시될 수 있는) 단기 참조 픽처 및/또는 장기 참조 픽처 및/또는 인터 계층 참조 픽처와 같은 참조 픽처 타입의 표시.
- 참조 픽처 리스트에 대한 참조 인덱스 및/또는 참조 픽처의 임의의 다른 식별자(이는 예로서 참조 픽처별로 표시될 수 있고, 예측 방향 및/또는 참조 픽처 타입에 의존하는 타입을 가질 수 있고, 참조 인덱스가 적용되는 참조 픽처 리스트와 같은 다른 관련 정보가 동반될 수 있다).
- (예로서, 예측 블록별로 또는 참조 인덱스별로 또는 기타 등등으로 표시될 수 있는) 수평 모션 벡터 컴포넌트.
- (예로서, 예측 블록별로 또는 참조 인덱스별로 또는 기타 등등으로 표시될 수 있는) 수직 모션 벡터 컴포넌트.
- 하나 이상의 모션 벡터 예측 프로세스에서 수평 모션 벡터 컴포넌트 및/또는 수직 모션 벡터 컴포넌트의 스케일링을 위해 사용될 수 있는, 모션 파라미터들을 포함하거나 그들과 관련된 픽처와 그의 참조 픽처 간의 픽처 순서 카운트 차이 및/또는 상대 카메라 간격과 같은 하나 이상의 파라미터(상기 하나 이상의 파라미터는 예를 들어 각각의 참조 픽처 또는 각각의 참조 인덱스 등마다 표시될 수 있다).
HEVC 표준은 일반적으로 고충실도 응용들을 지원하도록 확장된다. 여기서 연구되는 문제는 컬러 충실도 향상과 관련되며, 4:2:0이 아닌 다른 크로마 포맷들, 예로서 4:2:2 및 4:4:4 크로마 포맷을 효율적으로 코딩할 수 있는 것이 바람직할 것이다. 4:2:2의 경우에 크로마는 통상적으로 하나의 방향에서만 서브샘플링되는 반면, 4:2:0의 경우에는 양 방향에서 서브샘플링된다. 4:4:4의 경우에는 크로마 서브샘플링이 발생하지 않는다. 다른 문제는 혼합 크로마 코딩과 관련되며, 4:2:0에서는 비디오의 소정 부분들을, 반면에 4:2:2 및 4:4:4와 같은 더 높은 충실도에서는 다른 부분들을 코딩할 수 있는 것이 바람직할 것이다.
전통적인 소비자 비디오 응용들은 압축 전에 크로마 컴포넌트를 서브샘플링하여 더 높은 코딩 효율을 달성한다. 예를 들어, 대부분의 소비자 비디오 응용들은 수평 및 수직 방향들 양자에서 크로마 컴포넌트를 둘로 서브샘플링하여 4:2:0 포맷으로 코딩한다. 고충실도 크로마 컴포넌트들을 이용하는 비디오 코딩은 전문 도메인에서 전통적으로 사용되었으며, 어떠한 크로마 서브샘플링도 수행되지 않거나(즉, 비디오가 4:4:4 포맷으로 코딩되거나), 크로마가 한 방향에서만 서브샘플링된다(즉, 비디오가 4:2:2 포맷으로 코딩된다).
2X와 같은 2배 스케일링 가능성(dyadic scalability)에서, 저해상도 픽처의 휘도 및 색도 샘플들의 위치들은 고해상도 픽처의 휘도 및 색도 샘플들과 중복된다. 이것은 디코딩된 픽처 또는 비디오가 상이한 해상도 또는 줌 팩터에서의 표시를 위해 사용되며, 따라서 보간 단계가 필요하고; 저해상도 픽처들이 어떠한 새로운 정보도 추가하지 못하고, 고해상도 픽처만이 보간 동안 사용될 수 있다는 것을 의미한다.
본 실시예들은 계층들 간의 휘도 위상 변화를 표시하기 위한 메커니즘을 제안한다.
본 실시예들은 적어도 2개의 양태를 포함한다.
제1 양태에서, 실시예들은 픽처가 먼저 다양한 해상도들에서 인코딩되고, 각각의 해상도의 루마 및 크로마 샘플들의 위상들이 더 낮은 해상도에 대해 일정한 위상 오프셋을 추가함으로써 계산되며, 따라서 상이한 해상도들에서의 샘플들의 위치들이 중복되지 않거나 최소로 중복되는 시스템을 포함한다(도 7 및 8 참조). 도 7에서, 정사각형들(710)은 저해상도 샘플들을 나타내고, 원들(720)은 고해상도 샘플들을 나타낸다. 스케일링 가능성 비율은 2이다. 도 7에서 아래의 730은 동일 그리드 상의 저해상도 및 고해상도 샘플들의 투영을 나타낸다. 상이한 위상 시프트의 사용으로 인해(위상은 0.25 픽셀의 일정한 오프셋으로 시프트됨), 저해상도 샘플들(710)은 고해상도 샘플들(720) 상에 추가될 때 해상도를 증가시킨다. 따라서, 보간 및 표시에서 고해상도 및 저해상도 샘플들 양자가 사용되는 경우에 더 높은 품질의 보간을 획득해야 한다. 도 8은 수평 및 수직 오프셋이 도 8a에서 0이고, 도 8b에서 0.25일 때 2X 스케일링 가능성을 위한 고해상도 루마 샘플들(원들) 및 저해상도 루마 샘플들(정사각형들)을 나타낸다. 수신기는 임의의 해상도들 및 줌잉 팩터들로 픽처를 표시할 때 보간 동안 단일 픽처 대신에 다수의 픽처로부터의 정보를 사용한다.
제2 양태에서, 실시예들은 각각의 계층의 루마 및 크로마 샘플들의 위상 오프셋을 시그널링하기 위한 메커니즘, 및 수신기가 i) 고해상도 픽처들을 예측하고, ii) 임의의 해상도들 및 줌잉 팩터들로 픽처들을 표시하기 위한 올바른 필터링 동작들을 적용할 수 있도록 하는 스케일링 가능 비디오 코딩을 위한 업샘플링 프로세스에 대한 변경들을 포함한다(도 9 참조). 도 9는 본 발명을 이용하기 위한 시스템의 일 실시예를 나타낸다. 위상 시프트를 도입함으로써 다운샘플링이 수행되며, 따라서 고해상도 디코딩된 픽처 및 저해상도 디코딩된 픽처를 사용하여, 양 픽처보다 높은 해상도의 픽처를 달성할 수 있다.
실시예들은 도 6, 7, 8, 9에 도시된 아이디어에 기초한다. 도 6은 일차원 예에서 저해상도 샘플들(610)이 고해상도 샘플들(602)과 중복(630)되는 종래 기술을 나타낸다. 도시된 바와 같이, 저해상도 샘플들(610)은 어떠한 새로운 정보도 추가하지 않으며, 따라서 더 높은 해상도들을 위해 픽처를 보간하는 데 사용되지 못한다. 그러나, 도 7은 방법의 일 실시예를 나타낸다. 도 7은 저해상도(710) 및 고해상도(720)의 샘플들 사이에 중복이 존재하지 않도록 저해상도 샘플들(710)이 생성되는 것을 나타낸다. 도 8에는 동일한 예가 2D 예에 대해 도시된다. 도 9는 실시예들이 실제 시스템에서 어떻게 사용될 수 있는지를 나타낸다.
본 발명의 실시예들은 예를 들어 아래와 같이 HEVC 스케일링 가능 확장들에서 구현될 수 있다.
Figure pct00002
1과 동일한 phase_offset_present_flag는 신택스 요소 horizontal_phase_offset16 및 vertical_phase_offset16이 비트스트림 내에 존재한다는 것을 지정한다.
horizontal_phase_offset16은 1/16 픽셀 유닛들에서 현재 계층 내의 샘플들의 더 낮은 계층에 대한 수평 위상 오프셋을 지정하며, 리샘플링에서 사용되는 참조 계층 샘플 위치들을 계산하는 데 사용된다. horizontal_phase_offset16의 값은 0 내지 7의 범위 내에 있어야 한다. horizontal_phase_offset16이 존재하지 않을 때, horizontal_phase_offset16의 값은 0인 것으로 추정된다.
vertical_phase_offset16은 1/16 픽셀 유닛들에서 현재 계층 내의 샘플들의 더 낮은 계층에 대한 수직 위상 오프셋을 지정하며, 리샘플링에서 사용되는 참조 계층 샘플 위치들을 계산하는 데 사용된다. vertical_phase_offset16의 값은 0 내지 7의 범위 내에 있어야 한다. vertical_phase_offset16이 존재하지 않을 때, vertical_phase_offset16의 값은 0인 것으로 추정된다.
업샘플링 동안 참조 샘플들의 위치 계산은 다음과 같이 변경된다.
보간된 루마 샘플 IntLumaSample의 값은 아래의 단계들을 적용하여 도출된다.
1. 리샘플링에서 사용되는 참조 계층 샘플 위치에 대한 도출 프로세스가 0과 동일한 cIdx를 이용하여 호출되고, 루마 샘플 위치 (xP, yP)가 입력들로서 주어지고, 1/16 샘플의 유닛들 내의 (xRef16, yRef16)이 출력으로 주어진다.
2. 변수 xRef16 및 yPhase는 다음 식에 의해 도출된다.
Figure pct00003
3. 변수 xRef16 및 yPhase는 다음 식에 의해 도출된다.
Figure pct00004
본 발명의 추가 실시예들은 예를 들어 아래와 같이 HEVC 스케일링 가능 확장들에서 구현될 수 있다.
Figure pct00005
1과 동일한 cross_layer_phase_alignment_flag는 모든 계층들의 루마 샘플 그리드들의 위치들이 픽처들의 중앙 샘플 위치에 정렬된다는 것을 지정한다. 0과 동일한 cross_layer_phase_alignment_flag는 모든 계층들의 루마 샘플 그리드들의 위치들이 픽처들의 좌상 샘플 위치에 정렬된다는 것을 지정한다.
일 실시예에 따른 슬라이스 세그먼트 헤더 신택스는 다음과 같다.
Figure pct00006
vert_phase_position_flag[RefPicLayerId[i]]는 RefPicLayerId[i]와 동일한 nuh_layer_id를 갖는 참조 계층 픽처가 리샘플링될 때 참조 계층 샘플 위치를 도출하는 데 사용되는 수직 방향에서의 위상 위치를 지정한다. 존재하지 않을 때, phase_position_flag[RefPicLayerId[i]]의 값은 0과 동일한 것으로 추정된다.
이러한 구현에서, 참조 픽처 내의 수평 및 수직 위치들은 다음과 같이 결정된다.
1. 변수 phaseX, phaseY, addX 및 addY는 다음과 같이 도출된다.
Figure pct00007
2. 변수 xRef16 및 yRef16은 다음과 같이 도출된다.
Figure pct00008
3. 이어서, 변수 xPhase 및 yPhase는 다음 식에 의해 도출된다.
Figure pct00009
위의 신택스 요소들은 본 발명의 실시예들로서 제공되지만, 본 발명의 다양한 실시예들의 이용을 표시하기 위한 인코더 및 그들의 이용을 결론짓기 위한 디코더에 대한 다른 실시예들도 가능하다는 것을 이해할 필요가 있다. 예를 들어, 시퀀스 레벨 표시들이 VPS 내에 존재할 수 있다. 하나 이상의 표시는 (인터 계층 예측을 이용하는) 하나 이상의 타겟 계층 및 하나 이상의 참조 계층의 소정 조합 또는 조합들에 고유하도록 표시될 수 있다. 시그널링되는 오프셋들의 정밀도는 1/16 픽셀과 다를 수 있다. 상이한 계층들에 대해 상이한 위상 오프셋들이 시그널링될 수 있다.
아래에 나타나는 청구항들의 범위, 해석 또는 응용을 결코 제한하지 않고서, 본 명세서에서 개시되는 실시예들 중 하나 이상의 실시예의 기술적 효과는 공간 스케일링 가능성 코딩 기술들을 이용하여 더 높은 해상도를 갖는 고품질 픽처들을 달성할 수 있다는 것이다.
본 발명의 다양한 실시예들은 메모리 내에 존재하고 관련 장치들로 하여금 본 발명을 실시하게 하는 컴퓨터 프로그램 코드의 도움으로 구현될 수 있다. 예를 들어, 디바이스는 메모리 내의 데이터, 컴퓨터 프로그램 코드를 프로세싱, 수신 및 송신하기 위한 회로 및 일렉트로닉스, 및 컴퓨터 프로그램 코드를 실행할 때 디바이스로 하여금 일 실시예의 특징들을 실행하게 하는 프로세서를 포함할 수 있다. 또한, 서버와 같은 네트워크 디바이스는 메모리 내의 데이터, 컴퓨터 프로그램 코드를 프로세싱, 수신 및 송신하기 위한 회로 및 일렉트로닉스, 및 컴퓨터 프로그램 코드를 실행할 때 네트워크 디바이스로 하여금 일 실시예의 특징들을 실행하게 하는 프로세서를 포함할 수 있다.
원할 경우에, 본 명세서에서 설명된 상이한 특징들은 상이한 순서로 그리고/또는 서로 동시에 수행될 수 있다. 더구나, 원할 경우에, 전술한 특징들 중 하나 이상은 옵션일 수 있거나 결합될 수 있다.
본 발명의 다양한 양태들이 독립 청구항들에서 설명되지만, 본 발명의 다른 양태들은 청구항들에서 명시적으로 설명되는 조합들만이 아니라, 설명된 실시예들 및/또는 독립 청구항들의 특징들을 갖는 종속 청구항들로부터의 특징들의 다른 조합들을 포함한다.
위에서는 본 발명의 실시예들이 설명되었지만, 이러한 설명들은 한정적인 것으로 간주되지 않아야 한다는 점에도 유의한다. 오히려, 첨부된 청구항들에서 정의되는 바와 같은 본 발명의 범위로부터 벗어나지 않으면서 이루어질 수 있는 다양한 변형들 및 변경들이 존재한다.

Claims (24)

  1. 픽처를 다양한 해상도로 인코딩하는 단계와,
    각각의 해상도의 샘플의 위치 정보를 결정하는 단계와,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 단계와,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 단계
    를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 샘플은, 루마 샘플, 크로마 샘플, 루마 샘플 및 크로마 샘플의 그룹 중 하나인
    방법.
  3. 제1항에 있어서,
    더 낮은 계층에 대한 현재 계층 내의 상기 샘플의 위상 오프셋을 지정하는 상기 위치 정보를 추가함으로써 상기 참조 계층 내의 상기 샘플의 위치를 결정하는 단계를 더 포함하는
    방법.
  4. 제1항에 있어서,
    상기 위치 정보에 기초하여 상기 참조 계층 내의 상기 샘플을 향상 계층으로 업샘플링하는 데 사용되는 필터를 결정하는 단계를 더 포함하는
    방법.
  5. 제1항에 있어서,
    상기 위치 정보는 상기 참조 계층 샘플과 향상 계층 샘플 간의 수평 위상차인
    방법.
  6. 제1항에 있어서,
    상기 위치 정보는 상기 참조 계층 샘플과 향상 계층 샘플 간의 수직 위상차인
    방법.
  7. 제5항 또는 제6항에 있어서,
    수평 및 수직 위상 오프셋의 값은 0 내지 7의 범위 내에 있는
    방법.
  8. 제5항 또는 제6항에 있어서,
    수평 및 수직 위상 오프셋의 존재는 비트 스트림 내의 비트에 의해 표시되는
    방법.
  9. 장치로서,
    적어도 하나의 프로세서와,
    컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리
    를 포함하고,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금 적어도,
    픽처를 다양한 해상도로 인코딩하는 것과,
    각각의 해상도의 샘플의 위치 정보를 결정하는 것과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 것과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 것을 수행하게 하도록 구성되는
    장치.
  10. 적어도,
    프로세싱을 위한 수단과,
    픽처를 다양한 해상도로 인코딩하기 위한 수단과,
    각각의 해상도의 샘플의 위치 정보를 결정하기 위한 수단과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 수단과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하기 위한 수단을 포함하는
    장치.
  11. 컴퓨터에서 사용하기 위해 내부에 구현된 컴퓨터 프로그램 코드를 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 코드는,
    픽처를 다양한 해상도로 인코딩하기 위한 코드와,
    각각의 해상도의 샘플의 위치 정보를 결정하기 위한 코드와,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 코드와,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하기 위한 코드를 포함하는
    컴퓨터 프로그램 제품.
  12. 컴퓨터에 의해 실행될 때,
    픽처를 다양한 해상도로 인코딩하는 동작과,
    각각의 해상도의 샘플의 위치 정보를 결정하는 동작과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 동작과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 동작을 수행하는 명령어로 인코딩된
    컴퓨터 판독 가능 매체.
  13. 픽처를 다양한 해상도로 디코딩하는 단계를 포함하고,
    상기 디코딩하는 단계는,
    각각의 해상도의 샘플의 위치 정보를 결정하는 단계와,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 단계와,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 단계를 포함하는
    방법.
  14. 제13항에 있어서,
    상기 샘플은, 루마 샘플, 크로마 샘플, 루마 샘플 및 크로마 샘플의 그룹 중 하나인
    방법.
  15. 제13항에 있어서,
    더 낮은 계층에 대한 현재 계층 내의 상기 샘플의 위상 오프셋을 지정하는 상기 위치 정보를 추가함으로써 상기 참조 계층 내의 상기 샘플의 위치를 결정하는 단계를 더 포함하는
    방법.
  16. 제13항에 있어서,
    상기 위치 정보에 기초하여 상기 참조 계층 내의 상기 샘플을 향상 계층으로 업샘플링하는 데 사용되는 필터를 결정하는 단계를 더 포함하는
    방법.
  17. 제13항에 있어서,
    상기 위치 정보는 상기 참조 계층 샘플과 향상 계층 샘플 간의 수평 위상차인
    방법.
  18. 제13항에 있어서,
    상기 위치 정보는 상기 참조 계층 샘플과 향상 계층 샘플 간의 수직 위상차인
    방법.
  19. 제17항 또는 제18항에 있어서,
    수평 및 수직 위상 오프셋의 값은 0 내지 7의 범위 내에 있는
    방법.
  20. 제17항 또는 제18항에 있어서,
    수평 및 수직 위상 오프셋의 존재는 비트 스트림 내의 비트에 의해 표시되는
    방법.
  21. 장치로서,
    적어도 하나의 프로세서와,
    컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리
    를 포함하고,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금 적어도,
    픽처를 다양한 해상도로 디코딩하는 것과,
    각각의 해상도의 샘플의 위치 정보를 결정하는 것과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 것과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 것을 수행하게 하도록 구성되는
    장치.
  22. 적어도,
    프로세싱을 위한 수단과,
    픽처를 다양한 해상도로 디코딩하기 위한 수단과,
    각각의 해상도의 샘플의 위치 정보를 결정하기 위한 수단과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 수단과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하기 위한 수단을 포함하는
    장치.
  23. 컴퓨터에서 사용하기 위해 내부에 구현된 컴퓨터 프로그램 코드를 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 코드는,
    픽처를 다양한 해상도로 디코딩하기 위한 코드와,
    각각의 해상도의 샘플의 위치 정보를 결정하기 위한 코드와,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하기 위한 코드와,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하기 위한 코드를 포함하는
    컴퓨터 프로그램 제품.
  24. 컴퓨터에 의해 실행될 때,
    픽처를 다양한 해상도로 디코딩하는 것과,
    각각의 해상도의 샘플의 위치 정보를 결정하는 것과,
    저해상도 픽처의 더 높은 해상도로의 업샘플링 프로세스 동안 상기 결정된 위치 정보를 이용하는 것과,
    상기 샘플의 상기 결정된 위치 정보를 시그널링하는 것을 수행하는 명령어로 인코딩된
    컴퓨터 판독 가능 매체.
KR1020157031807A 2013-04-08 2014-04-08 비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비 KR20150139940A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361809659P 2013-04-08 2013-04-08
US61/809,659 2013-04-08
PCT/FI2014/050245 WO2014167178A1 (en) 2013-04-08 2014-04-08 Method and technical equipment for video encoding and decoding

Publications (1)

Publication Number Publication Date
KR20150139940A true KR20150139940A (ko) 2015-12-14

Family

ID=51688994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157031807A KR20150139940A (ko) 2013-04-08 2014-04-08 비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비

Country Status (5)

Country Link
US (1) US20140321560A1 (ko)
EP (1) EP2984831A4 (ko)
KR (1) KR20150139940A (ko)
CN (1) CN105247865A (ko)
WO (1) WO2014167178A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140121315A (ko) 2013-04-04 2014-10-15 한국전자통신연구원 참조 픽처 리스트를 이용한 다 계층 기반의 영상 부호화/복호화 방법 및 그 장치
WO2015009068A1 (ko) * 2013-07-16 2015-01-22 삼성전자 주식회사 비트 뎁스 및 컬러 포맷의 변환을 동반하는 업샘플링 필터를 이용하는 스케일러블 비디오 부호화 방법 및 장치, 스케일러블 비디오 복호화 방법 및 장치
WO2015060699A1 (ko) * 2013-10-26 2015-04-30 삼성전자 주식회사 멀티 레이어 비디오 부호화 방법 및 장치, 멀티 레이어 비디오 복호화 방법 및 장치
WO2015103221A1 (en) 2014-01-03 2015-07-09 Arris Enterprises, Inc. Conditionally parsed extension syntax for hevc extension processing
US20150271495A1 (en) * 2014-03-18 2015-09-24 Arris Enterprises, Inc. Scalable Video Coding using Phase Offset Flag Signaling
WO2015143090A1 (en) * 2014-03-18 2015-09-24 Arris Enterprises, Inc. Scalable video coding using reference and scaled reference layer offsets
WO2015184470A1 (en) 2014-05-30 2015-12-03 Arris Enterprises, Inc. Reference layer offset parameters for inter-layer prediction in scalable video coding
US10542279B2 (en) * 2017-09-25 2020-01-21 Intel Corporation Temporal motion vector prediction control in video coding
KR20220061108A (ko) 2019-09-19 2022-05-12 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩에서 레퍼런스 샘플 위치 유도
KR20220066045A (ko) 2019-09-19 2022-05-23 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩의 스케일링 윈도우
EP4026336A4 (en) 2019-10-05 2022-12-07 Beijing Bytedance Network Technology Co., Ltd. LEVEL-BASED SIGNALING OF VIDEO CODING TOOLS
WO2021068955A1 (en) 2019-10-12 2021-04-15 Beijing Bytedance Network Technology Co., Ltd. Use and signaling of refining video coding tools
CN117376557A (zh) 2019-10-13 2024-01-09 北京字节跳动网络技术有限公司 参考图片重采样与视频编解码工具之间的相互作用
WO2021129866A1 (en) 2019-12-27 2021-07-01 Beijing Bytedance Network Technology Co., Ltd. Signaling of slice types in video pictures headers
CN111698508B (zh) * 2020-06-08 2022-05-31 北京大学深圳研究生院 基于超分辨率的图像压缩方法、设备及存储介质
US20240187651A1 (en) * 2022-10-22 2024-06-06 Sharp Kabushikik Kaisha Systems and methods for signaling downsampling offset information in video coding

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8638862B2 (en) * 2005-03-18 2014-01-28 Sharp Laboratories Of America, Inc. Methods and systems for upsampling filter design
US7956930B2 (en) * 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
US8199812B2 (en) * 2007-01-09 2012-06-12 Qualcomm Incorporated Adaptive upsampling for scalable video coding
JP5741143B2 (ja) * 2011-03-31 2015-07-01 Tdk株式会社 活物質、活物質の製造方法、電極、リチウムイオン二次電池及びリチウムイオン二次電池の製造方法
US9246327B2 (en) * 2011-12-21 2016-01-26 Abb Technology Ltd Arrangement for controlling the electric power transmission in a HVDC power transmission system
US9344718B2 (en) * 2012-08-08 2016-05-17 Qualcomm Incorporated Adaptive up-sampling filter for scalable video coding
US9794555B2 (en) * 2013-03-15 2017-10-17 Arris Enterprises Llc Adaptive sampling filter process for scalable video coding
US9906804B2 (en) * 2014-01-16 2018-02-27 Qualcomm Incorporated Reference layer sample position derivation for scalable video coding

Also Published As

Publication number Publication date
EP2984831A1 (en) 2016-02-17
EP2984831A4 (en) 2016-12-07
US20140321560A1 (en) 2014-10-30
WO2014167178A1 (en) 2014-10-16
CN105247865A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
US11818385B2 (en) Method and apparatus for video coding
US10904543B2 (en) Method and apparatus for video coding and decoding
CN108293136B (zh) 编码360度全景视频的方法、装置和计算机可读存储介质
US11153592B2 (en) Apparatus, a method and a computer program for video coding and decoding
US10547867B2 (en) Method, an apparatus and a computer program product for video coding and decoding
KR20150139940A (ko) 비디오 인코딩 및 디코딩을 위한 방법 및 기술 장비
KR101630564B1 (ko) 비디오 코딩을 위한 방법 및 장치
JP6169273B2 (ja) ビデオ符号化・復号装置、方法及びコンピュータプログラム
KR102077900B1 (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
US20140301463A1 (en) Method and apparatus for video coding and decoding
US20140254681A1 (en) Apparatus, a method and a computer program for video coding and decoding
US20140085415A1 (en) Method and apparatus for video coding
JP2015509345A (ja) ビデオ符号化方法および装置
WO2019211514A1 (en) Video encoding and decoding
GB2519750A (en) An apparatus, a method and a computer program for video coding and decoding

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment