KR20210145736A

KR20210145736A - 서브-픽처 비트스트림 추출 및 재배치

Info

Publication number: KR20210145736A
Application number: KR1020217029387A
Authority: KR
Inventors: 영 헤
Original assignee: 브이아이디 스케일, 인크.
Priority date: 2019-03-11
Filing date: 2020-03-11
Publication date: 2021-12-02
Also published as: CN113661714A; EP3939318A1; AU2020234972A1; JP2022535643A; MX2021010711A; JP7446329B2; US20220141488A1; WO2020185878A1

Abstract

본 명세서에서 설명된 시스템들 및 방법들은 서브-픽처 추출 및 재배치 프로세스를 지원하는 하이 레벨 신택스 설계를 이용한다. 입력 비디오는 다수의 표현들로 인코딩될 수 있고, 각각의 표현은 계층으로서 표현될 수 있다. 계층 픽처는 다수의 서브-픽처들로 파티셔닝될 수 있다. 각각의 서브-픽처는 그 자신의 타일 파티셔닝, 해상도, 컬러 포맷 및 비트 심도를 가질 수 있다. 각각의 서브-픽처는 동일한 계층의 다른 서브-픽처들과 독립적으로 인코딩되지만, 그 종속 계층들로부터의 대응하는 서브-픽처들로부터 인터 예측될 수 있다. 각각의 서브-픽처는 해상도 및 좌표와 같은 서브-픽처 속성들이 시그널링되는 서브-픽처 파라미터 세트를 참조할 수 있다. 각각의 서브-픽처 파라미터 세트는 전체 픽처의 해상도가 시그널링되는 PPS를 참조할 수 있다.

Description

하위 사진 비트스트림 추출 및 재배치

관련 출원들에 대한 상호 참조

본 출원은 2019년 3월 11일자로 출원된, 발명의 명칭이 "Sub-Picture Bitstream Extraction and Reposition"인 미국 가특허 출원 제62/816,703호 및 2019년 5월 31일자로 출원된, 발명의 명칭이 "Sub-Picture Bitstream Extraction and Reposition"인 미국 가특허 출원 제62/855,446호의 정규 출원이고, 35 U.S.C.§119(e) 하에서 그로부터 이익을 주장하며, 이들 출원 둘다는 그 전체가 본 명세서에 참조로 포함된다.

360°비디오는 미디어 산업에서 부상하는 급속하게 성장하는 새로운 포맷이다. 그것은 VR 디바이스들의 증가하는 가용성에 의해 가능하게 되고, 뷰어에게 매우 새로운 현실감(sense of presence)을 제공할 수 있다. 종래의 직선 비디오(rectilinear video)(2D 또는 3D)와 비교하여, 360°비디오는 비디오 처리 및 전달에 대한 새롭고 어려운 엔지니어링 과제들의 세트를 제기한다. 높은 비디오 품질 및 매우 낮은 레이턴시에 대한 편안함 및 몰입형 사용자 경험 호출들을 가능하게 하는 한편, 큰 비디오 크기는 높은 품질을 갖는 360°비디오의 전달에 장애가 될 수 있다.

비디오 코딩 표준들은 비트스트림에서 비디오 및 관련 정보를 전달하기 위해 따라야 할 신택스를 명시한다. 일부 경우들에서, 예를 들어, 복잡도를 감소시키기 위해, 이용가능한 신택스의 특정 서브세트만을 이용하는 것이 바람직할 수 있다. 전체 비트스트림 신택스의 상이한 서브세트들은 상이한 "프로파일들(profiles)"로서 지칭된다. 특정 프로파일의 이용에도 불구하고, 비디오 인코더 및 디코더 디바이스들의 메모리 및 처리 능력에서 넓은 변동이 있을 수 있다. 상이한 비디오들이 특정 프로파일에 의해 명시된 신택스를 따를 수 있지만, 그러한 상이한 비디오들은 여전히 인코더들 및 디코더들의 성능에 있어서 큰 변화를 요구할 수 있다. 요구된 성능은 디코딩된 픽처들의 크기와 같은, 비트스트림에서 시그널링된 특정 값들에 강하게 상관될 수 있다.

이 문제를 해결하기 위해, 일부 비디오 코딩 표준들은 각각의 프로파일 내의 "레벨들(levels)"을 명시한다. "레벨"은 비트스트림에서 시그널링된 신택스 요소들 및 변수들에 의해 취해질 수 있는 값들에 부과된 제약들의 사전 정의된 세트이다. 이러한 제약들 중 일부는 개별 값들에 제한을 부과하고; 다른 제약들은 값들의 산술 조합들에 제한을 부과한다. 예를 들어, 특정 레벨은 픽처 폭 곱하기 픽처 높이 곱하기 초당 디코딩된 픽처들의 수에 제한을 부과할 수 있다.

일부 표준들에서, 레벨들은 "티어들(tiers)"과 함께 명시된다. 일반적으로, 하위 티어에 대해 명시된 레벨은 상위 티어에 대해 명시된 레벨보다 더 제약된다. 티어는 비트스트림에서 시그널링된 값들에 부과된 레벨 제약들의 카테고리로서 역할을 한다. 레벨 제약들은 티어 내에 네스팅(nested)되어, 특정 티어 및 레벨로 비트스트림을 디코딩할 수 있는 디코더는 동일한 티어, 그 레벨의 하위 티어, 또는 그 아래의 임의의 레벨을 따르는 모든 비트스트림들을 디코딩할 수 있을 것으로 예상된다.

일부 비디오 코딩 표준들에서, 프로파일, 티어, 및 레벨 정보는 "profile_tier_level()" 구조와 같은 신택스 구조에서 시그널링된다. 예를 들어, HEVC에서, "profile_tier_level()" 구조는 비트스트림의 코딩된 비디오 시퀀스가 따르는 레벨을 나타내는 "general_level_idc" 요소를 포함한다.

본 명세서에 설명된 실시예들은 비디오 인코딩 및 디코딩(집합적으로 "코딩") 및 비트스트림 재기입 프로세스(bitstream re-writing process)에서 이용되는 방법들을 포함한다.

일부 실시예들에서, 방법은, 복수의 서브-픽처들(sub-pictures)을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 비트스트림에서 인코딩하는 단계; 및 개개의 서브-픽처들 각각에 대한 레벨 정보를 비트스트림에서 시그널링하는 단계를 포함하고, 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다.

일부 실시예들은 개개의 서브-픽처에 대한 티어 또는 프로파일 중 하나 이상을 시그널링하는 단계를 더 포함한다.

일부 실시예들에서, 서브-픽처들 중 적어도 하나는 복수의 계층들을 이용하여 비트스트림에서 인코딩된 계층화된 서브-픽처이고, 레벨 정보는 계층들 각각에 대한 비트스트림에서 시그널링된다.

일부 실시예들에서, 서브-픽처들 각각은 계층과 연관되고, 계층 내의 각각의 서브-픽처는 동일 계층에서의 다른 서브-픽처들과 독립적으로 인코딩된다.

일부 실시예들에서, 방법은 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 레벨 정보를 포함한다.

일부 실시예들에서, 방법은 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 위치 오프셋 정보를 포함한다.

일부 실시예들에서, 방법은 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 크기 정보를 포함한다.

일부 실시예들에서, 서브-픽처들에 대한 레벨 정보는 profile_tier_level() 데이터 구조에서 시그널링된다.

일부 실시예들에서, 방법은 비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 단계 ― 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및 레벨 정보에 따라 비트스트림으로부터 복수의 서브-픽처들을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 방법은 레벨 정보에 적어도 부분적으로 기초하여 서브-픽처들의 출력 서브-픽처 세트를 선택하는 단계를 더 포함하고, 복수의 서브-픽처들을 디코딩하는 단계는 선택된 출력 서브-픽처 세트를 디코딩하는 단계를 포함한다.

일부 실시예들에서, 방법은 서브-픽처들 중 적어도 하나에 대해, 개개의 서브-픽처에 대한 티어를 표시하는 정보를 디코딩하는 단계를 더 포함한다.

일부 실시예들에서, 방법은 서브-픽처들 중 적어도 하나에 대해, 개개의 서브-픽처에 대한 프로파일을 표시하는 정보를 디코딩하는 단계를 더 포함한다.

일부 실시예들에서, 서브-픽처들 중 적어도 하나는 복수의 계층들을 이용하여 비트스트림에서 인코딩된 계층화된 서브-픽처이고, 방법은 계층들 중 적어도 하나에 대한 비트스트림으로부터 레벨 정보를 디코딩하는 단계를 더 포함한다.

일부 실시예들에서, 서브-픽처들 각각은 계층과 연관되고, 계층 내의 적어도 하나의 서브-픽처는 동일 계층에서의 다른 서브-픽처들과 독립적으로 디코딩된다.

일부 실시예들은 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 레벨 정보를 포함한다.

일부 실시예들은 디코딩된 복수의 서브-픽처들로부터 적어도 하나의 출력 프레임을 구성하는 단계를 더 포함한다.

일부 실시예들은 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 위치 오프셋 정보를 포함하며, 출력 프레임은 위치 오프셋 정보에 기초하여 구성된다.

일부 실시예들은 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 출력 서브-픽처 세트는 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 서브세트에서의 서브-픽처들 각각에 대한 크기 정보를 포함하며, 출력 프레임은 크기 정보에 기초하여 구성된다.

일부 실시예들에서, 서브-픽처들에 대한 레벨 정보는 profile_tier_level() 데이터 구조에서 디코딩된다.

일부 실시예들에서, 신호는 복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 인코딩하는 정보; 및 개개의 서브-픽처들 각각에 대한 레벨 정보를 포함하고, 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다. 신호는 컴퓨터 판독가능 매체 상에 저장될 수 있다. 컴퓨터 판독가능 매체는 비일시적 매체일 수 있다.

추가적인 실시예들에서, 본 명세서에 설명된 방법들을 수행하기 위해 인코더, 디코더, 및 비트스트림 재기입/추출 시스템들이 제공된다.

일부 실시예들은 본 명세서에 설명된 방법들 중 임의의 것을 수행하도록 구성된 프로세서를 포함한다. 일부 그러한 실시예들에서, 본 명세서에 설명된 방법들 중 임의의 것을 수행하도록 동작하는 명령어들을 저장하는 컴퓨터 판독가능 매체(예를 들어, 비일시적 매체)가 제공된다.

일부 실시예들은 본 명세서에 개시된 방법들 중 하나 이상을 이용하여 인코딩된 비디오를 저장하는 컴퓨터 판독가능 매체(예를 들어, 비일시적 매체)를 포함한다.

본 실시예들 중 하나 이상은 전술한 방법들 중 임의의 것에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들을 저장하는 컴퓨터 판독가능 저장 매체를 또한 제공한다. 본 실시예들은 또한 전술한 방법들에 따라 생성된 비트스트림을 저장하는 컴퓨터 판독가능 저장 매체를 제공한다. 본 실시예들은 전술한 방법들에 따라 생성된 비트스트림을 송신하기 위한 방법 및 장치를 또한 제공한다. 본 실시예들은 설명된 방법들 중 임의의 것을 수행하기 위한 명령어들을 포함하는 컴퓨터 프로그램 제품을 또한 제공한다.

도 1a는 하나 이상의 개시된 실시예가 구현될 수 있는 예시적인 통신 시스템을 도시하는 시스템도이다.
도 1b는 실시예에 따른, 도 1a에 도시된 통신 시스템 내에서 이용될 수 있는 예시적인 무선 송신/수신 유닛(wireless transmit/receive unit)(WTRU)을 도시하는 시스템도이다.
도 1c는 본 명세서에 설명된 일부 실시예들에서 이용된 시스템의 기능 블록도이다.
도 2a는 VVC를 위해 이용되는 인코더와 같은 블록 기반 비디오 인코더의 기능 블록도이다.
도 2b는 VVC를 위해 이용되는 디코더와 같은 블록 기반 비디오 디코더의 기능 블록도이다.
도 3은 2-계층 스케일러블 비디오 인코더의 예시적인 아키텍처의 도면이다.
도 4는 2-계층 스케일러블 비디오 디코더의 예시적인 아키텍처의 도면이다.
도 5는 2 뷰 비디오 코딩 구조의 예를 도시하는 도면이다.
도 6은 예시적인 계층간(inter-layer) 예측 구조를 도시하는 도면이다.
도 7은 코딩된 비트스트림 구조의 예를 도시하는 도면이다.
도 8은 예시적인 통신 시스템을 도시하는 도면이다.
도 9는 360 비디오 뷰포트 적응적 스트리밍(video viewport adaptive streaming) 예를 도시한다.
도 10은 출력 픽처의 스킵된 영역의 예를 도시한다.
도 11은 예시적인 계층 구조를 도시한다.
도 12는 파라미터 세트들의 활성화 순서를 도시한다.
도 13은 서브-DPB 구조의 예를 도시한다.
도 14는 서브-픽처 추출 및 재배치를 위한 POC 도출 예를 도시한다.
도 15는 서브-픽처들에 대한 계층적 파라미터 세트 구조 예를 도시한다.
도 16은 다수의 미디어 타입들에 대한 계층 구조를 도시한다.
도 17은 일부 실시예들에서 수행된 방법의 흐름도이다.

실시예들의 구현을 위한 예시적인 네트워크들

도 1a는 하나 이상의 개시된 실시예가 구현될 수 있는 예시적인 통신 시스템(100)을 도시하는 도면이다. 통신 시스템(100)은 음성, 데이터, 비디오, 메시징, 브로드캐스트 등과 같은 콘텐츠를 다수의 무선 사용자들에게 제공하는 다중 액세스 시스템일 수 있다. 통신 시스템(100)은 다수의 무선 사용자들이, 무선 대역폭을 비롯한, 시스템 자원들의 공유를 통해 그러한 콘텐츠에 액세스할 수 있게 할 수 있다. 예를 들어, 통신 시스템들(100)은 CDMA(code division multiple access), TDMA(time division multiple access), FDMA(frequency division multiple access), OFDMA(orthogonal FDMA), SC-FDMA(single-carrier FDMA), ZT UW-DTS-s OFDM(zero-tail unique-word DFT-Spread OFDM), UW-OFDM(unique word OFDM), 자원 블록-필터링된 OFDM, FBMC(filter bank multicarrier) 등과 같은 하나 이상의 채널 액세스 방법을 이용할 수 있다.

도 1a에 도시된 바와 같이, 통신 시스템(100)은 무선 송신/수신 유닛(WTRU)들(102a, 102b, 102c, 102d), RAN(104), CN(106), 공중 교환망 네트워크(public switched telephone network)(PSTN)(108), 인터넷(110), 및 다른 네트워크들(112)을 포함할 수 있지만, 개시된 실시예들은 임의의 수의 WTRU, 기지국, 네트워크 및/또는 네트워크 요소를 고려한다는 것을 이해할 것이다. WTRU들(102a, 102b, 102c, 102d) 각각은 무선 환경에서 동작하고/하거나 통신하도록 구성된 임의의 타입의 디바이스일 수 있다. 예로써, WTRU들(102a, 102b, 102c, 102d) ― 이들 중 임의의 것은 "스테이션" 및/또는 "STA"라고 지칭될 수 있음 ― 은 무선 신호들을 송신 및/또는 수신하도록 구성될 수 있고, 사용자 장비(UE), 이동국, 고정 또는 모바일 가입자 유닛, 가입 기반 유닛, 페이저, 셀룰러 전화, PDA(personal digital assistant), 스마트폰, 랩톱, 넷북, 개인용 컴퓨터, 무선 센서, 핫스폿 또는 Mi-Fi 디바이스, IoT(Internet of Things) 디바이스, 시계 또는 다른 웨어러블, HMD(head-mounted display), 차량, 드론, 의료 디바이스 및 애플리케이션들(예를 들어, 원격 수술), 산업 디바이스 및 애플리케이션들(예를 들어, 로봇 및/또는 산업 및/또는 자동화된 처리 체인 컨텍스트들에서 동작하는 다른 무선 디바이스들), 소비자 전자장치 디바이스, 상업 및/또는 산업 무선 네트워크들 상에서 동작하는 디바이스 등을 포함할 수 있다. WTRU들(102a, 102b, 102c 및 102d) 중 임의의 것은 UE라고 상호교환가능하게 지칭될 수 있다.

통신 시스템(100)은 또한 기지국(114a) 및/또는 기지국(114b)을 포함할 수 있다. 기지국들(114a, 114b) 각각은, CN(106), 인터넷(110), 및/또는 다른 네트워크들(112)과 같은 하나 이상의 통신 네트워크에 대한 액세스를 용이하게 하기 위해 WTRU들(102a, 102b, 102c, 102d) 중 적어도 하나와 무선으로 인터페이스하도록 구성된 임의의 타입의 디바이스일 수 있다. 예로써, 기지국들(114a, 114b)은, 베이스 트랜시버 스테이션(base transceiver station)(BTS), Node-B, eNode B, 홈(Home) Node B, 홈 eNode B, gNB, NR NodeB, 사이트 제어기, 액세스 포인트(AP), 무선 라우터 등일 수 있다. 기지국들(114a, 114b)은 각각이 단일 요소로서 도시되어 있지만, 기지국들(114a, 114b)은 임의의 수의 상호접속된 기지국들 및/또는 네트워크 요소들을 포함할 수 있다는 것을 이해할 것이다.

기지국(114a)은 다른 기지국들 및/또는 베이스 스테이션 제어기(base station controller)(BSC), 라디오 네트워크 제어기(radio network controller)(RNC), 중계 노드(relay node)들 등과 같은 네트워크 요소들(도시되지 않음)을 포함할 수도 있는 RAN(104)의 일부일 수 있다. 기지국(114a) 및/또는 기지국(114b)은, 셀(cell)(도시되지 않음)이라고 지칭될 수 있는 하나 이상의 캐리어 주파수들 상에서 무선 신호들을 송신 및/또는 수신하도록 구성될 수 있다. 이러한 주파수들은 허가 스펙트럼(licensed spectrum), 비허가 스펙트럼, 또는 허가 스펙트럼과 비허가 스펙트럼의 조합일 수 있다. 셀은 비교적 고정될 수 있거나 시간 경과에 따라 변할 수 있는 특정 지리적 영역에 무선 서비스에 대한 커버리지를 제공할 수 있다. 셀은 셀 섹터들(cell sectors)로 추가로 분할될 수 있다. 예를 들어, 기지국(114a)과 연관된 셀은 3개의 섹터들로 분할될 수 있다. 따라서, 일 실시예에서 기지국(114a)은 3개의 트랜시버들, 즉, 셀의 각각의 섹터마다 하나씩의 트랜시버를 포함할 수 있다. 실시예에서, 기지국(114a)은 MIMO(multiple-input multiple-output) 기술을 이용할 수 있고, 셀의 각각의 섹터에 대해 다수의 트랜시버들을 이용할 수 있다. 예를 들어, 빔포밍(beamforming)은 신호들을 원하는 공간 방향들로 송신 및/또는 수신하는데 이용될 수 있다.

기지국들(114a, 114b)은 임의의 적절한 무선 통신 링크(예를 들어, RF(radio frequency), 마이크로파(microwave), 센티미터파(centimeter wave), 마이크로미터파(micrometer wave), IR(infrared), UV(ultraviolet), 가시광 등)일 수 있는 공중 인터페이스(air interface)(116)를 통해 WTRU들(102a, 102b, 102c, 102d) 중 하나 이상과 통신할 수 있다. 공중 인터페이스(116)는 임의의 적절한 RAT(radio access technology)를 이용하여 확립될 수 있다.

보다 구체적으로, 앞서 살펴본 바와 같이, 통신 시스템(100)은 다중 액세스 시스템일 수 있고, CDMA, TDMA, FDMA, OFDMA, SC-FDMA 등과 같은 하나 이상의 채널 액세스 방식을 이용할 수 있다. 예를 들어, RAN(104)에서의 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 WCDMA(wideband CDMA)를 이용하여 공중 인터페이스(116)를 확립할 수 있는 UTRA(UMTS(Universal Mobile Telecommunications System) Terrestrial Radio Access)와 같은 라디오 기술을 구현할 수 있다. WCDMA는 HSPA(High-Speed Packet Access) 및/또는 HSPA+(Evolved HSPA)와 같은 통신 프로토콜들을 포함할 수 있다. HSPA는 HSDPA(High-Speed Downlink(DL) Packet Access) 및/또는 HSUPA(High-Speed UL Packet Access)를 포함할 수 있다.

실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 LTE(Long Term Evolution) 및/또는 LTE-A(LTE-Advanced) 및/또는 LTE-A Pro(LTE-Advanced Pro)를 이용하여 공중 인터페이스(116)를 확립할 수 있는 E-UTRA(Evolved UMTS Terrestrial Radio Access)와 같은 라디오 기술을 구현할 수 있다.

실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은, 뉴 라디오(NR)를 이용하여 공중 인터페이스(116)를 확립할 수 있는, NR 라디오 액세스와 같은 라디오 기술을 구현할 수 있다.

실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 다수의 라디오 액세스 기술들을 구현할 수 있다. 예를 들어, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은, 예를 들어, 이중 접속(dual connectivity)(DC) 원리들을 이용하여, LTE 라디오 액세스 및 NR 라디오 액세스를 함께 구현할 수 있다. 따라서, WTRU들(102a, 102b, 102c)에 의해 이용되는 공중 인터페이스는 다수의 타입들의 기지국들(예를 들어, eNB 및 gNB)로/로부터 송신되는 다수의 타입들의 라디오 액세스 기술들 및/또는 송신들에 의해 특징지어질 수 있다.

다른 실시예들에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 IEEE 802.11(즉, WiFi(Wireless Fidelity), IEEE 802.16(즉, WiMAX(Worldwide Interoperability for Microwave Access)), CDMA2000, CDMA2000 1X, CDMA2000 EV-DO, IS-2000(Interim Standard 2000), IS-95(Interim Standard 95), IS-856(Interim Standard 856), GSM(Global System for Mobile communications), EDGE(Enhanced Data rates for GSM Evolution), GSM EDGE(GERAN) 등과 같은 라디오 기술들을 구현할 수 있다.

도 1a에서의 기지국(114b)은, 예를 들어, 무선 라우터, 홈 Node B, 홈 eNode B, 또는 액세스 포인트일 수 있고, 사업장, 가정, 차량, 캠퍼스, 산업 설비, (예를 들어, 드론들에 의한 이용을 위한) 공중 회랑(air corridor), 도로(roadway) 등과 같은 지역화된 영역에서의 무선 접속을 용이하게 하기 위해 임의의 적절한 RAT를 이용할 수 있다. 일 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 WLAN(wireless local area network)을 확립하기 위해 IEEE 802.11과 같은 라디오 기술을 구현할 수 있다. 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 WPAN(wireless personal area network)을 확립하기 위해 IEEE 802.15와 같은 라디오 기술을 구현할 수 있다. 또 다른 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 피코셀(picocell) 또는 펨토셀(femtocell)을 확립하기 위해 셀룰러 기반 RAT(cellular-based RAT)(예를 들어, WCDMA, CDMA2000, GSM, LTE, LTE-A, LTE-A Pro, NR 등)를 이용할 수 있다. 도 1a에 도시된 바와 같이, 기지국(114b)은 인터넷(110)에의 직접 접속(direct connection)을 가질 수 있다. 따라서, 기지국(114b)은 CN(106)을 통해 인터넷(110)에 액세스할 필요가 없을 수 있다.

RAN(104)은 음성, 데이터, 애플리케이션들, 및/또는 VoIP(voice over internet protocol) 서비스들을 WTRU들(102a, 102b, 102c, 102d) 중 하나 이상에 제공하도록 구성된 임의의 타입의 네트워크일 수 있는 CN(106)과 통신할 수 있다. 데이터는 상이한 처리량 요건들, 레이턴시 요건들, 에러 허용 요건들, 신뢰성 요건들, 데이터 처리량 요건들, 이동성 요건들 등과 같은 변하는 서비스 품질(quality of service)(QoS) 요건들을 가질 수 있다. CN(106)은 호 제어(call control), 과금 서비스들(billing services), 모바일 위치-기반 서비스들(mobile location-based services), 선불 전화(pre-paid calling), 인터넷 접속, 비디오 배포 등을 제공하고/하거나 사용자 인증과 같은 높은 수준 보안 기능들을 수행할 수 있다. 도 1a에 도시되어 있지는 않지만, RAN(104) 및/또는 CN(106)은 RAN(104)과 동일한 RAT 또는 상이한 RAT를 이용하는 다른 RAN들과 직접 또는 간접 통신을 할 수 있다는 것을 이해할 것이다. 예를 들어, NR 라디오 기술을 이용하고 있을 수 있는 RAN(104)에 접속되는 것에 부가하여, CN(106)은 또한 GSM, UMTS, CDMA2000, WiMAX, E-UTRA, 또는 WiFi 라디오 기술을 이용하는 다른 RAN(도시되지 않음)과 통신할 수 있다.

CN(106)은 또한 WTRU들(102a, 102b, 102c, 102d)이 PSTN(108), 인터넷(110), 및/또는 다른 네트워크들(112)에 액세스하기 위한 게이트웨이로서 역할할 수 있다. PSTN(108)은 POTS(plain old telephone service)를 제공하는 회선 교환 전화 네트워크들(circuit-switched telephone networks)을 포함할 수 있다. 인터넷(110)은 TCP/IP 인터넷 프로토콜 세트에서의 송신 제어 프로토콜(TCP), 사용자 데이터그램 프로토콜(UDP) 및/또는 인터넷 프로토콜(IP)과 같은 공통 통신 프로토콜들을 이용하는 상호접속된 컴퓨터 네트워크들 및 디바이스들의 글로벌 시스템을 포함할 수 있다. 네트워크들(112)은 다른 서비스 제공자들에 의해 소유되고/되거나 운영되는 유선 및/또는 무선 통신 네트워크들을 포함할 수 있다. 예를 들어, 네트워크들(112)은 RAN(104)과 동일한 RAT 또는 상이한 RAT를 이용할 수 있는 하나 이상의 RAN에 접속된 다른 CN을 포함할 수 있다.

통신 시스템(100)에서의 WTRU들(102a, 102b, 102c, 102d) 중 일부 또는 전부는 다중-모드 능력들을 포함할 수 있다(예를 들어, WTRU들(102a, 102b, 102c, 102d)은 상이한 무선 링크들을 통해 상이한 무선 네트워크들과 통신하기 위한 다수의 트랜시버들을 포함할 수 있다). 예를 들어, 도 1a에 도시된 WTRU(102c)는 셀룰러 기반 라디오 기술을 이용할 수 있는 기지국(114a), 및 IEEE 802 라디오 기술을 이용할 수 있는 기지국(114b)과 통신하도록 구성될 수 있다.

도 1b는 예시적인 WTRU(102)를 도시하는 시스템도이다. 도 1b에 도시된 바와 같이, WTRU(102)는 다른 것들 중에서, 프로세서(118), 트랜시버(120), 송신/수신 요소(122), 스피커/마이크로폰(124), 키패드(126), 디스플레이/터치패드(128), 비이동식 메모리(130), 이동식 메모리(132), 전원(134), GPS(global positioning system) 칩셋(136), 및/또는 다른 주변기기들(138)을 포함할 수 있다. 실시예와 부합한 채로 있으면서 WTRU(102)가 전술한 요소들의 임의의 부조합을 포함할 수 있다는 것이 이해될 것이다.

프로세서(118)는 범용 프로세서, 특수 목적 프로세서, 종래의 프로세서, DSP(digital signal processor), 복수의 마이크로프로세서들, DSP 코어와 연관된 하나 이상의 마이크로프로세서, 제어기, 마이크로제어기, ASIC(Application Specific Integrated Circuit)들, FPGA(Field Programmable Gate Array) 회로들, 임의의 다른 타입의 IC(integrated circuit), 상태 머신(state machine) 등일 수 있다. 프로세서(118)는 WTRU(102)가 무선 환경에서 동작할 수 있게 하는 신호 코딩, 데이터 처리, 전력 제어, 입력/출력 처리, 및/또는 임의의 다른 기능을 수행할 수 있다. 프로세서(118)는 트랜시버(120)에 결합될 수 있고, 트랜시버(120)는 송신/수신 요소(122)에 결합될 수 있다. 도 1b가 프로세서(118) 및 트랜시버(120)를 별개의 컴포넌트들로서 도시하고 있지만, 프로세서(118) 및 트랜시버(120)는 전자 패키지 또는 칩에 함께 통합되어 있을 수 있다는 것을 이해할 것이다.

송신/수신 요소(122)는 공중 인터페이스(116)를 통해 기지국(예를 들어, 기지국(114a))으로 신호들을 송신하거나, 기지국으로부터 신호들을 수신하도록 구성될 수 있다. 예를 들어, 일 실시예에서, 송신/수신 요소(122)는 RF 신호들을 송신 및/또는 수신하도록 구성된 안테나일 수 있다. 실시예에서, 송신/수신 요소(122)는, 예를 들어, IR, UV 또는 가시광 신호들을 송신 및/또는 수신하도록 구성된 방출기(emitter)/검출기일 수 있다. 또 다른 실시예에서, 송신/수신 요소(122)는 RF 및 광 신호들 둘다를 송신 및/또는 수신하도록 구성될 수 있다. 송신/수신 요소(122)는 무선 신호들의 임의의 조합을 송신 및/또는 수신하도록 구성될 수 있다는 것이 이해될 것이다.

또한, 송신/수신 요소(122)는 단일 요소로서 도 1b에 도시되어 있지만, WTRU(102)는 임의의 수의 송신/수신 요소들(122)을 포함할 수 있다. 보다 구체적으로, WTRU(102)는 MIMO 기술을 이용할 수 있다. 따라서, 일 실시예에서, WTRU(102)는 공중 인터페이스(116)를 통해 무선 신호들을 송신 및 수신하기 위한 2개 이상의 송신/수신 요소들(122)(예를 들어, 다수의 안테나들)을 포함할 수 있다.

트랜시버(120)는 송신/수신 요소(122)에 의해 송신되는 신호들을 변조하고, 송신/수신 요소(122)에 의해 수신되는 신호들을 복조하도록 구성될 수 있다. 앞서 살펴본 바와 같이, WTRU(102)는 다중-모드 능력들을 가질 수 있다. 따라서, 트랜시버(120)는, 예를 들어, NR 및 IEEE 802.11과 같은 다수의 RAT들을 통해 WTRU(102)가 통신할 수 있게 하는 다수의 트랜시버들을 포함할 수 있다.

WTRU(102)의 프로세서(118)는 스피커/마이크로폰(124), 키패드(126), 및/또는 디스플레이/터치패드(128)(예를 들어, LCD(liquid crystal display) 디스플레이 유닛 또는 OLED(organic light-emitting diode) 디스플레이 유닛)에 결합될 수 있고, 이들로부터 사용자 입력 데이터를 수신할 수 있다. 프로세서(118)는 또한 사용자 데이터를 스피커/마이크로폰(124), 키패드(126), 및/또는 디스플레이/터치패드(128)에 출력할 수 있다. 또한, 프로세서(118)는 비이동식 메모리(130) 및/또는 이동식 메모리(132)와 같은 임의의 타입의 적절한 메모리로부터의 정보에 액세스하고, 그 메모리에 데이터를 저장할 수 있다. 비이동식 메모리(130)는 RAM(random-access memory), ROM(read-only memory), 하드 디스크, 또는 임의의 다른 타입의 메모리 저장 디바이스를 포함할 수 있다. 이동식 메모리(132)는 SIM(subscriber identity module) 카드, 메모리 스틱, SD(secure digital) 메모리 카드 등을 포함할 수 있다. 다른 실시예들에서, 프로세서(118)는, 서버 또는 홈 컴퓨터(도시되지 않음) 상에 있는 것과 같이, WTRU(102) 상에 물리적으로 위치되지 않는 메모리로부터의 정보에 액세스하고, 그 메모리에 데이터를 저장할 수 있다.

프로세서(118)는 전원(134)으로부터 전력을 받을 수 있고, WTRU(102)에서의 다른 컴포넌트들에 전력을 분배하고/하거나 전력을 제어하도록 구성될 수 있다. 전원(134)은 WTRU(102)에 전력을 공급하기 위한 임의의 적당한 디바이스일 수도 있다. 예를 들어, 전원(134)은 하나 이상의 건전지(예를 들어, 니켈-카드뮴(NiCd), 니켈-아연(NiZn), 니켈 금속 수소화물(NiMH), 리튬-이온(Li-ion) 등), 태양 전지(solar cell)들, 연료 전지(fuel cell)들 등을 포함할 수 있다.

프로세서(118)는 또한 WTRU(102)의 현재 위치에 관한 위치 정보(예를 들어, 경도 및 위도)를 제공하도록 구성될 수 있는 GPS 칩셋(136)에 결합될 수 있다. GPS 칩셋(136)으로부터의 정보에 부가하여 또는 그 대신에, WTRU(102)는 기지국(예를 들어, 기지국들(114a, 114b))으로부터 공중 인터페이스(116)를 통해 위치 정보를 수신할 수 있고/있거나 2개 이상의 근방의 기지국들로부터 수신되고 있는 신호들의 타이밍에 기초하여 그의 위치를 결정할 수 있다. 실시예와 부합한 채로 있으면서 WTRU(102)가 임의의 적절한 위치 결정 방법에 의해 위치 정보를 획득할 수 있다는 것이 이해될 것이다.

프로세서(118)는, 추가의 특징들, 기능 및/또는 유선 또는 무선 접속을 제공하는 하나 이상의 소프트웨어 및/또는 하드웨어 모듈을 포함할 수 있는 다른 주변기기들(138)에 추가로 결합될 수 있다. 예를 들어, 주변기기들(138)은 가속도계, e-나침반(e-compass), 위성 트랜시버, 디지털 카메라(사진들 및/또는 비디오용), USB(universal serial bus) 포트, 진동 디바이스, 텔레비전 트랜시버, 핸즈 프리 헤드셋, Bluetooth® 모듈, FM(frequency modulated) 라디오 유닛, 디지털 음악 플레이어, 미디어 플레이어, 비디오 게임 플레이어 모듈, 인터넷 브라우저, 가상 현실 및/또는 증강 현실(VR/AR) 디바이스, 활동 추적기 등을 포함할 수 있다. 주변기기들(138)은 하나 이상의 센서를 포함할 수 있고, 센서들은 자이로스코프, 가속도계, 홀 효과 센서(hall effect sensor), 자력계(magnetometer), 배향 센서(orientation sensor), 근접 센서(proximity sensor), 온도 센서, 시간 센서; 지오로케이션 센서(geolocation sensor), 고도계, 광 센서, 터치 센서, 자력계, 기압계, 제스처 센서, 바이오메트릭 센서(biometric sensor), 및/또는 습도 센서 중에서의 하나 이상일 수 있다.

WTRU(102)는 (예를 들어, (예를 들어, 송신을 위한) UL 및 (예를 들어, 수신을 위한) 다운링크 둘다에 대한 특정의 서브프레임들과 연관된) 신호들의 일부 또는 전부의 송신 및 수신이 동시에 발생하고/하거나 동시적일 수 있는 전이중 라디오(full duplex radio)를 포함할 수 있다. 전이중 라디오는 하드웨어(예를 들어, 초크(choke)) 또는 프로세서(예를 들어, 개별 프로세서(도시되지 않음) 또는 프로세서(118)를 통한)를 통한 신호 처리 중 어느 하나를 통해 자기-간섭(self-interference)을 감소 및/또는 실질적으로 제거하는 간섭 관리 유닛을 포함할 수 있다. 실시예에서, WRTU(102)는 (예를 들어, (예를 들어, 송신을 위한) UL 또는 (예를 들어, 수신을 위한) 다운링크 중 어느 하나에 대한 특정의 서브프레임들과 연관된) 신호들의 일부 또는 전부의 송신 및 수신을 위한 반이중 라디오(half-duplex radio)를 포함할 수 있다.

WTRU가 도 1a 내지 도 1b에서 무선 단말기로서 설명되어 있지만, 특정의 대표적인 실시예들에서, 그러한 단말기가 통신 네트워크와의 유선 통신 인터페이스들을 (예를 들어, 일시적으로 또는 영구적으로) 이용할 수 있는 것이 고려된다.

대표적인 실시예들에서, 다른 네트워크(112)는 WLAN일 수 있다.

도 1a 내지 도 1b, 및 대응하는 설명에 비추어, 본 명세서에 설명된 기능들 중 하나 이상 또는 전부는 하나 이상의 에뮬레이션 디바이스(emulation device)(도시되지 않음)에 의해 수행될 수 있다. 에뮬레이션 디바이스들은 본 명세서에 설명된 기능들 중 하나 이상 또는 전부를 에뮬레이팅하도록 구성된 하나 이상의 디바이스일 수 있다. 예를 들어, 에뮬레이션 디바이스들은 다른 디바이스들을 테스트하고/하거나 네트워크 및/또는 WTRU 기능들을 시뮬레이팅하기 위해 이용될 수 있다.

에뮬레이션 디바이스들은 실험실 환경 및/또는 운영자 네트워크 환경에서 다른 디바이스들의 하나 이상의 테스트를 구현하도록 설계될 수 있다. 예를 들어, 하나 이상의 에뮬레이션 디바이스는 통신 네트워크 내의 다른 디바이스들을 테스트하기 위해 유선 및/또는 무선 통신 네트워크의 일부로서 완전히 또는 부분적으로 구현 및/또는 배치되면서, 하나 이상의 또는 모든 기능을 수행할 수 있다. 하나 이상의 에뮬레이션 디바이스는 유선 및/또는 무선 통신 네트워크의 일부로서 일시적으로 구현/배치되면서, 하나 이상의 또는 모든 기능을 수행할 수 있다. 에뮬레이션 디바이스는 공중파 무선 통신들(over-the-air wireless communications)을 이용하여 테스팅하고/하거나 테스팅을 수행할 목적으로 다른 디바이스에 직접 결합될 수 있다.

하나 이상의 에뮬레이션 디바이스는 유선 및/또는 무선 통신 네트워크의 일부로서 구현/배치되지 않으면서, 모든 기능들을 포함하는 하나 이상의 기능을 수행할 수 있다. 예를 들어, 에뮬레이션 디바이스들은 하나 이상의 컴포넌트의 테스팅을 구현하기 위해 테스팅 실험실 및/또는 비-배치된(non-deployed)(예를 들어, 테스팅) 유선 및/또는 무선 통신 네트워크에서의 테스팅 시나리오에서 이용될 수 있다. 하나 이상의 에뮬레이션 디바이스는 테스트 장비일 수 있다. RF 회로(예를 들어, 하나 이상의 안테나를 포함할 수 있음)를 통한 직접 RF 결합 및/또는 무선 통신들이, 데이터를 송신 및/또는 수신하기 위해 에뮬레이션 디바이스들에 의해 이용될 수 있다.

예시적인 시스템들.

본 명세서에 설명된 실시예들은 WTRU 상에서 구현되는 것으로 제한되지 않는다. 그러한 실시예들은 도 1c의 시스템과 같은 다른 시스템들을 이용하여 구현될 수 있다. 도 1c는 다양한 양태들 및 실시예들이 구현되는 시스템의 예의 블록도이다. 시스템(2000)은 아래에 설명되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있고, 본 문서에 설명된 양태들 중 하나 이상을 수행하도록 구성된다. 그러한 디바이스들의 예는, 제한적인 것은 아니지만, 개인용 컴퓨터들, 랩톱 컴퓨터들, 스마트폰들, 태블릿 컴퓨터들, 디지털 멀티미디어 셋톱 박스들, 디지털 텔레비전 수신기들, 개인 비디오 기록 시스템들, 접속된 가전 기기들, 및 서버들과 같은 다양한 전자 디바이스들을 포함한다. 시스템(2000)의 요소들은, 단독으로 또는 조합하여, 단일의 집적 회로(IC), 다수의 IC들, 및/또는 개별 컴포넌트들로 구현될 수 있다. 예를 들어, 적어도 하나의 실시예에서, 시스템(2000)의 처리 및 인코더/디코더 요소들은 다수의 IC들 및/또는 개별 컴포넌트들에 걸쳐 분산된다. 다양한 실시예들에서, 시스템(2000)은, 예를 들어, 통신 버스를 통해 또는 전용 입력 및/또는 출력 포트들을 통해, 하나 이상의 다른 시스템 또는 다른 전자 디바이스에 통신가능하게 결합된다. 다양한 실시예들에서, 시스템(2000)은 본 문서에 설명된 양태들 중 하나 이상을 구현하도록 구성된다.

시스템(2000)은, 예를 들어, 본 문서에 설명된 다양한 양태들을 구현하기 위해 그 안에 로딩된 명령어들을 실행하도록 구성된 적어도 하나의 프로세서(2010)를 포함한다. 프로세서(2010)는 임베디드 메모리, 입력 출력 인터페이스, 및 본 기술분야에 알려진 다양한 다른 회로들을 포함할 수 있다. 시스템(2000)은 적어도 하나의 메모리(2020)(예를 들어, 휘발성 메모리 디바이스 및/또는 비휘발성 메모리 디바이스)를 포함한다. 시스템(2000)은, 제한적인 것은 아니지만, EEPROM(Electrically Erasable Programmable Read-Only Memory), ROM(Read-Only Memory), PROM(Programmable Read-Only Memory), RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), 플래시, 자기 디스크 드라이브, 및/또는 광학 디스크 드라이브를 포함하는, 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있는 저장 디바이스(2040)를 포함한다. 저장 디바이스(2040)는, 비제한적인 예들로서, 내부 저장 디바이스, 부착된 저장 디바이스(분리가능 및 분리불가능 저장 디바이스들을 포함함), 및/또는 네트워크 액세스가능 저장 디바이스를 포함할 수 있다.

시스템(2000)은, 예를 들어, 인코딩된 비디오 또는 디코딩된 비디오를 제공하기 위해 데이터를 처리하도록 구성된 인코더/디코더 모듈(2030)을 포함하고, 인코더/디코더 모듈(2030)은 그 자신의 프로세서 및 메모리를 포함할 수 있다. 인코더/디코더 모듈(2030)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 알려진 바와 같이, 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 둘다를 포함할 수 있다. 추가적으로, 인코더/디코더 모듈(2030)은 시스템(2000)의 별개의 요소로서 구현될 수 있거나, 본 기술분야의 통상의 기술자에게 알려진 바와 같이 하드웨어와 소프트웨어의 조합으로서 프로세서(2010) 내에 통합될 수 있다.

본 문서에 설명된 다양한 양태들을 수행하기 위해 프로세서(2010) 또는 인코더/디코더(2030) 상에 로딩될 프로그램 코드는 저장 디바이스(2040)에 저장되고, 프로세서(2010)에 의한 실행을 위해 메모리(2020) 상에 후속하여 로딩될 수 있다. 다양한 실시예들에 따르면, 프로세서(2010), 메모리(2020), 저장 디바이스(2040), 및 인코더/디코더 모듈(2030) 중 하나 이상은 본 문서에 설명된 프로세스들의 수행 동안 다양한 항목들 중 하나 이상을 저장할 수 있다. 그러한 저장된 항목들은, 제한적인 것은 아니지만, 입력 비디오, 디코딩된 비디오 또는 디코딩된 비디오의 부분들, 비트스트림, 행렬들, 변수들, 및 수학식들, 공식들, 연산들 및 연산 로직의 처리로부터의 중간 또는 최종 결과들을 포함할 수 있다.

일부 실시예에서, 프로세서(2010) 및/또는 인코더/디코더 모듈(2030) 내부의 메모리는 명령어들을 저장하고, 인코딩 또는 디코딩 동안에 필요한 처리를 위한 작업 메모리를 제공하는데 이용된다. 그러나, 다른 실시예들에서, 처리 디바이스(예를 들어, 처리 디바이스는 프로세서(2010) 또는 인코더/디코더 모듈(2030) 중 어느 하나일 수 있음) 외부의 메모리는 이러한 기능들 중 하나 이상을 위해 이용된다. 외부 메모리는 메모리(2020) 및/또는 저장 디바이스(2040), 예를 들어, 동적 휘발성 메모리 및/또는 비휘발성 플래시 메모리일 수 있다. 몇몇 실시예들에서, 외부 비휘발성 플래시 메모리는, 예를 들어, 텔레비전의 운영 체제를 저장하기 위해 이용된다. 적어도 하나의 실시예에서, RAM과 같은 고속 외부 동적 휘발성 메모리는 MPEG-2(MPEG은 Moving Picture Experts Group을 지칭하고, MPEG-2는 ISO/IEC 13818로도 지칭되며, 13818-1은 H.222로도 알려져 있고, 13818-2는 H.262로도 알려져 있음), HEVC(HEVC는 High Efficiency Video Coding을 지칭하고, H.265 및 MPEG-H Part 2로도 알려져 있음), 또는 VVC(Versatile Video Coding, JVET, 즉, Joint Video Experts Team에 의해 개발되고 있는 새로운 표준)와 같은 비디오 코딩 및 디코딩 동작들을 위한 작업 메모리로서 이용된다.

시스템(2000)의 요소들에 대한 입력은 블록(2130)에 나타낸 바와 같이 다양한 입력 디바이스들을 통해 제공될 수 있다. 그러한 입력 디바이스들은, 제한적인 것은 아니지만, (i) 예를 들어, 브로드캐스터에 의해 공중을 통해 송신된 RF 신호를 수신하는 라디오 주파수(RF) 부분, (ii) 컴포넌트(COMP) 입력 단자(또는 COMP 입력 단자들의 세트), (iii) 범용 직렬 버스(USB) 입력 단자, 및/또는 (iv) HDMI(High　Definition　Multimedia Interface) 입력 단자를 포함한다. 도 1c에 도시되지 않은 다른 예들은 합성 비디오를 포함한다.

다양한 실시예들에서, 블록(2130)의 입력 디바이스들은 본 기술분야에 알려진 바와 같은 연관된 개개의 입력 처리 요소들을 갖는다. 예를 들어, RF 부분은 (i) 원하는 주파수를 선택하는 것(또한 신호를 선택하는 것, 또는 주파수들의 대역들에 신호를 대역 제한하는 것으로 지칭됨), (ii) 선택된 신호를 다운컨버팅하는 것, (iii) 주파수들의 더 좁은 대역으로 다시 대역 제한하여, 특정 실시예들에서 채널로 지칭될 수 있는 (예를 들어) 신호 주파수 대역을 선택하는 것, (iv) 다운컨버팅된 및 대역 제한된 신호를 복조하는 것, (v) 에러 정정을 수행하는 것, 및 (vi) 원하는 데이터 패킷들의 스트림을 선택하도록 디멀티플렉싱하는 것을 위해 적절한 요소들과 연관될 수 있다. 다양한 실시예들의 RF 부분은 이러한 기능들을 수행하기 위한 하나 이상의 요소, 예를 들어, 주파수 선택기들, 신호 선택기들, 대역 제한기들, 채널 선택기들, 필터들, 다운컨버터들, 복조기들, 에러 정정기들, 및 디멀티플렉서들을 포함한다. RF 부분은, 예를 들어, 수신된 신호를 더 낮은 주파수(예를 들어, 중간 주파수 또는 근 기저대역 주파수)로 또는 기저대역으로 다운컨버팅하는 것을 포함하여, 다양한 이들 기능들을 수행하는 튜너(tuner)를 포함할 수 있다. 하나의 셋톱 박스 실시예에서, RF 부분 및 그것의 연관된 입력 처리 요소는 유선(예를 들어, 케이블) 매체를 통해 송신된 RF 신호를 수신하고, 필터링, 다운컨버팅, 및 원하는 주파수 대역으로의 재차 필터링에 의해 주파수 선택을 수행한다. 다양한 실시예들은 전술한 (및 다른) 요소들의 순서를 재배열하고, 이 요소들의 일부를 제거하고/하거나, 유사하거나 상이한 기능들을 수행하는 다른 요소들을 추가한다. 요소들을 추가하는 것은, 예를 들어, 증폭기들과 아날로그-디지털 변환기(analog-to-digital converter)를 삽입하는 것과 같이 기존 요소들 사이 내에 요소들을 삽입하는 것을 포함할 수 있다. 다양한 실시예들에서, RF 부분은 안테나를 포함한다.

추가적으로, USB 및/또는 HDMI 단자들은 USB 및/또는 HDMI 접속들을 거쳐 시스템(2000)을 다른 전자 디바이스들에 접속시키기 위한 개개의 인터페이스 프로세서들을 포함할 수 있다. 입력 처리의 다양한 양태들, 예를 들어, 리드-솔로몬 에러 정정(Reed-Solomon error correction)이, 예를 들어, 필요에 따라 별개의 입력 처리 IC 내에서 또는 프로세서(2010) 내에서 구현될 수 있다는 것을 이해해야 한다. 유사하게, USB 또는 HDMI 인터페이스 처리의 양태들은 필요에 따라 별개의 인터페이스 IC들 내에서 또는 프로세서(2010) 내에서 구현될 수 있다. 복조된, 에러 정정된, 및 디멀티플렉싱된 스트림은, 예를 들어, 프로세서(2010), 및 출력 디바이스 상에 제시하기 위해 필요에 따라 데이터스트림을 처리하기 위해 메모리 및 저장 요소들과 결합하여 동작하는 인코더/디코더(2030)를 포함하는, 다양한 처리 요소들에 제공된다.

시스템(2000)의 다양한 요소들은 통합된 하우징 내에 제공될 수 있고, 통합된 하우징 내에서, 다양한 요소들은 적절한 접속 배열(2140), 예를 들어, 인터-IC(I2C) 버스, 배선, 및 인쇄 회로 보드들을 포함하는, 본 기술분야에 알려진 바와 같은 내부 버스를 이용하여 상호접속되고 그들 사이에 데이터를 송신할 수 있다.

시스템(2000)은 통신 채널(2060)을 통해 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(2050)를 포함한다. 통신 인터페이스(2050)는, 제한적인 것은 아니지만, 통신 채널(2060)을 통해 데이터를 송신 및 수신하도록 구성된 트랜시버를 포함할 수 있다. 통신 인터페이스(2050)는, 제한적인 것은 아니지만, 모뎀 또는 네트워크 카드를 포함할 수 있고, 통신 채널(2060)은, 예를 들어, 유선 및/또는 무선 매체 내에서 구현될 수 있다.

데이터는, 다양한 실시예들에서, Wi-Fi 네트워크, 예를 들어, IEEE 802.11(IEEE는 Institute of Electrical and Electronics Engineers를 지칭함)과 같은 무선 네트워크를 이용하여 시스템(2000)에 스트리밍되거나 다른 방식으로 제공된다. 이러한 실시예들의 Wi-Fi 신호는 Wi-Fi 통신을 위해 적응되는 통신 채널(2060) 및 통신 인터페이스(2050)를 통해 수신된다. 이러한 실시예들의 통신 채널(2060)은 전형적으로 스트리밍 애플리케이션들 및 다른 오버-더-톱(over-the-top) 통신들을 허용하기 위해 인터넷을 포함하는 외부 네트워크들에 대한 액세스를 제공하는 액세스 포인트 또는 라우터에 접속된다. 다른 실시예들은 입력 블록(2130)의 HDMI 접속을 통해 데이터를 전달하는 셋톱 박스를 이용하여, 스트리밍된 데이터를 시스템(2000)에 제공한다. 또 다른 실시예들은 입력 블록(2130)의 RF 접속을 이용하여, 스트리밍된 데이터를 시스템(2000)에 제공한다. 위에 언급한 바와 같이, 다양한 실시예들은 비-스트리밍 방식으로 데이터를 제공한다. 추가적으로, 다양한 실시예들은 Wi-Fi 이외의 무선 네트워크들, 예를 들어, 셀룰러 네트워크 또는 블루투스 네트워크를 이용한다.

시스템(2000)은 디스플레이(2100), 스피커들(2110) 및 다른 주변 디바이스들(2120)을 포함하는 다양한 출력 디바이스들에 출력 신호를 제공할 수 있다. 다양한 실시예들의 디스플레이(2100)는, 예를 들어, 터치스크린 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 곡면 디스플레이, 및/또는 폴더블 디스플레이 중 하나 이상을 포함한다. 디스플레이(2100)는 텔레비전, 태블릿, 랩톱, 셀 폰(모바일 폰), 또는 다른 디바이스를 위한 것일 수 있다. 디스플레이(2100)는 또한 (예를 들어, 스마트폰에서와 같이) 다른 컴포넌트들과 통합될 수 있거나, 또는 분리될 수 있다(예를 들어, 랩톱을 위한 외부 모니터). 다른 주변 디바이스들(2120)은, 실시예들의 다양한 예들에서, 독립형 디지털 비디오 디스크(또는 디지털 다기능 디스크(digital versatile disc))(양쪽 용어들에 대해, DVR), 디스크 플레이어, 스테레오 시스템, 및/또는 조명 시스템 중 하나 이상을 포함한다. 다양한 실시예들은 시스템(2000)의 출력에 기초하여 기능을 제공하는 하나 이상의 주변 디바이스(2120)를 이용한다. 예를 들어, 디스크 플레이어는 시스템(2000)의 출력을 재생하는 기능을 수행한다.

다양한 실시예들에서, 제어 신호들은 AV.Link, CEC(Consumer Electronics Control), 또는 사용자 개입으로 또는 사용자 개입 없이 디바이스-대-디바이스 제어를 가능하게 하는 다른 통신 프로토콜들과 같은 시그널링을 이용하여 시스템(2000)과 디스플레이(2100), 스피커들(2110), 또는 다른 주변 디바이스들(2120) 사이에서 통신된다. 출력 디바이스들은 개개의 인터페이스들(2070, 2080, 및 2090)을 통한 전용 접속들을 통해 시스템(2000)에 통신가능하게 결합될 수 있다. 대안적으로, 출력 디바이스들은 통신 인터페이스(2050)를 통해 통신 채널(2060)을 이용하여 시스템(2000)에 접속될 수 있다. 디스플레이(2100) 및 스피커들(2110)은, 예를 들어, 텔레비전과 같은 전자 디바이스에서 시스템(2000)의 다른 컴포넌트들과 단일 유닛으로 통합될 수 있다. 다양한 실시예들에서, 디스플레이 인터페이스(2070)는, 예를 들어, 타이밍 제어기(T Con) 칩과 같은 디스플레이 드라이버를 포함한다.

디스플레이(2100) 및 스피커(2110)는 대안적으로, 예를 들어, 입력(2130)의 RF 부분이 별개의 셋톱 박스의 일부인 경우, 다른 컴포넌트들 중 하나 이상으로부터 분리될 수 있다. 디스플레이(2100) 및 스피커들(2110)이 외부 컴포넌트들인 다양한 실시예들에서, 출력 신호는, 예를 들어, HDMI 포트들, USB 포트들, 또는 COMP 출력들을 포함하는 전용 출력 접속들을 통해 제공될 수 있다.

실시예들은 프로세서(2010)에 의해 구현되는 컴퓨터 소프트웨어에 의해 또는 하드웨어에 의해, 또는 하드웨어와 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예로서, 실시예들은 하나 이상의 집적 회로에 의해 구현될 수 있다. 메모리(2020)는 기술적 환경에 적절한 임의의 타입일 수 있고, 비제한적인 예들로서, 광학 메모리 디바이스들, 자기 메모리 디바이스들, 반도체 기반 메모리 디바이스들, 고정 메모리, 및 이동식 메모리와 같은, 임의의 적절한 데이터 저장 기술을 이용하여 구현될 수 있다. 프로세서(2010)는 기술적 환경에 적절한 임의의 타입일 수 있고, 비제한적인 예들로서, 마이크로프로세서들, 범용 컴퓨터들, 특수 목적 컴퓨터들, 및 멀티-코어 아키텍처에 기초한 프로세서들 중 하나 이상을 포함할 수 있다.

상세한 설명

블록 기반 비디오 코딩.

HEVC와 같이, VVC는 블록 기반 하이브리드 비디오 코딩 프레임워크 상에 구축된다. 도 2a는 일반적인 블록 기반 하이브리드 비디오 인코딩 시스템의 블록도를 제공한다. 입력 비디오 신호(103)는 블록 단위로 처리된다. HEVC에서, ("코딩 유닛" 또는 CU라고 지칭되는) 확장된 블록 크기들은 고해상도(1080p 이상) 비디오 신호들을 효율적으로 압축하는데 이용된다. HEVC에서, CU는 최대 64x64 픽셀일 수 있다. CU는 개별 예측 방법들이 적용되는 예측 유닛들 또는 PU로 더 파티셔닝될 수 있다. 각각의 입력 비디오 블록(MB 또는 CU)에 대해, 공간 예측(161) 및/또는 시간 예측(163)이 수행될 수 있다. 공간 예측(또는 "인트라 예측(intra prediction)")은 현재 비디오 블록을 예측하기 위해 동일한 비디오 픽처/슬라이스에서의 이미 코딩된 이웃 블록들로부터의 픽셀들을 이용한다. 공간 예측은 비디오 신호에 고유한 공간 중복성을 감소시킨다. 시간 예측("인터 예측(inter prediction)" 또는 "움직임 보상 예측(motion compensated prediction)"이라고도 지칭됨)은 현재 비디오 블록을 예측하기 위해 이미 코딩된 비디오 픽처들로부터의 픽셀들을 이용한다. 시간 예측은 비디오 신호에 고유한 시간 중복성을 감소시킨다. 주어진 비디오 블록에 대한 시간 예측 신호는 보통 현재 블록과 그의 참조 블록 사이의 움직임의 양(amount) 및 방향(direction)을 나타내는 하나 이상의 움직임 벡터에 의해 시그널링된다. 또한, (H.264/AVC 또는 HEVC와 같은 최근의 비디오 코딩 표준들에 대한 경우와 같이) 다수의 참조 픽처들이 지원되는 경우, 각각의 비디오 블록에 대해, 그 참조 픽처 인덱스가 추가로 전송되고; 참조 인덱스는 시간 예측 신호가 참조 픽처 저장소(165)에서의 어느 참조 픽처로부터 오는지를 식별하는데 이용된다. 공간 및/또는 시간 예측 후에, 인코더에서의 모드 결정 블록(181)은, 예를 들어, 레이트-왜곡 최적화 방법에 기초하여 최상의 예측 모드를 선택한다. 그 다음, 예측 블록은 현재 비디오 블록으로부터 감산(117)되고; 예측 잔차(prediction residual)는 변환(105)을 이용하여 역상관(de-correlated)되고 양자화(107)되어 타겟 비트레이트를 달성한다. 양자화된 잔차 계수들은 역양자화(111) 및 역변환(113)되어 재구성된 잔차를 형성한 다음, 예측 블록(127)에 다시 가산되어 재구성된 비디오 블록을 형성한다. 디블로킹 필터(de-blocking filter) 및 적응적 루프 필터들(Adaptive Loop Filters)과 같은 추가의 인-루프 필터링(in-loop filtering)은, 재구성된 비디오 블록이 참조 픽처 저장소(165)에 놓여지고 미래의 비디오 블록들을 코딩하기 위해 이용되기 전에 그것에 적용될 수 있다(167). 출력 비디오 비트-스트림(121)을 형성하기 위해, 코딩 모드(인터 또는 인트라), 예측 모드 정보, 움직임 정보, 및 양자화된 잔차 계수들은 모두 엔트로피 코딩 유닛(109)에 전송되어, 비트스트림을 형성하기 위해 더 압축되고 패킹된다.

도 2b는 블록 기반 비디오 디코더의 블록도를 제공한다. 비디오 비트스트림(202)은 엔트로피 디코딩 유닛(208)에서 먼저 언패킹되고 엔트로피 디코딩된다. 코딩 모드 및 예측 정보는 공간 예측 유닛(260)(인트라 코딩된 경우) 또는 시간 예측 유닛(262)(인터 코딩된 경우)에 전송되어 예측 블록을 형성한다. 잔차 변환 계수들은 잔차 블록을 재구성하기 위해 역양자화 유닛(210) 및 역변환 유닛(212)에 전송된다. 예측 블록 및 잔차 블록은 이후 226에서 함께 가산된다. 재구성된 블록은 참조 픽처 저장소(264)에 저장되기 전에 인-루프 필터링을 더 거칠 수 있다. 참조 픽처 저장소에서의 재구성된 비디오는 이후 디스플레이 디바이스를 구동하기 위해 전송될 뿐만 아니라, 미래의 비디오 블록들을 예측하는데 이용된다.

현대의 비디오 코덱들에서, 양방향 움직임 보상 예측(motion compensated prediction)(MCP)은 픽처들 사이의 시간 상관들을 이용함으로써 시간 중복성을 제거함에 있어서의 높은 효율성으로 알려져 있고, 대부분의 최신 비디오 코덱들에서 널리 채택되었다. 그러나, 양방향 예측 신호는 단순히 0.5와 동일한 가중치를 이용하여 2개의 단방향 예측 신호들을 결합함으로써 형성된다. 이것은, 특히 조도(illuminance)가 하나의 참조 픽처로부터 또 다른 참조 픽처로 급속하게 변하는 경우에, 단방향 예측 신호들을 결합하는데 반드시 최적은 아니다. 따라서, 몇몇 예측 기술들은, 일부 전역적 또는 국지적 가중치들과 오프셋 값들을 참조 픽처들에서의 샘플 값들 각각에 적용함으로써, 시간에 걸친 조도 변동을 보상하는 것을 목표로 한다.

스케일러블 비디오 코딩(Scalable Video Coding).

단일 계층 비디오 인코더는 단일 비디오 시퀀스 입력을 취하여 단일 계층 디코더로 송신되는 단일 압축 비트 스트림을 생성할 수 있다. 비디오 코덱은 (예를 들어, 제한적인 것은 아니지만, 위성, 케이블 및 지상파 송신 채널들을 통해 TV 신호들을 전송하는 것과 같은) 디지털 비디오 서비스들을 위해 설계될 수 있다. 비디오 중심 애플리케이션들이 이종 환경들에 배치되는 경우, 다중 계층 비디오 코딩 기술들은 다양한 애플리케이션들을 가능하게 하기 위한 비디오 코딩 표준들의 확장으로서 개발될 수 있다. 예를 들어, 스케일러블 비디오 코딩 및/또는 멀티뷰(multi-view) 비디오 코딩과 같은 다중 계층 비디오 코딩 기술들은 하나보다 많은 비디오 계층을 처리하도록 설계될 수 있으며, 각각의 계층은 특정 공간 해상도, 시간 해상도, 충실도(fidelity) 및/또는 뷰의 비디오 신호를 재구성하기 위해 디코딩될 수 있다. 단일 계층 인코더 및 디코더가 도 2a 및 도 2b를 참조하여 설명되지만, 본 명세서에서 설명된 개념들은, 예를 들어, 멀티뷰 및/또는 스케일러블 코딩 기술들을 위해 다중 계층 인코더 및/또는 디코더를 이용할 수 있다.

스케일러블 비디오 코딩은 이종 네트워크들을 통해 상이한 능력들을 갖는 디바이스들 상에서 실행되는 비디오 애플리케이션들에 대한 체감 품질(quality of experience)을 개선할 수 있다. 스케일러블 비디오 코딩은 가장 높은 표현(예를 들어, 시간 해상도, 공간 해상도, 품질 등)에서 한번 신호를 인코딩할 수 있지만, 클라이언트 디바이스 상에서 실행되는 특정 애플리케이션들에 의해 요구되는 특정 레이트 및 표현에 따라 비디오 스트림들의 서브세트들로부터 디코딩을 가능하게 할 수 있다. 스케일러블 비디오 코딩은 비-스케일러블 솔루션들에 비해 대역폭 및/또는 스토리지를 절약할 수 있다. 국제 비디오 표준들, 예를 들어, MPEG-2 Video, H.263, MPEG4 Visual, H.264 등은 스케일러빌리티 모드들(modes of scalability)을 지원하는 툴(tool)들 및/또는 프로파일들을 가질 수 있다.

표 1은 상이한 타입들의 스케일러빌리티들의 예와 더불어, 그들을 지원할 수 있는 대응하는 표준들을 제공한다. 비트 심도 스케일러빌리티 및/또는 크로마 포맷(chroma format) 스케일러빌리티는, 예를 들어, 전문적인 비디오 애플리케이션들에 의해 주로 이용될 수 있는, 비디오 포맷들(예를 들어, 8-비트보다 높은 비디오, 및 YUV4:2:0보다 높은 크로마 샘플링 포맷들)에 연계될 수 있다. 종횡비 스케일러빌리티가 제공될 수 있다.

스케일러블 비디오 코딩은 기본 계층 비트스트림을 이용하여 비디오 파라미터들의 제1 세트와 연관된 비디오 품질의 제1 레벨을 제공할 수 있다. 스케일러블 비디오 코딩은 하나 이상의 향상 계층 비트스트림(enhancement layer bitstream)을 이용하여 향상된 파라미터들의 하나 이상의 세트와 연관된 더 높은 품질의 하나 이상의 레벨을 제공할 수 있다. 비디오 파라미터들의 세트는 공간 해상도, 프레임 레이트, (예를 들어, SNR, PSNR, VQM, 시각적 품질 등의 형태의) 재구성된 비디오 품질, (예를 들어, 2개 이상의 뷰를 갖는) 3D 능력, 루마 및 크로마 비트 심도, 크로마 포맷, 및 기저 단일-계층 코딩 표준 중 하나 이상을 포함할 수 있다. 상이한 이용 사례들은, 예를 들어, 표 1에 예시된 바와 같이, 상이한 타입들의 스케일러빌리티를 이용할 수 있다. 스케일러블 코딩 아키텍처는 하나 이상의 스케일러빌리티들(예를 들어, 표 1에 열거된 스케일러빌리티들)을 지원하도록 구성될 수 있는 공통 구조를 제공할 수 있다. 스케일러블 코딩 아키텍처는 최소 구성 노력으로 상이한 스케일러빌리티들을 지원하도록 유연할 수 있다. 스케일러블 코딩 아키텍처는, 코딩 로직들(예를 들어, 인코딩 및/또는 디코딩 로직들)이 스케일러블 코딩 시스템 내에서 최대로 재이용될 수 있도록, 블록 레벨 동작들에 대한 변경들을 요구하지 않을 수 있는 적어도 하나의 바람직한 동작 모드를 포함할 수 있다. 예를 들어, 픽처 레벨 계층간 처리 및 관리 유닛에 기초한 스케일러블 코딩 아키텍처가 제공될 수 있고, 여기서 계층간 예측은 픽처 레벨에서 수행될 수 있다.

도 3은 2-계층 스케일러블 비디오 인코더의 예시적인 아키텍처의 도면이다. 비디오 인코더(900)는 비디오(예를 들어, 향상 계층 비디오 입력)를 수신할 수 있다. 향상 계층 비디오는 다운 샘플러(down sampler)(902)를 이용하여 다운샘플링되어 하위 레벨 비디오 입력들(예를 들어, 기본 계층 비디오 입력)을 생성할 수 있다. 향상 계층 비디오 입력 및 기본 계층 비디오 입력은 다운샘플링 프로세스를 통해 서로 대응할 수 있고, 공간 스케일러빌리티를 달성할 수 있다. 기본 계층 인코더(904)(예를 들어, 이 예에서 HEVC 인코더)는 블록별로 기본 계층 비디오 입력을 인코딩하고, 기본 계층 비트스트림을 생성할 수 있다. 도 2a는 도 3에서의 기본 계층 인코더로서 이용될 수 있는 예시적인 블록 기반 단일 계층 비디오 인코더의 도면이다.

향상 계층에서, 향상 계층(EL) 인코더(906)는 기본 계층 비디오 입력보다 더 높은 공간 해상도(예를 들어, 및/또는 더 높은 값의 다른 비디오 파라미터들)일 수 있는 EL 입력 비디오 입력을 수신할 수 있다. EL 인코더(906)는, 예를 들어, 압축을 달성하기 위해 공간 및/또는 시간 예측을 이용하여, 기본 계층 비디오 인코더(904)와 실질적으로 유사한 방식으로 EL 비트스트림을 생성할 수 있다. 계층간 예측(ILP)은 그의 코딩 성능을 개선하기 위해 EL 인코더(906)에서 이용가능할 수 있다. 현재 향상 계층에서의 코딩된 비디오 신호들에 기초하여 예측 신호를 도출할 수 있는 공간 및 시간 예측들과는 달리, 계층간 예측은 기본 계층(예를 들어, 및/또는 스케일러블 시스템에 2개보다 많은 계층들이 있을 때 다른 하위 계층들)으로부터의 코딩된 비디오 신호들에 기초하여 예측 신호를 도출할 수 있다. 계층간 예측의 적어도 2개의 형태들, 즉, 픽처 레벨 ILP 및 블록 레벨 ILP가 스케일러블 시스템에서 이용될 수 있다. 픽처 레벨 ILP 및 블록 레벨 ILP가 본 명세서에서 논의된다. 비트스트림 멀티플렉서(908)는 기본 계층 및 향상 계층 비트스트림들을 함께 결합하여 스케일러블 비트스트림을 생성할 수 있다.

도 4는 2-계층 스케일러블 비디오 디코더의 예시적인 아키텍처의 도면이다. 도 4의 2-계층 스케일러블 비디오 디코더 아키텍처는 도 3에서의 스케일러블 인코더에 대응할 수 있다. 비디오 디코더(1000)는, 예를 들어, 스케일러블 인코더(예를 들어, 스케일러블 인코더(900))로부터 스케일러블 비트스트림을 수신할 수 있다. 디멀티플렉서(1002)는 스케일러블 비트스트림을 기본 계층 비트스트림 및 향상 계층 비트스트림으로 분리할 수 있다. 기본 계층 디코더(1004)는 기본 계층 비트스트림을 디코딩할 수 있고, 기본 계층 비디오를 재구성할 수 있다. 도 2b는 도 4에서의 기본 계층 디코더로서 이용될 수 있는 예시적인 블록 기반 단일 계층 비디오 디코더의 도면이다.

향상 계층 디코더(1006)는 향상 계층 비트스트림을 디코딩할 수 있다. EL 디코더(1006)는 기본 계층 비디오 디코더(1004)와 실질적으로 유사한 방식으로 EL 비트스트림을 디코딩할 수 있다. 향상 계층 디코더는 현재 계층으로부터의 정보 및/또는 하나 이상의 종속 계층(예를 들어, 기본 계층)으로부터의 정보를 이용하여 그렇게 할 수 있다. 예를 들어, 하나 이상의 종속 계층으로부터의 그러한 정보는 계층간 처리를 거칠 수 있으며, 이는 픽처 레벨 ILP 및/또는 블록 레벨 ILP가 이용될 때 달성될 수 있다. 도시되지는 않았지만, 추가적인 ILP 정보는 MUX(908)에서 기본 및 향상 계층 비트스트림들과 함께 멀티플렉싱될 수 있다. ILP 정보는 DEMUX(1002)에 의해 디멀티플렉싱될 수 있다.

도 5는 2 뷰 비디오 코딩 구조의 예를 도시하는 도면이다. 일반적으로 1100에 도시된 바와 같이, 도 5는 2-뷰 비디오 코딩에 대한 시간 및 차원/계층간 예측의 예를 도시한다. 일반적인 시간 예측 외에, 계층간 예측(예를 들어, 파선으로 예시됨)은 다수의 비디오 계층들 간의 상관을 탐구함으로써 압축 효율을 개선하는데 이용될 수 있다. 이 예에서, 계층간 예측은 2개의 뷰들 사이에서 수행될 수 있다.

계층간 예측은, 예를 들어, 다수의 계층들 사이의 강력한 상관을 탐구하기 위해 및/또는 스케일러블 코딩 효율을 개선하기 위해 HEVC 스케일러블 코딩 확장에서 이용될 수 있다.

도 6은, 예를 들어, HEVC 스케일러블 코딩 시스템에 대해 고려될 수 있는 예시적인 계층간 예측 구조를 도시하는 도면이다. 일반적으로 1200에 도시된 바와 같이, 향상 계층의 예측은 (예를 들어, 2개의 계층들 사이의 공간 해상도들이 상이한 경우 업샘플링 후에) 재구성된 기본 계층 신호로부터 움직임 보상된 예측에 의해, 현재 향상 계층 내의 시간 예측에 의해, 및/또는 시간 예측 신호로 기본 계층 재구성 신호를 평균함으로써 형성될 수 있다. 하위 계층 픽처들의 완전한 재구성이 수행될 수 있다. 2개보다 많은 계층을 갖는 HEVC 스케일러블 코딩을 위해 유사한 개념들이 이용될 수 있다.

코딩된 비트스트림 구조.

도 7은 코딩된 비트스트림 구조의 예를 도시하는 도면이다. 코딩된 비트스트림(1300)은 다수의 NAL(Network Abstraction layer) 유닛들(1301)로 구성된다. NAL 유닛은 코딩된 슬라이스(1306)와 같은 코딩된 샘플 데이터, 또는 파라미터 세트 데이터, 슬라이스 헤더 데이터(1305) 또는 보충 향상 정보 데이터(1307)(SEI 메시지로 지칭될 수 있음)와 같은 하이 레벨 신택스 메타데이터를 포함할 수 있다. 파라미터 세트들은 다수의 비트스트림 계층들(예를 들어, 비디오 파라미터 세트(1302)(VPS))에 적용될 수 있거나, 또는 하나의 계층 내의 코딩된 비디오 시퀀스(예를 들어, 시퀀스 파라미터 세트(1303)(SPS))에 적용될 수 있거나, 또는 하나의 코딩된 비디오 시퀀스 내의 다수의 코딩된 픽처들(예를 들어, 픽처 파라미터 세트(1304)(PPS))에 적용될 수 있는 필수 신택스 요소들을 포함하는 하이 레벨 신택스 구조들이다. 파라미터 세트들은 비디오 비트 스트림의 코딩된 픽처들과 함께 전송되거나, 다른 수단(신뢰성 있는 채널들을 이용하는 대역외 송신, 하드 코딩 등을 포함함)을 통해 전송될 수 있다. 슬라이스 헤더(1305)는 또한 비교적 작거나 특정 슬라이스 또는 픽처 타입들에 대해서만 관련되는 일부 픽처 관련 정보를 포함할 수 있는 하이 레벨 신택스 구조이다. SEI 메시지들(1307)은 디코딩 프로세스에 의해 필요하지 않을 수 있지만, 손실 검출 및 은닉뿐만 아니라 픽처 출력 타이밍 또는 디스플레이와 같은 다양한 다른 목적들을 위해 이용될 수 있는 정보를 운반한다.

통신 디바이스들 및 시스템들.

도 8은 통신 시스템의 예를 도시하는 도면이다. 통신 시스템(1400)은 인코더(1402), 통신 네트워크(1404) 및 디코더(1406)를 포함할 수 있다. 인코더(1402)는 유선 접속 또는 무선 접속일 수 있는 접속(1408)을 통해 네트워크(1404)와 통신할 수 있다. 인코더(1402)는 도 2a의 블록 기반 비디오 인코더와 유사할 수 있다. 인코더(1402)는 단일 계층 코덱(예를 들어, 도 2a) 또는 다중 계층 코덱을 포함할 수 있다. 디코더(1406)는 유선 접속 또는 무선 접속일 수 있는 접속(1410)을 통해 네트워크(1404)와 통신할 수 있다. 디코더(1406)는 도 2b의 블록 기반 비디오 디코더와 유사할 수 있다. 디코더(1406)는 단일 계층 코덱(예를 들어, 도 2b) 또는 다중 계층 코덱을 포함할 수 있다.

인코더(1402) 및/또는 디코더(1406)는, 제한적인 것은 아니지만, 디지털 텔레비전들, 무선 방송 시스템들, 네트워크 요소/단말기, 콘텐츠 또는 웹 서버들(예를 들어, 하이퍼텍스트 전송 프로토콜(HTTP) 서버 등)과 같은 서버들, PDA(personal digital assistant)들, 랩톱 또는 데스크톱 컴퓨터들, 태블릿 컴퓨터들, 디지털 카메라들, 디지털 기록 디바이스들, 비디오 게임 디바이스들, 비디오 게임 콘솔들, 셀룰러 또는 위성 라디오 전화들, 디지털 미디어 플레이어들과 같은 다양한 유선 통신 디바이스들 및/또는 무선 송신/수신 유닛(WTRU)들에 통합될 수 있다.

통신 네트워크(1404)는 적절한 타입의 통신 네트워크일 수 있다. 예를 들어, 통신 네트워크(1404)는 음성, 데이터, 비디오, 메시징, 방송 등과 같은 콘텐츠를 다수의 무선 사용자들에게 제공하는 다중 액세스 시스템일 수 있다. 통신 네트워크(1404)는 다수의 무선 사용자들이 무선 대역폭을 포함하는 시스템 자원들의 공유를 통해 그러한 콘텐츠에 액세스할 수 있게 할 수 있다. 예를 들어, 통신 네트워크(1404)는 코드 분할 다중 액세스(CDMA), 시분할 다중 액세스(TDMA), 주파수 분할 다중 액세스(FDMA), 직교 FDMA(OFDMA), 단일 캐리어 FDMA(SC-FDMA) 등과 같은 하나 이상의 채널 액세스 방법을 이용할 수 있다. 통신 네트워크(1404)는 다수의 접속된 통신 네트워크들을 포함할 수 있다. 통신 네트워크(1404)는 인터넷 및/또는 셀룰러 네트워크들, WiFi 핫스팟들, 인터넷 서비스 제공자(ISP) 네트워크들 등과 같은 하나 이상의 사설 상용 네트워크(private commercial network)를 포함할 수 있다.

서브-픽처들.

서브-픽처는 콘텐츠 제작 측에서 비디오 인코딩 전에 공간 서브세트들로 분할된, 원래의 비디오 콘텐츠의 공간 서브세트를 나타내는 픽처이다. 서브-픽처 비트스트림은 서브-픽처들을 포함하는 하나 이상의 표현의 인코딩된 버전이다. (서브-픽처 및 서브-픽처 비트스트림이라는 용어들은 이 맥락에서 상호교환가능하게 이용될 수 있다.)

서브-픽처들은 뷰포트 적응적 스트리밍을 위해 관심 영역(ROI) 애플리케이션들 또는 전방향성 비디오에서 이용될 수 있다. 도 9는 뷰포트 적응적 스트리밍의 예를 도시한다. 이 예에서, 서브-픽처들은, 예를 들어, 큐맵 투영 포맷(cubemap projection format)의 페이스들(faces)을 나타낼 수 있다. 콘텐츠는 2개의 공간 해상도들로 인코딩된다. 두 해상도들에서, 3x2 서브-픽처 그리드가 이용되고, 각각의 서브-픽처는 다른 서브-픽처들과 독립적으로 인코딩된다. 각각의 코딩된 서브-픽처 시퀀스는 서브-픽처 비트스트림으로서 저장되며, 그 결과 12개의 서브-픽처 비트스트림이 추출에 이용가능하다. 사용자의 시청 배향에 따라, 고해상도 및 저해상도 서브-픽처들의 상이한 조합이 추출되고, 그 후 사용자의 360 비디오 스트리밍 클라이언트로의 전달을 위해 재패키징될 수 있다. 예를 들어, 사용자의 배향이 전방 서브-픽처 콘텐츠와 잘 정렬되면, 고해상도 전방 서브-픽처(예를 들어, 정면 뷰)는 다양한 다른 저해상도 서브-픽처들(예를 들어, 좌측, 우측, 최상부, 후방 및 최하부 뷰들)과 함께 추출될 수 있다. 이어서, 추출된 서브-픽처들은 전체 감소된 비트레이트로 고해상도 뷰포트를 사용자에게 전달하기 위해 출력 비트스트림을 형성하도록 재배치될 수 있다.

서브-비트스트림들.

서브-비트스트림 추출 프로세스는 타겟 최고 TemporalID 및 타겟 계층 식별자 리스트에 의해 결정되는 타겟 세트에 속하지 않는 비트스트림에서의 NAL 유닛들이 비트스트림으로부터 제거되게 하는 특정된 프로세스로서 HEVC에서 특정되고, 출력 서브-비트스트림은 타겟 세트에 속하는 비트스트림에서의 NAL 유닛들로 구성된다. 서브-비트스트림 추출 프로세스에 대한 입력들은 비트스트림, 타겟 최고 TemporalID 값 및 타겟 계층 식별자 리스트이고, 그러한 프로세스의 출력은 서브-비트스트림이다.

서브-픽처 추출 및 재배치 프로세스에서, 서브-비트스트림은 하나의 비트스트림으로부터 추출될 뿐만 아니라 출력 비트스트림을 형성하기 위해 다른 비트스트림 내로 재배치된다.

일부 실시예들에서 다루어지는 문제들.

서브-픽처 관련 제안들은 유연한 타일링 및 독립적으로 디코딩가능한 직사각형 영역(들)을 가능하게 하기 위해 13번째 JVET 회의에서 검토되었다. JVET-M0261, "On grouping of tiles", Jan. 2019에서, 서브-픽처는 서브-픽처 크기 시그널링을 갖는 그 자신의 PPS들을 참조할 수 있고, 서브-픽처는 디코딩 프로세스에서 픽처처럼 취급될 수 있고, 예를 들어, 패딩을 이용하여 픽처 경계들로서 서브-픽처 경계들을 취급하는 것이 제안되었다. JVET-M0388, "On merging of MCTSs for viewport dependent streaming", Jan. 2019에서, 동일한 코딩된 픽처의 서브-픽처들이 각각의 표현의 상이한 IRAP(intra random access point) 거리를 수용하기 위해 상이한 NAL 유닛 타입 값들을 가질 수 있다는 것이 제안되었다. 서브-픽처는 또한 SEI 메시지를 이용하여 명시된 HEVC로서 움직임 제약된 타일 세트(MCTS)로서 취급될 수 있다.

디코더 버퍼 관리, 픽처 순서 카운트(POC) 값 동기화, 서브-픽처 기반 추출 및 재배치 프로세스를 용이하게 하기 위한 서브-픽처 파라미터 세트의 이용, 및 다른 동작들을 위한 시스템들 및 방법들이 본 명세서에 개시된다.

JVET-N0826에 기술된 바와 같이, 서브-픽처 기반 코딩은 VVC에서 구현될 수 있다. 픽처는 서브-픽처들로 분할될 수 있고, 각각의 서브-픽처는 그 자신의 타일 파티셔닝을 갖는 그 자신의 PPS를 참조할 수 있다. 각각의 서브-픽처의 위치 및 크기는 SPS에 표시된다. SPS는 또한 하나 또는 다수의 출력 서브-픽처 세트를 명시한다. 각각의 출력 서브-픽처 세트는 특정 해상도, 프로파일, 티어 및 레벨을 갖는 출력 픽처를 형성하기 위해 다수의 서브-픽처들을 포함할 수 있다. 그러나, 그러한 시스템에 따른 출력 서브-픽처 세트는 동일한 SPS를 참조하는 서브-픽처들만을 적용한다. 이와 달리, 상이한 SPS들을 참조하는 상이한 해상도 픽처들로부터 상이한 서브-픽처들을 구성하기 위해 뷰포트 의존적 스트리밍을 이용할 때 바람직할 수 있다. 또한, 서브-픽처들의 하나의 레이아웃 구성만이 SPS에서 시그널링되는 경우 SPS는 다수의 계층들에 걸쳐 공유되지 않을 수 있다.

몰입형 미디어 액세스 및 전달을 위해, 새로운 애플리케이션들을 위한 일반화된 시스템 디코더 모델을 이용하는 것이 바람직하다. 새로운 미디어 애플리케이션들은 다수의 컴포넌트들로 구성될 수 있고, 미디어 데이터의 렌더링은 컴포넌트 데이터의 전부 또는 서브세트를 디코딩하도록 동작한다. 각각의 컴포넌트 데이터는 상이한 미디어 코덱에 의해 인코딩될 수 있고, (공간 코딩 해상도, 코딩 품질 및 시간 코딩 레이트와 같은) 동일한 컴포넌트 콘텐츠의 다수의 스케일러블 버전이 적응적 액세스 및 전달을 위해 이용가능할 수 있다. 예를 들어, 비디오 기반 포인트 클라우드 압축(VPCC)은 포인트 클라우드 데이터를 지오메트리, 텍스처, 점유 맵 및 패치 컴포넌트들에 투영하고; 각각의 비디오 컴포넌트 데이터는 AVC, HEVC 또는 VVC 인코더에 의해 인코딩될 수 있고, 포인트 클라우드 데이터는 모든 또는 부분적인 디코딩된 비디오 컴포넌트 데이터와 타이밍된(timed) 메타데이터를 결합함으로써 재구성될 수 있다. 3DoF+ 비주얼 코딩은 클라이언트 측에서 뷰 합성 및 렌더링을 용이하게 하기 위해 메타데이터와 함께 다수의 기본 뷰 및 추가 뷰 데이터를 제공한다. 이러한 멀티-스트림 시나리오들은 액세스, 전달 및 프리젠테이션 동기화를 다루기 위해 파일 포맷 및 스트리밍 프로토콜과 같은 시스템 사양에 의해 전통적으로 처리된다. 새로운 디코딩 모델 및 NAL 유닛 설계는 멀티-스트림 시나리오를 처리하기 위해 비디오 코딩 표준에 대해 요구될 수 있다.

계층간 예측이 없는 계층 개념은 VVC에서 몰입형 미디어 액세스 및 전달을 지원하기 위한 시작점으로서 채택되는데, 그 이유는 계층 구조가 직접 멀티-스트림을 지원할 수 있기 때문이다. 서브-픽처 시나리오의 경우, 각각의 서브-픽처는 특정 계층의 독립 픽처로서 표현될 수 있고; 서브-픽처는 VPCC 데이터에 대한 패치 또는 패치들의 그룹을 나타낼 수 있다. 출력 픽처는 상이한 계층들로부터의 다수의 서브-픽처들의 합성 픽처일 수 있다. 그러나, 상이한 계층들로부터의 서브-픽처들 사이의 콘텐츠 및 공간 상관을 표시하기 위해 적절한 시그널링이 이전에 개발되지 않았다.

일부 실시예들의 개요.

본 명세서에서 설명된 예시적인 시스템들 및 방법들은 서브-픽처 추출 및 재배치 프로세스를 지원하는 하이 레벨 신택스 설계를 이용한다. 입력 비디오는 다수의 표현들로 인코딩될 수 있고, 각각의 표현은 계층으로서 표현될 수 있다. 계층 픽처는 다수의 서브-픽처들로 파티셔닝될 수 있다. 각각의 서브-픽처는 그 자신의 타일 파티셔닝, 해상도, 컬러 포맷 및 비트 심도를 가질 수 있다. 각각의 서브-픽처는 동일한 계층의 다른 서브-픽처들과 독립적으로 인코딩되지만, 그 종속 계층들로부터의 대응하는 서브-픽처들로부터 인터 예측될 수 있다. 각각의 서브-픽처는 해상도 및 좌표와 같은 서브-픽처 속성들이 시그널링되는 서브-픽처 파라미터 세트를 참조할 수 있다. 각각의 서브-픽처 파라미터 세트는 전체 픽처의 해상도가 시그널링되는 PPS를 참조할 수 있다.

연관된 픽처 내의 각각의 서브-픽처 NAL 유닛의 POC 값은 바람직하게는 일관되고, NAL 유닛 타입은 액세스 유닛과 상이할 수 있다. POC 리셋 방법은 IDR NAL 유닛 및 비-IDR NAL 유닛이 동일한 POC 값을 공유하는 것을 보장하기 위해 이용된다.

DPB는 다수의 서브-DPB들로 파티셔닝되고, 각각의 서브-DPB는 서브-픽처와 연관된다. 최대 서브-DPB 크기 및 재정렬된 픽처 번호는 세션 협상을 위해 각각의 서브-픽처에 대해 시그널링될 수 있다.

출력 서브-픽처 세트는 출력 픽처에 대해 추출되고 재배치될 서브-픽처들을 표시하는데 이용된다. 서브-픽처 추출 프로세스는 출력 서브-픽처 세트에 포함되지 않은 서브-픽처 식별자 또는 타일 그룹 ID를 갖는 모든 NAL 유닛들을 제거하고, 시간 ID가 타겟 시간 ID보다 큰 모든 NAL 유닛들을 제거한다.

출력 픽처에 대한 서브-픽처들을 재배치한 후에, 각각의 서브-픽처 파라미터 세트는 출력 픽처와 연관된 새로운 PPS를 참조할 수 있다. 각각의 서브-픽처의 POC 값은 새로운 출력 시퀀스의 POC 앵커 픽처(anchor picture)에 기초하여 도출될 수 있다. 적응적 해상도 변경(adaptive resolution change)(ARC)을 가능하게 하고 대응하는 참조 픽처들이 DPB에서 이용가능하도록 하기 위해 제약들이 제안된다. ARC 동안, 이전 서브-픽처의 참조 픽처들은 스위칭되는 ARC 서브-픽처와 매칭하도록 스케일링 및 변환될 수 있다. 스케일링 및 변환된 참조 픽처들은 새로운 서브-픽처와 연관된 서브-DPB에 배치되고, 이전 서브-픽처와 연관된 서브-DPB는 자유로워진다. 출력 픽처의 각각의 서브-픽처의 크기는 변할 수 있고, 출력 픽처의 크기도 변할 수 있다. 최대 출력 픽처 해상도, 프로파일 및 레벨은 출력 서브-픽처 세트, 또는 서브-픽처 추출 및 재배치 프로세스와 연관된 출력 파라미터 세트에서 시그널링될 수 있다.

원래의 비디오 콘텐츠는 상이한 해상도, 심도, 또는 컬러 포맷으로 다수의 버전들 또는 표현들로 인코딩될 수 있다. 이들 표현들 각각은 다중 계층 구조로 패킹될 수 있다. 각각의 비트스트림은 다른 계층들로부터 독립적으로 코딩되거나 또는 계층간 예측될 수 있다. 각각의 표현은 그 자신의 계층 ID 및 시간 ID를 갖는다. 각각의 서브-픽처는 하나의 타일 그룹만을 포함하기 때문에, 타일 그룹 ID는 서브-픽처에 대한 식별자(예를 들어, 고유 식별자)로서 이용될 수 있다. 아래의 서브섹션들에서 더 설명되는 바와 같이, 출력 서브-픽처 세트, 서브-픽처 파라미터 세트 및 서브-DPB 관리가 본 명세서에서 설명된다.

출력 서브-픽처 세트.

스케일러블 HEVC(SHVC)는, ISO/IEC DIS 23008-2:2018 (E), "High Efficiency Video Coding"에 기술된 바와 같이, 서브-비트스트림 추출 프로세스의 동작에 의해 다른 비트스트림으로부터 생성된 비트스트림 내에 표현된 계층들의 세트를 식별하기 위해 계층 세트를 명시한다.

일부 실시예들에서, 서브-픽처 추출 프로세스에 대해, 출력 서브-픽처 세트는 출력 비트스트림에 포함될 다중 계층들 또는 다중 표현들에 걸쳐 서브-픽처들을 더 식별하는데 이용된다. 출력 서브-픽처 세트는 비디오 파라미터 세트(VPS), 시퀀스 파라미터 세트(SPS) 또는 디코더 파라미터 세트(DPS)와 같은 계층화된 코딩 또는 세션 협상을 위한 파라미터 세트에서 운반될 수 있다. 출력 서브-픽처 세트는 세트에 포함된 서브-픽처들의 수 및 각각의 서브-픽처의 타일 그룹 ID를 표시한다. 각각의 서브-픽처는 계층 ID와 연관될 수 있으며, 다른 종속 계층에서의 다른 서브-픽처로부터 계층간 예측될 수 있다. 출력 서브-픽처 세트는 타겟 시간 계층 ID와 함께 서브-픽처 추출 동작 포인트를 식별한다. 미들 박스 또는 클라이언트는 출력 서브-픽처 세트에 포함된 값들 중에 있지 않은 계층 ID 및 서브-픽처 타일 그룹 ID를 갖는 모든 NAL 유닛들을 제거하고, 타겟 시간 계층 ID보다 큰 시간 ID를 갖는 NAL 유닛들을 제거함으로써 출력 서브-비트스트림을 도출할 수 있다.

일부 실시예들에서, 출력 서브-픽처 세트는 출력 픽처 크기, 컬러 포맷, 비트 심도 및 비트스트림 패킹, 출력 픽처 재구성 및 렌더링을 위한 출력 픽처 내의 서브-픽처들의 레이아웃들 중 하나 이상을 표시하는 파라미터들을 포함한다. 비트스트림 패킹 및 출력 픽처 재구성 목적들을 위해 다수의 레이아웃들이 제공될 수 있다. 서브-픽처 레이아웃은 출력 픽처 내의 각각의 서브-픽처의 위치 및 크기를 표시할 수 있다. 서브-픽처 레이아웃은 출력 픽처 재구성 및 렌더링을 위한 서브-픽처의 미러링(mirroring), 플립핑(flipping), 회전 및 스케일링과 같은 영역별 변환 타입을 표시할 수 있다. 일부 실시예들에서, 서브-픽처는 비트스트림에서 저해상도로 패킹되지만, 출력 서브-픽처 세트 시그널링에 기초하여 업스케일링된 고해상도로 재구성 및 렌더링된다.

표 2. 제안된 출력 서브-픽처 세트

표 2는 제안된 출력 서브-픽처 세트의 신택스 구조 예를 도시한다. 이 예에서의 각각의 출력 서브-픽처 세트(OSPS)는 출력 프레임 해상도, 출력될 서브-픽처들의 수, 및 출력 프레임을 구성하기 위한 각각의 출력 서브-픽처의 계층 ID, 서브-픽처 ID, 위치 및 크기를 명시한다. 표 2의 예에서, 출력 서브-픽처 세트는 세트에서의 각각의 서브-픽처에 대한 프로파일, 티어 및/또는 레벨을 시그널링한다. 일부 실시예들에서, 이 정보는 각각의 서브-픽처에 대한 profile_tier_level() 데이터 구조에서 시그널링된다. 요소 sub_pic_max_tId[i][j]는 추출 프로세스를 위한 연관된 서브-픽처의 최대 시간 ID를 명시한다. 변환 신택스 요소는 출력 픽처를 구성하기 위한 특정 서브-픽처의 변환의 타입을 명시한다. 각각의 OSPS는 또한 그것이 준수하는 프로파일, 계층 및 레벨을 표시할 수 있다.

다른 실시예에서, x_offset, y_offset에 의해 지정되는 출력 서브-픽처 레이아웃은 추천된 영역별 패킹 및 렌더링을 위해 선택적일 수 있으며, 클라이언트는 출력 픽처를 임의의 출력 레이아웃 포맷으로 구성 및 렌더링할 수 있다. 출력 픽처는 임의의 서브-픽처들에 의해 채워지지 않은 특정 스킵된 영역들을 가질 수 있고, 클라이언트는 이러한 스킵된 영역들에 대한 채움 및 렌더링 방법을 결정할 수 있다. 도 10은 스킵된 영역들(즉, 스킵된 영역 #0 및 #1)을 갖는 출력 픽처의 예를 도시한다.

VPS 또는 SPS와 같은 파라미터 세트는 계층들에 걸쳐 다수의 서브-픽처들을 명시할 수 있으며, 각각의 서브-픽처는 그 자신의 고유 ID를 갖는다. 동일한 VPS 또는 SPS를 참조하는 서브-픽처들은 동일한 콘텐츠로부터 유래하지만 상이한 버전들로 인코딩될 수 있다. 인코딩된 버전은 특정 공간 해상도, 시간 프레임 레이트, 컬러 공간, 심도, 또는 컴포넌트를 지칭할 수 있다. 동일한 인코딩된 버전의 모든 서브-픽처들은 계층들에 걸쳐 동일한 SPS를 참조할 수 있다.

SPS가 다수의 계층들에 의해 공유될 수 있는 경우에, SPS는 각각의 계층 픽처와 연관된 모든 서브-픽처 구성들을 시그널링할 수 있고, PPS 또는 다수의 서브-픽처들로 구성되는 픽처와 연관된 파라미터 세트는 그러한 서브-픽처 구성 리스트로의 인덱스를 참조할 수 있다. 표 3은 num_sub_pic_cfgs_minus1 + 1이 이용가능한 서브-픽처 구성들의 수를 명시하고, 각각의 서브-픽처 구성이 다수의 서브-픽처들로 구성될 수 있는 제안된 SPS 신택스 구조를 나타내며, 각각의 서브-픽처는 그 자신의 위치 및 크기를 갖는다. 표 4에 명시된 인덱스 pps_sub_pic_cfg_idx는 SPS에서의 서브-픽처 구성 리스트로의 인덱스이고, 대응하는 서브-픽처 레이아웃은 PPS와 연관된 픽처들에 적용된다.

표 3. 서브-픽처들의 제안된 SPS 시그널링

표 4. 서브-픽처들의 제안된 PPS 시그널링

다른 실시예에서, 모든 서브-픽처 구성들은 VPS에서 시그널링될 수 있고; SPS, PPS 또는 다수의 서브-픽처로 구성되는 픽처와 연관된 파라미터 세트는 그러한 서브-픽처 구성 리스트로의 인덱스를 참조할 수 있다.

다른 실시예에서, 코딩된 비디오 시퀀스(CVS) 동안 속성들이 변경되는 서브-픽처들에 대한 픽처 레벨 파라미터 세트 또는 헤더에서 SPS 서브-픽처 구성을 오버라이드하는 것이 제안된다. 오버라이드 신택스 요소들(override syntax elements)은 오버라이드 플래그, 업데이트된 서브-픽처들의 수 및 오버라이드 플래그가 설정될 때 업데이트된 서브-픽처의 구성을 포함할 수 있다. 표 5는 SPS 또는 VPS에서 명시된 서브-픽처 위치 및 크기를 오버라이드하기 위한 PPS 신택스 구조 예이다.

표 5. 제안된 서브-픽처 오버라이드 신호

다른 실시예에서, 각각의 계층과 연관된 디폴트 서브-픽처 구성은 VPS 또는 DPS에서 시그널링될 수 있고, SPS는 SPS를 참조하는 계층과 연관된 서브-픽처 구성이 VPS 또는 DPS에서 시그널링된 디폴트 서브-픽처 구성과 상이할 때 서브-픽처 구성을 오버라이드할 수 있다. sps_sub_pic_cfg_override_flag는 SPS에서 서브-픽처 구성 신택스 요소들의 존재를 명시하기 위해 SPS에서 표시될 수 있다.

도 11은 계층 구조 예를 도시한다. 서브-픽처 #0, #1 및 #2는 제1 소스 콘텐츠의 다수의 영역들을 나타낸다. 서브-픽처 #5 및 #6은 제2 소스 콘텐츠의 영역들을 나타낸다. 서브-픽처 #3은 서브-픽처 #0의 향상된 버전(예를 들어, 더 높은 해상도)이고, 서브-픽처 #4는 서브-픽처 #1의 향상된 버전이고, 서브-픽처 #7은 서브-픽처 #6의 향상된 버전이다. 서브-픽처 #3은 서브-픽처 #0으로부터 예측될 수 있고, 서브-픽처 #4는 서브-픽처 #1로부터 예측될 수 있다. 서브-픽처 #7은 독립적으로 코딩된다. 총 5개의 계층들이 이용가능하고(계층-0 내지 계층-4); 각각의 계층은 콘텐츠의 하나의 버전을 포함한다. 계층은 전체 픽처 또는 단지 하나 이상의 서브-픽처를 포함할 수 있다. 각각의 서브-픽처는 그 자신의 PPS를 참조할 수 있다. 동일한 소스와 연관된 모든 계층들은 동일한 SPS 또는 VPS를 참조할 수 있다. 계층들에 걸쳐 동일한 SPS를 공유하는 하나의 이점은 CTU 크기, 비트 심도, 크로마 포맷 등과 같은 코딩 구성들의 보장이다. 일부 실시예들에서, 동일한 SPS를 참조하는 각각의 서브-픽처가 고유 서브-픽처 ID를 갖는 제약이 제안된다.

표 6은 계층들에 걸친 서브-픽처들 사이의 관계를 표시하기 위한 서브-픽처 대응 및 종속성 표시자들의 예를 제공한다. 플래그 sub_pic_corresponding_flag[i][j]가 1과 동일할 때, 식별자 corresponding_sub_pic_id[i][j]는 i번째 계층의 j번째 서브-픽처에 대응하는 서브-픽처를 명시하기 위해 제공된다. 대응하는 서브-픽처들은 둘다 원래의 콘텐츠의 동일한 영역을 커버할 수 있지만, 2개의 서브-픽처들의 해상도, 품질 및 변환은 상이할 수 있다.

플래그 sub_pic_dependent_flag[i][j]가 1과 동일할 때, 식별자 dependent_sub_pic_id[i][j]는 i번째 계층의 j번째 서브-픽처가 예측되는 서브-픽처의 ID를 명시한다. 도 11에서, 서브-픽처 #0은 서브-픽처 #3의 종속 서브-픽처 및 대응하는 서브-픽처이다. 서브-픽처 #1은 서브-픽처 #4의 종속 서브-픽처 및 대응하는 서브-픽처이다. 서브-픽처 #6은 서브-픽처 #7의 종속 서브-픽처가 아니라 서브-픽처 #7의 대응하는 서브-픽처이다. 기본 계층 픽처는 소스 콘텐츠의 모든 영역들을 운반할 수 있고, 향상 계층은 하나 이상의 서브-픽처 영역을 운반할 수 있다. 소스 콘텐츠 내의 각각의 향상 계층 서브-픽처의 상대적 조정은 기본 계층 서브-픽처 레이아웃으로부터 추론될 수 있다. 계층 구조에 콘텐츠의 다수의 컴포넌트들이 존재하는 경우에, 대응하는 서브-픽처의 계층은 소스 콘텐츠의 영역 조정 정보를 운반할 수 있다.

표 6. 제안된 서브-픽처 대응 및 종속성 표시자

다른 실시예에서, 서브-픽처 대응 그룹들의 리스트가 파라미터 세트에서 명시될 수 있다. 동일한 콘텐츠 영역을 커버하는 서브-픽처들은 동일한 인덱스를 서브-픽처 대응 그룹 리스트 내로 공유할 수 있다. 다수의 영역들 사이의 조정 관계는 표 7에 도시된 바와 같이 개별적으로 시그널링될 수 있다.

표 7. 제안된 서브-픽처 대응 및 종속성 표시자

값 num_regions_minus1은 독립적으로 코딩된 영역(서브-픽처)에 의해 커버되는 영역들의 총 수보다 하나 적게 명시한다. 값들 nominal_pic_width 및 nominal_pic_height는 공칭 픽처 해상도를 명시한다. 인덱스 corresponding_sub_pic_group_idx[i]는 대응하는 서브-픽처 그룹 리스트로의 인덱스를 명시하고; 식별된 대응하는 서브-픽처는 픽처의 i번째 영역을 커버한다. 오프셋 값들 region_x_offset[i] 및 region_y_offset[i]는 i번째 영역의 위치를 명시하고, nominal_region_width[i] 및 nominal_region_height[i]는 i번째 영역의 공칭 크기를 명시한다.

서브-픽처 파라미터 세트.

일부 실시예들에서, 파라미터 세트, 서브-픽처 파라미터 세트는 타일 파티셔닝, 서브-픽처의 좌표들 및 크기, 및 종속 서브-픽처 계층과 같은 하나 이상의 서브-픽처 파라미터를 표시하는데 이용된다.

서브-픽처의 좌표들은 픽처 내의 서브-픽처의 위치를 표시할 수 있다. 종속 서브-픽처 계층은 현재 서브-픽처가 예측될 수 있는 계층을 표시한다. 서브-픽처 파라미터 세트는 또한 참조 픽처 리스트 및 각각의 서브-픽처에 대해 요구되는 최대 DPB 버퍼 크기와 같은 DPB 관리 시그널링을 포함할 수 있다. 각각의 서브-픽처는 서브-픽처 파라미터 세트 ID에 의해 설정된 그 자신의 서브-픽처 파라미터를 참조할 수 있다. 도 12는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 서브-픽처 파라미터 세트(sPPS) 및 그들의 활성화의 순서를 도시한다. 서브-픽처 파라미터 세트는 그것이 타일 그룹에 의해 참조될 때 활성화되고, PPS는 그것이 sPPS에 의해 또는 타일 그룹에 의해 참조될 때 활성화된다. 서브-픽처 파라미터 세트는 그의 활성화 전에 디코딩 프로세스에 이용가능하게 되고, sPPS를 포함하는 NAL 유닛은 0과 동일한 NAL 유닛 계층 ID를 가질 수 있다. 타일 그룹은 또한 타일 그룹 헤더에서 시그널링된 PPS ID 및 sPPS ID를 갖는 PPS 및 sPPS 둘다를 참조할 수 있다. sPPS에 신택스 요소들을 포함하는 것의 이점은 각각의 타일 그룹 헤더에서 시그널링된 중복 오버헤드를 피하고, 서브-비트스트림 재기입 프로세스를 단순화하는 것이다.

일부 실시예들에서, 서브-픽처 추출 동안, 서브-픽처 세트에 포함된 서브-픽처의 타일 그룹들에 의해 참조되지 않은 서브-픽처 파라미터 세트를 포함하는 NAL 유닛들이 제거된다.

서브-픽처들에 대한 DPB 관리.

디코딩된 픽처 버퍼(decoded picture buffer)(DPB)는 가상 참조 디코더(hypothetical reference decoder)에 대해 지정된 참조, 출력 재정렬 또는 출력 지연에 대한 디코딩된 픽처를 보유한다. 일부 실시예들은 서브-픽처 레벨에서 동작하는 DPB 구조를 이용함으로써 각각의 서브-픽처의 독립 코딩을 이용한다. 일부 실시예들에서, 각각의 서브-픽처는 픽처 내의 다른 서브-픽처들과 동일한 참조 픽처 리스트를 공유한다. 일부 실시예들에서, 각각의 서브-픽처는 코딩 성능을 개선하기 위해 그 자신의 참조 픽처 리스트를 가질 수 있으며; 그러한 실시예들에서, 대응하는 참조 픽처 리스트는 서브-픽처 파라미터 세트에서 시그널링될 수 있다.

JCTVC-O0217, "Sub-DPB based DPB operations", Oct. 2013에서, 서브-DPB 동작들의 2가지 모드가 제안되었다: (i) 각각의 계층에 대해 개별 서브-DPB가 할당되는 계층-특정 서브-DPB 모드, 및 (ii) 동일한 공간 해상도, 컬러 포맷 및 비트 심도를 갖는 모든 픽처들이 동일한 서브-DPB를 공유하는 해상도-특정 서브-DPB 모드.

일부 실시예들에서, DPB는 다수의 서브-DPB들로 파티셔닝되고, 각각의 서브-DPB는 각각의 서브-픽처에 대해 독립적으로 관리된다. 서브-픽처 특정 서브-DPB 모드는 디코딩된 서브-픽처가 다른 서브-픽처들과 독립적으로 삽입, 마킹 및 제거되는 것을 가능하게 한다. 일부 실시예들에서, 최대 서브-DPB 크기, 재정렬된 픽처들의 최대 수, 및 최대 레이턴시 증가는 세션 협상을 위해 각각의 서브-픽처에 대한 PPS 또는 SEI 메시지에서 시그널링된다. 이것은 미들 박스 또는 클라이언트가 서브-픽처 재배치를 위해 이용될 최대 DPB 크기를 도출하는 것을 허용한다. PPS는 다수의 서브-픽처들에 걸쳐 서브-픽처 관련 속성들을 운반하도록 설정된 적절한 파라미터일 수 있다.

도 13은 다중 계층 기반 서브-DPB들로의 DPB 파티셔닝의 예를 도시한다. 각각의 계층 기반 서브-DPB는 다수의 서브-픽처 기반 서브-DPB들로 더 파티셔닝될 수 있다. 각각의 서브-픽처는 그의 대응하는 서브-DPB 내에서 상이하게 코딩될 수 있다.

서브-픽처들에 대해 서브-DPB를 이용하는 본 명세서에 설명된 방법들은 영역별 패킹 방법이 서브-픽처를 회전 또는 플립핑하거나, 픽처 내의 다른 위치로 서브-픽처를 패킹할 수 있을 때 디코딩 프로세스를 단순화할 수 있다. 각각의 서브-픽처가 독립적으로 인코딩되기 때문에, 서브-픽처는 픽처 내의 서브-픽처의 좌표에 관계없이 픽처 순서 카운트(POC), 시간 ID 및 타일 그룹 ID에 기초하여 특정 서브-DPB 내에서 그의 참조 서브-픽처를 찾을 수 있다.

적응적 해상도 변경(ARC)과 같은 서브-픽처 스위칭의 경우, SEI 메시지 또는 외부 수단은 ARC 스위칭 전의 제1 서브-픽처 식별자 및 ARC 스위칭 후의 제2 서브-픽처를 표시할 수 있다. 제약들은 일관된 디코딩 프로세스를 제공하기 위해 ARC 서브-픽처들에 적용될 수 있다. 예를 들어, 스위칭 후의 제2 서브-픽처는 ARC 전의 제1 서브-픽처와 동일한 시간 서브-계층 구조 및 코딩 구조를 가질 수 있으며, 그러한 제약은 제2 서브-픽처의 참조 픽처들이 DPB에서(예를 들어, 서브-DPB들 중 하나에서) 이용가능한 제1 서브-픽처의 참조 픽처들로부터 도출될 수 있는 것을 보장한다. ARC 스위칭 이전 및 이후의 서브-픽처 시퀀스들의 서브-픽처들의 POC 값은 바람직하게 정렬된다. 예를 들어, ARC 동작이 서브-픽처 #A로부터 서브-픽처 #B로 스위칭되는 경우, 서브-픽처 #A 및 #B는 상이한 해상도, 컬러 포맷 또는 비트 심도로 코딩될 수 있다. 서브-DPB #A는 서브-픽처 #A에 할당되고, 서브-DPB #B는 서브-픽처 #B에 할당된다. ARC 동안, 클라이언트는 서브-DPB #B의 크기와 매칭하도록 버퍼 크기를 증가 또는 감소시킬 수 있다. 서브-DPB #A에서의 참조 픽처들은 새로운 해상도, 컬러 포맷 및/또는 비트 심도를 포함하는 서브-픽처 #B의 속성들과 정렬되도록 스케일링 또는 변환된다. 그 다음, 이들 스케일링된 또는 변환된 참조 픽처들은 서브-DPB #B에 할당되고, 서브-DPB #A는 자유로워질 수 있다.

POC 값 도출.

HEVC 및 VVC는 순간 디코딩 리프레시(instantaneous decoding refresh)(IDR) 픽처에 대해 POC 값을 0으로 리셋하고, NoRaslOutputFlag가 1과 동일한 IRAP(intra random access point) 픽처에 대해 PicOrderCntMsb를 0으로 리셋하도록 동작한다. 상이한 표현이 상이한 IRAP 거리를 갖는 경우에, 서브-픽처 추출 및 재배치 프로세스로부터의 출력 픽처는 상이한 타입의 서브-픽처 NAL 유닛들로 구성될 수 있고, 연관된 서브-픽처 또는 타일 그룹의 도출된 POC 값은 정렬되지 않을 수 있다.

일부 실시예들에서, 픽처 내의 서브-픽처들 사이에 POC 값을 정렬하기 위해, 타일 그룹 헤더에서 시그널링된 POC LSB 값이 재기입된다. tile_group_pic_order_cnt_lsb 신택스 요소의 길이는 log2_max_pic_order_cnt_lsb_minus4+4비트이고, log2_max_pic_order_cnt_lsb_minus4 신택스 요소는 연관된 표현의 SPS에서 시그널링된다. 표현들에 걸쳐 서브-픽처들과 연관된 SPS들이 log2_max_pic_order_cnt_lsb_minus4의 동일한 값을 공유할 것을 요구하는 제약이 일부 실시예들에 대해 tile_group_pic_order_cnt_lsb 요소 신택스 재기입 프로세스를 단순화하기 위해 제안된다. 다른 실시예들에서, log2_max_pic_order_cnt_lsb_minus4는 PPS 또는 서브-픽처 파라미터 세트에서 각각의 서브-픽처에 대해 명시적으로 시그널링될 수 있다.

하나 이상의 NAL 유닛 타입이 IDR인 경우에, 연관된 서브-픽처의 POC 값은 0이고, 동일한 픽처 내의 다른 비-IDR 서브-픽처들의 POC 값과 동일하지 않을 수 있다. POC 리셋 스킴은 일부 실시예들에서 적어도 하나의 IDR 서브-픽처가 픽처에 포함될 때 모든 서브-픽처들의 tile_group_pic_order_cnt_lsb 값을 0으로 리셋하도록 제안된다.

PicOrderCntMsb가 입력 서브-픽처 비트스트림들과 출력 재배치된 비트스트림 사이에 일관되지 않을 수 있기 때문에, 디코딩 순서에서 ARC 픽처 및 ARC 픽처에 후속하는 픽처들에 대해 장기 참조 픽처가 허용되지 않을 수 있다.

일부 실시예들에서, POC 리셋 플래그는 각각의 서브-픽처 또는 서브-픽처 파라미터 세트에 의해 운반되며, 따라서 POC 도출은 이전 픽처에 관계없이 외부 수단에 의해 이루어질 수 있다.

도 14는 3개의 서브-픽처들로부터 생성된 픽처에 대한 POC 값 리셋의 예를 도시한다. 서브-픽처 #0의 IDR 간격은 8이고, 서브-픽처 #1 및 #2의 IDR 간격은 4이다. 적어도 하나의 IDR NAL 유닛이 액세스 유닛에 포함되거나 또는 POC 리셋 플래그가 외부적으로 설정될 때, 새롭게 형성된 픽처 POC 값은 0으로 리셋된다.

출력 파라미터 세트.

전체 코딩된 비디오 시퀀스(CVS)에 적용되는 신택스 요소 길이, 코딩 유닛 크기 및 툴 구성들을 표시하기 위해 다수의 코딩 구성 파라미터들 및 코딩 인에이블 플래그들이 SPS에서 명시될 수 있다. 예를 들어, log2_ctu_size_minus2는 CTU 크기를 정의하고, log2_min_luma_coding_block_size_minus2는 최소 루마 코딩 블록 크기를 정의하고, sps_sao_enabled_flag는 샘플 적응적 오프셋 프로세스가 재구성된 픽처에 적용되는지를 결정한다. 각각의 표현은 그 자신의 코딩 파라미터 설정들을 이용할 수 있고, 각각의 표현 CVS는 상이한 SPS들을 참조할 수 있다. 서브-픽처 추출 및 재배치 후에, 단일 출력 CVS가 형성되고, 그것은 하나의 SPS를 참조한다. 이들 SPS 구성 파라미터들의 값들은 이어서 다수의 표현들로부터의 모든 서브-픽처들에 적용될 수 있다. 이들을 정렬하는 한 가지 방법은 출력 서브-픽처 세트에 포함된 모든 서브-픽처들이 동일한 SPS를 참조하거나 동일한 파라미터 값을 공유할 것을 요구하는 것이다. 그러나, 코딩 성능은 고해상도 및 저해상도 표현들이 동일한 구성으로 코딩되는 경우에 영향을 받을 수 있다. 하나의 대안적인 실시예는 PPS 또는 SPS에서의 출력 서브-픽처 세트에 포함된 각각의 서브-픽처에 대해 개별적으로 이러한 구성 파라미터들 또는 코딩 인에이블 플래그들을 명시적으로 시그널링하는 것이고, 각각의 서브-픽처는 서브-픽처 식별자를 이용하여 대응하는 코딩 구성 파라미터들을 참조할 수 있다.

다른 실시예에서, 각각의 서브-픽처는 단일 픽처로서 취급될 수 있으며; 그것은 그 자신의 PPS를 참조할 수 있고, 각각의 PPS는 HEVC 또는 VVC에 명시된 바와 같은 SPS를 참조할 수 있으며, 다수의 SPS들은 전체 디코딩 시퀀스에 대한 모든 잠재적인 코딩 파라미터들 또는 최대 코딩 능력을 커버하는 DPS를 참조할 수 있다. 일부 실시예들에서, 출력 픽처 해상도 및 서브-픽처 레이아웃과 같은 구성된 출력 픽처의 속성들은 PPS 또는 SPS에서의 신택스 요소들로서 시그널링된다. 일부 실시예들에서, 출력 픽처 해상도 및 서브-픽처 레이아웃과 같은 구성된 출력 픽처의 속성들은 개별 파라미터 세트, 예를 들어, 출력 파라미터 세트(OPS)에서 시그널링된다. OPS는 렌더링 및 프리젠테이션을 위한 출력 픽처의 속성들을 표시하는데 이용될 수 있으며; 속성들은 출력 픽처 크기 및 재배치된 서브-픽처들의 레이아웃을 포함할 수 있다. OPS는 PPS 또는 서브-픽처 파라미터 세트에 의해 참조될 수 있다. 도 15는 동일한 서브-픽처가 다수의 출력 픽처 해상도들 및 레이아웃들과 연관될 수 있는 파라미터 세트들 간의 관계들의 예를 도시한다.

서브-픽처 추출 및 재배치 프로세스.

HEVC는 tIdTarget보다 더 큰 TemporalID를 갖는 모든 NAL 유닛들 및 lIdTarget과 동일하지 않은 nuh_layer_id를 갖는 모든 NAL 유닛들을 제거함으로써 입력 계층 비트스트림으로부터 서브-비트스트림을 추출하기 위한 서브-비트스트림 추출 프로세스를 명시한다.

새로운 미디어 애플리케이션들은 계층 비트스트림의 상이한 계층들로부터 다수의 서브-픽처 스트림들을 추출하고, 추출된 서브-비트스트림들을 특정 순서로 함께 병합하여 새로운 적합성 비트스트림(conformance bitstream)을 형성하도록 동작할 수 있다. 서브-비트스트림 추출 및 재배치 프로세스가 여기서 제안된다. 이 프로세스에 대한 입력들은 비트스트림 및 타겟 서브-픽처 세트 subPicSetTarget이다. 이 프로세스의 출력은 비트스트림이다.

입력 비트스트림에 대한 비트스트림 적합성을 달성하기 위해, 다음의 조건들이 부과될 수 있다. 0 내지 126(경계값 포함)의 범위에서의 임의의 값과 동일한 활성 VPS에서 명시된 subPicSetTarget과 연관된 비트스트림, 모든 nuh_layer_id 값, lIdTarget 및 0 내지 6(경계값 포함)의 범위에서의 임의의 값과 동일한 활성 VPS에서 명시된 subPicSetTarget과 연관된 모든 최고 시간 ID 값, tIdTarget 및 입력들로서 활성 VPS에서 명시된 subPicSetTarget과 연관된 sub_pic_id와 동일한 서브-픽처 ID 값, sIdtarget을 갖는, 여기서 명시된 프로세스의 출력인 임의의 출력 서브-비트스트림은 다음의 조건을 충족하는 일치하는 비트스트림일 것이다:

출력 서브-비트스트림은 sIdTarget과 동일한 sub_pic_id, tIdTarget과 동일한 TemporalID 및 lIdTarget과 동일한 nuh_layer_id를 갖는 적어도 하나의 VCL NAL 유닛을 포함한다.

추출된 서브-비트스트림은 (i) tIdTarget보다 큰 TemporalID를 갖는 모든 NAL 유닛들을 제거하는 것, 및 (ii) lIdTarget과 동일하지 않은 nuh_layer_id를 갖는 모든 NAL 유닛들을 제거하는 것을 포함하는 방법으로 도출될 수 있다.

재배치된 비트스트림은 추출된 서브-비트스트림들의 병치된 액세스 유닛을 subPicSetTarget에 명시된 바와 같은 순서로 병합하는 것을 포함하는 방법으로 도출될 수 있다. 추출된 서브-비트스트림의 액세스 유닛은 대응하는 서브-픽처의 프레임을 나타낸다. 다수의 서브-픽처들의 병치된 액세스 유닛들은 픽처 순서 카운트와 같은 동일한 타임 스탬프를 공유할 수 있다.

상이한 서브-픽처의 NAL 유닛들의 순서는 출력 서브-픽처 세트에서 시그널링되거나, 출력 서브-픽처 세트에 표시된 서브-픽처 레이아웃으로부터 추론될 수 있다. 출력 픽처의 각각의 액세스 유닛은 출력 서브-픽처 세트에 명시된 순서로 서브-픽처의 NAL 유닛들의 다수의 그룹으로 구성될 수 있다.

몰입형 미디어 액세스 및 전달을 위한 계층 구조.

상이한 미디어 타입들(예를 들어, 비디오 데이터, 메타데이터), 컴포넌트들(예를 들어, 지오메트리, 텍스처, 속성, 심도, 타일들), 인코딩된 버전들(해상도, 프레임 레이트, 비트 심도, 컬러 공간, 코덱)은 상이한 계층들에서의 상이한 표현 데이터로서 참조될 수 있다. 특정 계층들의 조합은 애플리케이션을 지원하기 위한 출력 비트스트림을 형성하도록 출력할 수 있다. 클라이언트는 전체 또는 부분 표현들로 재구성된 미디어 데이터에 액세스하고 이를 제시할 수 있다. 도 16은 360도 스케일러블 비디오, PCC 데이터 및 3DoF+ 데이터가 계층 비트스트림으로 멀티플렉싱되는 일 예를 도시한다. 상이한 계층들은 상이한 포맷들로 되어 있고, 상이한 미디어 인코더들에 의해 인코딩될 수 있다.

몇몇 신택스 요소들은 다음과 같이 몰입형 미디어 액세스, 전달 및 렌더링을 지원하기 위해 크로스 계층 미디어 파라미터 세트에서 명시될 수 있다. 예시적인 신택스 구조가 표 8에 예시되어 있다.

일부 실시예들에서, 계층-이용가능 플래그는 특정 계층과 연관된 표현 데이터가 비트스트림 내에서 이용가능한지, 또는 사양 범위 밖의 외부 수단에 의해 제공되는지를 명시하는데 이용된다. 예를 들어, 표 8에 명시된 mps_layer_available_flag[i]는 i번째 계층이 계층 비트스트림에서 이용가능한지(mps_layer_available_flag[i]가 1과 동일한지) 또는 외부 수단에 의해 제공되는지(mps_layer_available_flag[i]가 0과 동일한지)를 나타낸다.

일부 실시예들에서, 계층-프리젠테이션 플래그는 연관된 계층의 표현 데이터가 개별적으로 출력되도록 의도되는지 여부를 명시하는데 이용된다. 예를 들어, 포인트 클라우드 객체와 연관된 지오메트리 비디오 데이터를 갖는 계층은 독립적으로 출력, 디코딩 및 렌더링되지 않을 수 있다. 예를 들어, 표 8에 명시된 mps_layer_output_flag[i]는, i번째 계층이 독립적으로 디코딩 및 출력될 수 있는지의 여부를 나타낸다.

맵핑 테이블은 각각의 계층 표현 데이터를 특정 미디어 타입, 특정 미디어의 컴포넌트, 및/또는 표현 데이터의 서브세트에 맵핑할 수 있다. 예를 들어, 계층 표현 데이터는 포인트 클라우드 지오메트리 비디오 데이터의 특정 타일 그룹을 나타낼 수 있고, 그러한 맵핑은 계층 ID 및 서브-픽처 ID로부터 도출될 수 있다. 예를 들어, 표 8에 명시된 mps_media_type은 계층 구조에 포함된 미디어 타입들 또는 코덱 타입을 나타낸다. 인덱스 mps_media_type_idx[i]는 특정 미디어 또는 컴포넌트 타입에 맵핑하는데 이용되는 mps_media_type 신택스 구조의 리스트로의 인덱스를 명시한다.

일부 실시예들에서, 출력 미디어 세트는 시간 ID, 서브-픽처 ID 또는 슬라이스 ID를 갖는 다수의 계층 표현 데이터 및/또는 특정 계층 표현 데이터의 서브세트를 명시하여, 전체 또는 부분 미디어 프리젠테이션을 나타내는 출력 비트스트림을 형성하는데 이용된다. 출력 미디어 세트는 또한 출력 표현 데이터 레이트, 최대 해상도 및 코덱 프로파일, 지원되는 티어 및 레벨을 표시할 수 있다. 표 8에 명시된 신택스 요소, mps_num_output_set_minus1은 출력 미디어 세트의 수를 나타낸다. 요소 mps_media_type_idx[i]는 i번째 출력 세트의 미디어 타입을 명시하고, num_sub_layers[i]는 i번째 출력 세트에 포함될 서브-픽처들 또는 서브-컴포넌트들(예를 들어, VPCC 지오메트리 계층)의 수를 명시한다.

표 8. 제안된 미디어 파라미터 세트

각각의 계층 표현 데이터 내에서, 서브-계층 데이터 세트는 일치하는 서브-계층 비트스트림을 나타내기 위해 일부 실시예들에 대해 제안된다. 세트는 NAL 유닛 타입, 시간 ID, 서브-픽처 ID를 이용하여 서브-계층 출력 데이터를 식별할 수 있다. 서브-계층 데이터 세트는 또한 계층 데이터에 포함된 서브-계층 데이터를 나타내기 위해 바이트 오프셋 또는 바이트들의 수를 이용할 수 있다. 서브-계층 데이터 세트 ID는 출력 미디어 표현 데이터를 추출하고 재배치하기 위해 출력 미디어 세트에서 이용될 수 있다.

표 9에 예시된 실시예에서, num_sub_layer_minus1은 특정 계층 데이터에 대한 서브-계층들의 총 수보다 하나 적게 명시한다. i번째 서브-계층의 식별자는 sub_layer_id[i]에 의해 명시된다. 요소 sub_layer_entry_count_minus1 + 1은 계층 데이터에서 이용가능한 서브-계층 엔트리들의 수를 명시한다. i번째 엔트리의 데이터 길이는 entry_byte_length[i]에 의해 표시된다. 요소 sub_layer_idx[i]는 i번째 엔트리와 연관된 서브-계층 세트의 인덱스를 명시한다.

표 9. 제안된 서브-계층 데이터 세트

일부 실시예들에서, 클라이언트 또는 미들 박스는 출력 미디어 세트에 기초하여 부분 미디어 표현 데이터를 추출할 수 있다. 클라이언트는 제안된 미디어 파라미터 세트 및 서브-계층 데이터 세트에 기초하여 전체 또는 부분 미디어 데이터를 재구성하기 위해 각각의 계층 또는 서브-계층 표현에 대해 특정 미디어 코덱을 적용할 수 있다. 미디어 데이터의 일부만이 재구성될 수 있는 경우에, 계층 또는 서브-계층 데이터와 타겟 3D 프리젠테이션 공간 사이의 공간 맵핑이 이용될 수 있다.

예를 들어, 다중 계층 표현은 360도 비디오 및 포인트 클라우드 객체 둘다를 포함할 수 있다. 계층들의 그룹은 특정 VPCC 객체를 나타낼 수 있고, 계층들의 다른 그룹은 360도 비디오를 나타낼 수 있다. 특정 VPCC 객체와 연관된 계층 데이터는 VPCC 컴포넌트(예를 들어, 속성)를 나타낼 수 있고, 서브-계층 데이터는 VPCC 지오메트리 슬라이스와 같은 컴포넌트의 독립적인 디코딩가능 영역, 또는 VPCC 지오메트리 계층 또는 속성 타입과 같은 컴포넌트 차원을 나타낼 수 있다. 클라이언트가 360도 비디오 배경에서 VPCC 객체를 부분적으로 렌더링하는 경우, 클라이언트는 모든 360도 비디오 및 VPCC 데이터에 액세스할 필요가 없을 수 있다. 클라이언트는 하나의 출력 미디어 세트에 기초하여 VPCC 객체와 연관된 각각의 컴포넌트의 하나의 슬라이스에 액세스할 수 있고, 클라이언트는 다른 출력 미디어 세트에 기초하여 360도 비디오의 특정 뷰포트 데이터에 액세스할 수 있다. 클라이언트는 2개의 출력 미디어 세트들을 디코딩, 구성 및 렌더링함으로써 부분 VPCC 객체 및 360도 뷰포트를 재구성할 수 있다.

신택스 설계 개요.

본 명세서에서 설명된 예시적인 시스템들 및 방법들은 서브-픽처 추출 및 재배치 프로세스를 지원하는 하이 레벨 신택스 설계를 이용한다. 입력 비디오는 다수의 표현들로 인코딩될 수 있고, 각각의 표현은 계층으로서 표현될 수 있다. 계층 픽처는 다수의 서브-픽처들로 파티셔닝될 수 있다. 각각의 서브-픽처는 그 자신의 타일 파티셔닝, 해상도, 컬러 포맷 및 비트 심도를 가질 수 있다. 각각의 서브-픽처는 동일한 계층의 다른 서브-픽처들과 독립적으로 인코딩되지만, 그 종속 계층들로부터의 대응하는 서브-픽처들로부터 인터 예측될 수 있다. 각각의 서브-픽처는 서브-픽처 속성들이 시그널링되는 서브-픽처 파라미터 세트를 참조할 수 있다. 서브-픽처 속성들은 각각의 서브-픽처의 해상도 및 출력 픽처 내의 각각의 서브-픽처의 위치를 표시하는 좌표들과 같은 정보를 포함할 수 있다. 각각의 서브-픽처 파라미터 세트는 전체 픽처의 해상도가 시그널링되는 PPS를 참조할 수 있다.

출력 픽처에 대한 서브-픽처들을 재배치한 후에, 각각의 서브-픽처 파라미터 세트는 출력 픽처와 연관된 새로운 PPS를 참조할 수 있다. 각각의 서브-픽처의 POC 값은 새로운 출력 시퀀스의 POC 앵커 픽처에 기초하여 도출될 수 있다. ARC를 가능하게 하고 대응하는 참조 픽처들이 DPB에서 이용가능할 수 있게 하기 위해 제약들이 제안된다. ARC 동안, 이전 서브-픽처의 참조 픽처들은 스위칭되는 ARC 서브-픽처와 매칭하도록 스케일링 및 변환될 수 있다. 스케일링 및 변환된 참조 픽처들은 새로운 서브-픽처와 연관된 서브-DPB에 배치되고, 이전 서브-픽처와 연관된 서브-DPB는 자유로워진다. 출력 픽처의 각각의 서브-픽처의 크기는 변할 수 있고, 출력 픽처의 크기도 변할 수 있다. 최대 출력 픽처 해상도, 프로파일 및 레벨은 출력 서브-픽처 세트, 또는 서브-픽처 추출 및 재배치 프로세스와 연관된 출력 파라미터 세트에서 시그널링될 수 있다.

예시적인 시스템들 및 방법들.

도 17에 도시된 바와 같이, 일부 실시예들에서 수행된 방법은 복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 비트스트림에서 인코딩하는 단계(1702)를 포함한다. 서브-픽처들은 서브-픽처들에 대해 결정된 제약들을 이용하여 인코딩될 수 있다(1704). 개개의 서브-픽처들 각각에 대한 레벨 정보가 비트스트림에서 시그널링되며(1706), 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다.

일부 실시예들에서, 신호가 제공되며, 신호는 복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 인코딩하는 정보; 및 개개의 서브-픽처들 각각에 대한 레벨 정보를 포함하고, 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다. 신호는 컴퓨터 판독가능 매체 상에 저장될 수 있다. 컴퓨터 판독가능 매체는 비일시적 매체일 수 있다.

일부 실시예들에서, 장치는 도 17에 도시된 바와 같은 인코딩 방법을 수행하도록 구성된 하나 이상의 프로세서를 구비한다.

일부 실시예들에서, 장치는, 비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 단계 ― 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및 레벨 정보에 따라 비트스트림으로부터 복수의 서브-픽처들을 디코딩하는 단계를 포함하는 방법을 수행하도록 구성된 하나 이상의 프로세서를 구비한다.

일부 실시예들에서, 본 명세서에 설명된 바와 같은 장치는 (i) 신호를 수신하도록 구성된 안테나 ― 신호는 이미지를 나타내는 데이터를 포함함 ―, (ii) 수신된 신호를 이미지를 나타내는 데이터를 포함하는 주파수들의 대역으로 제한하도록 구성된 대역 제한기, 또는 (iii) 이미지를 디스플레이하도록 구성된 디스플레이 중 적어도 하나를 구비한다. 디바이스는, 예를 들어, TV, 셀 폰, 태블릿, STB, 또는 미들 박스일 수 있다.

일부 실시예들에서, 장치는 복수의 서브-픽처들 및 서브-픽처들 각각에 대한 레벨 정보를 포함하는 데이터에 액세스하도록 구성된 액세스 유닛을 포함한다. 장치는 데이터를 송신하도록 구성된 송신기를 더 포함할 수 있다.

일부 실시예들에서, 방법은 복수의 서브-픽처들 및 서브-픽처들 각각에 대한 레벨 정보를 포함하는 데이터에 액세스하는 단계를 포함한다. 방법은 복수의 서브-픽처들 및 서브-픽처들 각각에 대한 레벨 정보를 포함하는 데이터를 송신하는 단계를 더 포함할 수 있다.

일부 실시예들에서, 복수의 서브-픽처들 및 서브-픽처들 각각에 대한 레벨 정보를 포함하는 컴퓨터 판독가능 매체 및 컴퓨터 프로그램 제품이 제공된다.

일부 실시예들에서, 컴퓨터 판독가능 매체는 복수의 서브-픽처들 및 서브-픽처들 각각에 대한 레벨 정보를 포함한다.

일부 실시예들에서, 컴퓨터 판독가능 매체는 하나 이상의 프로세서로 하여금, 복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 비트스트림에서 인코딩하는 것; 및 개개의 서브-픽처들 각각에 대한 레벨 정보를 비트스트림에서 시그널링하는 것을 수행하게 하기 위한 명령어들을 포함하며, 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다.

일부 실시예들에서, 컴퓨터 판독가능 매체는 하나 이상의 프로세서로 하여금, 비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 것 ― 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및 레벨 정보에 따라 비트스트림으로부터 복수의 서브-픽처들을 디코딩하는 것을 수행하게 하기 위한 명령어들을 포함한다.

일부 실시예들에서, 컴퓨터 프로그램 제품은, 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금, 복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 비트스트림에서 인코딩하는 것; 및 개개의 서브-픽처들 각각에 대한 레벨 정보를 비트스트림에서 시그널링하는 것을 수행하게 하는 명령어들을 포함하며, 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시한다.

일부 실시예들에서, 컴퓨터 프로그램 제품은, 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금, 비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 것 ― 레벨 정보는, 각각의 서브-픽처에 대해, 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및 레벨 정보에 따라 비트스트림으로부터 복수의 서브-픽처들을 디코딩하는 것을 수행하게 하는 명령어들을 포함한다.

추가적인 실시예들.

일부 실시예들에서, 비디오 비트스트림 재기입 방법은 복수의 NAL 유닛들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 NAL 유닛은 계층 ID 및 서브-픽처 타일 그룹 ID를 가짐 ―; 시간 ID 및 출력 서브-픽처 세트를 선택하는 단계 ― 출력 서브-픽처 세트는 적어도 하나의 계층 ID 및 적어도 하나의 타일 그룹 ID를 식별함 ―; 및 입력 비트스트림에 대해 재기입 프로세스를 수행하여 서브-비트스트림을 생성하는 단계를 포함하고, 재기입 프로세스는 입력 비트스트림으로부터 (i) 출력 서브-픽처 세트에서 식별되지 않은 계층 ID를 갖는 NAL 유닛들, (ii) 출력 서브-픽처 세트에서 식별되지 않은 타일 그룹 ID를 갖는 NAL 유닛들, 및 (iii) 선택된 시간 ID보다 큰 시간 ID를 갖는 NAL 유닛들을 제거하는 것을 포함한다.

일부 실시예들에서, 입력 비트스트림은 적어도 하나의 서브-픽처 파라미터 세트를 더 포함한다.

일부 실시예들에서, 서브-픽처 파라미터 세트는 타일 파티셔닝, 픽처 내의 서브-픽처의 좌표들, 서브-픽처의 크기 및 종속 서브-픽처 계층 중 하나 이상을 표시하는 정보를 포함한다.

일부 실시예들에서, 서브-픽처 파라미터 세트는 디코딩된 픽처 버퍼 관리 시그널링을 포함한다.

일부 실시예들에서, 디코딩된 픽처 버퍼 관리 시그널링은 참조 픽처 리스트 및 각각의 서브-픽처에 대한 최대 디코딩된 픽처 버퍼(DPB) 버퍼 크기 중 하나 이상을 포함한다.

일부 실시예들에서, 서브-픽처 파라미터 세트는 픽처 파라미터 세트(PPS)의 식별자를 포함한다.

일부 실시예들에서, 재기입 프로세스는 입력 비트스트림으로부터 (iv) 출력 서브-픽처 세트에 포함된 서브-픽처의 타일 그룹들에 의해 참조되지 않은 서브-픽처 파라미터 세트를 포함하는 NAL 유닛들을 제거하는 것을 더 포함한다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 비디오의 비트스트림을 수신하는 단계 ― 비트스트림은, 서브-픽처들 중 적어도 하나에 대해, 최대 서브-DPB 크기, 재정렬된 픽처들의 최대 수 및 최대 레이턴시 증가 중 적어도 하나를 표시하는 DPB 정보를 포함함 ―; DPB 정보에 기초하여, DPB를 복수의 서브-DPB들로 파티셔닝하는 단계 ― 각각의 서브-DPB는 대응하는 서브-픽처와 연관됨 ―; 및 대응하는 서브-DPB를 이용하여 서브-픽처들 각각을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 비디오는 복수의 계층들을 포함하고, 각각의 서브-DPB는 대응하는 계층 및 대응하는 서브-픽처와 연관된다.

일부 실시예들에서, DPB 정보는 비트스트림에서의 PPS에 포함된다.

일부 실시예들에서, 방법은 비디오의 비트스트림을 수신하는 단계 ― 비디오는 복수의 픽처들을 포함하고, 각각의 픽처는 복수의 서브-픽처들을 포함함 ―; 및 대응하는 픽처에서의 서브-픽처들 중 적어도 하나가 순간 디코딩 리프레시(IDR) 픽처라는 결정에 응답하여, 대응하는 픽처의 픽처 순서 카운트(POC) 값을 0으로 설정하는 단계를 포함한다.

일부 실시예들에서, 방법은 비디오의 비트스트림을 수신하는 단계 ― 비트스트림은 복수의 서브-픽처들을 인코딩하고, 비트스트림은 출력 파라미터 세트(OPS)를 더 포함하고, OPS는 출력 픽처에서의 서브-픽처들의 위치들을 표시함 ―; 서브-픽처들을 디코딩하는 단계; 및 OPS에 따라 디코딩된 서브-픽처들을 배치함으로써 출력 픽처를 구성하는 단계를 포함한다.

일부 실시예들에서, 방법은 입력 픽처를 포함하는 비디오를 수신하는 단계; 입력 픽처를 복수의 서브-픽처들로 파티셔닝하는 단계; 스케일러블 코딩을 이용하여 적어도 2개의 계층에서 서브-픽처들 각각을 인코딩하는 단계 ― 서브-픽처들 각각은 다른 서브-픽처들과 독립적으로 인코딩됨 ―; 및 각각의 서브-픽처에 대한 서브-픽처 파라미터 세트를 인코딩하는 단계 ― 서브-픽처 파라미터 세트는 개개의 서브-픽처의 계층간 예측을 위한 계층 종속성을 표시함 ― 를 포함한다.

일부 실시예들에서, 각각의 서브-픽처는 타일 그룹에 대응하고, 각각의 개개의 타일 그룹의 타일 그룹 헤더는 대응하는 서브-픽처 파라미터 세트를 참조한다.

일부 실시예들에서, 서브-픽처 파라미터 세트들은 픽처 파라미터 세트(PPS)를 참조한다.

일부 실시예들에서, 각각의 서브-픽처 파라미터 세트는 대응하는 서브-픽처의 해상도를 식별한다.

일부 실시예들에서, 각각의 서브-픽처 파라미터 세트는 출력 픽처에서의 대응하는 서브-픽처의 위치를 식별한다.

일부 실시예들에서, 비디오 비트스트림 재기입 방법은 복수의 NAL 유닛들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 NAL 유닛은 계층 ID 및 서브-픽처 ID를 가짐 ―; 출력 서브-픽처 파라미터 세트를 수신하는 단계 ― 출력 서브-픽처 파라미터 세트는, 복수의 출력 서브-픽처 세트들 각각에 대해, 개개의 출력 서브-픽처 세트에서의 각각의 서브-픽처의 계층 ID 및 서브-픽처 ID를 명시함 ―; (i) 시간 ID 및 (ii) 출력 서브-픽처 파라미터 세트에서 식별된 출력 서브-픽처 세트를 선택하는 단계; 및 입력 비트스트림에 대해 재기입 프로세스를 수행하여 서브-비트스트림을 생성하는 단계를 포함하고, 재기입 프로세스는 입력 비트스트림으로부터 (i) 계층 ID 및 서브-픽처 ID에 의해 표시된 바와 같은, 선택된 출력 서브-픽처 세트에 있지 않은 서브-픽처들의 NAL 유닛들, 및 (ii) 선택된 시간 ID보다 큰 시간 ID를 갖는 NAL 유닛들을 제거하는 것을 포함한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 각각의 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트 내의 각각의 서브-픽처의 서브-픽처 오프셋 위치를 더 명시한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 각각의 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트 내의 각각의 서브-픽처의 서브-픽처 폭 및 높이를 더 명시한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 각각의 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트의 폭 및 높이를 더 명시한다.

일부 실시예들에서, 서브-픽처 ID는 타일 그룹 ID이다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 서브-픽처는 개개의 서브-픽처 ID를 가짐 ―; 출력 서브-픽처 파라미터 세트를 수신하는 단계 ― 출력 서브-픽처 파라미터 세트는, 적어도 하나의 선택된 출력 서브-픽처 세트를 포함하는 복수의 출력 서브-픽처 세트들에 대해, 선택된 출력 서브-픽처 세트에서의 각각의 서브-픽처의 서브-픽처 ID를 명시함 ―; 선택된 출력 서브-픽처 세트에서의 서브-픽처들 각각을 디코딩하는 단계; 및 디코딩된 서브-픽처들을 출력 프레임으로 구성하는 단계를 포함한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 선택된 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트 내의 각각의 서브-픽처의 서브-픽처 오프셋 위치를 더 명시하며, 디코딩된 서브-픽처들을 구성하는 것은 디코딩된 서브-픽처들 각각을 개개의 오프셋 위치에 배치하는 것을 포함한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 선택된 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트 내의 각각의 서브-픽처의 서브-픽처 폭 및 높이를 더 명시하고, 디코딩된 서브-픽처들을 구성하는 것은 디코딩된 서브-픽처들 각각을 개개의 폭 및 높이로 스케일링하는 것을 포함한다.

일부 실시예들에서, 출력 서브-픽처 파라미터 세트는, 선택된 출력 서브-픽처 세트에 대해, 개개의 출력 서브-픽처 세트의 폭 및 높이를 더 명시한다.

일부 실시예들에서, 서브-픽처 ID는 타일 그룹 ID이다.

일부 실시예들에서, 비디오 비트스트림 재기입 방법은 복수의 NAL 유닛들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 NAL 유닛은 계층 ID 및 서브-픽처 ID를 가짐 ―; 픽처 파라미터 세트를 수신하는 단계 ― 픽처 파라미터 세트는, 복수의 서브-픽처 구성들 각각에 대해, 개개의 서브-픽처 구성에서의 각각의 서브-픽처의 서브-픽처 ID를 명시함 ―; (i) 시간 ID 및 (ii) 출력 서브-픽처 파라미터 세트에서 식별된 서브-픽처 구성을 선택하는 단계; 및 입력 비트스트림에 대해 재기입 프로세스를 수행하여 서브-비트스트림을 생성하는 단계를 포함하고, 재기입 프로세스는 입력 비트스트림으로부터 (i) 서브-픽처 ID에 의해 표시된 바와 같은, 선택된 서브-픽처 구성에 있지 않은 서브-픽처들의 NAL 유닛들, 및 (ii) 선택된 시간 ID보다 큰 시간 ID를 갖는 NAL 유닛들을 제거하는 것을 포함한다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 서브-픽처는 개개의 서브-픽처 ID를 가짐 ―; 시퀀스 파라미터 세트를 수신하는 단계 ― 시퀀스 파라미터 세트는, 선택된 서브-픽처 구성을 포함하는 복수의 서브-픽처 구성들 각각에 대해, 개개의 서브-픽처 구성에서의 각각의 서브-픽처의 서브-픽처 ID를 명시함 ―; 선택된 출력 서브-픽처 세트에서의 서브-픽처들 각각을 디코딩하는 단계; 및 디코딩된 서브-픽처들을 출력 프레임으로 구성하는 단계를 포함한다.

일부 실시예들에서, 시퀀스 파라미터 세트는, 선택된 서브-픽처 구성에 대해, 선택된 서브-픽처 구성에서의 각각의 서브-픽처의 서브-픽처 오프셋 위치를 더 명시하며, 디코딩된 서브-픽처들을 구성하는 것은 디코딩된 서브-픽처들 각각을 개개의 오프셋 위치에 배치하는 것을 포함한다.

일부 실시예들에서, 시퀀스 파라미터 세트는, 선택된 서브-픽처 구성에 대해, 선택된 서브-픽처 구성 내의 각각의 서브-픽처의 서브-픽처 폭 및 높이를 더 명시하며, 디코딩된 서브-픽처들을 구성하는 것은 디코딩된 서브-픽처들 각각을 개개의 폭 및 높이로 스케일링하는 것을 포함한다.

일부 실시예들은 서브-픽처 구성 인덱스를 포함하는 픽처 파라미터 세트를 수신하는 것을 더 포함하고, 선택된 서브-픽처 구성은 서브-픽처 구성 인덱스에 기초하여 선택된다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 서브-픽처는 개개의 서브-픽처 ID를 가짐 ―; 픽처 파라미터 세트를 수신하는 단계 ― 픽처 파라미터 세트는 서브-픽처 구성 오버라이드 플래그를 포함함 ―; 서브-픽처 구성 오버라이드 플래그가 설정되었다는 결정에 응답하여, 출력 구성에서 각각의 서브-픽처의 ID를 포함하는, 픽처 파라미터 세트에서 전달된 서브-픽처 출력 구성을 결정하는 단계; 출력 구성에서의 서브-픽처들 각각을 디코딩하는 단계; 및 디코딩된 서브-픽처들을 출력 프레임으로 구성하는 단계를 포함한다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 서브-픽처는 개개의 서브-픽처 ID를 가짐 ―; 비디오 파라미터 세트를 수신하는 단계 ― 비디오 파라미터 세트는, 각각의 서브-픽처에 대해, 서브-픽처가 다른 서브-픽처에 종속하는지를 표시함 ―; 및 비디오 파라미터 세트에 따라 입력 비트스트림을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 비디오 파라미터 세트는, 다른 서브-픽처에 종속하는 것으로 표시되는 각각의 서브-픽처에 대해, 그것이 종속되는 서브-픽처의 서브-픽처 ID를 추가로 표시한다.

일부 실시예들에서, 비디오 파라미터 세트는, 다른 서브-픽처에 종속하는 것으로 표시되지 않은 각각의 서브-픽처에 대해, 서브-픽처가 다른 서브-픽처에 대응하는지를 표시하는 플래그를 추가로 제공한다.

일부 실시예들에서, 비디오 파라미터 세트는, 다른 서브-픽처에 대응하는 것으로 표시되는 각각의 서브-픽처에 대해, 대응하는 서브-픽처의 서브-픽처 ID를 추가로 표시한다.

일부 실시예들에서, 비디오 디코딩 방법은 복수의 서브-픽처들을 포함하는 입력 비트스트림을 수신하는 단계 ― 각각의 서브-픽처는 개개의 서브-픽처 ID를 가짐 ―; 복수의 서브-픽처 그룹들을 식별하는 파라미터 세트를 수신하는 단계 ― 각각의 그룹은 인덱스를 가짐 ―; 출력 프레임의 복수의 영역들 각각에 대해, 개개의 영역에 대응하는 서브-픽처 그룹의 인덱스를 식별하는 파라미터 세트를 수신하는 단계; 영역들 각각에 대해, 영역에 대응하는 서브-픽처 그룹에서의 서브-픽처들 중 적어도 하나를 디코딩하는 단계; 및 디코딩된 서브-픽처들로부터 출력 프레임을 구성하는 단계를 포함한다.

일부 실시예들에서, 미디어 디코딩 방법은 복수의 계층들 및 서브-계층들을 포함하는 비트스트림을 수신하는 단계 ― 각각의 서브-계층은 개개의 서브-계층 ID를 가짐 ―; 미디어 파라미터 세트를 수신하는 단계 ― 미디어 파라미터 세트는, 복수의 계층들 각각에 대해, 계층이 비트스트림에서 이용가능한지를 표시함 ―; 및 미디어 파라미터 세트에 따라 비트스트림을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 미디어 디코딩 방법은 복수의 계층들 및 서브-계층들을 포함하는 비트스트림을 수신하는 단계 ― 각각의 서브-계층은 개개의 서브-계층 ID를 가짐 ―; 미디어 파라미터 세트를 수신하는 단계 ― 미디어 파라미터 세트는, 복수의 계층들 각각에 대해, 계층이 독립적으로 디코딩 및 출력될 수 있는지를 표시함 ―; 및 미디어 파라미터 세트에 따라 비트스트림을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 미디어 디코딩 방법은 복수의 계층들 및 서브-계층들을 포함하는 비트스트림을 수신하는 단계 ― 각각의 서브-계층은 개개의 서브-계층 ID를 가짐 ―; 미디어 파라미터 세트를 수신하는 단계 ― 미디어 파라미터 세트는 복수의 계층들 각각에 대한 미디어 타입을 표시함 ―; 및 미디어 파라미터 세트에 따라 비트스트림을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 미디어 디코딩 방법은 복수의 계층들 및 서브-계층들을 포함하는 비트스트림을 수신하는 단계 ― 각각의 서브-계층은 개개의 서브-계층 ID를 가짐 ―; 미디어 파라미터 세트를 수신하는 단계 ― 미디어 파라미터 세트는 적어도 하나의 선택된 출력 세트를 포함하는 서브-계층들의 복수의 출력 세트들을 표시함 ―; 및 선택된 출력 세트에서의 서브-계층들을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 미디어 파라미터 세트는 출력 세트들 각각에 대한 미디어 타입을 추가로 표시한다.

일부 실시예들에서, 미디어 파라미터 세트는 출력 세트들 각각의 계층 ID를 추가로 표시한다.

일부 실시예들에서, 비트스트림 추출 방법은 복수의 계층들 및 서브-계층들을 포함하는 비트스트림을 수신하는 단계 ― 각각의 서브-계층은 개개의 서브-계층 ID를 가짐 ―; 서브-계층 파라미터 세트를 수신하는 단계 ― 서브-계층 파라미터 세트는 각각의 서브-계층에 대한 엔트리 바이트 길이를 표시함 ―; 및 서브-계층 파라미터 세트에 따라 적어도 부분적인 미디어 표현들을 추출하는 단계를 포함한다.

일부 실시예들에서, 프로세서, 및 본 명세서에 설명된 방법들 중 임의의 것을 수행하도록 동작하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체를 포함하는 시스템이 제공된다.

일부 실시예들에서, 본 명세서에 설명된 방법들 중 임의의 것을 이용하여 생성된 비디오 비트스트림을 저장하는 비일시적 컴퓨터 판독가능 저장 매체가 제공된다.

본 개시내용은 툴들, 특징들, 실시예들, 모델들, 접근법들 등을 포함하는 다양한 양태들을 설명한다. 다수의 이들 양태들은 특별한 점을 설명하고, 적어도 개별 특성들을 보여주기 위해, 제한하는 것일 수 있는 방식으로 종종 설명된다. 그러나, 이것은 설명의 명료성을 위한 것이며, 이들 양태들의 개시내용 또는 범위를 제한하지 않는다. 실제로, 추가의 양태들을 제공하기 위해 상이한 양태들 모두가 결합되고 교환될 수 있다. 더욱이, 양태들은 이전의 출원들에서도 설명된 양태들과 결합되고 교환될 수 있다.

본 개시내용에서 설명되고 고려되는 양태들은 많은 상이한 형태들로 구현될 수 있다. 일부 실시예들이 구체적으로 예시되지만, 다른 실시예들이 고려되고, 특정 실시예들의 논의는 구현들의 폭을 제한하지 않는다. 양태들 중 적어도 하나는 일반적으로 비디오 인코딩 및 디코딩에 관한 것이고 적어도 하나의 다른 양태는 일반적으로 생성되거나 또는 인코딩된 비트스트림을 송신하는 것에 관한 것이다. 이들 및 다른 양태들은 방법, 장치, 설명된 방법들 중 임의의 것에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들을 저장하는 컴퓨터 판독가능 저장 매체, 및/또는 설명된 방법들 중 임의의 것에 따라 생성된 비트스트림을 저장하는 컴퓨터 판독가능 저장 매체로서 구현될 수 있다.

본 개시내용에서, 용어들 "재구성된" 및 "디코딩된"은 상호교환가능하게 이용될 수 있고, 용어들 "픽셀" 및 "샘플"은 상호교환가능하게 이용될 수 있고, 용어들 "이미지", "픽처" 및 "프레임"은 상호교환가능하게 이용될 수 있다.

다양한 방법들이 본 명세서에서 설명되었고, 방법들 각각은 설명된 방법을 달성하기 위한 하나 이상의 단계 또는 동작을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 동작들의 특정 순서가 요구되지 않는 한, 특정 단계들 및/또는 동작들의 순서 및/또는 이용은 수정되거나 결합될 수 있다. 또한, "제1", "제2" 등과 같은 용어들은, 예를 들어, "제1 디코딩" 및 "제2 디코딩"과 같은 요소, 컴포넌트, 단계, 동작 등을 수정하기 위해 다양한 실시예들에서 이용될 수 있다. 그러한 용어들의 이용은, 구체적으로 요구되지 않는 한, 수정된 동작들에 대한 순서를 암시하지 않는다. 따라서, 이 예에서, 제1 디코딩은 제2 디코딩 전에 수행될 필요가 없고, 예를 들어, 제2 디코딩 이전에, 동안에, 또는 제2 디코딩과 중첩하는 시간 기간에 발생할 수 있다.

예를 들어, 다양한 수치 값들이 본 개시내용에서 이용될 수 있다. 특정 값들은 예시적인 목적들을 위한 것이고, 설명된 양태들은 이러한 특정 값들로 제한되지는 않는다.

본 명세서에 설명된 실시예들은 프로세서 또는 다른 하드웨어에 의해 구현된 컴퓨터 소프트웨어에 의해, 또는 하드웨어와 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예로서, 실시예들은 하나 이상의 집적 회로에 의해 구현될 수 있다. 프로세서는 기술적 환경에 적절한 임의의 타입일 수 있고, 비제한적인 예들로서, 마이크로프로세서들, 범용 컴퓨터들, 특수 목적 컴퓨터들, 및 멀티-코어 아키텍처에 기초한 프로세서들 중 하나 이상을 포함할 수 있다.

다양한 구현들은 디코딩을 수반한다. 본 개시내용에서 이용된 바와 같은 "디코딩"은 디스플레이에 적합한 최종 출력을 생성하기 위해, 예를 들어, 수신된 인코딩된 시퀀스에 대해 수행된 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 디코더에 의해 전형적으로 수행된 프로세스들, 예를 들어, 엔트로피 디코딩, 역양자화, 역변환, 및 차동 디코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 개시내용에서 설명된 다양한 구현들의 디코더에 의해 수행된 프로세스들, 예를 들어, 타일링된(패킹된) 픽처로부터 픽처를 추출하는 것, 이용할 업샘플링 필터를 결정하는 것 및 그 후 픽처를 업샘플링하는 것, 및 픽처를 그것의 의도된 배향으로 다시 플립핑하는 것을 포함한다.

추가 예들로서, 일 실시예에서, "디코딩"은 엔트로피 디코딩만을 지칭하고, 다른 실시예에서, "디코딩"은 차동 디코딩만을 지칭하고, 다른 실시예에서, "디코딩"은 엔트로피 디코딩 및 차동 디코딩의 조합을 지칭한다. "디코딩 프로세스"라는 문구가 동작들의 서브세트 또는 일반적으로 더 넓은 디코딩 프로세스를 구체적으로 지칭하도록 의도되는지의 여부는, 특정 설명들의 문맥에 기초하여 명백할 것이다.

다양한 구현들은 인코딩을 수반한다. "디코딩"에 관한 상기의 논의와 유사한 방식으로, 본 개시내용에서 이용된 바와 같은 "인코딩"은 인코딩된 비트스트림을 생성하기 위해, 예를 들어, 입력 비디오 시퀀스에 대해 수행된 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 인코더에 의해 전형적으로 수행되는 프로세스들, 예를 들어, 파티셔닝, 차동 인코딩, 변환, 양자화, 및 엔트로피 인코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 개시내용에 설명된 다양한 구현들의 인코더에 의해 수행된 프로세스들을 포함한다.

추가의 예들로서, 일 실시예에서 "인코딩"은 엔트로피 인코딩만을 지칭하고, 다른 실시예에서 "인코딩"은 차동 인코딩만을 지칭하며, 다른 실시예에서 "인코딩"은 차동 인코딩 및 엔트로피 인코딩의 조합을 지칭한다. "인코딩 프로세스"라는 문구가 동작들의 서브세트 또는 일반적으로 더 넓은 인코딩 프로세스를 구체적으로 지칭하도록 의도되는지의 여부는, 특정 설명들의 맥락에 기초하여 명백할 것이다.

도면이 흐름도로서 제시될 때, 그것은 또한 대응하는 장치의 블록도를 제공한다는 것이 이해되어야 한다. 유사하게, 도면이 블록도로서 제시될 때, 그것은 대응하는 방법/프로세스의 흐름도를 또한 제공한다는 것이 이해되어야 한다.

다양한 실시예들은 레이트 왜곡 최적화를 언급한다. 특히, 인코딩 프로세스 동안, 계산 복잡도의 제약들이 종종 주어지면, 레이트와 왜곡 사이의 균형 또는 절충이 통상적으로 고려된다. 레이트 왜곡 최적화는 통상적으로 레이트와 왜곡의 가중 합인 레이트 왜곡 함수를 최소화하는 것으로 공식화된다. 레이트 왜곡 최적화 문제를 해결하기 위한 상이한 접근법들이 있다. 예를 들어, 이 접근법들은, 코딩 및 디코딩 이후에 재구성된 신호의 그 코딩 비용 및 관련 왜곡의 완전한 평가와 함께, 모든 고려된 모드들 또는 코딩 파라미터 값들을 포함하는 모든 인코딩 옵션들의 광범위한 테스트에 기초할 수 있다. 인코딩 복잡성을 피하기 위해, 특히 재구성된 것이 아니라 예측 또는 예측 잔차 신호에 기초한 근사화된 왜곡의 계산을 이용한, 더 빠른 접근법들이 또한 이용될 수 있다. 가능한 인코딩 옵션들 중 단지 일부에 대한 근사화된 왜곡, 및 다른 인코딩 옵션들에 대한 완전한 왜곡을 이용하는 것과 같이, 이들 2개의 접근법들의 혼합이 또한 이용될 수 있다. 다른 접근법들은 가능한 인코딩 옵션들의 서브세트만을 평가한다. 보다 일반적으로, 많은 접근법들은 최적화를 수행하기 위해 다양한 기법들 중 임의의 기법을 이용하지만, 최적화가 반드시 코딩 비용 및 관련 왜곡 둘다의 완전한 평가인 것은 아니다.

본 명세서에 설명된 구현들 및 양태들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의되더라도(예를 들어, 방법으로서만 논의되더라도), 논의된 특징들의 구현은 다른 형태들(예를 들어, 장치 또는 프로그램)로 또한 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 논리 디바이스를 포함하는, 일반적으로 처리 디바이스들을 지칭하는, 예를 들어, 프로세서에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 컴퓨터들, 셀 폰들, 휴대용/개인 정보 단말기(portable/personal digital assistant)("PDA")들, 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은, 통신 디바이스들을 포함한다.

"일 실시예" 또는 "실시예" 또는 "일 구현" 또는 "구현"뿐만 아니라 그의 다른 변형들에 대한 참조는, 실시예와 관련하여 설명된 특정한 특징, 구조, 특성 등이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 개시내용 전체에 걸쳐 다양한 곳에 나타나는 문구 "일 실시예에서" 또는 "실시예에서" 또는 "일 구현에서" 또는 "구현에서"뿐만 아니라 임의의 다른 변형들의 출현들은 반드시 모두가 동일한 실시예를 지칭하는 것은 아니다.

추가적으로, 본 개시내용은 다양한 정보를 "결정하는 것"을 언급할 수 있다. 정보를 결정하는 것은, 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 정보를 메모리로부터 검색하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 개시내용은 다양한 정보에 "액세스하는 것"을 언급할 수 있다. 정보에 액세스하는 것은, 예를 들어, 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 이동하는 것, 정보를 복사하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 개시내용은 다양한 정보를 "수신하는 것"을 언급할 수 있다. 수신하는 것은, "액세스하는 것"에서와 같이 광의의 용어로 의도된다. 정보를 수신하는 것은, 예를 들어, 정보에 액세스하는 것 또는 (예를 들어, 메모리로부터의) 정보를 검색하는 것 중 하나 이상을 포함할 수 있다. 또한, "수신하는 것"은 전형적으로, 예를 들어, 정보를 저장하는 것, 정보를 처리하는 것, 정보를 송신하는 것, 정보를 이동하는 것, 정보를 복사하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것 또는 정보를 추정하는 것과 같은 동작들 동안 하나의 방식 또는 다른 방식으로 수반된다.

예를 들어, "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서, 이하의 "/", "및/또는", 및 "~ 중 적어도 하나" 중 임의의 것의 이용은, 첫번째로 열거된 옵션 (A)만의 선택, 또는 두번째로 열거된 옵션 (B)만의 선택, 또는 옵션들 (A 및 B) 둘다의 선택을 포함하는 것으로 의도된다. 추가 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우들에서, 그러한 어구는 첫번째로 열거된 옵션 (A)만의 선택, 또는 두번째로 열거된 옵션 (B)만의 선택, 또는 세번째로 열거된 옵션 (C)만의 선택, 또는 첫번째와 두번째로 열거된 옵션들 (A 및 B)만의 선택, 또는 첫번째와 세번째로 열거된 옵션들 (A 및 C)만의 선택, 또는 두번째와 세번째로 열거된 옵션들 (B 및 C)만의 선택, 또는 3개의 옵션들 (A 및 B 및 C) 전부의 선택을 포함하는 것으로 의도된다. 이것은 열거된 것만큼 많은 항목들에 대해 확장될 수 있다.

또한, 본 명세서에 이용된 바와 같이, 단어 "신호(signal)"는 다른 것들 중에서, 대응하는 디코더에게 무언가를 표시하는 것을 지칭한다. 예를 들어, 특정의 실시예들에서, 인코더는 아티팩트 제거 필터링을 위한 영역 기반 필터 파라미터 선택을 위한 복수의 파라미터들 중 특정의 파라미터를 시그널링한다. 이러한 방식으로, 실시예에서, 인코더 측 및 디코더 측 둘다에서 동일한 파라미터가 이용된다. 따라서, 예를 들어, 인코더는 디코더가 동일한 특정 파라미터를 이용할 수 있도록 디코더에 특정 파라미터를 송신(명시적 시그널링)할 수 있다. 반대로, 디코더가 특정 파라미터뿐만 아니라 다른 것들을 이미 갖는 경우, 단순히 디코더가 특정 파라미터를 알고 그것을 선택하는 것을 허용하기 위해 송신 없이 시그널링이 이용될 수 있다(암시적 시그널링). 임의의 실제 기능들의 송신을 피함으로써, 다양한 실시예들에서 비트 절감이 실현된다. 시그널링은 다양한 방식들로 달성될 수 있다는 것을 알아야 한다. 예를 들어, 다양한 실시예들에서, 하나 이상의 신택스 요소, 플래그 등이 정보를 대응하는 디코더에 시그널링하는데 이용된다. 전술한 것은 단어 "신호(signal)"의 동사 형태와 관련되지만, 단어 "신호(signal)"는 명사로서 본 명세서에 이용될 수도 있다.

구현들은, 예를 들어, 저장되거나 송신될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 설명된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호가 설명된 실시예의 비트스트림을 운반하기 위해 포맷팅될 수 있다. 그러한 신호는, 예를 들어(예컨대, 스펙트럼의 라디오 주파수 부분을 이용하여) 전자기파로서 또는 기저대역 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어, 데이터 스트림을 인코딩하는 것 및 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 것으로서 각종의 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능 매체 상에 저장될 수 있다.

다수의 실시예들을 설명한다. 이러한 실시예들의 특징들은 다양한 청구항 카테고리들 및 타입들에 걸쳐 단독으로 또는 임의의 조합으로 제공될 수 있다. 더욱이, 실시예들은 다양한 청구항 카테고리들 및 타입들에 걸쳐, 하기의 특징들, 디바이스들, 또는 양태들 중 하나 이상을, 단독으로 또는 임의의 조합으로 포함할 수 있다:

디코더 또는 미들 박스가 서브-픽처의 프로파일, 티어, 및/또는 레벨을 식별할 수 있게 하는 시그널링 신택스 요소들에 삽입.

설명된 신택스 요소들, 또는 그의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호.

설명된 실시예들 중 임의의 것에 따라 생성된 정보를 전달하는 신택스를 포함하는 비트스트림 또는 신호.

설명된 신택스 요소들, 또는 그의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호를 생성 및/또는 송신 및/또는 수신 및/또는 디코딩.

설명된 실시예들 중 임의의 것에 따른 생성 및/또는 송신 및/또는 수신 및/또는 디코딩.

설명된 실시예들 중 임의의 것에 따른 방법, 프로세스, 장치, 명령어들을 저장하는 매체, 데이터를 저장하는 매체, 또는 신호.

TV, 셋톱 박스, 셀 폰, 태블릿, 또는 설명된 실시예들 중 임의의 것에 따라 서브-픽처의 프로파일, 티어, 및/또는 레벨을 표시하는 신택스 요소들을 디코딩하도록 동작하는 다른 전자 디바이스.

TV, 셋톱 박스, 셀 폰, 태블릿, 또는 설명된 실시예들 중 임의의 것에 따라 서브-픽처의 프로파일, 티어, 및/또는 레벨을 표시하는 신택스 요소들을 디코딩하도록 동작하고, (예를 들어, 모니터, 스크린, 또는 다른 타입의 디스플레이를 이용하여) 결과적인 이미지를 디스플레이하는 다른 전자 디바이스.

TV, 셋톱 박스, 셀 폰, 태블릿, 또는 설명된 실시예들 중 임의의 것에 따라 인코딩된 이미지를 포함하는 신호를 수신하기 위한 채널을 (예를 들어, 튜너를 이용하여) 선택하고, 서브-픽처의 프로파일, 티어, 및/또는 레벨을 표시하는 신택스 요소들을 디코딩하는 다른 전자 디바이스.

TV, 셋톱 박스, 셀 폰, 태블릿, 또는 설명된 실시예들 중 임의의 것에 따라 인코딩된 이미지를 포함하는 신호를 공중을 통해 (예를 들어, 안테나를 이용하여) 수신하고, 서브-픽처의 프로파일, 티어, 및/또는 레벨을 표시하는 신택스 요소들을 디코딩하는 다른 전자 디바이스.

설명된 실시예들 중 하나 이상의 실시예의 다양한 하드웨어 요소들은 개개의 모듈들과 관련하여 본 명세서에 설명된 다양한 기능들을 수행(즉, 수행, 실행 등)하는 "모듈들"로서 지칭된다는 점에 유의한다. 본 명세서에서 이용된 바와 같이, 모듈은 주어진 구현에 대해 관련 기술분야의 통상의 기술자에 의해 적절하다고 생각되는 하드웨어(예를 들어, 하나 이상의 프로세서, 하나 이상의 마이크로프로세서, 하나 이상의 마이크로제어기, 하나 이상의 마이크로칩, 하나 이상의 ASIC(application-specific integrated circuit), 하나 이상의 FPGA(field programmable gate array), 하나 이상의 메모리 디바이스)를 포함한다. 각각의 설명된 모듈은 개개의 모듈에 의해 수행되는 것으로 설명된 하나 이상의 기능을 수행하기 위해 실행가능한 명령어들을 또한 포함할 수 있고, 그러한 명령어들은 하드웨어(즉, 하드와이어드) 명령어들, 펌웨어 명령어들, 소프트웨어 명령어들 등의 형태를 취하거나 이들을 포함할 수 있고, 통상적으로 RAM, ROM 등으로 지칭되는 임의의 적절한 비일시적 컴퓨터 판독가능 매체 또는 매체들에 저장될 수 있다는 점에 유의한다.

특징부들 및 요소들이 위에서 특정한 조합들로 설명되었지만, 본 기술분야의 통상의 기술자는 각각의 특징부 또는 요소가 단독적으로, 또는 다른 특징부들 및 요소들과의 임의의 조합으로 이용될 수 있다는 것을 이해할 것이다. 또한, 본 명세서에 설명된 방법들은 컴퓨터 또는 프로세서에 의한 실행을 위한 컴퓨터 판독가능 매체에 통합된 컴퓨터 프로그램, 소프트웨어, 또는 펌웨어에서 구현될 수 있다. 컴퓨터 판독가능 저장 매체의 예들은, 제한적인 것은 아니지만, ROM(read only memory), RAM(random access memory), 레지스터, 캐시 메모리, 반도체 메모리 디바이스들, 내부 하드 디스크들 및 이동식 디스크들과 같은 자기 매체들, 광 자기 매체들(magneto-optical media), 및 CD-ROM 디스크들과 DVD(digital versatile disk)들과 같은 광학 매체들을 포함한다. 소프트웨어와 연관된 프로세서는 WTRU, UE, 단말기, 기지국, RNC, 또는 임의의 호스트 컴퓨터에서 이용하기 위한 라디오 주파수 트랜시버를 구현하는데 이용될 수 있다.

Claims

방법으로서,
복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 비트스트림에서 인코딩하는 단계; 및
개개의 서브-픽처들 각각에 대한 레벨 정보를 상기 비트스트림에서 시그널링하는 단계
를 포함하고,
상기 레벨 정보는, 각각의 서브-픽처에 대해, 상기 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시하는, 방법.
제1항에 있어서,
상기 서브-픽처들 각각에 대해, 상기 개개의 서브-픽처에 대한 티어를 표시하는 정보를 시그널링하는 단계를 더 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 서브-픽처들 각각에 대해, 상기 개개의 서브-픽처에 대한 프로파일을 표시하는 정보를 시그널링하는 단계를 더 포함하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 서브-픽처들 중 적어도 하나는 복수의 계층들을 이용하여 상기 비트스트림에서 인코딩된 계층화된 서브-픽처이고, 상기 레벨 정보는 상기 계층들 각각에 대한 상기 비트스트림에서 시그널링되는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 서브-픽처들 각각은 계층과 연관되고, 계층 내의 각각의 서브-픽처는 동일 계층에서의 다른 서브-픽처들과 독립적으로 인코딩되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 상기 레벨 정보를 포함하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 위치 오프셋 정보를 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 크기 정보를 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 서브-픽처들에 대한 상기 레벨 정보는 profile_tier_level() 데이터 구조에서 시그널링되는, 방법.
장치로서,
프로세서
를 포함하고, 상기 프로세서는 적어도,
복수의 서브-픽처들을 포함하는 비디오를 비트스트림에서 인코딩하는 것; 및
개개의 서브-픽처들 각각에 대한 레벨 정보를 상기 비트스트림에서 시그널링하는 것
을 수행하도록 구성되고,
상기 레벨 정보는, 각각의 서브-픽처에 대해, 상기 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시하는, 장치.
제10항에 있어서,
상기 서브-픽처들 중 적어도 하나는 복수의 계층들을 이용하여 상기 비트스트림에서 인코딩된 계층화된 서브-픽처이고, 상기 레벨 정보는 상기 계층들 각각에 대한 상기 비트스트림에서 시그널링되는, 장치.
제10항 또는 제11항에 있어서,
상기 서브-픽처들 각각은 계층과 연관되고, 계층 내의 각각의 서브-픽처는 동일 계층에서의 다른 서브-픽처들과 독립적으로 인코딩되는, 장치.
제10항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세서는 상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하도록 추가로 구성되고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 상기 레벨 정보를 포함하는, 장치.
제10항 내지 제13항 중 어느 한 항에 있어서,
상기 프로세서는 상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하도록 추가로 구성되고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 위치 오프셋 정보를 포함하는, 장치.
제10항 내지 제14항 중 어느 한 항에 있어서,
상기 프로세서는 상기 비트스트림에서의 적어도 하나의 출력 서브-픽처 세트를 시그널링하도록 추가로 구성되고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 크기 정보를 포함하는, 장치.
방법으로서,
비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 단계 ― 상기 레벨 정보는, 각각의 서브-픽처에 대해, 상기 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및
상기 레벨 정보에 따라 상기 비트스트림으로부터 복수의 상기 서브-픽처들을 디코딩하는 단계
를 포함하는, 방법.
제16항에 있어서,
상기 레벨 정보에 적어도 부분적으로 기초하여 상기 서브-픽처들의 출력 서브-픽처 세트를 선택하는 단계를 더 포함하고, 복수의 상기 서브-픽처들을 디코딩하는 단계는 상기 선택된 출력 서브-픽처 세트를 디코딩하는 단계를 포함하는, 방법.
제16항 또는 제17항에 있어서,
상기 서브-픽처들 중 적어도 하나에 대해, 상기 개개의 서브-픽처에 대한 티어를 표시하는 정보를 디코딩하는 단계를 더 포함하는, 방법.
제16항 내지 제18항 중 어느 한 항에 있어서,
상기 서브-픽처들 중 적어도 하나에 대해, 상기 개개의 서브-픽처에 대한 프로파일을 표시하는 정보를 디코딩하는 단계를 더 포함하는, 방법.
제16항 내지 제19항 중 어느 한 항에 있어서,
상기 서브-픽처들 중 적어도 하나는 복수의 계층들을 이용하여 상기 비트스트림에서 인코딩된 계층화된 서브-픽처이고, 상기 레벨 정보는 상기 계층들 중 적어도 하나에 대한 상기 비트스트림으로부터 디코딩되는, 방법.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 서브-픽처들 각각은 계층과 연관되고, 계층 내의 적어도 하나의 서브-픽처는 동일 계층에서의 다른 서브-픽처들과 독립적으로 디코딩되는, 방법.
제16항 내지 제21항 중 어느 한 항에 있어서,
상기 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 상기 레벨 정보를 포함하는, 방법.
제16항 내지 제22항 중 어느 한 항에 있어서,
상기 디코딩된 복수의 서브-픽처들로부터 적어도 하나의 출력 프레임을 구성하는 단계를 더 포함하는, 방법.
제23항에 있어서,
상기 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 위치 오프셋 정보를 포함하며, 상기 출력 프레임은 상기 위치 오프셋 정보에 기초하여 구성되는, 방법.
제23항 또는 제24항에 있어서,
상기 비트스트림으로부터 적어도 하나의 출력 서브-픽처 세트를 디코딩하는 단계를 더 포함하고, 상기 출력 서브-픽처 세트는 상기 복수의 서브-픽처들의 적어도 서브세트를 식별하고, 상기 서브세트에서의 상기 서브-픽처들 각각에 대한 크기 정보를 포함하며, 상기 출력 프레임은 상기 크기 정보에 기초하여 구성되는, 방법.
제16항 내지 제25항 중 어느 한 항에 있어서,
상기 서브-픽처들에 대한 상기 레벨 정보는 profile_tier_level() 데이터 구조에서 디코딩되는, 방법.
장치로서,
프로세서
를 포함하며, 상기 프로세서는 적어도,
비트스트림으로부터 복수의 개개의 서브-픽처들 각각에 대한 레벨 정보를 디코딩하는 것 ― 상기 레벨 정보는, 각각의 서브-픽처에 대해, 상기 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시함 ―; 및
상기 레벨 정보에 따라 상기 비트스트림으로부터 복수의 상기 서브-픽처들을 디코딩하는 것
을 수행하도록 구성되는, 장치.
제27항에 있어서,
상기 프로세서는 상기 레벨 정보에 적어도 부분적으로 기초하여 상기 서브-픽처들의 출력 서브-픽처 세트를 선택하도록 추가로 구성되고, 복수의 상기 서브-픽처들을 디코딩하는 것은 상기 선택된 출력 서브-픽처 세트를 디코딩하는 것을 포함하는, 장치.
신호로서,
복수의 서브-픽처들을 포함하는 적어도 하나의 픽처를 포함하는 비디오를 인코딩하는 정보; 및
개개의 서브-픽처들 각각에 대한 레벨 정보
를 포함하고,
상기 레벨 정보는, 각각의 서브-픽처에 대해, 상기 개개의 서브-픽처의 신택스 요소들의 값들에 대한 제약들의 사전 정의된 세트를 표시하는, 신호.
제29항에 있어서,
상기 신호는 컴퓨터 판독가능 매체 상에 저장되는, 신호.
제30항에 있어서,
상기 컴퓨터 판독가능 매체는 비일시적 매체인, 신호.