KR20240050413A

KR20240050413A - 비디오 처리를 위한 방법, 장치 및 매체

Info

Publication number: KR20240050413A
Application number: KR1020247010240A
Authority: KR
Inventors: 예-쿠이 왕
Original assignee: 바이트댄스 아이엔씨
Priority date: 2021-09-27
Filing date: 2022-09-26
Publication date: 2024-04-18
Also published as: CN118044176A; WO2023049914A1; EP4409923A1; WO2023049915A1; CN118020310A; WO2023049916A1; KR20240049611A; EP4409873A1; EP4409874A1; CN118044177A; JP2024534617A; US20240244244A1; JP2024534616A; JP2024534615A; US20240244219A1; KR20240049610A; US20240244303A1

Abstract

본 발명의 실시예들은 미디어 데이터 전송을 위한 해결책을 제공한다. 미디어 데이터 전송을 위한 방법은 제안된다. 방법은 제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계 및 상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 결정하는 단계를 포함한다.

Description

비디오 처리를 위한 방법, 장치 및 매체

관련 애플리케이션에 대한 교차 참조

본 출원은 2021년 9월 27일 출원된 미국 임시 출원 제63/248,852호의 이익을 주장하며, 그 내용은 본 명세서에 전체적인 참조로 통합된다.

기술분야

본 발명의 실시예는 일반적으로 비디오 코딩 기술에 관한 것으로, 더 상세하게는 파일 형식의 디지털 오디오 비디오 매체 정보의 생성, 저장 및 소비에 관한 것이다.

미디어 스트리밍 응용 프로그램은 일반적으로 인터넷 프로토콜(IP), 전송 제어 프로토콜(TCP) 및 하이퍼텍스트 전송 프로토콜(HTTP) 전송 방식을 기반으로 하며, 일반적으로 ISO 기본 미디어 파일 형식(ISOBMFF)과 같은 파일 형식에 의존한다. 그러한 스트리밍 시스템 중 하나는 HTTP에 기반한 동적 적응 스트리밍(DASH)이다. HTTP에 기반한 동적 적응 스트리밍 (DASH)에서, 멀티미디어 내용의 비디오 및/또는 오디오 데이터에 대한 복수의 표현이 있을 수 있고, 상이한 표현은 상이한 코딩 특성(예를 들어, 비디오 코딩 표준의 상이한 프로파일 또는 레벨, 상이한 비트율, 상이한 공간 해상도 등)에 대응할 수 있다. 이 밖에 “화면 속 화면”라는 이름의 기술도 제안되었다. 따라서 화면 속 화면 서비스를 지원하는 DASH에 대해 연구할 가치가 있다.

본 발명의 실시예들은 비디오 처리를 위한 해결책을 제공한다.

제1 측면에서 비디오 처리를 위한 방법이 제안된다. 방법은 제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계 및 상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 결정하는 단계를 포함한다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다.

제2 측면에서 비디오 처리를 위한 또 다른 방법이 제안된다. 방법은 제2 장치에서, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 그룹이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 나타내는 표시를 포함하는 메타데이터 파일을 결정하는 단계 및 상기 메타데이터 파일을 제1 장치로 전송하는 단계를 포함한다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다.

세 번째 측면에서 비디오 데이터를 처리하기 위한 장치가 제안된다. 비디오 데이터를 처리하기 위한 장치는 프로세서 및 명령어를 포함하는 비일시적 메모리를 포함한다. 명령어들은 프로세서에 의해 실행될 때, 프로세서로 하여금 본 발명의 제1 또는 제2 측면에 따른 방법을 수행하게 한다.

네 번째 측면에서, 비일시적 컴퓨터 판독가능한 저장 매체가 제안된다. 비일시적 컴퓨터 판독가능한 저장 매체는 프로세서로 하여금 본 발명의 제1 또는 제2 측면에 따른 방법을 수행하게 하는 명령어들을 저장한다.

본 발명의 내용은 다음과 같은 상세한 설명에서 진일보한 개념의 선택을 간략한 형식으로 소개하기 위한 것이다. 본 발명의 내용은 보호가 필요한 주제의 핵심 특징이나 기본 특징을 식별하거나 보호가 필요한 주제의 범위를 제한하는 데 사용되지 않는다.

첨부된 도면들을 참조하여 아래의 상세한 설명을 통해, 본 발명의 예시적인 실시예들의 상기와 다른 목적, 특징 및 이점이 보다 명확해질 것이다. 본 발명의 예시적인 실시예에서, 동일한 참조 번호는 일반적으로 동일한 구성요소를 지칭한다.
도 1은 본 발명의 일부 실시예에 따른 비디오 코딩 시스템을 예시하는 블록도를 도시한다.
도 2는 본 발명의 일부 실시예에 따른 제1 예시 비디오인코더를 예시하는 블록도를 도시한다.
도 3은 본 발명의 일부 실시예에 따른 하나의 예시 비디오 디코더를 예시하는 블록도를 도시한다.
도 4는 18개의 타일, 24개의 슬라이스 및 24개의 서브 이미지로 분할된 그림의 개략도를 도시한다.
도 5는 일반적인 서브 이미지 기반의 뷰포트 의존성 360^o 비디오 전송 방식의 개략도를 도시한다.
도 6은 2 개의 서브 이미지과 4 개의 슬라이스가 포함된 비트스트림에서 서브 이미지를 추출하는 개략도를 도시한다.
도 7은 VVC 서브 이미지를 기반으로 한 화면에서 화면 속 화면 지원의 개략도를 도시한다.
도 8은 본 발명의 실시예에 따른 방법의 흐름도를 도시한다.
도 9A 및 9B는 화면 속 화면의 개략도를 도시한다.
도 10은 본 발명의 실시예에 따른 방법의 흐름도를 도시하고,
도 11는 본 발명의 다양한 실시예들이 구현될 수 있는 컴퓨팅 장치의 블록도를 도시한 것이다.
도면 전체에서 동일하거나 유사한 참조 번호는 일반적으로 동일하거나 유사한 요소를 지칭한다.

본 발명의 원리는 이제 일부 실시예들을 참조하여 설명될 것이다. 이러한 실시예들은 본 발명의 범위에 대한 어떠한 제한도 제시하지 않고, 단지 예시를 목적으로 기술되고 당업자가 본 발명을 이해하고 구현하도록 돕는 것임을 이해하는 것이다. 본 명세서에 기재된 발명 내용은 아래에 기재된 발명 내용 외에 다양한 방식으로 구현될 수 있다.

아래의 기술 및 청구항들에서, 달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어들은 본 발명 내용이 속하는 기술분야의 통상의 기술자들 중 하나에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.

본 발명에서 “일 실시예”, “한 실시예”,“한 예시적인 실시예” 등에 대한 언급은 기재된 실시예가 특정 특징, 구조 또는 특성을 포함할 수 있음을 나타내지만, 모든 실시예가 특정 특징, 구조 또는 특성을 포함할 필요는 없다. 이 밖에 이런 구절이 반드시 동일한 실시예를 가리키는 것은 아니다. 또한, 특정 특징, 구조 또는 특성이 예시적인 실시예와 관련하여 기술될 때명시적으로 설명되었는지 여부에 관계없이 다른 실시예를 결합하여 그러한 특징, 구조 또는 특성이 해당 분야의 기술자의 지식 범위에 영향을 미친다고 생각한다.

여기서 “제 1” 및 “제 2” 등의 용어가 다양한 요소를 설명하는 데 사용될 수 있지만 이러한 요소가 이러한 용어에 의해 제한되어서는 안 된다는 것을 이해해야 한다. 이 용어는 한 요소와 다른 요소를 구별하는 데만 사용된다. 예를 들어, 제1 요소는 제2 요소로 명명될 수 있고, 유사하게, 예시적인 실시예들의 범위를 벗어나지 않는 경우, 제2 요소는 제1 요소로 명명될 수 있다. 본 발명에서 사용되는 바와 같이, 용어 “및/또는”에는 나열된 용어들 중 하나 이상의 임의의 및 모든 조합이 포함된다.

본 발명에서 사용되는 용어는 특정 실시예들만을 설명하기 위한 목적이며, 예시적인 실시예들을 제한하기 위한 것은 아니다. 본 발명에서 사용되는 바와 같이, 단수 형태 “한”, “일” 및 “그”는 문맥상 명백하게 다르게 뜻하지 않는 한 복수 형태도 포함하도록 되어 있다. 본 발명에서 사용되는 용어 “구성함”, “구성되어 있음”,“보유함”, “보유하고 있음”,“포함” 및/또는 “포함되어 있음”은 명시된 특징, 요소 및/또는 구성요소 등의 존재를 명시하지만, 하나 이상의 다른 특징, 요소, 구성요소 및/또는 이들의 조합의 존재 또는 추가를 배제하는 것은 아니다.

예시 환경

도 1은 본 명세서의 기술을 활용할 수 있는 하나의 예시적인 비디오 코딩 시스템 (100)을 도시하는 블록도이다. 도시된 바와 같이, 비디오 코딩 시스템(100)은 소스 장치(110) 및 목표 장치(120)를 포함할 수 있다. 소스 장치(110)는 비디오 코딩 장치라고도 지칭될 수 있고, 목표 장치(120)는 비디오 디코딩 장치라고도 지칭될 수 있다. 이 동작에서, 소스 장치(110)는 코딩된 비디오 데이터를 생성하도록 구성될 수 있고, 목표 장치(120)는 소스 장치(110)에 의해 생성된 코딩된 비디오 데이터를 디코딩하도록 구성될 수 있다. 소스 장치(110)는 비디오 소스(112), 비디오 인코더(114) 및 입출력(I/O) 인터페이스(116)를 포함할 수 있다.

비디오 소스(112)는 비디오 캡처 장치와 같은 소스를 포함할 수 있다. 비디오 캡처 장치의 예시는 비디오 내용 제공자로부터 비디오 데이터를 수신하기 위한 인터페이스, 비디오 데이터를 생성하기 위한 컴퓨터 그래픽 시스템, 및/또는 이들의 조합을 포함하지만, 이에 제한되지는 않는다.

비디오 데이터는 하나 또는 그 이상의 화면으로 구성될 수 있다. 비디오 인코더(114)는 비디오 소스(112)로부터의 비디오 데이터를 코딩하여 비트스트림을 생성한다. 비트스트림은 비디오 데이터의 코딩된 표현을 형성하는 비트의 시퀀스를 포함할 수 있다. 비트스트림은 코딩된 화면 및 연관된 데이터를 포함할 수 있다. 코딩된 화면은 화면의 코딩된 표현이다. 연관된 데이터는 시퀀스 파라미터 세트, 화면 파라미터 세트, 및 다른 구문 구조를 포함할 수 있다. I/O 인터페이스(116)는 변조기/복조기 및/또는 송신기를 포함할 수 있다. 코딩된 비디오 데이터는 네트워크(130A)를 통해 I/O 인터페이스(116)를 거쳐 목표 장치(120)로 직접 전송될 수 있다. 코딩된 비디오 데이터는 또한 목표 장치(120)에 의한 액세스를 위해 저장 매체/서버(130B) 상에 저장될 수 있다.

목표 장치(120)는 I/O 인터페이스(126), 비디오 디코더(124) 및 표시 장치(122)를 포함할 수 있다. I/O 인터페이스(126)는 수신기 및/또는 모뎀을 포함할 수 있다. I/O 인터페이스(126)는 소스 장치(110) 또는 저장 매체/서버(130B)로부터 코딩된 비디오 데이터를 획득할 수 있다. 비디오 디코더(124)는 코딩된 비디오 데이터를 디코딩할 수 있다. 표시 장치(122)는 디코딩된 비디오 데이터를 사용자에게 표시할 수 있다. 표시 장치(122)는 목표 장치(120)와 일체화될 수도 있고, 외부 표시 장치와 인터페이스하도록 구성된 목표 장치(120)의 외부에 있을 수도 있다.

비디오 인코더(114) 및 비디오 디코더(124)는 고효율 비디오 코딩(HEVC) 표준, 다용도 비디오 코딩(VVC) 표준 및 다른 현재 및/또는 추가 표준과 같은 비디오 압축 표준에 따라 동작할 수 있다.

도 2는 본 발명에서 발명된 일부 실시예에 따른 도 1에 도시된 시스템(100)에서의 비디오 인코더(114)의 일례일 수 있는 비디오 인코더(200)의 일례를 도시하는 블록도이다.

비디오 인코더(200)는 본 명세서의 기술들 중 임의의 것 또는 전부를 구현하도록 구성될 수 있다. 도 2의 예에서, 비디오 인코더(200)는 복수의 기능성 구성요소를 포함한다. 본 명세서에 기술된 기술들은 비디오 인코더(200)의 다양한 구성요소들 간에 공유될 수 있다. 일부 예에서, 프로세서는 본 명세서에 기술된 기술들 중 임의의 것 또는 전부를 수행하도록 구성될 수 있다.

일부 실시예에서, 비디오 인코더(200)는 분할부(201)와 모드 선택부(203), 움직임 추정부(204), 움직임 보상부(205) 및 화면내 예측부(206), 잔차 생성부(207), 변환부(208), 양자화부(209), 역양자화부(210), 역변환부(211), 복원부(212), 버퍼(213) 및 엔트로피 코딩부(214)를 포함할 수 있는 예측부(202)를 포함할 수 있다.

다른 예에서, 비디오 인코더(200)는 더 많거나, 더 적거나, 또는 상이한 기능적 구성요소들을 포함할 수 있다. 일 예에서, 예측부(202)은 블록 내 복제 (IBC) 유닛을 포함할 수 있다. IBC 유닛은 적어도 하나의 참조 화면이 현재 비디오 블록이 위치한 화면인 IBC 모드에서 예측을 수행할 수 있다.

또한, 움직임 추정부(204) 및 움직임 보상부(205)와 같은 일부 구성요소들은 통합될 수 있으나, 도 2의 예에서는 설명을 위해 별도로 표시하였다.

분할부(201)는 화면을 하나 이상의 비디오 블록으로 분할할 수 있다. 비디오 인코더(200) 및 비디오 디코더(300)는 다양한 비디오 블록 크기를 지원할 수 있다.

모드 선택부(203)는 예를 들어, 오류 결과에 기초하여, 코딩된 모드들 중에서 화면내 또는 화면간 중 하나를 선택하고, 결과적으로 화면내-코딩되거나 화면간-코딩된 블록을 잔차 생성부(207)에 제공하여 잔차 블록 데이터를 생성하고, 코딩된 블록을 참조 화면으로서 사용하기 위해 재구성부(212)에 제공할 수도 있다. 일부 예에서, 모드 선택부(203)는 예측이 화면간예측 신호 및 화면내예측 신호에 기초하는 화면간과 화면내 예측(CIIP)모드의 조합을 선택할 수 있다. 모드 선택부(203)는 화면간 예측의 경우 블록에 대한 움직임 벡터(예를 들어, 부분 픽셀 또는 정수형 픽셀 정밀도)에 대한 해상도를 선택할 수도 있다.

움직임 추정부(204)는 현재 비디오 블록에 대한 화면간 예측을 수행하기 위해 버퍼(213)로부터의 하나 이상의 참조 프레임을 현재 비디오 블록과 비교하여 현재 비디오 블록에 대한 움직임 정보를 생성할 수 있다. 움직임 보상부(205)는 현재 비디오 블록과 연관된 화면 이외의 화면들의 움직임 정보 및 버퍼(213)로부터의 디코딩된 샘플들에 기초하여 현재 비디오 블록에 대한 예측 비디오 블록을 결정할 수도 있다.

움직임 추정부(204) 및 움직임 보상부(205)는 예를 들어, 현재 비디오 블록이 I 슬라이스인지, P 슬라이스인지, 또는 B 슬라이스인지에 따라 현재 비디오 블록에 대해 서로 다른 동작을 수행할 수 있다. 본 발명에서 사용되는 바와 같이, “I-슬라이스”는 매크로블록으로 구성된 화면의 일부분을 지칭할 수 있으며, 이들 모두는 동일한 화면 내의 매크로블록을 기반으로 한다. 또한, 본 발명에서 사용되는 바와 같이, 일부 측면에서, “P-슬라이스” 및 “B-슬라이스”은 동일한 화면 내의 매크로블록에 의존하지 않는 매크로블록으로 구성된 화면의 일부분을 지칭할 수도 있다.

일부 예에서, 움직임 추정부(204)는 현재 비디오 블록에 대해 단방향 예측을 수행할 수 있고, 움직임 추정부(204)는 현재 비디오 블록에 대한 참조 비디오 블록에 대해 리스트 0 또는 리스트 1의 참조 화면을 검색할 수 있다. 움직임 추정부(204)는 이후 참조 비디오 블록을 포함하는 리스트 0 또는 리스트 1에서 참조 화면을 나타내는 참조 색인 및 현재 비디오 블록과 참조 비디오 블록 사이의 공간 변위를 나타내는 움직임 벡터를 생성할 수 있다. 움직임 추정부(204)는 참조 색인, 예측 방향 표시기 및 움직임 벡터를 현재 비디오 블록의 움직임 정보로서 출력할 수 있다. 움직임 보상부(205)는 현재 비디오 블록의 움직임 정보에 의해 표시된 참조 비디오 블록을 기반으로 현재 비디오 블록의 예측 비디오 블록을 생성할 수 있다.

또는, 다른 예에서, 움직임 추정부(204)은 현재 비디오 블록에 대해 양방향 예측을 수행할 수 있다. 움직임 추정부(204)는 현재 비디오 블록에 대한 참조 비디오 블록을 위해 리스트 0 내의 참조 화면을 검색할 수 있고, 또한 리스트 1 내의 참조 화면을 현재 비디오 블록에 대한 다른 참조 비디오 블록을 검색할 수도 있다. 움직임 추정부(204)는 이후 참조 비디오 블록을 포함하는 리스트 0 및 리스트 1 내의 참조 화면을 나타내는 참조 색인들 및 참조 비디오 블록과 현재 비디오 블록 사이의 공간 변위를 나타내는 움직임 벡터를 생성할 수도 있다. 움직임 추정부(204)는 참조 색인 및 현재 비디오 블록의 움직임 벡터를 현재 비디오 블록의 움직임 정보로서 출력할 수 있다. 움직임 보상부(205)는 현재 비디오 블록의 움직임 정보에 의해 표시된 참조 비디오 블록을 기반으로 현재 비디오 블록의 예측 비디오 블록을 생성할 수 있다.

다른 예에서, 움직임 추정부(204)은 디코더의 디코딩 처리를 위한 움직임 정보의 전체 그룹을 출력할 수 있다. 또는, 일부 실시예에서, 움직임 추정부(204)는 다른 비디오 블록의 움직임 정보를 참조하여 현재 비디오 블록의 움직임 정보를 신호 알림할 수도 있다. 예를 들어, 움직임 추정부(204)는 현재 비디오 블록의 움직임 정보가 주변 비디오 블록의 움직임 정보와 충분히 유사하다고 판단할 수 있다.

일 예에서, 움직임 추정부(204)는 현재 비디오 블록과 연관된 구문 구조에서, 현재 비디오 블록이 다른 비디오 블록과 동일한 움직임 정보를 갖는다는 것을 비디오 디코더(300)에 나타내는 값을 나타낼 수 있다.

다른 예에서, 움직임 추정부(204)는 현재 비디오 블록과 연관된 구문 구조에서 다른 비디오 블록 및 움직임 벡터 차이(MVD)를 식별할 수 있다. 움직임 벡터 차이는 현재 비디오 블록의 움직임 벡터와 표시된 비디오 블록의 움직임 벡터의 차이를 나타낸다. 비디오 디코더(300)는 지시된 비디오 블록의 움직임 벡터와 움직임 벡터 차이를 이용하여 현재 비디오 블록의 움직임 벡터를 결정할 수 있다.

앞서 설명한 바와 같이, 비디오 인코더(200)는 움직임 벡터를 예측적으로 신호 알림할 수 있다. 비디오 인코더(200)에 의해 구현될 수 있는 예측 신호 알림 기술의 두 가지 예는 고급 움직임 벡터 예측(AMVP) 및 병합 모드 신호 알림을 포함한다.

화면내 예측부(206)는 현재 비디오 블록에 대한 화면내 예측을 수행할 수 있다. 화면내 예측부(206)가 현재 비디오 블록에 대해 화면내 예측을 수행하는 경우, 화면내 예측부(206)는 동일한 화면 내의 다른 비디오 블록의 디코딩된 샘플에 기초하여 현재 비디오 블록에 대한 예측 데이터를 생성할 수도 있다. 현재 비디오 블록에 대한 예측 데이터는 예측된 비디오 블록 및 다양한 구문 요소를 포함할 수 있다.

잔차 생성부(207)는 현재 비디오 블록에서 현재 비디오 블록의 예측된 비디오 블록(들)을 감산(예를 들어, 마이너스 부호로 표시)함으로써 현재 비디오 블록에 대한 잔차 데이터를 생성할 수 있다. 현재 비디오 블록의 잔차 데이터는 현재 비디오 블록 내 샘플의 상이한 샘플 구성요소에 대응하는 잔차 비디오 블록을 포함할 수 있다.

다른 예에서, 예를 들어 스킵 모드에서 현재 비디오 블록에 대한 현재 비디오 블록에 대한 잔차 데이터가 없을 수 있고, 잔차 생성부(207)는 감산 동작을 수행하지 않을 수 있다.

변환 처리부(208)는 현재 비디오 블록과 연관된 잔차 비디오 블록에 하나 또는 그 이상의 변환을 적용함으로써 현재 비디오 블록에 대한 하나 또는 그 이상의 변환 계수 비디오 블록을 생성할 수 있다.

변환 처리부(208)는 현재 비디오 블록과 연관된 변환 계수 비디오 블록을 생성한 후, 양자화부(209)는 현재 비디오 블록과 연관된 하나 또는 그 이상의 양자화 파라미터(QP) 값에 기초하여 현재 비디오 블록과 연관된 변환 계수 비디오 블록을 양자화할 수 있다.

역양자화부(210) 및 역변환부(211)는 변환 계수 비디오 블록에 역양자화 및 역변환을 각각 적용하여 변환 계수 비디오 블록으로부터 잔차 비디오 블록을 복원할 수 있다. 재구성부(212)는 예측부(202)에 의해 생성된 하나 또는 그 이상의 예측된 비디오 블록으로부터의 대응하는 샘플에 재구성된 잔차 비디오 블록을 추가하여 버퍼(213)에 저장하기 위한 현재 비디오 블록과 연관된 재구성된 비디오 블록을 생성할 수도 있다.

재구성부(212)는 비디오 블록을 재구성한 후, 비디오 블록 내의 비디오 차단 아티팩트를 줄이기 위해 루프 필터링 동작이 수행될 수 있다.

엔트로피 코딩부(214)는 비디오 코딩기(200)의 다른 기능적 구성요소들로부터 데이터를 수신할 수 있다. 엔트로피 코딩부(214)가 데이터를 수신하면, 엔트로피 코딩부(214)는 엔트로피 코딩 데이터를 생성하고, 엔트로피 코딩 데이터를 포함하는 비트스트림을 출력하기 위해 하나 또는 그 이상의 엔트로피 코딩 동작을 수행할 수 있다.

도 3은 본 발명의 일부 실시예에 따른 도 1에 도시된 시스템(100)에서 비디오 디코더(124)의 일례일 수 있는 비디오 디코더(300)의 일례를 도시하는 블록도이다.

비디오 디코더(300)는 본 명세서의 기술들 중 임의의 것 또는 전부를 수행하도록 구성될 수 있다. 도 3의 예에서, 비디오 디코더(300)는 복수의 기능성 구성요소들을 포함한다. 본 명세서에 기술된 기술들은 비디오 디코더(300)의 다양한 구성요소들 간에 공유될 수 있다. 일부 예에서, 프로세서는 본 명세서에 기술된 기술들 중 임의의 것 또는 전부를 수행하도록 구성될 수 있다.

도 3의 예에서, 비디오 디코더(300)는 엔트로피 코딩부(301), 움직임 보상부(302), 화면내 예측부(303), 역양자화부(304), 역변환부(305), 및 복원부(306) 및 버퍼(307)를 포함한다. 일부 예에서 비디오 디코더(300)는 일반적으로 비디오 인코더(200)에 대해 기술하는 코딩 패스와 반대되는 디코딩 패스를 수행할 수 있다.

엔트로피 디코딩부(301)는 코딩된 비트스트림을 검색할 수 있다. 코딩된 비트스트림은 엔트로피 코딩된 비디오 데이터(예를 들어, 비디오 데이터의 코딩된 블록들)를 포함할 수 있다. 엔트로피 디코딩부(301)는 엔트로피 코딩된 비디오 데이터를 디코딩하고, 엔트로피 디코딩된 비디오 데이터로부터 움직임 보상부(302)는 움직임 벡터, 움직임 벡터 정밀도, 참조 화면 리스트 색인 및 기타 움직임 정보를 포함하는 움직임 정보를 결정할 수 있다. 움직임 보상부(302)는 예를 들어, AMVP 및 병합 모드를 수행하여 이러한 정보를 결정할 수 있다. AMVP는 인접 PB들의 데이터와 참조 화면을 기반으로 가장 가능성이 높은 여러 후보를 도출하는 것을 포함하여 사용된다. 움직임 정보는 일반적으로 수평 및 수직 움직임 벡터 변위 값들, 하나 또는 두 개의 참조 화면 색인들, 및 B 슬라이스들에서의 예측 영역들의 경우, 어떤 참조 화면 리스트가 각각의 색인과 연관되는지에 대한 식별을 포함한다. 본 발명에서 사용되는 바와 같이, 일부 측면에서, “병합 모드”는 공간적으로 또는 시간적으로 인접 블록들로부터 움직임 정보를 도출하는 것을 지칭할 수 있다.

움직임 보상부(302)는 보간 필터에 기초하여 보간을 수행할 수 있는 움직임 보상 블록을 생성할 수 있다. 부분 픽셀 정밀도로 사용될 보간 필터에 대한 식별자들이 구문 요소에 포함될 수 있다.

움직임 보상부(302)는 참조 블록의 서브 정수형 픽셀에 대한 보간 값을 계산하기 위해 비디오 인코더(200)에 의해 사용되는 보간 필터를 사용할 수 있다. 움직임 보상부(302)는 수신된 구문 정보에 따라 비디오 인코더(200)에서 사용되는 보간 필터를 결정하고, 보간 필터를 이용하여 예측 블록을 생성할 수 있다.

움직임 보상부(302)은 코딩된 비디오 시퀀스의 프레임(들) 및/또는 슬라이스(들)를 코딩하기 위해 사용되는 블록의 크기를 결정하기 위해, 구문 정보의 적어도 일부를 사용할 수도 있고, 코딩된 비디오 시퀀스의 화면의 각각의 매크로블록이 어떻게 분할되는지를 기술하는 분할 정보, 각각의 분할이 코딩되는 방법을 나타내는 모드, 각각의 코딩되는 블록에 대한 하나 또는 그 이상의 참조 프레임(및 참조 프레임 리스트), 및 코딩된 비디오 시퀀스를 디코딩하기 위한 다른 정보이다. 본 발명에서 사용되는 바와 같이, 일부 측면에서, “슬라이스”는 엔트로피 코딩, 신호 예측 및 잔차 신호 재구성의 관점에서, 동일한 화면의 다른 슬라이스들로부터 독립적으로 디코딩될 수 있는 데이터 구조를 지칭할 수도 있다. 슬라이스는 전체 화면 또는 화면의 일 영역이 될 수 있다.

화면내 예측부(303)은 비트스트림에서 수신되는 화면내 예측 모드와 같은 모드를 사용하여 공간적으로 인접한 블록으로부터 예측 블록을 형성할 수 있다. 역양자화부(304)는 비트스트림에 제공되고 엔트로피 디코딩부(301)에 의해 디코딩되고 양자화된 비디오 블록 계수를 역양자화, 즉 탈양자화를 수행한다. 역변환부(305)는 역변환을 적용한다.

재구성부(306)은 예를 들어, 움직임 보상부(302) 또는 화면내 예측부(303)에 의해 생성된 대응하는 예측 블록과 잔차 블록을 합산함으로써 디코딩된 블록을 획득할 수 있다. 원하는 경우, 블록성 아티팩트를 제거하기 위해 디블록킹 필터를 사용하여 디코딩된 블록을 여과할 수도 있다. 그런 다음 디코딩된 비디오 블록은 버퍼(307)에 저장되며, 버퍼(307)는 후속 움직임 보상/화면내 예측을 위한 참조 블록을 제공하고 또한 표시 장치에서 보여주기 위한 디코딩된 비디오를 생성한다.

본 발명의 일부 예시적인 실시예들은 아래에서 상세하게 기술될 것이다. 본 발명 문서에서 세션 제목을 사용하는 것은 이해를 용이하게 하기 위한 것이며, 한 세션에 공개된 실시예를 이 세션으로만 제한하지 않음을 이해해야 한다. 또한, 특정 실시예들이 다기능 비디오 코딩 또는 다른 특정 비디오 코덱을 참조하여 기술되지만, 공개된 기술은 다른 비디오 코딩 기술에도 적용될 수 있다. 게다가, 일부 실시예들이 비디오 코딩 단계를 상세하게 기술하지만, 코딩을 해제하는 해당 단계의 디코딩은 디코더에 의해 구현된다는 것을 이해할 것이다. 또한, 비디오 처리라는 용어는 비디오 코딩 또는 압축, 비디오 디코딩 또는 압축해제 및 비디오 변환 코딩을 포함하며, 여기서 비디오 픽셀은 하나의 압축된 형식으로부터 다른 압축된 형식으로 또는 다른 압축된 비트레이트로 표현된다.

1. 발명의 개요

본 발명의 실시예는 비디오 스트리밍에 관한 것이다. 특히, 새로운 디스크립터를 통한 HTTP에 기반한 동적 적응 스트리밍 (DASH)에서의 화면 속 화면 서비스 지원과 관련이 있다. 이 아이디어는 미디어 스트리밍 시스템에 개별적으로 또는 다양한 조합으로, 예를 들어 DASH 표준 또는 그 확장에 기초하여 적용될 수 있다.

2. 발명의 배경

2.1. 비디오 코딩 표준

비디오 코딩 표준은 주로 잘 알려진 ITU-T 및 ISO/IEC 표준의 개발을 통해 발전되었다. ITU-T는 H.261과 H.263을, ISO/IEC는 MPEG-1과 MPEG-4 Visual을, 두 기관은 H.262/MPEG-2 Video와 H.264/MPEG-4 고급 비디오 코딩 (AVC)과 H.265/HEVC 표준을 공동으로 제작하였다. H.262 이후로 비디오 코딩 표준은 시간 예측과 변환 코딩이 사용되는 하이브리드 비디오 코딩 구조를 기반으로 한다. HEVC를 넘어 미래의 비디오 코딩 기술을 탐구하기 위해 2015년 VCEG와 MPEG가 공동으로 합동 비디오 전문가팀(JVET)을 설립하였다. 그 이후로 JVET는 많은 새로운 방법을 채택하여 공동성명 모델(JEM)이라는 이름의 참조 소프트웨어에 넣었다. JVET는 이후 다용도 비디오 코딩(VVC) 프로젝트가 공식적으로 시작되며 합동 비디오 전문가팀(JVET)으로 이름이 바뀌었다. VVC는 2020년 7월 1일에 종료된 제19차 회의에서 JVET가 최종 확정한 HEVC 대비 50%의 비트레이트 절감을 목표로 하는 새로운 코딩 표준이다.

다용도 비디오 코딩(VVC) 표준(ITU-T H.266 | ISO/IEC 23090-3) 및 관련 다용도 보조 기능 강화 정보(VSEI) 표준(ITU-T H.274 | ISO/IEC 23002-7)은 텔레비전 방송, 화상 회의 또는 저장 매체로부터의 재생과 같은 전통적인 용도뿐만 아니라, 적응적 비트레이트 스트리밍, 비디오 영역 추출, 다중 코딩 비디오 비트스트림, 멀티뷰 비디오, 확장 가능한 계층 코딩 및 뷰포트 적응형 360° 몰입형 미디어로부터의 내용의 구성 및 병합과 같은 최대로 광범위한 응용 분야에서 사용하도록 설계되었다.

기본 비디오 코딩(EVC) 표준(ISO/IEC 23094-1)은 최근 MPEG에 의해 개발된 또 다른 비디오 코딩 표준이다.

2.2. 파일 형식 표준

미디어 스트리밍 응용 프로그램은 일반적으로 IP, TCP 및 HTTP 전송 방식을 기반으로 하며, 일반적으로 ISO 기본 미디어 파일 형식(ISOBMFF)과 같은 파일 형식에 의존한다. 그러한 스트리밍 시스템 중 하나는 HTTP에 기반한 동적 적응 스트리밍(DASH)이다. ISOBMFF 및 DASH가 있는 비디오 형식을 사용하는 경우 ISO/IEC 14496-15의 AVC 파일 형식 및 HEVC 파일 형식과 같은 비디오 형식별 파일 형식 사양: “정보 기술―시청각 객체의 코딩―제15부: ISO 기본 미디어 파일 형식의 네트워크 추상화 계층(NAL) 단위 구조 비디오 전송”은 ISOBMFF 트랙과 DASH 표현 및 세그먼트에 비디오 콘텐츠를 캡슐화하는 데 필요한다. 비디오 비트스트림에 대한 중요한 정보, 예를 들어 프로파일, 티어 , 레벨 및 기타 많은 정보는 스트리밍 세션 시작 시 초기화 및 스트리밍 세션 중 스트림 적응을 위한 적절한 미디어 세그먼트 선택을 위해 파일 형식 레벨 메타데이터 및/또는 DASH 미디어 프레젠테이션 설명(MPD)으로 노출되어야 한다.

마찬가지로 ISO/IEC 23008-12의 AVC 이미지 파일 형식 및 HEVC 이미지 파일 형식과 같은 이미지 형식에 고유한 파일 형식 사양: “정보 기술-이기종 환경에서의 고효율 코딩 및 매체 전달-제12부: 이미지 파일 형식”이 필요한다.

ISOBMFF 기반의 VVC 비디오 내용 저장을 위한 파일 형식인 VVC 비디오 파일 형식은 현재 MPEG에서 개발 중에 있다. VVC 비디오 파일 형식의 최신 초안 사양은 ISO/IEC JTC 1/SC 29/WG 03 출력 문서 N0035, “ISOBMFF에서 VVC 및 EVC의 캐리지에 대한 잠재적 개선”에 포함되어 있다.

현재 MPEG는 ISOBMFF를 기반으로 VVC를 이용하여 코딩된 이미지 내용의 저장을 위한 파일 형식인 VVC 영상 파일 형식을 개발하고 있다. VVC 이미지 파일 형식의 최신 초안 사양은 ISO/IEC JTC 1/SC 29/WG 03 출력 문서 N0038, “정보 기술-이기종 환경에서의 고효율 코딩 및 매체 전달 - 제12부: 이미지 파일 형식-수정안 3: VVC, EVC, 슬라이드쇼 및 기타 개선 사항(CD 스테이지) 지원”에 포함되어 있다.

2.3. DASH

HTTP에 기반한 동적 적응 스트리밍 (DASH)에서, 멀티미디어 내용의 비디오 및/또는 오디오 데이터에 대한 복수의 표현이 있을 수 있고, 상이한 표현은 상이한 코딩 특성(예를 들어, 비디오 코딩 표준의 상이한 프로파일 또는 레벨, 상이한 비트율, 상이한 공간 해상도 등)에 대응할 수 있다. 이러한 표현의 미디어 프레젠테이션 설명(MPD) 데이터 구조에서 정의될 수 있다. 미디어 프레젠테이션은 DASH 스트리밍 클라이언트 장치에 액세스 가능한 구조화된 데이터 컬렉션에 대응할 수 있다. DASH 스트리밍 클라이언트 장치는 클라이언트 장치의 사용자에게 스트리밍 서비스를 제시하기 위해 미디어 데이터 정보를 요청하고 다운로드할 수 있다. 미디어 프레젠테이션은 MPD 데이터 구조에 기술될 수 있으며, 여기에는 MPD의 업데이트가 포함될 수 있다.

미디어 프레젠테이션은 하나 이상의 주기의 서열을 포함할 수 있다. 각 기간은 다음 기간이 시작될 때까지 또는 마지막 기간의 경우 미디어 프레젠테이션이 끝날 때까지 연장될 수 있다. 각 주기는 동일한 미디어 콘텐츠에 대한 하나 이상의 표현을 포함할 수 있다. 표현은 오디오, 비디오, 시간 텍스트, 또는 다른 그러한 데이터의 다수의 대체 코딩된 버전들 중 하나일 수 있다. 표현은 예를 들어, 비디오 데이터에 대한 비트레이트, 해상도 및/또는 코덱 및 오디오 데이터에 대한 비트레이트, 언어 및/또는 코덱에 의해 코딩 유형에 따라 다를 수 있다. 용어 표현은 멀티미디어 콘텐츠의 특정 기간에 대응하고 특정 방식으로 코딩된 오디오 또는 비디오 데이터의 섹션을 지칭하는 데 사용될 수 있다.

특정 기간의 표현는 표현이 속하는 적응 그룹을 나타내는 MPD 내의 속성에 의해 지시되는 그룹에 할당될 수 있다. 클라이언트 장치가 이러한 표현 사이를 동적으로 원활하게 전환할 수 있다는 점에서, 동일한 적응 그룹 내의 표현은 일반적으로 서로에 대한 대안으로 간주된다. 예를 들어, 대역폭 적응을 수행하기 위해 클라이언트 장치가 이러한 표현들 사이를 동적으로 원활하게 전환할 수 있다. 예를 들어, 특정 기간 동안의 비디오 데이터의 각각의 표현은 동일한 적응 그룹에 할당될 수 있으므로, 표현 중 임의의 표현이 해당 기간 동안의 멀티미디어 콘텐츠의 비디오 데이터 또는 오디오 데이터와 같은 미디어 데이터를 제시하기 위한 디코딩을 위해 선택될 수 있다. 하나의 기간 내의 미디어 콘텐츠는 존재하는 경우, 그룹 0으로부터의 하나의 표현 또는 일부 예에서, 각각의 0이 아닌 그룹으로부터의 최대 하나의 표현의 조합에 의해 표현될 수 있다. 기간의 각 표현에 대한 타이밍 데이터는 기간의 시작 시간에 대해 표현될 수 있다.

표현은 하나 이상의 세그먼트를 포함할 수 있다. 각 표현은 초기화 세그먼트를 포함할 수 있거나, 표현의 각 세그먼트는 자체 초기화 중일 수 있다. 존재할 때, 초기화 세그먼트는 표현에 액세스하기 위한 초기화 정보를 포함할 수 있다. 일반적으로 초기화 세그먼트에는 미디어 데이터가 포함되어 있지 않다. 세그먼트는 통합 리소스 로케이터(URL), 통합 리소스명 (URN), 또는 통합 리소스 식별자(URI)와 같은 식별자에 의해 고유하게 참조될 수 있다. MPD는 각 세그먼트에 대한 식별자를 제공할 수 있다. 일부 예에서, MPD는 또한 범위 속성의 형태로 바이트 범위를 제공할 수 있으며, 이는 URL, URN 또는 URI에 의해 액세스가능한 파일 내의 세그먼트에 대한 데이터에 대응할 수 있다.

상이한 표현은 상이한 유형의 미디어 데이터에 대한 실질적으로 동시 검색을 위해 선택될 수 있다. 예를 들어, 클라이언트 장치는 세그먼트를 검색할 오디오 표현, 비디오 표현 및 타이밍된 텍스트 표현을 선택할 수 있다. 일부 예에서, 클라이언트 장치는 대역폭 적응을 수행하기 위한 특정 적응 그룹을 선택할 수도 있다. 즉, 클라이언트 장치는 비디오 표현을 포함하는 적응 그룹, 오디오 표현을 포함하는 적응 그룹 및/또는 시간 텍스트를 포함하는 적응 그룹을 선택할 수 있다. 대안적으로, 클라이언트 장치는 특정 유형의 미디어(예를 들어, 비디오)에 대한 적응 그룹을 선택하고, 다른 유형의 미디어(예를 들어, 오디오 및/또는 시간 텍스트)에 대한 표현을 직접 선택할 수도 있다.

일반적인 DASH 스트리밍 절차는 다음 단계로 표시된다:

1) 클라이언트는 MPD를 받는다.

2) 클라이언트는 하향링크 대역폭을 추정하고, 추정된 하향링크 대역폭 및 코덱, 디코딩 능력, 디스플레이 크기, 오디오 언어 설정 등에 따라 비디오 표현 및 오디오 표현을 선택한다.

3) 미디어 프리젠테이션의 종료에 도달하지 않는 한, 클라이언트는 선택된 표현의 미디어 세그먼트를 요청하고 스트리밍 콘텐츠를 사용자에게 제시한다.

4) 클라이언트는 하향링크 대역폭을 계속 추정한다. 대역폭이 크게 방향으로 변경되면(예: 더 낮아짐), 클라이언트는 새로 추정된 대역폭과 일치하도록 다른 비디오 표현을 선택하고 3단계로 이동한다.

2.4. VVC에서 화면 분할 및 서브 이미지

VVC에서 화면은 하나 또는 그 이상의 타일 행과 하나 또는 그 이상의 타일 열로 구분된다. 타일은 화면의 직사각형 영역을 덮어쓰는 CTU 시퀀스이다. 타일의 CTU는 해당 타일 내에서 래스터 스캔 순서로 스캔된다.

슬라이스는 그림의 타일 내에 있는 완전한 타일의 정수 또는 연속적인 완전한 CTU 행의 정수로 구성된다.

두 가지 슬라이스 모드, 즉 래스터 스캔 슬라이스 모드와 직사각형 슬라이스 모드가 지원된다. 래스터 스캔 슬라이스 모드에서 슬라이스는 그림의 타일 래스터 스캔에서 일련의 완전한 타일을 포함한다. 직사각형 슬라이스 모드에서 슬라이스는 그림의 직사각형 영역을 그룹적으로 형성하는 다수의 완전한 타일 또는 그림의 직사각형 영역을 그룹적으로 형성하는 다수의 연속적인 완전한 CTU 행을 포함한다. 직사각형 슬라이스 내의 타일은 해당 슬라이스에 해당하는 직사각형 영역 내의 타일 래스터 스캔 순서로 스캔된다.

서브 이미지는 그림의 직사각형 영역을 포괄하는 하나 또는 그 이상의 슬라이스를 포함한다.

2.4.1. 서브 이미지 개념 및 기능

VVC에서 각각의 서브 이미지는, 예를 들어, 도 4에 나타낸 바와 같이, 그림의 직사각형 영역을 일괄적으로 커버하는 하나 또는 그 이상의 완전한 직사각형 슬라이스들로 구성된다. 도 4는 18개의 타일, 24개의 슬라이스 및 24개의 서브 이미지로 분할된 그림의 개략도(400)를 도시한다. 서브 이미지는 추출 가능하도록 지정되거나(즉, 동일한 그림의 다른 서브 이미지들 및 디코딩 순서에 따라 이전 그림들과 별도로 코딩됨) 추출 불가능하게 지정될 수도 있다. 인코더는 서브 이미지의 추출 가능 여부와 관계없이 각 서브 이미지에 대해 별도의 서브 이미지 경계에 걸쳐 인-루프 필터링(디블록킹, SAO 및 ALF 포함)을 적용할지 여부를 제어할 수 있다.

기능적으로 서브 이미지는 HEVC의 움직임-제약 타일 세트(MCTS)와 유사하다. 둘 다 뷰포트 의존성 360° 비디오 스트리밍 최적화 및 관심 영역(ROI) 응용 프로그램과 같은 사용 사례를 위해 코딩된 그림 시퀀스의 직사각형 부분 그룹을 독립적으로 코딩하고 추출할 수 있다.

360° 비디오의 스트리밍에서, 즉, 전방향 비디오는 임의의 특정 순간에 전체 전방향 비디오 구의 부분 그룹(즉, 현재 뷰포트)만이 사용자에게 표시되는 반면, 사용자는 언제든지 고개를 돌려 시청 방향을 변경하고 결과적으로 현재 뷰포트를 변경할 수 있다. 클라이언트에서 이용 가능한 현재 뷰포트에 의해 덮혀 있지 않고 사용자에게 렌더링될 준비가 되어 있는 영역의 적어도 일부의 저품질 표현이 바람직하지만, 사용자가 갑자기 자신의 시청 방향을 구의 임의의 곳이든 변경하는 경우를 대비하여, 전방향 비디오의 고품질 표현은 임의의 주어진 순간에 사용자에게 표시되고 있는 현재 뷰포트에 대해서만 필요하다. 전체 전방향 비디오의 고품질 표현을 적절한 세분화로 서브 이미지로 분할하면 도 4와 같은 최적화가 가능하며, 좌측에 12개의 고해상도 이미지가 있고, 우측에 12개의 고해상도 이미지가 낮은 해상도의 전방향 비디오의 나머지 12개의 이미지가 있다.

도 5는 일반적인 서브 이미지 기반의 뷰포트 의존성 360^o 비디오 전송 방식의 개략도(500)를 도시한다. 또 다른 전형적인 서브 이미지 기반 뷰포트 의존성 360° 비디오 전송 방식이 도5에 나타나 있으며, 전체 비디오의 고해상도 표현만이 서브 이미지들로 구성되는 반면, 전체 비디오의 저해상도 표현은 서브 이미지들을 사용하지 않고 고해상도 표현보다 더 적은 빈도의 RAP로 코딩될 수 있다. 클라이언트는 전체 비디오를 저해상도로 수신하는 반면, 고해상도 비디오의 경우 클라이언트는 현재 뷰포트를 덮여쓰는 서브 이미지만 수신하고 디코딩한다.

2.4.2. 서브 이미지과 MCTS의 차이

서브 이미지과 MCTS 사이에는 몇 가지 중요한 설계 차이가 있다. 첫째, VVC에서의 서브 이미지 특징은 서브 이미지 경계들에서와 마찬가지로 서브 이미지가 서브 이미지 경계들에서 샘플 패딩을 적용함으로써 추출가능한 경우에도 서브 이미지 외부를 가리키는 코딩 블록의 움직임 벡터를 허용한다. 둘째, 병합 모드 및 VVC의 디코더 측 움직임 벡터 미세화 과정에서 움직임 벡터의 선택 및 도출을 위한 추가적인 변화가 도입되었다. 이를 통해 MCTS에 대해 인코더 측에서 적용되는 비규범적 움직임 제약 조건에 비해 더 높은 코딩 효율성을 얻을 수 있다. 셋째, 부합 비트스트림인 서브-비트스트림을 생성하기 위해, 그림의 시퀀스로부터 하나 이상의 추출가능한 서브 이미지를 추출할 때, SH(및 PH NAL 유닛, 존재하는 경우)의 재작성이 필요하지 않는다. HEVC MCTS를 기반으로 한 서브-비트스트림 추출에서는 SH의 재작성이 필요한다. HEVC MCTS 추출 및 VVC 서브 이미지 추출 모두에서 SPS 및 PPS의 재작성이 필요한다. 그러나 일반적으로 비트스트림에는 몇 개의 파라미터 세트만 있는 반면, 각 그림에는 적어도 하나의 슬라이스가 있으므로 SH에 대한 재작성은 응용 시스템에 상당한 부담이 될 수 있다. 넷째, 그림 내의 서로 다른 서브 이미지의 슬라이스는 서로 다른 NAL 유닛 유형을 갖도록 허용된다. 이는 아래에서 더 자세히 설명하는 그림 내의 혼합된 NAL 유닛 유형 또는 혼합된 서브 이미지 유형으로 자주 언급되는 기능이다. 다섯째, VVC는 서브 이미지 시퀀스에 대한 HRD 및 레벨 정의를 지정하고, 따라서 각각의 추출 가능한 서브 이미지 시퀀스의 서브-비트스트림의 적합성은 인코더에 의해 보장될 수 있다.

2.4.3. 그림 내에 혼합된 서브 이미지 유형

AVC 및 HEVC에서 그림의 모든 VCL NAL 유닛은 동일한 NAL 유닛 유형을 갖춰야 한다. VVC는 그림 내에서 특정한 다른 VCL NAL 유닛 유형과 서브 이미지를 혼합하는 옵션을 도입하여 그림 레벨뿐만 아니라 서브 이미지 레벨에서도 무작위 액세스를 지원한다. 서브 이미지 내의 VVC VCL NAL 유닛은 여전히 동일한 NAL 유닛 유형이 필요한다.

IRAP 서브 이미지에서 랜덤 액세스 기능은 360° 비디오 응용 프로그램에 유용한다. 도 5에 도시된 것과 유사한 뷰포트 의존성 360° 비디오 전송 방식에서, 공간적으로 인접한 뷰포트의 내용은 대부분 중복된다. 즉, 뷰포트 방향 변경 중에 뷰포트의 일부 서브 이미지만 새로운 서브 이미지로 대체되는 반면, 대부분의 서브 이미지는 뷰포트에 남아 있다. 뷰포트에 새로 도입되는 서브 이미지 시퀀스는 IRAP 슬라이스로 시작해야 하지만 뷰포트 변경 시 나머지 이미지가 화면간예측을 수행할 수 있도록 허용하면 전체 전송 비트율을 크게 줄일 수 있다.

그림이 단일 유형의 NAL 유닛만 포함하는지 또는 둘 이상의 유형을 포함하는지에 대한 표시는 그림이 참조하는 PPS에 제공된다(즉, pps_mixed_nalu_types_in_pic_flag라고 하는 플래그 사용). 그림은 IRAP 슬라이스를 포함하는 서브 이미지와 트레일링 슬라이스를 포함하는 서브 이미지로 동시에 구성될 수 있다. 그림 내의 다른 NAL 유닛 유형의 몇 가지 다른 조합도 허용되며, 여기에는 NAL 유닛 유형 RASL 및 RADL의 선행 그림 슬라이스가 포함되며, 이는 서로 다른 비트스트림에서 추출된 오픈-GOP 및 클로즈-GOP 코딩 구조를 갖춘 서브 이미지 시퀀스를 하나의 비트스트림으로 병합할 수 있다.

2.4.4. 서브 이미지 레이아웃 및 ID 신호 알림

VVC의 서브 이미지 레이아웃은 SPS에서 신호로 알리므로 CLVS에서는 일정하다. 각 서브 이미지는 왼쪽 상단 CTU의 위치와 CTU 개수의 너비 및 높이를 통해 신호로 알리는 이미지가 그림의 직사각형 영역을 CTU 세분화로 덮여쓰도록 한다. SPS에서 이미지가 신호로 알리는 순서에 따라 그림 내의 각 서브 이미지의 색인이 결정된다.

SH 또는 PH의 재작성 없이 서브 이미지 시퀀스의 추출 및 병합을 가능하게 하기 위해, VVC에서의 슬라이스 어드레싱 방식은 서브 이미지 ID 및 서브 이미지에 슬라이스를 연관시키기 위한 서브 이미지-특정 슬라이스 색인에 기초한다. SH에서는 슬라이스를 포함하는 서브 이미지의 서브 이미지 ID와 서브 이미지 레벨 슬라이스 색인이 신호로 알린다. 특정 서브 이미지의 서브 이미지 ID 값은 서브 이미지 색인 값과 다를 수 있다. 둘 사이의 매핑은 SPS 또는 PPS(그러나 둘 다 가진 것 아님)에서 신호로 알리거나 암시적으로 추정된다. 존재하는 경우 서브 이미지 서브-비트스트림 추출 과정 중에 SPS 및 PPS를 재작성할 때 서브 이미지 ID 매핑을 재작성하거나 추가해야 한다. 서브 이미지 ID 및 서브 이미지 레벨 슬라이스 색인은 디코딩된 그림의 DPB 슬롯 내에서 슬라이스의 제1 디코딩된 CTU의 정확한 위치를 디코더에 함께 표시한다. 서브-비트스트림 추출 후 서브 이미지의 서브 이미지 ID는 변경되지 않는 반면 서브 이미지 색인은 변경될 수 있다. 서브 이미지에서 슬라이스 내의 첫번째 CTU의 래스터-스캔 CTU 주소가 기준의 비트스트림 내의 값과 비교하여 변경된 경우에도, 각각의 SH 내의 서브 이미지 ID 및 서브 이미지-레벨 슬라이스 색인의 변경되지 않은 값은 여전히 추출된 서브-비트스트림의 디코딩된 그림 내의 각각의 CTU 위치를 정확하게 결정할 것이다. 도 6은 2개의 서브 이미지 및 4개의 슬라이스를 포함하는 예로 서브 이미지 추출을 가능하게 하기 위한 서브 이미지 ID, 서브 이미지 색인 및 서브 이미지 레벨 슬라이스 색인의 사용 개략도(600)를 도시한다.

서브 이미지 추출과 유사하게, 서브 이미지에 대한 신호 알림은 서로 다른 비트스트림이 조화롭게 생성되는 경우(예를 들어, 서로 다른 서브 이미지 ID를 사용하지만, 다른 측면에서 대부분 정렬된 SPS, PPS 및 CTU 크기, 크로마 형식, 코딩 도구 등과 같은 PH 파라미터를 사용함) SPS 및 PPS를 재작성하기만 함으로써 서로 다른 비트스트림의 여러 서브 이미지를 하나의 비트스트림으로 병합할 수 있다.

서브 이미지와 슬라이스는 각각 SPS 및 PPS에서 독립적으로 신호로 보내지지만, 서브 이미지와 슬라이스 레이아웃 사이에는 적합한 비트스트림을 형성하기 위해 고유한 상호 제약 조건이 있다. 첫째, 서브 이미지의 존재는 직사각형 슬라이스를 사용해야 하며 래스터 스캔 슬라이스를 금지한다. 둘째, 주어진 서브 이미지의 슬라이스는 디코딩 순서에 따라 연속적인 NAL 유닛이어야 하며, 이는 서브 이미지 레이아웃이 비트스트림 내의 코딩된 슬라이스 NAL 유닛의 순서를 제한한다는 것을 의미한다.

2.5. 화면 속 화면 서비스

화면 속 화면 서비스는 작은 해상도의 화면을 더 큰 해상도의 화면 내에 포함할 수 있는 기능을 제공한다. 이러한 서비스는 사용자에게 두 개의 비디오를 동시에 보여주는 데 도움이 될 수 있으며, 따라서 해상도가 더 큰 비디오가 메인 비디오로 간주되고 해상도가 더 작은 비디오가 보조 비디오로 간주된다. 이런 화면 속 화면 서비스는 무장애 서비스를 제공하는 데 사용될 수 있으며, 그 중 메인 비디오는 표지판 비디오으로 보완된다.

VVC 서브 이미지는 VVC 서브 이미지의 추출 및 병합 속성을 모두 사용하여 화면 속 화면 서비스에 사용될 수 있다. 이러한 서비스를 위해, 메인 비디오는 다수의 서브 이미지를 사용하여 코딩되며, 그 중 하나는 보조 비디오와 동일한 크기를 가지며, 보조 비디오가 메인 비디오에 합성되도록 의도되는 정확한 위치에 위치하고, 추출이 가능하도록 독립적으로 코딩되는 것을 특징으로 한다. 도 7은 2 개의 서브 이미지과 4 개의 슬라이스가 포함된 비트스트림에서 서브 이미지를 추출하는 개략도(700)를 도시한다. 도 7에 도시된 바와 같이, 사용자가 보조 비디오를 포함하는 서비스의 버전을 시청하도록 선택하면, 메인 비디오의 화면 속 화면 영역에 대응하는 이미지가 메인 비디오 비트스트림으로부터 추출되고, 그 대신에 보조 비디오 비트스트림이 메인 비디오 비트스트림에 병합된다.

이 경우 메인 비디오와 보조 비디오의 그림은 동일한 비디오 특성, 특히 비트 깊이, 샘플 종횡비, 크기, 프레임 속도, 색상 공간 및 전송 특성, 크로마 샘플 위치가 동일해야 한다. 메인 및 보조 비디오 비트스트림은 각 그림 내에서 NAL 유닛 유형을 사용할 필요가 없다. 그러나 병합하려면 메인 및 보조 비트스트림에서의 그림의 코딩 순서가 동일해야 한다.

여기서는 서브 이미지의 병합이 필요하므로 메인 비디오와 보조 비디오 내에서 사용되는 서브 이미지 ID는 중복될 수 없다. 보조 비디오 비트스트림이 더 이상의 타일 또는 슬라이스 분할없이 하나의 서브 이미지로 구성되더라도, 서브 이미지 정보, 특히 서브 이미지 ID 및 서브 이미지 ID 길이는 보조 비디오 비트스트림과 메인 비디오 비트스트림의 병합을 가능하게 하기 위해 신호 알림될 필요가 있다. 보조 비디오 비트스트림의 슬라이스 NAL 유닛 내에서 서브 이미지 ID 구문 요소의 길이를 시그널하기 위해 사용되는 서브 이미지 ID 길이는 메인 비디오 비트스트림의 슬라이스 NAL 유닛 내에서 서브 이미지 ID들을 시그널하기 위해 사용되는 서브 이미지 ID 길이와 동일해야 한다. 또한, PPS 분할 정보를 재작성할 필요 없이 보조 비디오 비트스트림과 메인 비디오 비트스트림의 병합을 단순화하기 위해, 보조 비디오를 코딩하기 위해 그리고 메인 비디오의 해당 영역 내에서 하나의 슬라이스 및 하나의 타일만을 사용하는 것이 유익할 수 있다. 메인 및 보조 비디오 비트스트림은 SPS, PPS 및 그림 헤더에서 동일한 코딩 도구에 신호로 알려야 한다. 여기에는 블록 분할에 대해 동일한 최대 및 최소 허용 크기를 사용하고 PPS(pps_init_qp_minus26 구문 요소의 동일한 값)에 표시된 것과 동일한 초기 양자화 파라미터 값을 사용하는 것이 포함된다. 코딩 도구 사용은 슬라이스 헤더 레벨에서 수정할 수 있다.

DASH 기반 전달 시스템을 통해 메인 비트스트림과 보조 비트스트림을 모두 사용할 수 있는 경우 DASH 프레젠테이션을 사용하여 병합 및 렌더링하려는 메인 비트스트림과 보조 비트스트림을 시그널링할 수 있다.

3. 문제

DASH의 화면 속 화면 서비스 지원과 관련하여 다음과 같은 문제가 발견되었다:

1) 화면 속 화면 경험을 위해 DASH 프레젠테이션을 사용할 수 있지만 이러한 목적에 대한 표시가 부족하다.

2) 예를 들어, 상기 기술된 바와 같이, 화면 속 화면 경험을 위해 VVC 서브 이미지를 사용하는 것이 가능하지만, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛을 보조 비디오의 대응하는 비디오 데이터 유닛으로 대체할 수 없는 다른 코덱 및 방법을 사용하는 것도 가능하다. 따라서 이러한 대체가 가능할지 여부를 표시할 필요가 있다.

3) 상기 대체가 가능한 경우, 클라이언트는 메인 비디오의 각 그림에서 어떤 코딩된 비디오 데이터 유닛이 타겟 화면 속 화면 영역을 나타내는지 알아야 대체를 수행할 수 있다. 따라서 이 정보는 신호를 보내야 한다.

4) 내용 선택 목적 및 가능한 다른 목적을 위해, 메인 비디오 내의 타겟 화면 속 화면 영역의 위치 및 크기를 신호로 알리는 것이 유용할 것이다.

4. 발명의 실시예

앞서 기술한 문제를 해결하기 위해, 아래에 요약된 방법들이 개시되었다. 실시예는 일반적인 개념을 설명하기 위한 예시로 간주되어야 하며 편협한 방식으로 해석되어서는 안 된다. 또한, 이러한 실시예는 개별적으로 또는 임의의 방식으로 조합될 수 있다.

1) 제1 문제를 해결하기 위해 화면 속 화면 디스크립터라는 이름의 새로운 디스크립터가 정의되며, 프레젠테이션에서 이 디스크립터의 존재는 프레젠테이션의 목적이 화면 속 화면 경험을 제공하기 위한 것임을 나타낸다.

a. 일 예에서 이 새 디스크립터는 보충 속성 요소를 확장하여 보충 디스크립터로 정의된다.

b. 일 예에서 이 새 디스크립터는 “urn:mpeg:dash:pinp:2021” 또는 유사한 URN 문자열과 동일한 @schemeIdUri 속성 값으로 식별된다.

2) 제2 문제를 해결하기 위해, 새로운 화면 속 화면 디스크립터에서, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛이 보조 비디오의 대응하는 비디오 데이터 유닛으로 대체될 수 있는지 여부의 표시를 시그널링한다.

a. 일 예에서 이 표시는 새 화면 속 화면 디스크립터의 요소에 대한 @dataUnitsReplacable이라는 속성으로 표시된다.

3) 세 번째 문제를 해결하기 위해, 새 화면 속 화면 디스크립터에서, 메인 비디오의 각각의 그림에서 어떤 코딩된 비디오 데이터 유닛이 타겟 화면 속 화면 영역을 표시되는지를 나타내기 위한 영역 ID의 목록이 시그널링된다.

a. 일 예에서 영역 ID 목록은 @regionIds라는 이름의 새 화면 속 화면 디스크립터에 있는 요소의 속성으로 시그널링된다.

4) 제2 문제를 해결하기 위해, 새 화면 속 화면 디스크립터에서, 보조 비디오를 내장/덮어쓰기 위한 메인 비디오 내 위치 및 크기로서, 메인 비디오보다 크기가 작다.

a. 일 예에서, 이는 신호에 의해 지시된 네 가지 값(x, y, 너비, 높이)이고, x, y는 영역의 왼쪽 상단 모서리 위치를 지정하고, 너비와 높이는 영역의 너비와 높이를 지정한다. 단위는 루마 샘플/픽셀일 수 있다.

b. 일 예에서 이는 새 화면 속 화면 디스크립터에 있는 요소의 다수의 속성에 의해 신호된다.

5. 실시예

아래는 섹션 4에서 위에 요약된 일부 본 발명의 항목 및 그 하위 항목에 대한 몇 가지 예시적인 실시예이다.

5.1. 실시예 1

이 실시예는 섹션 4에서 위에 요약된 모든 본 발명의 항목 및 그 하위 항목에 대한 것이다.

5.1.1. DASH 화면 속 화면 디스크립터

@schemeIdUri 속성이 “urn:mpeg:dash:pinp:2021”과 동일한 보충 속성 요소를 화면 속 화면 디스크립터라고 한다.

화면 속 화면 디스크립터는 프레젠테이션 수준에서 최대 1개까지 존재할 수 있다. 프레젠테이션에 화면 속 화면 디스크립터가 있다는 것은 프레젠테이션의 목적이 화면 속 화면 경험을 제공하기 위한 것임을 나타낸다.

화면 속 화면 서비스는 공간 해상도가 작은 비디오를 더 큰 비디오 내에 포함할 수 있는 기능을 제공한다. 이 경우 메인 비디오의 서로 다른 비트스트림/표현이 사전 선택의 메인 적응 그룹에 포함되고, 보조 비디오의 서로 다른 비트스트림/표현이 사전 선택의 부분 적응 그룹에 포함된다.

화면 속 화면 디스크립터가 프레젠테이션을 존재하고 picInPicInfo@dataUnitsReplacable 속성이 존재하고 실제와 동일한 경우, 클라이언트는 비디오 디코더로 전송하기 전에 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛을 보조 비디오의 대응하는 코딩된 비디오 데이터 유닛으로 대체하도록 선택할 수 있다. 이렇게 하면 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 메인 비디오 내의 특정 그림을 위해, 보조 비디오의 대응하는 비디오 데이터 유닛은 보조 비디오 표현 내의 디코딩-시간-동기화된 샘플 내의 모든 코딩된 비디오 데이터 유닛이다.

VVC의 경우, 클라이언트가 비디오 디코더로 전송하기 전에, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛(VCL NAL 유닛)을 보조 비디오의 대응하는 VCL NAL 유닛으로 대체하도록 선택할 때, 각각의 서브 이미지 ID에 대해, 메인 비디오의 VCL NAL 유닛은 대응하는 VCL NAL 유닛의 순서를 변경하지 않고, 보조 비디오 내의 그 서브 이미지 ID를 갖는 대응하는 VCL NAL 유닛으로 대체되는 것이 지정된다.

화면 속 화면 디스크립터의 @value 속성은 존재하지 않아야 한다. 화면 속 화면 디스크립터는 다음 표에 명시된 속성을 가진 picInPicInfo요소를 포함해야 한다:

표 1 ― picInPicInfo 요소의 어의

5.3.11.6.3 XML PicInpicInfo 요소의 XML 구문

도 8은 본 발명의 일부 실시예에 따른 비디오 처리를 위한 방법(800)의 흐름도를 도시한다. 방법(800)은 제1 장치에서 구현될 수 있다. 예를 들어, 방법(800)은 클라이언트 또는 수신기에서 구현될 수 있다. 본 발명에서 사용되는 “클라이언트”는 컴퓨터 네트워크의 클라이언트-서버 모델의 일부로서 서버에 의해 이용가능하게 되는 서비스에 액세스하는 컴퓨터 하드웨어 또는 소프트웨어를 지칭할 수 있다.　 예로서, 클라이언트는 스마트폰 또는 태블릿일 수 있다. 일부 실시예에서, 제1 장치는 도 1에 도시된 목표 장치(120)에서 구현될 수 있다.

블록(810)에서, 제1 장치는 제2 장치로부터 메타데이터 파일을 수신한다. 메타데이터 파일은 비디오 비트스트림에 관한 중요한 정보, 예를 들어, 프로파일, 계층, 레벨 등을 포함할 수 있다. 예를 들어, 메타데이터 파일은 콘텐츠 선택 목적, 예를 들어 스트리밍 세션의 초기화 및 스트리밍 세션 동안 스트림 적응을 위한 적절한 미디어 세그먼트의 선택을 위한 DASH 미디어 프레젠테이션 설명(MPD)일 수 있다.

블록(820)에서, 제1 장치는 메타데이터 파일로부터, 제1 비디오 내의 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹으로 대체될 수 있는지 여부를 나타내기 위한 표시가 메타데이터 파일로부터 결정될 수 있다. 일부 실시예에서, 표시는 메타데이터 파일 내의 디스크립터(예를 들어, 화면 속 화면 디스크립터) 내의 요소 속성일 수도 있다. 예를 들어, 속성은 dataUnitsReplacable일 수 있다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다.

일부 예에서, 표시는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 그룹의 코딩된 비디오 데이터 유닛으로 대체되는 것을 허용할 수 있다. 예를 들어, 표시가 제1 비디오 내의 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오 내의 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있음을 나타내는 경우, 제1 비디오를 디코딩하기 전에, 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 그룹의 코딩된 비디오 데이터 유닛으로 대체될 수도 있다. 이 경우, 보조 영상으로부터 제2 코딩된 비디오 데이터 유닛의 세트를 포함하는 메인 비디오가 디코딩될 수 있다. 예를 들어, 디스크립터(즉, 화면 속 화면 디스크립터)가 프레젠테이션에 존재하고 picInPicInfo@dataUnitsReplacable 속성이 존재하고 true와 동일할 수 있는 경우, 제1 장치는 비디오 디코더로 전송하기 전에 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛을 보조 비디오의 대응하는 코딩된 비디오 데이터 유닛으로 대체하도록 선택할 수 있다. 메인 비디오 내의 특정 그림을 위해, 보조 비디오의 대응하는 비디오 데이터 유닛은 보조 비디오 표현 내의 디코딩-시간-동기화된 샘플 내의 모든 코딩된 비디오 데이터 유닛일 수 있다. 예를 들어, 아래 표 2는 디스크립터에 해당 속성이 있는 화면 속 화면 요소의 예를 도시한다. 표 2는 제한이 아닌 하나의 예시일 뿐이라는 점에 유의해야 한다.

표 2

일부 실시예에서, 메타데이터 파일은 디스크립터(측, 화면 속 화면 디스크립터)를 포함할 수 있다. 이 경우, 디스크립터의 존재는 데이터 구조가 화면 속 화면 서비스를 제공하기 위한 것임을 나타낸다. 즉, 데이터 구조가 디스크립터로 구성되어 있다면 데이터 구조가 화면 속 화면 서비스를 제공하기 위한 것임을 의미한다. 화면 속 화면 서비스는 공간 해상도가 작은 비디오를 더 큰 비디오 내에 포함할 수 있는 기능을 제공할 수 있다. 이러한 방식으로 화면 속 화면 환경에 DASH 사전 선택을 사용하도록 지시할 수 있다.

데이터 구조는 화면 속 화면 서비스를 위한 제1 비디오의 비트스트림의 제1 그룹 및 제2 비디오의 비트스트림의 제2 그룹의 선택을 표시할 수 있다. 제1 비디오는 “메인 비디오”, 제2 비디오는 “보조 비디오”으로 지칭될 수도 있다. 화면 속 화면 서비스는 더 큰 공간 해상도를 갖는 비디오(즉, 제1 비디오 또는 메인 비디오) 내에 더 작은 공간 해상도를 갖는 비디오(즉, 제2 비디오 또는 보조 비디오)를 포함하는 기능을 제공할 수도 있다. 일부 실시예에서, 데이터 구조는 메타데이터 파일의 프레젠테이션일 수 있다. 즉, 디스크립터는 프레젠테이션 수준에서 존재할 수 있다. 사전 선택은 디코딩되고 동시에 렌더링되는 하나 또는 복수의 오디오 및/또는 비디오 구성요소에 의해 생성된 오디오 및/또는 비디오 경험을 정의할 수 있다. 예를 들어, 일부 실시예에서는 최대 하나의 디스크립터가 프레젠테이션 레벨에 존재할 수 있다. 일부 실시예에서, 메타데이터 파일은 하나 이상의 사전 선택을 포함할 수 있다. 일부 실시예에서, 데이터 구조의 메인 적응은 제1 비디오의 비트스트림들의 제1 그룹을 포함할 수 있고, 데이터 구조의 부분 적응 그룹은 보조 비디오의 비트스트림들의 제2 그룹을 포함할 수 있다. 예를 들어, 전술된 바와 같이, 화면 속 화면 서비스는 더 큰 공간 해상도를 갖는 비디오(즉, 제1 비디오/메인 비디오) 내에 더 작은 공간 해상도를 갖는 비디오(즉, 제2 비디오/보조 비디오)를 포함하는 기능을 제공할 수도 있다. 이 경우, 제1 비디오의 서로 다른 비트스트림/표현은 프리셀렉션의 메인 적응 그룹에 포함될 수 있고, 제2 비디오의 서로 다른 비트스트림/표현은 프리셀렉션의 부분 적응 그룹에 포함될 수 있다.

일부 실시예에서, 디스크립터는 메타데이터 파일 내의 보충 속성 요소에 기초하여 보충 디스크립터로서 정의될 수 있다. 일부 실시예에서, 디스크립터는 통합 리소스명(URN) 문자열과 동일한 속성의 값에 의해 식별될 수 있다. 예를 들어 속성은 schemeIdUri 속성이다. 일부 예시적인 실시예에서, UR 문자열은 “urn:mpeg:dash:pinp:2022”일 수 있다. UR 문자열은 임의의 적절한 값일 수 있고, 예를 들어, UR 문자열은 “urn:mpeg:dash:pinp:2021” 또는 “urn:mpeg:dash:pinp:2023”일 수 있다. 예를 들어, @schemeIdUri 속성은 “urn:mpeg:dash:pinp:2022”과 동일한 보충 속성 요소를 화면 속 화면 디스크립터라고 한다.

일부 실시예에서, 디스크립터는 제1 비디오를 내장하거나 덮어쓰기 위한 제1 비디오 내의 영역의 위치 정보 및 크기 정보를 나타낼 수 있다. 이 경우, 영역은 제1 비디오보다 크기가 작을 수 있다.이 때, 영역은 제1 비디오보다 크기가 작을 수 있다. 일부 실시예에서, 영역은 루마 샘플 또는 루마 픽셀을 포함할 수 있다. 이렇게 하면 해당 지역의 위치 정보와 크기 정보를 바탕으로 콘텐츠를 적절하게 선택할 수 있다.

일부 실시예에서, 위치 정보는 영역의 좌측 상단 모서리의 수평 위치 및 영역의 좌측 상단 모서리의 수직 위치를 나타낼 수 있다. 또는, 크기 정보는 영역의 너비 및 영역의 높이를 나타낼 수도 있다. 일 예에서, 이는 신호에 의해 지시된 네 가지 값(x, y, 너비, 높이)이고, x, y는 영역의 왼쪽 상단 모서리 위치를 지정하고, 너비와 높이는 영역의 너비와 높이를 지정한다. 예를 들어,도 9A에 도시된 바와 같이, 제1 비디오(910)에서 위치 정보는 화면 속 화면 영역(901)의 수평 위치(X) 및 수직 위치(Y)를 나타낼 수 있다. 크기 정보는 화면 속 화면 영역(901)의 너비(902) 및 높이(903)를 포함할 수도 있다.

일부 실시예에서, 디스크립터 내의 요소 속성의 세트는 영역의 위치 정보 및 크기 정보를 나타낼 수 있다. 예를 들어, 아래 표 3는 디스크립터에 해당 속성이 있는 화면 속 화면 요소의 예를 도시한다. 표 3는 제한이 아닌 하나의 예시일 뿐이라는 점에 유의해야 한다.

표 3

대안적으로, 또는 추가로, 메타데이터로부터 타겟 화면 속 화면 영역을 나타내는 제1 비디오의 각각의 화면 내의 코딩된 비디오 데이터 유닛의 제1 그룹을 나타내기 위한 영역 신분(ID들)의 목록이 결정될 수도 있다. 일부 실시예에서, 영역 ID의 목록은 메타데이터 파일 내 디스크립터 내의 요소 속성일 수 있다. 예를 들어, 속성은 regionId일 수 있다. 일부 실시예에서, 영역 ID의 목록에서 영역 ID는 서브 이미지ID일 수 있다. 타겟 화면 속 화면 영역은 제2 비디오에서 코딩된 비디오 유닛의 제2 그룹으로 대체될 수도 있다. 예를 들어, 영역 ID의 목록은 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 그룹의 코딩된 비디오 유닛으로 대체되는 것을 허용할 수 있다. 일부 실시예에서, 제1 그룹의 코딩된 비디오 데이터 유닛은 제1 그룹의 비디오 코딩 계층 네트워크 추상화 계층(VCL NAL) 유닛을 포함할 수 있고, 제2 그룹의 코딩된 비디오 데이터 유닛은 제2 그룹의 VCL NAL 유닛을 포함할 수 있다. 이러한 방식으로, 제1 장치는 제1 비디오의 각 그림에서 어떤 코딩된 비디오 데이터 유닛이 타겟 화면 속 화면 영역을 나타내는지를 알고 대체를 수행할 수 있다.

일부 실시예에서, 영역 ID의 목록 내의 하나의 영역 ID에 대해, 제1 비디오 내의 영역 ID를 갖는 코딩된 비디오 데이터 유닛의 제1 그룹은 제2 비디오 내의 영역 ID를 갖는 코딩된 비디오 유닛의 제2 그룹으로 대체될 수도 있다. 도 9B에 도시된 바와 같이, 제1 비디오는 서브 이미지(부도) ID가 00, 01, 02 및 03인 부속그림을 포함할 수 있다. 예를 들어, 메타데이터 파일 내의 영역 ID의 목록이 서브 이미지 ID 00을 포함하는 경우, 제1 비디오(910)에서 서브 이미지 ID 00을 갖는 제1 그룹의 코딩된 비디오 데이터 유닛은 제2 비디오(920)에서 서브 이미지(00)을 갖는 제2 코딩된 비디오 유닛으로 대체될 수 있다.

예를 들어, VVC의 경우, 제1 장치가 비디오 디코더로 전송하기 전에, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛(VCL NAL 유닛)을 보조 비디오의 대응하는 VCL NAL 유닛으로 대체하도록 선택할 때, 각각의 서브 이미지 ID에 대해, 메인 비디오의 VCL NAL 유닛은 대응하는 VCL NAL 유닛의 순서를 변경하지 않고, 보조 비디오 내의 그 서브 이미지 ID를 갖는 대응하는 VCL NAL 유닛으로 대체되는 것이 지정될 수 있다. 예를 들어, 아래 표 4는 디스크립터에 해당 속성이 있는 화면 속 화면 요소의 예를 도시한다. 표 4는 제한이 아닌 하나의 예시일 뿐이라는 점에 유의해야 한다.

표 4

도 10은 본 발명의 일부 실시예에 따른 비디오 처리를 위한 방법(1000)의 흐름도를 도시한다. 방법(1000)은 제2 장치에서 구현될 수 있다. 예를 들어, 방법(1000)은 서버 또는 발신기에서 구현될 수 있다. 여기서 용어 “서버”는 컴퓨팅이 가능한 장치를 의미할 수 있으며, 이 경우 클라이언트는 네트워크를 통해 서비스에 액세스한다. 서버는 물리적 컴퓨팅 장치 또는 가상 컴퓨팅 장치일 수 있다. 일부 실시예에서, 제2 장치는 도 1에 도시된 소스 장치(110)에서 구현될 수 있다.

블록(1010)에서, 제2 장치는 메타데이터 파일로부터 제1 비디오 내의 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹으로 대체 가능한지 여부를 표시하는 표시를 포함하는 메타데이터 파일을 결정할 수 있다. 일부 실시예에서, 표시는 메타데이터 파일 내의 디스크립터(예를 들어, 화면 속 화면 디스크립터) 내의 요소 속성일 수도 있다. 예를 들어, 속성은 dataUnitsReplacable일 수 있다.

블록(1020)에서, 제2 장치는 메타데이터 파일을 제1 장치로 전송한다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다.

메타데이터 파일은 비디오 비트스트림에 관한 중요한 정보, 예를 들어, 프로파일, 계층, 레벨 등을 포함할 수 있다. 예를 들어, 메타데이터 파일은 콘텐츠 선택 목적, 예를 들어 스트리밍 세션의 초기화 및 스트리밍 세션 동안 스트림 적응을 위한 적절한 미디어 세그먼트의 선택을 위한 DASH 미디어 프레젠테이션 설명(MPD)일 수 있다.

일부 실시예에서, 메타데이터 파일은 디스크립터(예를 들어, 화면 속 화면 디스크립터)를 포함할 수 있다. 이 경우, 디스크립터의 존재는 데이터 구조가 화면 속 화면 서비스를 제공하기 위한 것임을 나타낼 수 있다. 즉, 데이터 구조가 디스크립터로 구성되어 있다면 데이터 구조가 화면 속 화면 서비스를 제공하기 위한 것임을 의미한다. 화면 속 화면 서비스는 공간 해상도가 작은 비디오를 더 큰 비디오 내에 포함할 수 있는 기능을 제공할 수 있다.

일부 실시예에서, 데이터 구조는 화면 속 화면 서비스를 위한 제1 비디오의 비트스트림의 제1 그룹 및 제2 비디오의 비트스트림의 제2 그룹의 선택을 표시할 수 있다. 일부 실시예에서, 데이터 구조는 메타데이터 파일의 프레젠테이션일 수 있다. 즉, 디스크립터는 프레젠테이션 수준에서 존재할 수 있다. 사전 선택은 디코딩되고 동시에 렌더링되는 하나 또는 복수의 오디오 및/또는 비디오 구성요소에 의해 생성된 오디오 및/또는 비디오 경험을 정의할 수 있다. 예를 들어, 일부 실시예에서는 최대 하나의 디스크립터가 프레젠테이션 레벨에 존재할 수 있다. 일부 실시예에서, 메타데이터 파일은 하나 이상의 사전 선택을 포함할 수 있다.

일부 실시예에서, 데이터 구조의 메인 적응은 제1 비디오의 비트스트림들의 제1 그룹을 포함할 수 있고, 데이터 구조의 부분 적응 그룹은 제2 비디오의 비트스트림들의 제2 그룹을 포함할 수 있다. 예를 들어, 전술된 바와 같이, 화면 속 화면 서비스는 더 큰 공간 해상도를 갖는 비디오(즉, 제1 비디오 또는 메인 비디오) 내에 더 작은 공간 해상도를 갖는 비디오(즉, 제2 비디오 또는 보조 비디오)를 포함하는 기능을 제공할 수도 있다. 이 경우, 제1 비디오의 서로 다른 비트스트림/표현은 프리셀렉션의 메인 적응 그룹에 포함될 수 있고, 제2 비디오의 서로 다른 비트스트림/표현은 프리셀렉션의 부분 적응 그룹에 포함될 수 있다.

일부 실시예에서, 위치 정보는 영역의 좌측 상단 모서리의 수평 위치 및 영역의 좌측 상단 모서리의 수직 위치를 나타낼 수 있다. 또는, 크기 정보는 영역의 너비 및 영역의 높이를 나타낼 수도 있다. 일 예에서, 이는 신호에 의해 지시된 네 가지 값(x, y, 너비, 높이)이고, x, y는 영역의 왼쪽 상단 모서리 위치를 지정하고, 너비와 높이는 영역의 너비와 높이를 지정한다. 일부 실시예에서, 디스크립터 내의 요소 속성의 세트는 영역의 위치 정보 및 크기 정보를 나타낼 수 있다.

대안적으로, 또는 추가로, 메타데이터 파일은 메타데이터로부터 타겟 화면 속 화면 영역을 나타내는 제1 비디오의 각각의 화면 내의 코딩된 비디오 데이터 유닛의 제1 그룹을 나타내기 위한 영역 신분(ID들)의 목록이 결정될 수도 있다. 일부 실시예에서, 영역 ID의 목록은 메타데이터 파일 내 디스크립터 내의 요소 속성일 수 있다. 예를 들어, 속성은 regionId일 수 있다. 일부 실시예에서, 영역 ID의 목록에서 영역 ID는 서브 이미지ID일 수 있다. 타겟 화면 속 화면 영역은 제2 비디오에서 코딩된 비디오 유닛의 제2 그룹으로 대체될 수도 있다. 일부 실시예에서, 제1 그룹의 코딩된 비디오 데이터 유닛은 제1 그룹의 비디오 코딩 계층 네트워크 추상화 계층(VCL NAL) 유닛을 포함할 수 있고, 제2 그룹의 코딩된 비디오 데이터 유닛은 제2 그룹의 VCL NAL 유닛을 포함할 수 있다. 이런 식으로, 제1 장치는 메인 비디오의 각 그림에서 어떤 코딩된 비디오 데이터 유닛이 타겟 화면 속 화면 영역을 나타내는지를 알고 대체를 수행할 수 있다.

본 발명의 실시예는 별개로 구현될 수 있다. 대안적으로, 발명의 실시예느 임의의 적절한 조합으로 구현될 수 있다. 본 발명의 실시예는 아래의 조항들을 고려하여 설명될 수 있으며, 그 특징은 어떤 합리적인 방법으로 조합될 수 있다.

조항 1. 제1 장치에서, 메타데이터 파일을 제2 장치로부터 수신하는 단계 및 MPD 파일로부터, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 보조 비디오에서 제2 그룹의 코딩된 비디오 데이터 유닛에 의해 대체될 수 있는지 여부를 결정하는 단계를 포함하는, 미디어 데이터 전송을 위한 방법.

조항 2. 조항1에 있어서, 상기 표시는 상기 메타데이터 파일 내의 디스크립터 내의 요소 속성인, 방법.

조항 3. 조항2에 있어서, 상기 속성은 dataUnitsReplacable인, 방법.

조항 4. 조항1 내지 조항 3 중 어느 한 항에 있어서, 상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 제1 그룹의 코딩된 비디오 데이터 유닛이 상기 제2 그룹의 코딩된 비디오 데이터 유닛으로 대체되는 것을 허용하는, 방법.

조항 5. 비디오 처리 방법은 제2 장치에서, 메인 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 그룹이 보조 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 나타내는 표시를 포함하는 데이터 파일을 결정하는 단계 및 상기 메타데이터 파일을 제1 장치로 전송하는 단계를 포함하는, 방법.

조항 6. 조항5에 있어서, 상기 표시는 상기 메타데이터 파일 내의 디스크립터 내의 요소 속성인, 방법.

조항 7. 조항6에 있어서, 상기 속성은 dataUnitsReplacable인, 방법.

조항 8. 조항5 내지 조항 7 중 어느 한 항에 있어서, 상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 제1 그룹의 코딩된 비디오 데이터 유닛이 상기 제2 그룹의 코딩된 비디오 데이터 유닛으로 대체되는 것을 허용하는, 방법.

조항 9. 조항 1 내지 조항 8 중 임의의 조항에 따른 방법이 상기 프로세서에 의해 실행될 때 상기 명령어는 상기 프로세서로 하여금 수행되도록 하는, 프로세서 및 명령어가 있는 비일시적 메모리를 포함하는, 비디오 데이터를 처리하기 위한 장치.

조항 10. 조항 1 내지 조항 8 중 임의의 조항에 따른 방법을 프로세서로 하여금 수행하게 하는 명령어들을 저장하는, 비일시적 컴퓨터 판독가능한 저장 매체.

예시 장치

도 11는 본 발명의 다양한 실시예가 구현될 수 있는 컴퓨팅 장치(1100)의 블록도를 도시한다. 컴퓨팅 장치(1100)는 소스 장치(110)(또는 비디오 인코더(114) 또는 (200)) 또는 목표 장치(120)(또는 비디오 디코더(124) 또는 (300))로서 구현되거나 그에 포함될 수 있다.

도 11에 도시된 컴퓨팅 장치(1100)는 어떠한 방식으로도 본 발명의 실시예의 기능 및 범위에 대한 어떠한 제한도 제안하지 않고, 단지 도시를 위한 것이라는 것을 인식할 것이다.

도 11에 도시된 바와 같이, 컴퓨팅 장치(1100)는 범용 컴퓨팅 장치(1100)를 포함한다. 컴퓨팅 장치(1100)는 적어도 하나 또는 그 이상의 프로세서들 또는 처리부(1110), 메모리(1120), 저장부(1130), 하나 또는 그 이상의 통신부(1140), 하나 또는 그 이상의 입력 장치(1150), 및 하나 또는 그 이상의 출력 장치(1160)를 포함할 수 있다.

일부 실시예에서, 컴퓨팅 장치(1100)는 컴퓨팅 능력을 갖는 임의의 사용자 단말 또는 서버 단말로서 구현될 수 있다. 서버 단말은 서비스 제공자에 의해 제공되는 서버 또는 대규모 컴퓨팅 장치 등일 수 있다. 사용자 단말은 예를 들어, 휴대 전화, 스테이션, 유닛, 장치, 멀티미디어 컴퓨터, 멀티미디어 태블릿, 인터넷 노드, 통신기, 데스크톱 컴퓨터, 휴대용 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 태블릿 컴퓨터, 개인 통신 시스템(PCS) 장치, 개인 네비게이션 장치, 개인 디지털 어시스턴트(PDA), 오디오/비디오 플레이어, 디지털 카메라/비디오 카메라, 포지셔닝 장치, 텔레비전 수신기, 라디오 방송 수신기, 전자책 장치, 게임 장치, 또는 이들의 임의의 조합을 포함하는 임의의 유형의 휴대 단말일 수 있다. 컴퓨팅 장치(1100)는 사용자에 대한 임의의 유형의 인터페이스(예를 들어, “착용식” 회로 등)를 지원할 수 있다고 상상할 수 있다.

처리부(1110)는 물리적 프로세서 또는 가상 프로세서일 수 있으며, 메모리(1120)에 저장된 프로그램을 기반으로 다양한 프로세스를 구현할 수 있다. 멀티-프로세서 시스템에서, 컴퓨팅 장치(1100)의 병렬 처리 능력을 향상시키기 위해, 복수의 처리부는 컴퓨터 실행가능한 명령어를 병렬로 실행한다. 처리부(1110)은 중앙처리부(CPU), 마이크로프로세서, 컨트롤러 또는 마이크로컨트롤러로 지칭될 수도 있다.

컴퓨팅 장치(1100)는 전형적으로 다양한 컴퓨터 저장 매체를 포함한다. 이러한 매체는 휘발성 및 비휘발성 매체, 또는 분리형 및 비분리형 매체를 포함하되 이에 제한되지 않는 컴퓨팅 장치(1100)에 의해 액세스 가능한 임의의 매체일 수 있다. 메모리(1120)는 휘발성 메모리(예를 들어, 레지스터, 캐시, 랜덤 액세스 메모리(RAM)), 비 휘발성 메모리(예를 들어, 읽기용 기억 장치(ROM), 전기적 소거 및 프로그램 가능 읽기 전용 기억 장치(EEPROM)), 또는 플래시 메모리 중 임의의 조합일 수 있다. 저장부(1130)는 임의의 분리형 또는 비분리형 매체일 수 있고, 메모리, 플래시 메모리 드라이브, 자기 디스크 또는 다른 매체와 같은 기계 판독가능한 매체를 포함할 수 있으며, 이는 정보 및/또는 데이터를 저장하기 위해 사용될 수 있고 컴퓨팅 장치(1100)에서 액세스될 수 있다.

컴퓨팅 장치(1100)는 추가적인 분리형/비분리형, 휘발성/비휘발성 메모리 매체를 더 포함할 수 있다. 도 11에 도시되지 않았지만, 분리형 및 비휘발성 자기 디스크로 판독 및/또는 기입하기 위한 자기 디스크 드라이브 및 분리형 및 비휘발성 광학 디스크로 판독 및/또는 기입하기 위한 광학 디스크 드라이브를 제공할 수 있다. 이러한 경우 각 드라이브는 하나 이상의 데이터 매체 인터페이스를 통해 버스(미도시)에 연결될 수 있다.

통신부(1140)는 통신 매체를 통해 다른 컴퓨팅 장치와 통신을 수행한다. 또한, 컴퓨팅 장치(1100) 내의 구성요소의 기능은 통신 연결을 통해 통신할 수 있는 단일 컴퓨팅 클러스터 또는 복수의 컴퓨팅 장치에 의해 구현될 수 있다. 따라서, 컴퓨팅 장치(1100)는 하나 또는 그 이상의 다른 서버, 네트워크화된 개인용 컴퓨터(PC)들 또는 더 나아가 일반적인 네트워크 노드와의 논리적인 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다.

입력 장치(1150)는 마우스, 키보드, 트래킹 볼, 음성 입력 장치 등과 같은 다양한 입력 장치 중 하나 또는 그 이상일 수 있다. 출력 장치(1160)는 디스플레이, 라우드스피커, 프린터 등과 같은 다양한 출력 장치들 중 하나 또는 그 이상일 수 있다. 통신부(1140)에 의해, 컴퓨팅 장치(1100)는 저장 장치 및 디스플레이 장치와 같은 하나 또는 그 이상의 외부 장치와 통신할 수 있으며, 사용자가 컴퓨팅 장치(1100)와 상호 작용할 수 있는 하나 또는 그 이상의 장치 또는 임의의 장치(예: 네트워크 카드, 모뎀 등) 와 통신할 수 있으므로 컴퓨팅 장치(1100)는 필요할 때 하나 또는 그 이상의 다른 컴퓨팅 장치와 통신할 수 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(미도시)를 통해 수행될 수 있다.

일부 실시예에서, 단일 장치에 통합되는 대신, 컴퓨팅 장치(1100)의 일부 또는 모든 구성요소는 또한 클라우드 컴퓨팅 아키텍처에 배열될 수 있다. 클라우드 컴퓨팅 아키텍처에서, 구성요소는 원격으로 제공될 수 있고, 본 발명에서 기술된 기능을 구현하기 위해 함께 작동할 수 있다. 일부 실시예에서, 클라우드 컴퓨팅은 컴퓨팅, 소프트웨어, 데이터 액세스 및 스토리지 서비스를 제공하며, 이는 최종 사용자가 이러한 서비스를 제공하는 시스템 또는 하드웨어의 물리적 위치 또는 구성을 인식할 필요가 없다. 다양한 실시예에서, 클라우드 컴퓨팅은 적합한 프로토콜을 사용하여 광역 네트워크(예를 들어, 인터넷)를 통해 서비스을 제공한다. 예를 들어, 클라우드 컴퓨팅 제공자는 웹 브라우저 또는 기타 컴퓨팅 구성요소를 통해 액세스할 수 있는 광역 네트워크를 통해 응용 프로그램을 제공한다. 클라우드 컴퓨팅 아키텍처의 소프트웨어 또는 구성요소 및 이에 대응하는 데이터는 원격 위치의 서버에 저장될 수 있다. 클라우드 컴퓨팅 환경의 컴퓨팅 원은 원격 데이터 센터의 위치에 병합되거나 분산될 수 있다. 클라우드 컴퓨팅 인프라는 사용자에게 단일 액세스 포인트 역할을 하지만 공유 데이터 센터를 통해 서비스를 제공할 수 있다. 따라서, 클라우드 컴퓨팅 아키텍처들은 원격 위치의 서비스 제공자로부터 본 명세서에 기술된 구성요소 및 기능을 제공하기 위해 사용될 수 있다. 또는 기존 서버에서 제공하거나 클라이언트 장치에 직접 설치할 수도 있다.

컴퓨팅 장치(1100)는 본 발명의 실시예에서 비디오 코딩/복화화를 구현하기 위해 사용될 수 있다. 메모리(1120)는 하나 또는 그 이상의 프로그램 명령어를 갖는 하나 또는 그 이상의 비디오 코딩 모듈(1125)을 포함할 수 있다. 이들 모듈은 본 발명에 기술된 다양한 실시예의 기능들 수행하기 위해 처리부(1110)에 의해 액세스 가능하고 실행가능한다.

비디오 코딩을 수행하는 예시적인 실시예에 있어서, 입력 장치(1150)는 코딩될 비디오 데이터를 입력(1170)으로 수신할 수 있다. 비디오 데이터는 예를 들어, 비디오 코딩 모듈(1125)에 의해 코딩된 비트스트림을 생성하기 위해 처리될 수 있다. 코딩된 비트스트림은 출력 장치(1160)를 통해 출력(1180)으로서 제공될 수 있다.

비디오 디코딩을 수행하는 예시적인 실시예에 있어서, 입력 장치(1150)는 코딩될 비트스트림을 입력(1170)으로서 수신할 수 있다. 코딩된 비트스트림은 예를 들어, 비디오 코딩 모듈(1125)에 의해 처리되어 디코딩된 비디오 데이터를 생성할 수 있다. 코딩된 비디오 데이터는 출력 장치(1160)를 통해 출력(1180)으로서 제공될 수 있다.

본 명세서가 특히 그의 바람직한 실시예를 참조하여 도시되고 기술되었지만, 첨부된 청구항들에 의해 정의된 본 출원의 정신 및 범위를 벗어나지 않는 상황에서 그 안에 형식 및 세부 사항의 다양한 변경이 이루어질 수 있음은 당업자들에 의해 이해될 것이다. 이러한 변경은 본 출원의 범위에서 포함되도록 설계되어 있다. 이와 같이, 본 출원의 실시예에 대한 전술된 설명은 제한적인 것을 의도하지 않는다.

Claims

미디어 데이터 전송 방법으로서,
제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계, 및
상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 세트가 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 세트로 대체될 수 있는지 여부를 표시하기 위한 표시를 결정하는 단계를 포함하는 것을 특징으로 하는, 비디오 처리를 위한 방법.
제1항에 있어서,
상기 표시는 상기 메타데이터 파일의 디스크립터에 있는 요소 속성인 것을 특징으로 하는, 비디오 처리를 위한 방법.
제2항에 있어서,
상기 속성은 데이터 유닛 교체가능(dataUnitsReplacable)한 속성인 것을 특징으로 하는, 비디오 처리를 위한 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 코딩된 비디오 데이터 유닛의 제1 그룹이 상기 코딩된 비디오 데이터 유닛의 제2 세트로 대체되는 것을 허용하는 것을 특징으로 하는, 비디오 처리를 위한 방법.
비디오 처리 방법으로서,
제2 장치에서, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 세트가 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 세트로 대체될 수 있는지 여부를 표시하기 위한 표시를 포함하는 메타데이터 파일을 결정하는 단계 및
상기 메타데이터 파일을 제1 장치로 전송하는 단계를 포함하는 것을 특징으로 하는, 비디오 처리를 위한 방법.
제5항에 있어서,
상기 표시는 상기 메타데이터 파일의 디스크립터에 있는 요소 속성인 것을 특징으로 하는, 비디오 처리를 위한 방법.
제6항에 있어서,
상기 속성은 데이터 유닛 교체가능(dataUnitsReplacable)한 속성인 것을 특징으로 하는, 비디오 처리를 위한 방법.
제5항 내지 제7항 중 어느 한 항에 있어서,
상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 코딩된 비디오 데이터 유닛의 제1 세트가 상기 코딩된 비디오 데이터 유닛의 제2 세트로 대체되는 것을 허용하는 것을 특징으로 하는, 비디오 처리를 위한 방법.
프로세서와 명령어가 있는 비일시적 메모리를 포함하는 비디오 데이터를 처리하기 위한 장치로서,
상기 명령어는 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행되도록 하는, 것을 특징으로 하는, 비디오 처리를 위한, 방법.
비일시적인 컴퓨터 판독 가능한 저장 매체로서,
프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령어를 저장하는 것을 특징으로 하는, 비디오 처리를 위한 저장 매체.