KR20180005234A

KR20180005234A - 합성 가변 비디오 스트리밍

Info

Publication number: KR20180005234A
Application number: KR1020177035573A
Authority: KR
Inventors: 로버트 스쿠핀; 야고 산체스; 토마스 쉬를
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-05-12
Filing date: 2016-05-06
Publication date: 2018-01-15
Also published as: CN107852515A; US10623753B2; JP6556868B2; JP2018519723A; EP3295673A2; US20180098077A1; WO2016180741A3; CN107852515B; WO2016180486A1; KR102192459B1; WO2016180741A2; EP3295673B1

Abstract

비디오 스트리밍 개념들이 제시된다. 제1 양상에 따르면, 레이어 간 예측에 의해 다중 레이어 데이터 스트림의 미리 결정된 레이어의 화상들의 적어도 일부에서 적어도 하나의 비디오의 구성이 합성되는 동안, 비디오 콘텐츠의 코딩된 버전으로부터 복사함으로써 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트를 형성하는 다중 레이어 데이터 스트림으로서 비디오 스트림이 형성된다. 제2 양상에 따르면, 대체 화상들을 삽입함으로써 새로 포함된 비디오의 달리 누락된 참조된 화상들을 대신하도록 레이어 간 예측이 사용되거나, 누락되는 화상들을 움직임 보상 예측에 의해 참조하는 새로 포함된 비디오의 부분들이 레이어 간 예측에 의해 대체된다. 제3 양상에 따르면, 시간 예측에 의해 구성된 데이터 스트림의 비-출력 부분으로부터 복사함으로써 비디오 콘텐츠의 구성을 합성하도록, 구성된 비디오 스트림에 삽입된 출력 화상들은, 출력 화상들이 코딩된 화상 순서보다는 제시 시간 순서로 데이터 스트림에 배열되도록, 구성된 데이터 스트림에 삽입된다.

Description

합성 가변 비디오 스트리밍

본 출원은 비디오 콘텐츠의 코딩된 버전으로부터 비디오 스트림을 구성하기에 적합한 비디오 스트리밍 개념에 관한 것이다.

복합 형태의 여러 비디오들이 사용자에게 동시에 송신되어 디스플레이되는 많은 애플리케이션들 및 사용 사례들이 존재한다. 첫 번째 접근 방식은 독립적으로 인코딩된 모든 비디오들을 전송하여 다수의 디코더들이 동시에 사용되고 일단 디코딩된 모든 비디오들을 배열함으로써 복합 비디오가 디스플레이되는 것이지만, 많은 타깃 디바이스들이 단일 하드웨어 비디오 디코더만을 통합한다는 문제가 있다. 이러한 디바이스들의 예들은 저가 TV 세트들 및 셋톱 박스(STB: Set-Top-Box)들 또는 배터리 구동 모바일 디바이스들이다.

다수의 비디오들로부터 단일 비디오 비트 스트림을 생성하기 위해, 제2 접근 방식은 픽셀 도메인 비디오 처리(예컨대, 스티칭, 병합 또는 믹싱과 같은 구성)이며, 여기서는 서로 다른 비디오 비트 스트림들이 단일 비트 스트림으로 트랜스코딩되어 타깃 디바이스에 송신된다. 트랜스코딩은 캐스케이드 비디오 디코더 및 인코더를 사용하여 구현될 수 있는데, 이는 착신 비트 스트림들을 디코딩하고, 픽셀 도메인에서 입력 비트 스트림들로부터 새로운 비디오를 구성하고, 새로운 비디오를 단일 비트 스트림으로 인코딩하는 것을 수반한다. 이 접근 방식은 또한 비압축 도메인에서의 처리를 포함하는 종래의 전체 트랜스코드로도 지칭될 수 있다. 그러나 전체 트랜스코딩은 많은 결점들을 갖고 있다. 첫째, 비디오 정보의 반복 인코딩은 추가적인 코딩 아티팩트들 통한 신호 품질 열화를 유도할 가능성이 있다. 두 번째로 그리고 더 중요하게, 전체 트랜스코딩은 착신 및 발신 비디오 비트 스트림들의 다중 디코딩 및 후속 인코딩을 통해 계산상 복잡하다. 따라서 전체 트랜스코드 접근 방식은 잘 스케일링하지 않는다.

고효율 비디오 코딩(HEVC: High Efficiency Video Coding)[1]을 사용하면, 단일 레이어 비디오 코덱들을 위해 압축 도메인에서 비디오 합성을 가능하게 하는 기술이 [2]에서 소개되었다. 그러나 스케일러블 비디오 코딩을 사용하는 것이 유리할 수도 있는 일부 애플리케이션들이 있다. [3]에서, 다자간 화상 회의와 같은 애플리케이션들에 사용될 수 있는 스케일러블 코딩된 비디오에 대해 압축 도메인에서 비디오 스티칭을 가능하게 하는 기술이 설명된다.

화상 회의 애플리케이션들에서 발생하는 문제들이 다음에서 설명된다.

특히, 도 23은 다자간 화상 회의의 일반적인 비디오 합성을 나타낸다. 구성된 비디오의 화상들이 공간적으로 서로 스티칭되는데, 화상들 중 하나가 도 23에 예시적으로 도시된다. 도 23의 시나리오에서는, 화자가 출력 화상의 더 큰 화상 영역(900)에 도시되는 한편, 비-화자들은 출력 화상의 더 작은 영역들(902, 904)에 도시된다. 도 24는 영역들(900-904)에 도시된 개개의 비디오를 나타내는 코딩된 데이터 스트림들에 기초하여, 구성된 비디오 비트 스트림이 비디오 처리(906)에 의해 어떻게 얻어지는지를 예시적으로 도시한다. 도 24에서, 데이터 스트림(908)은 영역(900)에 도시된 비디오, 즉 화자에 관한 비디오를 인코딩한 데이터 스트림을 나타낼 것이고, 반면 도 24에 도시된 데이터 스트림들(910, 912)은 각각 영역들(902, 904)에 제시된 비-화자들에 관한 비디오들을 인코딩했다. 비디오들이 데이터 스트림들(908-912)로 인코딩되는 방식을 예시하기 위해, 도 24는 이들 비디오들의 화상들을 예시하는데, 즉 이들의 화상들은 각각 2개의 연속한 시간 인스턴트들(t₀, t₁)에 속하고 2개의 서로 다른 레이어들(L0, L1)에 속한다. 도 24에 도시된 화살표들은 화상들 간의 예측 의존성들을 나타낸다. 확인될 수 있는 바와 같이, 비디오들을 데이터 스트림들(908-912)로 인코딩하기 위해 시간 예측(수평 에러들) 및 레이어 간 예측(수직 에러들)이 사용된다. 이전에는 H.264/SVC와 같은 스케일러블 비디오 코딩 표준들이 화상 회의 시스템들에 사용되었고, 매우 가치 있는 것으로 입증되었으며, 그래서 그 분야에서 SHVC에 대한 기대들이 있다.

[3]에 개요가 서술된 기술에 따라, 비디오 처리(906)는 압축 도메인에서 모든 입력 비트 스트림들(908-912)을 스티칭함으로써 다수의 비트 스트림들(908-912) 중에서 단일 스케일러블 비트 스트림을 생성하는 것을 가능하게 할 수 있다. 결과적인 단일 스케일러블 비트 스트림은 도 24에서 914에, 또한 그것의 4개의 화상들, 즉 서로 다른 시간 인스턴트 및 레이어 쌍들에 속하는 화상들로 구성되는 부분을 예시함으로써 도시된다. [3]에 따라 비디오 처리(906)에 의해 적용된 기술은 슬라이스 헤더 및 파라미터 세트들과 같은 고 레벨 신택스로 2개의 필드들을 재작성하여, 서로 다른 입력 스트림들(908-912)로부터의 각각의 레이어의 각각의 화상이 모든 스트림들로부터의 데이터를 포함하는 각각의 레이어에 대한 단일 화상으로 결합되는 것을 수반한다.

대안으로, 입력 비트 스트림들(910, 912)이 단일 레이어링된 것으로 예시적으로 도시되어 있는 도 25에 도시된 것과 같이 모든 입력 스트림들(908, 912)이 동일한 양의 레이어들을 갖는 것이 아니라면, 출력 비트 스트림(914)의 하위 레이어들, 즉 도 25의 경우에는 레이어(L0)는 앞선 데이터 스트림들(910, 912)로부터의 상응 데이터를 갖지 않는다. 이에 따라, 모든 입력 비트 스트림들(908-912)로부터의 데이터로 출력 데이터 스트림(914)의 이러한 하위 레이어들, 즉 도 25의 L0가 생성되는 것이 아니라, 도 25의 화이트 박스들(916)로 도시된 바와 같이, 필요에 따라 일부 더미 데이터가 이 레이어(L0)의 화상들에 부가될 것이다.

[3]에 기술된 방법의 경우, 예를 들어, 화자가 변경되는 동안과 같이 레이아웃 변경 이벤트가 발생할 때마다, 그 결과 화상에서 블록들의 크기들이 변화하고 중요한 비트 레이트 피크가 발생한다. 보다 구체적으로, 화상 레이아웃 또는 크기를 변경하기 위해 인트라 디코딩 리프레시(IDR: Intra Decoding Refresh) 또는 I-프레임을 전송할 필요가 있다. 레이아웃 변경 이벤트에서는, 화자에서 비-화자로 그리고 그 반대로 역할들을 스위칭하는 비트 스트림들에 IDR들이 필요하며, 이는 순간적인 상당한 비트 레이트 증가를 야기한다. 이는 출력 비트 스트림(914)을 도시하는 도 26에 예시되어 있으며, 여기서 그 일부는 예시적으로 4개의 연속한 시간 인스턴트들(t₀-t₃)을 포함한다. 도 26에 도시된 바와 같이, 그러한 레이아웃 변경 이벤트가 발생하면 시간 예측이 불가능(918)해지는데, 그 시점은 도 26의 경우에는 시간 인스턴트(t₂)이며, 그 시점에서부터 계속 화자가 변경되고, 즉 비-화자 비디오들 중 하나에서의 화자 비디오가 구성된 비디오 화상들 내에서 그 위치 또는 영역을 변경한다. 그러나 이러한 불능화는 다른 화상들로부터 독립적으로 코딩되는 상대적으로 더 많은 인트라 데이터의 송신을 필요로 하고, 많은 사용 경우들, 예를 들어 실시간 통신에서 부담이 되는 그러한 시점들에 송신되는 데이터를 증가시킨다.

따라서 본 발명의 목적은 보다 효율적인, 이를테면 비트 레이트 소비 면에서 페널티들 없이 또는 더 적은 페널티로 합성을 변경할 자유 면에서 보다 효율적인 비디오 콘텐츠의 코딩된 버전으로 구성되는 비디오 스트림의 비디오 스트리밍에 대한 개념을 제공하는 것이다.

이러한 목적은 본 출원의 독립 청구항들의 요지에 의해 달성된다.

제1 양상에 따르면, 비디오 콘텐츠의 코딩된 버전으로부터 구성된 비디오 스트림을 스트리밍하기 위한 비디오 스트리밍 개념은, 하나 또는 그보다 많은 레이어들의 세트의 적어도 일부로부터의 레이어 간 예측에 의해 다중 레이어 데이터 스트림의 미리 결정된 레이어의 화상들의 적어도 일부에서 적어도 하나의 비디오의 구성이 합성되는 동안, 비디오 콘텐츠의 코딩된 버전으로부터 복사함으로써 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트를 형성하는 다중 레이어 데이터 스트림으로서 비디오 스트림을 형성함으로써 보다 효율적으로 렌더링된다. 즉, 비디오 콘텐츠의 코딩된 버전의 각각의 부분으로 코딩되는 적어도 하나의 비디오는, 구성에 관한 제한들이 거의 없이 비디오 스트리밍 장치의 재량으로 구성이 합성될 수 있는 일종의 "저장소"를 형성하도록 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트로 전달되거나 다중화된다. 복사, 즉 압축 또는 코딩 도메인에서의 복사에 의한 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트의 형성은 미리 결정된 레이어가 하나 또는 그보다 많은 레이어들 중 하나, 즉 가장 높은 레이어가 되거나 또는 그로부터 분리되도록 이루어질 수 있다. 임의의 경우에, 구성을 합성하기 위해 미리 결정된 레이어의 화상들로 상속될 비디오들의 영역들은 업샘플링, 필터링 등과 같은 레이어 간 예측을 위해 이용 가능한 모든 툴들을 활용할 수 있다.

제2 양상에 따르면, 비디오 콘텐츠의 코딩된 버전으로부터 구성된 비디오 스트림을 스트리밍하기 위한 비디오 스트리밍 개념은, 비디오들의 집합을 기본 품질로 인코딩한 비디오 콘텐츠의 코딩된 버전의 제1 부분으로부터 복사함으로써 도출된 기본 레이어, 그리고 비디오 콘텐츠의 코딩된 버전의 제2 부분의 일부로부터 복사함으로써 도출된 하나 또는 그보다 많은 확장 레이어들을 다중 레이어 비디오 스트림 내에서 전달함으로써 보다 효율적으로 렌더링되는데, 제2 부분은 향상된 품질로 비디오들을 인코딩했고, 제2 부분의 일부는 비디오들의 적절한 서브세트와 관련된다. 미리 결정된 시간 인스턴트에 적절한 서브세트의 변경이 발생하여 적절한 서브세트가 미리 결정된 시간 인스턴트 전에 적절한 서브세트에 포함되지 않은 비디오들 중 새로 포함된 비디오를 새로 포함할 때마다, 대체 화상들을 삽입하거나, 미리 결정된 시간 인스턴트 전에 화상들이 있을 때 누락될 화상들을 움직임 보상 예측에 의해 참조하는 새로 포함된 비디오의 부분들을 대체함으로써 새로 포함된 비디오의, 다른 경우라면 누락될 참조 화상들을 치환하도록 레이어 간 예측이 사용된다. 이러한 조치에 의해, 한편으로는 비디오들의 인트라 코딩된 화상들에서 발생할 미리 결정된 시간 인스턴트를 제한하지 않음으로써 향상된 품질로 비디오들의 현재 송신된 서브세트의 변화에 대한 품질 열화와, 다른 한편으로는 미리 결정된 시간 인스턴트의 시간 위치를 자유롭게 선택할 자유를 갖는 이익 간의 절충이, 품질 열화가 낮게 유지된다는 점에서 개선될 수 있다. 단지 비디오들의 집합을 기본 품질로 인코딩한 비디오 콘텐츠의 코딩된 버전의 제1 부분으로부터 복사함으로써 기본 레이어가 도출되므로 추가 오버헤드는 비교적 낮다. 더욱이, 과거에 대한 시간 예측이 중단되어 비디오의 새로운 포함이 대기될 수 있는 그러한 구조에 어떠한 화상들이 존재하지 않더라도, 비디오 콘텐츠는 심지어 개방형 GOP 구조를 사용하여 구성에 대한 기초를 형성하는 코딩된 버전으로 코딩될 수 있다.

제3 양상에 따르면, 비디오 콘텐츠의 코딩된 버전으로부터 구성된 비디오 스트림을 스트리밍하기 위한 비디오 스트리밍 개념은, 구성된 데이터 스트림의 비-출력 부분으로부터 시간 예측에 의해 복사함으로써 비디오 콘텐츠의 구성을 합성하도록, 구성된 비디오 스트림에 삽입된 출력 화상들의 순서를 변경함으로써 보다 효율적으로 렌더링된다. 특히, 비디오 콘텐츠의 코딩된 버전은 적어도 하나의 비디오 각각에 대해, 시간 예측을 사용하여 그리고 제시 시간 순서로부터 도출하는 코딩된 화상 순서를 사용하여 각각의 비디오가 코딩되는 부분을 포함하며, 구성된 데이터 스트림의 비-출력 부분은 비디오 콘텐츠의 코딩된 버전의 부분으로부터 복사함으로써 형성되지만, 출력 화상들이 코딩된 화상 순서보다는 제시 시간 순서로 데이터 스트림에 배열되도록 출력 화상들이 구성된 데이터 스트림에 삽입된다. 이러한 조치에 의해, 출력 화상이 코딩된 화상 버퍼에서 과도하게 고가의 메모리를 소모하지 않으므로, 코딩된 화상 버퍼 요구들이 낮게 유지된다.

위에서 개요가 서술된 양상들 및 이들의 결합들의 유리한 구현들이 종속 청구항들 및 다음 설명의 주제이다. 특히, 본 출원의 바람직한 실시예들이 다음 중의 도면들에 관해 아래에 제시된다.
도 1은 일 실시예에 따른 다중 레이어 합성 비디오 스트림의 미리 결정된 레이어에서 비디오 구성 합성을 이용하는 비디오 스트리밍 장치의 블록도를 도시한다.
도 2는 도 1에 도시된 대안(28)에 따른 도 1의 다중 레이어 구성 데이터 스트림 중 접근 유닛 또는 다중 레이어 화상의 개략도를 도시한다.
도 3은 도 1에 도시된 대안(30)에 따른 도 1의 다중 레이어 구성 데이터 스트림 중 다중 레이어 화상의 개략도를 도시한다.
도 4는 MLCP 개념을 예시하는 개략도를 도시한다.
도 5는 스케일러블 오프셋들, 즉 오프셋 파라미터들의 사용을 예시하는 개략도를 도시한다.
도 6은 일 실시예에 따른 MLCP 개념을 이용한 레이아웃 변경을 예시하는 개략도를 도시한다.
도 7은 대안(30)을 따르는 실시예에 따른 도 1에 따른 비디오 스트리밍 장치에 의한 출력으로서 다중 레이어 데이터 스트림의 구성을 예시하는 개략도를 도시한다.
도 8은 대안(28)을 따르는 실시예에 따른 도 1에 따른 비디오 스트리밍 장치에 의한 출력으로서 다중 레이어 데이터 스트림의 구성을 예시하는 개략도를 도시한다.
도 9는 2개의 레이어들에서, 도 1의 비디오 스트리밍 장치가 비디오 구성을 수행하는 데 기반으로 하는 코딩된 버전의 각각의 버전으로 예시적으로 인코딩된 도 1의 비디오 콘텐츠의 인바운드 스트림의 개략도를 도시하며, 도 1의 장치에 의해 출력된 다중 레이어 데이터 스트림에서 가능하게 사용되는 동일한 부가 정보와 함께, TMVP를 사용하지 않는 최상위 레이어의 화상들을 나타내는 부가 정보를 포함하는 것으로서 데이터 스트림을 예시한다.
도 10은 비디오 구성에 관여하는 비디오들이 변경되는 대안에 따른 도 1의 비디오 스트리밍 장치를 예시하는 블록도를 도시한다.
도 11은 GRP 개념을 예시하는 개략도를 도시한다.
도 12는 HEVC 화상 명명 이후의 개방형 GOP 구조를 예시하는 개략도를 도시한다.
도 13은 GRP들에 의한 타일 기반 파노라마 스트리밍과 관련하여 개방형 GOP의 문제점을 예시하기 위해 개방형 GOP 구조의 개략도를 도시한다.
도 14는 화상 손실 없이 확장 레이어에서 전달되는 비디오들의 적절한 서브세트를 시간적으로 변경하는 것을 가능하게 하도록, 기본 품질의 비디오들의 집합을 포함하는 기본 레이어를 갖는 향상된 품질의 비디오들의 서브세트를 수반하는 다중 레이어 구성 비디오 스트림을 사용하는 비디오 스트리밍 장치의 블록도를 도시한다.
도 15a는 일 실시예에 따른 도 14의 장치에 의해 생성된 다중 레이어 비디오 데이터 스트림의 구조를 예시하는 개략도를 도시한다.
도 15b는 스위칭 시간 인스턴트를 더 일찍 발생하게 보정하도록, 도 15a와 비교하여 변형된 일 실시예에 따라 도 14의 장치에 의해 생성된 다중 레이어 비디오 데이터 스트림의 구조를 예시하는 개략도를 도시한다.
도 16은 비디오들의 적절한 서브세트가 도 15a에 도시된 하나의 확장 레이어로 공간상 스티칭되기보다는 여러 개의 확장 레이어들로 다중화되는 대안적인 실시예에 따라, 도 14의 장치에 의해 생성된 다중 레이어 비디오 데이터 스트림의 구조를 예시하는 개략도를 도시한다.
도 17은 타일 기반 파노라마 스트리밍과 관련하여 개방형 GOP 구조에 적용될 때 도 15a에 예시된 GRMLCP 개념을 예시하는 개략도를 도시한다.
도 18은 저 지연 예측 구조를 예시하는 개략도를 도시한다.
도 19는 CP들의 삽입 이후 결과적인 비트 스트림을 예시하는 개략도를 도시한다.
도 20은 계층적 양방향 예측 B 프레임들을 갖는 예측 구조를 예시하는 개략도를 도시한다.
도 21은 감소된 화상 버퍼 증가를 갖는 CP 삽입을 예시하는 개략도를 도시한다.
도 22는 제시 시간 순서를 벗어난 코딩 순서로 하나 또는 그보다 많은 비디오들을 코딩한 비디오 콘텐츠의 부분들을 복사하는 것으로부터 얻어진 복합 비디오 스트림의 비-출력 부분 저장소로의 출력 화상들의 삽입을 이용하는 비디오 스트리밍 장치의 블록도를 도시하며, 출력 화상들의 삽입은 출력 화상들이 제시 시간 순서에 따라 정렬되도록 발생한다.
도 23은 그러한 구성 비디오들 중에서 하나의 화상 형태로 비디오들의 구성을 위한 예를 도시한다.
도 24는 [3]에서와 같이 압축 도메인에서 2개의 레이어들을 갖는 3개의 입력 스트림들에 대한 비트 스트림 스티칭을 예시하는 개략도를 도시한다.
도 25는 [3]에서와 같이 압축 도메인에서 서로 다른 양의 레이어들을 갖는 3개의 입력 스트림들에 대한 비트 스트림 스티칭을 예시하는 개략도를 도시한다.
도 26은 레이어(화자) 변경시의 시간 예측 브레이크를 예시하는 개략도를 도시한다.

도 1은 제1 양상에 대한 일 실시예에 따른 비디오 스트리밍 장치를 도시한다. 도 1의 비디오 스트리밍 장치는 비디오 스트리밍 장치가 비디오 콘텐츠(14)의 코딩된 버전(12)을 수신하는 상황에서 10에 도시된다. 도 1의 비디오 콘텐츠는 예시적으로 2개의 비디오들(16₁, 16₂)을 포함하지만, 비디오 스트리밍 장치(10)의 유리한 기능은 또한 비디오 콘텐츠(14)에 의해 전달되는 단 하나의 비디오 또는 2개보다 많은 비디오들의 경우에도 활용될 수 있다. 코딩된 버전(12)은 각각의 비디오(16₁/16₂)가 코딩되는 부분(18₁, 18₂)을 각각의 비디오(16₁, 16₂)에 대해 포함한다. 도 1은 코딩된 버전(12)이 비디오(16₁/16₂)당 하나의 비디오 데이터 스트림, 즉 개별 스트림들로 구성되는 경우를 예시하지만, 이는 반드시 그러할 필요는 없다. 뒤에, 비디오들(16)의 수는 변수(I)를 사용하여 표시된다. 또한, 참조 부호들(16, 18)에 대한 인덱스들은 도 1에서 개별 비디오들 간에 구별하기 위해 사용되며 이 개념은 다음 도면들의 설명에 대해서도 또한 유지된다는 점이 주목된다. 그러나 한 도면에 사용되는 인덱스들은 다음 설명에서 달리 명시되지 않는 한 다른 도면들에서 사용되는 인덱스들과 관련되지 않는다. 더욱이, 도 1은 비디오(16₁)가 레이어 방식(layered manner)으로 부분(18₁)으로 예시적으로 인코딩되는 경우를 예시하지만, 다음에 설명되는 비디오 스트리밍 장치(10)의 기능으로부터 야기되는 이점들은 비디오 콘텐츠(14)에 레이어 인코딩된 어떠한 비디오도 없는 경우에도 이점들을 또한 나타낸다.

아래에서 보다 상세하게 설명되는 바와 같이, 장치(10)는 비디오 스트림(20)이 다중 레이어 데이터 스트림이 되는 방식으로, 코딩된 버전(12)으로부터 비디오 스트림(20)을 형성하도록 구성된다. 따라서 다중 레이어 데이터 스트림(20)은 여러 레이어들(L#)을 포함한다. 이들 레이어들(L#)은 예를 들어, 하위 레이어(L_i)가 다른 레이어(L_j)에 대한 레이어 간 예측 참조를 형성할 수 있다(i < j)는 점에서, 즉 레이어(L_j)가 레이어(L_i)의 콜로케이트된 부분으로부터의 레이어 간 예측을 사용하여 코딩될 수 있다는 점에서 이들 사이에 정의된 계층 구조를 갖는다.

내부적으로, 도 1의 장치(10)는 아래에서 보다 상세히 설명되는 장치(10)의 각각의 기능들에 대한 책임을 맡는 2 개 이상의 모듈들을 포함하는 것으로 도시되어 있다. 특히, 장치(10)는 사본 형성기(22) 및 합성기(24)를 포함한다. 설명의 말미에서 설명되는 바와 같이, 장치(10)는 예컨대, 하드웨어, 프로그램 가능한 하드웨어 또는 소프트웨어로 구현될 수 있으며, 이에 따라 모듈들(22, 24)은 예를 들어, 컴퓨터 프로그램의 서로 다른 부분들, 프로그램 가능한 하드웨어의 서로 다른 부분들 또는 집적 회로의 서로 다른 부분들을 나타낼 수 있다.

사본 형성기(22)는 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 복사함으로써 다중 레이어 데이터 스트림(20)의 하나 또는 그보다 많은 레이어들(L0-L2)의 세트(26)를 형성한다. 즉, 사본 형성기(22)는 코딩 또는 압축 도메인 내에서, 즉 이를 벗어나지 않고 세트(26)를 형성한다. 즉, 사본 형성기는 비디오들의 세트(26)를 픽셀 도메인으로 디코딩하는 것을 통해 우회를 수행하지 않는다. 또 다시 말해서, 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트의 형성은 압축 또는 코딩 도메인의 비디오 콘텐츠의 코딩된 버전으로부터 복사함으로써 수행된다.

예를 들어, 움직임 보상 예측 및 예측 잔차의 코딩을 사용하여 비디오들(16₁, 16₂)이 각각 부분들(18₁, 18₂)로 인코딩되었다고 가정한다. 그 경우에, 사본 형성기(22)는 코딩된 버전(12)으로부터의, 즉 부분들(18₁, 18₂) 각각으로부터의 움직임 보상 예측 파라미터들 및 잔차 데이터를 어떠한 손실도 없이, 즉 어떠한 재-양자화도 없이 다중 레이어 데이터 스트림(20)의 세트(26)의 레이어들에 간단히 복사할 것이다. 이는 비디오(16₁)의 하위 레이어로부터의 상위 레이어의 레이어 간 예측을 기술하기 위해, 예를 들어 존재한다면, 예를 들어, 부분(18₁)에 포함된 레이어 간 예측 파라미터들에 적용된다. 사본 형성기(22)는 심지어 부분(18₁, 18₂)의 엔트로피 압축 포맷을 유지하는 방식으로 세트(26)의 레이어들을의 복사를 수행할 수 있다. 즉, 사본 형성기(22)는 부분들(18₁, 18₂)의 신택스 도메인으로 엔트로피 디코딩함으로써 이러한 압축된 비트 도메인으로부터 전환하지 않고도 압축 도메인에서 부분들(18₁, 18₂)에 대해 작용할 수 있다. 이에 따라, 비디오들(16₁, 16₂)의 화상들 간의 예측 간 의존성들이 다중 레이어 데이터 스트림(20)에 남아 있다. 다시 말해, 사본 형성기(22)는 세트(26)의 레이어들이 동일한 예측 간 의존성들, 즉 시간 예측 그리고 만약 있다면, 예를 들어 레이어 간 예측을 사용하여 인코딩된 비디오 콘텐츠(14)의 비디오들(16₁, 16₂)을 갖는 방식으로 세트(26)의 레이어들을 형성한다. 그러나 코딩된 버전(12)으로부터 다중 레이어화된 데이터 스트림(20)의 레이어들의 세트(26)의 형성시, 사본 형성기(22)는 예를 들어, 각각의 화상들의 레이어 인덱스를 기술하거나 정의하는 고 레벨 신택스 엘리먼트들, 레이어 간 예측을 통해 참조되는 화상들의 레이어 인덱스 등과 같은 부분들(18₁, 18₂)로 예를 들어, 엔트로피 인코딩되는 상위 레벨 신택스 엘리먼트들을 수정할 수 있다.

합성기(24)는 실제 비디오 구성을 수행한다. 합성기(24)는 비디오 콘텐츠(14), 즉 도 1의 경우에는 비디오들(16₁, 16₂)의 구성을 합성한다. 합성기(24)는 하나 또는 그보다 많은 레이어들의 세트의 적어도 일부로부터의 레이어 간 예측에 의해 다중 레이어 데이터 스트림의 미리 결정된 레이어의 화상들의 적어도 일부에서 이러한 합성을 수행한다. 이를 예시하기 위해, 도 1은 서로 다른 해칭들 및 비-해칭을 각각 사용하여 비디오(16₁)의 레이어들의 화상들과 비디오(16₂)의 화상들을 상호 구별한다. 합성기(24)가 레이어 간 예측에 의한 합성을 수행하는 앞서 언급한 부분은 크로스 해칭을 사용하여 도시되고, 이로써 이 부분을 사본 형성기(22)에 의한 복사에 의해 생성된 다중 레이어 데이터 스트림(20)의 레이어들의 그러한 부분들과 이 부분을 구별한다.

도 1은 합성을 수행하고 크로스 해칭 부분을 위치시키기 위한 실질적으로 2개의 대안들을 예시한다. 그러나 도 1에 도시된 대안들은 유일한 것들이 아니며 다른 대안들도 평가될 수 있다는 점이 주목되어야 한다.

28에 도시된 대안에 따르면, 레이어 간 예측에 의해 합성이 수행되는 부분은 - 레이어 세트(26)에 대한 레이어 간 코딩을 사용하여 상위 레이어가 코딩될 수 있도록, 그러나 그 반대는 불가능하게, 의존성 순서에 따라 - 세트(26) 내의 레이어들과 별개이고 세트(26) 내의 레이어들에 비해 더 상위 레이어들을 각각 형성하는 레이어(L3)의 화상들에 의해 형성된다. 즉, 28의 대안에 따라, 합성이 세트(26) 내의 레이어들로부터의 예측에 의해 적어도 부분적으로 수행되는 미리 결정된 레이어는 세트(26)와 별개이고 세트(26) 내의 레이어들보다 상위이다. 이러한 미리 결정된 레이어(L3)의 전체 화상들은 세트(26) 내의 레이어들로부터의 레이어 간 예측에 의해 합성될 수 있는데, 이 경우 크로스 해칭된 부분은 도 1에 예시된 바와 같이 레이어(L3)의 전체 화상들을 공간적으로 포함한다. 대안으로, 레이어(L3)의 화상들의 단지 하위 부분만이 레이어 간 예측을 사용하여 세트(26) 내의 레이어들로부터 예측될 수 있다. 레이어(L3)의 화상들의 나머지 부분은 예컨대, 다른 수단에 의해, 이를테면 인트라 및 시간 예측을 사용함으로써 합성기(24)에 의해 합성될 수 있다. 예를 들어, 이런 식으로 합성기(24)에 의해 배경이 추가될 수 있다. 그러나 도 1은 미리 결정된 레이어(L3)의 화상들이 2개의 절반들로 수평으로 재분할되게 비디오들(16₁, 16₂)의 구성이 따르는 예를 예시하는데, 그 절반 중 하나는 비디오(16₁)의 상위 레이어를 전달하는 레이어(L2)로부터의 레이어 간 예측을 사용하여 코딩되고, 다른 절반은 비디오(16₂)를 전달하는 다중 레이어 데이터 스트림(20)의 레이어(L0)로부터의 레이어 간 예측을 사용하여 코딩된다.

도 1에 도시된 대안(30)에 따르면, 세트(26)의 레이어들로부터의 레이어 간 예측을 사용하여 합성기(24)에 의해 합성이 수행되는 부분은 세트(26) 자체의 레이어들 중 최상위 레이어들, 즉 도 1의 경우에는 레이어(L2) 내에 있다. 즉, 대안(30)의 경우에, 레이어 간 예측에 의해 합성이 수행되는 다중 레이어 데이터 스트림(20)의 레이어는 세트(26) 자체의 일부이고, 레이어 간 예측에 의해 합성이 수행되는 부분은 세트(26)의 최상위 레이어, 즉 레이어(L2)의 화상들의 공간 하위 영역이며, 레이어(L2)의 화상들의 다른 영역은 코딩된 버전(12)으로부터의 복사에 의해 사본 형성기(22)에 의해 획득된다. 대안(28)의 경우에는 세트(26)의 모든 레이어들이 레이어 간 예측에 의한 합성에 이용 가능하지만, 대안(30)의 경우에는 레이어 간 예측에 의한 합성은 단지 세트(26)의 하위 레이어들, 즉 도 1의 경우 레이어들(L1, L0)과 관련된다. 대안(30)에 따라, 레이어(L2)의 화상들의 다른 영역들은 합성기(24)에 의해 심지어 다른 방식으로, 즉 코딩된 버전(12)으로부터 복사하거나 부차적인 레이어들(L1 또는 L0)로부터의 레이어 간 예측에 의해서가 아니라, 예컨대 구성에 배경을 제공하기 위해 인트라 예측 및/또는 시간 예측을 사용함으로써 합성될 수 있다.

구성의 합성에서 낮은 복잡도 및 높은 자유도를 예시하기 위해, 도 2는 실제 비디오 구성이 여분의 레이어, 즉 도 1과 도 2의 예에서는 레이어(L3) 내에서 전달되는 대안(28)에 대한 특정 시간 인스턴트에서의 다중 레이어 데이터 스트림(20)의 화상들의 시간 인스턴트를 예시한다. 도 2는 3개의 영역들로 구성될 레이어(L3)의 화상을 예시하는데, 영역들(32_a, 32_b)은 화살표들(34)로 도시된 바와 같이 레이어 간 예측을 사용하여 합성된다. 따라서 이러한 부분들은 대안(28)의 경우에 도 1의 크로스 해칭된 부분을 형성한다. 영역(32_a)은 레이어(L2)의 화상의 하위 영역(36)으로부터 레이어 간 예측된다. 영역들(32_a, 36)의 크기는 각각 샘플들, 펠(pel)들 또는 픽셀들의 단위들로 측정될 때 동일할 수도 있다. 영역(32_a)의 경우, 레이어 간 예측은 이에 따라 어떠한 업샘플링도 수반하지 않는다. 도 2의 예에 따르면, 영역들(32_b)은 레이어(L0)의 화상의 각각의 하위 영역(38)으로부터의 레이어 간 예측을 사용하여 코딩된다. 여기서 샘플들에서 측정된 영역(32_b)의 크기는 영역(38)보다 더 크고, 이에 따라 레이어(L0)로부터의 레이어 간 예측 영역(32_b)에 업샘플링 프로세스가 수반될 수 있다고 예시된다. 영역들(32_a, 32_b)은 예시적으로 레이어(L3)의 화상의 영역(40)에 임베드되는 것으로 도시되어 있으며, 이 영역(40)은 레이어(L3)의 선행 화상에서 대응하는 또는 심지어는 콜로케이트된 영역을 기초로 시간 예측을 사용하여 또는 예컨대, 인트라 코딩을 사용하여 합성기(24)에 의해 합성될 수도 있다.

도 2로부터 명백해지는 바와 같이, 도 1의 합성기(24)는 예를 들어, 일종의 배경 콘텐츠를 나타낼 수 있는, 선택적으로는 제외될 수도 있는 영역(40) 및 영역들(32_a, 32_b)의 위치, 수, 크기 또는 형상을 쉽게 변경할 수 있다. 영역들(32_a, 32_b) 및 그 윤곽들의 위치 결정시, 합성기(24)는 단지 다중 레이어 데이터 스트림(20)의 기반 코덱에 의해 허용되는 블록 그리드에 이를 등록하도록 제한될 수도 있다. 심지어 대응하는 영역들(36, 38)의 위치 결정은 변경될 수 있고 그리고/또는 자유롭게 선택될 수 있다. 즉, 이러한 영역들(36, 38)은 도 2에 도시된 바와 같이, 레이어들(L2, L0)의 전체 화상들을 포함할 수 있는데, 즉 레이어 간 예측 참조 화상들이 전체 화상들이다. 한편으로는 각각 참조 영역들(32a, 32b)과 다른 한편으로는 각각 참조 영역들(36, 38) 사이의 위치의 오프셋을 보상하기 위해, 장치(10) 또는 합성기(24)는 예를 들어, 참조되는 화상, 즉 L3의 현재 화상에 의해 참조되는 임의의 레이어의 화상의 픽셀들의 단위들과 같이, 참조되는 영역들의 위치에 대한 참조 영역들의 위치의 오프셋을 나타내는 오프셋 파라미터들을 데이터 스트림(20) 내에서 시그널링할 수 있다. L3 자체의 화상의 픽셀들에서 L3의 화상의 좌측 상부 모서리로부터 측정된, 영역(32_a) 내의 위치를 벡터(x, y)로 하면, 오프셋 파라미터들은 레이어 간 예측을 위한 소스로서 사용되도록, 이 화상의 좌측 상단 모서리로부터 측정된, 영역(36) 내의 참조되는 레이어, 이를테면 L2의 화상 내에서 콜로케이트된 위치(X, Y)가 (X, Y) =

가 되도록 오프셋(p)을 나타낼 수 있으며, 여기서

는 참조하는 레이어(L3)와 참조되는 레이어(이를테면 L2) 간의 픽셀 장면 피치 비율이다. 오프셋 파라미터들은 각각의 비-최상위 레이어, 즉 도 1의 예에서는 L0-L2 각각에 대해 p를 시그널링할 수 있다. 오프셋 파라미터들은 추가로, (X, Y) =

가 되도록

및 참조하는 화상과 참조되는 화상 사이의 일반적인 장면 오프셋

을 시그널링할 수 있다. 오프셋 파라미터들은

그리고 o=o ^TL 그리고 (X, Y) =

가 되도록, 예컨대 오프셋(p)뿐만 아니라 이 최상위 레이어와 참조되는 레이어들의 참조 화상들의 좌측 하단 모서리들 간의 오프셋

과 우측 상단 모서리들 사이의 오프셋

을 통해 최상위 레이어, 여기서는 L3의 픽셀들의 단위들로 시그널링될 수 있으며, 여기서 N_x 및 N_y는 픽셀들로 수평으로 측정된 레이어(L3)에서의 참조 화상들의 크기 및 픽셀들로 수직으로 측정된 레이어(L3)에서의 참조 화상들의 크기를 각각 나타내고, 여기서 N_x' 및 N_y'는 예컨대, 픽셀들로 수평으로 측정된 레이어(L2)에서의 참조되는 화상들의 크기 및 픽셀들로 수직으로 측정된 참조되는 화상들의 크기를 각각 나타낸다.

도 3은 도 2와 바로 일치하는 구성에 대한, 그러나 이번에는 도 1의 대안(30)에 대한 일례를 도시한다. 또한, 최상위 레이어, 여기서는 레이어(L2)의 화상들은 합성되어 이들이 3개의 영역들로 세분되는 것으로 도시된다. 영역(42)은 코딩된 버전(12)의 부분(18₁)으로부터 복사된다. 영역(42)은 비디오(16₁)의 화상들의 전체 화상 콘텐츠를 포함할 수 있다. 그러나 잘라 내기(cropping-out)가 역시 실현 가능할 수도 있다. 그 경우, 예를 들어, 비디오(16₁)의 화상은 이미 잘라 내기가 가능한 방식으로 코딩된다. 예를 들어, 비디오(16₁)의 상위 레이어의 화상들은 타일들의 부분(18₁)으로 코딩될 수 있고, 이러한 타일들의 하나 또는 서브세트는 다중 레이어 출력 데이터 스트림(20)의 레이어(L2)의 영역(42)에 놓일 수 있다. 다른 영역(44)은 도 2의 영역(40)과 유사한 방식으로 인트라 코딩 및/또는 시간 예측에 의해 합성기(24)에 의해 합성되었을 수 있다. 영역(46)은 도 1의 크로스 해칭된 부분을 형성하고, 레이어(L0)의 대응하는 영역(48)으로부터의 레이어 간 예측에 의해 합성된다. 다시, 합성기(24) 또는 장치(10)는 비디오(162)가 다중 레이어 데이터 스트림(20)의 레이어(L0)로 코딩되게 하는 움직임 벡터들을 터치되지 않고 보정되지 않게 하기 위해 오프셋 파라미터들을 사용할 수 있지만, 그럼에도 레이어(L0)의 화상들의 하위 영역(48) 내의 화상 콘텐츠를 레이어(L2)의 화상의 영역(46)에 정확하게 삽입할 수 있다.

도 1과 도 3에 도시된 대안(30)에 따라, 합성기(24)는 레이어(L2)의 화상들이 데이터 스트림(20)으로 코딩되는 코딩/디코딩 경로를 수정해야 할 수 있다. 다시 말해, 합성기(24)는 복사된 영역(42)이 방금 언급한 코딩/디코딩 순서에 따라 분리되지 않도록 L2의 화상들을 합성할 수 있다. 즉, 합성기(24)는 대응하는 화상 콘텐츠가 코딩된 버전(12)의 대응하는 부분(181)으로 코딩되는 코딩/디코딩 순서와 일치하는 방식으로 그리고 연속적인 방식으로 코딩/디코딩 순서가 복사된 부분(42)을 가로지르는 방식으로 레이어(L2)의 화상들을 코딩해야 할 수 있다. 이러한 조치에 의해, 사본 형성기(22)가 압축 또는 코딩 도메인에서 앞서 언급한 복사에 의해 영역(42)을 채우는 것이 가능하다. 합성기(24)는 복사된 영역(42)의 윤곽들을 타일 경계들과 정렬함으로써 이를 달성해내야 할 수 있으며, 타일들은 데이터 스트림(20)으로 인코딩된 화상의 부분들을 개별적으로 그리고 가장 중요하게는 순차적으로 나타내는데, 화상의 제1 타일이 먼저 데이터 스트림(20)으로, 그 다음에는 타일 순서로 타일이 코딩된다. 따라서 화상을 타일들로 구조화하는 것은 화상이 인코딩/디코딩에서 통과하는 코딩/디코딩 순서를 조정할 수 있게 한다.

그러나 도 3의 경우에도, 예를 들어 도 3에 예시된 구성은 장치(10) 또는 합성기에 의해 변경될 수 있다. 도 2 및 도 3에 예시된 두 대안들(28, 30) 모두에 따르면, 합성기는 가중된 예측에 의해, 하위 레이어들로부터 도출된 레이어 간 예측된 화상 콘텐츠의 블렌딩들, 오버레이들, 페이드인 또는 페이드아웃을 수행하기에 심지어 자유롭다.

도 1 - 도 3과 관련하여 앞서 설명한 실시예에 수반되는 이점들을 예시하기 위해, 화상 회의를 참조하는 그 애플리케이션이 다음에 설명되며, 이로써 예를 들어, 본 출원의 명세서의 도입부에서 앞서 설명한 개념에 비해 이점들을 명확하게 한다. 예를 들어, 도 4는 도 1 - 도 3과 관련하여 위에서 개요가 서술된 개념을 도 23 - 도 26과 관련하여 앞서 설명한 화상 회의 작업에 적용한 경우의 결과적인 다중 레이어 출력 데이터 스트림(20)을 예시한다. 즉, 3개의 비디오 비트 스트림들이 구성이 수행되는 데 기반이 되는 비디오 콘텐츠의 코딩된 버전을 형성했는데, 단순하게 하기 위해 화자의 비트 스트림(도 4에서 큰 블록)에 2개의 레이어들이 존재하고 (도 25와 유사한) 다른 비트 스트림들에는 단일 레이어가 존재한다.

일례로, 도 1 - 도 4와 관련하여 앞서 설명한 실시예들은 예를 들어, SHVC에서 제공되는 것과 같은 확장된 스케일러빌러티 또는 RoI 스케일러빌러티의 개념을 사용할 수 있는데, 여기서는 서로 다른 참조 레이어들이 시그널링될 수 있고 어떤 오프셋이 부가되어 화상의 서로 다른 구역들을 서로 다른 참조 레이어들에 매핑한다. 이러한 개념은 오프셋 파라미터들을 언급할 때 도 2 및 도 3과 관해 위에서 언급되었다. 예를 들어, SHVC에서, 오프셋 파라미터들은 스케일링된 참조 레이어 오프셋들 및 참조 구역 오프셋들이라 한다. 예를 들어, 도 4를 참조하면, 여기서는 단순하게 하기 위해, 세 참가자들 중 하나에 해당하는 기본 레이어(L0)는 수정되지 않는다. 도 4에서, 각각의 참가자에 관한 비디오가 서로 다른 레이어에 할당된다. 참가자 1에는 layer_id = 0(L0)이 할당되고, 참가자 2에는 layer_id = 1(L1)이 할당되며, 참가자 3에는 layer_id = 2(L2)가 할당된다. 부가 레이어는 합성이 일어나는 레이어, 즉 미리 결정된 레이어이다. 도 4의 경우, 이 부가 레이어는 layer_id = 3(L3)을 갖는다. 비디오 콘텐츠(14)의 코딩된 버전(12)의 대응하는 부분으로부터의 나머지 입력 데이터가 이 레이어에, 즉 참가자 2의 각각의 입력 비디오의 확장 레이어의 잔차 및/또는 예측 데이터에 삽입된다. 이 레이어(L3)에서는, 수행되는 합성이 또한 존재한다. 합성은 앞서 개요가 서술된 MLCP 개념, 즉 다중 레이어 구성 화상들의 개념을 사용한다. 위에서 개요가 서술된 바와 같은 이 개념은 잠재적으로 스케일러블한 다수의 입력 비디오 비트 스트림들 그리고 압축 도메인을 처리하여, 단일 스케일러블 디코더에 공급될 때 다수의 입력 비디오 비트 스트림들의 공간 구성을 발생시키는 단일 출력 스케일러블 비디오 비트 스트림, 즉 다중 레이어 데이터 스트림을 생성한다.

방금 언급한 오프셋 파라미터들은 다중 레이어 출력 데이터 스트림(20)의 고 레벨 신택스에 포함될 수 있다. 예를 들어, 비디오 스트리밍 장치 또는 그 합성기에 의해 다중 레이어 출력 데이터 스트림(20)의 최상위(미리 결정된) 레이어에 대해 화상 파라미터 세트(PPS: picture parameter set)가 생성될 수 있으며, PPS는 스케일링된 참조 레이어 오프셋들 및 참조된 구역 오프셋들과 같은 오프셋 파라미터들을 포함한다. 후자는 구성 레이아웃에 해당한다. 즉, 다수의 스케일링된 참조 레이어 오프셋들 및 잠재적으로 참조된 구역 오프셋들이 입력 비디오들(16)(또는 도 4의 경우에는 참가자)로서 포함되어, 예를 들어 참가자들 각각에 대응하는 또는 이를 보여주는 최상위 레이어의 출력 화상 내의 구역들/영역들을 설명한다. 도 5는 여기서는 참가자들 중 2명에게 예시적으로 사용되는 도 4의 원격 전자 회의 애플리케이션 예에 대해 스케일러블 오프셋들(오프셋 파라미터들)을 사용하는 효과를 예시한다. 레이어들(L3, L2)을 통해 전달되는 비디오의 참가자의 경우, 출력 화상의 가장 왼쪽 구역은 공간 스케일러빌러티(레이어 간 예측)를 사용하는 예측을 위해 L2의 화상을 사용한다. 그러나 L3의 화상의 우측 부분은 도 1 - 도 3의 합성기에 의해 제공되는 개념, 즉 레이어 간 예측을 통한 L0의 화상의 화상 콘텐츠의 직접 복사를 사용한다. 이러한 직접 복사 슬라이스는 각각의 PPS에서 지정된 스케일링된 참조 레이어 오프셋들 및 참조 구역 오프셋들과 결합하여, L0의 화상의 의도된 구역/영역의 샘플들을 지시하는, 일정한 제로 움직임 벡터를 갖는 큰 예측 블록들로 구성될 수 있다. 도 5에 도시된 바와 같이, 이것은 또한 (참조된 구역 오프셋들을 포함시킴으로써) 예컨대, 어떤 외부 시그널링 수단에 의해 결정된 또는 관심 영역을 표시할 수 있는 비트 스트림에서 비트 레이트의 대부분을 필요로 한 화상 부분을 선택함으로써 가장 중요한 부분을 강조하는 콘텐츠의 하위 영역만의 복사본일 수 있다. 앞서 설명한 실시예들은 레이아웃의 융통성 있는 합성을 가능하게 하는데, 이는 원래의 콘텐츠의 부분들이 사실상 "잘라 내기"될 수 있기 때문인데, 즉 모든 참가자들의 구성이 규칙적인 스티칭 프로시저의 해상도와 일치하지 않는 결정된 해상도에 적합할 수 있기 때문이며, 여기서 완전한 화상들이 함께 스티칭된다.

예를 들어, SHVC를 사용하기 전에 기술된 실시예들을 구현하는 경우, 기본 레이어에 0보다 큰 레이어 ID, 즉 도5의 L1 및 L2가 할당되는 참가자들의 비디오들의 화상들에 관한 슬라이스들이 SHVC에 대한 각각의 슬라이스 헤더의 확장들이 슬라이스 헤더들에 포함되도록 수정될 수 있다. 하위 레이어들로부터의 레이어 간 예측은 이러한 레이어들이 독립적이기 때문에, 즉 이러한 레이어들이 각각의 입력 스트림들에서 독립적인 기본 레이어들이므로 이러한 레이어에 적용/사용되지 않는다.

레이아웃 변경 이벤트가 발생할 때마다, 즉 구성(레이아웃)이 변경될 때마다, 새로운 PPS가 각각의 참조 레이어 오프셋들 및 참조된 구역 오프셋들, 즉 새로운 레이아웃 구성과 일치하도록 업데이트된 오프셋 파라미터들로 삽입된다. 각각의 참가자의 기본 레이어에 해당하는 참조 레이어에 대해 각각, 참가자들의 수만큼 많은 스케일 오프셋들이 있을 것이다. 대안으로, 도 4에 도시된 것과 비교하여 더 많은 레이어들을 갖는 보다 복잡한 구조가 사용된다면, 유효한 레이어 식별자(SHVC에서는 nuh_layer_id 신택스 엘리먼트)를 할당하는 것 이외에 추가 수정 없이 더 많은 레이어들이 유지될 수 있다.

앞서 설명한 실시예들은 이들이 서로 다른 값들의 nuh_layer_id를 갖는 모든 개개의 입력 레이어들 및 개별 비-출력(하위) 레이어들을 유지할 수 있게 하여, 이에 따라 MLCP에서 임의의 입력 잔차 및/또는 예측 데이터를 피한다는 점에서 융통성이 있지만, MLCP만을 사용하여 최상위 레이어에서 합성을 수행하며, 즉 MLCP만이 최상위 입력 레이어들을 포함하는 하위 출력 레이어들의 화상 콘텐츠를 복사하는 직접 복사 슬라이스들로 구성된다. 이것은 위에서 대안(28)으로서 설명되었다.

비디오들(도 4 및 도 5의 경우에는 참가자들)의 MLCP(도 4 및 도 5의 예에서는 저해상도 기본 레이어들)에 포함되지 않은 다중 레이어 출력 데이터 스트림(20)의 모든 레이어들은 언제든지 시간 예측을 사용하는 것이 허용된다. MLCP 레이어, 즉 미리 결정된 레이어에 포함되고 레이아웃 변경 이벤트에서의 변위를 통해 수행되는 입력 화상들의 잔차 및/또는 예측 데이터에 대해, 시간 예측이 허용되지 않는다. 레이아웃 변경에 영향을 받는 그러한 MLCP 구역들에 대해서만 레이어 간 예측이 허용된다. 도 6은 입력 화상들의 잔차 및/또는 예측 데이터를 갖는 MLCP들이 사용되는 예시적인 레이아웃 변경 이벤트를 도시하며, MLCP의 하위 레이어들 및 녹색 영역에 대해 시간 예측이 어떻게 분해되지 않는지가 확인될 수 있어, MLCP들이 사용되지 않는 경우보다 더 나은 매우 양호한 압축 효율로 이어진다.

도 6의 예에서, MLCP들은 가장 높은 해상도로 도시된 화자에 관한 비디오의 최상위 입력 레이어의 잔차 및/또는 예측 데이터를 포함하는 것이 고려된다는 점에 주목한다. 따라서 이 예에서, MLCP들은 레이어 간 예측마다 비-화자들의 저 해상도 비디오 레이어들의 샘플 값들을 단순히 상속하는 더 높은 해상도의 비디오 및 직접 복사 슬라이스들을 디코딩하는 것을 가능하게 하는 화자의 추가 정보를 갖는 슬라이스들을 가질 수 있다. 이는 참조 부호(30)에 관해 앞서 언급한 대안이었다. 여기서 레이어들의 수는 28에 따른 대안에 비해 감소된다.

따라서 사실상 대안(28 또는 30)을 선택하는 것은 설계 선택이다. 28에 따른 대안에서, 모든 레이어들은 MLCP와 독립적으로 유지되는데, 여기서 입력 데이터 스트림들의 잔차 및/또는 예측 데이터는 다중 레이어 출력 데이터 스트림(20)의 미리 결정된 또는 최상위 레이어의 MLCP들에 포함되지 않지만, 이는 30에 따른 대안에 관한 경우가 아니다. 대안(28)에 따르면, MLCP들은 단지 레이어 간 예측을 통해 하위 레이어들로부터 재구성된 샘플 데이터를 사용하는 직접 복사 슬라이스들로만 구성된다. 적절한 nuh_layer_id를 작성하는 것을 제외하고는, 레이어들의 각각의 수에 관계없이, 모든 스케일러블 입력 비디오 비트 스트림들의 레이어는 변경되지 않고 유지될 것이다. 모든 MLCP 슬라이스들, 즉 직접 복사 슬라이스들은 첫 번째 CU가 추가(입력) 잔차 데이터 없이 레이어 간 예측을 사용하고 다음 CU들이 스킵 모드로서 인코딩되는 방식으로 인코딩되는데, 즉 이들은 단순히 예측 모드, 즉 레이어 간 예측을 복사하면서 잔차 코딩을 스킵한다. 대안(28)에서, 시간 도메인에서의 예측은 세트(26) 내의 모든 입력 레이어들에 대해 어떠한 제한들도 없이 활용될 수 있다.

앞서 설명한 MLCP 개념은 손실 상황들에서 더 사용될 수 있다. 화자의 최상위 레이어(출력)가 손실된다고 가정하면, 출력 레이어의 이용 불가능한 콘텐츠를 생성하는 (잠재적으로 하위 레이어의 스케일링을 수행하는) 직접 복사 슬라이스가 도입될 수 있다. 이러한 삽입은 복사 슬라이스들의 MV들이 원래 손실된 슬라이스의 MV들과 완전히 다를 것이므로 TVMP가 사용된다면 다음의 화상들에 심각한 영향들을 가질 수도 있다. 그러므로 최상위 레이어에서 치환된 참가자에 해당하는 추가 슬라이스들은 "TMVP 임의 접근"(TMVP 예측을 리셋하는 화상)이 발생할 때까지 추가 복사 슬라이스들에 의해 누락되고 치환될 필요가 있을 것이다.

아래에서는, 지금까지 설명된 실시예들에 관한 비트 스트림 제약들 및 특성들에 대해 어떤 설명이 제공된다.

특히, 앞서 설명한 바와 같이, MLCP들은 입력 비디오들의 실제 구성이 달성되게 하는 다중 레이어 출력 데이터 스트림(20)의 최상위 레이어 또는 출력 레이어(미리 결정된 레이어)의 화상들을 나타낸다. 위에서 식별된 실시예들을 SHVC를 사용하여 구현하는 경우, 즉 출력 데이터 스트림을 나타내기 위해 SHVC를 사용하는 경우, MLCP들은 (대안(30)의 경우) 입력 비트 스트림 EL 화상들 및/또는 복사 슬라이스들로부터 합성되는 SHVC EL 화상들이다. 이와 관련하여 복사 슬라이스들은 하위 레이어들의 소스 화상들로부터의 레이어 간 예측을 통해 동일한 시간 인스턴트에서 하위 레이어들의 화상 콘텐츠를 (완전히 또는 부분적으로) 복사(및 잠재적으로는 다시 샘플링)하는 슬라이스들을 의미한다. 시간적 인터 예측이 입력 비트 스트림 EL 내에서 사용되는 경우에, 앞서 설명한 바와 같이 MLCP의 생성을 위해 2개의 접근 방식들이 사용될 수 있다. 모든 입력 비트 스트림들의 레이어들이 출력 비트 스트림(20)의 개개의 레이어들에 놓여지고 MLCP들이 복사 슬라이스들을 통해서만 생성됨으로써, 대안(28)에 따라 여분의 미리 결정된 레이어를 형성할 때, 입력 비트 스트림 EL 화상들, 즉 레이어들(26)의 화상들 내에서 시간 인터 예측의 사용은 어떠한 특정한 제약들도 부과하지 않는다. 그러나 MLCP가 입력 비트 스트림 EL 화상들의 슬라이스 데이터를 포함하고 이러한 슬라이스들이 시간 인터 예측을 수행하는 다른 경우(30)에서, 이러한 화상들은 다음에서 설명되는 바와 같이 스위칭 제약들을 충족시킬 필요가 있다. 다음은 [4]에서 상세히 설명되는 바와 같이 입력 비트 스트림들(18)로서 HEVC 코딩된 비트 스트림들에 대한 제약들에 대한 요약이지만, 다중 레이어 경우에 유사하게 적용된다: 1) MV 제약들: 움직임 벡터들은 화상 경계들 외부의 샘플들 또는 서브-펠(sub-pel) 샘플 위치들을 지시하지 않아야 하며, 이에 대해 인코더 측 호출 서브-펠 보간 필터 커널이 화상 경계들과 겹친다. 2) 예측 단위들: 화상 내의 최우측 예측 단위들은 존재하지 않는 시간적 움직임 벡터 예측(TMVP: temporal motion vector prediction) 후보의 위치에서 TMVP 후보 또는 공간 움직임 벡터 후보에 대응하는 움직임 벡터 예측 후보를 사용하지 않을 것이다. 3) 루프 내 필터들: 슬라이스 세그먼트 및 (존재한다면) 타일 경계들은 디블로킹 및 SAO 필터와 같은 루프 내 필터에 의해 교차되지 않을 것이다.

적절한 스케일링된 참조 레이어 오프셋 및 참조 구역 오프셋 파라미터들로 스위칭(또는 튠-인 또는 화자 변경)시 MLCP 및 그 참조들을 위한 PPS들의 삽입은 MLCP 비트 스트림들의 추가 특성이다. 파라미터들은 현재 MLCP 레이아웃, 레이어 계층 구조 및 화상 치수들을 반영할 필요가 있다.

완전성을 위해, 도 7은 도 1의 대안(30)에 따른 결과적인 다중 레이어 데이터 스트림(20)을 도시한다. 이는 여러 개의 레이어들(L#), 여기서는 예시적으로 4개의 레이어들(0-3)을 포함하지만, 1보다 더 큰 임의의 다른 수가 또한 실현 가능할 것이다. 하위 레이어들, 여기서는 L0 - L2는 입력 비디오들(14)의 코딩된 버전(12)으로부터 복사된 움직임 벡터들(70) 및 비디오 콘텐츠의 코딩된 버전으로부터 또한 복사된 예측 잔차를 기술하는 잔차 데이터(72)와 같은 예측 파라미터를 포함한다. 대안(30)과 관련된 도 7의 실시예에 따르면, 최상위 레이어는 또한 이러한 타입들의 정보, 즉 입력 비디오들(14)의 코딩된 버전(12)으로부터 또한 복사된 움직임 벡터들(70) 및 잔차 데이터(72)와 같은 복사된 예측 파라미터들을 포함한다. 또한, 도 7의 다중 레이어 데이터 스트림(20)은 MLCP들로 구성된 미리 결정된 또는 최상위 레이어(L3)의 화상들이 하위 레이어들(L0-L2)의 화상들에 대해 어떻게 스케일링되고 위치되는지를 기술하기 위해, 하위 레이어들, 여기서는 L0-L2 각각에 대한 오프셋 파라미터들(74)을 포함한다. 마지막이지만 마찬가지로 중요하게, 다중 레이어 데이터 스트림(20)은 최상위 레이어 또는 미리 결정된 레이어(L3)에 대해, 구성을 합성하여 생성하는 레이어 간 예측 파라미터들(76)이 복사된 예측 파라미터들(70) 및 잔차 데이터(72)에 의해 코딩된 최상위 또는 미리 결정된 레이어(L3)의 화상들의 영역들에 하위 레이어들(L0-L2)로부터의 화상 콘텐츠를 공간적으로 부가한다는 점에서 이러한 레이어 간 예측 파라미터들(76)을 포함한다. 도 7의 경우에, 레이어들의 수(N), 여기서 N = 4는 I개의 입력 비디오들이 코딩된 버전(12)으로 인코딩되는 레이어들의 수(n = i)의 합에 대응하는데, 즉

이다. 특히, 다중 레이어 데이터 스트림(20)의 각각의 레이어(L#)는 정확하게 하나의 입력 비디오(i)(0 <i <I + 1)와 그리고 적용 가능하다면, 각각의 입력 비디오(i)의 여러 개의 레이어들 중 정확히 하나에 연관되며, 다중 레이어 데이터 스트림(20)의 레이어들(L#)과 입력 비디오들의 레이어들 간의 매핑은 일대일(bijective)이다. 하위 레이어들(0 내지 n-1)에 관한 한, 이들은 단지 동일한 입력 비디오에 속하는 하나 또는 그보다 많은 레이어들의 그룹들의 단위들로만 레이어 간 예측을 통해 상호 링크된다. 최상위 또는 미리 결정된 레이어(LN)는 여기서 입력 비디오들 중 하나의 최상위 레이어에 대응한다. 도 7에 도시된 바와 같이, 다중 레이어 데이터 스트림(20)은 상위 부가 정보(78)를 추가로 포함할 수 있는데, 그 옵션 콘텐츠가 다음에 설명된다.

도 8은 대안(28)에 따라 야기되는 다중 레이어 데이터 스트림(20)의 콘텐츠를 도시하는데: 복사된 예측 파라미터들 또는 복사된 잔차들(70, 72)을 각각 포함하지 않는 도 8의 예의 레이어(L4)인 최상위 레이어를 제외하고는 콘텐츠가 도 7에 도시된 것과 거의 일치한다. 비디오 콘텐츠(14)의 코딩된 버전(12)의 각각의 부분들로부터 예측 파라미터들(70) 및 잔차들(72)을 복사함으로써 얻어진 이러한 하위 레이어들(L0-L3) 외에도 최상위 레이어(L4)가 추가되므로, 0 < i < I + 1인 경우에 개개의 입력 비디오들(i)의 레이어들의 수(n_i)에 대한 다중 레이어 데이터 스트림(20)의 레이어들의 수(N)는

이다.

도 7 및 도 8과 관련하여, 이러한 도면들에 대해 설명된, 즉 다중 레이어 출력 데이터 스트림(20)의 레이어들의 수와 입력 비디오들(14)의 레이어들의 수 사이의 관계는 대안으로, 다중 레이어 데이터 스트림(20)의 레이어들의 수(N)가 도 7 및 도 8에 도시된 것보다 더 적게 되는 것일 수 있다는 점이 주목되어야 한다. 입력 비디오들 중 일부는 예를 들어 공간적으로 함께 스티칭될 수 있으며, 이로써 다중 레이어 데이터 스트림의 레이어들의 수를 감소시킬 수 있다.

따라서 다시 말하면, 비디오 스트림은 TMVP를 최상위 레이어, 즉 비디오 스트림의 최상위 레이어에서 사용하지 않거나 임의의 레이어에서, 즉 비디오 스트림의 레이어들 중 어디에서도 사용하지 않는 비디오 스트림의 다중 레이어 화상들을 나타내는 시그널링 및 다수의 레이어들을 포함할 수 있다. 시그널링 외에도, 움직임 보상 시간 예측의 사용 없이 코딩된 비디오 스트림의 다중 레이어 화상들을 나타내는 비디오 스트림에 의해 추가 시그널링이 구성될 수 있다. 추가로, 비디오 스트림은 시그널링에 부가하여, 비디오 스트림의 각각의 다중 레이어 화상, 또는 적어도, 각각의 레이어(상기 참조)에서 TMVP 없이 코딩되는 것으로 표시되지 않는 화상에 대해, 시간적 움직임 벡터 예측을 사용하지 않고 코딩된 비디오 스트림의 다음 다중 레이어 화상이 얼마나 멀리 떨어져 있는지(이는 비디오 스트림의 다중 레이어 화상들에서 코딩 순서로 측정됨)에 관해 나타내는 또 추가 시그널링을 포함할 수 있다. 비디오 스트림은 본 출원의 실시예들 중 어느 하나에 따른 구성된 비디오 스트림일 수 있다.

도 7 및 도 8과 관련하여 기술된 바와 같이, 다중 레이어 데이터 스트림(20)은 이것이 고 레벨 부가 정보(78)를 포함하는 방식으로 장치(10)에 의해 생성될 수 있다. 예컨대, 이 부가 정보(78)는 예를 들어, 입력 비디오들(14)에 대한, 또는 입력 비디오들(14) 중 임의의 입력 비디오(14)가 비디오 콘텐츠(14)의 코딩된 버전(12)의 각각의 부분(18)으로 레이어 방식으로 코딩된다면, 입력 비디오들(16)의 레이어들에 대한 다중 레이어 데이터 스트림(20)의 레이어들과의 연관을 시그널링할 수 있다. 추가로 또는 대안으로, 고 레벨 부가 정보(78)는 가치 있는 정보, 즉 비디오 콘텐츠(14)의 구성의 현재 레이아웃에 관한, 즉 다중 레이어 데이터 스트림(20)의 미리 결정된 레이어에서 MLCP들의 현재 레이아웃에 관한 정보를 제공하는 고 레벨 시그널링을 포함할 수 있다. 즉, 이 정보는 어느 화자가 다중 레이어 데이터 스트림(20)의 하나 또는 그보다 많은 출력 레이어들의 입력 비디오 또는 그룹이 다중 레이어 데이터 스트림(20)의 최상위(미리 결정된) 레이어의 화상들(MLCP)의 어느 영역 또는 구역과 연관되는지를 시그널링할 수 있다. 추가로 또는 대안으로, 고 레벨 부가 정보(78)는 수신 측 제어 화자 또는 레이아웃 변경들을 제어하기 위해 다중 레이어 데이터 스트림(20) 내에서 어떤 비디오(16) 또는 화자가 어떤 해상도 또는 품질로 이용 가능한지에 관한 정보를 포함할 수 있다. 추가로 또는 대안으로, 고 레벨 부가 정보(78)로 구성될 수 있는 다른 가치 있는 정보는 앞서 설명한 "TMVP 임의 접근" 문제와 관련될 수 있다. 이는 도 9와 관련하여 설명된다.

도 9는 레이어 방식으로, 즉 여기서는 2개의 레이어들을(n_i = 2)을 포함하는 레이어 방식으로 비디오 콘텐츠(14)의 코딩된 버전(12)의 각각의 부분(18_i)으로 인코딩된 하나의 예시적인 입력 비디오(16_i)를 도시한다. 비디오(16_i)의 레이어들이 장치(10)의 사본 형성기(22)에 의해 다중 레이어 출력 데이터 스트림(20)의 레이어들(L#)로 다중화되는 레이어들의 레이어 인덱스들과 입력 비디오(16_i)의 레이어 인덱스들을 구별하기 위해, 입력 비디오(16_i)의 레이어들은 l#으로 표시된다. 부분(18_i)으로 인코딩된 비디오(16_i)의 화상들은 비디오(16_i)를 나타내는/인덱싱하는 인덱스(i), 입력 비디오의 레이어를 인덱싱하는 인덱스(l), 즉 예시적으로는 l0 또는 l1, 그리고 화상의 시간 인덱스를 인덱싱하는 인덱스(t)에 의해 p_i,l,t로 표시될 것이다. 입력 비디오(16_i)의 최상위 레이어들, 여기서는 l1의 화상들이 시간 예측뿐만 아니라 레이어 간 예측도 사용하여 부분(18_i)으로 코딩되고, 심지어 시간적 움직임 벡터 예측(TMVP)이 사용된다고, 즉 하나의 화상(

)에 대한 움직임 보상 예측 데이터가 화상(

)에 대한 움직임 보상 예측 파라미터들로부터 시간적으로 예측된다고 추가로 가정하며, l = n_i - 1, 즉 상위 레이어는 여기서 도 9의 경우에 l1이다.

예를 들어, 비디오(16_i)를 전달하는 레이어 입력 데이터 스트림과 같은 부분(18_i)은 TMVP가 사용되지 않는 최상위 레이어(l1)의 화상들을 고 레벨 부가 정보(80)로 표시할 수 있다. 도 1의 장치(10)는 이 정보(80)를 유리하게 사용할 수 있는데: 장치(10)로의 부분(18_i)의 송신 동안, 화상(

)에 관한 부분(18_i) 내의 데이터는 손실될 것이라고 가정한다. 화상(

)은 화상(

)을 기초로 TMVP를 사용할 것이지만, 부가 정보(80)는 화상(

)이 TMVP를 사용하지 않을 것임을 시그널링할 것이다. 레이어(l1)가 비디오(16_i)의 최상위 레이어이기 때문에, 그 화상 콘텐츠는 다중 레이어 데이터 스트림의 최상위 출력 레이어의 크로스 해칭된 부분에 대해 대안(28)에 따른 또는 대안(30)에 따른 레이어 간 예측 복사에 의해, 또는 레이어(l1)가 대안(30)에 따라 직접 다중 레이어 데이터 스트림(20)의 최상위 레이어로 사본 형성기(22)에 의해 다중화된다는 점에서 직접 다중 레이어 비디오 스트림(20)의 콘텐츠의 구성에 관여한다. 합성기(24)가 화상(

)의 손실을 보상하는 것이 비교적 쉬운 작업이지만, 합성기(24)는 대안으로 구성 합성을 위해 하위 레이어 화상(

)을 사용할 수 있다. 즉, 화상(

)의 화상 콘텐츠가 사본 형성기(22)에 의해 직접 또는 합성기(24)에 의한 레이어 간 예측에 의해 코딩되었을 각각의 영역은 대신에 하위 레이어 화상(

)으로부터의 레이어 간 예측 복사로 대체될 것이다. 이제, 장치(10)는 정보(80)를 검사하여 화상(

)이 TMVP를 사용한다는 것을, 즉 TMVP를 사용하지 않는 것으로 표시되지 않음을 인식할 것이다. 그러나 화상(

)의 움직임 벡터 예측 파라미터들은 손실되어 그 화상 콘텐츠에 대해 단순히 "치환"되었기 때문에, 합성기(24)는 이 화상(

)에 대해 또한 하위 레이어를 기초로 구성 합성의 치환을 계속하는데, 즉 합성기(24)는 구성 합성에 대한 화상(

)을 치환으로서 사용한다. 그러나 정보(80)는 화상(

)이 TMVP를 사용하지 않음을 나타내기 때문에, 합성기(24)는 화상(

)에서 입력 비디오(16_i)의 최상위 레이어에 기초하여 구성 합성을 치환하는 것을 중단할 수 있는데, 즉 합성기(24)는 구성 합성에서 화상의 화상 콘텐츠를 직접 사용할 수 있다.

추가로, 부가 정보(80)는 TMVP를 사용하지 않는 것으로 표시되지 않는 각각의 화상(

)에 대해, 레이어(l1) 내의 얼마나 많은 화상들이 이 화상을 - 최상위 레이어에서 또는 임의의 레이어에서 - TMVP를 사용하지 않는 레이어(l1)의 다음 화상과 분리하는지에 대해 표시할 수 있다. 이러한 방식에 의해, 장치(10)는 방금 기술된 치환 프로세스를 더 쉽게 계획할 수 있다. 예를 들어, 통신 서비스 시나리오에서, 정보(80)의 존재는 통신 엔드 포인트가 비트 레이트 면에서 비용이 높은 IDR 화상들을 전송할 것을 다른 엔드 포인트들에 요청하는 것을 막을 수 있는데, 즉 비트 레이트 면에서 비용이 더 적은 TMVP 리셋 화상이 이후에 곧 예상될 수 있기 때문에, 완전한 예측 툴 체인의 TMVP를 리셋할 수 있다.

장치(10)는 결국, 부가 정보(78)에 임베드된 이 부가 정보(80)를 다중 레이어 출력 데이터 스트림(20)으로 복사할 수 있다. 데이터 스트림(20)을 수신하는 디코더는 데이터 스트림(20)의 이 정보(80)를 기초로, 다중 레이어 데이터 스트림(20)을 디코딩하는 디코딩 프로세스에서 치환 프로시저를 확장할 수 있다.

대안으로, 부가 정보(80)는 장치(10)에 의해 생성된 부분(18_i)으로 이미 구성되어 있지 않아, 이 정보는 다중 레이어 데이터 스트림(20)의 고 레벨 부가 정보(78) 내에 포함된다.

정보(80)는 SEI 메시지의 형태로 존재할 수 있다. SEI 메시지는 TMVP 리셋이 언제 발생하는지를 기술할 수 있다. 훨씬 더 많은 SEI 메시지들이, 복사 슬라이스가 원본 EL 슬라이스 대신 참조된 최상위 레이어로서 사용될 때 얼마나 많은 화상들이 추가로 디코딩될 수 있는지를 기술할 수 있어, 너무 많은 화상들 뒤에 어떠한 임의 접근도 발생하지 않는다면 최상위 EL의 콘텐츠가 복사 슬라이스들에 의해 치환된다.

완전성을 위해, 도 10은 장치(10)가 아웃바운드 다중 레이어 비디오 데이터 스트림(20)에 의해 표현되는 구성에 통합될 새로운 비디오에 대처할 수 있도록 이 장치가 구성될 수 있음을 보여준다. 도 10은 J개의 비디오들의 코딩된 표현을 수신하는 것으로서 장치(10)를 도시하는데, 비디오들 각각은 0 <j <j + 1인 0 > n_j개의 레이어들을 포함한다. 그러나 구성의 합성시, 장치(10)는 구성을 구성하는데 관여하는 비디오들의 세트 또는 서브세트를 변경한다. 도 10은 예를 들어, 어떤 미리 결정된 시점(T)에서 관여 비디오들이 변경되는 것을 예시한다. 시간 인스턴트(T) 이전에, 예시적으로 비디오들(J-1, j, 1)이 도 1 - 도 9와 관련하여 앞서 개요가 서술된 기술에 따라 다중 레이어 데이터 스트림(20)을 형성하는 데 관여하지만, 비디오들(J - 1, k ≠ j) 및 비디오(1)는 시간 인스턴트(T) 이후에 관여한다. 예를 들어, 화상 회의 리더와 같은 운영자는 비디오(j)와 연관된 비-화자로부터 비디오(k)와 연관된 다른 비-화자로 스위칭하기로 결정한다. 그 경우, 장치(10)는 운영자의 명령의 수신으로부터 다음 번에 관여 비디오들의 서브세트 내의 새로 포함된 비디오(k)에 대한 운영자의 명령을 실행하도록 구성될 수 있으며, 여기서 비디오(k)는 인트라 코딩, 즉 어떠한 시간 예측도 없이 코딩된다. 이러한 조치에 의해, 장치(10)는 비디오들(J-1, j, 1)을 수반하는 구성으로부터 비디오들(J-1, k, 1)을 수반하는 구성으로 끊김 없이 스위칭할 수 있다.

특정 비디오 콘텐츠의 구성을 합성하는 데 관여하는 비디오들의 서브세트에 새로운 비디오를 포함시키는 문제는 본 출원의 후속적으로 예시된 양상의 주제이다. 다음의 설명에서, 이 문제는 특정 애플리케이션, 즉 파노라마 뷰로부터 시변 부분을 보여주는 복합 비디오 스트림의 스트리밍에 관한 애플리케이션으로 일반화되고 예시되며, 파노라마 뷰는 복수의 비디오들에 걸쳐 분포된다. 그러나 다음에 설명되는 실시예들은 또한 도 1 - 도 10의 장치(10)가 실제로 어떠한 인트라 코딩된 임의 접근 상황/시간 인스턴트도 존재하지 않는 시간 인스턴스들에서 관여 비디오들의 서브세트를 변경할 수 있게 하기에 적합할 수 있다. 다음에 개요가 서술되는 실시예들은 제시 시간 순서에 따르는 화상들에 대한 참조들을 단순히 형성하는 인트라 코딩된 화상들이 심지어 존재하지 않는 개방형 GOP 구조를 사용하여 코딩된 하나 또는 그보다 많은 비디오들로 비디오 구성을 적용하는 경우에도 심지어 적용 가능하다. 오히려, 아래 설명되는 바와 같이, 개방형 GOP 구조들에서, 그러한 인트라 코딩된 화상들은 제시 시간 순서에서 앞과 뒤의 화상들에 대한 시간 예측 참조로서의 역할을 둘 다 한다. 여기서, 아래 설명되는 실시예들은 관여 비디오들의 한 세트로부터 구성 합성에 관여하는 비디오들의 다른 세트로 끊김 없이 전환할 유일한 가능성을 형성한다.

방금 개요가 서술된 문제들을 보다 상세히 표현하기 위해, 다중 레이어 파노라마 스트리밍에 대한 간략한 소개가 제공된다. 파노라마 비디오는 종래의 2D 비디오 서비스들에서 사용된 것보다 더 큰 시야각으로 그리고 예를 들어, 최대 360°로 비디오 콘텐츠를 묘사한다. 브라우저들, 비디오 벽들 또는 헤드 장착형 디스플레이들과 같은 엔드 포인트들로의 이러한 콘텐츠 또는 그 관련 부분들의 전송은 대역폭 및 레이턴시 측면에서 구축된 전송 방식들 및 시스템들에 대한 도전이다. 엔터테인먼트, 게임 또는 감시의 각각의 애플리케이션들은 이러한 콘텐츠의 전송이 발생할 수 있는 주변 조건들, 예를 들어 라이브 스트리밍을 더욱 좁힌다.

대규모 파노라마 스트리밍 서비스의 경우, 스케일러빌러티를 위해 미디어의 필수 사용자별 처리를 최소화하는 것이 중요하다. 따라서 HEVC[1]에서의 타일 기반 스트리밍의 개념 및 관련된 압축 도메인 처리에 대한 다른 접근 방식들이 확립되었다. 예를 들어, 사용자의 관심 구역, 즉 파노라마 비디오의 송신되고 그리고/또는 디스플레이되는 영역에 따라 모든 각각의 사용자에 대한 비디오 라이브 인코딩 대신, 매우 적은 계산 자원들로 적절하게 인코딩된 HEVC 비디오 타일들 중에서 압축 도메인에서 동등한 비디오가 함께 스티칭될 수 있다. [2]에서 소개된 추가 기술들은 관심 구역의 변경들(RoI 스위칭)을 효율적으로, 즉 추가 비디오 콘텐츠의 송신으로 처리할 수 있게 하는데, 즉 라이브 서비스의 레이턴시 제약들 하에서 이전에는 볼 수 없었던 파노라마 비디오 영역들이 사용자 경험을 쉽게 중단시킬 수 있다.

저해상도 및 고해상도 파노라마의 동시 송출을 사용하는 접근 방식들이 이전에 그러한 시스템에서 사용되었으며, 레이턴시 및 대역폭 요구들[5]을 다루는 데 매우 가치가 있음이 입증되었다. 따라서 SHVC와 같은 스케일러블 비디오 코덱들이 이 분야에서 이점들을 제공할 것으로 기대된다.

아래에서 추가로 개요가 서술되는 실시예들은 다중 레이어 비디오 코덱들에 대해 아래에서 설명되는 바와 같이 생성된 참조 화상들의 개념을 소개하며, 대역폭 또는 레이턴시 측면에서 RoI 스위칭의 보다 효율적인 처리를 가능하게 한다. [2]에서는, 타일 기반 파노라마 스트리밍이 사용될 때 RoI 스위칭 포인트들의 비트 레이트 증가를 줄이기 위해 단일 레이어 파노라마 스트리밍과 관련하여, 생성된 참조 화상(GRP: Generated-Reference-Picture)들의 개념이 도입되었다. 도 11은 GRP들, 즉 이전에 수신되었고 스트리밍 스위칭 포인트 동안 구성된/스티칭된 비디오(파선 블록들)에서의 공간적 변위가 가해진 타일들(즉, 비디오의 영역들)의 시간 예측을 다음의 화상들이 이용할 수 있도록 규칙적인 기준 화상의 콘텐츠의 변위를 수행하는 화상들의 원리를 예시한다. GRP들은 참조용으로만 사용되며 출력되지 않는다.

따라서 GRP들을 사용함으로써, 모든 대체된 타일들에 대해 전체 인트라 화상을 전송할 필요성이 회피되고, 일부 타일들, 즉 RoI 변경 이전에, 그러나 다른 위치에서 이미 존재하는 화상 콘텐츠와 관련된 타일들에 대해 시간 예측이 사용될 수 있어, 필요한 송신 비트 레이트를 감소시킨다.

따라서 아래에서 더 설명되는 실시예들은 특히 파노라마 스트리밍에 대한 해결책을 제공한다. 이들은 스케일러블 또는 다중 레이어 비디오 기술을 사용한다. 특히, 이러한 실시예들은 또한 개방형 GOP 구조들이 사용되는 경우에 대한 해결책을 제공한다. 이러한 개방형 GOP 구조들은 예를 들어, 중간 스트림 디코딩 접근, 즉 소위 임의 접근을 제공하면서 스트림들의 보다 높은 압축 효율[6]을 가능하게 한다. 도 12는 개방형 GOP에 대한 가능한 인코딩(GOP) 구조를 도시한다. 비디오의 화상들은 왼쪽에서 오른쪽으로 이들의 제시 시간 순서로 도 12에 도시된다. 시간 예측들을 보여주기 위해 화살표들이 사용된다. 다른 도면들에서와 같이, 화살표들은 참조 싱크 또는 상속자로부터 참조 소스까지, 즉 시간 예측을 사용하여 예측된 화상으로부터 시간 예측에 의해 참조된 화상까지를 지시한다. 서비스에 튜닝-인 또는 합류하는 예시적인 이벤트, 즉 도 12의 비디오의 디코딩 시작은 임의 접근으로 지칭될 수 있으며 도 12에서 "스위칭 포인트"로서 예시적으로 도시된다. 도 12로부터 확인될 수 있는 바와 같이, 제2 CRA 화상(도 12에서 오른쪽 화상)에서 임의 접근 이벤트가 발생한다면, 제시 시간 순서로 그 앞에 선행하는, 그러나 CRA에 의존하고 (도 12에서 P로 표시된) 이전 화상에 추가로 의존하는 모든 화상들은 디코딩되거나 도시되지 않은 스킵된 화상이다. 이러한 접근 방식은 동일한 기능에 IDR들을 사용하고 과거에 대한 예측을 중단하는 폐쇄형 GOP 구조들로 불리는 것과 비교할 때 매우 효율적이며 더 높은 압축 효율을 제공하는 것으로 도시되었다. 새로운 채널로의 튜닝-인에서와 같이 중간 스트림의 디코딩을 재개하기 위해서는 이러한 접근 방식이 매우 유용하지만, 적응적 또는 대화형 스트리밍과 관련하여 스위칭이 수행될 때 화상들을 스킵하는 것은 유효한 프로시저가 아니다. 이러한 스위칭 이벤트, 즉 디스플레이되는 관심 구역(RoI)의 변경이 발생할 때마다, 스위칭 이벤트를 통해 대체되더라도 스위칭 이벤트에 걸쳐 연속한 비디오가 디스플레이되어야 하므로, 화상들을 강제로 폐기하는 기술을 사용하는 것은 용납되지 않는다.

도 13은 GRP들에 대한 타일 기반 스트리밍이 고려될 때 파노라마 스트리밍에서 개방형 GOP가 가질 효과를 보여준다. 이 경우, 기본 레이어(L0)가 L1에서 선택된 타일들에 의해 형성되는 RoI에 대한 참조로서 사용되는 전체 파노라마 비디오의 섬네일 표현에 대응하는 스케일러블 비디오가 고려된다. 도 13에 도시된 바와 같이, 레이어(L1)의 도면들이 4개의 타일들로 수평 분할되는 경우, GRP는 원래 타일들의 최상위 레이어(도면에서는 L1)에서 좌측으로의 시프트를 수행할 것이다. [2]에서 설명한 바와 같이, 해칭 방식으로 도시된 최우측 타일은 이전 참조 프레임 또는 다른 의미 없는 콘텐츠의 화상 경계 확장을 포함한다. 이러한 손상된 영역은 크로스 해칭 방식으로 표시된 제시 시간 순서(RASL) 화상에서 다음 화상에 추가된 새로운 타일에 대한 의미 있는 참조로서 사용할 수 없다. 따라서 크로스 해칭 방식으로 도시된 최우측의 타일에 대한 RAP 기능을 갖는 폐쇄형 GOP 표현이 필요할 것이며, 이는 감소된 코딩 효율을 대가로, 스티칭이 수행될 수 있도록 모든 타일들에 폐쇄형 GOP 구조를 또한 강제로 사용하게 할 것이다. 개방형 GOP 구조가 사용된다면, 다음 RASL 화상(오른쪽에서부터 두 번째)의 크로스 해치 방식으로 도시된 화상 영역은 손상된 영역을 도 13에서 일반적으로 해칭된 박스로 표현된 참조로 사용하여, 추가로 손상된 콘텐츠 또는 디코딩 드리프트로 이어질 것이다. 이 문제를 다루고 개방형 GOP 스위칭을 가능하게 하기 위해, 후속하여 설명되는 실시예들은 예를 들어, 복사 슬라이스들을 사용하는 레이어 간 예측에 의해 도 13의 규칙적으로 해칭된 것이 도출될 수 있는 저장소로서 기본 레이어를 사용한다. 직접 복사 슬라이스는 위에서 개요가 서술된 바와 같이, 레이어 간 예측을 통한 하위 레이어에서의 화상의 화상 콘텐츠의 직접 복사이다. 이러한 직접 복사 슬라이스는 하위 레이어 화상의 의도된 구역의 샘플들을 지시하는 주어진 정적 움직임 벡터를 갖는 큰 예측 블록들로 구성될 수 있다.

도 14는 비디오 스트리밍 장치(100)를 보여준다. 이는 입력(102) 및 구성기(104)를 포함한다. 구현에 관한 한, 도 1과 관련하여 위에서 제공된 주의들은 도 14에 대해서도 유효하다. 즉, 도 14의 비디오 스트리밍 장치는 하드웨어, 프로그램 가능한 하드웨어 또는 소프트웨어로 구현될 수 있다. 예를 들어, 입력(102)은 그 기능을 구현하는 컴퓨터 프로그램의 일부를 나타내는 구성기(104)와 소프트웨어 인터페이스를 형성할 수 있다. 대안으로, 입력(102)은 소프트웨어, 프로그램 가능한 하드웨어로 또는 주문형 집적 회로로서 구현되는 모듈(104)을 갖는 하나 또는 그보다 많은 비디오 입력들일 수 있다.

입력(102)은 비디오 콘텐츠(114)의 코딩된 버전(112)을 수신하며, 코딩된 버전(112)은 비디오들(116₁-116_N)의 집합/세트로 인코딩된 제1 부분(114₁) 및 향상된 품질, 예를 들어 비디오들의 집합이 제1 부분(114₁)으로 인코딩되는 기본 품질과 비교하여, 예를 들어 픽셀들의 수로 측정된 증가된 해상도로 비디오들(116₁-116_N)로 인코딩된 제2 부분(114₂)을 포함한다. 비디오들(116₁-116_N)은 제1 부분(114₁)으로부터의 레이어 간 예측을 사용하여 또는 사용하지 않고 제2 부분(114₂)으로 인코딩될 수 있다.

도 1의 설명과 유사하게, 제2 부분(114₂)은 비디오(116₁-116_N)마다 하나의 비디오 데이터 스트림(118₁-118_N)으로 구성될 수 있고, 제1 부분(1141)은 비디오들의 비디오 화상들을 도 14에 예시적으로 도시된 것과 같이 공간적으로 함께 스티칭되는 방식으로 인코딩한 비디오 데이터 스트림(119)을 포함할 수 있다. 특히, 도 14는 비디오들(116₁-116_N) 각각이 파노라마 뷰의 각각의 부분과 연관되게 하는 가능한 상황, 즉 비디오가 공통 장면에 속하게 하는 상황을 예시할 것이며, 각각의 비디오는 파노라마 뷰의 특정 부분을 캡처한다. 즉, 비디오들(116₁-116_N)은 이러한 비디오들이 공통 파노라마 장면의 수평으로 분포된 부분들의 시퀀스를 캡처한다는 사실과 같이 이들 간의 본질적으로 정의된 공간적 상호 관계를 가질 수 있다.

구성기(104)는 향상된 품질로 비디오들(116₁-116_N)의 적절한 서브세트의 구성을 나타내는 비디오 스트림(120)을 구성하도록 구성된다. 도 14에 예시된 바와 같이, 적절한 서브세트(121)는 예컨대, 카디널리티(cardinality)가 일정할 수 있는데, 즉 파노라마 뷰의 연속적인 부분을 형성하도록 서로 이웃하는 파노라마 뷰의 부분들에 관한 n개의 비디오들과 같은 비디오들(116₁-116_N)을 일정 개수(n < N) 가질 수 있다. 예를 들어, 비디오들(116₁-116_N)의 인덱스는 각각의 비디오에 의해 캡처된 파노라마 뷰의 부분들의 순서와 일치하고, 그래서 서브세트(121)는 비디오들의 시퀀스(116₁, 116₂ … 116_N)의 연속적인 서브시퀀스를 커버한다. 그러나 비디오들(116₁-116_N)은 예를 들어, 화상 회의 통화의 서로 다른 참가자들에 관한 비디오들의 경우와 같이, 그 사이에 정의된 임의의 공간 관계를 가질 수 없다는 점이 상기되어야 한다.

구성기(104)는 제1 부분(114₁)으로부터 복사함으로써 도출된 기본 레이어(L0), 및 비디오들의 적절한 서브세트(121)에 관련된 제2 부분(114₂)의 일부로부터의 복사로부터 도출된 하나 또는 그보다 많은 확장 레이어들(도 14에서는 예시를 위해 단 하나의 레이어(L1)만이 도시됨)을 포함하는 다중 레이어 비디오 스트림으로서 비디오 스트림(120)을 구성하도록 구성된다. 예를 들어, 제2 부분(114₂)의 일부는 적절한 서브세트(121)의 비디오들이 인코딩되는 그러한 비디오 데이터 스트림들(118₁-118_N)로 구성된다. 즉, 구성기(104)는 비디오들의 서브세트(121)를 데이터 스트림(120)의 하나 또는 그보다 많은 확장 레이어들로 다중화하도록 압축 또는 코딩 도메인에서 동작한다. 원칙적으로, 서브세트(121) 내의 비디오들의 수는 시간에 따라 변할 수 있다. 어떤 경우든, 서브세트(121) 내의 비디오들의 수는 1과 같을 수도 있고 또는 1보다 더 클 수도 있다. 적절한 서브세트(121)의 구성을 나타내도록 비디오 스트림(120)을 구성하는 경우, 구성기(104)는 도 1의 비디오 스트리밍 장치와 비슷하게 작동할 수 있는데: 디코딩 또는 압축 도메인에서 서브세트(121)의 비디오들을, 추가 최상위 레이어를 소비하거나 이러한 확장 레이어들의 최상위 레이어를 MLCP 도메인으로서, 즉 적절한 서브세트(121)의 구성이 합성되는 미리 결정된 레이어로서 재사용하여 데이터 스트림(120)의 확장 레이어들의 각각의 하위 레이어들로 다중화할 수 있다. 대안으로, 구성기(104)는 도 14에 예시적으로 도시된 바와 같이, 서브세트(121)의 비디오들을 확장 레이어(L1)의 화상들로, 즉 하나의 확장 레이어에 공간 다중화한다. 예를 들어, 구성기(104)는 적절한 서브세트(121) 내의 비디오들의 인코딩된 표현들(118)의 대부분이 적절한 서브세트(121)의 구성이 되게 데이터 스트림(120)의 확장 레이어로 간단하게 복사될 수 있는 방식으로, 확장 레이어(L1)의 화상들을 가로지르는 코딩 순서를 조정하도록 이 확장 레이어(L1)의 화상들을 타일들로 공간적으로 세분한다.

도 14의 구성기(104)는 적절한 서브세트(121)의 변경을 지원하는데, 즉 도 14에서 적절한 서브세트(121)을 예시하는 중괄호 이외의 화살표들로 예시된 바와 같이 적절한 서브세트(121)의 시간 변화를 지원한다. 특히, 구성기(104)는 미리 결정된 시간 인스턴트 전에 적절한 서브세트(124)에 의해 포함되지 않은 새로 포함된 비디오를 적절한 서브세트가 새로 포함하도록 미리 결정된 시간 인스턴트에 적절한 서브세트(121)의 변경을 지원한다. 예를 들어, 도 14를 참조하면, 여기서 시간 인스턴트(T)는 비디오(11)가 적절한 서브세트(121)에 의해 새로 포함되기 시작하는 시간 인스턴트를 나타내는 반면, 이 비디오는 시간 인스턴트(T) 이전에 적절한 서브세트(121)에 의해 포함되지 않는다.

이미 앞서 설명한 바와 같이, 이러한 새로 포함된 비디오들 또는 새로 관여하는 비디오들의 문제점은 시간 예측 목적들을 위해 필요한 해당 비디오의 참조 화상들이 누락되는 것, 즉 시간적 코딩 순서에서, 새로 포함된 비디오의 미전송 화상 앞에 있는 것들이다. 비디오들(116₁-116_N)을 인코딩하기 위해 개방형 GOP 구조들이 사용되는 경우, 그러한 참조 화상들의 누락은 심지어 불가피할 수도 있다.

이에 따라, 이 문제를 해결하기 위해, 구성기(104)는 이하의 두 방식들 중 하나로 적절한 서브세트(121)의 방금 언급한 변경을 지원한다.

구성기(104)가 동작하는 제1 대안을 예시하기 위해, 도 14a에 도시된 예에 따라 구성된 비디오 스트림(20)을 도시하는 도 15a가 참조된다. 즉, 데이터 스트림(20)은 기본 레이어(L0)에 추가하여 하나의 확장 레이어(L1)를 포함하도록 구성기(104)에 의해 생성되며, 여기서 비디오들의 적절한 서브세트가 공간적으로 스티칭된 방식으로 확장 레이어 내에서 전달되는데, 즉 비디오들의 적절한 서브세트는 확장 레이어(L1)의 화상들의 공간 세분들로 다중화된다. 도 15a는 제시 시간 순서로 확장 및 기본 레이어의 6개의 연속적인 화상들을 수반하는 데이터 스트림(120)의 구성된 비디오의 시간 간격을 도시한다. 도 15a에서, 비디오들(116)은 개방형 GOP 구조를 사용하여 코딩된 것으로 가정되지만, 앞서 지적한 바와 같이, 도 15a의 실시예의 장점들은 개방형 GOP 구조들에 제한되지 않는다. 모든 인바운드 비디오들(116)은 동일한 개방형 GOP 구조를 사용하여 코딩된 것으로 가정된다. 제시 시간 순서에서, 도시된 시간 간격은 화상들(RASL1, CRA1, B1, P1, RASL2, CRA2)을 포함한다. CRA# 화상들은 인트라 코딩된다. RASL# 화상들은 시간 예측을 통해 CRA#뿐만 아니라 P# 화상도 참조하며, 여기서 각각의 RASL# 화상은 코딩 순서와 관련하여 참조되는 CRA 화상과 그 위치를 스위칭한다. B# 화상들은 또한 시간 예측을 통해 CRA 화상뿐만 아니라 P 화상도 참조하지만, 데이터 스트림(20)의 코딩 순서와 관련하여 참조되는 P 화상과 이들의 위치를 스위칭한다. 도 15a에서는, 예시를 위해, 비디오들의 적절한 서브세트의 변경은 시간 인스턴트(T)에서, 즉 화상들(P1, RASL2) 사이의 제시 시간 순서에 따라 변하는 것으로 가정된다. 이 인스턴트(T) 전에 비디오들(7-10)은 출력 데이터 스트림(20)의 확장 레이어(L1)의 구성에 관여하지만, 적절한 서브세트는 이 일시적인 시간 인스턴트(T) 후에 비디오들(8-11)을 포함한다. 구성 변경 시간 인스턴트(T)까지, 구성기는 압축 또는 코딩 도메인에서, 즉 코딩된 버전(12)으로부터 복사함으로써 비디오들(7-10)을 확장 레이어(L1)의 화상들의 각각의 공간 타일들로 단순히 다중화한다. 각각의 비디오(7-10)는 제시 순서로 스위칭 시간 인스턴트(T) 이전에 이러한 화상들 내에서 각자의 위치를 유지한다. 이에 따라, 코딩된 버전(112)으로부터 복사되는 복사된 움직임 벡터 파라미터들이 정확하게 적용된다. 비디오들은 확장 레이어의 화상들에서 공간적으로 스티칭된다. 또한, 적절한 서브세트 내의 여러 개의 레이어들을 데이터 스트림(20)으로 다중화하는 다른 방법들도 역시 실현 가능할 것이며, 적절한 서브세트 내의 비디오들의 수는 또한 1일 수 있다. 그러나 파노라마 장면에서 RoI을 변경하기 위해 사용될 수 있는 본 예에서, 비디오들 중 3개, 즉 비디오들(8-10)은 그들의 관여 비디오들 내에, 즉 적절한 서브세트(121) 내에 유지되는 반면, 비디오(7)는 더 이상 서브세트의 멤버가 아니며, 비디오(11)가 서브세트에 새로 포함된다. 화상(CRA2)에 관해서는, 화상(CRA2) 내의 비디오들(8-10)의 화상 콘텐츠를 인코딩하기 위해 움직임 예측이 적용되지 않기 때문에, 시간 인스턴트(T) 이후에 확장 레이어(L1)의 화상들에 비디오들(8-10)이 도시되는 위치의 공간적 시프트는 문제가 되지 않는다. 그러나 합성기(24)는 기본 레이어로부터의 레이어 간 예측을 또한 사용하여, 비디오(8-10)의 경우에 기본 레이어의 화상들에 대해 화상(CRA2)에 비디오들(8-10)이 위치하는 영역들 간의 공간 정렬을 수행하기 위해 오프셋 파라미터들을 조정할 수 있다. 확장(L1)의 CRA2에서 비디오(11)의 새로 포함된 화상은 또한 이것의 인트라 코딩, 즉 비-시간 코딩으로 인해 압축 또는 코딩 도메인에 남아있는 동안 직접 복사에 의해 수행될 수도 있다. 화상(RASL2)에 따라 상황이 변한다. 화상(RASL2)은 또한, 스위칭 시간 인스턴트(T) 이후의 제시 시간 인스턴트에 속하고, 시간 예측 참조 화상으로서 화상(P1)뿐만 아니라 화상(CRA2)도 갖는다. 화상들(CRA2, RASL2) 사이에는, 이러한 화상들 간의 구성 변화가 있기 때문에 어떠한 문제도 없다. 그러나 이는 P1 및 RASL2 쌍에 따라 다르다. 여기서 비디오들(8, 9, 10)은 두 화상들(P1, RASL2) 모두에, 그러나 공간적으로 변위된 위치들에 있고 비디오(11)는 RASL2에 있지만, 이는 화상(P1) 내에 있지는 않다. 위치 변위를 설명하기 위해, 구성기(104)는 데이터 스트림(20)에 비-출력 화상인 화상(GRP)을 삽입하는데, 즉 이는 데이터 스트림(20)에서 제시되지 않는 것으로 표시된다. 오히려, 이것은 단순히 참조 화상으로서의 역할을 할 것이다. 특히, 화상(RASL2)에 대한 참조 화상으로서의 화상(P1)의 역할과 관련하여 화상(GRP)이 화상(P1)을 치환할 것이다. 즉, 도 15a에서 연속 선으로 그려진 각각의 곡선 화살표의 십자형으로 도시된 바와 같이, 구성기(104)는 RASL2가 화상(P1) 대신에 참조 화상으로서 화상(GRP)을 사용하도록 데이터 스트림(20)을 조정한다. 화상(GRP)은 시간 복사에 의해, 즉 시간 인스턴트(T) 전에 비디오들(8-10)이 위치하는 치환된 참조 화상(P1)의 대응하는 영역으로부터의 시간 예측에 의해, 확장 레이어(L1)의 화상들 내에서 스위칭 시간 인스턴트(T) 뒤에 비디오들(8-10)이 위치하는 영역들에서 구성기(104)에 의해 합성되거나 채워진다. 스위칭 시간 인스턴트(T) 이전부터 이후까지 비디오들(8-10)의 영역들의 병진 시프트만이 코딩될 것이므로, 시간 인스턴트(T) 이후의 비디오들(8-10)의 영역들에 관한 한, 화상(GRP)의 채움 또는 합성은 상대적으로 낮은 비트 소비로 쉽게 수행 가능하다.

RASL2에서 비디오(11)의 위치에 영역이 대응하는, 도 15a의 크로스 해칭된 방식으로 표시된 GRP의 나머지 영역을 채우는 작업은 다음과 같은 방식으로 구성기(104)에 의해 해결된다. 특히, 구성기(104)는 기본 레이어(L0)의 화상, 즉 파노라마 화상의 대응 부분으로부터의 레이어 간 예측을 사용하여 코딩함으로써 이 영역을 채운다. 이를 위해, 합성기(24)는 예를 들어, 도 15a에서 GRP'로 불리는 대응하는 GRP 기본 레이어 화상을 기본 레이어(L0)에 삽입하고, P1에 대응하는 기본 레이어 화상의 화상 콘텐츠로부터의 일정하게 제로인 움직임 벡터 필드를 사용하는 시간 예측을 이용하여 이 화상(GRP')을 채우고, 비디오(11)에 대응하는 GRP' 부분으로부터의 레이어 간 예측을 사용하여 레이어(L1)의 GRP의 크로스 해칭된 영역을 복사/채운다. 그 효과는, 크로스 해칭된 영역 내의 화상(GRP)의 콘텐츠에 기초하여, 시간 예측을 통해 코딩되는 화상(RASL2) 내의 비디오(11)에 대응하는 영역이 이제 비디오(11)의 이전에 지정된 참조 화상(그러나 이는 시간 인스턴트(T)에서의 구성 변경으로 인해 데이터 스트림(20)에는 존재하지 않음)의 시간 인스턴트에 대응하는 기본 레이어 화상 내의 비디오(11)에 대응하는 부분을 통해 이 콘텐츠의 양호한 근사치를 갖는다는 점이다.

도 15a와 관련하여, 구성기(104)는 대안으로 도 15a에 도시된 GRP를 2개의 GRP들로 분할하도록 구성될 수 있는데, 그 GRP들 중 하나는 크로스 해칭된 영역이 코딩되지 않은 상태로 비디오들(8-10)의 영역 시프트를 수행하고, 이는 비디오들(8-10)을 전달하는 화상(RASL2)의 코딩된 영역들에 대한 참조 화상으로의 역할을 하고, 다른 GRP 화상은 비디오들(8-10)의 새로운 위치들에 관한 영역들에 관한 한 "무시(don't care)" 방식으로 채워지지만, 크로스 해칭된 영역, 즉 비디오(11)를 전달하는 화상(RASL2)의 코딩된 영역에 대한 참조 화상의 역할을 맡도록 스위칭 시간 인스턴트(T) 이후에 확장 레이어(L1)의 화상들에 비디오(11)가 도시되는 영역에 관한 한, 위에서 개요가 서술된 바와 같이 기본 레이어에 기초하여 레이어 간 예측을 사용하여 채워진다.

즉, 도 15a의 예에 따라 동작하는 도 14의 구성기(104)의 경우, 구성기(104)는 출력 다중 레이어 데이터 스트림(120)의 확장 레이어(L1)의 화상들을 고정된 수(s < N)의 구역들 또는 타일들로 세분하는데, 여기서는 예시적으로 s = 4이고, 비디오들(116₁-116_N)의 s개의 비디오들의 적절한 시변 서브세트(121)가 이러한 구역들 또는 타일들로 다중화된다. 방금 언급한 타일들은 압축 또는 코딩 도메인에서, 즉 트랜스코딩 없이 구성기(104)에 의해 채워진다. 이는 도 1 - 도 13과 관련하여 앞서 설명한 바와 같이, 즉 도 15a에서 연속 선들을 사용하여 도시되는, 데이터 스트림(120)의 확장 레이어(L1)의 출력 화상들의 앞서 언급한 s개의 타일들을 설명하도록, 서브세트(121)의 비디오들을 거의 그대로, 즉 예측 파라미터 및 잔차 데이터에 관해 기술하는 슬라이스들을 데이터 스트림(120)의 확장 레이어로 채택함으로써 이루어질 수 있다. 마찬가지로, 구성기(104)는 예를 들어, 예측 파라미터들 및 잔차 데이터가 데이터 스트림(120)의 기본 레이어(L0)에 간단히 복사되도록, 데이터 스트림(120)의 기본 레이어(L0)를, 즉 압축 또는 코딩 도메인에 유지함으로써 형성한다. 스위칭 시간 인스턴트(T)가 발생할 때마다, 구성기(104)는 다중 레이어 화상, 즉 연관된 레이어 화상(GRP')을 갖는 확장 레이어 화상(GRP)을 데이터 스트림(20)에 삽입하는데, 이 중에서 적어도 확장 레이어 화상(GRP)은 비-출력 타입이다. 이 GRP에서, 새로 포함된 비디오의 위치에 대응하는 영역 또는 타일, 즉 도 15a의 예에서의 비디오(11)는 합성하여 채워진다. 이를 위해, 구성기(104)는 스위칭 시간 인스턴트(T) 이전에 놓여, 스위칭 시간 인스턴트에 뒤이어 새로 포함된 비디오의 화상에 의해 참조되더라도 이용 가능하지 않은 새로 포함된 비디오의 참조 화상의 화상 콘텐츠를 이 타일에 복사한다. 구성기(104)는 데이터 스트림(120)으로 실제로 구성되지 않은 원래의 참조 화상을 위해 새로 포함된 비디오의 방금 언급한 참조 화상에 의해 참조되도록 이 GRP/GRP' 쌍을 데이터 스트림(120)에 삽입한다. 시간 인스턴트(T)에서 추가 비디오들을 새로 도입/포함시키거나 한편으로는 시간 인스턴트(T)에 걸쳐 연속적으로 포함되는 비디오들과 다른 한편으로는 확장 레이어(L1) 화상들의 타일들 간의 연관을 공간적으로 재배열 또는 변경하기 위해 다른 GRP 또는 GRP' 쌍 또는 동일한 쌍의 나머지 타일들이 구성기(104)에 의해 사용될 수 있다. 특히, 이를 위해, 구성기(104)는 데이터 스트림(120)의 확장 레이어(L1)의 화상들에서 병진 방식으로 타일들을 시프트하기 위해 시간 예측을 사용하며, 여기서 이러한 연속적으로 포함된 비디오들은 연속적으로 포함된 비디오들에 대한 참조 화상으로의 이들의 역할에서 후자의 L1 화상들을 대체하도록 비디오들과 타일들 사이의 다른 연관으로 배열되었다. GRP'를 사용하는 우회를 통해 방금 개요가 서술된 바와 같이 기본 레이어로부터의 복사가 수행되는데: GRP'는 기본 품질로 비디오들의 집합의 복사를 제공하고, 새로 포함된 비디오의 대응하는 부분은 새로 포함된 비디오와 연관된 타일에서 GRP에서의 레이어 간 예측을 통해 그로부터 복사된다.

즉, 방금 개요가 서술된 대안에 따르면, 구성기(104)는 향상된 품질로 비디오들(116)의 적절한 서브세트(121)의 구성을 나타내는 비디오 스트림(120)이 다중 레이어 비디오 스트림이 되게 비디오 스트림(120)을 구성하며, 여기서 구성기는 비디오 콘텐츠(114)의 코딩된 버전(112)의 제1 부분(114₁)으로부터 복사함으로써 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 기본 레이어들(L0)을, 그리고 비디오들의 적절한 서브세트에 관련된 비디오 콘텐츠(114)의 코딩된 버전(112)의 제2 부분(114₂)의 일부를 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 확장 레이어들(L1)에 복사함으로써 하나 또는 그보다 많은 확장 레이어들(L1)을 형성한다. 구성기(104)는 미리 결정된 시간 인스턴트 전에 적절한 서브세트(121)에 의해 포함되지 않은 비디오들(116) 또는 새로 포함된 비디오를 적절한 서브세트(121)가 새로 포함하도록 미리 결정된 시간 인스턴트에 적절한 서브세트(121)의 변경을 지원한다. 구성기(104)는 플리커(flicker)가 없는 방식으로, 즉 화상 손실 없이 또는 새로 포함된 비디오의 임의의 누락된 화상 콘텐츠로 인해 구성에서 발생하는 빈 부분들 없이 적절한 서브세트의 변경을 수행할 수 있다. 이는 P1과 같은 새로 포함된 비디오의 참조 화상들을 비-출력 화상, 즉 2개의 기준들을 충족시키는 참조 화상들로 치환함으로써 도 14에 따른 대안에 따라 구성기(104)에 의해 달성된다: 1) 각각의 참조 화상은 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 코딩된 버전의 제2 부분의 일부로 구성되지 않는다. 이는 P1이 코딩 순서에서 스위칭 시간 인스턴트(T1) 전에 놓여 있어 이는 사본 형성기에 의해 데이터 스트림으로 전송되지 않기 때문에 P1에 대해 사실이다. 2) 둘째로, 각각의 참조 화상은 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 코딩된 버전의 제2 부분의 일부로 구성된 새로 포함된 비디오의 임의의 화상에 의해 움직임 예측을 통해 참조되는 화상이다. 이는 P1이 예컨대, 결국 코딩 순서에서 시간 인스턴트 하류에 놓이고 이에 따라 사본 형성기에 의해 데이터 스트림에 삽입되는 RASL2에 의해 참조되므로 P1에 대해 사실이다. 비-출력 화상들을 참조하고, 기본 레이어를 기초로 레이어 간 예측을 통해 참조 화상들의 근사치로 비-출력 화상들을 채우도록, 비-출력 화상들을 다중 레이어 비디오 스트림에 삽입하고, 참조 화상들, 즉 여기서는 RASL2의 시간 예측을 리디렉션함으로써 치환이 수행된다.

도 14의 구성기(104)의 기능에 대한 다른 실시예를 설명하기 전에, 도 14의 장치(100)에 대해 지금까지 제시된 설명에 따르면, 구성기(104)가 다중 레이어 출력 데이터 스트림(120)의 기본 레이어 내에서 N개의 모든 비디오들의 완전한 세트의 집합을 기본 품질로 끊임없이 전달한다고 제안되었지만, 이와는 달리, 이는 반드시 그럴 필요는 없다는 점이 주목되어야 한다. 예를 들어, N개의 비디오들(116)의 콘텐츠는 타일들의 단위들로 기본 품질의 기본 레이어의 화상들로 인코딩될 수 있고, 구성기(104)는 기본 레이어를 통해 전달되는 이러한 집합이 방금 개요가 서술된 파노라마 뷰 예에 따라 적절한 서브세트(121)에 현재 포함된 비디오들의 바로 이웃하는 비디오들과 같이, 적절한 서브세트(121)에 의해 새로 포함되기 쉬운 그러한 비디오들의 기본 품질 표현들을 나타내는 타일들을 어떤 경우에든 포함하도록 구성될 수 있으며, 여기서 집합은 또한 어떤 경우든, 비디오들(116)이 레이어 간 예측을 사용하여 대응하는 부분들(118)로 결국 인코딩되는 경우에 적절한 서브세트(121) 내에 현재 그러한 비디오들의 기본 품질 화상들을 포함한다.

완성도를 위해, 도 16은 구성기(104)가 다른 대안을 사용하여 비디오들의 적절한 서브세트(121)를 데이터 스트림(120)으로, 즉 적절한 서브세트(121) 내의 비디오마다 하나의 확장 레이어(L1-L4)로 다중화하는 경우에 데이터 스트림(120)이 어떻게 보일지를 예시한다. 스위칭 시간 인스턴트(T)에서, 구성기(104)는 방금 언급한 GRP/GRP' 쌍을 삽입한다. 특히, 데이터 스트림(120)의 확장 레이어(L1-L4)와 적절한 서브세트(121)의 비디오들 간의 연관, 즉 대응하는 레이어 ID 간의 연관은 예컨대, 그 연관이 이러한 비디오에 대해 동일하게 유지되도록, 즉 시간 인스턴트(T) 전후의 세트(121)의 멤버인 비디오들에 관한 한, T에 걸쳐 유지되도록 구성기(104)에 의해 선택될 수 있다. 새로 포함된 비디오, 즉 도 16의 예에서 11은 나머지 확장 레이어(L1)와 연관되도록 다른 비디오를 킥오프한다. 즉, 시간 인스턴트(T) 이전에는 비디오(7)가 레이어(L1)에 할당되었지만, 이는 시간 인스턴트(T) 이후에는 비디오(11)이다. 비디오(11)의 각각의 누락된 참조 화상에 대해, GRP 화상이 구성기(104)에 의해 레이어(L1)에 삽입된다. 이 GRP 화상은 도 16에서 크로스 해칭되어 도시되고, 레이어 간 예측을 통해, 즉 GRP' 화상을 기본 레이어(L0)에 삽입함으로써 구성기(104)에 의해 채워지는데, GRP' 화상은 결국, 레이어(L1)의 GRP 화상이 시간 예측에 의해 대체되는 참조 화상의 콘텐츠의 근사치를 복사한다. GRP' 화상으로의 복사는 제로 벡터들의 일정한 움직임 벡터 필드를 사용하여 이루어지고, 레이어 간 예측은 치환된 참조 화상의 더 낮은 해상도의 콘텐츠를 예를 들어, 업샘플링을 사용하여 레이어 간 예측을 통해 GRP 화상으로 복사하도록 레이어들(L0, L1) 사이의 각각의 오프셋 파라미터를 통해 제어된다. 구성기(104)는 또한 GRP 화상들을 레이어들(L2-L4)에 삽입할 수 있고, 레이어들(L1-L4)에서의 이러한 GRP 화상들 모두가 시간 인스턴트(T) 이후에 레이어들(L1-L4)과 연관된 비디오들, 즉 비디오들(8-11)의 각각의 실제 참조 화상을 대신하게 할 수 있지만, 레이어들(L2, L4)에서의 GRP 화상들의 삽입은 중단되어, 원래의 코딩된 버전(12)에 따라 그대로 이러한 레이어들에 참조 화상들을 남길 수 있다. 실제 구성은 다음에, 적절한 서브세트(121)에 의해 구성된 비디오들을 전달하는 레이어들(L1-L4)로부터의 레이어 간 예측을 사용하여 향상된 품질로 비디오들의 적절한 서브세트(121)의 실제 구성을 인코딩한 레이어(L5) 내의 화상들과 함께 데이터 스트림(120)에 레이어(L5)를 부가함으로써 구성기(104)에 의해 달성된다. 이를 위해, 구성기(104)는 한편으로는 레이어(L5)와 다른 한편으로는 레이어들(L1-L4) 각각 사이의 공간 오프셋 및 상대적인 스케일링을 조정하는 각각의 오프셋 파라미터들을 데이터 스트림(120)에서 조정할 수 있다.

대안으로, 추가 레이어(L5)에서 구성을 위해 도 1의 대안(28)을 사용하는 대신에, 구성기(104)는 도 1의 대안(30)을 사용할 수 있으며, 그에 따라 적절한 서브세트(121) 내의 비디오들을 전달하는 그러한 레이어들 중 최상위 레이어에서 실제 구성을 수행할 수 있다.

위에서 특별히 언급되진 않았지만, 도 14 - 도 16에서의 스위칭 시간 인스턴트(T)는 새로 포함된 비디오의 화상들의 제시 시간 순서 및 코딩 순서의 발산에도 불구하고, 스위칭 인스턴트(T)는 스위칭 인스턴트(T)에 선행하며 이에 따라 압축 또는 코딩 도메인에서 데이터 스트림(120)으로 복사된 새로 포함된 비디오의 일부 또는 스위칭 인스턴트(T)에 이어지며 이에 따라 데이터 스트림(120)으로 복사된 새로 포함된 비디오의 일부에 대한 새로 포함된 비디오의 각각의 화상의 연관이 코딩 순서뿐만 아니라 제시 시간 순서에 관해서도 동일한 스위칭 인스턴트(T)였다. 예컨대, 장치(100)는 예를 들어, 운영자 또는 일부 외부 엔티티 등으로부터 발생하는 서브세트(121)에서의 변경에 대한 인바운드 요청이 그러한 상황이 발생하는 다음 시점에 발생하도록 스케줄링되는 방식으로, 즉 그 시점까지 연기되는 방식으로 이 요청을 처리하도록 구성될 수 있다. 장치(100)는 심지어, 제시 시간 순서와 코딩 순서 사이의, 존재한다면 임의의 편차가 순서 타입에 따라 각각의 시점을 선행하고 뒤따르는 어떠한 화상도 야기하지 않을 뿐만 아니라, 비-시간 코딩된 화상이 코딩 순서에서 화상(CRA2)에 대한 도 15a의 시간 인스턴트(T)에 대한 경우와 같은 시간 인스턴트에 바로 뒤따르는 다음 시점에 서브세트(121)에서의 변경에 대한 인바운드 요청이 발생하도록 스케줄링되는 방식으로, 즉 그 시점까지 연기되는 방식으로 이 요청을 처리하도록 구성될 수도 있다. 그러나 다른 스위칭 인스턴트가 대안으로 선택될 수도 있다. 후자의 경우, 스위칭 인스턴트(T)에 뒤따르며 이에 따라 데이터 스트림(120)으로 복사된 새로 포함된 비디오의 부분은 코딩 순서 또는 제시 순서를 사용하여 선택될 수 있다. 코딩 순서가 선택된다면, 코딩 순서에서 스위칭 인스턴트(T)에 뒤따르며 이에 따라 데이터 스트림(120)으로 복사된 새로 포함된 비디오의 부분은 새로 포함된 비디오에 속하는 코딩된 버전의 연속적인 부분에 걸쳐 연장된다. 즉, 상기 실시예들에 따르면, 사본 형성기는 서브세트 변경당 한번만 새로 포함된 비디오로 스위칭한다.

도 15a 및 도 16의 경우에, GRP를 사용하여 치환된 화상은 P1, 즉 제시 순서에서 스위칭 인스턴트(T) 바로 앞의 화상, 즉, 제시 순서에서 스위칭 인스턴트(T) 이전의 마지막 화상이었다. 치환은 복사된 부분에 포함된 추가 화상들, 즉 예를 들어 도 15a의 RASL2에 대한 참조 화상 역할과 관련되었다. 그러나 대안으로, 치환은 출력 및 참조 화상 역할에 관하여 이루어질 수 있다: 대체된 화상(P1)은 구성기(104)에 의해 데이터 스트림(120)에서 비-출력 화상으로 표시될 수 있다. P1의 이전 제시 시간 인스턴트에서 재생 중인 화상(P1)의 콘텐츠를 치환하도록 화상(GRP/GRP')이 대신 출력 화상으로 표시되어 삽입된다. GRP는 또한 P1 대신 RASL2에 의해 참조될 것이다. T에 후속하는 화상들에 대한 참조 화상으로서의 역할에 관해 그리고 출력에 관해 P1를 치환하는 사실은 도 15b에 예시되어 있는데, 이는 - P1의 이전 제시 시간에 GRP/GRP'를 연관시키는 도 15a와는 - 달리 연속 선들로 GRP/GRP'를 그리고 파선들로 P1을 보여준다. 동일한 방식으로, 도 16이 변경될 수 있다. 이러한 조치에 의해, 효과적인 스위칭 시간 인스턴트는 도 15b의 곡선 화살표로 예시된 바와 같이 효과적으로 사전 시프트될 것이다. 삽입 및 코딩 측면에서의 오버헤드는 실질적으로 동일하게 유지된다. 즉, 대체 화상(GRP)은 비-출력 화상이 아닐 것이다. 오히려, 이것은 출력 화상일 것이다. 대체된/참조된 화상(P1), 즉 RASL2에 의해 참조된 화상은 비-출력 화상, 즉 재생시 스킵될 화상으로 대신 표시될 것이다. 후자는 제시 시간 순서 면에서 P1과 T 사이의 화상들, 즉 도 15a 및 도 16에서 B1에 대한 참조 화상으로서의 역할을 할 것이다. 하나보다 많은 화상이 도 15b에 도시된 식으로 시간 인스턴트(T)당 P1/GRP와 같이 처리됨으로써, 하나보다 많은 화상 시간 인스턴트만큼 T를 사정 시프트할 수 있다는 점이 언급되어야 한다. 비디오들(116)의 GOP 구조에 따라, 심지어 스위칭 인스턴스(T)마다 하나 또는 그보다 많은 비-출력 대체 화상 및 하나 또는 그보다 많은 출력 대체 화상들이 있을 수도 있다.

지금까지, 구성기(104)의 기능은 출력 데이터 스트림(120)에 삽입된 비-출력 화상들의 영역들을 채워, 스위칭 시간 인스턴트(T) 이전에 기본 레이어를 기초로 참조 화상들을 치환 및/또는 재배열하는 것으로 설명되었다. 그러나 대안은 구성기(104)가 미리 결정된 시간 인스턴트에 선행하는 새로 포함된 비디오의 참조 화상을 시간 예측을 통해 참조하는 새로 포함된 비디오의 각각의 부분 또는 화상을 대체하는, 즉 다시 기본 레이어로부터의 레이어 간 예측을 이용하여 이러한 부분을 코딩함으로써 대체하는 것에 있다. 예를 들어, 도 15a에서는, 레이어(L1)의 GRP 화상의 크로스 해칭된 영역들을 근사화하는 대신에, 구성기(104)는 레이어(L1)의 화상(RASL2), 즉 코딩된 버전(12)에서 각각의 비디오(11)로부터 복사함으로써 채워진다면, GRP가 대체할 참조 화상을 참조했을 새로 포함된 비디오의 화상의 비디오(11)에 대응하는 타일들의 콘텐츠를 직접 근사화할 수 있다. 이에 따라, 유사한 방식으로, 구성기(104)는 심지어 도 16의 임의의 GRP/GRP' 쌍의 삽입을 중단하여, 레이어 간 예측을 사용하여 기본 레이어에 직접 기초하여 레이어(L1), 즉 이것의 RASL2 화상에서의 비디오(11)의 화상 콘텐츠를, 채울 수 있다/근사화할 수 있다.

즉, 제2 대안에 따르면, 구성기(104)는 향상된 품질로 비디오들(116)의 적절한 서브세트(121)의 구성을 나타내는 비디오 스트림(120)이 다중 레이어 비디오 스트림이 되도록 - 또는 다중 레이어 비디오 스트림의 형태로 또는 다중 레이어 비디오 스트림으로서 - 비디오 스트림(120)을 구성하며, 여기서 구성기는 비디오 콘텐츠(114)의 코딩된 버전(112)의 제1 부분(114₁)으로부터 복사함으로써 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 기본 레이어들(L0)을, 그리고 비디오들의 적절한 서브세트에 관련된 비디오 콘텐츠(114)의 코딩된 버전(112)의 제2 부분(114₂)의 일부를 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 확장 레이어들(L1)에 복사함으로써 하나 또는 그보다 많은 확장 레이어들(L1)을 형성한다. 구성기(104)는 미리 결정된 시간 인스턴트 전에 적절한 서브세트(121)에 의해 포함되지 않은 비디오들(116) 또는 새로 포함된 비디오를 적절한 서브세트(121)가 새로 포함하도록 미리 결정된 시간 인스턴트에 적절한 서브세트(121)의 변경을 지원한다. 구성기(104)는 플리커(flicker)가 없는 방식으로, 즉 화상 손실 없이 또는 새로 포함된 비디오의 임의의 누락된 화상 콘텐츠로 인해 구성에서 발생하는 빈 부분들 없이 적절한 서브세트의 변경을 수행할 수 있다. 이는 다음이 유효한 새로 포함된 비디오의 부분들을 대체함으로써 구성기(104)에 의해 제2 대안에 따라 달성된다: 1) 그 부분들은 하나 또는 그보다 많은 확장 레이어들(L1)에 복사되도록, 코딩된 버전의 제2 부분의 일부로 구성된다. 이는 RASL2에 대해 사실이다. 그리고 2) 그 부분들은 하나 또는 그보다 많은 확장 레이어들(L1)로 복사된 코딩된 버전의 제2 부분의 일부로 구성되지 않은 새로 포함된 비디오의 참조 화상들을 시간 예측을 통해 참조한다. 이는 또한 P1을 참조하는 RASL2에 대해서도 사실인데, P1은 코딩 순서에서 스위칭 인스턴트(T) 전에 있기 때문에 사본 형성기에 의해 복사되지 않으므로 결국 데이터 스트림(120)에 없다. 대체는 즉석에서 수행될 수 있는데, 즉 사본 형성기가 이후에 이를 대체하는 합성기로 이러한 부분들의 복사를 실제로 수행하지 않을 수도 있다. 오히려, 대체 및 비-복사가 관련될 수 있어, 사본 형성기는 이러한 부분들에 대한 복사를 사전에 스킵한다. 대체는 방금 개요가 서술된 부분들을 앞서 설명한 바와 같이 기본 레이어로부터 레이어 간 예측을 통해 얻어진 대체된 부분들의 근사치로 대체함으로써 이루어진다.

위에서 추가로 명시되진 않았지만, T에서의 스위칭은 예를 들어, 사용자가 컴퓨터 게임을 하는 동안 등과 같이, 사용자 입력에 의해 트리거될 수 있다.

따라서 도 14 - 도 16과 관련하여 제2 양상의 실시예들을 기술한 후에, 도 17에 관해 이점들이 또 설명되는데, 도 17은 이에 따라 13과 관련하여 앞서 개요가 서술된 문제점에 대한 해결책을 예시한다. 특히, 도 14의 개념을 적용하면, 도 17은 직접 복사 슬라이스들이 GRP와 결합하여, 다중 레이어 생성된 참조 화상(MLGRP: multi-layer generated reference picture)을 형성하는 것을 제시한다. 이것은 MLGRP가 GRP 정보, 즉 RoI 스위칭 이벤트(스크린 이동)를 보상하기 위한 이동 정보를 포함하는 여러 개의 타일들로 구성될 것임을 의미한다. 정보가 GRP 콘텐츠를 사용하는 대신 소스 화상에 적용된 경계 확장 프로시저로부터 야기된 샘플들로만 구성될 그러한 타일들의 경우, 하위 레이어(예컨대, 섬네일)의 정확한 구역으로부터 샘플 값들을 상속할, 이러한 하위 레이어에 대한 사본 또는 참조로 구성된 MLGRP 슬라이스가 포함된다. 이 구역은 가능하게는 샘플들의 사본에 대응할 뿐만 아니라, 예를 들어 데이터 스트림(120)의 PPS에 정의된 스케일링된 참조 레이어 오프셋들 및 참조되는 구역 오프셋들에 의해 정의된 재-샘플링 프로세스를 수반할 수도 있다. 결과적인 L1 MLGRP 화상 영역은 RASL 화상에 의해 참조로서 사용될 수 있다. RASL 화상에 의해 참조로서 사용된 MLGRP의 품질에 따라, 상당한 코딩 효율 이득들에도 불구하고 다음 인트라 코딩된 화상까지 지속되는 눈에 띄는 디코딩 드리프트가 발생하지 않을 수도 있고 또는 단지 사소한 디코딩 드리프트만이 발생할 수 있다.

MLGRP들은 RoI 스위칭 이벤트들에서만 그리고 다음의 화상들에 의한 참조용으로만 비트 스트림에 삽입되는데, 즉 MLGRP는 디코더에 의해 출력되지 않는다.

MLGRP 비트 스트림 제약들 및 특성들에 관한 한, 다음의 주의들이 이루어질 수 있다.

MLGRP는 입력 비트 스트림 EL 화상들 및/또는 직접 복사 슬라이스들로부터 합성된 SHVC EL 화상들이다. 이와 관련하여 복사 슬라이스들은 하위 레이어들의 소스 화상들로부터의 레이어 간 예측을 통해 동일한 시간 인스턴트에서 하위 레이어들의 화상 콘텐츠를 (완전히 또는 부분적으로) 복사(및 잠재적으로는 다시 샘플링)하는 슬라이스들을 의미한다.

MLGRP에 포함된 슬라이스들은 시간적 움직임 벡터 예측(TMVP)을 수행하기 위한 참조로서 사용되지 않을 수도 있다. 게다가, 입력 EL 화상 슬라이스들은 다음에 설명되는 바와 같이 스티칭 제약들을 충족시킬 필요가 있을 수도 있다. 다음은 [4]에서 상세히 설명되는 바와 같이 HEVC 코딩된 비트 스트림들에 대한 제약들에 대한 요약이지만, 다중 레이어 경우에 유사하게 적용된다: 1) MV 제약들: MV들은 화상 경계들 외부의 샘플들 또는 서브-펠 샘플 위치들을 지시하지 않아야 하며, 이에 대해 인코더 측 호출 서브-펠 보간 필터 커널이 화상 경계들과 겹친다. 2) 예측 단위들: 화상 내의 최우측 예측 단위들은 존재하지 않는 TMVP 후보의 위치에서 TMVP 후보 또는 MV 후보에 대응하는 MV 예측 후보를 사용하지 않을 것이다. 3) 루프 내 필터들: 슬라이스 세그먼트 및 (존재한다면) 타일 경계들은 디블로킹 및 SAO 필터와 같은 루프 내 필터에 의해 교차되지 않을 것이다. 4) 슬라이스들 및 타일들에 걸친 루프 내 필터들이 요구되고 활성화된다면, 1)에서의 MV 제약들은 MV들이 슬라이스들에 걸친 루프 내 필터의 영향을 받는 샘플 위치들이나 화상 경계들 또는 서브-펠 샘플 위치들 밖의 샘플들을 가리키지 않도록 더욱 제한되어야 하는데, 이 경우 인코더 측 호출 서브-펠 보간 필터 커널은 슬라이스들에 걸친 루프 내 필터에 의해 영향을 받는 화상 경계들 또는 샘플들과 중첩한다.

적절한 스케일링된 참조 레이어 오프셋 및 참조 구역 오프셋 파라미터들로 Rol 스위칭(또는 튠-인 또는 화자 변경)시 MLGRP 및 그 참조들을 위한 PPS들의 삽입은 MLGRP 비트 스트림들의 추가 특성이다. 파라미터들은 현재 타일 레이아웃, 레이어 계층 구조 및 화상 치수들을 반영할 수 있다.

비트 스트림 내에서, 예를 들어 SEI 메시지로서 시그널링될 중요한 정보는 MLGRP의 삽입의 통지이다. 이 정보는 이후에 고급 디코더들에 의해 포스트-디코딩 필터 레벨들을 증가시켜, 예를 들어 시각적 품질에 대한 영향을 최소화하는 데 사용될 수 있다.

따라서 상기를 요약하면, 도 14 - 도 17의 설명은 복수의 비디오들의 시변 서브세트의 구성을 나타내는 비디오 스트림을 구성하는 것이, 비디오들의 적절한 서브세트를 압축 또는 코딩 도메인 내의 구성된 비디오 스트림(120)의 하나 또는 그보다 많은 확장 레이어들로 다중화하고 비디오들의 집합으로부터 압축 또는 코딩 도메인에서 도출된 기본 레이어를 갖는 하나 또는 그보다 많은 확장 레이어들을 수반함으로써 새로 통합된 비디오로 인해 적절한 서브세트의 영향들을 스위칭하지 않고도 가능해진다는 것을 보여주었다. 기본 레이어에서 기본 품질의 비디오들의 집합은 모든 비디오들을 지속적으로 포함할 필요는 없다. 오히려, 이러한 집합은 곧 적절한 서브세트의 멤버들이 될 기본 품질의 비디오들을 포함할 수 있다. 기본 레이어는 시청자에게 제시될 데이터 스트림(120)의 실제 비디오 콘텐츠를 나타내지 않기 때문에, 앞서 설명한 적절한 서브세트에 의해 새로 포함된 비디오들에 대해 발생하는 것들과 유사한 "참조 누락" 문제들은 기본 레이어에 관계가 없으므로, 데이터 스트림(120)의 기본 레이어에서 전달되는 비디오들의 집합의 시간 변화는 취급하기에 더 쉽거나 보다 완화된 방식이다. 데이터 스트림(120)의 기본 레이어에 의해 도시된 비디오들의 집합이 상기 적절한 서브세트 스위칭 시점에 데이터 스트림(120)의 확장 레이어에서의 적절한 서브세트(121)의 새로 포함된 비디오의 누락된 참조 화상들의 화상 콘텐츠의 근사치를 갖는다면 충분하다.

도 14는 선택적으로, 데이터 스트림(120)이 구성기(104)에 의해 추가되며, 파노라마 뷰 세트를 전달하는 비디오 콘텐츠(114)의 경우에 서브세트(121)에 의해 현재 커버되는 이러한 파노라마 뷰의 인접 부분을 나타내는 추가 부가 정보 또는 시그널링(180)을 포함할 수 있음을 보여준다. 그런 다음, 비디오들 각각은 파노라마 뷰의 각각의 부분과 연관될 것이다. 부분들은 도면들에 예시된 바와 같이 또는 2차원적으로 나란히 1차원적으로 분포될 수 있다. 적절한 서브세트(121)는 미리 결정된 시간 인스턴트 이전부터 이후까지 변위된 파노라마 뷰의 인접 부분을 커버하도록 서로 이웃하는 파노라마 뷰의 부분들과 연관된 비디오들을 포함한다. 시그널링(180)은 이를테면, 예를 들어 파노라마 뷰의 부분들의 단위들로, 즉 비디오들의 단위들로 파노라마 뷰 내의 인접 부분의 위치를 표시할 수 있다. 흥미롭게도, 시그널링(180)은 앞서 언급한 파라미터들(p, o ^TL, o ^BR)과 같은 기본 레이어로부터의 레이어 간 예측을 제어하는 오프셋 파라미터들에 추가하여 데이터 스트림(120)에 존재할 수 있다. 코딩된 버전(12)의 제1 부분(114₁)이 전체 파노라마 뷰를 보여주는 파노라마 화상들을 야기하도록 공간적으로 함께 스티칭되는 식으로 모든 비디오들(116₁…116_N)의 화상들을 인코딩한 경우, 시그널링(180)은 서브세트(121)에 의해 커버되는 파노라마 뷰의 인접 부분의 위치에 대한 액세스를 과다하게, 그러나 보다 쉽게 승인할 것이다. 그러나 앞서 개요를 서술한 바와 같이, 비디오 콘텐츠의 코딩된 버전의 제1 부분은 비디오들(116₁-116_N)의 시변 집합, 즉 모든 기본 레이어 비디오들의 적절한 서브세트를 포함하며 방금 개요가 서술된 참조된 화상의, 즉 적어도 참조된 화상으로부터 계속 화상 콘텐츠를 포함하도록 미리 결정된 시간 인스턴트에 충분히 앞서있는 시간에서부터 계속 새로 포함된 비디오를 적어도 포함하는 기본 품질 비디오들의 집합을 인코딩했을 수 있다. 후자의 경우, 시그널링(180)은 파노라마 뷰의 인접 부분의 위치에 대한 지식을 얻기 위한 전제 조건이 될 수 있다.

구성기(104)는 상기 설명에서 MLGRP로 불렸던 다중 레이어 화상들, 다중 레이어 비-출력 화상(MLGRP)으로 치환될 참조 화상의 시간 인스턴트들과 일치하는 시간 인스턴트에서 비디오들의 집합을 기본 품질로 복사하기 위한 기본 레이어 화상, 및 스위칭 시간 인스턴트 이전 제시 시간 인스턴트에 속하기 때문에 누락되는 새로 포함된 비디오의 참조 화상의 화상 콘텐츠의 이러한 기본 품질 근사치를 레이어 간 예측에 의해 복사하는 확장 레이어 화상을 데이터 스트림(120)에 삽입하는, 새로 포함된 비디오들에 관한 문제들에 대처하기 위한 수단으로서, 기본 레이어 저장소, 즉 비디오들(116)의 집합/세트를 사용하는 앞서 논의한 대안들 중 하나 또는 둘 다를 사용할 수 있다. 대안으로, 스위칭 시간 인스턴트(T) 이전의 시간 인스턴트에 속하는 것으로 인해 누락되는 참조 화상들을 참조하는 새로 포함된 비디오의 화상들은 직접 레이어 간 예측을 통해 시간적으로 정렬된 기본 레이어 화상 비디오 집합 콘텐츠로부터 복사함으로써 구성기(104)에 의해 대체되거나 합성된다. 구성기(104)는 예를 들어, 혼합된 방식으로 두 개념들 모두를 사용할 수 있다. 예를 들어, 도 15 및 도 16을 참조한다. 앞서 설명한 바와 같이, 이러한 도면들에서 크로스 해칭되어 도시된 삽입된 비-출력 화상(GRP)은 기본 레이어에 기초하여 분석되었다. 이러한 조치에 의해, 비디오(11)의 RASL2 화상은 시간 예측을 위한 참조 기준이다. 그러나 당연히, 크로스 해칭된 화상에 대한 기본 레이어에 의해 도출된 화상 콘텐츠는 단지 실제 참조 화상에 대한 근사화된 치환일 뿐이다. 이에 따라, 비디오(11)의 시간적으로 예측된 화상들의 체인이 참조 화상 근사치의 순방향 움직임 보상 코딩된 변형들을 통과하는 한 드리프트가 발생한다. 그 경우, 구성기(104)는 MLGRP를 사용하여 간헐적으로 참조 화상 치환을 수행하거나, 새로 포함된 비디오의 이러한 시간적으로 예측된 화상들에 대해 때때로 새로 포함된 비디오 자체의 시간적으로 예측된 화상을 치환함으로써 그러한 시간 예측 포워딩의 너무 긴 체인을 피할 수 있다. 즉, 구성기(104)는 시간 예측들의 체인을 통해, 하나 또는 그보다 많은 확장 레이어들(L1)로 복사된 코딩된 버전의 제2 부분의 일부로 구성되지 않은 새로 포함된 비디오의 임의의 참조 화상에 따라, 새로 포함된 비디오의 시간적으로 예측된 화상들에 대해 치환 및/또는 대체를 간헐적으로 반복할 수 있다. 예를 들어, 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 코딩된 버전의 제2 부분의 일부로 구성된 새로 포함된 비디오의 하나 또는 그보다 많은 참조된 화상들에 대해, 그리고 시간 예측의 체인을 통해, 코딩된 버전의 제2 부분의 일부로 구성되지 않은 새로 포함된 비디오의 참조 화상들 중 임의의 참조 화상에 따라, 하나 또는 그보다 많은 참조된 화상들 대신 추가 비-출력 화상들을 참조하고, 기본 레이어를 기초로 레이어 간 예측을 통해 하나 또는 그보다 많은 참조 화상들의 근사치로 추가 비-출력 화상들을 채우도록, 하나 또는 그보다 많은 참조된 화상에 대해 새로 포함된 비디오의 화상들에 의한 임의의 시간적 예측을 리디렉션하여, 추가 비-출력 화상들이 다중 레이어 비디오 스트림에 삽입될 수도 있다. 대안으로, 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 코딩된 버전의 제2 부분의 일부로 구성되지 않은 새로 포함된 비디오의 참조 화상들을 시간 예측의 체인을 통해 참조하는 하나 또는 그보다 많은 확장 레이어들(L1)로 복사되도록, 코딩된 버전의 제2 부분의 일부에 의해 구성된 새로 포함된 비디오의 추가 부분들이 기본 레이어로부터 레이어 간 예측을 통해, 대체된 부분들의 근사치로 직접 대체될 수 있다.

본 출원의 제3 양상의 실시예들이 하기에서 설명되기 전에, 도 14 - 도 17의 실시예들의 설명 이외에 기본 레이어들의 수는 하나보다 많을 수 있다는 점이 주목된다. 예를 들어, 개별 레이어들, 즉 현재 기본 레이어에서 전달되는 비디오들의 집합에서 각각의 비디오 또는 각각의 비디오에 대한 적어도 하나의 기본 레이어에 대해 하나씩, 개개의 기본 레이어들 내의 기본 레이어 내에서 비디오들(116₁-116_N)의 기본 품질 표현들이 전달될 수 있다.

아래 추가로 설명되는 실시예들에 따르면, 데이터 스트림의 비-출력 화상들을 통해 전달되는 비디오 콘텐츠, 즉 비디오 스트림의 후속 화상들에 의한 참조에 이용 가능하지만 디코더에 의해 비디오 재생시 출력되지 않는 것으로 표시되는 화상들을 기초로 시간 예측을 통해 비디오 구성을 형성하는 출력 화상들에 의해 산재된 데이터 스트림의 비-출력 화상들을 형성하지 않도록, 출력 데이터 스트림에 하나 또는 그보다 많은 비디오들의 저장소를 제공하고 저장소를 데이터 스트림으로 시간적으로 다중화함으로써 하나 또는 그보다 많은 비디오들을 기초로 비디오 콘텐츠를 구성하도록 복합 비디오 스트림이 생성된다. 여기서 코딩된 화상 순서가 제시 시간 순서에서 벗어나는 구조를 사용하여 코딩된 구성에 대한 기초로서 비디오들을 사용하는 경우, 각각의 출력 화상에 대한 저장소를 형성하는 비-출력 화상들 직후에 합성 출력 화상들을 단순히 배치하는 것의 문제점은 아래에서 보다 상세히 개요가 서술되는 바와 같이, 복합 비디오 데이터 스트림을 디코딩하려고 하는 디코더의 버퍼 용량에 대한 증가된 요구로 이어진다. 이 문제는 뒤에 설명되는 실시예에 의해 해결된다.

제3 양상의 실시예들에 대한 설명은 비디오 비트 스트림 삽입에 대한 간략한 소개로 다시 시작된다. [7]에서 설명된 바와 같이 압축 도메인에서 주어진 비디오 비트 스트림들의 믹싱은 전체(또는 부분) 디코딩 및 인코딩 주기, 즉 트랜스코딩을 수행할 필요 없이 압축된 비디오의 다수의 소스들로부터 낮은 노력의 합성을 가능하게 한다. 예를 들어, 화면 속 화면(picture-in-picture) 애플리케이션들, 그래픽 사용자 인터페이스의 광고 삽입 또는 오버레이, 또는 다른 유용한 정보에 대해 그러한 기술이 적용될 수 있는 많은 사용 사례들이 있다. 농구와 같은 실제 스포츠 장면이 스포츠 프로그램의 비디오의 화상들 위 또는 아래에 뉴스 티커와 오버레이되는 스포츠 프로그램을 가정한다. [7]의 방법은 가벼운 신택스 변경 연산들만을 사용하여, 각각의 디코딩된 화상 콘텐츠의 디코더 출력을 억제하면서 n개의 입력 비디오 비트 스트림들을 (공간적으로 또는 시간적으로) 공통 출력 비디오 비트 스트림으로 믹싱하고, 소위 구성 화상(CP: composition picture)들을 (디코더 출력을 위해 의도된) 공통 출력 비트 스트림에 추가로 부가한다. CP들은 화상 간 예측 수단을 사용하여 n개의 입력 비디오 비트 스트림들의 화상들, 즉 CP들의 연관된 억제된 화상들로부터 구성을 생성한다. 뒤에 설명되는 실시예들이 화상 버퍼 요건들을 최소화하는 것과 관련하여 주어진 코딩된 비디오 비트 스트림에 코딩된 화상들을 삽입하는 것을 수반하는 다른 방법들이 있다. 그러나 아래에서는 [7]에서 상술한 방법이 뒤에 설명되는 실시예들의 유리한 양상들을 설명하기 위해 일례로 사용된다.

공통 출력 비트 스트림은 주목할 만하게는, 타깃화된 비디오 디코더에 대한 더 높은 연산 요구들을 제시하는데, 이는 n개의 입력 비디오 스트림들에 의해 도입된 비디오 데이터의 디코딩 외에도, CP들을 디코딩하기 위한 추가 연산 자원들을 제공해야 한다. HEVC[1](및 임의의 다른 비디오 코덱 표준)의 레벨 정의들은 소수의 공통 연산 지점들(화상 해상도, 프레임 레이트, 비트 레이트, 화상 버퍼 메모리)을 제공하도록 설계되므로, 설명되는 방법이 비디오 디코더에 부과할 수도 있는 계산상의 복잡도의 어떠한 증가도 최소화하는 것이 중요하다.

뒤에 설명되는 실시예들에 의해 다루어지는 복잡성 부담은 디코더에 구성 화상들을 저장함으로써 야기되는 화상 버퍼 메모리 요구의 증가이다. 뒤에 설명되는 실시예들 이면의 아이디어는 입력 비트 스트림의 코딩된 화상 순서(또는 비트 스트림 순서 또는 예측 구조)에 관계없이 출력 순서로 공통 출력 비트 스트림에 구성 또는 출력 화상을 삽입하는 것인데, 이는 결국 공통 출력 비트 스트림의 비-출력 화상들로 다중화된다. 구성 화상들의 이러한 위치 결정은 이들이 디코더 측에서 출력될 수 있기 전에 구성을 유지하는 데 필요한 추가 화상 메모리를 줄이다.

일례로, 도 18에 도시된 예측 구조를 취한다. 여기서, 2개의 단일 예측 (P-)프레임들은 출력 순서에서 선행하는 화상들, 즉 인트라 코딩된 (I-)프레임만을 사용하여 정보를 예측하며, 이에 따라 (비트 스트림 순서에서 뒤따르는 화상들을 디코딩하고 출력한 후) 나중에 출력하기 위해 화상 버퍼 메모리에 화상들을 유지할 필요 없이 디코더 출력 순서와 비슷한 코딩 순서를 가능하게 한다.

이러한 코딩 구조가 앞서 설명한 믹싱 방법의 n개의 입력 비트 스트림들에서 사용될 때, 연관된 억제 화상들 바로 다음에 CP들의 삽입은 CP들이 디코딩 직후에 출력될 수 있게 하는데, 즉, n개의 입력 비트 스트림들만을 포함하는 비트 스트림과 비교하여 단지 단일 추가 화상 버퍼만이 요구된다. 단일(n = 1) 입력 비트 스트림만을 사용하는 결과적인 비트 스트림은 도 19에 도시되어 있으며, 여기서 파선 박스들은 (출력될) CP들을 나타내는 한편, (출력되지 않을) (비-파선) 입력 비트 스트림 화상은 비디오 디코더에 의한 출력이 억제될 것이다.

디코딩 구조가 예를 들어 양방향 예측 (B-)프레임들을 통해, 일반 코딩 효율을 증가시키도록 더욱 복잡해짐에 따라, 코딩 순서 및 출력 순서가 서로 다를 수 있으며, 이로써 도 20에 도시된 바와 같이 출력 전에 참조로서 사용될 화상들을 저장하기 위해 더 많은 화상 버퍼들을 필요로 할 수 있으며, 이는 각각의 박스의 좌측 상부 모서리의 숫자로서 코딩 순서를 표시한다.

따라서 이러한 비트 스트림에 CP들을 이전과 동일한 방식으로(구성에 사용된 비트 스트림에서 이들의 연관된 억제 화상들 바로 다음에) 추가하는 것은, CP들이 다른 화상들에 대한 참조로서 사용되지 않더라도, 출력 전에 비디오 디코더가 CP들 중 일부를 저장하게 한다. 이러한 결점을 피하기 위해, 뒤에 설명되는 실시예들은 n개의 믹싱된 입력 비디오 비트 스트림들에 비해 화상 버퍼 요구들의 증가를 감소시키는 방식으로 이러한 화상들을 삽입하도록 구성된다. 이것은 입력 비트 스트림들의 예측 구조에 관계없이 비트 스트림에 출력 순서로 CP들을 추가함으로써 달성될 수 있다. 도 21은 단일(n = 1) 입력 비디오 비트 스트림이 계층적 쌍방향 예측 구조를 사용하는 결과적인 공통 출력 비디오 비트 스트림을 도시한다.

도 22는 본 출원의 제3 양상에 따라 분석되는 비디오 스트리밍 장치(200)를 이 장치(200)가 적어도 하나의 비디오(216₁, 216₂ … 216_N)를 포함하는 비디오 콘텐츠(214)의 코딩된 버전(212)을 수신하는 상황에서 보여주며, 도 22에서는 예시적으로 N = 3가 선택된다. 코딩된 버전(212)은 시간 예측을 사용하여 각각의 비디오(216_i)가 코딩되는 각각의 부분(218_i)을 각각의 비디오(216_i)에 대해 포함한다. 비디오들(216_i)의 화상들 간의 시간 예측 의존성들은 참조 싱크, 즉 시간 예측을 사용하여 현재 코딩된 화상으로부터 방금 언급한 시간적으로 예측 코딩된 화상이 예측되는 참조 소스 또는 참조 화상까지 가리키는 곡선 에러들을 다시 사용하여 도 22에 예시된다. 도 22의 코딩 순서 화살표는 비디오들(216₁-216₃)의 화상들이 이들의 순차적 코딩 순서로 도시됨을 나타내지만, 이는 화상들의 제시 시간 순서에서는 벗어나며, 이는 각각의 비디오(216_i)에 대해 사실이다. 특히, 도 22는 3개의 화상들을 포함하는 비디오들(216_i) 사이의 시간 간격을 예시한다. 도 22에서, 비디오(216₁)의 화상들은 A를 사용하여 표시된다. 비디오(216₂)의 화상들은 B를 사용하여 표시되고, 비디오(216₃)의 화상들은 C를 사용하여 표시된다. 대문자 바로 뒤에 오는 숫자는 각각의 비디오(216_i) 사이에서 예시적으로 도시된 시간 간격 내의 3개의 화상들을 구별할 것이다. 코딩 순서에서, 화상들은 숫자, 예를 들어 A1, A2, A3에 따라 서로 뒤따른다. 제시 시간 순서에서, 이러한 화상들 사이의 순서는 서로 다른데, 제시 시간 순서에 따라, 화상(A3)은 화상(A1)과 화상(A2) 사이에 위치된다. 도 22는 예시적으로, 모든 비디오들(216_i)이 동일한 시간 상호 의존성 구조를 갖고, 그에 따라 화상들의 코딩 순서와 제시 순서 사이의 방금 언급한 차이가 모든 비디오들(216_i)에 대해 사실이라고 가정한다. 도 22의 장치(200)의 유리한 양상들은 또한 비디오 콘텐츠(214) 내의 비디오들(216_i)의 수, 즉 N이 단지 1이 된다면 효과적일 것이라는 점이 추가로 주목되어야 한다. 일반적으로, N은 임의의 수일 수 있다. 비디오들(216_i)이 사용하고 있는 방금 언급한 GOP 구조는 개방형 또는 폐쇄형 GOP 구조일 수 있다. 부분들(218_i)은 도 1 및 도 14와 관련하여 앞서 설명한 실시예들의 설명과 유사하게, 코딩된 버전(212)을 함께 형성하는 개개의 데이터 스트림들일 수 있다. 설명의 편의상, 비디오들(216_i)은 단일 레이어 비디오들로 도시되어 있지만, 다중 레이어 비디오들 또는 단일 레이어 및 다중 레이어 비디오들의 혼합도 역시 실현될 것이다.

내부적으로, 비디오 스트리밍 장치(200)는 사본 형성기(222) 및 합성기(224)를 포함한다. 구현 가능성들에 관해서는, 도 1과 관련하여 위에서 이루어진 언급들이 유효하다. 즉, 장치(200)는 하드웨어, 프로그래밍 가능한 하드웨어 또는 소프트웨어를 사용하여 구현될 수 있으며, 그에 따라 모듈들(222, 224)이 구현된다.

비디오 스트리밍 장치는 코딩된 버전(212)으로부터 비디오 스트림(220)을 구성하도록 구성되고, 이를 위해 사본 형성기(222)는 데이터 스트림(220)의 비-출력 부분을 형성하는 한편, 합성기(224)는 비-출력 부분으로부터 적어도 부분적으로는 시간 예측을 통해 도출된 데이터 스트림(220)으로 출력 화상들을 삽입함으로써 비디오 콘텐츠(214)의 실제 구성을 합성한다. 이렇게 함으로써, 비디오 스트리밍 장치(200)는 도 18 - 도 21과 관련하여 동기 부여된 대로 작동하는데, 즉 출력 화상들이 제시 시간 순서로 데이터 스트림(220)에 배열되도록 데이터 스트림(220)에 출력 화상들이 삽입된다.

도 22는 사본 형성기(222)와 합성기(224) 간의 협력의 세 가지 대안들을 예시한다. 그러나 도 22에 예시되고 로마자 Ⅰ 내지 로마자 Ⅲ을 사용하여 도 22에서 구별되는 이러한 3개의 대안들조차도 단지 도 22의 장치(200)의 기반이 되는 유리한 개념이 어떻게 구현될 수 있는지에 대한 가능성들의 서브세트를 형성할 뿐임이 명백해야 한다.

도 22에 도시된 모든 대안들에 따르면, 비-출력 타입인, 즉 데이터 스트림(220)의 비-출력 부분의 일부인 데이터 스트림(220)의 액세스 유닛들 또는 화상들은 연속 선들에서 A1 내지 C3을 사용하여 표시된 화상 콘텐츠를 포함하는 것들이다. 합성기(224)로부터 발생하는, 즉 데이터 스트림(220)에 삽입되어 데이터 스트림(220)의 비-출력 부분의 비-출력 화상들 사이에 산재되는 비-출력 화상들은 "CP#"을 사용하여 표시되고, 삽입된 출력 화상들은 간혹, A1 내지 B3을 사용하여 점선들로 표시된 복사된 화상 부분을 사용하여 예시된 상황에서, 시간 예측을 통해 비-출력 화상들 중 임의의 비-출력 화상을 복사하는 복사 화상들을 종속 또는 하위 레이어에 포함하는 다중 레이어 출력 화상들이다. 데이터 스트림(220)을 분석할 가능성으로서 도 22에 예시된 대안 Ⅰ 내지 대안 Ⅲ에서, 데이터 스트림(220)의 화상들은 "코딩 순서"라는 명칭의 각각의 화살표를 사용하여 또한 예시된 바와 같이, 코딩 순서를 따라 순차적으로 정렬된다.

대안 Ⅰ에 따르면, 사본 형성기(222)는 도 15a에 도시된 다중 레이어 출력 데이터 스트림의 확장 레이어의 형성과 유사한 방식으로, 즉 데이터 스트림(220)의 화상들이 공간적으로 세분되는 각각의 타일들로 비디오들(216_i)을 다중화함으로써 데이터 스트림(220)의 비-출력 부분, 즉 데이터 스트림(220)의 비-출력 화상들을 형성한다. 즉, 대안 Ⅰ에 따르면, 데이터 스트림(220)의 화상들은 예컨대, N개의 타일들로 공간적으로 세분되며, 각각의 타일은 N개의 비디오들(216₁-216_N) 중 각각의 비디오와 연관되고, N = 3이 예시적으로 선택되며 도 22에 예시된다. 타일 세분으로 인해, 코딩 순서는 데이터 스트림(220)의 화상들을 타일 단위로 그리고 이에 따라, 타일들과 비디오들 사이의 1:1 연관으로 인해 비디오 단위로 가로지른다. 이에 따라, 사본 형성기(222)는 압축 또는 코딩 도메인 내의 비-출력 화상들의 타일들을 채울 수 있다. 이에 관한 세부사항들은 예를 들어, 도 1 및 도 14와 관련하여 위에서 제시되었는데, 이 세부사항들은 사본 형성기(222)에 대해서도 유효할 것이다. 데이터 스트림(220) 내에서, 비디오들(216_i)의 화상들의 화상 콘텐츠에 의해 이와 같이 채워진 화상들은 출력되지 않는 것으로 표시된다.

합성기(224)는 대안 Ⅰ에 따라, 이러한 공간적으로 스티칭된 비-출력 화상들, 즉 입력 비디오들(216_i)의 화상들의 화상 콘텐츠를 공간적으로 스티칭함으로써 구성되는 화상들 사이에 출력 화상들을 배치하는 것을 담당한다. 이러한 출력 화상들은 출력 데이터 스트림(220)을 통해 전달될 비디오 콘텐츠의 실제 구성을 합성한다. 이를 위해, 합성기(224)는 적어도 부분적으로는 비-출력 화상들로부터의 시간 예측을 사용하여 이러한 출력 화상들을 코딩한다. 도 22에 도시된 실시예들에 따르면, 각각의 출력 화상(CP#)은 시간 참조 화상 단위로 비-출력 화상들 중 하나를 독점적으로 사용한다. 이에 따라, 도 22에서 "CP" 뒤의 숫자는 각각의 출력 화상(CP#)의 화상 콘텐츠가 적어도 부분적으로는 시간 예측을 이용하여, 즉 화상 콘텐츠(A#, B#, C#)를 포함하는 비-출력 화상으로부터 분석되거나 합성되는 비-출력 화상을 주목할 것이다. 따라서 합성기(224)는 예를 들어, 블록들을 사용하여 화상 또는 출력 화상(CP1)을 코딩할 수 있는데, 이러한 블록들 중에서 그 모든 또는 인접한 클러스터가 비-출력 화상들(A1-C1)의 각각의 부분을 병진 복사한다. 화상(CP1)의 다른 블록들은 예를 들어, 인트라 예측을 사용하여 또는 예측 없이 합성기(224)에 의해 코딩될 수 있다. 비트 레이트를 절약하기 위해, 블록들 중 일부는 스킵 모드를 사용하여 코딩될 수 있으며, 이로써 어떠한 잔차 데이터도 코딩할 필요 없이 공간적으로 이웃하는 블록으로부터의 시간 예측을 위해 움직임 벡터를 채택할 수 있다. 이는 또한 다른 두 양상들의 실시예들에 관해 설명되며, 다른 두 양상들의 이러한 실시예들에도 또한 사실이다. 이런 식으로, 합성기(224)는 또한 출력 화상들(CP2, CP3)을 데이터 스트림(220)에 삽입한다. 그러나 이러한 출력 화상들 사이의 순서는 제시 시간 순서를 따르도록 선택되는데, 즉 출력 화상들은 CP1, CP3 및 CP2에 따라 데이터 스트림(220)에서 순차적으로 정렬된다. 이러한 화상들은 데이터 스트림(220)의 코딩 순서에 따라 출력 화상(CPx)의 각각의 참조된 비-출력 화상(x)이 각각의 출력 화상(CPx)에 선행하는 방식으로 데이터 스트림(220)에 삽입된다. 이는 도 22에 도시된다.

도 22에 도시된 다른 두 가지 대안들은 사본 형성기(222)가 이러한 비디오들을 비-출력 화상들의 공간적으로 이웃하는 타일들로 다중화하는 것과는 다른 방식으로 비디오들(216_i)을 데이터 스트림(220)의 비-출력 부분으로 다중화할 수 있음을 나타낸다. 예를 들어, 사본 형성기(222)는 대신 시간 다중화를 사용할 수 있다. 대안 Ⅱ에 따르면, 예컨대, 사본 형성기(222)는 A1, B1, C1, A2, B2, C3, A3, B3, C3…에 따라 입력 비디오들의 화상들을 데이터 스트림(220)으로 다중화한다. 즉, N개의 인바운드 비디오들의 화상들이 데이터 스트림(220)의 비-출력 화상들의 시퀀스로 복사된 다음, 인바운드 비디오들의 다음 화상들을 데이터 스트림(220)의 비-출력 화상들의 후속 서브시퀀스로 코딩 순서로 순차적으로 분배하는데, 사본 형성기(222)에 의해 이와 같이 채워지는 서브시퀀스들은 인터리빙되지 않는다. 그러나 사본 형성기(222)는 인바운드 비디오들의 화상들을 데이터 스트림(222)의 비-출력 화상들에 다중화할 때, 각각의 비디오의 화상들 간의 시간 예측 상호 의존성들이 유지된다는 점을 유의한다. 사본 형성기(222)는 압축 또는 코딩 도메인에서 비-출력 화상들의 채우기를 수행할 수 있다. 합성기는 하나의 액세스 유닛 또는 화상 카운트, 즉 {A1, B1, C1}, {A2, B2, C2} 및 {A3, B3, C3} 중 어느 하나에 속하는 비-출력 화상들의 방금 언급한 서브시퀀스들 사이에 출력 화상들을 삽입한다. 삽입 및 구성은 대안 Ⅰ에서와 같이 이루어지는데: 즉, 출력 화상들이 CP1 다음에 CP3 다음에 CP2의 제시 시간 순서에 따라 데이터 스트림(220)에서 순차적으로 정렬되도록 삽입이 이루어진다. 또한, 각각의 출력 화상은 데이터 스트림(220) 내에서 코딩 순서로, 각각의 출력 화상이 시간 예측에 관한 한 배타적으로 시간 예측되는 비-출력 화상들의 각각의 서브시퀀스를 따른다.

대안 Ⅲ은 사본 형성기(222)가 인바운드 비디오들(216_i)을 데이터 스트림(220)의 서로 다른 레이어들(L0-L2), 즉 합성기(224)가 다중 레이어 출력 화상들 사이에 삽입하는 다중 레이어 비-출력 화상들로 다중화하는 것이 심지어 실현 가능할 것임을 예시한다. 예를 들어, 레이어(L0)는 비디오들 중 하나와 연결되고 레이어(L1)는 다른 비디오와 연관되는 식이다. 데이터 스트림(220)의 비-최상위 레이어들, 즉 도 22의 실시예에서는 L0 및 L1에서, 출력 다중 레이어 화상은 시간 예측(제로인 움직임 벡터들)을 사용하여 연관된 다중 레이어 비-출력 화상의 콘텐츠를 복사하는 한편, 도 22의 최상위 레이어인 L2는 다중 레이어 출력 화상들 내에 실제 합성된 비디오 구성을 전달하는데, 즉 이들은 출력 화상들(CP#)을 전달한다. 후자는 예를 들어, 동일한 다중 레이어 출력 화상의 하위 레이어들의 시간 예측/복사된 콘텐츠의 레이어 간 예측 및 연관된 다중 레이어 비-출력 화상으로부터의 시간 예측/복사를 사용하여 합성기(224)에 의해 분석된다. 예를 들어, 합성기(224)는 동일한 다중 레이어 출력 화상의 하위 레이어 화상들로부터의 시간 예측/복사를 사용하여 화상(CP2)에서 구성된 비디오 콘텐츠를 구성함으로써 화상들(B2, A2)의 화상 콘텐츠를 상속하고, 화상 카운트(3)에 관한 다중 레이어 비-출력 화상의 최상위 레이어로부터의 시간 예측을 사용함으로써 화상(C2)의 화상 콘텐츠를 상속한다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계들이 이러한 장치에 의해 실행될 수도 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

본 명세서에서 설명한 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 구현될 수도 있다.

본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수도 있다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

참조들

[1] Sullivan, Gary J., et al. "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22.12 (2012): 1649-1668.

[2] Sanchez, Y., et al. "Video Compositing", WO Patent App. PCT/EP2014/067757.

[3] Eleftheriadis, A., et al. "System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers." U.S. Patent No. 8,436,889. 7 May 2013.

[4] Sanchez, Y., et al. "Low complexity cloud-video-mixing using HEVC." Consumer Communications and Networking Conference (CCNC), 2014 IEEE 11th. IEEE, 2014.

[5] Grunheit, C., et. al. "Efficient representation and interactive streaming of high-resolution panoramic views.", Image Processing. 2002. Proceedings. 2002 International Conference on. Vol. 3. IEEE, 2002.

[6] A. Fujibayashi, TK Tan (NTT DOCOMO), "Random access support for HEVC", JCTVC-D234, 4th JCT-VC Meeting, Daegu, January 2011.

[7] Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, 2015.

Claims

하나 또는 그보다 많은 비디오들(16)을 포함하는 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 비디오 스트림(20)을 구성하기 위한 비디오 스트리밍 장치(10)로서,
상기 코딩된 버전은 각각의 비디오(16)가 코딩되는 부분(18)을 각각의 비디오에 대해 포함하고,
상기 비디오 스트리밍 장치는,
상기 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 복사함으로써 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트(26)를 형성하고; 그리고
상기 하나 또는 그보다 많은 레이어들의 세트(26)의 적어도 일부로부터의 레이어 간 예측을 이용하여 상기 다중 레이어 데이터 스트림의 미리 결정된 레이어의 화상들의 적어도 일부에서 적어도 하나의 비디오(16)의 구성을 합성함으로써
상기 비디오 스트림(20)을 상기 다중 레이어 데이터 스트림으로서 형성하도록 구성되는,
비디오 스트리밍 장치.
제1 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전은 비디오마다 하나의 개별 비디오 데이터 스트림으로 구성되는,
비디오 스트리밍 장치.
제1 항 또는 제2 항에 있어서,
상기 적어도 하나의 비디오 중 적어도 하나의 비디오의 일부는 상기 각각의 비디오를 레이어 방식(layered manner)으로 인코딩한 것인,
비디오 스트리밍 장치.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 비디오 스트리밍 장치는 상기 코딩된 버전의 한 부분으로부터 독점적으로, 또는 상기 한 부분이 상기 각각의 비디오를 레이어 방식으로 인코딩한 것이라면 상기 한 부분의 하나의 레이어로부터 독점적으로 상기 하나 또는 그보다 많은 레이어들의 세트(26)의 각각의 레이어를 형성하도록 구성되는,
비디오 스트리밍 장치.
제1 항 내지 제4 항 중 어느 한 항에 있어서,
상기 비디오 스트리밍 장치는 상기 비디오 콘텐츠의 코딩된 버전으로부터 움직임 보상 파라미터들 및 잔차 데이터를 복사하도록 구성되는,
비디오 스트리밍 장치.
제1 항 내지 제5 항 중 어느 한 항에 있어서,
상기 비디오 스트리밍 장치는 상기 미리 결정된 레이어의 화상들의 일부가 레이어 간 예측에 의해 합성되는 참조된 부분에 대해 상대적인, 상기 미리 결정된 레이어의 화상들의 일부의 위치의 오프셋을 나타내는 오프셋 파라미터들을 상기 다중 레이어 데이터 스트림에 제공하도록 구성되는,
비디오 스트리밍 장치.
제1 항 내지 제6 항 중 어느 한 항에 있어서,
상기 세트의 하나 또는 그보다 많은 레이어들의 수는 2를 초과하고, 상기 비디오 스트리밍 장치는 상기 미리 결정된 레이어가 상기 세트의 하나 또는 그보다 많은 레이어들 중 하나가 되도록 구성되며,
상기 미리 결정된 레이어의 화상들의 일부는 상기 비디오 콘텐츠의 코딩된 버전으로부터의 복사에 의해 형성된 상기 미리 결정된 레이어의 화상들의 추가 부분과 공간적으로 이웃하는,
비디오 스트리밍 장치.
제1 항 내지 제6 항 중 어느 한 항에 있어서,
상기 비디오 스트리밍 장치는, 상기 미리 결정된 레이어가 상기 하나 또는 그보다 많은 레이어들의 세트와 별개이고, 상기 하나 또는 그보다 많은 레이어들의 세트에 대해 상위 레이어를 형성하도록 구성되는,
비디오 스트리밍 장치.
제1 항 내지 제8 항 중 어느 한 항에 따른 비디오 스트리밍 장치를 포함하는 화상 회의 시스템으로서,
각각의 비디오는 상기 화상 회의의 각각의 참가자에 속하는,
화상 회의 시스템.
비디오 스트리밍 장치(100)로서,
비디오 콘텐츠(114)의 코딩된 버전(112)을 수신하기 위한 입력(102) ― 상기 비디오 콘텐츠의 코딩된 버전(112)은 비디오들(116₁-116_N)의 집합을 기본 품질로 인코딩한 제1 부분(114₁), 및 상기 비디오들을 향상된 품질로 인코딩한 제2 부분(114₂)을 포함함 ―, 및
상기 향상된 품질로 상기 비디오들(116)의 서브세트(121)의 구성을 나타내는 비디오 스트림(120)이 다중 레이어 비디오 스트림이 되게 상기 비디오 스트림(120)을 구성하도록 구성된 구성기(104)를 포함하며,
상기 구성기는 상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제1 부분(114₁)으로부터 복사함으로써 상기 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 기본 레이어들(L0)을, 그리고 상기 비디오들의 서브세트에 관련된 상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제2 부분(114₂)의 일부를 상기 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 확장 레이어들(L1)에 복사함으로써 상기 하나 또는 그보다 많은 확장 레이어들(L1)를 형성하도록 구성되고,
상기 구성기(104)는,
상기 다중 레이어 비디오 스트림에 대체 화상을 삽입하여, 상기 대체 화상을 참조하고 상기 기본 레이어를 기초로 레이어 간 예측을 통해 상기 대체 화상을 상기 참조 화상의 근사치로 채우도록 상기 참조 화상의 시간 예측을 리디렉션함으로써, 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 참조 화상에 의해 움직임 예측을 통해 참조되는 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상을 대체 화상으로 치환하거나; 또는
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상을 시간 예측을 통해 참조하는 상기 하나 또는 그보다 많은 확장 레이어들(L1)로 복사되도록, 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 부분들을 상기 기본 레이어로부터 레이어 간 예측을 통해, 대체된 부분들의 근사치로 대체함으로써
미리 결정된 시간 인스턴트 전에 상기 서브세트(121)에 의해 포함되지 않은 상기 비디오들(116) 또는 새로 포함된 비디오를 상기 서브세트(121)가 새로 포함하도록 상기 미리 결정된 시간 인스턴트에 상기 서브세트(121)의 변경을 지원하는,
비디오 스트리밍 장치.
제10 항에 있어서,
상기 대체 화상은 상기 비디오 스트림(120)에서 재생 중에 출력되지 않는 것으로 표시된 비-출력 화상인,
비디오 스트리밍 장치.
제10 항에 있어서,
참조된 화상은 상기 미리 결정된 시간 인스턴트에 선행하는 제시 순서상 마지막 화상이고, 상기 대체 화상은 상기 비디오 스트림(120)의 재생 중에 출력되는 것으로 표시된 출력 화상인,
비디오 스트리밍 장치.
제10 항에 있어서,
상기 구성기는 상기 미리 결정된 시간 인스턴트에 선행하는 제시 시간 인스턴트에 관련되며, 상기 미리 결정된 시간 인스턴트에 뒤따르는 제시 시간 인스턴트에 관련된 상기 새로 포함된 비디오의 임의의 화상에 의해 상기 비디오 콘텐츠의 코딩된 버전에 따른 시간 예측을 통해 참조되는 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 각각의 화상에 대해, 각각의 참조된 화상을 참조 화상으로서의 역할로 치환하고 레이어 간 예측에 의해 상기 기본 레이어의 대응하는 부분으로부터 코딩되는 식으로 대체 화상을 상기 다중 레이어 비디오 스트림에 삽입하도록 구성되는,
비디오 스트리밍 장치.
제10 항에 있어서,
상기 구성기(104)는 상기 다중 레이어 비디오 스트림에서, 상기 비디오 콘텐츠의 코딩된 버전에 따른 시간 예측에 의해, 상기 미리 결정된 시간 인스턴트에 선행하는 제시 시간 인스턴트에 관련된 상기 새로 포함된 비디오의 임의의 화상을 참조하는 상기 새로 포함된 비디오의 각각의 부분을, 상기 기본 레이어의 대응하는 부분으로부터의 레이어 간 예측을 이용한 코딩에 의해 대체하도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제14 항 중 어느 한 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제2 부분은 비디오마다 하나의 비디오 데이터 스트림으로 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제15 항 중 어느 한 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제1 부분은 상기 비디오들의 화상들을 공간적으로 함께 스티칭된 방식으로 인코딩한 비디오 데이터 스트림을 포함하는,
비디오 스트리밍 장치.
제10 항 내지 제15 항 중 어느 한 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제1 부분은 비디오마다 하나의 비디오 데이터 스트림으로 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제17 항 중 어느 한 항에 있어서,
상기 비디오들 각각은 파노라마 뷰의 각각의 부분과 연관되며,
상기 구성기는 상기 미리 결정된 시간 인스턴트 이전부터 이후까지 변위된 상기 파노라마 뷰의 인접 부분을 커버하도록 상기 서브세트가 서로 이웃하는 상기 파노라마 뷰의 부분들과 연관된 비디오들을 포함하도록 구성되는,
비디오 스트리밍 장치.
제18 항에 있어서,
상기 코딩된 버전의 제1 부분은 상기 파노라마 뷰를 보여주는 파노라마 화상들을 야기하도록 공간적으로 함께 스티칭되는 방식으로 상기 비디오들의 화상들을 인코딩한 것인,
비디오 스트리밍 장치.
제18 항 또는 제19 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제1 부분은, 상기 서브세트를 포함하며, 참조된 화상의 화상 콘텐츠를 포함하도록 상기 미리 결정된 시간 인스턴트보다 충분히 앞서 상기 새로 포함된 비디오를 포함하는 상기 비디오들(116₁-116_N)의 시변 집합을 인코딩한 것인,
비디오 스트리밍 장치.
제10 항 내지 제20 항 중 어느 한 항에 있어서,
상기 구성기(104)는 상기 제1 부분으로부터의 움직임 보상 예측 파라미터들 및 잔차 데이터를 상기 기본 레이어에 복사하도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제21 항 중 어느 한 항에 있어서,
상기 구성기(104)는 상기 비디오 콘텐츠의 코딩된 버전의 제2 부분의 일부로부터의 움직임 보상 예측 파라미터 및 잔차 데이터를 상기 하나 또는 그보다 많은 확장 레이어들로 복사하도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제22 항 중 어느 한 항에 있어서,
상기 구성기(104)는 상기 하나 또는 그보다 많은 확장 레이어들의 수가 1이 되도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제23 항 중 어느 한 항에 있어서,
상기 적어도 하나의 비디오는 상기 미리 결정된 시간의 전후에 상기 구성에 따라 상기 적어도 하나의 비디오의 위치를 변경하여, 상기 서브세트(121)에 의해 포함되고,
상기 구성기(104)는 상기 미리 결정된 시간 인스턴트 이후의 제시 시간 인스턴트에 관련된 상기 적어도 하나의 비디오의 참조 화상에 의해 참조되는, 상기 미리 결정된 시간 인스턴트 이전의 제시 시간 인스턴트에 관련된 상기 적어도 하나의 비디오의 참조 화상을, 상기 위치의 변경을 감안하도록 상기 적어도 하나의 비디오의 치환된 참조 화상으로부터의 시간 예측에 의해 채워지고 코딩되는 대체 화상들 또는 추가 대체 화상들의 영역으로 치환하도록 구성되는,
비디오 스트리밍 장치.
제19 항 내지 제22 항 중 어느 한 항에 있어서,
상기 구성기(104)는 상기 하나 또는 그보다 많은 확장 레이어들의 수가 1보다 많도록 구성되고,
상기 구성기는 하위 확장 레이어들의 세트로부터 복사함으로써 상기 하나 또는 그보다 많은 확장 레이어들의 복사된 확장 레이어들의 세트를 도출하고, 상기 복사된 확장 레이어들의 세트로부터의 레이어 간 예측을 사용하여 상기 비디오들의 서브세트의 구성을 합성함으로써 상기 다중 레이어 데이터 스트림의 미리 결정된 레이어를 도출하도록 구성되는,
비디오 스트리밍 장치.
제25 항에 있어서,
상기 미리 결정된 레이어는 상기 복사된 확장 레이어 세트와 별개이고 상기 복사된 확장 레이어 세트보다 상위이며, 또는 상기 미리 결정된 확장 레이어는 상기 복사된 확장 레이어들의 세트 중 최상위 레이어인,
비디오 스트리밍 장치.
제25 항 또는 제26 항에 있어서,
상기 구성기(104)는 각각의 복사된 확장 레이어가 상기 비디오들의 서브세트 중 하나와 배타적으로 연관되게 상기 복사된 확장 레이어들의 세트를 도출하도록 구성되고,
상기 비디오들의 서브세트의 비디오들의 수가 상기 미리 결정된 시간 인스턴트 전과 후 사이에 일정하게 유지되게 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제27 항 중 어느 한 항에 있어서,
상기 구성기(104)는 상기 미리 결정된 시간 인스턴트 전후에 상기 서브세트의 멤버인 비디오들에 대해 상기 미리 결정된 시간 인스턴트 전후에, 한편으로는 상기 비디오들의 서브세트의 임의의 비디오와 다른 한편으로는 상기 복사된 확장 레이어들의 세트 간의 연관을 유지하도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제28 항 중 어느 한 항에 있어서,
상기 구성기(104)는 시간 예측들의 체인을 통해, 상기 하나 또는 그보다 많은 확장 레이어들(L1)로 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 임의의 참조 화상에 따라, 상기 새로 포함된 비디오의 시간적으로 예측된 화상들에 대해 상기 치환 및/또는 대체를 간헐적으로 반복하도록 구성되는,
비디오 스트리밍 장치.
제29 항에 있어서,
상기 구성기(104)는,
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 하나 또는 그보다 많은 참조 화상들에 대해 그리고 상기 시간 예측의 체인을 통해, 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상들 중 임의의 참조 화상에 따라, 비-출력 화상들을 상기 다중 레이어 비디오 스트림에 삽입하여, 상기 비-출력 화상들을 참조하고 상기 기본 레이어를 기초로 레이어 간 예측을 통해 상기 하나 또는 그보다 많은 참조 화상들의 근사치로 상기 비-출력 화상들을 채우도록, 하나 또는 그보다 많은 참조된 화상들에 대해 상기 새로 포함된 비디오의 화상들에 의한 임의의 시간 예측을 리디렉션함으로써
상기 치환을 간헐적으로 반복하도록 구성되는,
비디오 스트리밍 장치.
제29 항에 있어서,
상기 구성기(104)는,
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상들을 상기 시간 예측의 체인을 통해 참조하는 상기 하나 또는 그보다 많은 확장 레이어들(L1)로 복사되도록, 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 추가 부분들을 상기 기본 레이어로부터 레이어 간 예측을 통해, 대체된 부분들의 근사치로 대체함으로써
상기 대체를 간헐적으로 반복하도록 구성되는,
비디오 스트리밍 장치.
제10 항 내지 제31 항 중 어느 한 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제2 부분은 코딩된 화상 순서가 제시 시간 순서에서 벗어나는 방식으로 상기 비디오들을 인코딩한 것인,
비디오 스트리밍 장치.
적어도 하나의 비디오(216) 각각에 대해, 상기 각각의 비디오(216)가 시간 예측을 사용하여 그리고 제시 시간 순서에서 벗어난 코딩된 화상 순서를 사용하여 코딩되는 부분(218)을 포함하는 비디오 콘텐츠(214)의 코딩된 버전(212)으로부터 비디오 스트림(220)을 구성하기 위한 비디오 스트리밍 장치(200)로서,
상기 비디오 스트리밍 장치는,
상기 콘텐츠의 코딩된 버전으로부터 복사함으로써 데이터 스트림(220)의 비-출력 부분을 형성하고; 그리고
시간 예측에 의해 상기 비-출력 부분으로부터 복사하는 출력 화상들을 상기 데이터 스트림에 삽입함으로써 상기 비디오 콘텐츠의 구성을 합성함으로써
상기 비디오 스트림을 형성하도록 구성되고,
상기 비디오 스트리밍 장치는 상기 출력 화상들이 제시 시간 순서로 상기 데이터 스트림에 배열되게 상기 데이터 스트림에 상기 출력 화상들을 삽입하도록 구성되는,
비디오 스트리밍 장치.
제33 항에 있어서,
상기 적어도 하나의 비디오의 수는 1보다 많고,
상기 비디오 스트리밍 장치는 상기 코딩된 버전의 부분들을 상기 데이터 스트림의 비-출력 화상들의 공간 타일들로 다중화하도록 구성되는,
비디오 스트리밍 장치.
제33 항에 있어서,
상기 적어도 하나의 비디오의 수는 1보다 많고,
상기 비디오 스트리밍 장치는 상기 코딩된 버전의 부분들을 상기 데이터 스트림의 비-출력 화상들의 레이어들로 다중화하도록 구성되는,
비디오 스트리밍 장치.
제33 항에 있어서,
상기 적어도 하나의 비디오의 수는 1보다 많고,
상기 비디오 스트리밍 장치는 상기 코딩된 버전의 부분들을 상기 데이터 스트림의 서로 다른 비-출력 화상들로 시간적으로 다중화하도록 구성되는,
비디오 스트리밍 장치.
제33 항 내지 제36 항 중 어느 한 항에 있어서,
상기 제시 시간 순서와 상기 코딩된 화상 순서의 편차는 양방향 예측 화상 또는 상기 적어도 하나의 비디오가 인코딩되는 상기 코딩된 버전의 일부의 개방형 GOP 구조에 의해 야기되는,
비디오 스트리밍 장치.
제33 항 내지 제37 항 중 어느 한 항에 있어서,
상기 비디오 스트리밍 장치는 압축 또는 코딩 도메인에서 상기 비디오 콘텐츠의 코딩된 버전으로부터 복사함으로써 상기 비-출력 부분의 형성을 수행하도록 구성되는,
비디오 스트리밍 장치.
하나 또는 그보다 많은 비디오들(16)을 포함하는 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 구성된 비디오 스트림(20)으로서,
상기 코딩된 버전은 각각의 비디오(16)가 코딩되는 부분(18)을 각각의 비디오에 대해 포함하고,
상기 비디오 스트림은 다중 레이어 데이터 스트림이며,
상기 다중 레이어 데이터 스트림은,
상기 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 복사함으로써 형성된 하나 또는 그보다 많은 레이어들의 세트(26); 및
상기 적어도 하나의 비디오(16)의 구성이 상기 하나 또는 그보다 많은 레이어들의 세트(26)의 적어도 일부로부터의 레이어 간 예측을 사용하여 합성되는 부분을 포함하는 미리 결정된 레이어를 포함하는,
비디오 스트림.
비디오들(116₁-116_N)의 집합을 기본 품질로 인코딩한 제1 부분(114₁), 및 상기 비디오들을 향상된 품질로 인코딩한 제2 부분(114₂)을 포함하는 비디오 콘텐츠의 코딩된 버전(112)으로 구성된 비디오 스트림으로서,
상기 비디오 스트림은,
다중 레이어 비디오 스트림이고;
상기 향상된 품질로 상기 비디오들(116)의 서브세트(121)의 구성을 나타내며;
상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제1 부분(114₁)으로부터 복사함으로써 형성된 하나 또는 그보다 많은 기본 레이어들(L0)을 포함하며; 그리고
상기 비디오들의 서브세트에 관련된 상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제2 부분(114₂)의 일부를 하나 또는 그보다 많은 확장 레이어들(L1)에 복사함으로써 형성된 상기 하나 또는 그보다 많은 확장 레이어들(L1)를 포함하고,
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 참조 화상에 의해 움직임 예측을 통해 참조되는 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상이 대체 화상으로 치환되고, 상기 대체 화상을 참조하도록 상기 참조 화상의 시간 예측이 리디렉션되며, 상기 기본 레이어를 기초로 레이어 간 예측을 통해 상기 대체 화상이 상기 참조 화상의 근사치로 채워지는 것과 함께, 미리 결정된 시간 인스턴트 전에 상기 서브세트(121)에 의해 포함되지 않은 상기 비디오들(116) 또는 새로 포함된 비디오를 상기 서브세트(121)가 새로 포함하도록 상기 미리 결정된 시간 인스턴트에 상기 서브세트(121)의 변경이 발생하거나; 또는
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상들을 시간 예측을 통해 참조하는 상기 하나 또는 그보다 많은 확장 레이어들(L1)로 복사되도록, 상기 코딩된 버전의 제2 부분의 일부에 의해 구성된 상기 새로 포함된 비디오의 부분들이 상기 기본 레이어로부터 레이어 간 예측을 통해, 대체된 부분들의 근사치로 대체되는,
비디오 스트림.
제40 항에 있어서,
상기 대체 화상은 상기 비디오 스트림(120)의 재생 중에 출력되지 않는 것으로 표시된 비-출력 화상인,
비디오 스트림.
제40 항에 있어서,
참조된 화상은 상기 미리 결정된 시간 인스턴트에 선행하는 제시 순서상 마지막 화상이고, 상기 대체 화상은 상기 비디오 스트림(120)의 재생 중에 출력되는 것으로 표시된 출력 화상인,
비디오 스트림.
제40 항 내지 제42 항 중 어느 한 항에 있어서,
상기 비디오들 각각은 파노라마 뷰의 각각의 부분과 연관되며,
상기 서브세트는 상기 미리 결정된 시간 인스턴트 이전부터 이후까지 변위된 상기 파노라마 뷰의 인접 부분을 커버하도록 서로 이웃하는 상기 파노라마 뷰의 부분들과 연관된 비디오들을 포함하는,
비디오 스트림.
제43 항에 있어서,
상기 코딩된 버전의 제1 부분은 상기 파노라마 뷰를 보여주는 파노라마 화상들을 야기하도록 공간적으로 함께 스티칭되는 방식으로 상기 비디오들의 화상들을 인코딩한 것인,
비디오 스트림.
제43 항 또는 제44 항에 있어서,
상기 비디오 콘텐츠의 코딩된 버전의 제1 부분은, 상기 서브세트를 포함하며, 참조된 화상의 화상 콘텐츠를 포함하도록 상기 미리 결정된 시간 인스턴트보다 충분히 앞서 상기 새로 포함된 비디오를 포함하는 상기 비디오들(116₁-116_N)의 시변 집합을 인코딩한 것인,
비디오 스트림.
제43 항 내지 제45 항 중 어느 한 항에 있어서,
상기 파노라마 뷰 내의 상기 인접 부분의 위치를 나타내는 시그널링을 더 포함하는,
비디오 스트림.
제46 항에 있어서,
상기 시그널링은 상기 기본 레이어로부터의 상기 레이어 간 예측을 제어하는 오프셋 파라미터들에 추가하여 상기 데이터 스트림에 존재하는,
비디오 스트림.
적어도 하나의 비디오(216) 각각에 대해, 상기 각각의 비디오(216)가 시간 예측을 사용하여 그리고 제시 시간 순서에서 벗어난 코딩된 화상 순서를 사용하여 코딩되는 부분(218)을 포함하는 비디오 콘텐츠(214)의 코딩된 버전(212)으로부터 구성된 비디오 스트림으로서,
상기 콘텐츠의 코딩된 버전으로부터 복사함으로써 형성된 상기 데이터 스트림(220)의 비-출력 부분; 및
상기 비디오 콘텐츠의 구성을 합성하도록 시간 예측에 의해 상기 비-출력 부분으로부터 복사하는, 상기 데이터 스트림에 삽입된 출력 화상들을 포함하고,
상기 출력 화상들은 상기 출력 화상들이 제시 시간 순서로 상기 데이터 스트림에 배열되도록 상기 데이터 스트림에 삽입되는,
비디오 스트림.
비디오 스트림으로서,
다수의 레이어들 그리고 최상위 레이어에서 TMVP를 사용하지 않는 상기 비디오 스트림의 다중 레이어 화상들을 나타내거나, 어떠한 레이어에서도 TMVP를 사용하지 않는 상기 비디오 스트림의 다중 레이어 화상들을 표시하는 시그널링을 포함하는,
비디오 스트림.
제49 항에 있어서,
상기 시그널링에 추가하여, 움직임 보상된 시간 예측의 사용 없이 코딩된 상기 비디오 스트림의 다중 레이어 화상들을 나타내는 추가 시그널링을 포함하는,
비디오 스트림.
제49 항 또는 제50 항에 있어서,
상기 시그널링에 추가하여, 최상위 레이어에서 TMVP를 사용하지 않는 것으로 표시되지 않은 상기 비디오 스트림의 다중 레이어 영상들 중 적어도 각각의 화상들에 대해, 상기 최상위 레이어에서 TMVP를 사용하지 않고 코딩된 상기 비디오 스트림의 다음 다중 레이어 화상이 얼마나 멀리 떨어져 있는지에 관해 나타내는 또 추가 시그널링을 포함하며,
상기 다음 다중 레이어 화상이 얼마나 멀리 떨어져 있는지는 상기 비디오 스트림의 다중 레이어 화상들에서 코딩 순서로 측정되는,
비디오 스트림.
제49 항 내지 제51 항 중 어느 한 항에 있어서,
상기 비디오 스트림은 제40 항 내지 제48 항 중 어느 한 항에 따라 형성되는,
비디오 스트림.
하나 또는 그보다 많은 비디오들(16)을 포함하는 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 비디오 스트림(20)을 구성하기 위한 비디오 스트리밍 방법(10)으로서,
상기 코딩된 버전은 각각의 비디오(16)가 코딩되는 부분(18)을 각각의 비디오에 대해 포함하고,
상기 비디오 스트리밍 방법은,
상기 비디오 콘텐츠(14)의 코딩된 버전(12)으로부터 복사함으로써 다중 레이어 데이터 스트림의 하나 또는 그보다 많은 레이어들의 세트(26)를 형성하고; 그리고
상기 하나 또는 그보다 많은 레이어들의 세트(26)의 적어도 일부로부터의 레이어 간 예측을 이용하여 상기 다중 레이어 데이터 스트림의 미리 결정된 레이어의 화상들의 적어도 일부에서 적어도 하나의 비디오(16)의 구성을 합성함으로써
상기 비디오 스트림(20)을 상기 다중 레이어 데이터 스트림으로서 형성하는 단계를 포함하는,
비디오 스트리밍 방법.
비디오 스트리밍 방법(100)으로서,
비디오 콘텐츠(114)의 코딩된 버전(112)을 수신하는 단계 ― 상기 비디오 콘텐츠의 코딩된 버전(112)은 비디오들(116₁-116_N)의 집합을 기본 품질로 인코딩한 제1 부분(114₁), 및 상기 비디오들을 향상된 품질로 인코딩한 제2 부분(114₂)을 포함함 ―, 및
상기 향상된 품질로 상기 비디오들(116)의 서브세트(121)의 구성을 나타내는 비디오 스트림(120)이 다중 레이어 비디오 스트림이 되도록 상기 비디오 스트림(120)을 구성하는 단계를 포함하며,
상기 구성하는 단계는 상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제1 부분(114₁)으로부터 복사함으로써 상기 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 기본 레이어들(L0)을, 그리고 상기 비디오들의 서브세트에 관련된 상기 비디오 콘텐츠(114)의 코딩된 버전(112)의 제2 부분(114₂)의 일부를 상기 다중 레이어 비디오 스트림의 하나 또는 그보다 많은 확장 레이어들(L1)에 복사함으로써 상기 하나 또는 그보다 많은 확장 레이어들(L1)를 포함하고,
상기 다중 레이어 비디오 스트림에 대체 화상을 삽입하여, 상기 대체 화상을 참조하고 상기 기본 레이어를 기초로 레이어 간 예측을 통해 상기 대체 화상을 상기 참조 화상의 근사치로 채우도록 상기 참조 화상의 시간 예측을 리디렉션함으로써, 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 참조 화상에 의해 움직임 예측을 통해 참조되는 상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상들을 대체 화상으로 치환하거나; 또는
상기 하나 또는 그보다 많은 확장 레이어들(L1)에 복사된 상기 코딩된 버전의 제2 부분의 일부로 구성되지 않은 상기 새로 포함된 비디오의 참조 화상들을 시간 예측을 통해 참조하는 상기 하나 또는 그보다 많은 확장 레이어들(L1)로 복사되도록, 상기 코딩된 버전의 제2 부분의 일부로 구성된 상기 새로 포함된 비디오의 부분들을 상기 기본 레이어로부터 레이어 간 예측을 통해, 대체된 부분들의 근사치로 대체함으로써
미리 결정된 시간 인스턴트 전에 상기 서브세트(121)에 의해 포함되지 않은 상기 비디오들(116) 또는 새로 포함된 비디오를 상기 서브세트(121)가 새로 포함하도록 상기 미리 결정된 시간 인스턴트에 상기 서브세트(121)의 변경이 수행되는,
비디오 스트리밍 방법.
적어도 하나의 비디오(216) 각각에 대해, 상기 각각의 비디오(216)가 시간 예측을 사용하여 그리고 제시 시간 순서에서 벗어난 코딩된 화상 순서를 사용하여 코딩되는 부분(218)을 포함하는 비디오 콘텐츠(214)의 코딩된 버전(212)으로부터 비디오 스트림(220)을 구성하기 위한 비디오 스트리밍 방법(200)으로서,
상기 비디오 스트리밍 방법은,
상기 콘텐츠의 코딩된 버전으로부터 복사함으로써 데이터 스트림(220)의 비-출력 부분을 형성하고; 그리고
시간 예측에 의해 상기 비-출력 부분으로부터 복사하는 출력 화상들을 상기 데이터 스트림에 삽입함으로써 상기 비디오 콘텐츠의 구성을 합성함으로써
상기 비디오 스트림을 형성하는 단계를 포함하고,
상기 출력 화상들은 상기 출력 화상들이 제시 시간 순서로 상기 데이터 스트림에 배열되도록 상기 데이터 스트림에 삽입되는,
비디오 스트리밍 방법.
컴퓨터 상에서 실행될 때, 제53 항 내지 제55 항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는,
컴퓨터 프로그램.